Доклад технического директора компании «Флант» () Дмитрия Столярова на конференции DevOops 2019 (29 октября, Санкт-Петербург). В нём рассказывается о том, как эволюционировала наша система обработки инцидентов и какие фундаментальные проблемы мы научились решать. * Текстовый обзор доклада: * Презентация: (00:33) Вступление (01:00) Область применения, о которой идёт разговор (03:22) 2009 год: один человек ловит СМСки и в какой-то момент он устал (07:51) Куда должны сыпаться алерты и почему (08:06) Кто разбирает алерты (08:24) Как сообщаем об алертах (09:46) Содержимое алерта (10:58) Лейблы, лейблы, лейблы (11:31) Глубокое погружение в тему виды алертов и следствия из этого (14:13) Что делать с «моргающими» инцидентами и как мы решили это в интерфейсе (18:36) Рабочий процесс по решению проблемы (19:42) Фундаментальная проблема существующих тикетных систем и гарантий (20:41) Передача ответственности между исполнителями (21:17) Итог решения вышеописанных проблем (23:37) Что делать, когда кажется, что всё горит (26:47) Про понятие существенных изменений (28:10) А если мониторинг сломался? (30:30) Фундаментальная возможность поиска, фильтрации и следствия из нашей реализации (31:05) Когда действия инженера приводят к заваливанию мониторинга алертами (34:09) Как выявлять систематические проблемы и видеть лес за деревьями (35:19) Организационная структура и зоны ответственности (44:50) Распространение знаний о смысле алертов (47:13) Обеспечение уровня обслуживания (58:21) Kubernetes и что он привносит (59:25) Статистика, показывающая эффективность подхода (1:00:47) Мы готовы к партнёрству в области решений для обработки инцидентов Обратная связь: * Расскажите, если вам нужна эта система как Open Source: поделитесь ссылкой на доклад в Facebook/Twitter с хэштегом #Флант * Хотите внедрить в вашу компанию? Напишите на sales@ с темой «Система управления инцидентами» * Готовы стать бизнес-партнёром? Напишите на hr@ с темой «Система управления инцидентами»
Hide player controls
Hide resume playing