В нашем продукте инциденты обходятся бизнесу дорого, но внедрять суровые практики для доступности «пять девяток» избыточно. Стояла задача построить процесс управления инцидентами для систематизации подхода к авариям, построения и улучшения метрик реагирования. При этом нужен легковесный и простой в использовании процесс. На основе своего опыта я расскажу, как построить процесс, не создающий лишней нагрузки на разработчиков. Опишу, что у нас получилось: классификация инцидентов, матрица рисков, разбор постмортемов, инструменты, регламенты, обучение дежурных. Если раньше причины устранялись только у половины инцидентов, то теперь ни одной аварии не проходит без внимания. Сайт – Презентация –
Hide player controls
Hide resume playing