Как мы строили работу с техническими инцидентами

У нас было 30 команд, все пилили свои сервисы — иногда они падали, цепляли друг друга по пути … “Быстро поднятое упавшим не считается”, — слышали мы и продолжали падать снова. Мы не знали, сколько денег теряем, и надеялись, что “виновные” сами разберутся в Slack.

В начале 2020-го мы стали собирать статистику по инцидентам. Столкнулись с кучей проблем по ходу внедрения общего процесса работы с ними. И уже смогли найти и исправить несколько системных проблем с важными для бизнеса сервисами. Я хочу рассказать про этот опыт:

  • как мотивируем команды не хоронить инциденты в чатах, а фиксировать их. И какой лайфхак используем, если команды не хотят “выносить сор из избы”;
  • как мы проводим анализ инцидентов, чтобы точечно “отлавливать” системные ошибки, решение которых принесет максимальную пользу;
  • и какие результаты это приносит.

Статья на Хабре

Статья на Хабре вышла спустя год после доклада, но на мой взгляд получилась отлично:

https://habr.com/ru/company/oleg-bunin/blog/556082/

Запись выступления

Для тех, кому лень читать, можно посмотреть запись доклада:

Презентация

Презентацию можно скачать с сайта Онтико:

https://techleadconf.ru/2020/abstracts/6829