Управление инцидентами

У всех продуктов рано или поздно случаются сбои. Если мониторинг разбудил вас посреди ночи, то очень хорошо было бы представлять себе, что проверять, кому звонить, и что говорить своим клиентам. Особенно актуальным правильный incident management стал всвязи с тем, что многие продукты вышли на глобальный рынок и в принципе не имеют временных окон для обслуживания. Если что-то не работает -- компания теряет деньги.

В этом выпуске мы делились серезными инцидентами из нашей практики, и рассказывали, как удалось из них выйти. Если вас интересуют подробности самих инцидентов -- лучше послушайте запись выпуска.

Здесь же хочется рассказать о ключевых пунктах:

  • О том, что что-то может упасть, нужно думать заранее и всегда иметь хотя бы примерный регламент спасательных работ.

  • Доверять "облаку" безоговорочно нельзя: они тоже падают. Случай с Amazon EC2, о котором шла речь в выпуске.

  • Если вы располагаетесь в облаке, то хорошо бы подумать, как вы сможете развернуться в другой локации, если, скажем, затопит датацентр.

  • Очень важно отработать сценарий взаимодействия с клиентами. Тот факт что вы понимаете, как разруливать инцидент, еще не значит что ваш саппорт сможет правильно управлять ожиданиями клиентов.

  • После инцидентов хорошо бы проводить ретроспективы (постмортемы). Их цель не в том, чтобы найти виноватого, а в том, чтобы определить конкретные шаги по предотвращению такой ситуации в будущем.

  • Ни в коем случае нельзя винить людей в инциденте. Если вы это делаете, то с большой долей вероятности через некоторое время люди "встанут в защиту" и продуктивность компании упадет в разы. Но это, конечно, проще сказать, чем сделать.

Также упомянули про очень интересный проект VictorOps, который помогает планировать дежурства и следить за тем, как разруливается инцидент. У него много интеграций, включая разные чаты и системы мониторинга.

Напоследок Олег Сорока рассказал про свой опыт работы в компании с очень низким уровнем внутренних процессов. Эго описание практически один-в-один совпало с началом книги "The Phoenix Project", которую мы упомянали в выпуске про книги. Если вы хотите повлиять на процессы в своей компании, мы крайне рекомендуем ее к прочтению.

Если вам интересна эта тема, то можно еще почитать блог Kitchen Soap, который ведет John Allspaw. Он специализируется на "человеческом факторе" и очень много пишет про то, что делать с инцидентами.

comments powered by Disqus