12 лет строил надёжность в TravelLine — вырос от инженера до Head of SRE/DevOps/Infrastructure. Привёл ключевые сервисы к доступности 99.95–99.98%, запустил с нуля incident management и postmortem-культуру, внедрил SLO/SLI и error budget,развил команду Infrastructure и собрал с нуля DevOps и SRE. Сейчас веду независимую SRE-практику. Помогаю инженерам и командам разобраться, как надёжность работает на практике — от дежурств и разбора инцидентов до построения SRE-функции
Ответы на вопросы по SRE — разовая консультация. Спрашивайте про SLO/SLI и error budget, on-call и дежурства, postmortem, инциденты, мониторинг/observability — отвечу на своём опыте, по конкретному вопросу или просто чтобы разобраться в теме.
Разбор инцидента или postmortem — приносите реальный инцидент или postmortem: покажу, как искать root cause, как писать postmortem без поиска виноватых, как превращать инциденты в системные улучшения.
Менторство по надёжности — как углубиться в SRE/инфраструктуру, брать сложные задачи и зоны ответственности, вырасти из «чиню задачи» в «отвечаю за надёжность системы».
Дополнительно: mock-интервью на SRE/DevOps/инфраструктурные роли