С октября 2023 года работаю в vitech.team (ИТ-дочка Всеинструменты.ру), тут я занимаюсь вопросами внедрения SLO, наблюдаемостью, стандартизацией работы с инфраструктурой (выработка единого подхода, чтобы разработчикам было проще работать с логами, метриками, распределённой трассировкой).
С 2020 года бекэнд разработчик на Go в финтех стартапе Tabby ( Дубай), там же через год стал SRE и 1,5 года занимался внедрением SRE-культуры в компании, дежурил и руководил организацией дежурств, тренировками дежурных, управлял оповещением и реакцией на инциденты, организовал процесс работы с постмортемами, также начал внедрение SLO.
И ранее работал 7 лет руководителем разработки ПО для телекоммуникаций (писали на Delphi/FreePascal, Go) в партнерстве с NEC (Япония) на ФГУП ЭЗАН, руководил разработкой системы управления магистральным оборудованием оптоволоконной связи. Эта система работает на 9 дирекциях РЖД, на технологической связи в Газпром.
Подскажу SRE или Senior разработчикам, продактам по вопросам внедрения SLO (с применением DataDog или sloth.dev), организации дежурств, организации реакции на инциденты (инструкции дежурным, тренировки, дежурство и резервный дежурный), инцидент менеджмент, проведение постмортемов.
Подскажу про переход из разработки в SRE.
Чем SRE отличается от DevOPS. Почему надежность это важно, и почему продакты должны отвечать с командой за нее как за фичу.
Как подготовиться к внедрению SLO и как убедить разные стороны, что это нужно и выгодно всем (разработчикам, devops, продактам, руководству).
Послушаю ваши истории.