Курс «Проектирование надежности сайта — Site Reliability Engineering» от Slurm представляет собой интенсивную программу, направленную на освоение data-driven подхода к управлению надежностью сложных систем. SRE (Site Reliability Engineering) — это методология, которая решает задачи, схожие с DevOps, но с фокусом на обеспечение стабильности сервисов. Основная цель курса — научить инженеров и разработчиков минимизировать время простоя, сокращать количество ошибок и делать бизнес, опирающийся на информационные системы, более устойчивым и предсказуемым. Программа ориентирована на тех, кто хочет перестать работать в режиме «пожарной команды» и перейти к системному управлению надежностью.
Обучение построено на глубокой практике. Участники работают с учебным проектом — сайтом по продаже билетов в кинотеатры, состоящим из набора микросервисов. В ходе интенсива студенты проходят полный цикл жизни SRE-инженера: от проектирования архитектуры и настройки мониторинга до ликвидации аварий и проведения постмортемов. Вы научитесь формулировать показатели SLO, SLI и SLA, разрабатывать инфраструктуру, способную их поддерживать, и настраивать алертинг, который действительно помогает, а не создает «шум». Особое внимание уделяется управлению инцидентами: участники тренируются работать под давлением, выстраивать приоритеты и эффективно взаимодействовать с командой и стейкхолдерами в условиях ограниченного времени.
Курс дает возможность не только изучить теорию, но и применить её на практике: вы будете «ломать» систему, имитируя ошибки разработчиков, отказы инфраструктуры и DoS-атаки, а затем «чинить» её, анализируя причины сбоев и внедряя изменения в архитектуру и процессы. Вы узнаете, как правильно проводить онбординг проектов в SRE-команды, как настраивать Health Checking в Kubernetes и как внедрять канареечные релизы. Программа сформирована экспертами из ведущих мировых и российских компаний, таких как Google, Booking, Databricks, Яндекс и других, что гарантирует актуальность знаний и их применимость в реальных условиях.
Для успешного прохождения обучения участникам потребуются навыки работы с Linux, Kubernetes и базовое знание Python для решения кейсов. Если навыков программирования недостаточно, предусмотрена работа в командах, где экспертиза распределяется между участниками. Формат обучения включает теоретические модули, практические кейсы, разборы с экспертами и регулярные AMA-сессии, где можно получить ответы на любые вопросы. По итогам курса вы получите четкое понимание того, как снизить ущерб от отказов, как правильно собирать метрики, как быстро восстанавливать продакшн и как выстроить процессы, которые сделают ваш сервис надежным и масштабируемым.
Отзывов пока нет. Будьте первым!