High Output Management

Книга Энди Гроува (Andy Grove), легендарного CEO Intel, — это классика менеджмента, но её идеи идеально подходят для SRE. Почему? Потому что управление инфраструктурой — это производственный процесс, где важны:
✔️ Предсказуемость (как в промышленных цехах)
✔️ Масштабируемость (как в фабриках Intel)
✔️ Измеряемость (как в микрочипах)

Output — это что на самом деле важно

Главный тезис Гроува:

«Менеджер нужен только для одного — увеличивать output своей команды.»

Как это работает в SRE?

Output SRE — это не количество алертов или мониторинговых дашбордов, а:
- Снижение MTTR (Mean Time To Repair).
- Рост uptime (например, с 99.9% до 99.99%).
- Уменьшение ручного труда (через автоматизацию).

Пример:
🔹 Плохо: «Мы написали 100 скриптов для мониторинга.»
🔹 Хорошо: «Наши скрипты сократили время диагностики инцидентов на 40%.»

Управление через Metrics

Гроув был инженером и верил в цифры, а не в интуицию.

Какие метрики важны для SRE?

Метрика	Зачем?
MTTR	Измеряет, как быстро вы чините продакшен.
Error Budget	Показывает, сколько «права на ошибку» осталось.
Toil Ratio	Сколько времени тратится на рутину (вместо стратегических задач).

Совет от Гроува:

«Если метрику нельзя измерить — ею нельзя управлять.»

«Запас Прочности» (Slack Time) — почему SRE нужно «ничегонеделание»

Гроув настаивал: команды должны иметь 20-30% свободного времени для:

Обучения.
Улучшения процессов (а не только «тушения пожаров»).
Проактивного анализа рисков.

Как это применить в SRE?

✅ Зарезервируйте время на:

Технический долг (например, миграцию с устаревшего Kubernetes).
Chaos Engineering (тесты на устойчивость).
Документацию (чтобы не тратить часы на объяснения).

Ошибка: Загружать SRE на 100% инцидентами — это путь к выгоранию и хрупкой системе.

«Параллельные Процессы» (Parallel Processing) — как масштабировать SRE

В Intel чипы тестировали параллельно, а не последовательно. Аналогично в SRE:

Как ускорить работу?

🔹 Автоматизируйте рутину (например, деплой через GitOps).
🔹 Делегируйте (например, пусть Dev-команды сами настраивают часть алертов).
🔹 Стандартизируйте (шаблоны Terraform, общие библиотеки мониторинга).

Пример:
Вместо того чтобы SRE вручную проверять каждый релиз, внедрите:

Automated canary analysis.
Policy-as-Code (например, OPA/Gatekeeper).

«Управление через Objectives» («предвосхищая OKR»)

Задолго до OKR Гроув предлагал ставить четкие цели (Objectives) и измерять результат.

Пример SRE-целей по Гроуву:

Objective	Key Actions
Уменьшить влияние инцидентов	1. Внедрить автоматическое rollback-тестирование. 2. Провести тренировки по инцидент-менеджменту.
Снизить техдолг	1. Мигрировать 2 легаси-сервиса в квартал. 2. Удалить 20% неиспользуемого кода.

«High Output Management» — это не про менеджеров, а про эффективность. Для SRE это значит:
🔹 Измерять то, что важно (не процессы, а результат).
🔹 Оставлять время на улучшения (а не только на «пожары»).
🔹 Делигировать и автоматизировать (как в лучших фабриках мира).

Финалка:

«Ваша работа — не „поддерживать инфраструктуру“, а делать её надежнее с каждым днём.»

SRE | Книга | Менеджмент

Staff Engineer: Leadership Beyond the Management Track

Отislander 29.05.202529.05.2025

Если вы Site Reliability Engineer (SRE), DevOps-инженер или просто senior+ инженер, задумывавшийся о карьере вне менеджмента, книга Will Larson «Staff Engineer: Leadership Beyond the Management Track» — отличный гид по тому, как расти в технической экспертизе. Книга посвящена роли старших инженеров (Staff Engineer, Principal Engineer и выше) в технологических компаниях. Она объясняет, как эти специалисты влияют на организацию, не…

SRE | Перевод

How Complex Systems Fail / Как падают сложные системы

Отislander 19.06.202519.06.2025

(Это краткий трактат о природе аварий; как оцениваются аварии; как авария связана с непосредственной причиной; и вытекающее из этого новое понимание безопасности пациентов) Опасность — неотъемлемый атрибут сложных систем Все интересные системы (например, транспорт, здравоохранение, производство электроэнергии) изначально и неизбежно опасны по своей природе. Иногда можно изменить количество опасных факторов, но процессы, задействованные в системе,…

SRE | Перевод

Деградация vs сбой

Отislander 04.03.202504.03.2025

В чем разница между деградацией сервиса, перебоями в обслуживании и простоем сервиса и почему это имеет значение? Оригинал: Degradation vs disruption В контексте проектирования надежности есть три термина, которые связаны, но иногда используются неправильно. Грубо говоря: Ухудшение обслуживания (деградация сервиса) — это когда качество обслуживания падает. Если служба полностью останавливается, это перебои в работе службы. Если…

SRE | Перевод

Grafana + Prometheus: обнаружение аномалий

Отislander 31.03.2025

В предыдущей статье мы рассмотрели обнаружение аномалий с помощью правила 3 сигм в Influx. Теперь сделаем то же самое в Grafana + Prometheus. Краткое напоминание: правило 3 сигм Правило трех сигм утверждает, что приблизительно все наши «нормальные» данные должны находиться в пределах трех стандартных отклонений (σ) от среднего значения (μ) ваших данных. В этой статье исследуется, как мы можем измерять…

SRE

Что такое Reliability Block Diagrams (RBD) и как их использовать

Отislander 31.03.2025

Reliability Block Diagrams (RBD, блок-схема или структурная схема надежности) — это один из методов анализа надежности системы, существует уже очень давно, помогая системным инженерам понять, как различные элементы и их взаимосвязи могут повлиять на общую надежность и работу системы. Построив логическую схему системы, можно получить отличное представление о том, где находятся ее слабые звенья. В…

SRE | Перевод

Правило 10x/9

Отislander 04.03.202504.03.2025

Оригинал Каждая дополнительная «девятка» в SLO увеличивает надежность системы в 10 раз, но и одновременно увеличивает ее стоимость тоже в 10 раз (про реальность добавления «девяток» к аптайму). Я называю это правилом «10x/9» (читается как «десять иксов на девятку»). Когда я впервые услышал об этом, мне показалось это подозрительным, но, взглянув на математику и вспомнив…

Output — это что на самом деле важно

Как это работает в SRE?

Управление через Metrics

Какие метрики важны для SRE?

«Запас Прочности» (Slack Time) — почему SRE нужно «ничегонеделание»

Как это применить в SRE?

«Параллельные Процессы» (Parallel Processing) — как масштабировать SRE

Как ускорить работу?

«Управление через Objectives» («предвосхищая OKR»)

Пример SRE-целей по Гроуву:

Похожие записи