От сигналов к надёжности: SLO, ранбуки и постмортемы

Оригинал: From Signals to Reliability: SLOs, Runbooks and Post-Mortems

Все примеры конфигураций, шаблоны и правила оповещений находятся в репозитории kubernetes-observability.

Вы можете построить идеальную наблюдаемость системы. Развернуть OpenTelemetry, добавить телеметрию безопасности, внедрить непрерывное профилирование. Инструментировать каждый сервис. Собирать все метрики, логи и трассировки. Создать красивые информационные дашборды Grafana.

И все равно испытывать трудности во время инцидентов.

Недостающий элемент — не технический. Он организационный. Когда во время инцидентов срабатывают алерты, ваша команда должна мгновенно ответить на четыре вопроса:

«Насколько это серьёзно?»
«Какие действия нам следует предпринять?»
«Кого необходимо привлечь к решению?»
«Когда это будет устранено?»

Без целевых показателей уровня обслуживания (Service Level Objectives, SLO) оценка серьезности становится субъективной. Разные инженеры будут по-разному оценивать, является ли 5% ошибок приемлемым или это катастрофа? Без процедур (runbooks) реагирование на инциденты превращается в импровизацию. Каждый инженер руководствуется собственной моделью мышления, что приводит к несогласованности и непоследовательности результатов. Без структурированного анализа последствий (postmortems) после инцидента команды устраняют симптомы, но упускают первопричины, снова и снова натыкаясь на одни и те же проблемы.

Разрыв между наблюдаемостью и надёжностью заключается не в сборе большего количества данных. А в предоставлении командам инструментов для систематического анализа этих данных. SLO определяют понимание того, что значит «работает». Процедуры (runbooks) формализуют коллективные знания об устранении проблем. Постмортемы позволяют организации извлекать уроки из неудач.

В этой статье речь пойдёт о человеческих системах, которые превращают наблюдаемость в надёжность. Вы узнаете, как определять уровни обслуживания SLO, которые влияют на принятие решений, создавать процедуры (runbooks), которые расширяют знания команды, структурировать разбор полётов (postmortems), которые способствует улучшениям, и внедрять эти практики в инженерную культуру без добавления бюрократии.

Почему одной наблюдаемости недостаточно для предотвращения инцидентов

Вы построили наблюдаемость (observability) всего.

Но наблюдаемость не равнозначна надежности.

Рассмотрим платежный сервис, обрабатывающий транзакции. Ваш стек наблюдаемости показывает:

Скорость запросов: 1200 запросов/сек
Уровень ошибок: 2.3%
P99 задержка: 450 мс
Загрузка CPU: 65%
Активные подключения к БД: 180

Это хорошо или плохо? Без чётко сформулированных целей вы лишь гадаете. Одни команды начали бы паниковать при 2.3% ошибок. Другие не стали бы будить инженера, пока этот показатель не достигнет 15%. Решение становится политическим, а не системным.

Что еще хуже, когда срабатывают алерты, инженерам приходится импровизировать. Алерт говорит «высокая задержка», но не сообщает вам, следует ли перезапускать поды, масштабироваться горизонтально, проверять базу данных или откатывать последнее развертывание. Каждый инцидент превращается в исследовательский проект.

И без структурированных ретроспектив вы устраняете непосредственную проблему, но упускаете системные причины. Пул подключений к базе данных был слишком мал. Изменения конфигурации не требуют согласования. Откаты развертываний не автоматизированы. Вы будете постоянно сталкиваться с похожими проблемами, потому что не извлекаете уроки.

SLO, runbooks и postmortems решают эти проблемы. Они преобразуют наблюдаемость из пассивного сбора данных в активное повышение надежности. Я видел, как команды сокращали свое среднее время до решения (MTTR) на 60% в течение трех месяцев после внедрения этих практик, не потому что они собирали больше данных, а потому что они знали, как действовать на их основе.

Показатели Уровня Обслуживания (Service Level Indicators) определяют то, что действительно важно

Показатели Уровня Обслуживания (SLI) — это конкретные метрики, которые измеряют надежность с точки зрения пользователя. Не внутренние метрики, такие как загрузка CPU или память. Не инфраструктурные метрики, такие как количество подов. А поведение, с которым сталкиваются клиенты, — то, что пользователи реально испытывают.

Четыре золотых сигнала (Four Golden Signals) предоставляют исходную структуру: задержка (как быстро), трафик (какой объем), ошибки (сколько ошибок) и насыщение (насколько заполнены ваши критические ресурсы — CPU, память, пулы потоков/подключений, глубина очереди, диск/сетевой ввод-вывод). Они применимы почти к любому сервису, но вам нужно конкретизировать их для вашей конкретной рабочей нагрузки.

Для REST API вашими SLI могут быть:

Доступность: процент запросов, возвращающих статускоды 2xx или 3xx
Задержка: 99-й процентиль времени ответа для успешных запросов
Пропускная способность: запросов в секунду, которые служба может обработать

Для конвейера данных ваши SLI другие:

Актуальность: время между созданием данных и их доступностью в хранилище
Корректность: процент записей, обработанных без ошибок качества данных
Полнота: процент ожидаемых исходных записей, присутствующих на выходе

Ключевой момент — измерять то, что испытывают пользователи, а не то, что делает инфраструктура. Пользователям не важно, используют ли ваши поды 80% CPU. Им важно, прошла ли их оплата успешно и сколько времени это заняло.

Реализуйте SLI для доступности, используя данные из OpenTelemetry. Если вы задали namespace: traces.spanmetrics, как указано выше, метрики спанов (span-metrics) будут доступны в Prometheus как traces_spanmetrics_*. Если вы используете другое пространство имен, скорректируйте названия метрик соответствующим образом. Пример запроса:

# Availability SLI: percentage of successful requests
sum(rate(traces_spanmetrics_calls_total{
  service_name="checkout-service",
  status_code=~"2..|3.."
}[5m]))
/
sum(rate(traces_spanmetrics_calls_total{
  service_name="checkout-service"
}[5m]))

Для оценки задержки используйте квантили гистограммы из метрик длительности инструментированных запросов. При настройке namespace: traces.spanmetrics гистограмма длительности доступна как traces_spanmetrics_duration_bucket с сопровождающими метриками _sum и _count:

# Latency SLI: 99th percentile response time
histogram_quantile(
  0.99,
  sum by (le) (
    rate(traces_spanmetrics_duration_bucket{
      service_name="checkout-service",
      status_code=~"2.."
    }[5m])
  )
)

Коннектор spanmetrics в OpenTelemetry Collector автоматически генерирует эти метрики из трассировок. Вы инструментируете код один раз и получаете как детализированные трассировки для отладки, так и агрегированные метрики для SLO. Названия метрик зависят от заданного пространства имен коннектора, а точки в Prometheus преобразуются в подчеркивания (например, traces.spanmetrics → traces_spanmetrics).

Пример конфигурации, согласующей используемые ниже имена метрик:

connectors:
  spanmetrics:
    namespace: traces.spanmetrics

service:
  pipelines:
    traces:
      receivers: [otlp]
      exporters: [spanmetrics]
    metrics:
      receivers: [spanmetrics]
      exporters: [prometheusremotewrite]

Не пытайтесь создавать SLI для всего сразу. Начните с 2-3 показателей для ваших наиболее критичных пользовательских сценариев. Для e-commerce-платформы это, вероятно: просмотр товаров, добавление в корзину и оформление заказа. Для каждого сценария определяются SLI доступности и задержки. В итоге всего шесть. Управляемое количество.

Избегайте показушных метрик, маскирующихся под SLI. «Среднее время ответа» -это ужасный SLI, потому что он скрывает выбросы. Один запрос, выполняющийся 30 секунд, в то время как 99 других занимают 100 мс, в среднем даст 400 мс, что выглядит приемлемо, но означает ужасный пользовательский опыт. Вместо этого используйте процентили. P50, P95, P99.

Избегайте внутренних метрик, которые не отражают пользовательский опыт. «Lag консьюмера Kafka» не является SLI, если вы не можете перевести его в влияние на пользователя. Если лаг означает, что пользователи видят устаревшие данные, тогда ваш SLI — это «актуальность данных». Измеряйте внешний симптом, а не внутреннюю причину.

Показатели Уровня Обслуживания (SLO) превращают метрики в целевые показатели надежности

SLO (Service Level Objectives) — это целевые показатели, которые вы устанавливаете для своих SLI. «99,9% запросов будут успешными» или «99% запросов будут выполняться быстрее 500 мс». Эти цели становятся договоренностями между вашим сервисом и его пользователями.

Правильный SLO балансирует ожидания пользователей и инженерные затраты. Установить цель доступности в 99,99% звучит отлично, пока вы не осознаете, что это позволяет всего 4,38 минуты простоя в месяц. Достижение этого требует избыточности, автоматизации и операционных накладных расходов, которые могут не окупиться никогда.

Процесс установки SLO выглядит так:

Измеряйте текущую производительность в течение 2-4 недель.
Определите, что действительно нужно пользователям (поговорите с ними).
Установите цели чуть-чуть лучше текущих, но достижимые.
Итерируйте, основываясь на расходовании бюджета ошибок.

Примерный подход к настройке SLO:

Если текущая производительность показывает 99,7% доступности и P99 задержку в 800 мс, но исследование пользователей указывает, что временные замедления допустимы, а сбои — нет, вы можете установить:

Доступность: 99,5% запросов успешны (более консервативно, чем сейчас, предоставляя бюджет ошибок).
Задержка: 99% запросов выполняются быстрее 1000 мс.

Эти SLO переводятся в количественные бюджеты:

Бюджет ошибок 0,5% = 14,4 часа простоя в месяц.
1% запросов может превышать целевой показатель задержки.

Это создает четкие ограничивающие правила для принятия решений. Когда бюджет ошибок сжигается быстрее ожидаемого, команды замедляют выпуск функций и фокусируются на надежности. При наличии оставшегося бюджета ошибок команды могут идти на взвешенные риски в инновациях.

Реализуйте SLO как recording rules в Prometheus. Это предварительно вычисляет значения SLI и ускоряет работу дашбордов. Пример для задержки ниже предполагает, что единица измерения длительности в spanmetrics — миллисекунды, а порог составляет 1 с (le="1000"):

groups:
- name: checkout-service-slo
  interval: 30s
  rules:
  # Availability SLI
  - record: sli:availability:ratio_rate5m
    expr: |
      sum(rate(traces_spanmetrics_calls_total{
        service_name="checkout-service",
        status_code=~"2..|3.."
      }[5m]))
      /
      sum(rate(traces_spanmetrics_calls_total{
        service_name="checkout-service"
      }[5m]))      

  # Latency SLI (percentage of requests under threshold)
  - record: sli:latency:ratio_rate5m
    expr: |
      sum(rate(traces_spanmetrics_duration_bucket{
        service_name="checkout-service",
        le="1000"
      }[5m]))
      /
      sum(rate(traces_spanmetrics_duration_count{
        service_name="checkout-service"
      }[5m]))

Затем создайте дашборд в Grafana, который показывает соответствие SLO с течением времени. Добавьте индикатор (gauge), отображающий текущий остаток бюджета ошибок. Когда бюджет ошибок опускается ниже 20%, окрашивайте его в красный цвет. Это дает командам визуальный индикатор риска.

Бюджеты ошибок как валюта надежности

Бюджеты ошибок переворачивают разговор о надежности. Вместо «нам нужна 100% доступност» (что невозможно) вы получаете «у нас есть бюджет на сбои, тратьте его на инновации, а не на панику».

Если ваш SLO составляет 99,5% доступности за 30 дней, ваш бюджет ошибок — это 0,5% запросов. При 1 миллионе запросов в день это 5000 неудачных запросов в день или 150000 в месяц. Каждый реальный сбой уменьшает ваш остаточный бюджет.

Рассчитайте скорость сжигания бюджета ошибок (burn rate), чтобы обнаруживать проблемы до того, как вы исчерпаете бюджет:

# Current error rate vs error budget rate
# If this exceeds 1.0, you're burning budget faster than planned
(1 - sli:availability:ratio_rate5m) / (1 - 0.995)

Скорость сжигания (burn rate) 1,0 означает, что вы расходуете бюджет ошибок ровно с той скоростью, которую допускает ваш SLO. Скорость сжигания 10 означает, что вы исчерпаете свой месячный бюджет за 3 дня при текущем уровне сбоев. Скорость сжигания 0,5 означает, что у вас есть запас.

Оповещение по нескольким окнам и нескольким скоростям сжигания предотвращает как ложные срабатывания, так и медленное обнаружение. Google SRE Workbook рекомендует настраивать оповещения по двум условиям:

Быстрое сжигание (2% бюджета потреблено за 1 час) означает немедленный пейджинг.
Медленное сжигание (5% бюджета потреблено за 6 часов) означает создание тикета для расследования.

Вот правило оповещения:

groups:
- name: checkout-service-slo-alerts
  rules:
  # Fast burn: 14.4x burn rate over 1 hour AND 2 minutes
  - alert: CheckoutServiceErrorBudgetFastBurn
    expr: |
      (1 - sli:availability:ratio_rate5m{service_name="checkout-service"}) / (1 - 0.995) > 14.4
      and
      (1 - sli:availability:ratio_rate5m{service_name="checkout-service"}) / (1 - 0.995) > 14.4 offset 2m      
    for: 2m
    labels:
      severity: critical
      team: payments
    annotations:
      summary: "Checkout service burning error budget at 14.4x rate"
      description: "At current error rate, monthly error budget will be exhausted in {{ $value | humanizeDuration }}. Current availability: {{ $labels.availability }}%"
      runbook_url: "https://runbooks.internal/payments/checkout-error-budget-burn"

  # Slow burn: 6x burn rate over 6 hours
  - alert: CheckoutServiceErrorBudgetSlowBurn
    expr: |
      (1 - avg_over_time(sli:availability:ratio_rate5m{service_name="checkout-service"}[6h])) / (1 - 0.995) > 6      
    for: 15m
    labels:
      severity: warning
      team: payments
    annotations:
      summary: "Checkout service burning error budget at 6x rate"
      description: "Error budget consumption is elevated. Review recent changes."
      runbook_url: "https://runbooks.internal/payments/checkout-error-budget-burn"

Эти пороги балансируют между ложными срабатываниями и временем обнаружения. Оповещения о быстром сжигании немедленно фиксируют серьезные сбои. Оповещения о медленном сжигании обнаруживают постепенную деградацию до того, как она исчерпает ваш бюджет.

Бюджеты ошибок также определяют политику принятия решений. Многие команды внедряют:

Зеленый (>75% бюджета осталось): Свободно выпускайте функции, идите на риски.
Желтый (25-75% осталось): Проводите ревью запросов на изменение, отдавайте предпочтение низкорисковым улучшениям.
Красный (<25% осталось): Заморозка функциональности, фокус на надежности.

Эта политика обеспечивается за счет инженерных процессов, а не инструментов. Когда ваша панель управления показывает 18% оставшегося бюджета ошибок, тимлид знает, что нужно отложить рискованный рефакторинг до следующего месяца. Я видел, как эта система полностью меняла динамику между продуктом и разработкой. Вместо споров о том, является ли релиз «слишком рискованным», команды смотрят на панель бюджета ошибок и принимают основанные на данных решения менее чем за пять минут.

Бюджеты ошибок говорят вам, когда действовать. runbooks говорят вам, как действовать.

Руководства по эксплуатации (Runbooks) превращают оповещения в действия

Ранбуки превращают алерты из «что-то сломалось» в «вот что нужно сделать точно». Каждый алерт должен ссылаться на ранбук. Без исключений.

Структура ранбука должна быть единообразной для всех сервисов:

# [Service Name] - [Alert Name]

## Summary
One-sentence description of what this alert means and user-facing impact.

## Severity
Critical / Warning / Info

## Diagnosis
1. Check current SLO status: [Grafana dashboard link]
2. Review recent traces: {service_name="checkout-service", status="error"}
3. Correlate with deployments: [ArgoCD/Flux dashboard link]
4. Review metrics: [Grafana dashboard link]

## Mitigation
1. Rollback: `kubectl rollout undo deployment/checkout-service -n production`
2. Scale up: `kubectl scale deployment/checkout-service --replicas=10 -n production`
3. Disable feature: `kubectl set env deployment/checkout-service FEATURE_X=false`

## Escalation
- On-call engineer (15 min) → Service owner → Incident commander → Executive
- Contact: [PagerDuty link]

## Investigation
After mitigation: Check traces, [profiling data](/posts/ebpf-parca-observability/), [audit logs](/posts/kubernetes-security-observability/) and database logs.

Этот шаблон напрямую связан с вашим стеком наблюдаемости. Раздел диагностики использует унифицированный пайплайн OpenTelemetry для корреляции сигналов. Раздел исследования при необходимости ссылается на данные профилирования и наблюдаемости безопасности. Runbooks хранятся в Git вместе с кодом сервиса. Относитесь к ним как к коду: контролируйте версии, проводите код-ревью, тестируйте. Когда вы развертываете новую функцию — обновляйте руководство. Когда инцидент выявляет пробел — создавайте Pull Request для его устранения.

Связывание runbooks с alerts

Помните аннотацию runbook.url, которую мы добавили в пайплайн OpenTelemetry? Теперь она окупается. В ваши алерты автоматически включаются ссылки на ранбуки:

annotations:
  summary: "{{ $labels.service_name }} error rate above threshold"
  description: "Current error rate: {{ $value }}%. SLO allows 0.5%."
  runbook_url: '{{ $labels.runbook_url }}'
  dashboard: 'https://grafana.internal/d/service-overview?var-service={{ $labels.service_name }}'
  traces: 'https://grafana.internal/explore?queries=[{"datasource":"tempo","query":"{{ $labels.service_name }}","queryType":"traceql"}]'

Когда приходит алерт, он содержит:

Что сломалось (имя сервиса, уровень ошибок)
Текущее состояние против ожидаемого (порог SLO)
Где искать (ссылка на дашборд, запрос для трассировок)
Что делать (ссылка на руководство)

Дежурный инженер переходит по ссылке на ранбук и следует по шагам. Никаких догадок. Никаких археологических раскопок в чатиках в попытках вспомнить, что сработало в прошлый раз.

Postmortems стимулируют обучение на неудачах

Постмортемы (также называемые ретроспективами инцидентов или обзорами по факту действий) превращают инциденты в системные улучшения. Цель — не искать виноватых, а выявить пробелы в процессах, инструментах или архитектуре, которые позволили инциденту произойти.

Ключевой принцип — культура без обвинений. Вы исходите из того, что люди принимали разумные решения, исходя из информации, доступной на тот момент. Если кто-то развернул сломанный код, вопрос не в том, «почему он так сделал?», а в том, «почему наши тесты этого не поймали?» и «почему он мог развернуть код в продакшене без ревью?».

Post-Mortem Template

# Incident: [Brief description]

**Date**: [Date] | **Duration**: [Duration] | **Severity**: [Critical/High/Medium]  
**Commander**: [Name] | **Responders**: [Names]

## Impact
- Users affected: [Number/Percentage]
- Revenue impact: [Amount if applicable]
- SLO impact: [Error budget consumed]

## Timeline
Key events: Alert fired → Investigation began → Discovery → Mitigation → Recovery → Resolution

## Root Cause
What changed, why it caused the problem, why safeguards didn't prevent it.

## What Went Well / Poorly
**Well**: Fast detection, effective collaboration, good tooling use  
**Poorly**: Missing alerts, unclear ownership, inadequate testing, manual processes

## Action Items
| Action | Owner | Priority | Due Date | Status |
|--------|-------|----------|----------|--------|
| [Specific improvement] | [Team] | P0-P2 | [Date] | [Status] |

**P0**: Prevents similar incidents | **P1**: Improves detection/mitigation | **P2**: Nice to have

## Lessons Learned
System-level insights, team practice changes, observability gaps identified.

Постмортемы проводятся в течение 48 часов после устранения инцидента, пока детали свежи в памяти. Назначьте часовую встречу со всеми участниками ликвидации и соответствующими заинтересованными сторонами. Используйте шаблон для структурирования обсуждения.

Раздел с actionable items (конкретными задачами) критически важен. У них должны быть ответственные владельцы, сроки выполнения и система отслеживания. Поднимайте эти задачи на планировании спринтов, чтобы убедиться, что они приоритизированы. В противном случае постмортемы превращаются в спектакль, где все кивают, пишут «нам нужно лучше мониторить» — и ничего не меняется.

Распространенные антипаттерны постмортемов

Обвинения, замаскированные под процесс: формулировка «должен был знать лучше» — неверна (спросите, почему система это позволила).
Размытые задачи: «Улучшить мониторинг» — бесполезно (будьте конкретны, указывайте даты и метрики).
Отсутствие контроля выполнения: Включайте задачи в бэклог спринта как приоритетные.
Обучение в изоляции: Делитесь отчетами о разборах со всеми инженерными командами.
Профанация инцидентов: Если вы не выполняете поставленные задачи, прекратите писать отчеты (вы тратите время впустую).

Распространенный антипаттерн: команды отмечают задачи по результатам разбора как «выполненные», но при этом исправляют только непосредственные симптомы, оставляя системные проблемы нерешенными. Это не обучение. Это бюрократия.

Создание культуры надежности, которая приживается

SLO, runbooks и postmortems терпят неудачу, когда они внедряются сверху вниз, без вовлечения команды. Вам нужно встроить эти практики в повседневную работу, а не накладывать их как бюрократию.

Стратегия внедрения

Выберите ваш самый критичный пользовательский путь/опыт. Определите 2-3 SLI, установите SLO, создайте дашборд. Когда произойдет следующий инцидент, команда сразу увидит ценность (четкое влияние на бюджет ошибок, направленные действия через ранбук, конкретные улучшения по результатам разбора). Успех с одним сервисом создает органический спрос. Команды сопротивляются, пока не увидят, как другая команда устранила инцидент за 15 минут с помощью четких ранбуков и данных о бюджете ошибок.

Не создавайте центральную «команду надежности», которой принадлежат все SLO и ранбуки (это не масштабируется). Предоставьте шаблоны (правила записи Prometheus, дашборды Grafana, шаблоны ранбуков и постмортемов) и позвольте командам сервисов адаптировать их под свои нужды. Платежам важна успешность транзакций, поиску — актуальность результатов. Одинаковая структура, разные метрики.

Свяжите это со стимулами

Что измеряется, то и управляется. Если ваши критерии продвижения по карьере включают «выпустил 5 функций», но не «поддерживал SLO на уровне 99,9%», разработка будет гнаться за количеством выпущенных функций.

Включайте метрики надежности в цели команды:

Поддерживать соответствие SLO (>95% временных периодов соответствуют цели).
Ноль инцидентов, для которых нет ранбуков.
Все критические инциденты разбираются в течение 48 часов.
Задачи по результатам разборов выполняются в течение 30 дней.

Отмечайте победы в надежности так же, как и запуски функций. Если команда три месяца не исчерпывала бюджет ошибок — это достойно признания.

Интегрируйте в существующие рабочие процессы

Встройте надежность в существующие процессы.

Планирование спринта: Анализируйте расход бюджета ошибок.
Стендапы: Отчитывайтесь о статусе SLO наряду с прогрессом по функциям.
Ревью кода: Проверяйте наличие инструментирования и обновлений руководств.
Ретроспективы: Используйте шаблон посмертного разбора для инцидентов, повлиявших на SLO.

Назначьте по одному инженеру в команде на роль «наблюдаемости» (observability champion) — ответственного за определение SLI/SLO, актуализацию руководств, организацию постмортемов и обмен практиками. Ответственные встречаются ежемесячно, чтобы делиться шаблонами и стандартизировать инструменты.

Психологическая безопасность как основа

Ничто из этого не работает без психологической безопасности. Беспристрастная культура означает фокусировку ответственности на системах и процессах, а не на отдельных людях. Когда в продакшен попадает сломанный код, спрашивайте «Почему наш CI этого не поймал?», а не «Почему ты не протестировал как следует?». Когда кто-то принимает неудачное архитектурное решение, спрашивайте «Какая информация помогла бы принять лучшее решение?». Лидеры задают тон: «что мы можем извлечь?», а не «кто накосячил?».

Собираем все вместе

Наблюдаемость без практик обеспечения надежности — это данные ради данных. Практики обеспечения надежности без наблюдаемости — это работа вслепую. Вместе они преобразуют реактивное тушение пожаров в проактивную инженерию надежности.

Эти практики создают организационные возможности, выходящие за рамки инструментов. Общее понимание надежности (соответствие SLO, бюджеты ошибок), коллективные знания об устранении проблем (масштабируемые руководства), коррелированные сигналы от унифицированной наблюдаемости (метрики, логи и трассировки) и системное обучение на неудачах (постмортемы, которые двигают улучшения).

Начните с малого. Один сервис, два SLI, три руководства. Продемонстрируйте ценность, а затем масштабируйтесь. Улучшение MTTR на 60%, принятие решений о рисках за 5 минут, предотвращение повторяющихся инцидентов — это не что-то недостижимое. Это реально достижимо в течение нескольких месяцев после внедрения этих практик. Инфраструктура готова. Теперь превратите сигналы в надежность с помощью человеческих систем и командных практик.

От сигналов к надёжности: SLO, ранбуки и постмортемы

Почему одной наблюдаемости недостаточно для предотвращения инцидентов

Показатели Уровня Обслуживания (Service Level Indicators) определяют то, что действительно важно

Показатели Уровня Обслуживания (SLO) превращают метрики в целевые показатели надежности

Бюджеты ошибок как валюта надежности

Руководства по эксплуатации (Runbooks) превращают оповещения в действия

Связывание runbooks с alerts

Postmortems стимулируют обучение на неудачах

Post-Mortem Template

Создание культуры надежности, которая приживается

Развенчание мифа о «трёх столпах наблюдаемости»

Как читать книги про SRE, чтобы они приносили пользу

Волшебные файлы Git

Как я боролся с OOM Killer в моем приложении

Правило 10x/9

Resilience Engineering

Почему одной наблюдаемости недостаточно для предотвращения инцидентов

Показатели Уровня Обслуживания (Service Level Indicators) определяют то, что действительно важно

Показатели Уровня Обслуживания (SLO) превращают метрики в целевые показатели надежности

Бюджеты ошибок как валюта надежности

Руководства по эксплуатации (Runbooks) превращают оповещения в действия

Связывание runbooks с alerts

Postmortems стимулируют обучение на неудачах

Post-Mortem Template

Создание культуры надежности, которая приживается

Похожие записи