SLO-SLI

  • |

    От сигналов к надёжности: SLO, ранбуки и постмортемы

    Оригинал: From Signals to Reliability: SLOs, Runbooks and Post-Mortems Все примеры конфигураций, шаблоны и правила оповещений находятся в репозитории kubernetes-observability. Вы можете построить идеальную наблюдаемость системы. Развернуть OpenTelemetry, добавить телеметрию безопасности, внедрить непрерывное профилирование. Инструментировать каждый сервис. Собирать все метрики, логи и трассировки. Создать красивые информационные дашборды Grafana. И все равно испытывать трудности во время инцидентов….

  • |

    SLI Compass: точность и детализация

    SLI Compass: точность и детализация Ментальная модель для оценки существующих SLI и новых Оригинал: SLI Compass: Fidelity and Granularity by Alex Ewerlöf Индикатор уровня обслуживания (Service Level Indicator, SLI) — основополагающая концепция в области обеспечения надёжности. При правильном применении он количественно оценивает уровень обслуживания с точки зрения пользователя в соответствии с бизнес-целями. Однако разные SLI…

  • |

    Правило 10x/9

    Оригинал Каждая дополнительная «девятка» в SLO увеличивает надежность системы в 10 раз, но и одновременно увеличивает ее стоимость тоже в 10 раз (про реальность добавления «девяток» к аптайму). Я называю это правилом «10x/9» (читается как «десять иксов на девятку»). Когда я впервые услышал об этом, мне показалось это подозрительным, но, взглянув на математику и вспомнив…