SRE — Hope Is Not a Strategy

Что такое и как работает перцептрон

Отislander 23.07.202523.07.2025

В 1957 году Фрэнком Розенблаттом был изобретен перцептрон — простейшая нейронная сеть и первая математическая модель нейрона мозга, которая принимает входные данные, обрабатывает их и выдает результат (например, «да» или «нет»). Как он работает? Входные данные — это числа (например, признаки объекта: вес, размер, цвет). Веса — каждый вход имеет свой «вес» (важность). Чем больше вес, тем…

SRE | Перевод

How Complex Systems Fail / Как падают сложные системы

Отislander 19.06.202519.06.2025

(Это краткий трактат о природе аварий; как оцениваются аварии; как авария связана с непосредственной причиной; и вытекающее из этого новое понимание безопасности пациентов) Опасность — неотъемлемый атрибут сложных систем Все интересные системы (например, транспорт, здравоохранение, производство электроэнергии) изначально и неизбежно опасны по своей природе. Иногда можно изменить количество опасных факторов, но процессы, задействованные в системе,…

SRE | Книга | Менеджмент

High Output Management

Отislander 31.05.2025

Книга Энди Гроува (Andy Grove), легендарного CEO Intel, — это классика менеджмента, но её идеи идеально подходят для SRE. Почему? Потому что управление инфраструктурой — это производственный процесс, где важны: ✔️ Предсказуемость (как в промышленных цехах) ✔️ Масштабируемость (как в фабриках Intel) ✔️ Измеряемость (как в микрочипах) Output — это что на самом деле важно Главный тезис Гроува: «Менеджер нужен только для одного…

SRE | Книга | Менеджмент

The Hard Thing About Hard Things (Ben Horowitz)

Отislander 30.05.202523.07.2025

Книга Бена Хоровица — это рассказ о том, как выживать в кризисах, технических долгах и организационных провалах. Хотя автор пишет про управление компанией (Horowitz — сооснователь Andreessen Horowitz и бывший CEO Loudcloud/Netscape), его идеи идеально ложатся на реалии SRE. Почему? Потому что Site Reliability Engineering — это постоянное балансирование между: Стабильностью и скоростью («Можно ли выкатить фичу, если…

SRE | Книга | Менеджмент

Staff Engineer: Leadership Beyond the Management Track

Отislander 29.05.202529.05.2025

Если вы Site Reliability Engineer (SRE), DevOps-инженер или просто senior+ инженер, задумывавшийся о карьере вне менеджмента, книга Will Larson «Staff Engineer: Leadership Beyond the Management Track» — отличный гид по тому, как расти в технической экспертизе. Книга посвящена роли старших инженеров (Staff Engineer, Principal Engineer и выше) в технологических компаниях. Она объясняет, как эти специалисты влияют на организацию, не…

SRE | Менеджмент

Maker’s Schedule, Manager’s Schedule

Отislander 26.05.202526.05.2025

Очень интересное эссе Пола Грэма, написанное в 2009 году, о влиянии встреч на сотрудников. Он выделяет два типа сотрудников: Maker (творец) и Manager (менеджер). Maker – это те, кто создают (разработчики; инженеры; и т. д.). Основная идея в том, что минимальный продуктивный отрезок времени у менеджеров составляет 30–60 минут, а у мейкеров он примерно равен половине…

SRE

Что такое Reliability Block Diagrams (RBD) и как их использовать

Отislander 31.03.2025

Reliability Block Diagrams (RBD, блок-схема или структурная схема надежности) — это один из методов анализа надежности системы, существует уже очень давно, помогая системным инженерам понять, как различные элементы и их взаимосвязи могут повлиять на общую надежность и работу системы. Построив логическую схему системы, можно получить отличное представление о том, где находятся ее слабые звенья. В…

SRE | Перевод

Grafana + Prometheus: обнаружение аномалий

Отislander 31.03.2025

В предыдущей статье мы рассмотрели обнаружение аномалий с помощью правила 3 сигм в Influx. Теперь сделаем то же самое в Grafana + Prometheus. Краткое напоминание: правило 3 сигм Правило трех сигм утверждает, что приблизительно все наши «нормальные» данные должны находиться в пределах трех стандартных отклонений (σ) от среднего значения (μ) ваших данных. В этой статье исследуется, как мы можем измерять…

SRE

Resilience Engineering

Отislander 21.03.202522.03.2025

Resilience Engineering (инженерия устойчивости) — это подход к проектированию и управлению системами, который фокусируется на их способности предвидеть, адаптироваться и восстанавливаться после сбоев, а не просто избегать их. В отличие от традиционных методов, которые стремятся к «идеальной» надежности (SRE), Resilience Engineering (RE) признает, что сбои неизбежны, и делает упор на устойчивость системы к неожиданным событиям и к…

SRE | Перевод

Правило 10x/9

Отislander 04.03.202504.03.2025

Оригинал Каждая дополнительная «девятка» в SLO увеличивает надежность системы в 10 раз, но и одновременно увеличивает ее стоимость тоже в 10 раз (про реальность добавления «девяток» к аптайму). Я называю это правилом «10x/9» (читается как «десять иксов на девятку»). Когда я впервые услышал об этом, мне показалось это подозрительным, но, взглянув на математику и вспомнив…