High Output Management
| |

High Output Management

Книга Энди Гроува (Andy Grove), легендарного CEO Intel, — это классика менеджмента, но её идеи идеально подходят для SRE. Почему? Потому что управление инфраструктурой — это производственный процесс, где важны: ✔️ Предсказуемость (как в промышленных цехах) ✔️ Масштабируемость (как в фабриках Intel) ✔️ Измеряемость (как в микрочипах) Output — это что на самом деле важно Главный тезис Гроува: «Менеджер нужен только для одного…

The Hard Thing About Hard Things (Ben Horowitz)
| |

The Hard Thing About Hard Things (Ben Horowitz)

Книга Бена Хоровица — это рассказ о том, как выживать в кризисах, технических долгах и организационных провалах. Хотя автор пишет про управление компанией (Horowitz — сооснователь Andreessen Horowitz и бывший CEO Loudcloud/Netscape), его идеи идеально ложатся на реалии SRE. Почему? Потому что Site Reliability Engineering — это постоянное балансирование между: Стабильностью и скоростью («Можно ли выкатить фичу, если…

Staff Engineer: Leadership Beyond the Management Track
| |

Staff Engineer: Leadership Beyond the Management Track

Если вы Site Reliability Engineer (SRE), DevOps-инженер или просто senior+ инженер, задумывавшийся о карьере вне менеджмента, книга Will Larson «Staff Engineer: Leadership Beyond the Management Track» — отличный гид по тому, как расти в технической экспертизе. Книга посвящена роли старших инженеров (Staff Engineer, Principal Engineer и выше) в технологических компаниях. Она объясняет, как эти специалисты влияют на организацию, не…

Maker’s Schedule, Manager’s Schedule
|

Maker’s Schedule, Manager’s Schedule

Очень интересное эссе Пола Грэма, написанное в 2009 году, о влиянии встреч на сотрудников. Он выделяет два типа сотрудников: Maker (творец) и Manager (менеджер). Maker – это те, кто создают (разработчики; инженеры; и т. д.). Основная идея в том, что минимальный продуктивный отрезок времени у менеджеров составляет 30–60 минут, а у мейкеров он примерно равен половине…

Что такое Reliability Block Diagrams (RBD) и как их использовать

Что такое Reliability Block Diagrams (RBD) и как их использовать

Reliability Block Diagrams (RBD, блок-схема или структурная схема надежности) — это один из методов анализа надежности системы, существует уже очень давно, помогая системным инженерам понять, как различные элементы и их взаимосвязи могут повлиять на общую надежность и работу системы. Построив логическую схему системы, можно получить отличное представление о том, где находятся ее слабые звенья. В…

Grafana + Prometheus: обнаружение аномалий
|

Grafana + Prometheus: обнаружение аномалий

В предыдущей статье мы рассмотрели обнаружение аномалий с помощью правила 3 сигм в Influx. Теперь сделаем то же самое в Grafana + Prometheus. Краткое напоминание: правило 3 сигм Правило трех сигм утверждает, что приблизительно все наши «нормальные» данные должны находиться в пределах трех стандартных отклонений (σ) от среднего значения (μ) ваших данных. В этой статье исследуется, как мы можем измерять…

Resilience Engineering

Resilience Engineering

Resilience Engineering (инженерия устойчивости) — это подход к проектированию и управлению системами, который фокусируется на их способности предвидеть, адаптироваться и восстанавливаться после сбоев, а не просто избегать их. В отличие от традиционных методов, которые стремятся к «идеальной» надежности (SRE), Resilience Engineering (RE) признает, что сбои неизбежны, и делает упор на устойчивость системы к неожиданным событиям и к…

Правило 10x/9
|

Правило 10x/9

Оригинал Каждая дополнительная «девятка» в SLO увеличивает надежность системы в 10 раз, но и одновременно увеличивает ее стоимость тоже в 10 раз (про реальность добавления «девяток» к аптайму). Я называю это правилом «10x/9» (читается как «десять иксов на девятку»). Когда я впервые услышал об этом, мне показалось это подозрительным, но, взглянув на математику и вспомнив…

Деградация vs сбой
|

Деградация vs сбой

В чем разница между деградацией сервиса, перебоями в обслуживании и простоем сервиса и почему это имеет значение? Оригинал: Degradation vs disruption В контексте проектирования надежности есть три термина, которые связаны, но иногда используются неправильно. Грубо говоря: Ухудшение обслуживания (деградация сервиса) — это когда качество обслуживания падает. Если служба полностью останавливается, это перебои в работе службы. Если…