Рубрики
Блог

Цвет настроения — синий: как BSOD остановил транспорт, закрыл банки и прекратил работу экстренных служб

В пятницу 19 июля пришли новости о глобальном сбое интернета: хаос в аэропортах, невозможность совершать банковские транзакции, недоступность экстренных служб в самых разных уголках планеты от Сиднея до Аляски.

В пятницу 19 июля пришли новости о глобальном сбое интернета: хаос в аэропортах, невозможность совершать банковские транзакции, недоступность экстренных служб в самых разных уголках планеты от Сиднея до Аляски.

Что произошло

Чуть позже выяснилось, что глобальный сбой объясняется локально — проблема в свежем обновлении приложения кибербезопасности CrowdStrike, антивирус стал вызывать массовые ошибки, что приводило к отключению компьютеров (на Windows), где он был установлен. Машины уходили в цикл восстановления, отключались от сети и переставали работать по назначению.

Slide

Легло большое облако

Тот случай, когда легло большое облако. И забрало с собой своих крупных клиентов. Это не злорадство, это еще одно предупреждение, что опасно «хранить яйца в одной корзине», недостаточно выбрать крупного и зарекомендовавшего себя поставщика, потому что shit happens и сервисы любого уровня надежности иногда могут отказать. Хорошо, если на это случай уже есть экстренный вариант, чтобы переключить свои процессы. Да, дублирование, да, двойной чек. Но финансовые потери из-за отказа сервисов и простоя гораздо значительнее.

Так, CrowdStrike за короткое время потерял миллиарды. Сколько потеряли авиакомпании, телеканалы, торговые сети, медицинские учреждения мы, возможно, узнаем в будущем, но уже сейчас можно сказать, что одна ошибка в обновлении одного вспомогательного сервиса стоила очень дорого.

  • По данным торгов на NASDAQ стоимость акций CrowdStrike снизилась на 16,5%
  • Рыночная стоимость компании CrowdStrike сократилась на $13,77 млрд.

Что делать

Этой весной мы уже проводили мероприятие, посвященное мультиоблаку — тот случай, когда точно можно «подстелить соломку» заранее, чтобы избежать глобального удара.

Вот представьте, вам звонит ваш CEO в панике и спрашивает, когда мы сможем восстановить все наши системы, а вы отвечаете — все ок, мы уже переключились на резерв, все работает штатно =)

МОЖЕТ БЫТЬ ПОЛЕЗНО

Все статьи
Как AIops для SRE спасают ваш продакшен и бюджет

Сегодня в цифровом мире, надёжность продукта — это обязательное условие. Но нанимать кучу инженеров, и переплачивать в несколько раз за инфраструктуру, чтобы всё было стабильно, — это не выход

SRE: Решение не только технических,
но и бизнесовых проблем

Site Reliability Engineering (SRE) — это подход к управлению эксплуатацией и надежностью программных систем, который включает в себя множество аспектов, выходящих за рамки чисто технических задач

Сайты хостинг-провайдеров Amazon Web Services (AWS) и GoDaddy стали недоступными для пользователей из России

Они были заблокированы по решению Роскомнадзора за нарушение закона
«о приземлении»

SRE на стеройдах: магия GPT

Меня радует, что SRE становятся одними из ведущих специалистов в современных и быстро развивающихся отраслях.