Книга: Яндекс Воложа. История создания компании мечты

Провал в памяти

Провал в памяти

Сегодняшний «Яндекс» — это глобальная централизованная сеть. Это тысячи километров выделенных каналов, соединяющих воедино десятки тысяч серверов, которые обрабатывают за доли секунды ежедневно около 150 млн запросов, формулируемых около 100 млн пользователей со всего мира. Это несколько миллиардов проиндексированных сайтов. Это продажа услуг и рекламы в России, Украине, Беларуси, Казахстане и Турции. Это около 1500 рекламных агентств, входящих в рекламную сеть «Яндекса». Это более 350 000 рекламодателей. Наконец, это круглосуточная работа. А сбоев и аварий в системе — по пальцам одной руки.

14 ноября 2004 г. в результате аварии в системе энергоснабжения ресурс http://yandex.ru был недоступен более двух часов. Отключение серверов произошло за считаные минуты до начала второго тура «Кубка “Яндекса”» по поиску в Интернете. Это был первый крупный сбой в работе компании.

В пятницу, 19 августа 2011 г., в пять часов вечера по московскому времени «Яндекс» исчез из мировой Сети. Тотально. Не стало ни поиска, ни сервисов. Будто и не было. Недоступными стали и веб-версия, и мобильные приложения. Примерно через два с половиной часа «Яндекс» подал признаки жизни. Восстановить все сервисы яндексоидам удалось лишь к десяти вечера по московскому времени, то есть через пять часов после аварии.

По версии «Яндекса», отключение произошло вследствие ошибки программного обеспечения на маршрутизаторе, расположенном в новом европейском дата-центре «Яндекса» в Амстердаме. Заместитель руководителя департамента эксплуатации Владимир Иванов (возможно, этот тот самый Владимир Иванов, у которого акций компании было больше, чем у Ильи Сегаловича, основателя «Яндекса») поздно вечером 19 августа в своем блоге объяснился с пользователями. По его версии, авария произошла из-за «проблем с маршрутизацией в сети “Яндекса”», то есть сбой был не связан «с работой дата-центров, DDoS-атаками, пожарами, а также любыми другими внешними факторами». Никакие пользовательские данные не потеряны. А «проблема была вызвана ошибкой программного обеспечения на маршрутизаторе, расположенном в нашем новом дата-центре в Амстердаме. В “Яндексе” используются протоколы маршрутизации — внутренний протокол OSPF и внешний протокол BGP. Из-за ошибки информация обо всех внешних маршрутах оказалась во внутренних таблицах маршрутизации. Это примерно на три порядка больше маршрутов, чем обычно. Протокол OSPF не рассчитан на такое количество. В результате у всех маршрутизаторов кончилась память, и они перестали работать. Нарушилась работа сети, и через несколько минут “Яндекс” стал полностью недоступен». По словам Иванова, внутренняя сеть поисковика тоже не работала, поэтому специалистам потребовалось много времени, «чтобы по цепочке добраться до источника проблемы». Когда администраторы исправили ошибку на маршрутизаторе, специалистам пришлось «разделить сеть на несколько частей», чтобы снять лишнюю нагрузку с остальных маршрутизаторов, которых в «Яндексе» больше сотни. Когда количество трафика снизилось, маршрутизаторы смогли самостоятельно восстановить связность сети, и через некоторое время сервисы «Яндекса» стали доступны большей части пользователей.

По наблюдениям Игоря Ашманова (из компании «Ашманов и партнеры»), это был как минимум третий крупный сбой в истории «Яндекса».

Примерно через год, 8 октября 2012 г., около 14:40 у части пользователей оказалась недоступной главная страница «Яндекса» — http://yandex.ru. У другой части пользователей с главной страницы невозможно было перейти к сервисам «Яндекса», включая поиск. По данным Lenta.Ru и сервиса HostTracker, в результате масштабного сбоя «Яндекс» был недоступен для 41 из 42 серверов, находящихся в разных городах мира. Около 15:15 работоспособность главной страницы «Яндекса» была восстановлена.

Представители компании сообщили, что к этому времени последствия сбоя были полностью устранены, и принесли извинения пользователям за доставленные неудобства. О причинах и масштабах сбоя комментариев не последовало.

Вообще-то сбоев немного, к тому же в масштабах гигантской системы. Удивительно.

Это свидетельствует не только об исключительности технологий, надежности инфраструктуры, исполнительной дисциплине и оптимальной структуре, но и об эффективности управления системой во главе с генеральным директором Аркадием Воложем. Такой вот банально-глобальный вывод из локального, казалось бы, события.

Оглавление книги


Генерация: 1.113. Запросов К БД/Cache: 3 / 1
поделиться
Вверх Вниз