Книга: Руководство по DevOps
Найдите и устраните пробелы в системе вашей телеметрии
Найдите и устраните пробелы в системе вашей телеметрии
К этому моменту мы создали инфраструктуру, необходимую для быстрого сбора телеметрии на всех уровнях стека приложения и ее распространения по всей организации.
На этом шаге мы найдем все пробелы в нашей телеметрии, мешающие нам быстро обнаруживать и устранять проблемы. Это особенно важно, если у разработки и IT-эксплуатации на нынешний момент очень мало данных (или их вообще нет). Мы потом используем эти сведения, чтобы лучше предсказывать возникновение проблем, а также чтобы все могли получать необходимую для принятия верных решений информацию.
Для достижения этой цели нам нужно создать достаточно телеметрии на всех уровнях стека приложений для всех окружений, а также для связанных с ними этапов непрерывного развертывания. Нам необходима телеметрия следующих уровней:
• бизнес-уровень. Примерами могут быть количество торговых сделок, доход от сделок, количество регистраций пользователей, коэффициент утечки клиентов, результаты A/B-тестирования и так далее;
• уровень приложения. Это, например, время проведения транзакций, время ответа пользователя, сбои в работе приложения и так далее;
• уровень инфраструктуры (базы данных, операционная система, сетевые подключения, память). Здесь примеры — трафик веб-сервера, загруженность процессора, использование диска и так далее;
• уровень клиентского ПО (JavaScript клиентского браузера, мобильное приложение). Это, например, ошибки и падения приложения, время транзакций пользователя и так далее;
• уровень развертывания. Примерами могут быть статус сборки (красный или зеленый для разных наборов автоматизированных тестов), изменение необходимого на развертывание времени, частота развертываний, улучшение тестовой среды и статус среды.
Если у нас будет достаточная телеметрия во всех этих областях, мы сможем увидеть работоспособность всего того, от чего зависит наш продукт. Вместо слухов, домыслов и обвинений у нас окажутся факты и данные.
Далее, регистрируя все дефекты и сбои в приложениях и инфраструктуре (например, аварийные завершения работы, ошибки приложения, исключения, ошибки в работе запоминающих устройств и серверов), мы можем лучше фиксировать события, связанные с безопасностью. Такая телеметрия не только информирует разработку и эксплуатацию о падении программ и служб, но также сообщает о возможных уязвимых местах системы безопасности.
Раньше замечая и корректируя ошибки, мы можем разбираться с ними, пока они еще невелики и легко исправимы, а число клиентов, испытывающих последствия, мало. Кроме того, после каждого сбоя в производстве нужно определить, какой телеметрии не хватает, какие данные могли бы обеспечить более быстрое обнаружение и восстановление. Еще лучше, если бы мы могли заполнить эти пробелы на стадии разработки функциональности с помощью проверки нашей работы коллегами.
- Создайте централизованную телеметрическую инфраструктуру
- Создайте телеметрию логирования приложений, полезную на этапе эксплуатации
- Используйте телеметрию в решении проблем
- Обеспечьте сбор показателей эксплуатации в процессе ежедневной работы
- Количество входов в систему
- Практический пример
- Создание показателей самообслуживания в компании LinkedIn (2011 г.)
- Найдите и устраните пробелы в системе вашей телеметрии
- Приложения и бизнес-метрики
- Сообщения на форуме
- Показатели инфраструктуры
- Наложение новой информации на старые показатели
- Заключение
- Восстановление из резервной копии на системе-приемнике
- Глава 5. Разработка и анализ бизнес-планов в системе Project Expert
- В моей системе нет утилиты Настройка системы (msconfig). Где ее взять?
- Как получить исчерпывающую информацию о драйверах, установленных в системе?
- Windows требует вставить установочный компакт-диск, которого у меня нет, но его копия хранится на жестком диске. Как объ...
- Потерялась наклейка с серийным номером Windows. Как найти его в уже установленной системе?
- 2.4. АНАЛИЗ ТРЕБОВАНИЙ К СИСТЕМЕ (СИСТЕМНЫЙ АНАЛИЗ) И ФОРМУЛИРОВКА ЦЕЛЕЙ
- 2.8. Мы в системе
- 3.3. Регистрация в системе
- Поиск информации в справочной системе
- Зачем вашей компании может быть нужен корпоративный блог?
- Глава 5 Доступ из сценариев к файловой системе