Книга: Руководство по DevOps
Используйте телеметрию в решении проблем
Используйте телеметрию в решении проблем
Как было описано в начале этой главы, высокопроизводительные компании используют дисциплинированный подход к решению проблем. Такой подход противоположен более распространенной практике использования слухов и домыслов, приводящей к столь печальному показателю, как количество среднего времени до признания невиновным: как быстро мы сможем убедить всех, что это не мы были причиной сбоя или простоя в работе.
Когда вокруг сбоев и проблем создана культура обвинений, команды могут не документировать изменения и скрывать показатели: ведь все могут увидеть, что они стараются избежать вины за возникновение проблем.
Другие негативные последствия отсутствия открытой телеметрии — напряженная атмосфера, необходимость защищаться от обвинений и, что хуже всего, неспособность получать общедоступные знания, как возникают проблемы и что необходимо, чтобы предотвратить их в будущем[111].
Телеметрия же позволяет нам использовать научный метод, чтобы формулировать гипотезы о причинах проблемы и о средствах ее устранения. Ниже следуют примеры вопросов, на которые можно ответить во время исправления ошибок и корректирования сбоев.
• Каковы доказательства того, что проблема действительно существует?
• Какие значимые события и изменения в наших приложениях и окружении могли привести к этой проблеме?
• Какие гипотезы мы можем сформулировать, чтобы подтвердить связь между предложенными причинами и следствиями?
• Как мы можем доказать, какие из гипотез верны и ведут к решению проблемы?
Ценность основанного на фактах решения проблем заключается не только в гораздо меньшем MTTR (и в лучших результатах для клиентов), но и в усилении взаимовыгодного сотрудничества между разработкой и IT-эксплуатацией.
- Создайте централизованную телеметрическую инфраструктуру
- Создайте телеметрию логирования приложений, полезную на этапе эксплуатации
- Используйте телеметрию в решении проблем
- Обеспечьте сбор показателей эксплуатации в процессе ежедневной работы
- Количество входов в систему
- Практический пример
- Создание показателей самообслуживания в компании LinkedIn (2011 г.)
- Найдите и устраните пробелы в системе вашей телеметрии
- Приложения и бизнес-метрики
- Сообщения на форуме
- Показатели инфраструктуры
- Наложение новой информации на старые показатели
- Заключение
- 9.1. Проблема синтаксического анализа
- 500 типичных проблем и их решений при работе на ПК
- Проблемы потребителя
- 3.5 Проблемы доступа при использовании нескольких протоколов
- 5.2 Проблемы при резервном копировании
- Используйте аутсорсинг
- 10.6.1. Обнажение проблемы
- Введение Вторая грамотность и проблемы ее освоения
- Глава 8 Проблемы с «железом» и разгон процессора
- Проблема с измерениями в секторе B2B
- У меня проблемы со здоровьем. Может ли мне помочь Интернет?
- Как избежать проблем с установкой программ? При установке не удается создать файл