Книга: Аналитическая культура
Визуализация данных
Разделы на этой странице:
Визуализация данных
Теперь, когда мы имеем более ясное представление о том, что такое сторителлинг, а также о роли аналитика и его мотивации, давайте обсудим некоторые технические аспекты визуализации данных. Как уже упоминалось в начале этой главы, наше обсуждение не будет полноценным руководством по этой теме. Я остановлюсь на нескольких ключевых моментах и свяжу их с общими комментариями, типичными ошибками и да, с тем, что больше всего раздражает лично меня.
Итак, предположим, что аналитик выбрал правильные метрики, правильные измерения (например, систематизировал данные по месяцам или по каналам продаж), обнаружил интересные и значимые закономерности в этих данных, Следующий шаг, который он должен предпринять, — выбрать форму презентации этих данных. В некоторых случаях это может быть таблица, но чаще всего останавливаются на диаграмме.
ВЫБОР ДИАГРАММЫ
У аналитика большой выбор разных типов диаграмм. Подходящий тип диаграммы или визуализации зависит от типа переменных (непрерывные, дискретные, категориальные или порядковые), от того, сколько переменных или факторов требуется включить в диаграмму, и даже от значений переменных. Например, составная столбиковая диаграмма способна справиться с двумя категориями данных, но не с большим числом (рис. 7.3).
Рис. 7.3. Пример составной столбиковой диаграммы (показывающей, как пользователи инструментов бизнес-аналитики используют эти продукты) с относительно большим числом категорий (восемь). Легче всего между платформами сравнить крайнюю левую категорию, так как она выровнена по оси y. Однако интерпретировать результаты по другим категориям не так просто, поскольку они отличаются по ширине и расположению. Например, как сравнить между платформами крайнюю правую категорию?
Источник: Джон Пелтир (http://peltiertech.com/stacked-bar-chart-alternatives/)
Для сравнения: рис. 7.4 содержит те же самые данные, но их легче сравнить между платформами, хотя и за счет потери понимания суммарной доли респондентов в процентах (то есть полной ширины столбца на рис. 7.3).
Рис. 7.4. Те же самые данные, что и на рис. 7.3, представлены в виде панельной диаграммы. В этом случае гораздо проще интерпретировать сравнение между категориями.
Источник: Джон Пелтир (http://peltiertech.com/stacked-bar-chart-alternatives)
Выбор типа диаграммы — основной фактор с точки зрения способности сделать презентацию данных понятной для пользователей. Так на чем же остановить свой выбор в условиях такого разнообразия? Один из способов — сосредоточиться на одной из четырех причин, по которым мы вообще строим диаграмму.
Сравнение
Например, сравнение групп или сравнение изменений во времени.
Распределение
Необходимость показать изменчивость набора данных.
Взаимосвязи
Необходимость отразить корреляцию или взаимосвязь между переменными.
Сравнение
Необходимость показать, как распределяются данные между двумя или более категориями.
На рис. 7.5 приведены примеры разных типов диаграмм и то, как они соотносятся с выделенными нами четырьмя целями. Мы выбрали наиболее распространенные типы диаграмм, хотя существует еще множество других. Например, здесь никак не охвачены данные из социальных сетей или геопространственные данные.
Рис. 7.5. Существует много разных типов диаграмм, каждый из которых отвечает определенной задаче. Выберите тот тип, который оптимально подходит для решения вашей задачи
Источник: Эндрю Абела (http://extremepresentation.typepad.com/blog/2006/09/choosing_a_good.html) Воспроизводится с разрешения
Более полное представление типов диаграмм можно найти в виде инфографического постера Graphic Continuum[110], но, к сожалению, он слишком масштабный и детальный, и его невозможно без потери качества разместить на одной книжной странице. Кроме того, я рекомендовал бы изучить галерею визуализации D3[111]. D3 — это популярная библиотека JavaScript, которой можно воспользоваться для выполнения более интересной, интерактивной или специализированной визуализации данных.
Как вы сами видите, для работы с конкретным набором данных можно использовать разные типы диаграмм, в каждой из которых будет делаться акцент на разных характеристиках данных. Главное — пробовать разные варианты. Исследуйте «дизайнерское пространство» в поисках средств, которые помогут лучше всего рассказать вашу историю, но при этом не лишат ее достоверности и объективности (например, не усекайте ось y, чтобы исказить угол наклона в линейном графике[112]).
ВЫБОР ЭЛЕМЕНТОВ ДИАГРАММЫ
Выбор типа диаграммы — относительно простая задача, так как он ограничен (хотя даже это не мешает некоторым выбирать неподходящие варианты). Но это только начало. Далее приводится контрольный список тех элементов, на которые стоит обратить внимание при построении диаграммы. Мы не будем подробно разбирать каждый из указанных пунктов, так как это не входит в задачи этой книги. Скорее, это подсказка для вас, с чего можно начать. Если вы хотите получить более глубокие знания, я вновь рекомендую обратиться к тем книгам, которые я перечислял в начале главы. Многие из элементов этого контрольного списка могут показаться очевидными; тем удивительнее, сколько встречается диаграмм, построенных с нарушением одного или нескольких из этих критериев, что не может не сказаться на их эффективности.
КОНТРОЛЬНЫЙ СПИСОК ДЛЯ ВИЗУАЛИЗАЦИИ ДАННЫХ
Визуализация данных включает множество элементов, каждый из которых требует пристального внимания. Один неверный выбор, например цвета с малым контрастом, мелкий шрифт, неподходящий тип диаграммы — и все визуальное представление испорчено. Далее приводятся элементы полезного контрольного списка Стефани Эвергрин. В полной версии списка можно найти подробное описание каждого пункта.
- Визуализация изображений
- ГЛАВА 20. Визуализация графических данных средствами GDI+
- Резервное копирование базы данных InterBase
- Firebird РУКОВОДСТВО РАЗРАБОТЧИКА БАЗ ДАННЫХ
- Резервное копирование многофайловых баз данных
- Восстановление из резервных копий многофайловых баз данных
- Владелец базы данных
- ЧАСТЬ IV. База данных и ее объекты.
- Перевод базы данных InterBase 6.x на 3-й диалект
- Типы данных для работы с датой и временем
- Практическая работа 53. Запуск Access. Работа с объектами базы данных
- Обзор основных причин повреждения базы данных