Как правильно визуализировать данные

Перевод статьи Сары Дхолакии, в которой она рассказывает, как выбрать правильный тип визуализации данных в зависимости от цели, аудитории, типа и объёма самих данных. На практических примерах автор разбирает наиболее распространенные типы визуализации данных, знания о которых помогут подбирать оптимальные варианты для каждого отдельного проекта
Дарья Райт
Дарья Райт
Ведущий редактор в «Оди» в 2022–2024 годах

Короткое саммари: В этой статье Сара Дхолакия представляет руководство с рекомендациями, которые помогут выбрать правильный тип визуализации данных и объяснят нюансы, которые следует иметь ввиду

Далее текст от лица автора

Визуализация данных окружает нас повсюду: от новостей до информации о питательных веществах на коробках с хлопьями — нам постоянно показывают данные в графическом представлении. Почему? Визуализация данных — метод коммуникации. Правильно подобранный шрифт поможет быстро донести до аудитории конкретную информацию в визуально привлекательной форме. Однако разнообразие стилей, используемых как в цифровых, так и в печатных форматах, просто ошеломляет. В этой статье мы разберем наиболее распространенные типы визуализации, чтобы помочь вам выбрать оптимальный вариант для ваших конкретных проектов.

Прежде чем перейти к содержанию статьи, давайте кратко остановимся на терминологии. Понятия «график» и «диаграмма» часто используются как взаимозаменяемые, но здесь важна конкретика. В этой статье термин «график» относится к визуальному представлению данных на декартовой плоскости (они часто выглядят как сетка и имеют оси x-, y- и иногда z). «Диаграмма» — общее слово для визуального представления данных. Это похоже на связь между квадратами (графиками) и прямоугольниками (диаграммами). Все графики являются разновидностями диаграмм, но не все диаграммы являются графиками.

После того как мы разобрались в терминах, давайте перейдём к рассмотрению факторов, которые необходимо учитывать при выборе типа диаграммы.

Как выбрать правильный тип диаграммы

При выборе подходящей визуализации данных, соответствующей вашим целям, задайте себе несколько вопросов. Мы рассмотрим каждый из них по очереди:

Какое сообщение я пытаюсь передать с помощью данных?

У каждой визуализации данных должно быть ключевое послание. Чёткое понимание того, что вы хотите донести до аудитории, и акцент на этом повысят общее качество визуализации данных. Это также поможет сузить круг типов диаграмм в зависимости от сложности сообщения и/или объёма транслируемой информации.

Например, иногда для передачи одной идеи достаточно простой таблицы. Однако если сообщение более сложное и/или призвано расширить возможности аудитории или побудить её к действию, стоит подумать о более динамичных типах диаграмм. Пример ниже содержит массив данных, собранный Стетсоном Доуном в Kaggle.

Рисунок 1. Таблица: Мировой объём продаж видеоигр (в миллионах) в разрезе жанров в период с 1980 по 2020 гг.

Этот упрощённый массив данных представлен в виде таблицы. В одном столбце находится категориальная переменная (жанр), а в другом — количественная переменная (объём продаж). Категории отсортированы по объёму продаж, а не в алфавитном порядке по жанрам. Это позволяет взглянуть на таблицу и сразу понять, какие жанры являются наиболее популярными. Кроме того, таблица занимает относительно мало места. Если цель визуализации данных — передать простую информацию о популярности различных жанров видеоигр в период с 1980 по 2020 гг., то таблица выше — хороший выбор. Но что если информация более сложная?

Ниже представлена таблица, которая содержит тот же массив данных, но отображает немного иную информацию. Вместо восьми жанров в этой таблице представлено пять, а вместо мирового объёма продаж видеоигр в разрезе каждого жанра в ней представлены показатели объёма продаж в двух регионах: в Европейском Союзе и Северной Америке. Послание, которое пытается донести эта таблица до пользователя, выглядит двояко: данные говорят о продажах различных жанров видеоигр в разрезе двух регионов и представляют сравнение объёма продаж в этих двух регионах.

Рисунок 2. Региональные объёмы продаж видеоигр (в миллионах) в разрезе жанров в период с 1980 по 2020 гг.

В таком формате сравнивать объёмы продаж по жанрам между двумя регионами очень просто. Однако сравнение объёма продаж по всем жанрам в разрезе каждого региона становится более сложной задачей. В результате эффективность передачи последней части сообщения снижается.

Если мы изменим тип визуализации данных, то сможем лучше передать больший объём информации. На изображении ниже представлены те же данные, но в виде сгруппированной гистограммы.

Рисунок 3. Сгруппированная гистограмма: Объём продаж видеоигр в Европейском Союзе и Северной Америке в разрезе жанров в период с 1980 по 2020 гг.

Гистограмма позволяет аудитории сравнить каждый жанр в разрезе двух регионов и сравнить объём продаж по всем жанрам в разрезе каждого региона. Поскольку гистограмма передаёт больше информации, чем таблица на Рисунке 2, она лучше подходит для представления этих данных.

Помните, что меньше — значит больше. При выборе типа диаграммы постарайтесь сделать максимально простую визуализацию данных, которая эффективно донесёт до аудитории запланированное сообщение.

Какова цель визуализации данных?

В области визуализации данных существует четыре общепринятых категории, каждая из которых соответствует достижению определённой цели:

СРАВНЕНИЕ

Чем похожи или чем отличаются элементы? Можно сравнивать элементы и/или их изменение во времени.

ПримерСравнение объёма продаж двух разных марок корма для собак в одном розничном магазине.

К сравнительным диаграммам относятся аллювиальные диаграммы (alluvial diagrams), площадные диаграммы с накоплением (area graphs (stacked)), гистограммы (простые, плавающие, сгруппированные и cтолбчатые с накоплением) (bar graphs (simple, floating, grouped, and stacked)), диаграммы размаха/«ящик с усами» (box and whisker plot), пузырьковые диаграммы (bubble graphs), пулевые диаграммы (bullet charts), кольцевые диаграммы (donut charts), измерительные диаграммы (gauge charts), линейные графики (line graphs), параллельные координаты (parallel coordinates), круговые диаграммы (pie charts), диаграммы с пропорциональными областями (proportional area charts), карты пропорциональных символов (proportional symbol maps), лепестковые диаграммы (radar charts), радиальные гистограммы (radial bar charts), тримапинг (tree maps), диаграммы Венна (Venn diagrams) и облака тегов (word clouds). Чтобы узнать больше о каждой из этих диаграмм, ознакомьтесь с Chart reference guide, одним из двух ресурсов, представленных в качестве приложения к этой статье.

СОСТАВ

Из каких частей состоит целое? Состав может быть статичным или меняться во времени.

Пример: Визуализация состава рациона кошек-манулов.

К диаграммам композиционного состава относятся площадные диаграммы с накоплением (area graphs (stacked)), гистограммы с накоплением (bar graphs (stacked)), упаковка кругов (circle packs), кольцевые диаграммы (donut charts), сетевые диаграммы (network diagrams), круговые диаграммы (pie charts), древовидные диаграммы (tree diagrams) и тримапинг (tree maps). Чтобы узнать больше о каждой из этих диаграмм, ознакомьтесь с Chart reference guide.

РАСПРЕДЕЛЕНИЕ

Куда попадают значения массива данных? Есть ли резко отклоняющиеся значения?

Пример: Сообщение о распределении оценок в классе средней школы, включая среднее и резко отклоняющиеся значения.

К диаграммам распределения относятся аллювиальные диаграммы (alluvial diagrams), плавающие гистограммы (bar graphs (floating)), диаграммы размаха/«ящик с усами» (box and whisker plot), пузырьковые диаграммы (bubble graphs), пулевые диаграммы (bullet charts), упаковка кругов (circle packs), картограммы (choropleth maps), карты с соединительными линиями (connecting line maps), гистограммы (histograms), диаграммы с пропорциональными областями (proportional area charts), карты пропорциональных символов (proportional symbol maps), диаграммы рассеяния (scatterplots) и облака тегов (word clouds). Чтобы узнать больше о каждой из этих диаграмм, ознакомьтесь с Chart reference guide.

КОРРЕЛЯЦИЯ

Как элементы соотносятся друг с другом? Есть ли между ними корреляция?

Пример: Представление того, как более низкие температуры коррелируют с меньшим количеством продаж мороженого.

К диаграммам взаимосвязи относятся аллювиальные диаграммы (alluvial diagrams), пузырьковые диаграммы (bubble graphs), упаковка кругов (circle packs), карты с соединительными линиями (connecting line maps), тепловые карты (heat maps), гистограммы (histograms), линейные графики (line graphs), сетевые диаграммы (network diagrams), параллельные координаты (parallel coordinates), лепестковые диаграммы (radar charts), диаграммы рассеяния (scatterplots), древовидные диаграммы (tree diagrams) и диаграммы Венна (Venn diagrams). Чтобы узнать больше о каждой из этих диаграмм, ознакомьтесь с Chart reference guide.

Некоторые типы диаграмм относятся к нескольким категориям. Например, древовидные диаграммы могут предоставлять информацию как о том, из каких элементов состоит категория, так и о взаимосвязях между этими элементами. Классическим примером является карта сайта. Карты сайта представляют собой список страниц сайта (состав) и взаимосвязей между ними.

Рисунок 4. Древовидная диаграмма: Карта сайта на сайте автора книг

Ещё одним хорошим примером является кольцевая диаграмма. На Рисунке 5 представлены результаты опроса второклассников о том, какое у них любимое животное.

Рисунок 5. Кольцевая диаграмма: Любимые животные второклассников

Рисунок 5 не только отображает полный список любимых животных второклассников, но и позволяет сравнить этих животных по популярности. Таким образом, диаграмма решает две задачи: позволяет сравнить и показывает состав.

Необязательно использовать многоцелевые диаграммы для достижения нескольких целей, но когда вам нужна одна диаграмма, которая решает сразу несколько задач, лучше выбирать её. Узнать больше о многоцелевых типах диаграмм, включая типы переменных, которые в них используются, можно в Data visualizations table. Это один из двух ресурсов, представленных в качестве приложения к этой статье (смотрите Рисунок 12).

Знание цели визуализации данных поможет значительно сузить круг возможных вариантов. Если вы обнаружите, что у вас несколько целей и/или сообщений, которые не могут быть отражены с помощью одной многоцелевой диаграммы, рассмотрите возможность использования нескольких диаграмм. Особенно если ваша аудитория малознакома с визуализацией данных и у неё могут возникнуть трудности при чтении диаграммы более сложного типа. Более подробную информацию о различных типах диаграмм, в том числе об их предназначении, о том, когда использовать каждую из них, включая примеры, можно найти в Chart reference guide.

Мы подошли к следующему критерию выбора типа диаграммы — аудитории.

Кто моя аудитория?

Знание своей аудитории — ключ к эффективной коммуникации. Для наших целей знание аудитории будет полезно как при выборе типа визуализации данных, так и при решении различных дизайн-вопросов.

При анализе аудитории важно принимать во внимание следующие вещи:

Эта информация должна помочь при выборе типа диаграммы. Например, некоторые виды визуализации данных довольно сложные. Их используют только эксперты высокого уровня в данной области и/или люди, которые хорошо знакомы с визуализацией данных. Для получения дополнительной информации о том, как выбирать диаграммы в зависимости от аудитории, обратитесь к разделу «When to use» reference guide. На примере ниже два разных типа диаграмм отображают один и тот же массив данных.

Рисунок 6. Лепестковая диаграмма: Рейтинги навыков двух людей в разрезе пяти категорий
Рисунок 7. Сгруппированная гистограмма: Рейтинги навыков двух людей в разрезе пяти категорий

На обеих диаграммах представлены одинаковые рейтинги навыков двух человек в разрезе пяти категорий. На Рисунке 6 используется лепестковая диаграмма. Несмотря на то, что этот тип диаграмм может быть хорошим инструментом для демонстрации сравнительных данных, многие люди могут быть незнакомы с ней или с круговым форматом, в котором можно представить эти данные. Поэтому у пользователей могут возникнуть трудности с восприятием Рисунка 6 по сравнению с Рисунком 7.

С другой стороны, на Рисунке 7 сгруппированная гистограмма отображает те же данные. Поскольку сгруппированные гистограммы знакомы большинству людей независимо от их осведомлённости о визуализации данных, они, скорее всего, будут более понятны широкой аудитории.

Если вы задаете себе вопрос: «Почему бы всегда не выбирать более простой тип диаграмм?», вы не одиноки. Простота — ключевой момент, но на неё следует смотреть с позиции понимания полной картины. Несмотря на то что некоторые типы диаграмм будут более сложными для понимания широкой непрофессиональной аудиторией, они лучше передают информацию аудитории, которая с ними знакома. Это хорошо заметно на примере Рисунков 6 и 7. Хотя, вероятно, случайному пользователю будет сложнее разобраться в лепестковых диаграммах, в данном случае лепестковая диаграмма для человека, который может легко её прочитать, лучше справляется с задачей сравнения двух людей.

После выбора типа диаграммы также важно принимать во внимание свою аудиторию. Для общей аудитории, в составе которой нет экспертов, используйте простой понятный язык и избегайте использования профессионального языка или технической терминологии. Кроме того, для широкой аудитории, которая не обладает обширными базовыми знаниями в области ваших данных, включите больше контекстной информации перед презентацией визуализации данных или добавьте контекст и дополнительную информацию в состав визуализации.

В этой случае хорошим примером будет площадная диаграмма с накоплением. Она похожа на простую площадную диаграмму. Разница заключается в том, что площадная диаграмма с накоплением показывает два или более ряда данных, которые расположены друг на друге. Каждый ряд данных после первого начинается там, где заканчивается предыдущий. Другими словами, если точка А для серии данных 1 останавливается на отметке 18 миллионов долларов, то точка А для серии данных 2 начинается с отметки 18 миллионов долларов.

По этой причине они могут быть немного запутанными, если вы незнакомы с ними, а если они не обозначены, то их чтение может потребовать некоторых математических вычислений. Однако преимущество их использования заключается в том, что они показывают значения каждой серии, а также итоговые значения (для каждой точки верхняя часть накопления является итогом). Рисунки 8 и 9 демонстрируют это.

Рисунок 8. Площадная диаграмма с накоплением: Выручка от продаж по регионам поквартально
Рисунок 9. Площадная диаграмма с накоплением (с указанием значений): Выручка от продаж поквартально

На Рисунках 8 и 9 представлены площадные диаграммы с одинаковыми данными. Однако на Рисунке 9 есть дополнительная информация с указанием значений для каждого региона за каждый квартал. Это не только избавляет аудиторию от необходимости рассчитывать цифры, но и помогает прояснить одну особенность площадных диаграмм с накоплением. Из-за их структуры пользователи могут столкнуться с трудностями при сравнении значений разных рядов данных (в данном случае регионов) в одной точке, например, в первом квартале. Добавление значений на график помогает решить эту проблему. Однако не всегда следует обозначать каждый элемент графика. При работе с большими массивами данных это приведёт к тому, что график станет перегруженным и трудным для восприятия (смотрите Рисунок 10).

К этому моменту круг рассматриваемых типов графиков должен значительно сузиться в зависимости от вашего сообщения, цели и аудитории. Теперь, исходя из оставшихся вариантов, необходимо подобрать соответствующие детали массива данных, включая тип и количество переменных для оставшихся вариантов.

С каким типом и объёмом данных я работаю?

Есть разные типы данных и переменных:

Количественные: числовые данные

Например, численность населения или температура. Они делятся на:

Порядковые: нечисловые данные, которые идут в естественном порядке

Например: дни недели или уровни остроты в меню (неострый, острый, очень острый).

Категориальные (они же номинальные): категории, которые не имеют естественного порядка или числовых значений

Например: дуб, ясень и вяз; розовый, фиолетовый и голубой.

Знание того, какой тип данных вы планируете использовать в визуализации данных, поможет исключить некоторые типы диаграмм. Например, если ваши данные состоят из категориальных и количественных переменных, вы не сможете использовать гистограмму, поскольку она показывают частоту, а количественные переменные разбиты на интервалы.

Аналогичным образом объём ваших данных поможет исключить некоторые типы диаграмм. Некоторые типы визуализации данных, такие как гистограммы и круговые диаграммы подразумевают использование небольшого массива данных. Причина в том, что диаграммы должны передавать информацию в доступной для понимания форме. Пользователю будет сложно читать гистограмму с восемнадцатью столбцами или круговую диаграмму с двадцатью долями. Однако есть типы диаграмм, которые можно использовать при работе с большими массивами данных. Рисунки 10 и 11 демонстрируют это.

Рисунок 10. Круговая диаграмма: Псевдослучайный опрос о любимых фильмах, вышедших на экраны в 2022 году
Рисунок 11. Таблица: Псевдослучайный опрос о любимых фильмах, вышедших на экраны в 2022 году

В основе обеих визуализаций лежат одни и те же данные, но при представлении их в виде круговой диаграммы пользователь будет обрабатывать информацию дольше, чем при демонстрации данных в виде таблицы. Поскольку на круговой диаграмме слишком много срезов, невозможно написать на каждом из них название фильма, что вынуждает использовать условные обозначения. Это означает, что зрителям придётся снова и снова сканировать диаграмму справа налево, чтобы переходить от условных обозначений к круговой диаграмме. В таблице же количество голосов представлено рядом с названием фильма, что позволяет легко разобраться не только в популярности фильмов, но и увидеть точное количество голосов, которые получил каждый из них.

Для получения дополнительной информации о том, какие диаграммы работают в случаях использования большого массива данных и другой информации о более чем 30 наиболее популярных типах диаграмм, смотрите Рисунок 12.

Рисунок 12. Таблица: Cправочная таблица по визуализациям данных

Заключение

Мы рассмотрели наиболее важные аспекты выбора типа диаграммы, а также то, на что следует обратить внимание. Чтобы узнать больше о визуализации данных, обратитесь к справочным материалам, ссылки на которые вы найдёте в нижней части статьи.

Надеюсь, теперь вы чувствуете в себе силы и уверенность в том, что обладаете знаниями, необходимыми для создания великолепной визуализации данных! Если вы хотите воплотить на практике некоторые из советов, которые вы узнали из статьи, но у вас нет массива данных для работы, посетите такие сайты, как KaggleWorld Bank Open Data и Google Public Data Explorer. В качестве последнего напоминания: стремитесь к простоте и сконцентрируйтесь на послании — у вас всё получится!

Справочные материалы

Общая информация

Повествование и визуализация данных

Как выбрать диаграмму

Советы по дизайну визуализации данных

Визуализации данных: источники вдохновения

Этические нормы и данные

Поделиться
Отправить
Запинить

Обсуждение