Слишком много информации и раскрашивание ради раскрашивания: распространённые ошибки при использовании цвета в графиках

Отрывок из книги «Основы визуализации данных» профессора Техасского университета Клауса Уилке, выпущенной издательством «Бомбора».

Слишком много информации и раскрашивание ради раскрашивания: распространённые ошибки при использовании цвета в графиках

Цвет может быть невероятно эффективным инструментом для улучшения качества визуализации данных. В то же время плохо подобранный цвет способен испортить даже отлично сделанный график. Добавляя в свои визуализации цвет, всегда знайте, для чего вы это делаете. Кроме того, цвет должен быть чистым и не отвлекать читателя от сути диаграммы.

Отображаем слишком много или ненужную информацию

Одной из наиболее распространенных ошибок является использование слишком большого количества элементов разных цветов. Взгляните на рис. 18.1. На этом графике показан рост численности населения по сравнению с количеством жителей во всех 50 штатах США, а также в округе Колумбия. Как видите, я присвоил каждому штату свой цвет, и результат вышел не самым удачным. И хотя мы всегда можем определить, на какой штат мы смотрим в данный момент (соотнеся точки на графике с легендой), это потребует от нас немалых усилий.

Цветов слишком много, и многие из них очень похожи друг на друга. Даже если мы потратим силы на то, чтобы разобраться в представленных нам данных, факт остается фактом: цвет нам здесь скорее мешает, чем помогает. Цвет должен способствовать пониманию графика и делать изучение данных более удобным, а не быть источником визуальных головоломок.

Как правило, наиболее качественные цветовые шкалы получаются в тех случаях, когда мы имеем дело с 3–5 различными категориями, которые предполагаем раскрасить каждую в свой цвет. Но как только речь заходит о 8–10 категориях, задача сопоставления цветов резко усложняется и ее решение становится слишком обременительным и малополезным, даже если мы выберем хорошо различающиеся между собой цвета.

<b>Рис. 18.1.</b> Прирост населения за период 2000–2010 годов и общая численность населения в 2000 году в 50 штатах и округе Колумбия. Источник: US Census Bureau
Рис. 18.1. Прирост населения за период 2000–2010 годов и общая численность населения в 2000 году в 50 штатах и округе Колумбия. Источник: US Census Bureau

Каждый штат окрашен в свой цвет. Поскольку штатов на карте довольно много, очень трудно сопоставить цвета в легенде с точками на диаграмме рассеяния.

Для набора данных, показанного на рис. 18.1, кажется самым правильным использовать цвет только для указания географического региона каждого штата, а сами штаты просто промаркировать, то есть разместить соответствующие текстовые метки рядом с точками данных.

Несмотря на то что промаркировать каждый штат, не перегрузив график информацией, невозможно, мы все же можем воспользоваться прямой маркировкой. Как правило, для визуализаций, подобных этой, нам не нужно отмечать выноской каждую точку данных (рис. 18.2). Достаточно обозначить репрезентативное подмножество, например набор штатов, которые мы собираемся упомянуть в тексте, сопровождающем рисунок. Если мы захотим предоставить читателю доступ ко всей информации, то данные графика можно просто представить ниже в виде таблицы.

<b>Рис. 18.2. </b>Прирост населения за период с 2000 по 2010 год и общая численность населения в 2000 году в 50 штатах и округе Колумбия. Источник: US Census Bureau
Рис. 18.2. Прирост населения за период с 2000 по 2010 год и общая численность населения в 2000 году в 50 штатах и округе Колумбия. Источник: US Census Bureau

В отличие от рисунка выше, здесь я раскрасил штаты в зависимости от региона и выделил некоторые из них. Чтобы визуально не перегружать график, большую часть штатов я оставил без маркировки.

Если на вашем графике присутствует более восьми категорий элементов, используйте прямую маркировку, а не цвет.

Другой распространенной ошибкой при использовании цвета является раскрашивание ради самого раскрашивания, без какой-либо конкретной цели. В качестве примера рассмотрим рис. 18.3, который представляет собой вариацию рис. 3.2. Здесь у каждого столбца есть свой цвет, который не имеет отношения к географическому региону. Цвета выбраны таким образом, чтобы получился эффект радуги.

Этот визуальный прием сам по себе смотрится красиво, однако он никак не влияет на интерпретирование графика читателем и не упрощает восприятие диаграммы. Помимо избыточного количества цветов, на рис. 18.3 имеется еще одна проблема, тоже связанная с раскраской: оттенки цветов слишком яркие, из-за чего на рисунок трудно даже смотреть.

Например, прочитать названия штатов, не отвлекаясь на большие ярко окрашенные области рядом с названиями, очень трудно. Аналогично соотнесение конечных точек столбцов с линиями сетки, расположенными ниже, тоже будет непростой задачей.

<b>Рис. 18.3.</b> Прирост населения США за период с 2000 по 2010 год. Источник: US Census Bureau
Рис. 18.3. Прирост населения США за период с 2000 по 2010 год. Источник: US Census Bureau

Создающие эффект радуги цвета столбцов не несут никакой смысловой нагрузки и попросту отвлекают зрителя. Кроме того, цвета слишком яркие.

Не закрашивайте большие области слишком яркими цветами. Это мешает читателю внимательно рассматривать рисунок.

Использование немонотонных цветовых шкал для передачи значений данных

В главе 3 я говорил о существовании двух критических условий, которые должны соблюдаться при создании последовательных цветовых шкал, используемых для передачи данных: цвет должен однозначно показывать, какие значения меньше, а какие больше; кроме того, различия между цветами должны визуализировать соответствующие различия между значениями данных. К сожалению, некоторые цветовые шкалы, в том числе весьма популярные, нарушают как минимум одно из этих условий.

Наиболее распространенной шкалой, в которой очень часто присутствует упомянутый изъян, является радуга (рис. 18.4). На этом графике цвет проходит последовательно всю видимую часть спектра. Это означает, что шкала фактически закольцована: цвет в начале и конце шкалы практически совпадает (темно-красный). Если эти два цвета соседствуют на графике, наше восприятие не считает, что они представляют значения данных, находящиеся максимально далеко друг от друга. Кроме того, шкала очень немонотонна. В некоторых ее областях цвета меняются очень медленно, а в некоторых — очень быстро.

Отсутствие монотонности особенно хорошо заметно в случае преобразования этой шкалы в оттенки серого (см. рис. 18.4). Шкала начинается с оттенков средней яркости, переходит к ярким оттенкам, затем к темному участку и, наконец, обратно к средней яркости. А еще на шкале присутствуют протяженные участки, где яркость практически не меняется, за которыми следуют более узкие участки с гораздо более заметными перепадами яркости.

<b>Рис. 18.4. </b>Цветовая гамма радуги очень немонотонна.
Рис. 18.4. Цветовая гамма радуги очень немонотонна.

Это особенно хорошо заметно на шкале, преобразованной в оттенки серого. Слева направо шкала начинается с оттенков средней яркости, переходит к ярким оттенкам, затем к темному участку и, наконец, обратно к средней яркости.

Кроме того, сама яркость меняется очень неравномерно. Самая светлая часть (соответствующая желтому, светло-зеленому и голубому цветам) занимает почти треть всей шкалы, в то время как самая темная часть (соответствующая темно-синему цвету) сосредоточена в достаточно узкой области

Визуализация данных с помощью радужной шкалы часто приводит к потере особенностей данных, а кроме того, такая шкала склонна произвольным образом выделять те или иные аспекты (рис. 18.5) информации. К тому же цвета в радужной шкале тоже чрезмерно насыщенны. Рассматривание рис. 18.5 в течение продолжительного времени может вызвать зрительный дискомфорт.

<b>Рис. 18.5.</b> Процент людей, идентифицирующих себя как белых, в округах Техаса. Источник данных: 2010 US Decennial Census
Рис. 18.5. Процент людей, идентифицирующих себя как белых, в округах Техаса. Источник данных: 2010 US Decennial Census

Радужная цветовая шкала не подходит для визуализации непрерывных значений данных, поскольку она склонна делать акцент на произвольных особенностях данных. На этом рисунке шкала выделила округа, в которых приблизительно 75% населения идентифицируют себя как белых.

Игнорирование потребностей людей с нарушениями цветового зрения

При выборе цвета для визуализации следует учитывать тот факт, что у значимой части наших читателей может присутствовать та или иная форма нарушения цветового зрения (то есть какая-то из форм дальтонизма). Такие читатели могут быть не в состоянии различать цвета, которые другие люди различают без каких-либо проблем. Нарушение цветового зрения не означает, что человек вообще не видит никаких цветов.

Как правило, в такой ситуации людям трудно различать определенные типы цветов, такие как красный и зеленый (красно-зеленое нарушение цветового зрения) или синий и зеленый (сине-желтое нарушение цветового зрения). Для указанных и родственных им состояний существуют специальные медицинские термины: дейтераномалия/дейтеранопия и протаномалия/протанопия для красно-зеленого варианта (когда люди испытывают трудности с восприятием зеленого или красного цвета соответственно) и тританомалия/тританопия для сине-желтого варианта (когда люди испытывают трудности с восприятием синего варианта).

Термины, оканчивающиеся на «-аномалия», подразумевают частично ухудшенное восприятие соответствующего цвета, а термины, оканчивающиеся на «-анопия», означают полное отсутствие восприятия указанного цвета. Приблизительно 8% мужчин и 0,5% женщин страдают от того или иного вида нарушений цветового зрения: наиболее распространенной формой является дейтераномалия, тогда как тританомалия встречается относительно редко.

Как мы уже знаем из главы 3, в визуализации данных используются три основных типа цветовых шкал: последовательные шкалы, расходящиеся шкалы и качественные шкалы. Последовательные шкалы, как правило, являются наиболее подходящими для людей с нарушениями цветового зрения, поскольку корректная последовательная шкала представляет собой непрерывный градиент от темных цветов к светлым.

На рис. 18.6 показана тепловая шкала с рис. 3.3 в смоделированных версиях дейтераномалии, протаномалии и тританомалии. Несмотря на то что ни одна из этих шкал не похожа на оригинал, все они представляют собой четкий градиент от темного цвета к светлому и все они хорошо выполняют свою работу по передаче величин значений данных.

<b>Рис. 18.6</b>. Моделирование нарушений цветового зрения для последовательной цветовой шкалы, изменяющейся от темно-красного до светло-жёлтого
Рис. 18.6. Моделирование нарушений цветового зрения для последовательной цветовой шкалы, изменяющейся от темно-красного до светло-жёлтого

В направлениях слева направо и сверху вниз мы видим исходную шкалу и шкалы, моделирующие восприятие в условиях дейтераномалии, протаномалии и тританомалии. Несмотря на то что определенные цвета выглядят по-разному при всех трех типах нарушений цветового зрения, в каждом случае хорошо виден четкий переход от темного цвета к светлому. Отсюда следует вывод, что данная цветовая шкала подходит для зрителей с нарушениями цветового восприятия

Что касается расходящихся шкал, то здесь дела обстоят немного сложнее. Популярные цветовые контрасты могут быть неразличимы для людей с нарушениями цветового восприятия. В частности, красный и зеленый цвета обеспечивают наиболее сильный контраст для людей с нормальным цветовым зрением, но становятся почти неразличимыми для дейтанов (людей с дейтераномалией) или протанов (людей с протаномалией) (рис. 18.7). Аналогично сине-зеленые контрасты хорошо воспринимаются дейтанами и протанами, но становятся неразличимыми для тританов (людей с тританомалией) (рис. 18.8).

<b>Рис. 18.7. </b>Красно-зеленый контраст становится неразличимым при дейтераномалии и протаномалии
Рис. 18.7. Красно-зеленый контраст становится неразличимым при дейтераномалии и протаномалии
<b>Рис. 18.8. </b>Сине-зеленый контраст становится неразличимым при тританомалии
Рис. 18.8. Сине-зеленый контраст становится неразличимым при тританомалии
<b>Рис. 18.9.</b>
Рис. 18.9.

Шкала ColorBrewer PiYG (от розового до желто-зеленого), используемая на рис. 3.5, выглядит почти как красно-зеленый контраст для людей с нормальным цветовым зрением, но при этом является различимой для людей со всеми формами дефицита цветового зрения.

Так происходит потому, что красноватый цвет на самом деле является розовым (смесь красного и синего), в то время как зеленоватый цвет содержит желтый. Разница в синем компоненте между этими двумя цветами доступна для восприятия дейтанам и протанам, а разница в красном компоненте будет заметна тританам

Глядя на эти примеры, можно легко прийти к неверному выводу о невозможности подбора двух контрастных цветов, сочетание которых было бы безопасно при любом типе недостатка цветового зрения. Однако ситуация не так страшна, как кажется на первый взгляд. Зачастую достаточно внести небольшие изменения в цвета, чтобы они сохранили желаемые характеристики и при этом были бы различимы зрителями с нарушениями цветового зрения.

Например, шкала ColorBrewer PiYG (от розового до желто-зеленого) на рис. 3.5 выглядит красно-зеленой для людей с нормальным цветовым зрением и при этом остается различимой для людей с нарушениями цветового восприятия (рис. 18.9). Наиболее сложным случаем являются качественные шкалы, поскольку они требуют для своего создания множества различных цветов, причем все они должны быть различимы при любом типе недостатка цветового зрения.

Я считаю, что в этой ситуации предпочтение следует отдавать специализированной шкале, которая была разработана с целью решения этой проблемы (рис. 18.10). Палитра, содержащая восемь разных цветов, пригодна практически для любого сценария с разными цветами. Как уже говорилось в начале этой главы, вне зависимости от ситуации следует избегать передачи более восьми различных элементов на одном графике при помощи цвета.

<b>Рис. 18.10. </b>Цветовая палитра для качественной шкалы, учитывающая все особенности цветового восприятия [Okabe and Ito, 2008]
Рис. 18.10. Цветовая палитра для качественной шкалы, учитывающая все особенности цветового восприятия [Okabe and Ito, 2008]

Буквенно-цифровые коды обозначают цвета в пространстве RGB, записанные в шестнадцатеричном формате. Во многих программах для работы с изображениями и графических библиотеках эти коды можно использовать как есть, либо же вы можете воспользоваться значениями из табл. 18.1.

<b>Таблица 18.1. </b>Цветовая шкала, дружественная людям с нарушениями цветового зрения [Okabe and Ito, 2008]
Таблица 18.1. Цветовая шкала, дружественная людям с нарушениями цветового зрения [Okabe and Ito, 2008]

Несмотря на то что на данный момент существует несколько хороших шкал, способных нивелировать нарушения цветового зрения, следует признать, что они не являются панацеей. Бывает так, что, даже используя шкалу, различимую при нарушениях цветового зрения, мы можем получить визуализацию, которую человек с нарушением цветового зрения просто не сможет понять. Одним из наиболее важных параметров является размер цветных графических элементов.

Различение цветов значительно упрощается, если они применены к большим областям, а не к маленьким, или к тонким линиям [Stone, Albers Szafir, Setlur, 2014], и при нарушениях цветового зрения этот эффект только усиливается (рис. 18.11).

В дополнение к различным аспектам цветового дизайна, которые обсуждались в этой главе и в главе 3, я рекомендую вам просматривать ваши цветные рисунки в режиме симуляции нарушений цветового зрения, чтобы понять, как разные люди будут видеть эти диаграммы. Для этого вы можете воспользоваться существующими онлайн-сервисами или настольными приложениями.

<b>Рис. 18.11.</b> Цветные элементы небольшого размера трудно отличимы друг от друга
Рис. 18.11. Цветные элементы небольшого размера трудно отличимы друг от друга

Верхняя левая панель (помеченная как «оригинальная») показывает четыре прямоугольника, четыре толстые линии, четыре тонкие линии и четыре группы точек разного размера, которые окрашены в четыре одинаковых цвета. Хорошо заметно, что чем меньше или тоньше визуальные элементы, тем сложнее их различить.

В симуляции нарушений цветового восприятия эта проблема только усугубляется, цвета становится сложно различить даже в случае крупных графических элементов.

Чтобы ваши графики были доступны для восприятия людьми с недостатком цветового зрения, не полагайтесь лишь на специализированные цветовые шкалы. Обязательно проверяйте, как ваши диаграммы выглядят в симуляторах недостатков цветового зрения.

1515
1 комментарий

Спасибо за статью.

1
Ответить