Точечная диаграмма (рассеяния)

Точечная диаграмма используется для отображения отношений между двумя числовыми переменными, где одна из них отображается по оси x, а другая – по оси y. Для каждой записи в диаграмме на пересечении значений двух переменных ставится отдельная точка. Когда получившиеся точки создают неслучайную структуру, это говорит о наличии взаимосвязи между двумя переменными.

Переменные

Точечные диаграммы состоят из двух чисел, одно – для оси x, а другое – для оси y. Кроме того, можно задать третью переменную для пропорционального изменения размера каждой точки диаграммы.

Несколько серий

Точечные диаграммы могут отображаться с несколькими сериями, посредством настройки поля категории Разбить. Например, в наборе данных о преступлениях поле CrimeType может использоваться для разделения данных на несколько серий. Таблица Серии будет заполнена каждым уникальным значением поля типа преступления (например, Theft, Vandalism, Arson), а на результирующей диаграмме будут отображены три серии точечной диаграммы.

Показать несколько серий

Чтобы настроить точечную диаграмму с несколькими рядами, используйте опцию Отображать несколько рядов как на вкладке Серии на панели Свойства диаграммы. По умолчанию несколько рядов отображаются с опцией Отдельная диаграмма. В этом представлении все серии рисуются в одной и той же области графика, но каждой серии присваивается уникальный цвет, позволяющий сравнивать разные группы.

Вы также можете просмотреть точечную диаграмму с несколькими сериями в виде Сетчатой диаграммы (также известной как малые кратные) с помощью опции Сетка. Эта опция отображает матрицу более мелких диаграмм, где каждая мини-диаграмма показывает данные только для отдельных серий. Сетчатые диаграммы подходят для сравнения трендов и закономерностей между разными подгруппами в данных. Можно настроить размеры компоновки сетчатой диаграммы, установив числовое значение для Мини-диаграмм на строку. Например, если задано Мини-диаграмм на строку диаграммы как 3, то будет отображаться максимум 3 диаграммы в строке — общее количество строк сетки будет определяться количеством серий в вашей диаграмме. Отметив Предварительный просмотр диаграммы, вы сможете в динамике исследовать каждую мини-диаграмму более подробно, выбрав одну из них для просмотра на более крупном виде предварительного просмотра.

Пример сетчатой диаграммы

Поле отображения подсказки инструмента

Ниспадающее меню Поле отображения подсказки инструмента можно использовать для показа значений из отдельного поля в подсказке для каждой точки точечной диаграммы. Например, при построении диаграммы housing_cost по crime_rate, будет полезным выбрать neighborhood для значения Поля отображения подсказки инструмента, чтобы при наведении указателя мыши на отдельную точку отображалось название квартала.

Статистика

Вычисляется уравнение регрессии, а на диаграмме появляется связанная линия тренда. Линия тренда моделирует отношение между двумя переменными, доступны опции линии линейного (Linear) и нелинейного (Exponential, Logarithmic, Power и Polynomial) тренда. Значение R² количественно определяет, насколько хорошо данные соответствуют модели, хотя это значение может быть проблематичным для нелинейных моделей, поскольку линейность — это допущение, встроенное в расчет R². Для выключения линии тренда снимите отметку Показать линейный тренд на панели Свойства диаграммы, либо включите/выключите видимость, щелкнув элемент легенды. Чтобы поменять цвет линии тренда, щелкните образец цвета линии тренда в Свойствах диаграммы и выберите новый цвет.

Более подробно об анализе регрессии

Примечание:

В диаграммах используется следующая формула для расчета R²:

Формула R-квадрат,

где Действительное значение - это действительное значение, Предсказанное значение - предсказанное значение, а Среднее из действительных значений - среднее из действительных значений.

Корреляция

Для линейных трендов, когда малые значения X соответствуют малым значениям Y, а большие значения X – большим Y (линия поднимается вверх), это значит, что есть положительная корреляция. Когда малые значения X соответствуют большим значениям Y, а большие значения X, наоборот, малым Y (линия опускается вниз), это значит, что есть отрицательная корреляция.

Примечание:

Корреляция между X и Y вовсе не обязательно значит, что X вызывает Y.

Символ

Несколько опций позволяют настроить оформление диаграммы и связанные настройки.

Размер

Точки точечной диаграммы могут быть одинакового размера или разного размера, определяющегося числовым значением атрибута. Изменение размера на основе третьей числовой переменной добавляет другое измерение для визуализации путем создания пузырьковой диаграммы.

Пример пузырьковой диаграммы

Цвет

Точки точечной диаграммы можно визуализировать одним цветом или цветами, заданными в символах слоя. По умолчанию, точечной диаграммы наследуют цвет контура и заливки из условных знаков слоя-источника. Если настроить символы слоя по другом атрибуту, отличному от переменных диаграммы рассеяния, то эта третья переменная будет также показана на диаграмме.

Оси

Несколько опций позволяют настроить оси и связанные настройки.

Границы по осям

Минимальное и максимальное значения осей по умолчанию основываются на диапазоне значений данных по осям. Эти значения можно настроить, введя нужные граничные значения по осям. Щелчок на кнопке сброса вернет граничные значения оси к настройкам по умолчанию.

Логарифмическая ось

По умолчанию все числовые оси точечной диаграммы отображаются по линейной шкале. Одна или обе оси могут быть отображены в логарифмической шкале, если поставить отметку Логарифмическая в разделе Оси панели Свойства диаграммы.

Логарифмические шкалы применяются при визуализации данных с большим положительным сдвигом, где есть большое число точечных данных с маленькими значениями и небольшое - с очень большими значениями. Изменение шкалы оси не меняет значения данных, меняется просто способ их отображения.

Линейные шкалы основаны на суммировании, а логарифмические - на умножении.

На линейной шкале приращение по оси представляет собой одинаковое расстояние в значениях. Например, на диаграмме оси ниже каждый инкремент оси больше предыдущего на 10.

Ось с линейной шкалой

В логарифмической шкале каждое приращение увеличивается на определенную величину. Например, на диаграмме оси ниже каждое приращение по оси увеличивается умножением на 10.

Ось с логарифмической шкалой

Примечание:

В логарифмических шкалах нельзя отобразить отрицательные и нулевые значения. Если вы выбрали логарифмическую шкалу оси для переменной с отрицательными или нулевыми значениями, эти значения не будут отображены на диаграмме.

Границы по осям

Если точечная диаграмма с несколькими сериями отображается с опцией Сетка, границы осей можно настроить с помощью следующих опций:

  • Фиксированный - Применяет глобальные минимальные и максимальные границы ко всем мини-диаграммам.
  • Адаптивный - Настраивается в соответствии с локальными минимальными и максимальными границами для каждой мини-диаграммы.

Интервалы сетки

Интервалы сетки для оси x и оси y можно настроить с помощью элемента управления Интервал. Интервалы сетки по умолчанию будут рассчитаны автоматически.

Инвертировать оси

Любую ось точечной диаграммы можно инвертировать, включив опцию Инвертировать ось.

Числовой формат

Вы можете отформатировать способ отображения числовых значений оси, указав категорию форматирования или задав пользовательский формат. Например, $#,### можно использовать как строку пользовательского формата для отображения денежных значений.

Оформление

Несколько опций позволяют настроить оформление диаграммы и связанные настройки.

Заголовки и описание

Диаграммам и осям присваиваются названия по умолчанию на основе имен переменных и типа диаграммы. Эти значения можно редактировать на вкладке Общие панели Свойства диаграммы. Также для диаграммы можно ввести Описание, которое представляет из себя текстовый блок, появляющийся в нижней части окна диаграммы.

Направляющие

В диаграмму можно добавить линии направляющих или диапазоны для сравнения или выделения значимых величин. Чтобы добавить новую направляющую, перейдите на вкладку Направляющие на панели Свойства диаграммы, выберите, какую направляющую хотите нарисовать: горизонтальную или вертикальную, а затем нажмите Добавить направляющую. Чтобы нарисовать линию, введите Значение, для которого вы собираетесь ее нарисовать. Для создания диапазона введите значение до. Дополнительно можно добавить текст к направляющей, указав Подпись.

Пример

Точечная диаграмма ниже визуализирует взаимосвязь между диабетом и гипертонией среди владельцев страховки Medicare. Выберите объекты в диаграмме, чтобы просмотреть, где они расположены на карте.

  • Ось X – уровень диабета
  • Ось Y – уровень гипертонии

Пример диаграммы рассеяния