Построить модель регрессии используется для моделирования отношений между двумя или несколькими независимыми переменными с одной стороны и зависимой переменной реакции – с другой путем подгонки линейного уравнения к наблюдаемым данным. Каждое значение независимой переменной (x) связано со значением зависимой переменной (y).
Построить модель регрессии в качестве типа регрессии использует Метод наименьших квадратов (OLS).
Пример
Экологическая организация изучает причину выбросов парниковых газов в стране с 1990 по 2015 год. Построить модель регрессии может использоваться для построения выражения, оценивающего объем выбросов тепличных газов по странам на основе описательных переменных, таких как численность населения и валовой внутренний продукт (ВВП).
Используйте возможность Создания модели регрессии
Выполните следующие действия, чтобы запустить возможность Построить модель регрессии:
- Создайте карту, диаграмму или таблицу, используя набор данных, с помощью которого хотите создать модель регрессии.
- Щелкните кнопку Действие .
- Вы можете сделать следующее:
- Если ваша карточка является диаграммой или таблицей, щелкните Как оно связано на панели Аналитика.
- Если ваша карточка является картой, щелкните на вкладке Найти ответы выберите Как оно связано.
- Щелкните Построить модель регрессии.
- Для Выбрать слой, выберите набор данных, с помощью которого вы хотите создать модель регрессии.
- Для Выбрать зависимую переменную выберите поле, которое вы хотите объяснить с помощью своей модели. Поле должно быть числовое или доля/отношение.
- Щелкните Выбрать независимые переменные, чтобы отобразить меню доступных полей.
- Выберите поля для использования их в качестве независимых переменных (также называемых объясняющими переменными).
- Щелкните Выбрать, чтобы применить независимые переменные.
- Щелкните кнопку Визуализировать, чтобы просмотреть точечную диаграмму (рассеяния) или матрицу точечной диаграммы зависимых и независимых переменных, если они доступны. Точечные диаграммы (рассеяния) можно использовать как часть исследовательского анализа для вашей модели.
Примечание:
Кнопка Визуализация не доступна, если выбрано пять или более независимых переменных.
- Щелкните Запустить.
Регрессионная модель создается для выбранных зависимых и независимых переменных. Теперь можно использовать выходные данные и статистику для продолжения проверки достоверности модели с помощью исследовательского и подтверждающего анализа.
Примечания по использованию
Построить модель регрессии можно открыть с помощью кнопки Действие в разделе Как оно связано на вкладке Найти ответы.
В качестве зависимой переменной можно выбрать одно поле чисел или одно поле доля/отношение. Зависимая переменная – это поле чисел, которое вы пытаетесь объяснить с помощью модели регрессии. Например, если вы создаете модель регрессии, чтобы определить причину детской смертности, коэффициент детской смертности является зависимой переменной.
В качестве независимых (объясняющих) переменных можно выбрать до 20 полей чисел или полей доля/отношение. Объясняющие переменные являются независимыми переменными, которые можно выбрать как часть модели регрессии для объяснения зависимой переменной. Например, если вы создаете модель регрессии, чтобы определить причины детской смертности, к описательным переменным могут относится уровни бедности, заболеваемости и вакцинации. Если число выбранных описательных переменных четыре или меньше, диаграмму рассеяния или матрицу диаграммы рассеяния можно создать, щелкнув Визуализировать.
Следующие выходные значения даются в разделе Статистика модели:
- Уравнение регрессии
- R2
- Выровненные R2
- Тест Durbin-Watson
- p-значение
- Стандартная ошибка невязки
- F-статистика
Выходные данные и статистика могут быть использованы для анализа точности модели.
После создания модели, новый набор данных функции добавляется на панель данных. Набор данных функции можно использовать в Переменной прогнозирования. Построить модель регрессии также создает итоговый набор данных, который содержит все поля из входных, а также поля estimated, residual и standardized_residual. Эти поля содержат следующую информацию:
- estimated - значение зависимой переменной, оцененное с помощью модели регрессии
- residual- разница между исходным значением поля и интерполируемым значением зависимой переменной
- standardized_residual- соотношение невязки и среднеквадратичного отклонения невязок
Как работает инструмент Построить модель регрессии
Стандартную модель наименьших квадратов можно создать, если соблюдаются следующие условия:
- Данная модель должна быть линейной по параметрам.
- Данные представляют собой случайную выборку населения.
- Независимые переменные не слишком сильно коллинеарны.
- Степень точности измерения независимых переменных настолько высока, что ошибкой измерения можно пренебречь.
- Ожидаемое значение остатков всегда равно нулю.
- Остатки имеют постоянную дисперсию (однородную дисперсию).
- Распределение остатков – обычное.
Построить модель регрессии часто срабатывает успешно, даже если одно или несколько предположений не выполняются. Поэтому, предположения для OLS должны быть проверены перед применением инструмента Построить модель регрессии. Если предположения не выполняются, модель может оказаться невалидной.
Модель не может быть создана, если третье предположение - независимые переменные не являются слишком коллинеарными - не выполняется. В этом случае появляется сообщение Две или больше описательных переменных являются связанными. Удалите одну из коллинеарных переменных и попробуйте снова. Вы можете определить, какие переменные являются коллинеарными с помощью диаграммы рассеяния или матрицы диаграммы рассеяния. Коллинеарные переменные будут иметь линейное отношение и одна из них будет явно зависеть от другой. Удалите зависимую коллинеарную переменную из модели.
Дополнительные сведения и рекомендации по применению моделей OLS см. в разделе Регрессионный анализ.