Обобщенная линейная регрессия

Значок инструмента Доступен в аналитике больших данных.

Обобщенная линейная регрессия Инструмент Обобщенная линейная регрессия выполняет обобщенную линейную регрессию (ОЛР) для вычисления прогнозов или моделирования взаимосвязи между независимыми переменными и зависимой переменной. Этот инструмент можно использовать для подгонки непрерывных (гауссовских), количественных (пуассоновских) и бинарных (логистических) типов моделей.

Схема рабочего процесса

Схема рабочего процесса инструмента Обобщенная линейная регрессия

Пример

Вы - аналитик в большом городе, и у вас есть доступ к записям вызовов 911 и демографическим данным. Вам необходимо ответить на следующий вопрос: Какие переменные помогут правильно прогнозировать количество обращений по 911? С учетом тенденции, какие ресурсы необходимы для реагирования на экстренные вызовы?

Примечания по использованию

  • Инструмент можно настроить для использования одного из двух методов обработки:
    • Метод 1 — если предоставлены только целевые (обучающие) данные, инструмент использует подгонку модели и оценку производительности. Инструмент позволяет вам оценить производительность разных моделей путем анализа различных независимых переменных и настроек инструмента.
    • Метод 2 — у вас уже есть подходящая модель и независимые переменные, выполните дополнительную настройку, чтобы добавить присоединенные (прогнозируемые) данные. После настройки присоединенных данных, инструмент будет прогнозировать значения зависимой переменной в присоединенных (прогнозируемых) данных на основании сопоставления независимых переменных.
  • Используйте параметр Зависимая переменная для выбора поля из Целевого входного слоя (обучающие данные), представляющего явление, которое вы моделируете. Используйте параметр Независимые переменные для выбора одного или нескольких полей, представляющих независимые переменные Целевого входного слоя (обучающие данные). Поля должны быть числовыми и содержать диапазоны значений. Объекты, у которых отсутствуют значения в зависимых или описательных переменных, будут исключены из анализа. Чтобы изменить нулевые значения, используйте инструмент Вычислить поле перед обновлением значений.
  • Инструмент Обобщенная линейная регрессия также создает выходные объекты и результаты диагностики. Выходные слои объектов автоматически имеют схему отображения, применяемую к невязкам модели. Полное пояснение по каждому результату приведено ниже.
  • Для получения точных результатов регрессионного анализа очень важно использовать правильный тип модели анализа — Непрерывная (Гауссова), Количественная (Пуассона) или Бинарная (Логистическая).
  • Сводная информация по результатам и проверкам модели записывается в журнал анализа, а так же на страницу информации выходного векторного слоя. Эти проверки содержат сводную информацию по Обобщенной модели регрессии, а также статистические показатели, по которым можно оценить, насколько хорошо модель соответствует данным. Отчет по проверкам зависит от выбранного типа модели. Существует три типа моделей:
    • Непрерывная (Гауссова) - используется, если зависимая переменная представлена широким диапазоном значений, например измерения температуры воздуха или объемы продаж. В идеале зависимая переменная должна подчиняться принципу нормального распределения.
    • Количественная (Пуассона) - используется, если зависимая переменная содержит дискретные значения, и представляет явление с количественным измерением, скажем число преступлений. Количественные модели также можно использовать с зависимой переменной, представляющий соотношение, где в знаменателе фиксированное значение, по которому можно нормировать, например объем продаж в месяц или число онкобольных на 10000 населения. Количественная (Пуассона) модель предполагает, что среднее и вариабельность зависимой переменной равны и значения зависимой переменной не могут быть отрицательными или содержать десятичные значения.
    • Бинарная (логистическая) - используется, если зависимая переменная представлена двумя возможными значениями, скажем удалось или не удалось, или наличие - отсутствие. Поле, содержащее зависимую переменную, должно быть числовым и содержать только единицы и нули. В данных должны присутствовать только нули и единицы.
  • Параметры Зависимая переменная и Описательная переменная должны быть заданы числовыми полями, содержащими диапазоны значений. Инструмент не может работать, когда все переменные имеют одинаковые значения (например, все значения для поля равны 9.0).
  • Пространственные объекты, имеющие одно или более значений null или пустые строковые значения в полях прогноза или в описательных полях, будут исключены из результатов. Если вам нужно изменить значения, используйте инструмент Вычислить поле.
  • Визуально оцените все очевидные отклонения прогнозов в большую и меньшую сторону в невязках вашей регрессии, чтобы увидеть, дают ли они представления о потенциальных недостающих переменных в вашей модели регрессии.
  • Используйте созданную модель регрессии, чтобы выполнить прогнозирование для остальных объектов. Для вычисления прогнозируемых значений необходимо, чтобы в каждом прогнозируемом местоположении (присоединенном наборе данных) были значения для каждой независимой переменной. Конфигурация сопоставления независимых переменных определяется именами полей независимых переменных в слое целевых (обучающих) объектов и присоединяемых объектов (прогнозирования). При сопоставлении независимых переменных поля в целевых (обучающих данных) и присоединяемых (прогнозируемых данных) объектах должны быть одного типа (например, поля типа double сопоставляются с double).

Параметры

ПараметрОписаниеТип данных

Целевой входной слой (обучающие данные)

Обучающие объекты, используемые для построения модели.

Объекты

Присоединяемый входной слой (прогнозируемые данные)

(Дополнительный)

Объекты прогнозирования, для которых значения зависимой переменной прогнозируются на основании указанных независимых переменных и типа модели.

Это дополнительный параметр. Если не указано, инструмент Обобщенной линейной регрессии будет выполнять подгонку модели для максимальной производительности на основании обучающих данных.

Объекты

Тип модели

Тип используемой модели. Выбор нужного типа модели зависит от типа данных зависимой переменной. Возможны следующие типы моделей:

  • Непрерывная (Гауссова) - используется, если зависимая переменная представлена широким диапазоном значений, например измерения температуры воздуха или объемы продаж.
  • Количественная (Пуассона) - используется, если зависимая переменная содержит дискретные значения, и представляет явление с количественным измерением, скажем число преступлений, или отношение, в котором знаменатель является фиксированным значением.
  • Бинарная (логистическая) - используется, если зависимая переменная представлена двумя возможными значениями, скажем удалось или не удалось, или наличие - отсутствие.

String

Зависимая переменная

Поле, представляющие явление, которое вы моделируете

FieldName

Текст для сопоставления с нулем

Для модели типа Бинарная (Логистическая) - если для Зависимой переменной указано строковое поле, этот параметр используется для указания строк зависимой переменной, которые будут конвертированы в нули.

String

Текст для сопоставления с единицей

Для модели типа Бинарная (Логистическая) - если для Зависимой переменной указано строковое поле, этот параметр используется для указания строк зависимой переменной, которые будут конвертированы в единицу.

String

Независимые переменные

Поле или поля в целевой схеме, представляющие независимые переменные в вашей регрессионной модели.

FieldNames

Сопоставление независимой переменной (только прогноз)

Сопоставляет выбранные имена полей независимых переменных в целевой (обучающей) схеме с соответствующими именами полей в присоединяемой (прогнозируемой) схеме.

Это дополнительный параметр. Сопоставления независимых переменных указываются, только если заданы присоединенные (прогнозируемые) данные.

ExplanatoryVariableMappings

Выходной слой

Инструмент Обобщенная линейная регрессия создает множество выходных данных. Суммарная информация по Обобщенной модели регрессии и статистические сводки доступны на странице информации элемента выходного векторного слоя, я также в журнале анализа.

Если применяется Метод 1, то выполняется подгонка модели для максимальной производительности, обучающие данные становятся также и выходными, сообщения и результат проверок модели доступны на странице информации элемента выходного векторного слоя в дополнение к результатам в журнале анализа.

Если применяется Метод 2, то выполняется подгонка модели для максимальной производительности, выходными данными будут данные прогнозирования, с добавлением прогнозированных значений, а сообщения и результат проверок модели доступны на странице информации элемента выходного векторного слоя в дополнение к результатам в журнале анализа.

Полученные диагностические данные зависят от типа модели входных объектов, и описаны ниже.

Непрерывная (Гауссова)

Интерпретация сообщений и показателей диагностики

  • AIC - это измерение производительности модели, которое используется при сравнении различных моделей регрессии. Учитывая сложность модели, модель с более низким значением AIC лучше соответствует реальным данным. AIC не является абсолютным измерением пригодности модели, но он полезен для сравнения модели с различными независимыми переменными, которые применяются к одной зависимой переменной. Если значения AIC для двух моделей отличаются более, чем на 3, то модель с меньшим значением AIC рассматривается как более точная.
  • AICc - AICc применяет к AIC поправку на смещение для небольших выборок. AICc приближается к AIC при возрастании числа объектов во входных данных. См. AIC выше.
  • Множественный R-2 - R-квадрат показывает, насколько модель соответствует действительности. Его значение изменяется от 0.0 до 1.0, чем больше значение, тем лучше. Его можно интерпретировать как долю дисперсии зависимой переменной, которая объясняется моделью регрессии. Знаменателем при вычислении Множественного R-2 является сумма квадратов значений зависимых переменных. При добавлении каждой независимой переменной знаменатель модели не будет меняться, однако числитель будет меняться, создавая ошибочное впечатление, что модель близка к действительности. См. Скорректированный R-2 ниже.
  • Скорректированный R-2 – в свете описанных выше проблем, вычисление значения скорректированного R-2 нормирует числитель и знаменатель по их степеням свободы. При этом компенсируется число переменных в модели, и, следовательно, значение Скорректированный R-2 всегда меньше, нежели просто значение R-2. Однако при такой корректировке вы теряете интерпретацию значения как пропорцию объясняемой переменной. В ГВР эффективное число степеней свободы является функцией от размера окрестности, поэтому корректировка может быть более заметна в глобальной модели, например, ОЛР. По этой причине желательно использовать значения AIC при сравнении моделей.

Количественная (Пуассона)

Интерпретация сообщений и показателей диагностики

  • AIC - это измерение производительности модели, которое используется при сравнении различных моделей регрессии. Учитывая сложность модели, модель с более низким значением AIC лучше соответствует реальным данным. AIC не является абсолютным измерением пригодности модели, но он полезен для сравнения модели с различными независимыми переменными, которые применяются к одной зависимой переменной. Если значения AIC для двух моделей отличаются более, чем на 3, то модель с меньшим значением AIC рассматривается как более точная.
  • AICc - AICc применяет к AIC поправку на смещение для небольших выборок. AICc приближается к AIC при возрастании числа объектов во входных данных. См. AIC выше.

Бинарная (Двоичная)

Интерпретация сообщений и показателей диагностики

  • AIC - это измерение производительности модели, которое используется при сравнении различных моделей регрессии. Учитывая сложность модели, модель с более низким значением AIC лучше соответствует реальным данным. AIC не является абсолютным измерением пригодности модели, но он полезен для сравнения модели с различными независимыми переменными, которые применяются к одной зависимой переменной. Если значения AIC для двух моделей отличаются более, чем на 3, то модель с меньшим значением AIC рассматривается как более точная.
  • AICc - AICc применяет к AIC поправку на смещение для небольших выборок. AICc приближается к AIC при возрастании числа объектов во входных данных. См. AIC выше.

Советы и ограничения

Обобщенная линейная регрессия в ArcGIS Velocity имеет следующие ограничения:

  • Это глобальная модель регрессии, которая не учитывает пространственное распределение данных.
  • При анализе к невязке не применяется тест Moran's I.
  • Точки, линии, полигоны и таблицы поддерживаются в качестве геометрии целевого (обучающих данных) набора данных.
  • Классифицировать значения по нескольким классам нельзя.