Инструмент Сглаживание временных рядов выполняет сглаживание числовой переменной одного или нескольких временных рядов, используя центрированное, прямое или обратное скользящее среднее, а также адаптивный метод, основанный на локальной линейной регрессии.
Методики сглаживания временных рядов широко используются в экономике, метеорологии, экологии и других полевых исследованиях, связанных со сбором данных по временным промежуткам. Сглаживание временных данных позволяет сделать очевидными долгосрочные тренды или циклы путем очистки от шума и кратковременных флуктуаций.
Возможное применение
Сглаживание временных рядов применимо к любым данным временных рядов, которые могут содержать шум или краткосрочные флуктуации. Например, вы можете использовать этот инструмент в следующих приложениях:
- Учет ежедневных случаев гриппа обычно используются в эпидемиологических исследованиях и планировании. Однако о случаях гриппа, выявленных в выходные дни, часто не сообщается до понедельника, в результате чего количество случаев заболевания в понедельник кажется больше, чем должно быть, а количество случаев заболевания в выходные дни - меньше. Для коррекции этого можно использовать обратное скользящее среднее, с временным окном в 6 дней. Использование данных за 6 предыдущих дней позволит усреднить значение текущего дня для вычисления общего за неделю.
- Допустим, у вас есть долговременные измерения температуры каждый час. Временные ряды для таких данных будут трудны для восприятия и выявления каких-либо трендов и закономерностей. Для выявления тренда в данных можно применить локальную линейную регрессию с адаптивной шириной полосы, что позволяет обеспечить более четкую визуализацию и анализ. Метод адаптивной ширины полосы использует расширение временных окон в отдельных секциях временного ряда, в зависимости от количества данных, необходимых для качественного сглаживания в каждой секции.
Методы сглаживания
В инструменте доступны четыре метода сглаживания.
Метод Обратное скользящее среднее (также называется простое скользящее среднее) - широко используемый и простой метод сглаживания, который вычисляет сглаживание для значения, используя среднее самого значения и всех предшествующих ему в пределах временного окна. Преимущества этого метода - возможность моментального применения на потоковых данных; как только поступает новое значение, оно сразу может быть сглажено на основе предыдущих значений временного ряда. Но у метода есть недостаток, так как сглаживаемое значение находится не в центре временного окна, поэтому вся информация поступает только с одной стороны значения. Это может привести к неожиданным результатам, если закономерности в данных будут отличаться с каждой стороны сглаживаемого значения.
Метод Прямое скользящее среднее в целом аналогичен обратному, но сглаживание вычисляется с использованием среднего самого значения и всех последующих значений в пределах временного окна. У метода тот же недостаток - вся информация поступает только с одной стороны значения.
Центрированное скользящее среднее сглаживает каждое значение, используя среднее в пределах временного окна, при этом само значение находится в центре временного окна. В этом методе временное окно разбивается, и в сглаживании участвует половина значений до текущего, и половина - после. Преимущества использования этого метода - учет информации до и после сглаживаемого значения, поэтому сглаживание более стабильно и с меньшими отклонениями.
Метод Регрессии с адаптивной шириной полосы, (также называемый Friedman super smoother) сглаживает значения с использованием центрированного временного окна и подгонки модели линейной регрессии (прямая линия) для данных в нескольких временных окнах. Длина временного окна меняется для каждого значения, и некоторые секции используют более широкие окна, чтобы включить больше информации в модель. Преимущества этого метода - нет необходимости задавать временное окно, так как оно определяется инструментом. Этот метод подходит для моделирования данных со сложными трендами. Если временное окно задано в инструменте, то для сглаживания всех записей будет использовано одно указанное окно, и метод становится эквивалентен локальной линейной регрессии. Полное описание метода см. в документе в конце раздела Линейная регрессия с адаптивной шириной полосы.
Параметр Применить сокращение временного окна в начале и в конце используется для управления временным окном в начале и в конце временного ряда. Если сокращение временного окна не применяется, сглаженные значения будут нулевыми для любой записи, где временное окно расширяется до начала или после окончания временного ряда. Если сокращение применено, временное окно будет обрезано в начале и в конце, и сглаживание будет применено только в пределах окна. Например, у вас есть ежедневные данные, и вы используете обратное скользящее среднее в пределах двухдневного временного окна, сглаженные значения первого из двух дней будут нулевыми, если временное окно не сокращено (обратите внимание, что второй день - только один после старта временного ряда). На третий день (два дня после старта временного ряда) двухдневное временное окно не будет расширено до старта, соответственно сглаженное значение третьего дня будет средним значением первых трех дней.
Выходные данные инструмента
Основные выходные данные инструмента - класс объектов или таблица, содержащие сглаженные значения, сглаженные значения и число соседей, используемое для сглаживания в местоположении. Псевдоним поля сглаженных значений отображает метод сглаживания и временное окно анализа (если используется адаптивная ширина полосы, временное окно не отображается). Если вы присоединяете к исходным значениями, эти поля добавляются к входным объектам или таблице. Для линейной регрессии с адаптивной шириной полосы число соседей может быть не целочисленным. Это обсуждается ниже, в разделе Адаптивная ширина полосы в локальной регрессии.
Диаграммы временных рядов
Вы можете использовать Включение всплывающих окон временных рядов для отображения всплывающих диаграмм для каждой выходной записи. Для выходного объекта щелкните объект на карте, чтобы отобразить исходные и сглаженные значения временных рядов для этого объекта. Для получения доступа к всплывающему окну, щелкните правой кнопкой запись в атрибутивной таблице.
В выходной таблице или классе объектов так же содержится диаграмма-график, показывающая сглаженные значения в каждом из временных рядов
Примечание:
Большое количество входных данных может привести к проблемам отображения при просмотре диаграммы временных рядов.
Сообщения геообработки
Сообщение геообработки включает раздел Сводная информация по сглаживанию, которая содержит данные о результатах сглаживания в каждом временном ряде. Информация включает значение R2 и суммарную статистику для количества временных соседей (минимум, максимум, среднее, медиану и средне-квадратичное отклонение).
Линейная регрессия с адаптивной шириной полосы
Локальная линейная регрессия с адаптивной шириной полосы строит локальные линейные модели для каждого временного шага, используя значения во временной окрестности, где количество соседей может варьироваться для каждого временного шага. В каждом временном шаге выполняется несколько линейных регрессий для различного числа соседей, и модели объединяются для обеспечения наилучшей подгонки к данным в процессе эффективного сглаживания.
На рисунке ниже показаны временные ряды с 20 временными шагами. Серые точки показывают исходные значения временных рядов с шумом, а красные и голубые линии представляют результаты сглаживания с фиксированным числом соседей. Линия красного цвета демонстрирует использование для сглаживания значения 20 соседей - очевидно, что такое сглаживание не очень хорошо работает с флуктуациями на коротких временных отрезках в данных, что особенно хорошо заметно с правой стороны графа, где линия очень неровная. Линия голубого цвета показывает сглаживание на основе значений 80 соседей, и демонстрирует слишком сильное сглаживание, что не позволяет достичь пика и плато в первой половине временного ряда. Линия зеленого цвета демонстрирует оптимальное совмещение красной и голубой линий, поддерживая подходящий уровень интенсивности сглаживания на протяжении всех временных рядов. Зеленая линия показывает сглаживание с использованием большего числа соседей на участках временных рядов, где красная линия очень неровная, и использование меньшего числа соседей там, где голубая линия чересчур гладкая.
На некоторых участках временных рядов зеленая линия подходит очень близко к красной, в других местах зеленая проходит рядом с голубой, в зависимости от того, что лучше соответствует для временного ряда на конкретном участке временного шага. На изображении ниже показан временной ряд, приближенный к временному шагу 134. Красная линия проходит ближе к середине облака точек, чем голубая линия, поэтому здесь зеленая линия ближе к красной, чем голубая.
Число соседей, используемых для временного шага, определяется линейной интерполяцией между числом соседей в сглаживаниях, обозначенных красной и синей линий, взвешенным по линии, обеспечивающей наилучшее соответствие. на рисунке ниже видно, что красная линия показывает наилучшее соответствие для большинства временных шагов до приблизительно 150-го, а после - лучшее соответствие обеспечивает голубая линия. Оптимальное число соседей для временного шага 143 - 26.4, что ближе к 20 соседям, а не к 80.
Более подробно об адаптивной ширине полосы в локальной регрессии см. следующие материалы:
- Friedman, J. H. (1984). "A variable span smoother." USDOE Office of Science (SC). SLAC-PUB-3477. https://doi.org/10.2172/1447470