La herramienta Suavizado de serie temporal suaviza una variable numérica de una o varias series temporales mediante promedios móviles centrados, hacia delante y hacia atrás, así como un método adaptable basado en regresión lineal local.
Las técnicas de suavizado de series temporales se utilizan ampliamente en economía, meteorología, ecología y otros campos que manejan datos recopilados a lo largo del tiempo. El suavizado de datos temporales a menudo revela tendencias o ciclos a largo plazo mientras suaviza el ruido y las fluctuaciones a corto plazo.
Potenciales aplicaciones
El suavizado de series temporales es aplicable a cualesquier datos de serie temporal que se sepa que contienen ruido o fluctuaciones a corto plazo. Por ejemplo, puede utilizar la herramienta en las siguientes aplicaciones:
- Los casos diarios de gripe se utilizan habitualmente en la investigación y planificación epidemiológicas. Sin embargo, los casos de gripe que se detectan los fines de semana no se suelen notificar hasta el lunes, lo que hace que los recuentos de casos del lunes parezcan mayores de lo que deberían ser y que los recuentos de casos del fin de semana parecen menores de lo que deberían ser. Para corregirlo, puede utilizar un promedio móvil hacia atrás con una ventana de tiempo de 6 días. Al utilizar 6 días, se calculará el promedio del valor del día actual y de los 6 días anteriores para un total de 1 semana.
- Tiene datos de temperatura a largo plazo medidos cada hora. Cuando se representan en una serie temporal, los datos tienen demasiado ruido y son demasiado voluminosos para ver patrones y tendencias claros. Puede capturar la tendencia general de los datos utilizando una regresión lineal local de ancho de banda adaptable para permitir una visualización y análisis más claros. El método de ancho de banda adaptable utilizará ventanas de tiempo más amplias en algunas secciones de la serie temporal que otras, dependiendo de la cantidad de datos necesarios para suavizar cada sección de forma eficaz.
Métodos de suavizado
La herramienta dispone de cuatro métodos de suavizado.
El método Promedio móvil hacia atrás (también denominado promedio móvil simple) es un método de suavizado simple muy utilizado que suaviza cada valor tomando el promedio del valor y todos los valores anteriores que se encuentran dentro de la ventana de tiempo. Una de las ventajas de este método es que se puede realizar de inmediato al transmitir los datos; como se registra un nuevo valor, se puede suavizar de inmediato utilizando los datos anteriores de la serie temporal. Sin embargo, este método tiene la desventaja de que el valor que se suaviza no está en el centro de la ventana de tiempo, de modo que toda la información proviene de un solo lado del valor. Esto puede ocasionar resultados inesperados si las tendencias de los datos no son las mismas a cada lado del valor que se suaviza.
El método Promedio móvil hacia delante es análogo al promedio móvil hacia atrás, pero, en este caso, el valor suavizado es el promedio del valor y todos los valores posteriores que se encuentran dentro de la ventana de tiempo. Tiene la desventaja análoga de que toda la información utilizada para el suavizado proviene de un solo lado del valor.
El método Promedio móvil centrado suaviza cada valor calculando el promedio dentro de la ventana de tiempo, donde el valor que se suaviza se encuentra en el centro de la ventana. En este método, la ventana de tiempo se divide de modo que la mitad de la ventana se utiliza antes de suavizar el valor y la otra mitad se utiliza después. Este método tiene la ventaja de utilizar información antes y después del tiempo del valor que se suaviza, por lo que suele ser más estable y tiene menor sesgo.
El método Regresión lineal local de ancho de banda adaptable (también denominado supersuavizador de Friedman) suaviza los valores utilizando una ventana de tiempo centrada y ajustando los modelos de regresión lineal (línea recta) a los datos en varias ventanas de tiempo. La longitud de las ventanas de tiempo puede cambiar para cada valor, por lo que algunas secciones de la serie temporal utilizarán ventanas más amplias para incluir más información en el modelo. Este método tiene la ventaja de que no es necesario proporcionar la ventana de tiempo, ya que la puede calcular la herramienta. También es el método idóneo para modelar datos con tendencias complejas. Si se proporciona un valor de ventana de tiempo en la herramienta, se utiliza una sola ventana de tiempo para suavizar todos los registros y el método es equivalente a la regresión lineal local. Para obtener una descripción completa del método, consulte el documento al final de la sección Regresión lineal local de ancho de banda adaptable.
El parámetro Aplicar ventana de tiempo más corta al inicio y final se utiliza para controlar la ventana de tiempo al inicio y al final de la serie temporal. Si no se aplica una ventana más corta, los valores suavizados serán nulos para cualquier registro donde la ventana de tiempo se extienda antes del inicio o después del final de la serie temporal. Si se acorta la ventana de tiempo, esta se truncará en el inicio y el final, y suavizará utilizando los valores situados dentro de la ventana. Por ejemplo, si tiene datos diarios y utiliza un promedio móvil hacia atrás con una ventana de tiempo de dos días, los valores suavizados de los dos primeros días serán nulos si la ventana de tiempo no se acorta (recuerde que el segundo día es solo un día después del inicio de la serie temporal). El tercer día (dos días después del inicio de la serie temporal), la ventana de tiempo de dos días no se extenderá antes del inicio, por lo que el valor suavizado del tercer día será el promedio de los valores de los tres primeros días.
Salidas de la herramienta
La salida principal de la herramienta es una clase de entidad o tabla que contiene los valores originales, los valores suavizados y la cantidad de vecinos utilizados para suavizar la ubicación. El alias del campo de los valores suavizados muestra el método de suavizado y la ventana de tiempo del análisis (si se utiliza un ancho de banda adaptable, la ventana de tiempo no se muestra). Si incorpora a los datos de entrada, estos campos se incorporan a la tabla o las entidades de entrada. En la regresión lineal local de ancho de banda adaptable, puede que la cantidad de vecinos no sea un entero. Esto se explica en más detalle en la sección Regresión lineal local de ancho de banda adaptable que aparece a continuación.
Gráficos de serie temporal
Puede utilizar el parámetro Habilitar series temporales emergentes para crear gráficos emergentes para cada registro de salida. Para salidas de entidad, haga clic en una entidad del mapa para mostrar los valores originales y los valores suavizados de la serie temporal de esa entidad. Para acceder a los elementos emergentes de la salida de la tabla, haga clic con el botón derecho en un registro de la tabla de atributos.
Las entidades o tabla de salida también incluyen un gráfico de líneas que muestra los valores suavizados de cada serie temporal.
Nota:
Es posible que experimente problemas de rendimiento al visualizar el gráfico si los datos de entrada tienen un gran número de series temporales.
Mensajes de geoprocesamiento
Los mensajes de geoprocesamiento incluyen una sección Resumen del suavizado que contiene información sobre los resultados del suavizado para cada serie temporal. La información incluye el valor R2 y estadísticas de resumen para el número de vecinos temporales (mínimo, máximo, valor medio, mediana y desviación estándar).
Regresión lineal local de ancho de banda adaptable
Regresión lineal local de ancho de banda adaptable crea modelos lineales locales en cada periodo de tiempo utilizando valores vecinos en el tiempo, donde la cantidad de vecinos puede variar para cada periodo de tiempo. En cada periodo de tiempo, se realizan varias regresiones lineales con distintas cantidades de vecinos y los modelos se suavizan y se combinan para proporcionar el mejor ajuste a los datos y a la vez suavizarlos con eficacia.
La siguiente imagen muestra una serie temporal con 200 periodos de tiempo. Los puntos grises son los valores de la serie temporal ruidosa original y las líneas rojas y azules representan un resultado de suavizado con un número fijo de vecinos. La línea roja utiliza 20 vecinos y no suaviza eficazmente fluctuaciones a corto plazo en los datos, lo cual es especialmente evidente en el lado derecho del gráfico, donde la línea roja es irregular y no suave. La línea azul utiliza 80 vecinos y es demasiado suave para alcanzar el pico y el valle de los datos en la primera mitad de la serie temporal. La línea verde representa una mezcla óptima de las líneas roja y azul que mantiene los niveles adecuados de uniformidad en toda la serie temporal. La línea verde utiliza más vecinos en las secciones de la serie temporal donde la línea roja es irregular y menos vecinos en las secciones donde la línea azul es demasiado suave.
En algunas secciones de la serie temporal, la línea verde está más cerca de la línea roja y, en otras secciones, la línea verde está más cerca de la línea azul, en función de cuál se ajuste mejor a la serie temporal en ese periodo de tiempo. La siguiente imagen muestra la serie temporal con el zoom aplicado en el periodo de tiempo 134. La línea roja está más cerca del medio de la nube de puntos que la línea azul, por lo que la línea verde está más cerca de la línea roja que la línea azul.
El número de vecinos utilizado en un periodo de tiempo se define mediante una interpolación lineal entre el número de vecinos de las líneas roja y azul, ponderado por la línea que proporciona el mejor ajuste. La siguiente imagen muestra que la línea roja se ajusta mejor para la mayoría de periodos de tiempo anteriores, aproximadamente, al periodo de tiempo 150; y que la línea azul se ajusta mejor para la mayoría de periodos de tiempo posteriores al periodo de tiempo 150. El número óptimo de vecinos para el periodo de tiempo 134 es 26,4, más cercano a 20 vecinos que 80 vecinos.
Para obtener más información sobre la regresión lineal local de ancho de banda adaptable, consulte la siguiente referencia:
- Friedman, J. H. (1984). "A variable span smoother." USDOE Office of Science (SC). SLAC-PUB-3477. https://doi.org/10.2172/1447470