Análisis de big data

Los análisis de big data realizan análisis y procesamiento por lotes en datos almacenados, como datos en una capa de entidades o big data stores en la nube como Amazon S3 y Azure Blob Store. Los análisis de big data se utilizan normalmente para resumir observaciones, realizar análisis de patrones y enriquecer datos. El análisis que se puede realizar utiliza herramientas de las siguientes categorías de herramientas en Velocity:

  • Analizar patrones
  • Enriquecimiento de datos
  • Buscar ubicaciones
  • Administrar datos
  • Resumir datos
  • Utilizar proximidad

Ejemplos

  • Como científico medioambiental, puede identificar momentos y ubicaciones con niveles de ozono elevados en todo el país en un dataset de millones registros de sensores estáticos.
  • Como analista minorista, puede procesar millones de ubicaciones de teléfono móvil anónimas dentro de un rango de tiempo designado para determinar el número de posibles consumidores a una determinada distancia de las ubicaciones de las tiendas.
  • Como analista SIG, puede ejecutar un análisis de big data recurrente que compruebe la existencia de entidades nuevas en una fuente de datos cada cinco minutos y envíe una notificación si se cumplen determinadas condiciones de atributos o espaciales.

Componentes de un análisis de big data

Existen tres componentes de un análisis de big data:

  • Fuentes
    • La fuente de datos se utiliza para cargar datos en tiempo casi real o estáticos en un análisis de big data. Hay muchos tipos de fuentes de datos disponibles. Para obtener más información sobre las fuentes y los tipos de fuente disponibles, consulte ¿Qué es una fuente de datos?
    • Puede haber varias fuentes de datos en un análisis.
  • Herramientas
    • Las herramientas procesan o analizan datos que se cargan a partir de fuentes.
    • Puede haber varias herramientas en un análisis de big data.
    • Las herramientas se pueden conectar entre sí, donde la salida de una herramienta representa la entrada de la siguiente herramienta.
  • Salidas
    • Una salida define qué se debería hacer con los resultados del procesamiento de análisis de big data.
    • Hay muchas opciones de salida disponibles, incluidas almacenar entidades en una capa de entidades nueva o existente, escribir entidades en una capa de nube en Amazon S3 o Azure Blob Storage, etc. Para obtener más información, consulte Introducción a salidas y Principios básicos de las salidas analíticas.
    • El resultado de una herramienta o fuente se puede enviar a varias salidas.

Trabajar con salidas

Cuando se ejecuta un análisis en tiempo real o de big data, generará una o varias salidas. Dependiendo del tipo de salidas configurado, hay varias maneras de acceder e interactuar con esas salidas en ArcGIS Velocity.

Salidas de capa de entidades y capa de transmisión de ArcGIS

Cuando un análisis en tiempo real o de big data crea una salida de capa de entidades o capa de transmisión, puede interactuar con esas capas de salida en Velocity. Tenga en cuenta que estos métodos no están disponibles si todavía no se ha ejecutado el análisis.

Acceder a las salidas de capa de entidades y capa de transmisión en el análisis

Cuando se realiza la edición de un análisis y las capas de salida se crean correctamente, haga clic con el botón derecho en una entidad o nodo de la capa de transmisión en el editor de análisis para ver las opciones disponibles, lo que incluye el acceso a las propiedades del nodo, el cambio de la etiqueta del nodo, la visualización de los detalles del elemento, la apertura de la capa en un visor de mapa o de escena, el muestreo de los datos del nodo, la eliminación del nodo, etc.

Acceder a las salidas de capa de entidades y capa de transmisión desde la página Capas

Todas las capas de entidades, capas de imágenes de mapa y capas de transmisión creadas por análisis en tiempo real y de big data aparecerán en la página Capas en Velocity. A partir de aquí, puede editar las capas existentes, ver estas capas en un visor de mapas, acceder y ver los detalles del elemento, abrir la capa en el directorio de servicios de REST y eliminar y compartir las capas.

Salidas de Amazon S3 y Azure Blob Store

Los análisis de big data son capaces de escribir entidades de salida en almacenamientos en la nube de Amazon S3 o Azure Blob Store. Una vez termine el análisis de big data, los datos estarán disponibles en la respectiva ubicación en la nube. Si no ve la salida como se esperaba, compruebe los registros de análisis en la pestaña Registros.

Todas las demás salidas

Otros tipos de salida para análisis de big data son Correo electrónico y Kafka. Con estas salidas Velocity establece una conexión con la salida elegida y envía los datos de los eventos a la salida como corresponda.

Ejecutar un análisis de big data (programación)

Los análisis de big data se pueden configurar para que se ejecuten de una de estas dos formas: pueden ejecutarse una vez o pueden programarse para que se ejecuten. Cuando realice cambios en la configuración de ejecución, recuerde hacer clic en Aplicar para guardar los cambios en el análisis de big data.

Ejecutar una vez

Los análisis de big data configurados para ejecutarse una vez solamente se ejecutan cuando se inicia el análisis de big data. El análisis realiza el procesamiento y el análisis definidos y vuelve a un estado detenido una vez completado. Difiere de los feeds, análisis en tiempo real y análisis de big data programados en que todos ellos se siguen ejecutando una vez iniciados. Ejecutar una vez es la opción predeterminada de análisis de big data.

Selección de Ejecutar una vez en los parámetros de ejecución del botón Programación

Programado

Se puede programar un análisis de big data para que se ejecute periódicamente (por ejemplo, cada 5 minutos) o a una hora recurrente (por ejemplo, a diario a las 4:00 horas).

Selección de Ejecutar periódicamente cada cinco minutos en los parámetros de ejecución del botón Programación

Al configurar un análisis de big data para ejecutarlo de forma programada, una vez iniciado el análisis, permanece iniciado a no ser que se detenga el análisis. A diferencia de un análisis en tiempo real, un análisis programado de big data que se inicia solo consumirá recursos mientras está realizando el análisis. Por ejemplo, si un análisis de big data está programado para ejecutarse periódicamente cada hora, y el análisis tarda cuatro minutos en completarse, el análisis de big data solamente consumirá recursos una vez cada hora durante los cuatro minutos que tarda en realizar el análisis.

Para obtener más información sobre cómo programar un análisis de big data, consulte Programar análisis de big data recurrentes.

Realizar análisis en tiempo casi real

Se pueden utilizar análisis de big data programados para realizar análisis en tiempo casi real en los que el análisis de big data solo procesa las últimas entidades agregadas a una capa de entidades desde su última ejecución. Para obtener más información sobre casos de uso y opciones para configurar el análisis en tiempo casi real, consulte Realizar análisis en tiempo casi real.

Generar productos informativos actualizados

Como alternativa, los análisis de big data programados se pueden utilizar para generar productos informativos actualizados a intervalos definidos por el usuario. Para obtener más información y ejemplos de casos de uso y opciones para estos flujos de trabajo, consulte Generar productos informativos actualizados.

Parámetros de ejecución

Con el análisis de big data, puede ajustar los parámetros de ejecución. Esta configuración controla la asignación de recursos proporcionada por su implementación de Velocity a su análisis para su procesamiento. Recuerde guardar su análisis después de realizar un cambio en los parámetros de ejecución.

En términos generales, cuantos más recursos se proporcionan a un análisis, más rápido se completará el procesamiento y se generarán los resultados. Cuando se trabaja con datasets más grandes o análisis complejos, es una buena práctica y a veces esencial aumentar la asignación de recursos disponible para un análisis.

Por el contrario, si tiene un análisis simple con pocas entidades que se ejecuta correctamente con el parámetro Medio (predeterminado), considere disminuir los parámetros de ejecución de la asignación de recursos a un parámetro Pequeño. Esto permite ejecutar más feeds, análisis en tiempo real y análisis de big data en su implementación de Velocity.

Parámetros de ejecución de asignación de recursos de análisis de big data

Consideraciones y limitaciones

Existen varias consideraciones que se deben tener en cuenta a la hora de utilizar el análisis de macrodatos:

  • Los análisis de big data están optimizados para trabajar con grandes volúmenes de datos y resumir patrones y tendencias, que típicamente resultan en un conjunto reducido de entidades o registros de salida en comparación con el número de entidades de entrada.
  • Los análisis de big data no están optimizados para cargar ni escribir volúmenes masivos de entidades en una sola ejecución. Escribir decenas de millones de funciones o más con un análisis de big data puede dar lugar a unos tiempos de ejecución más prolongados.
  • Como práctica recomendada, se aconseja utilizar el análisis de big data para resumir y analizar en lugar de copiar datos.
  • El parámetro de ejecución Grande, disponible con las licencias Standard y Advanced de ArcGIS Velocity, solo se puede utilizar con una configuración de ejecución una vez.