Configurar los datos de entrada—ArcGIS Velocity

ArcGIS Velocity lleva a cabo la ingesta de datos para análisis en tiempo real y de big data utilizando feeds o fuentes de datos. Un feed es una transmisión de datos en tiempo real que proviene de una fuente de datos que carga datos estáticos o en tiempo casi real una vez que empieza el análisis en tiempo real, haciendo que esté disponible para uniones rápidas, enriquecimiento o geoperimetraje.

Puede utilizar un feed para aprovechar datos en tiempo real o emplearlo como datos de unión para herramientas analíticas en análisis en tiempo real.

Velocity proporciona un flujo de trabajo agilizado y contextual para optimizar su experiencia del usuario al configurar datos de entrada de un feed o una fuente de datos. Este flujo de trabajo de configuración es común en los distintos tipos de feeds y fuentes.

Establecer parámetros de conexión y configuración

El primer paso al configurar cualquier feed o fuente de datos es definir los parámetros de conexión y configuración requeridos para que Velocity pueda conectarse a los datos. Los parámetros disponibles varían según el tipo de feed o fuente de datos.

Por ejemplo, al configurar un feed de Kafka, rellene los parámetros Agente y Tema para conectarse a los datos. Al configurar una fuente de datos de Amazon S3, debe introducir todos los valores de parámetros de conexión pertinentes para establecer una conexión correcta.

A continuación, Velocity valida la conexión utilizando los parámetros de configuración proporcionados. A continuación, Velocity intenta realizar un muestreo de los datos y derivar el esquema de los datos. Si la conexión no es correcta y el esquema no se deriva correctamente, actualice los parámetros de configuración según se requiera e inténtelo de nuevo.

Confirmar esquema

El paso Confirmar esquema muestra el esquema devuelto y una muestra de datos. Dependiendo del formato de los datos, se ofrecen más parámetros para ajustar el análisis de datos a un esquema válido.

En este paso, puede revisar y ajustar los nombres de campo, los tipos de campo y los formatos de datos. También puede volver a derivar los datos para adquirir nuevas muestras o derivar el esquema después de efectuar ajustes en el formato de datos o en los parámetros de formato de datos. Con ello se garantiza que Velocity pueda identificar el formato de los datos que procesa el feed o la fuente de datos.

Paso para confirmar esquema de HTTP Poller

Muestreo automático y derivación del esquema

En el paso Confirmar esquema, Velocity se conecta al feed o fuente de datos especificados utilizando los parámetros de conexión y configuración establecidos en el paso anterior y recupera los datos de muestra.

A partir de la muestra de datos, Velocity deriva automáticamente el formato de datos y el esquema, compuesto por los nombres de campo y los tipos de campo. Con algunos formatos de datos, también se identifican los campos clave de fecha y hora y geometría.

Cambiar tipos de campo y nombres de campo

Velocity muestra los tipos de campo y los nombres de campo identificados por la derivación del esquema basada en la muestra de datos adquirida.

Para realizar ajustes en el esquema derivado, complete los pasos siguientes:

Modificar los parámetros de formato de datos y remuestrear el esquema se debe realizar antes de ajustar los tipos de campo y los nombres de campo.
Si el formato de datos o los parámetros de formato de datos se cambian y se requiere la derivación del esquema, se sobrescribe cualquier cambio realizado.
Para cambiar un tipo de campo, haga clic en la flecha desplegable situada junto al nombre de campo y elija otro tipo de campo.
Precaución:
No puede cambiar los tipos de campo al utilizar ciertos tipos de feed o fuentes de datos, como feeds o fuentes de datos de capa de entidades. Tenga cuidado al cambiar el tipo de campo. Tenga en cuenta lo siguiente:
- Cualquier tipo de campo se puede cambiar a un campo de tipo cadena de caracteres; sin embargo, si intenta cambiar un campo de tipo de cadena de caracteres que contenga letras a un campo de tipo entero, se produce un error durante el procesamiento de datos.
- No se recomienda cambiar los campos de un tipo flotante (Float32 o Float64) a un tipo entero (Int32 o Int64). El cambio de tipos de campo no se ha diseñado para la conversión al vuelo de valores numéricos. Con algunos formatos, la reducción de un flotante a un entero puede hacer que el valor se omita por completo.
Cambie los nombres de campo como sea necesario.
Para deshabilitar un campo, desactive la casilla de verificación situada junto al tipo de campo.
El campo se ignora cuando los datos se procesan desde la fuente. Una práctica recomendada consiste en deshabilitar los campos que no sean necesarios por consideraciones de velocidad y rendimiento de volumen.

Cambiar el formato de datos y los parámetros de formato de datos

Velocity puede consumir datos de varios tipos de feed y fuentes de datos en una variedad de formatos de datos. Algunos tipos de feeds y fuentes de datos, por ejemplo, HTTP Poller, pueden consumir datos en varios formatos. Otros tipos de feeds y fuentes de datos, como Capa de entidades, tienen un formato de datos fijo.

Se admiten los siguientes formatos de datos:

Delimitados
JSON
GeoJSON
JSON de Esri
RSS
GeoRSS
Shapefile (solo disponible para fuentes de datos de Amazon S3 y Azure Blob Store)
Parquet (solo disponible para fuentes de datos de Amazon S3 y Azure Blob Store)

Velocity intenta derivar automáticamente el formato de los datos. Sin embargo, puede cambiar el formato de los datos derivados según sea necesario.

Además, algunos formatos de datos cuentan con parámetros para ajustar el modo en que Velocity analiza los datos para formar un esquema. Por ejemplo, el formato de datos delimitado tiene dos parámetros: Delimitador de campo y Fila de encabezado.

Más información sobre los formatos de datos compatibles

Cambiar los parámetros de formato de datos y derivar un esquema

Utilizando la muestra de datos derivados, Velocity intenta definir el formato, el esquema y los parámetros de los datos.

Puede modificar los parámetros de formato de datos o especificar otro formato de datos. Para ello, cambie la propiedad de formato de datos y haga clic en Derivar esquema para volver a derivar los datos según los cambios realizados. Los parámetros se actualizan en consecuencia según los datos derivados.

Por ejemplo, si se conecta a un origen JSON con JSON anidado de varios niveles y si solo desea capturar datos desde un nodo JSON determinado, o si desea aplanar JSON de varios niveles para recuperar todos los valores de atributo, puede utilizar los parámetros de nodo raíz y aplanamiento para configurar Velocity para que interactúe directamente con los datos JSON.

No se devuelven los datos de muestra

Si no se devuelven los datos de muestra en Velocity, realice cualquiera de las siguientes opciones:

Verifique que los parámetros de conexión y configuración sean correctos.
Haga clic en Derivar esquema para remuestrear cuando los datos fluyan o estén disponibles.
Proporcione muestras copiando registros.
Las muestras se pueden revisar para comprobar el formato de datos y derivar un esquema válido.
Defina manualmente el formato y el esquema de los datos.

Identificar campos clave

El siguiente paso para configurar datos de entrada para su nuevo feed o su nueva fuente de datos es identificar campos clave. Los campos clave se utilizan para analizar la geometría de entidades a partir de campos, construir fechas a partir de cadenas de caracteres, especificar campos de hora de inicio y finalización y designar un campo como Id. de rastreo.

Ubicación

Para muchos tipos de feeds y fuentes de datos, deberá definir cómo Velocity determina la geometría de las entidades a partir de observaciones o registros. La geometría se puede definir utilizando un único campo de geometría o campos X/Y. También puede cargar datos tabulares sin ubicación y no especificar campos de geometría.

Más información sobre la configuración de los parámetros de ubicación

Fecha y hora

Las entidades de un feed o una fuente de datos pueden tener disponibles campos de fecha y hora. Si especifica que los datos tienen campos de fecha, también necesita especificar el formato de fecha. Las opciones son Valores de Epoch u Otro (cadena de caracteres). Si elige Otro (Cadena de caracteres), debe especificar un valor de cadena de caracteres de Formato de fecha para que Velocity pueda analizar la cadena de caracteres en forma de fecha.

Además, puede elegir un campo clave en la opción Hora de inicio. No es necesario establecer una hora de inicio o una hora de finalización para analizar y procesar datos. Sin embargo, algunas herramientas de análisis de datos en tiempo real y big data requieren la identificación de una hora de inicio o una hora de inicio y una hora de finalización para poder realizar análisis temporales.

Más información sobre los parámetros de fecha y hora

Rastreo

El campo clave de la opción Id. de rastreo es un identificador único de los datos que relaciona entidades con entidades específicas. Por ejemplo, se puede identificar un camión por su número de matrícula, o un avión por un número de vuelo asignado. Estos identificadores se pueden utilizar como Id. de rastreo para rastrear las entidades asociadas con una entidad o conjunto de incidentes concretos del mundo real.

No es necesario establecer un campo de Id. de rastreo para analizar y procesar datos. Sin embargo, algunas herramientas de análisis de datos en tiempo real y big data requieren la identificación de un Id. de rastreo para el feed o la fuente de datos.

Programar intervalo de sondeo

Aunque muchos feeds transmiten datos, algunos tipos requieren la recuperación de datos a intervalos regulares. El intervalo definido determina con qué frecuencia se conecta el feed con la fuente para recuperar datos. Puede establecer un intervalo de sondeo para los siguientes tipos de feeds:

Más información sobre la planificación de un intervalo de sondeo de feed

Nota:

Al configurar los feeds de Velocity, el valor de recurrencia en segundos se puede establecer en un factor de 60 (entre 10 y 30) para obtener un tiempo de ejecución coherente y predecible.

Guardar

El paso final es proporcionar un nombre de feed y, opcionalmente, un resumen del feed; después, guarde el feed.

¿Algún comentario sobre este tema?