ArcGIS Velocity lleva a cabo la ingesta de datos para análisis en tiempo real y de big data utilizando feeds o fuentes de datos. Un feed es una transmisión de datos en tiempo real, mientras que una fuente de datos carga datos estáticos o en tiempo casi real una vez que empieza el análisis en tiempo real, haciendo que esté disponible para uniones rápidas, enriquecimiento o geoperimetraje.
El feed debe utilizarse para aprovechar los datos en tiempo real o emplearse como datos de unión para herramientas de análisis en el análisis en tiempo real.
Velocity proporciona un flujo de trabajo agilizado y contextual para optimizar su experiencia del usuario al configurar datos de entrada de un feed o una fuente de datos. Este flujo de trabajo de configuración es común en los distintos tipos de feeds y fuentes.
Establecer parámetros de conexión y configuración
El primer paso al configurar cualquier feed o fuente de datos es definir los parámetros de conexión y configuración requeridos para que Velocity pueda conectarse a los datos. Los parámetros disponibles varían según el tipo de feed o fuente de datos.
Por ejemplo, al configurar un feed de Kafka, rellene los parámetros Agente y Tema para conectarse a los datos. Al configurar una fuente de datos de Amazon S3, debe introducir todos los valores de parámetros de conexión pertinentes para establecer una conexión correcta.
A continuación, Velocity valida la conexión utilizando los parámetros de configuración proporcionados. A continuación, Velocity intenta realizar un muestreo de los datos y derivar el esquema de los datos. Si la conexión no es correcta y los datos no se derivan correctamente, actualice los parámetros de configuración según se requiera e inténtelo de nuevo.
Confirmar esquema
El paso Confirmar esquema muestra el esquema devuelto, así como una muestra de datos. Dependiendo del formato de los datos, se ofrecen más parámetros para ajustar el análisis de datos a un esquema válido.
En este paso, puede revisar y ajustar los nombres de campo, los tipos de campo y los formatos de datos. También puede volver a derivar los datos para adquirir nuevas muestras o derivar el esquema después de efectuar ajustes en el formato de datos o en los parámetros de formato de datos. Con ello se garantiza que Velocity pueda identificar el formato de los datos que procesa el feed o la fuente de datos.
Muestreo automático y derivación del esquema
En el paso Confirmar esquema, Velocity se conecta al feed o fuente de datos especificado utilizando los parámetros de conexión y configuración que estableció en el paso anterior y recupera los datos de muestra.
A partir de la muestra de datos, Velocity deriva automáticamente el formato de datos y el esquema, compuesto por los nombres de campo y los tipos de campo. Con algunos formatos de datos, también se identifican los campos clave de fecha y hora y geometría.
Cambiar tipos de campo y nombres de campo
Velocity muestra los tipos de campo y los nombres de campo identificados por la derivación del esquema basada en la muestra de datos adquirida.
Para realizar ajustes en el esquema derivado, complete los pasos siguientes:
- Modificar los parámetros de formato de datos y remuestrear el esquema se debe realizar antes de ajustar los tipos de campo y los nombres de campo.
Si el formato de datos o los parámetros de formato de datos se cambian y se requiere la derivación del esquema, se sobrescribe cualquier cambio que haya realizado.
- Para cambiar un tipo de campo, haga clic en la flecha desplegable situada junto al nombre de campo y elija otro tipo de campo.
No puede cambiar los tipos de campo al utilizar ciertos tipos de feed o fuentes de datos, como feeds o fuentes de datos de capa de entidades. Tenga cuidado al cambiar el tipo de campo, por lo siguiente:
- Cualquier tipo de campo se puede cambiar a un campo de tipo cadena de caracteres; sin embargo, si intenta cambiar un campo de tipo de cadena de caracteres que contenga letras a un campo de tipo entero, se produce un error durante el procesamiento de datos.
- No se recomienda cambiar los campos de un tipo flotante (Float32 o Float64) a un tipo entero (Int32 o Int64). El cambio de tipos de campo no se ha diseñado para la conversión al vuelo de valores numéricos. Con algunos formatos, la reducción de un flotante a un entero puede hacer que el valor se omita por completo.
- Cambie los nombres de campo como sea necesario.
- Para deshabilitar un campo, desactive la casilla de verificación situada junto al tipo de campo.
El campo se ignora cuando los datos se procesan desde la fuente. Una práctica recomendada consiste en deshabilitar los campos que no sean necesarios por consideraciones de velocidad y rendimiento de volumen.
Cambiar el formato de datos y los parámetros de formato de datos
Velocity puede consumir datos de varios tipos de feed y fuentes de datos en una variedad de formatos de datos. Algunos tipos de feeds y fuentes de datos, por ejemplo, HTTP Poller, pueden consumir datos en varios formatos. Otros tipos de feeds y fuentes de datos, como Capa de entidades, tienen un formato de datos fijo.
A continuación, se muestran formatos de datos compatibles:
- Delimitados
- JSON
- GeoJSON
- JSON de Esri
- RSS
- GeoRSS
- Shapefile (solo disponible para fuentes de datos de Amazon S3 y Azure Blob Store)
- Parquet (solo disponible para fuentes de datos de Amazon S3 y Azure Blob Store)
Velocity intenta derivar automáticamente el formato de los datos. Sin embargo, puede cambiar el formato de los datos derivados según sea necesario.
Además, algunos formatos de datos cuentan con parámetros para ajustar el modo en que Velocity analiza los datos para formar un esquema. Por ejemplo, el formato de datos delimitado tiene dos parámetros: delimitador de campo y fila de encabezado.
Cambiar los parámetros de formato de datos y derivar un esquema
Utilizando la muestra de datos derivados, Velocity intenta definir el formato, el esquema y los parámetros de los datos.
Puede modificar los parámetros de formato de datos o especificar otro formato de datos. Para ello, cambie la propiedad de formato de datos y haga clic en Derivar esquema para volver a derivar los datos según los cambios realizados. Los parámetros se actualizan en consecuencia según los datos derivados.
Por ejemplo, si se conecta a un origen JSON con JSON anidado de varios niveles y si solo desea capturar datos desde un nodo JSON determinado, o si desea aplanar JSON de varios niveles para recuperar todos los valores de atributo, puede utilizar los parámetros root node y flatten para configurar Velocity para que interactúe directamente con los datos JSON.
No se devuelven los datos de muestra
Si no se devuelven los datos de muestra en Velocity, realice cualquiera de las siguientes opciones:
- Verifique que los parámetros de conexión y configuración sean correctos.
- Haga clic en Derivar esquema para remuestrear cuando los datos fluyan o estén disponibles.
- Proporcione sus propias muestras copiando registros.
Las muestras se pueden revisar para comprobar el formato de datos y derivar un esquema válido.
- Defina manualmente el formato y el esquema de los datos.
Identificar campos clave
El siguiente paso para configurar datos de entrada para su nuevo feed o su nueva fuente de datos es identificar campos clave. Los campos clave se utilizan para analizar la geometría de entidades a partir de campos, construir fechas a partir de cadenas de caracteres, especificar campos de hora de inicio y finalización y designar un campo como Id. de rastreo.
Ubicación
Para muchos tipos de feeds y fuentes de datos, deberá definir cómo Velocity determina la geometría de las entidades a partir de observaciones o registros. La geometría se puede definir utilizando un único campo de geometría o campos X/Y. También puede cargar datos tabulares sin ubicación y no especificar campos de geometría.
Más información sobre la configuración de los parámetros de ubicación
Fecha y hora
Las entidades de un feed o una fuente de datos pueden tener disponibles campos de fecha y hora. Si especifica que los datos tienen campos de fecha, también necesita especificar el formato de fecha. Las opciones son Valores de Epoch u Otro (cadena de caracteres). Si elige Otro (Cadena de caracteres), debe especificar un valor de cadena de caracteres de Formato de fecha para que Velocity pueda analizar la cadena de caracteres en forma de fecha.
Además, puede elegir un campo clave en la opción Hora de inicio. No es necesario establecer una hora de inicio o una hora de finalización para analizar y procesar datos. Sin embargo, algunas herramientas de análisis de datos en tiempo real y big data requieren la identificación de una hora de inicio o una hora de inicio y una hora de finalización para poder realizar análisis temporales.
Rastreo
El campo clave de la opción Id. de rastreo es un identificador único de los datos que relaciona entidades con entidades específicas. Por ejemplo, se podría identificar un camión por su número de matrícula, o un avión por un número de vuelo asignado. Estos identificadores se pueden utilizar como Id. de rastreo para rastrear las entidades asociadas con una entidad o conjunto de incidentes concretos del mundo real.
No es necesario establecer un campo de Id. de rastreo para analizar y procesar datos. Sin embargo, algunas herramientas de análisis de datos en tiempo real y big data requieren la identificación de un Id. de rastreo para el feed o la fuente de datos.
Programar intervalo de sondeo
Aunque muchos feeds transmiten datos, algunos tipos requieren la recuperación de datos a intervalos regulares. El intervalo definido determina con qué frecuencia se conecta el feed con la fuente para recuperar datos. Puede establecer un intervalo de sondeo para los siguientes tipos de feeds:
Más información sobre la planificación de un intervalo de sondeo de feed
Guardar
El paso final es proporcionar un nombre de feed y, opcionalmente, un resumen del feed; después, guarde el feed.