Diseñar un análisis de big data—ArcGIS Velocity

En los pasos de esta sección se explica cómo crear un análisis de big data con ArcGIS Velocity. En el ejemplo se utiliza el rol de un planificador de transportes con el fin de comprender mejor los accidentes de vehículos a motor relacionados con los ciclistas a lo largo de un periodo de varios años. Los resultados se utilizan para ayudar a identificar dónde la construcción de nuevas infraestructuras favorables como carriles bici o barreras de carril generarían el mayor impacto en la seguridad de los ciclistas.

A medida que sigue los pasos, creará un análisis de big data, configurará su fuente de datos, además de herramientas, y generará una capa de entidades de salida que contiene resultados de análisis que se pueden ver en un mapa web.

Esta lección está pensada para principiantes. Debe tener una cuenta de ArcGIS Online con acceso a Velocity. El tiempo estimado para completar esta lección es de 30 minutos.

Crear un análisis de big data

Para empezar, haga lo siguiente:

Abra ArcGIS Velocity en un navegador web e inicie sesión con una cuenta de ArcGIS Online con licencia de Velocity.
Para obtener la mejor experiencia, utilice Google Chrome o Mozilla Firefox.
Nota:
Si tiene problemas para iniciar sesión, póngase en contacto con el administrador de su organización de ArcGIS. Es posible que tenga que estar asignado a un rol de ArcGIS Online con privilegios para utilizar ArcGIS Velocity.
Más información sobre la creación de roles y la asignación de usuarios
Aparece la página Inicio.
Haga clic en la pestaña Big data de Análisis para acceder a la página Análisis de big data.
Sugerencia:
La sección Introducción de la página de inicio tiene un botón de acceso directo Crear análisis de big data en Análisis de big data.
En la página Análisis de big data, puede realizar las acciones siguientes en los análisis de big data existentes:
- Revisión
- Crear
- Iniciar
- Detener
- Comprobar estado
- Editar
- Clon
- Eliminar
Haga clic en Crear análisis de big data.
El asistente de configuración se abre y aparecen las opciones de tipo de fuente de datos.

Ha iniciado sesión en Velocity y ha puesto en marcha el proceso para crear un análisis de big data en un asistente de configuración. El siguiente paso consiste en configurar su fuente de datos.

Configurar la fuente de datos

Los datos utilizados en esta lección se pueden descargar desde el sitio OpenData de la ciudad de Nueva York (NYC). El dataset completo de más de 1,5 millones de registros se descargó de este sitio en formato CSV. Para esta lección, el archivo CSV se aloja en un bucket de Amazon S3, con información de conexión en los pasos que aparecen a continuación.

En el análisis de big data se requiere una fuente de datos. Realice los pasos siguientes para configurar una fuente de datos:

En el paso Seleccionar un tipo de fuente de datos, haga clic en Ver todo en la categoría Nube.
Nota:
Todos los análisis de big data deben tener al menos una fuente de datos de entrada.
En Opciones de nube, elija Amazon S3.
Obtenga más información sobre Azure Blob Store, Azure Cosmos DB o Amazon S3.
En el cuadro de diálogo Configurar Amazon S3, en el paso Configurar bucket de Amazon S3, configure los parámetros de la siguiente manera:
1. En Modo de acceso, elija Público.
2. En Nombre de bucket, escriba arcgis-velocity-public.
3. En Región, elija US West (Oregon).
4. En Ruta de carpeta (opcional), escriba /nyc-motor-vehicle-collisions.
5. En Dataset, escriba NYPD_Motor_Vehicle_Collisions.csv.
Haga clic en Siguiente para aplicar los parámetros del bucket de Amazon S3.
La fuente de datos se valida y devuelve datos de eventos muestreados para revisión. El siguiente paso consiste en confirmar el esquema de datos.

Confirmar el esquema de datos

Con los parámetros del bucket de Amazon S3 establecidos, puede confirmar el esquema de datos. Al configurar una fuente de datos, es importante definir el esquema de los datos que está cargando. Velocity define el esquema cuando muestrea los datos de origen, lo que incluye el valor de las opciones Formato de datos, Delimitador de campo, Tipo de campo y Nombre de campo.

En el paso Confirmar esquema, revise y confirme que el esquema de los datos se parece al de la ilustración siguiente:
Velocity comprobó la conexión a la fuente de datos, hizo un muestreo de los primeros registros de datos e interpretó el esquema de los datos basado en los registros muestreados. Puede cambiar el valor de formato de datos, delimitador de campo, tipo de campo y nombre de campo, si es necesario, para garantizar un esquema válido. Para los fines de esta lección, acepte los parámetros de esquema predeterminados.
Haga clic en Siguiente para confirmar el esquema como muestreado.

El asistente de configuración avanza al paso siguiente.

Identificar campos clave

En este paso se especifican campos para las capacidades espacial y temporal mediante la elección de valores para los parámetros Ubicación, Fecha y hora y Rastreo para que Velocity pueda construir correctamente la geometría, la información de fecha y un identificador único para los datos.

Realice los pasos siguientes para identificar los campos clave:

En Tipo de ubicación, elija Campos X/Y.
En X (longitud), elija Longitud.
En Y (latitud), elija Latitud.
En Z (altitud), elija Ninguna.
En Referencia espacial, deje el valor predeterminado GCS WGS 1984.
En ¿Los datos tienen campos de fecha?, elija No.
Este parámetro se puede utilizar para definir un campo de fecha de inicio y finalización o fecha/hora en la fuente de datos. Si los datos entrantes incluyen información de fecha en un formato de cadena de caracteres, se requiere un formato de fecha. Para los fines de esta lección, no se especifica información de fecha y hora.
Más información sobre los parámetros de fecha y hora
En Id. de rastreo, elija Los datos no tienen un Id. de rastreo.
Este parámetro se puede utilizar para designar un campo de Id. de rastreo en la fuente de datos. Para esta lección, no defina un Id. de rastreo.
Haga clic en Completar para crear la nueva fuente de datos.

La nueva fuente de datos Amazon S3 se agrega al editor de análisis.

Crear el análisis de big data

Tras agregar la fuente de datos al editor de análisis, puede crear el análisis de big data.

En la página Nuevo análisis de big data, haga clic en Crear análisis.
Aparece el cuadro de diálogo Crear análisis.
En Título, escriba Accidentes de ciclistas en la ciudad de Nueva York.
En Resumen, escriba Procese accidentes de vehículos de motor para identificar y analizar aquellos en los que se ven involucrados ciclistas.
En Carpeta, elija la carpeta en la que desea crear el análisis de big data.
Haga clic en Crear análisis para crear el análisis.

El editor de análisis vuelve a aparecer con más opciones en la barra de herramientas.

Agregar herramientas al análisis

Con el nuevo análisis creado, puede agregarle herramientas que utilizará el análisis de big data para los datos de accidentes de ciclistas en la ciudad de Nueva York. Velocity permite configurar una secuencia analítica.

Primero agregará la herramienta Calcular campo y luego un campo TotalCyclistCasualties que suma los valores de los campos NUMBER_CYCLIST_INJURED y NUMBER_CYCLIST_KILLED correspondientes a cada registro individual de la fuente de datos.

Complete los pasos siguientes para configurar herramientas secuenciales para comprender mejor los accidentes de vehículos de motor que causan lesiones a los ciclistas:

En el menú Agregar nodo, haga clic en Administrar datos y elija la herramienta Calcular campo.
La herramienta Calcular campo se agrega al editor de análisis.
Conecte la fuente de datos Amazon S3 a la herramienta Calcular campo.
Si es preciso, ajuste la posición de la herramienta y la fuente de datos en el editor de análisis para facilitar una conexión. La conexión garantiza que la herramienta Calcular campo sepa qué fuente de datos utilizar.
Haga doble clic en la herramienta Calcular campo para acceder a sus propiedades.
Haga clic en Agregar cálculo de campo y elija Nuevo campo.
En Campo, escriba TotalCyclistCasualties.
Haga clic en la flecha desplegable Tipo y elija Int64.
Esto especifica que el tipo de campo será un campo de entero de 64 bits.
Haga clic en Configurar una expresión de Arcade para abrir el cuadro de diálogo Configurar una expresión de Arcade.
1. Utilice el generador de expresiones Arcade y escriba $feature.NUMBER_CYCLIST_INJURED+$feature.NUMBER_CYCLIST_KILLED.
2. Haga clic en Ejecutar para ejecutar la expresión Arcade.
  El resultado debería parecerse a la siguiente ilustración:
3. Haga clic en Aceptar para guardar la expresión.
4. Haga clic en Agregar cálculo de campo para agregar el cálculo de campo nuevo a la herramienta Calcular campo.
  Sugerencia:
  Puede agregar más cálculos de campo según sea necesario. En esta lección solo se utiliza uno.
5. Haga clic en Aplicar para aplicar el cálculo a las propiedades de la herramienta Calcular campo.
La herramienta Calcular campo se configura y se conecta a la fuente de datos Amazon S3. A continuación puede filtrar los datos de accidentes de vehículos de motor de la ciudad de Nueva York para identificar los accidentes con coordenadas de ubicación válidas que han provocado lesiones o incluso la muerte de ciclistas.
En el editor de análisis, haga clic en Guardar para guardar la configuración de análisis de big data.
En el menú Agregar nodo, haga clic en Administrar datos y elija la herramienta Filtrar por expresión.
Se agrega una herramienta Filtrar por expresión al editor de análisis.
Arrastre la herramienta Filtrar por expresión tras la herramienta Calcular campo y conecte los dos nodos.
Haga doble clic en la herramienta Filtrar por expresión para abrir las propiedades y configurarla como sigue:
1. Haga clic en Configurar una expresión de Arcade para abrir el cuadro de diálogo Configurar una expresión de Arcade.
2. Utilice el generador de expresiones Arcade o escriba $feature.TotalCyclistCasualties>0 && $feature.LATITUDE>0.
  En este dataset, hay registros con coordenadas no válidas. Estos registros se pueden ignorar filtrando los registros cuyo valor de latitud es menor o igual que 0.
3. Haga clic en Ejecutar para ejecutar la expresión Arcade.
  El resultado debería parecerse a la siguiente ilustración:
4. Haga clic en Aceptar para volver a las propiedades de la herramienta Filtrar por expresión.
5. Haga clic en Aplicar para aplicar la expresión.
  Se agrega el filtro. A continuación, agregará la herramienta Agregar puntos, que agregará puntos espacialmente para representar el número de accidentes que provocaron lesiones o incluso la muerte de ciclistas como bins hexagonales regulares.
En el menú Agregar nodo, haga clic en Resumir datos y elija la herramienta Agregar puntos.
La herramienta Agregar puntos se agrega al editor de análisis.
En el editor de análisis, haga clic en Guardar para guardar la configuración de análisis de big data actualizada.
Arrastre la herramienta Agregar puntos tras la herramienta Filtrar por expresión y conecte los dos nodos.
Haga doble clic en la herramienta Agregar puntos para abrir sus propiedades y configurarla como sigue:
1. En Agregar puntos en, elija Bins.
2. En Tipo de bin, elija Hexágono.
3. En Tamaño de bin, escriba 250 y mantenga la unidad de medida establecida en Metros.
4. Deje la sección Periodo de tiempo como está y en la sección Campos de resumen, haga clic en Agregar campo de resumen.
  Aparece el panel de propiedades.
5. En Atributo, elija TotalCyclistCasualties.
6. Para Estadística, elija Suma.
7. En Nombre de campo de salida, deje el predeterminado TotalCyclistCasualties_Sum.
8. Haga clic en Agregar campo de resumen para agregar el campo de resumen.
9. Haga clic en Aplicar para aplicar las propiedades de la herramienta.

Ha agregado correctamente las tres herramientas de análisis con las que se procesarán los datos de accidentes. A continuación, agregará una salida.

Agregar una salida al análisis

Una vez que se ha creado la fuente de datos y las herramientas de análisis, el último paso de esta lección consiste en agregar una salida que enviará los datos de eventos procesados a una capa de entidades, que puede visualizarse en un mapa web.

Siga estos pasos para agregar una salida:

En el menú Agregar nodo, haga clic en Salidas y elija la salida Capa de entidades (nueva).
Aparece el cuadro de diálogo Configurar capa de entidades (nueva).
En el paso Configurar capa de entidades, configure las propiedades como sigue:
1. Active la opción Almacenar datos en una capa de entidades espaciotemporales.
2. En Método de almacenamiento de datos, elija Agregar todas las nuevas entidades.
  Si estaba trabajando con una fuente de datos que tenía definido un Id. de rastreo, utilizaría el método Mantener solamente la entidad más reciente para cada valor de Id. de rastreo. Con este método de almacenamiento, cada vez que se recibe una nueva entidad para un determinado Id. de rastreo, la entidad almacenada asociada con ese Id. de rastreo se reemplaza por la nueva entidad.
3. En Cada vez que se ejecute el análisis, elija Reemplazar entidades y esquema existentes.
  Cuando se elige Reemplazar entidades y esquema existentes, cada vez que se ejecuta el análisis de big data, las entidades y el esquema de la capa de entidades de salida se sobrescriben. Esto resulta útil al crear un análisis de big data y agregar, eliminar o cambiar herramientas entre ejecuciones de análisis. Como alternativa, la opción Mantener entidades y esquemas existentes resulta útil si desea incorporar registros cada vez que se ejecuta el análisis de big data.
Haga clic en Siguiente.
En el paso Guardar, en Nombre de capa de entidades, escriba Cyclist_Accident_Aggregation.
En Resumen de capas de entidades, escriba Capa de entidades agregada de accidentes de ciclistas en NYC.
En Carpeta, elija la carpeta para guardar la capa de entidades.
Haga clic en Completar para guardar la nueva salida.
La nueva salida Cyclist_Accident_Aggregation se agrega al editor de análisis.
Arrastre la salida Cyclist_Accident_Aggregation tras la herramienta Agregar puntos y conecte los dos nodos.
Sugerencia:
Puede mover los nodos para que el modelo resulte más atractivo visualmente.
Haga clic en Guardar para guardar el análisis de big data Accidentes de ciclistas en la ciudad de Nueva York.

Iniciar el análisis de big data

Tras configurar correctamente un análisis de big data con los nodos necesarios, puede iniciar el análisis. El análisis cargará 1,5 millones de registros desde un archivo CSV utilizando un esquema definido, procesará los datos de eventos a través de una variedad de herramientas y escribirá la salida del análisis en una nueva capa de entidades.

Siga estos pasos para ejecutar el análisis una vez:

En el editor de análisis, haga clic en Iniciar para comenzar el análisis de big data Accidentes de ciclistas en la ciudad de Nueva York.
El texto del botón Iniciar cambia a Detener inicialización y, luego, a Detener, lo que indica que el análisis se ha iniciado y se está ejecutando.
Nota:
Los feeds y los análisis en tiempo real de Velocity se mantienen en marcha una vez iniciados. Por su parte, el análisis de big data se ejecuta hasta que se completa y se detiene automáticamente. Los análisis de big data se pueden configurar para que se ejecuten de forma recurrente; utilice para ello las opciones disponibles en la lista menú desplegable Programar del editor de análisis. Las opciones incluyen la posibilidad de ejecutar el análisis una vez, de forma periódica o de forma repetida.
Más información sobre la programación de un análisis de big data recurrente
Monitorice el análisis hasta que el botón Detener cambie a Iniciar.
Esto indica que el análisis se ha ejecutado una vez, que ha terminado y que ya no se está ejecutando. Además, puede supervisar el estado del análisis de big data desde la página Análisis de big data.

Explorar los resultados analíticos en un mapa web

Cuando inició el análisis de big data en la sección anterior, se creó una capa de entidades de salida. Ahora abrirá esa capa de entidades de salida en un mapa web y verá los resultados del análisis de big data sobre los datos de accidentes de ciclistas de la ciudad de Nueva York.

En el menú principal, en Salida, haga clic en la pestaña Capas para abrir la página Capas.
Busque la capa de entidades Cyclist_Accident_Aggregation en la lista y haga clic en el icono Abrir en Map Viewer para revisar la capa de entidades en un mapa web.
Nota:
Las capas de salida creadas por análisis de big data y en tiempo real no aparecen en la página Capas hasta que el análisis se ha ejecutado y generado la salida.
Haga clic en Abrir en Map Viewer en la parte superior de Map Viewer Classic para ver la capa de entidades Cyclist_Accident_Aggregation en Visor de mapas.
Acerque para enfocar los datos de la ciudad de Nueva York, Estados Unidos.
En la barra de herramientas Contenido (oscura), haga clic en Mapa base y cambie el mapa base a Lona gris oscuro.
En la capa de entidades Cyclist_Accident_Aggregation, haga clic en Estilos.
En Elegir atributos, elija Recuento en el menú desplegable y haga clic en Agregar.
En Elegir un estilo, elija Recuentos y cantidades (color) si es preciso y haga clic en Opciones de estilo.
En Opciones de estilo, haga clic en Estilo de símbolos. En Colores, cambie la rampa de colores a rojos y amarillos. Tras ajustar el color, haga clic en Hecho y cierre el estilo de los símbolos.
Vaya al final de las opciones de estilo y utilice el botón de alternancia Clasificar datos para agrupar los datos y resaltar áreas con más lesiones de ciclistas.
Haga clic en la flecha desplegable de Método bajo el botón de alternancia Clasificar datos. Elija Desviación estándar y establezca el tamaño de clase en 1 desviación estándar.
Acepte las otras propiedades predeterminadas y haga clic en Hecho.

El mapa web se configura y puede revisarse. Puede desplazarse por el mapa web y usar el zoom para examinar los resultados del análisis de big data e identificar las áreas con más lesiones y muertes de ciclistas y las áreas con menos.

Recursos adicionales

En esta lección, creó y ejecutó un análisis de big data que analizaba aproximadamente 1,5 millones de accidentes de ciclistas para identificar las áreas de la ciudad de Nueva York con el mayor número de accidentes. Con estos resultados, puede tomar decisiones mejor informadas sobre dónde tendrá mayor impacto la nueva infraestructura de bicicletas.

Existen recursos adicionales para continuar trabajando con Velocity, incluido:

¿Algún comentario sobre este tema?

Crear un análisis de big data

Nota:

Sugerencia:

Configurar la fuente de datos

Nota:

Confirmar el esquema de datos

Identificar campos clave

Crear el análisis de big data

Agregar herramientas al análisis

Sugerencia:

Agregar una salida al análisis

Sugerencia:

Iniciar el análisis de big data

Nota:

Explorar los resultados analíticos en un mapa web

Nota:

Recursos adicionales

En este tema