Diseñar un análisis de big data

En esta lección aprenderá a crear un análisis de big data con ArcGIS Velocity. Asumirá el rol de un planificador de transportes con el fin de comprender mejor los accidentes de vehículos a motor relacionados con los ciclistas a lo largo de un periodo de varios años. Sus hallazgos se utilizarán para ayudar a identificar dónde la construcción de nuevas infraestructuras favorables como carriles bici o barreras de carril generará el mayor impacto en la seguridad de los ciclistas.

Los datos utilizados en esta lección se pueden descargar desde el sitio OpenData de la ciudad de Nueva York (NYC). El dataset completo de más de 1,5 millones de registros se descargó de este sitio en formato CSV. Para esta lección, el archivo CSV se aloja en un bucket de Amazon S3, con información de conexión en los pasos que aparecen a continuación.

A medida que sigue los pasos, creará un análisis de big data y una fuente de datos, configurará una variedad de herramientas y generará una capa de entidades de salida que contiene resultados de análisis que se pueden ver en un mapa web.

Esta lección está pensada para principiantes. Debe tener una cuenta de ArcGIS Online con acceso a ArcGIS Velocity. El tiempo estimado para completar esta lección es de 30 minutos.

Crear un análisis de big data

Para empezar, creará un análisis de big data utilizando la aplicación en ArcGIS Velocity.

  1. En un navegador web, abra ArcGIS Velocity e inicie sesión con sus credenciales de ArcGIS Online.

    Para obtener la mejor experiencia, utilice Google Chrome o Mozilla Firefox.

    Nota:

    Si tiene problemas para iniciar sesión, póngase en contacto con el administrador de ArcGIS Online. Es posible que tenga que estar asignado a un rol de ArcGIS Online con privilegios para utilizar ArcGIS Velocity. Para obtener más información sobre la creación de roles y la asignación de usuarios, consulte Crear roles y asignar usuarios.

  2. En el menú principal, haga clic en Big data en ANÁLISIS para acceder a la página Análisis de big data.

    En la página Análisis de big data, puede ver análisis de big data existentes y crear otros nuevos, así como iniciar y detener, comprobar el estado de ejecución, editar los existentes y clonar y eliminar análisis de big data.

  3. Haga clic en Crear análisis de big data para abrir el asistente de configuración y crear análisis de big data nuevos.

Configurar la fuente de datos

Al configurar un análisis de big data, primero debe seleccionar el tipo de fuente de datos.

  1. En la ventana Seleccionar un tipo de fuente de datos, haga clic en Ver todo bajo la categoría Nube.

    Ventana Seleccionar un tipo de fuente de datos

    Nota:

    Todos los análisis de big data deben tener al menos una fuente de datos como entrada.

  2. En Opciones de nube, elija Amazon S3.

    Opciones de fuente de datos en la nube

    Para obtener detalles sobre los proveedores en la nube, consulte los sitios web de los proveedores en Azure Blob Store, Azure Cosmos DB o Amazon S3.

  3. En la ventana Configurar Amazon S3, para el paso Configurar bucket de Amazon S3, configure los parámetros de la siguiente manera:
    1. En Modo de acceso, elija Público.
    2. En Nombre de bucket, escriba arcgis-velocity-public.
    3. En Región, elija US West (Oregon).
    4. En Ruta de carpeta (opcional), escriba /nyc-motor-vehicle-collisions.
    5. En Dataset, escriba NYPD_Motor_Vehicle_Collisions.csv.

    Asistente de configuración de la fuente de datos de Amazon S3

  4. Haga clic en Siguiente para aplicar los parámetros del bucket de Amazon S3.

    La fuente de datos se valida y devuelve datos de eventos muestreados, que revisará y confirmará en la siguiente sección.

Confirmar el esquema de datos

Con los parámetros del bucket de Amazon S3 establecidos, ahora confirmará el esquema de datos. Al configurar una fuente de datos, es importante definir el esquema de los datos que está cargando. Velocity define el esquema cuando muestrea los datos de origen, lo que incluye el formato de datos, delimitador de campo, tipos de campo y nombres de campo.

  1. En el paso Confirmar esquema, revise y confirme que el esquema de los datos se parece al de la ilustración siguiente.

    Confirmar el esquema de la fuente de datos

    Velocity comprobó la conexión a la fuente de datos, hizo un muestreo de los primeros registros de datos e interpretó el esquema de los datos basado en los registros muestreados. En este punto, puede cambiar el formato de datos, delimitador de campo, tipos de campo y nombres de campo, si es necesario, para garantizar un esquema válido. Sin embargo, en esta lección aceptará los parámetros predeterminados del esquema.

  2. Haga clic en Siguiente para confirmar el esquema como muestreado.

Identificar los campos clave

A continuación, configurará campos clave para que Velocity pueda construir correctamente la geometría, la información de fecha y un identificador único para los datos.

  1. En el paso Identificar campos clave, configure los parámetros Ubicación, Fecha y hora y Rastreo como sigue:
    1. En Tipo de ubicación, elija Campos X/Y.
    2. En X (longitud), elija LONGITUDE.
    3. En Y (latitud), elija LATITUDE.
    4. En Z (altitud), elija Ninguna.
    5. En Referencia espacial, acepte el GCS WGS 1984 predeterminado.
    6. En ¿Los datos tienen campos de fecha?, elija No.

      Este parámetro se puede utilizar para definir un campo de fecha de inicio y finalización o fecha/hora en la fuente de datos. Si los datos entrantes incluyen información de fecha en un formato de cadena de caracteres, se requiere un formato de fecha. Para obtener más información, consulte Parámetros de fecha y hora. Para esta lección, no especificará información de fecha ni hora.

    7. En Id. de rastreo, elija Los datos no tienen un Id. de rastreo.

      Este parámetro se puede utilizar para designar un campo de Id. de rastreo en la fuente de datos. Para obtener más información sobre el Id. de rastreo, consulte Id. de rastreo. Para esta lección, no definirá un Id. de rastreo.

      Identificar los campos clave en la fuente de datos

  2. Haga clic en Completar para crear la nueva fuente de datos.

    La nueva fuente de datos Amazon S3 se agrega al editor de análisis.

Crear el análisis de big data

Tras agregar la fuente de datos al editor de análisis, creará el análisis de big data.

  1. En la página Nuevo análisis de big data, haga clic en Crear análisis.
  2. En la ventana Crear análisis, en Título, escriba Accidentes de ciclistas en la ciudad de Nueva York.
  3. En Resumen, escriba Procese accidentes de vehículos de motor para identificar y analizar aquellos en los que se ven involucrados ciclistas.
  4. En Carpeta, elija la carpeta en la que crear el análisis de big data.

    Ventana Crear análisis

  5. Haga clic en Crear análisis para crear el análisis.

    Una vez creado el análisis, la barra de herramientas de la parte superior del editor de análisis proporciona opciones y controles adicionales para guardar, iniciar, programar y ejecutar ajustes para el análisis.

Agregar herramientas al análisis

Con el nuevo análisis creado, ahora podrá agregar herramientas al análisis que utilizará el análisis de big data para los datos de accidentes de ciclistas en la ciudad de Nueva York. Con Velocity, puede configurar una secuencia de análisis en la que la salida de cada paso es la entrada del siguiente. Ahora configurará herramientas secuenciales para comprender mejor los accidentes de vehículos de motor que causan lesiones a los ciclistas.

Primero agregará la herramienta Calcular campo y luego agregará un campo llamado TotalCyclistCasualties, que suma los valores de los campos NUMBER_CYCLIST_INJURED y NUMBER_CYCLIST_KILLED para cada registro individual de la fuente de datos.

  1. En el menú Agregar nodo de la izquierda, haga clic en la carpeta Administrar datos y elija la herramienta Calcular campo.

    Herramienta Calcular campo de la carpeta Administrar datos

    La herramienta Calcular campo se agrega al editor de análisis.

  2. Conecte la fuente de datos Amazon S3 a la herramienta Calcular campo.

    Fuente de datos Amazon S3 conectada a la herramienta Calcular campo

    Es preciso conectar los dos nodos para que la herramienta Calcular campo sepa con qué datos de origen trabajará en el paso siguiente.

  3. Haga doble clic en la herramienta Calcular campo para acceder a las propiedades.
  4. Configure la herramienta Calcular campo del siguiente modo:
    1. Asegúrese de elegir la opción Nuevo campo.
    2. En la columna Campo, escriba TotalCyclistCasualties.
    3. En la columna Tipo, haga clic en la lista desplegable y elija Int64.

      Esto especifica que el tipo de campo será un campo de entero de 64 bits.

    4. Haga clic en el botón Configurar una expresión de Arcade para abrir la ventana Configurar una expresión de Arcade.
    5. En el panel izquierdo, utilice el generador de expresiones Arcade o escriba $feature.NUMBER_CYCLIST_INJURED+$feature.NUMBER_CYCLIST_KILLED.
    6. Haga clic en Ejecutar para ejecutar la expresión Arcade.

      El resultado debería tener un aspecto similar a la ilustración que aparece a continuación.

      Ventana Configurar una expresión de Arcade

    7. Haga clic en Aceptar para guardar la expresión.
    8. En la columna Agregar cálculo de campo, haga clic en Agregar para agregar el nuevo campo.

      Herramienta Calcular campo configurada

    9. Haga clic en Aplicar para aplicar las propiedades.

      Con la herramienta Calcular campo configurada y conectada al origen de datos Amazon S3, filtrará ahora los datos de accidentes de vehículos de motor de la ciudad de Nueva York para identificar los accidentes con coordenadas de ubicación válidas que han provocado lesiones o incluso la muerte de ciclistas.

  5. En el editor de análisis, haga clic en Guardar para guardar la configuración actual de análisis de big data.
  6. En el menú Agregar nodo, haga clic en la carpeta Administrar datos y elija la herramienta Filtrar por expresión.

    Se agrega una herramienta Filtrar por expresión nueva al editor de análisis.

  7. Arrastre y suelte la herramienta Filtrar por expresión a la derecha de la herramienta Calcular campo y conecte ambos nodos.

    Herramienta Filtrar por expresión agregada al modelo

  8. Haga doble clic en la herramienta Filtrar por expresión para abrir las propiedades y configurarla como sigue:
    1. Haga clic en el botón Configurar una expresión de Arcade para abrir la ventana Configurar una expresión de Arcade.
    2. En el panel izquierdo, utilice el generador de expresiones Arcade o escriba $feature.TotalCyclistCasualties>0&$feature.LATITUDE>0.

      En este dataset, hay registros con coordenadas no válidas. Estos registros se pueden ignorar filtrando los registros cuyo valor de latitud es menor o igual que 0.

    3. Haga clic en Ejecutar para ejecutar la expresión Arcade.

      El resultado debería tener un aspecto similar a la ilustración que aparece a continuación.

      Ventana Configurar expresión de Arcade

    4. Haga clic en Aceptar para volver a las propiedades de la herramienta Filtrar por expresión.
    5. Haga clic en Aplicar para aplicar la expresión.

    Con el filtro agregado, agregará otra herramienta, Agregar puntos, que agregará puntos espacialmente para representar el número de accidentes que provocaron lesiones o incluso la muerte de ciclistas como bins hexagonales regulares.

  9. En el menú Agregar nodo, haga clic en la carpeta Resumir datos y elija la herramienta Agregar puntos.

    La herramienta Agregar puntos se agrega al editor de análisis.

  10. En el editor de análisis, haga clic en Guardar para guardar la configuración de análisis de big data actualizada.
  11. Arrastre y suelte la herramienta Agregar puntos a la derecha de la herramienta Filtrar por expresión y conecte ambos nodos.

    Herramienta Filtrar por expresión agregada al modelo

  12. Haga doble clic en la herramienta Agregar puntos para abrir las propiedades y configurarla como sigue:
    1. En Agregar puntos en, elija Bins.
    2. En Tipo de bin, elija Hexágono.
    3. En Tamaño de bin, escriba 250 y mantenga la unidad de medida establecida en Metros.
    4. En Campos de resumen, en Atributo, elija TotalCyclistCasualities.
    5. Para Estadística, elija Suma.
    6. En Nombre de campo de salida, deje el predeterminado TotalCyclistCasualities_Sum.
    7. Haga clic en Agregar para agregar el campo de resumen.

      Propiedades de la herramienta Agregar puntos

    8. Haga clic en Aplicar para aplicar las propiedades.

      Ha agregado correctamente las tres herramientas de análisis con las que se procesarán los datos de accidentes. A continuación, agregará una salida.

Agregar una salida al análisis

Una vez que se ha creado la fuente de datos y las herramientas de análisis, el último paso consiste en agregar una salida que enviará los datos de eventos procesados a una capa de entidades, que puede visualizarse en un mapa web.

  1. En el menú Agregar nodo, haga clic en la carpeta Salidas y elija la salida Capa de entidades (nueva).

    Se abre la ventana Configurar capa de entidades (nueva).

  2. En el paso Configurar capa de entidades, configure las propiedades como sigue:
    1. En la opción Almacenar datos en una capa de entidades espaciotemporales, active el botón de alternancia.
    2. En Método de almacenamiento de datos, elija Agregar todas las nuevas entidades.

      Si estaba trabajando con una fuente de datos que tenía definido un Id. de rastreo, utilizaría el método Mantener solamente la entidad más reciente para cada valor de Id. de rastreo. Con este método de almacenamiento, cada vez que se recibe una nueva entidad para un determinado Id. de rastreo, la entidad almacenada asociada con ese Id. de rastreo se reemplaza por la nueva entidad.

    3. En Cada vez que se ejecute el análisis, elija Reemplazar entidades y esquema existentes.

      Configurar una nueva salida de capa de entidades

      Cuando se elige Reemplazar entidades y esquema existentes, cada vez que se ejecuta el análisis de big data, las entidades y el esquema de la capa de entidades de salida se sobrescriben. Esto resulta útil al crear un análisis de big data y agregar, eliminar o cambiar herramientas entre ejecuciones de análisis. Como alternativa, la opción Mantener entidades y esquemas existentes resulta útil si desea incorporar registros cada vez que se ejecuta el análisis de big data.

  3. Haga clic en Siguiente.
  4. En el paso Guardar, en Nombre de capa de entidades, escriba Cyclist_Accident_Aggregation.
  5. En Resumen de capas de entidades, escriba Capa de entidades agregada de accidentes de ciclistas en NYC.
  6. En Carpeta, elija la carpeta para guardar la capa de entidades.

    Guardar la nueva salida de capa de entidades

  7. Haga clic en Completar para guardar la nueva salida.

    La nueva salida Cyclist_Accident_Aggregation se agrega al editor de análisis.

  8. Arrastre y suelte la salida Cyclist_Accident_Aggregation a la derecha de la herramienta Agregar puntos y conecte los dos nodos.

    Puede mover los nodos para que el modelo resulte más atractivo visualmente.

    Análisis de biga data final configurado
  9. Haga clic en Guardar para guardar el análisis de big data Accidentes de ciclistas en la ciudad de Nueva York.

Iniciar el análisis de big data

Tras configurar correctamente un análisis de big data con todos los nodos necesarios, comenzará un análisis y lo ejecutará una vez. El análisis cargará 1,5 millones de registros desde un archivo CSV utilizando un esquema definido, procesará los datos de eventos a través de una variedad de herramientas y escribirá la salida del análisis en una nueva capa de entidades.

  1. En el editor de análisis, haga clic en Iniciar para comenzar el análisis de big data Accidentes de ciclistas en la ciudad de Nueva York.

    Iniciar el análisis de big data

    El texto del botón Iniciar cambia a Inicialización y luego a Detener para indicar que el análisis se ha iniciado y se está ejecutando.

    Nota:

    Los feeds y los análisis en tiempo real de Velocity se mantienen en marcha una vez iniciados. Por su parte, el análisis de big data se ejecuta hasta que se completa y se detiene automáticamente. Los análisis de big data se pueden configurar para que se ejecuten de forma recurrente; utilice para ello las opciones disponibles en la lista menú desplegable Programar del editor de análisis. Las opciones incluyen la posibilidad de ejecutar el análisis una vez, de forma periódica o de forma repetida. Para obtener más información sobre cómo programar análisis de big data, consulte Programar análisis de big data recurrentes.

  2. Monitorice el análisis hasta que el botón Detener cambie a Iniciar.

    El cambio del botón Detener a Iniciar indica que el análisis se ha ejecutado una vez, que ha terminado y que ya no se está ejecutando. Además, puede supervisar el estado del análisis de big data desde la página Análisis de big data.

Explorar los resultados analíticos en un mapa web

Cuando inició el análisis de big data en la sección anterior, se creó una capa de entidades de salida. Ahora abrirá esa capa de entidades de salida en un mapa web y verá los resultados del análisis de big data sobre los datos de accidentes de ciclistas de la ciudad de Nueva York.

  1. En el menú principal, haga clic en Capas en SALIDA para abrir la página Capas.
  2. Busque la capa de entidades Cyclist_Accident_Aggregation en la lista y haga clic en Abrir en Map Viewer para ver la capa de entidades en un mapa web.

    Abrir la capa de entidades en Map Viewer

    Nota:

    Las capas de salida creadas por análisis de big data y en tiempo real no aparecen en la página Capas hasta que el análisis se ha ejecutado y generado la salida.

  3. Acérquese a la extensión de los datos de la ciudad de Nueva York, Estados Unidos.
  4. Cambie el mapa base a Lona gris oscuro.
  5. En la capa Agregación de accidentes de ciclistas, haga clic en Cambiar estilo y, en Elegir un atributo para mostrar, elija RECUENTO en el menú desplegable.
  6. En Seleccionar un estilo de dibujo, elija Recuentos y cantidades (color) y haga clic en OPCIONES.
  7. Haga clic en Símbolos, cambie la rampa de color a una rampa de color roja / naranja / blanco y haga clic en Aceptar.
  8. Active la casilla de verificación Clasificar datos.
  9. En el menú desplegable Utilizar, elija Desviación estándar y establezca el tamaño de clase en 1 desviación estándar.
  10. Acepte las otras propiedades predeterminadas, haga clic en Aceptar y en HECHO.

    Capa de entidades agregada y simbolizada en un mapa web

  11. Realice un desplazamiento panorámico y aplique zoom alrededor del mapa web para explorar los resultados del análisis de big data. Identifique las áreas con más lesiones y muertes de ciclistas y las áreas con menos.

Pasos siguientes

En esta lección, creó y ejecutó un análisis de big data que analizaba aproximadamente 1,5 millones de accidentes de ciclistas para identificar las áreas de la ciudad de Nueva York con el mayor número de accidentes. Con estos resultados, puede tomar decisiones mejor informadas sobre dónde tendrá mayor impacto la nueva infraestructura de bicicletas.

Existen recursos adicionales para continuar trabajando con ArcGIS Velocity, incluido Novedades de la última versión, Glosario de ArcGIS Velocity básico, Análisis de big data, Análisis en tiempo real y Usar expresiones de Arcade.