Utilice los registros de los archivos almacenados en un contenedor de almacenamiento Microsoft Azure como entrada de ArcGIS Data Pipelines.
Notas de uso
Tenga en cuenta lo siguiente al trabajar con el almacenamiento Microsoft Azure:
- Para utilizar un dataset del almacenamiento Azure, primero debe crear un elemento de data store. Los elementos de data store almacenan de forma segura las credenciales y la información de conexión para que Data Pipelines pueda leer los datos. Para crear un data store, siga los pasos que se indican en la sección Conectarse a almacenamiento Azure más adelante.
- Para cambiar el elemento de data store configurado, use el parámetro Elemento de data store para eliminar el elemento seleccionado actualmente y elija una de las siguientes opciones:
- Agregar data store: cree un nuevo elemento de data store.
- Seleccionar elemento: explore su contenido para seleccionar un elemento del data store existente.
- Utilice el parámetro Ruta del dataset para especificar el nombre del dataset o el nombre de la carpeta que contiene el dataset. Por ejemplo, puede especificar rutas de datasets como sigue:
- Referencie un solo archivo especificando la ruta de ese archivo como Hurricanes.shp o CustomerInfo.csv.
- Referencie una carpeta que contenga varios datasets especificando una ruta como MyFolder/. Todos los archivos de la carpeta deben tener el mismo esquema y tipo de archivo.
- Referencie los tipos de archivos específicos de una carpeta que contenga varios archivos y formatos especificando una ruta como MyFolder/*.parquet. En este ejemplo, solo se leerán los archivos de parquet. Todos los archivos de parquet de la carpeta deben tener el mismo esquema.
- Referencie varios archivos y carpetas anidadas mediante el uso de patrones glob especificando una ruta como MyFolder/**/*.geojson. En este ejemplo se cargarán cualquier subcarpeta de MyFolder y cualquier archivo GeoJSON contenido en esas subcarpetas.
La ruta del dataset también debe guardar relación con el contenedor y la carpeta que se han especificado al crear el elemento de data store. Por ejemplo, si la ruta del dataset completa es https://myaccount.blob.core.windows.net/my-container/my-folder/my-subfolder/file.csv y el elemento de data store especifica my-container para el contenedor y my-folder para la carpeta, la ruta del dataset debería ser my-subfolder/file.csv.
- Utilice el parámetro Formato de archivo para especificar el formato de archivo del dataset especificado en el parámetro Ruta de dataset. Dispone de las siguientes opciones de formato:
- CSV o delimitado (por ejemplo, .csv, .tsv y .txt)
- Parquet (.parquet)
- GeoParquet (.geoparquet)
- JSON (por ejemplo, .json o un archivo .txt que contiene datos formateados como JSON)
- GeoJSON (por ejemplo, .json y .geojson o un archivo .txt que contiene datos con formato GeoJSON)
- Shapefile (.shp)
- Geodatabase de archivos (.gdb)
- ORC (.orc)
- Si se especifica la opción de formato CSV o delimitado, estarán disponibles los siguientes parámetros de definición del dataset:
- Delimitador: el delimitador se utiliza para dividir los valores de campo (o columna) y registro (o fila). De manera predeterminada está delimitado por comas (,). Otros formatos de delimitador habituales son, entre otros, el tabulador (\t), el punto y coma (;), la barra vertical (|) y las barras diagonales e invertidas (/ y \).
- Tiene fila de encabezado: especifica si el dataset contiene una fila de encabezado. El valor predeterminado es true. Si se establece en false (falso), la primera fila del dataset se considerará un registro.
- Tiene datos multilínea: especifica si el dataset incluye registros que contienen caracteres de nueva línea. El valor predeterminado es falso. Si se establece en true, los datos que contengan datos multilínea se leerán y formatearán correctamente.
- Codificación de caracteres: especifica el tipo de codificación que se utilizará para leer el dataset especificado. El valor predeterminado es UTF -8. Puede elegir entre las opciones de codificación disponibles o especificar un tipo de codificación. No se admiten espacios en los valores de codificación. Por ejemplo, especificar un valor de ISO 8859-8 no es válido y debe especificarse como ISO-8859-8.
- Campos está disponible para configurar tipos y nombres de campo cuando el valor del formato de datos es CSV o delimitado. El botón Configurar esquema abre un cuadro de diálogo que contiene los campos de dataset con las opciones siguientes:
- Incluir o anular campos: puede eliminar los campos activando la casilla de verificación situada junto al campo. Por defecto, se incluyen todos los campos.
- Nombre de campo: nombre del campo tal y como se utilizará en Data Pipelines. Este valor se puede editar. De forma predeterminada, este valor será igual que el del campo del dataset de origen a menos que el nombre de origen contenga caracteres no válidos o sea una palabra reservada. Los caracteres no válidos se sustituirán por un guion bajo (_) y las palabras reservadas tendrán un prefijo y un guion bajo (_).
- Tipo de campo: el tipo de campo tal como se utilizará en Data Pipelines. Este valor se puede editar.
Tipo de campo Descripción Cadena de caracteres
Los campos de cadena de caracteres admiten una cadena de caracteres de texto.
Entero pequeño
Los campos de enteros pequeños admiten números enteros entre -32768 y 32767.
Entero
Los campos de enteros admiten números enteros entre -2147483648 y 2147483647.
Entero grande
Los campos de enteros grandes admiten números enteros entre -9223372036854776000 y 9223372036854776000.
Flotante
Los campos flotantes admiten números fraccionarios entre -3,4E38 y 3,4E38, aproximadamente.
Doble
Los campos dobles admiten números fraccionarios entre -2,2E308 y 1,8E308, aproximadamente.
Fecha
Los campos de fecha admiten valores en formato yyyy-MM-dd HH:mm:ss; por ejemplo, un valor válido es 2022-12-31 13:30:30. Si los valores de fecha se almacenan en un formato de diferente, utilice la herramienta Crear fecha y hora para calcular un campo de fecha.
Booleano
Los campos booleanos admiten valores de True y False. Si un campo contiene representaciones de enteros de valores booleanos (0 y 1), utilice la herramienta Actualizar campos para convertir los números enteros en valores booleanos.
- Si se especifica la opción de formato JSON, el parámetro Propiedad de raíz está disponible. Puede utilizar este parámetro para especificar una propiedad en el JSON para leer datos. Puede hacer referencia a propiedades anidadas utilizando un separador decimal entre cada propiedad, por ejemplo, property.subProperty. De forma predeterminada, se leerá el archivo JSON completo.
- Si se especifica la opción de formato GeoJSON, el parámetro Tipo de geometría está disponible. Este parámetro es opcional. De forma predeterminada, se utiliza el tipo de geometría del archivo GeoJSON. Si el archivo GeoJSON contiene más de un tipo de geometría, debe especificar el valor para este parámetro. Los tipos de geometría mixtos son incompatibles y solo se utilizará el tipo especificado. Las opciones son Punto, Multipunto, Polilínea y Polígono. Se calculará automáticamente un campo de geometría que contiene las ubicaciones de los datos GeoJSON y se agregará al dataset de entrada. El campo geometría puede utilizarse como entrada para operaciones espaciales o para activar la geometría en el resultado de salida.
- Si se especifica la opción de formato Geodatabase de archivos, el parámetro Clase de entidades o nombre de tabla pasará a estar disponible. Utilice este parámetro para especificar el nombre de la clase o tabla de entidades que desea utilizar como entrada. Solo se admiten clases de entidades de punto, multipunto, polilínea y polígono, y tablas. No se admiten datasets como ráster, mosaico, trayectoria y otros. No se admiten tipos de entidades avanzadas, como las entidades de red geométrica.
- Para mejorar el rendimiento de la lectura de los datasets de entrada, tenga en cuenta las opciones siguientes:
- Utilice el parámetro Usar almacenamiento en caché para almacenar una copia del dataset. La copia en caché solo se mantiene mientras al menos una pestaña abierta del navegador esté conectada al editor. Esto puede hacer que sea más rápido acceder a los datos durante el procesamiento. Si los datos de origen se han actualizado desde que se almacenaron en caché, desmarque este parámetro y vuelva a realizar la vista previa o a ejecutar la herramienta.
- Tras configurar un dataset de entrada, configure cualquiera de las herramientas siguientes que limitan la cantidad de datos que se procesan:
- Filtrar por atributo: conserva un subconjunto de registros que contienen determinados valores de atributo.
- Seleccionar campos: conserva solo los campos de interés.
- Filtrar por extensión: conserva un subconjunto de registros dentro de una extensión espacial determinada.
Conectarse al almacenamiento Azure
Para utilizar los datos almacenados en el almacenamiento de Azure, complete los pasos siguientes para crear un elemento de data store en el editor de Data Pipelines:
- En la barra de herramientas del editor de Data Pipelines, haga clic en Entradas y elija Microsoft Azure Storage.
Aparece el cuadro de diálogo Seleccionar una conexión de data store.
- Elija Agregar un nuevo data store.
- Haga clic en Siguiente.
Aparece el cuadro de diálogo Agregar una conexión a un data store.
- Seleccione el tipo de autenticación utilizado para acceder a los datos.
- Proporcione los valores de autenticación.
Los valores de autenticación varían en función del tipo de autenticación seleccionado.
- Proporcione el nombre del contenedor en el que están almacenados los datos.
- Si lo desea, proporcione la ruta de la carpeta incluida en el contenedor para registrarla.
- Haga clic en Siguiente.
Aparece el panel de detalles del elemento.
- Proporcione un título para el nuevo elemento de data store.
Este título aparecerá en el contenido. También puede guardar el elemento en una carpeta específica y proporcionar etiquetas de elemento o un resumen.
- Haga clic en Crear conexión para crear el elemento de data store.
Se agrega al lienzo un elemento de almacenamiento Microsoft Azure que puede configurar para un dataset determinado.
Limitaciones
Las siguientes son limitaciones conocidas:
- Sus credenciales deben tener como mínimo los permisos READ y LIST. Estos permisos permiten acceder al contenedor especificado y leer los datasets que contiene.
- Si especifica una carpeta que contiene varios archivos que representan un dataset individual, todos los archivos identificados en la carpeta de almacenamiento Azure deben tener el mismo esquema y tipo de geometría.
- No se admiten archivos comprimidos (.zip).
- Los archivos Esri JSON (.esrijson) no son compatibles.
- Los datos de Azure que se introducen en Data Pipelines deben tener Habilitar eliminación temporal para blobs deshabilitado.
- Si el dataset incluye nombres de campo con espacios o caracteres no válidos, los nombres se actualizan automáticamente para utilizar guiones bajos. Por un ejemplo, un campo llamado Population 2022 cambia el nombre a Population_2022 y un campo llamado %Employed cambia el nombre a _Employed.
- Para utilizar un elemento del almacén de datos para conectarse a fuentes de datos externas, debe ser el propietario del elemento del almacén de datos. Los elementos del almacén de datos que se comparten con usted no se admiten como entrada.
Requisitos de licencia
Se requieren las siguientes licencias y configuraciones:
- Tipo de usuario Creator o Professional
- Rol de publicador, moderador o administrador, o rol personalizado equivalente
Para obtener más información sobre los requisitos de Data Pipelines, consulte Requisitos.