Configurer les données en entrée—ArcGIS Velocity

ArcGIS Velocity ingère des données pour les analyses en temps réel et Big Data à l’aide de flux ou de sources de données. Dans un type de flux, les données circulent en temps réel depuis une source de données qui charge des données statiques ou en temps quasi réel au lancement de l’analyse temps réel, afin de les mettre à disposition pour des jointures, un enrichissement et un geofencing rapides.

Vous pouvez utiliser un flux pour exploiter les données en temps réel ou comme données de jointure pour les outils d’analyse dans les analyses temps réel.

Velocity fournit un processus rationalisé et contextuel conçu pour optimiser votre expérience lors de la configuration des données en entrée provenant d’un flux ou d’une source de données. Ce processus de configuration est commun aux divers types de flux et de source de données.

Définir les paramètres de connexion et de configuration

La première étape de la configuration d’un flux ou d’une source de données consiste à définir les paramètres de connexion et de configuration requis pour que Velocity puisse se connecter aux données. Les paramètres disponibles varient selon le type de flux ou de source de données.

Par exemple, lors de la configuration d’un flux Kafka, complétez les paramètres Brokers (Agents) et Topics (Rubriques) pour vous connecter aux données. Lorsque vous configurez une source de données Amazon S3, vous devez fournir toutes les valeurs pertinentes des paramètres de connexion pour établir une connexion.

Velocity valide ensuite la connexion à l’aide des paramètres de configuration fournis. Ensuite, Velocity tente d’échantillonner les données et de dériver la structure associée. Si la connexion n’aboutit pas et que la structure ne peut pas être dérivée, mettez à jour les paramètres de configuration et réessayez.

Confirmer la structure

À l’étape Confirm Schema (Confirmer la structure), la structure renvoyée et un échantillon des données sont affichés. Selon le format des données, des paramètres supplémentaires peuvent être utilisés pour adapter la façon dont les données sont analysées dans une structure valide.

À cette étape, vous pouvez vérifier et corriger les noms et les types de champ, ainsi que les formats de données. Vous pouvez également dériver de nouveau les données pour acquérir de nouveaux échantillons ou dériver la structure après avoir modifié le format de données ou les paramètres de format de données. Cela permet de garantir que Velocity puisse identifier le format des données ingérées par le flux ou la source de données.

Étape Confirmer la structure pour l’interrogation HTTP

Échantillonnage et dérivation de structure automatiques

À l’étape Confirm Schema (Confirmer la structure), Velocity se connecte à la source de données ou au flux spécifié à l’aide des paramètres de connexion et de configuration définis à l’étape précédente et extrait un échantillon de données.

À partir de l’échantillon de données, Velocity dérive automatiquement le format et la structure des données, à savoir les noms et les types de champ. Pour certains formats de données, les champs de géométrie et de date/heure sont également identifiés.

Modifier les types et les noms de champ

Velocity affiche les types et les noms de champ tels qu’ils sont identifiés par la dérivation de la structure en fonction de l’échantillon de données acquis.

Pour ajuster le schéma dérivé, procédez comme suit :

Modifiez les paramètres de format des données et rééchantillonnez la structure avant de modifier les types et les noms de champs.
Si vous modifiez le format de données ou les paramètres de format de données, et qu’une dérivation de structure est requise, les modifications sont perdues.
Pour modifier un type de champ, cliquez sur la flèche de menu déroulant en regard du nom de champ et choisissez un autre type de filtre.
Attention :
Vous ne pouvez pas modifier les types de champ lorsque certains types de flux ou de source de données, tels que les couches d’entités, sont utilisés. Ne modifiez pas les types de champ à la légère. Gardez ce qui suit à l’esprit :
- Tout type de champ peut être transformé en champ de type chaîne de caractères. Toutefois, si vous tentez de transformer un champ de type chaîne de caractères contenant des lettres en un champ de type entier, une erreur se produit lors de l’ingestion des données.
- Passer d’un type à virgule flottante (Float32 ou Float64) à un type entier (Int32 ou Int64) n’est pas conseillé. La modification des types de champ n’est pas prévue pour la conversion à la volée des valeurs numériques. Pour certains formats, si vous modifiez un champ à virgule flottante en champ entier, la valeur peut être ignorée.
Le cas échéant, modifiez les noms de champ.
Pour désélectionner un champ, décochez la case en regard du type de champ.
Ce champ est ignoré lors de l’ingestion des données à partir de la source. De manière générale, il s’agit de décocher les champs inutiles, afin d’optimiser les performances en termes de vitesse et de volume.

Modifier le format des données et les paramètres de format des données

Velocity peut consommer des données de plusieurs types de source de données et de flux, dans divers formats de données. Certains types de flux et de source de données, tels que HTTP Poller (Interrogation HTTP), peuvent consommer des données dans divers formats. D’autres types de flux et de source de données, tels que Couche d’entités, ont un format de données fixe.

Les formats de données suivants sont pris en charge :

Délimité
JSON
GeoJSON
Esri JSON
RSS
GeoRSS
Shapefile (uniquement disponible pour les sources de données Amazon S3 et Azure Blob Store)
Parquet (uniquement disponible pour les sources de données Amazon S3 et Azure Blob Store)

Velocity tente automatiquement de dériver le format des données. Toutefois, vous pouvez modifier le format de données dérivées selon vos besoins.

En outre, pour certains formats de données, des paramètres permettent d’ajuster la façon dont Velocity analyse les données dans une structure. Par exemple, le format de données délimité possède deux paramètres : Field delimiter (Séparateur de champ) et Has header row (Comporte une ligne d’en-tête).

En savoir plus sur les formats de données pris en charge

Modifier les paramètres de format des données et dériver la structure

À l’aide de l’échantillon de données dérivées, Velocity tente de définir le format, la structure et les paramètres des données.

Vous pouvez modifier les paramètres de format des données ou spécifier un autre format. Pour ce faire, modifiez la propriété de format des données et cliquez sur l’option Derive schema (Dériver la structure) pour dériver de nouveau les données en prenant en compte des modifications que vous avez apportées. Les paramètres sont mis à jour en fonction des données dérivées.

Par exemple, si vous vous connectez à une source JSON comportant des objets JSON imbriqués sur plusieurs niveaux, et que vous souhaitez uniquement recueillir les données d’un nœud JSON spécifique, ou si vous voulez aplatir ces objets JSON pour extraire toutes les valeurs attributaires, vous pouvez utiliser les paramètres Root node (Nœud racine), Flatten (Aplatir), Flatten arrays (Aplatir les tableaux) et Retain element(s) (Conserver l’élément ou les éléments) pour configurer Velocity de façon à interagir directement avec les données JSON.

Les données échantillonnées ne sont pas renvoyées

Si les données échantillonnées ne sont pas renvoyées dans Velocity, procédez de l’une des façons suivantes :

Vérifiez que les paramètres de connexion et de configuration sont corrects.
Cliquez sur l’option Derive schema (Dériver la structure) pour effectuer un rééchantillonnage lorsque les données circulent ou sont disponibles.
Fournissez des échantillons en copiant des enregistrements.
Les échantillons peuvent être extraits pour leur format de données et pour dériver une structure valide.
Définissez manuellement le format et la structure des données.

Identifier les champs clés

L’étape suivante de la configuration des données en entrée du nouveau flux ou de la nouvelle source de données consiste à identifier les champs clés. Les champs clés sont utilisés pour analyser la géométrie des entités à partir de champs, construire des dates à partir de chaînes, spécifier des champs d’heure de début et de fin et identifier un champ en tant qu’ID de suivi.

Emplacement

Pour de nombreux types de flux et de source de données, vous devez définir la façon dont Velocity détermine la géométrie des entités à partir d’observations ou d’enregistrements. La géométrie peut être définie à l’aide d’un champ de géométrie unique ou de champs X/Y. Il est également possible de charger des données tabulaires sans emplacement et de ne pas spécifier de champ de géométrie.

En savoir plus sur la configuration des paramètres de localisation

Date et heure

Les entités d’un flux ou d’une source de données peuvent disposer de champs de date et d’heure. Si vous indiquez que les données comportent des champs de date, vous devez également spécifier le format de date. Les options sont Epoch milliseconds (Millisecondes [epoch]), Epoch seconds (Secondes [epoch]) et Other (string) (Autre [chaîne]). Si vous sélectionnez Other (String) (Autre [chaîne]), vous devez définir une valeur Date Formatting String (Chaîne de mise en forme des dates) pour que Velocity puisse convertir la chaîne en date.

De plus, vous pouvez choisir un champ clé pour l’option Start Time (optional) (Heure de début [facultatif]). Il n’est pas obligatoire de définir une heure de début ou une heure de fin pour analyser et traiter les données. Toutefois, certains outils d’analyse en temps réel et Big Data exigent qu’une heure de début ou qu’une heure de début et de fin soit spécifiée pour que l’analyse temporelle puisse être effectuée.

En savoir plus sur les paramètres de date et d’heure

Suivi de la localisation

Le champ clé défini pour l’option Track ID (ID de suivi) est un identifiant unique dans les données, qui met en correspondance des entités et des objets spécifiques. Par exemple, un camion peut être identifié au moyen de sa plaque d’immatriculation ou un avion par le numéro de vol qui lui est attribué. Ces identifiants peuvent être utilisés comme ID de suivi pour assurer le suivi des entités associées à un objet réel donné ou à un jeu d’incidents.

Il n’est pas obligatoire de définir un champ d’ID de suivi pour analyser et traiter les données. Toutefois, certains outils d’analyse en temps réel et Big Data exigent qu’un ID de suivi soit défini pour le flux ou la source de données.

Planifier l’intervalle d’interrogation

Bien que de nombreux flux soient de type continu, certains types de flux doivent extraire les données à intervalles réguliers. L’intervalle défini détermine la fréquence à laquelle le flux se connecte à la source pour extraire les données. Vous pouvez définir un intervalle d’interrogation pour les types de flux suivants :

En savoir plus sur la planification d’un intervalle d’interrogation de flux

Remarque :

Lorsque vous configurez les flux Velocity, la valeur de récurrence pour les secondes peut être définie sur un facteur de 60 (entre 10 et 30), pour une exécution cohérente et prévisible.

Enregistrer

L’étape finale consiste à indiquer un nom et, éventuellement, une synthèse pour le flux ; puis à enregistrer le flux.

Vous avez un commentaire à formuler concernant cette rubrique ?