Configurer les données en entrée

ArcGIS Velocity ingère des données pour les analyses en temps réel et Big Data à l’aide de flux ou de sources de données. Dans un flux, les données circulent en temps réel ; une source de données charge des données statiques ou en temps quasi-réel au lancement de l’analyse en temps réel, afin de les mettre à disposition pour des jointures, un enrichissement et un geofencing rapides.

Un flux doit être utilisé pour exploiter les données en temps réel ou utilisé comme données de jointure pour les outils d’analyse dans les analyses en temps réel.

Velocity fournit un processus rationalisé et contextuel conçu pour optimiser votre expérience lors de la configuration des données en entrée provenant d’un flux ou d’une source de données. Ce processus de configuration est commun aux divers types de flux et de source de données.

Définir les paramètres de connexion et de configuration

La première étape de la configuration d’un flux ou d’une source de données consiste à définir les paramètres de connexion et de configuration requis pour que Velocity puisse se connecter aux données. Les paramètres disponibles varient selon le type de flux ou de source de données.

Par exemple, lors de la configuration d’un flux Kafka, complétez les paramètres Broker (Agent) et Topic (Rubrique) pour vous connecter aux données. Lorsque vous configurez une source de données Amazon S3, vous devez fournir toutes les valeurs pertinentes des paramètres de connexion pour établir la connexion avec succès.

Paramètres de configuration Kafka

Velocity valide ensuite la connexion à l’aide des paramètres de configuration fournis. Ensuite, Velocity tente d’échantillonner les données et de dériver la structure associée. Si la connexion n’aboutit pas et que les données ne peuvent pas être dérivées, mettez à jour les paramètres de configuration et réessayez.

Confirmer la structure

À l’étape Confirmer la structure, la structure renvoyée et un échantillon des données sont affichés. Selon le format des données, des paramètres supplémentaires peuvent être utilisés pour adapter la façon dont les données sont analysées dans une structure valide.

À cette étape, vous pouvez vérifier et corriger les noms et les types de champ, ainsi que les formats de données. Vous pouvez également dériver de nouveau les données pour acquérir de nouveaux échantillons ou dériver la structure après avoir modifié le format de données ou les paramètres de format de données. Cela permet de garantir que Velocity puisse identifier le format des données ingérées par le flux ou la source de données.

Étape Confirmer la structure pour l’interrogation HTTP

Échantillonnage et dérivation de structure automatiques

À l’étape Confirm Schema (Confirmer la structure), Velocity se connecte à la source de données ou au flux spécifié à l’aide des paramètres de connexion et de configuration que vous avez définis à l’étape précédente et extrait un échantillon de données.

À partir de l’échantillon de données, Velocity dérive automatiquement le format et la structure des données, à savoir les noms et les types de champ. Pour certains formats de données, des champs clés de géométrie et de date/heure sont également identifiés.

Modifier les types et les noms de champ

Velocity affiche les types et les noms de champ tels qu’ils sont identifiés par la dérivation de la structure en fonction de l’échantillon de données acquis.

Pour ajuster le schéma dérivé, procédez comme suit :

  1. Modifiez les paramètres de format des données et rééchantillonnez la structure avant de modifier les types et les noms de champs.

    Si vous modifiez le format de données ou les paramètres de format de données, et qu’une dérivation de structure est requise, vos modifications sont perdues.

  2. Pour modifier un type de champ, cliquez sur la flèche de menu déroulant en regard du nom de champ et choisissez un autre type de filtre.

    Vous ne pouvez pas modifier les types de champ lorsque certains types de flux ou de source de données, tels que les couches d’entités, sont utilisés. Soyez prudent lorsque vous modifiez le type de champ pour les raisons suivantes :

    • Tout type de champ peut être transformé en champ de type chaîne de caractères. Toutefois, si vous tentez de transformer un champ de type chaîne de caractères contenant des lettres en un champ de type entier, une erreur se produit lors de l'ingestion des données.
    • Passer d’un type à virgule flottante (Float32 ou Float64) à un type entier (Int32 ou Int64) n’est pas conseillé. La modification des types de champ n’est pas prévue pour la conversion à la volée des valeurs numériques. Pour certains formats, si vous modifiez un champ à virgule flottante en champ entier, la valeur peut être ignorée.

  3. Le cas échéant, modifiez les noms de champ.
  4. Pour désactiver un champ, décochez la case en regard du type de champ.

    Ce champ est ignoré lors de l’ingestion des données à partir de la source. De manière générale, il s’agit de désactiver les champs inutiles, afin d’optimiser les performances en termes de vitesse et de volume.

Modifier le format des données et les paramètres de format des données

Velocity peut consommer des données de plusieurs types de source de données et de flux, dans divers formats de données. Certains types de flux et de source de données, tels que HTTP Poller (Interrogation HTTP), peuvent consommer des données dans divers formats. D’autres types de flux et de source de données, tels que Couche d’entités, ont un format de données fixe.

Les formats de données suivants sont pris en charge :

  • Délimité
  • JSON
  • GeoJSON
  • Esri JSON
  • RSS
  • GeoRSS
  • Shapefile (uniquement disponible pour les sources de données Amazon S3 et Azure Blob Store)
  • Parquet (uniquement disponible pour les sources de données Amazon S3 et Azure Blob Store)

Velocity tente automatiquement de dériver le format des données. Toutefois, vous pouvez modifier le format de données dérivées selon vos besoins.

En outre, pour certains formats de données, des paramètres permettent d’ajuster la façon dont Velocity analyse les données dans une structure. Par exemple, le format de données délimité possède deux paramètres : séparateur de champ et ligne d'en-tête.

En savoir plus sur les formats de données pris en charge

Modifier les paramètres de format des données et dériver la structure

À l’aide de l’échantillon de données dérivées, Velocity tente de définir le format, la structure et les paramètres des données.

Vous pouvez modifier les paramètres de format des données ou spécifier un autre format. Pour ce faire, modifiez la propriété de format des données et cliquez sur Derive schema (Dériver la structure) pour dériver de nouveau les données en prenant en compte des modifications que vous avez apportées. Les paramètres sont mis à jour en fonction des données dérivées.

Par exemple, si vous vous connectez à une source JSON comportant des objets JSON imbriqués sur plusieurs niveaux, et que vous souhaitez uniquement recueillir les données d’un nœud JSON spécifique, ou si vous voulez aplatir ces objets pour extraire toutes les valeurs attributaires, vous pouvez utiliser les paramètres root node et flatten pour configurer Velocity de façon à interagir directement avec vos données JSON.

Les données échantillonnées ne sont pas renvoyées

Si les données échantillonnées ne sont pas renvoyées dans Velocity, procédez de l’une des façons suivantes :

  • Vérifiez que les paramètres de connexion et de configuration sont corrects.
  • Cliquez sur Derive schema (Dériver la structure) pour effectuer un rééchantillonnage lorsque les données circulent ou sont disponibles.
  • Fournissez vos propres échantillons en copiant des enregistrements.

    Les échantillons peuvent être extraits pour leur format de données et pour dériver une structure valide.

  • Définissez manuellement le format et la structure des données.

Identifier les champs clés

L’étape suivante de la configuration des données en entrée du nouveau flux ou de la nouvelle source de données consiste à identifier les champs clés. Les champs clés sont utilisés pour analyser la géométrie des entités à partir de champs, construire des dates à partir de chaînes, spécifier des champs d’heure de début et de fin et identifier un champ en tant qu’ID de suivi.

Emplacement

Pour de nombreux types de flux et de source de données, vous devez définir la façon dont Velocity détermine la géométrie des entités à partir d’observations ou d’enregistrements. La géométrie peut être définie à l’aide d’un champ de géométrie unique ou de champs X/Y. Il est également possible de charger des données tabulaires sans emplacement et de ne pas spécifier de champ de géométrie.

En savoir plus sur la configuration des paramètres de localisation

Date et heure

Les entités d’un flux ou d’une source de données peuvent disposer de champs de date et d’heure. Si vous indiquez que les données comportent des champs de date, vous devez également spécifier le format de date. Les options disponibles sont Epoch Values (Valeurs Epoch) et Other (String) [Autre (chaîne)]. Si vous sélectionnez Other (String) [Autre (chaîne)], vous devez définir une chaîne Date Formatting (Formatage de date) pour que Velocity puisse convertir la chaîne en date.

De plus, vous pouvez choisir un champ clé pour l’option Start Time (Heure de début). Il n’est pas obligatoire de définir une heure de début ou une heure de fin pour analyser et traiter les données. Toutefois, certains outils d’analyse en temps réel et Big Data exigent qu’une heure de début ou qu’une heure de début et de fin soit spécifiée pour que l’analyse temporelle puisse être effectuée.

En savoir plus sur les paramètres de date et d’heure

Suivi de la localisation

Le champ clé défini pour l’option Track ID (ID de suivi) est un identifiant unique dans les données, qui met en correspondance des entités et des objets spécifiques. Par exemple, un camion peut être identifié au moyen de sa plaque d’immatriculation ou un avion par le numéro de vol qui lui est attribué. Ces identifiants peuvent être utilisés comme ID de suivi pour assurer le suivi des entités associées à un objet réel donné ou à un jeu d’incidents.

Il n’est pas obligatoire de définir un champ d’ID de suivi pour analyser et traiter les données. Toutefois, certains outils d’analyse en temps réel et Big Data exigent qu’un ID de suivi soit défini pour le flux ou la source de données.

Planifier l’intervalle d’interrogation

Bien que de nombreux flux soient de type continu, certains types de flux doivent extraire les données à intervalles réguliers. L’intervalle défini détermine la fréquence à laquelle le flux se connecte à la source pour extraire les données. Vous pouvez définir un intervalle d’interrogation pour les types de flux suivants :

En savoir plus sur la planification d’un intervalle d’interrogation de flux

Enregistrer

L’étape finale consiste à indiquer un nom et, éventuellement, une synthèse pour le flux ; puis à enregistrer le flux.