Configurer les données en entrée

ArcGIS Velocity ingère des données pour des analyses en temps réel et Big Data utilisant des flux ou des sources de données. Dans un flux, les données circulent en temps réel ; une source de données charge des données statiques ou en temps quasi-réel au lancement de l’analyse en temps réel afin de les mettre à disposition pour des jointures, un enrichissement et un geofencing rapides. Pour plus d’informations, reportez-vous aux rubriques Utiliser les flux et Utiliser les sources de données.

Un flux doit être utilisé pour exploiter les données en temps réel ou utilisé comme données de jointure pour les outils d’analyse dans les analyses en temps réel.

Velocity fournit un processus rationalisé et contextuel conçu pour optimiser l’expérience des utilisateurs lors de la configuration des données en entrée provenant d’un flux ou d’une source de données. Ce processus de configuration est commun aux divers types de flux et de source de données.

Définir les paramètres de connexion et de configuration

La première étape de la configuration d’un flux ou d’une source de données consiste à définir les paramètres de connexion et de configuration requis pour que Velocity puisse se connecter aux données. Les paramètres disponibles varient selon le type de flux ou de source de données.

Par exemple, lors de la configuration d’un flux Kafka, complétez les paramètres Broker (Agent) et Topic (Rubrique) pour vous connecter aux données. Lorsque vous configurez une source de données Amazon S3, vous devez fournir toutes les valeurs pertinentes des paramètres de connexion pour établir la connexion avec succès.

Paramètres de configuration

Velocity valide ensuite la connexion à l’aide des paramètres de configuration fournis. Ensuite, Velocity tente d’échantillonner les données et de dériver la structure associée. Si la connexion n’aboutit pas et que les données ne peuvent pas être dérivées, mettez à jour les paramètres de configuration et réessayez.

Confirmer la structure

À l’étape Confirmer la structure, la structure renvoyée et un échantillon des données sont affichés. Selon le format des données, des paramètres supplémentaires peuvent être utilisés pour adapter la façon dont les données sont analysées dans une structure valide.

À l’étape Confirm Schema (Confirmer la structure), vous pouvez vérifier et corriger les noms et les types de champ, ainsi que les formats de données. Vous pouvez également dériver de nouveau les données pour acquérir de nouveaux échantillons ou dériver la structure après avoir modifié le format des données ou les paramètres de format des données. Cela permet de garantir que Velocity puisse identifier le format des données ingérées par le flux ou la source de données.

Étape Confirmer la structure pour l’interrogation HTTP

Échantillonnage et dérivation de structure automatiques

À l’étape Confirm Schema (Confirmer la structure), Velocity se connecte à la source de données ou au flux spécifié à l’aide des paramètres de connexion et de configuration que vous avez définis à l’étape précédente et extrait un échantillon de données.

À partir de l’échantillon de données, Velocity dérive automatiquement le format et la structure des données, à savoir les noms et les types de champ. Pour certains formats de données, des champs clés de géométrie et de date/heure sont également identifiés.

Modifier les types et les noms de champ

Velocity affiche les types et les noms de champ tels qu’ils sont identifiés par la dérivation de la structure en fonction de l’échantillon de données acquis.

Vous pouvez effectuer les modifications suivantes à la structure dérivée :

  • Modifier les types de champ
    • Utilisez la flèche de menu déroulant en regard du nom de champ pour modifier le type de champ.
    • Vous ne pouvez pas modifier les types de champ lorsque certains types de flux ou de source de données, tels que les couches d’entités, sont utilisés.
    • Soyez prudent lorsque vous modifiez le type de champ pour les raisons suivantes :
      • Tout type de champ peut être transformé en champ de type chaîne de caractères. Toutefois, si vous tentez de transformer un champ de type chaîne de caractères contenant des lettres en un champ de type entier, une erreur se produit lors de l'ingestion des données.
      • Passer d’un type à virgule flottante (Float32 ou Float64) à un type entier (Int32 ou Int64) n’est pas conseillé. La modification des types de champ n’est pas prévue pour la conversion à la volée des valeurs numériques. Pour certains formats, si vous modifiez un champ à virgule flottante en champ entier, la valeur peut être ignorée.
  • Modifier les noms de champ
    • Modifiez le nom des champs selon vos besoins.
  • Désactiver des champs
    • Pour désactiver un champ, décochez la case en regard du type de champ. Ce champ sera ignoré lors de l’ingestion des données à partir de la source.
    • De manière générale, il est recommandé de désactiver les champs inutiles afin d’optimiser les performances en termes de vitesse et de volume.

Remarque :

Modifiez les paramètres de format des données et rééchantillonnez la structure avant de modifier les types et les noms de champs. Si vous modifiez le format des données ou les paramètres de format des données, et qu’une dérivation de structure est requise, vos modifications seront perdues.

Modifier le format des données et les paramètres de format des données

Velocity peut consommer des données de plusieurs types de source de données et de flux, dans divers formats de données. Certains types de flux et de source de données, tels que HTTP Poller (Interrogation HTTP), peuvent consommer des données dans divers formats. D’autres types de flux et de source de données, tels que Couche d’entités, ont un format de données fixe.

Les formats de données suivants sont pris en charge :

  • Délimité
  • JSON
  • GeoJSON
  • EsriJSON
  • RSS
  • GeoRSS
  • Shapefile (analyses Big Data seulement)
  • Parquet (analyses Big Data seulement)

Velocity tente automatiquement de dériver le format des données. Toutefois, vous pouvez modifier le format de données dérivées selon vos besoins.

En outre, pour certains formats de données, des paramètres permettent d’ajuster la façon dont Velocity analyse les données dans une structure. Par exemple, le format de données délimité possède deux paramètres, séparateur de champ et ligne d'en-tête.

Pour plus d’informations sur les formats et paramètres associés à chaque format de données, consultez la rubrique Formats de données pris en charge.

Modifier les paramètres de format des données et dériver la structure

À l’aide de l’échantillon de données dérivées, Velocity tente de définir le format, la structure et les paramètres des données.

Vous pouvez modifier les paramètres de format des données ou spécifier un autre format. Pour ce faire, modifiez la propriété de format des données et cliquez sur Derive schema (Dériver la structure) pour dériver de nouveau les données en prenant en compte des modifications que vous avez apportées. Les paramètres sont mis à jour en fonction des données dérivées.

Par exemple, si vous vous connectez à une source JSON comportant des objets JSON imbriqués sur plusieurs niveaux, et que vous souhaitez uniquement recueillir les données d’un nœud JSON spécifique, ou si vous voulez aplatir ces objets pour extraire toutes les valeurs attributaires, vous pouvez utiliser les paramètres root node et flatten pour configurer Velocity de façon à interagir directement avec vos données JSON.

Les données échantillonnées ne sont pas renvoyées

Si les données échantillonnées ne sont pas renvoyées dans Velocity, vous pouvez effectuer l’une des opérations suivantes :

  • Vérifiez que les paramètres de connexion et de configuration sont corrects.
  • Cliquez sur Derive schema (Dériver la structure) pour effectuer un rééchantillonnage lorsque les données circulent ou sont disponibles.
  • Fournissez vos propres échantillons en copiant des enregistrements. Les échantillons peuvent être extraits pour leur format de données et pour dériver une structure valide.
  • Définissez manuellement le format et la structure des données.

Identifier les champs clés

L’étape suivante de la configuration des données en entrée du nouveau flux ou de la nouvelle source de données consiste à identifier les champs clés. Les champs clés sont utilisés pour analyser la géométrie des entités à partir de champs, construire des dates à partir de chaînes, spécifier des champs d’heure de début et de fin et identifier un champ en tant qu’ID de suivi.

Emplacement

Pour de nombreux types de flux et de source de données, vous devez définir la façon dont Velocity détermine la géométrie des entités à partir d’observations ou d’enregistrements. La géométrie peut être définie à l’aide d’un champ de géométrie unique ou de champs X/Y. Il est également possible de charger des données tabulaires sans emplacement et de ne pas spécifier de champ de géométrie.

Pour plus d’informations sur la configuration des paramètres d’emplacement, reportez-vous à la rubrique Paramètres d’emplacement.

Date et heure

Les entités d’un flux ou d’une source de données peuvent disposer de champs de date et heure. Si vous indiquez que les données comportent des champs de date, vous devez également spécifier le format de date. Les deux options disponibles sont Epoch Values (Valeurs Epoch) et Other (String) [Autre (chaîne)]. Si vous sélectionnez Other (String) [Autre (chaîne)], vous devez définir une chaîne Date Formatting (Formatage de date) pour que Velocity puisse convertir la chaîne en date.

Vous pouvez également choisir une valeur de champ clé Start Time (Heure de début). Il n’est pas obligatoire de définir une heure de début ou une heure de fin pour analyser et traiter les données. Toutefois, certains outils d’analyse en temps réel ou Big Data exigent qu’une heure de début ou de fin soit spécifiée pour que l’analyse temporelle puisse être effectuée.

Pour plus d’informations sur la configuration des paramètres de date et heure, consultez la rubrique Paramètres de date et heure.

Suivi de la localisation

Le champ clé Track ID (ID de suivi) est un identifiant unique dans les données, qui met en correspondance des entités et des objets spécifiques. Par exemple, un camion peut être identifié au moyen de sa plaque d'immatriculation ou un avion par le numéro de vol qui lui est attribué. Ces identifiants peuvent être utilisés comme ID de suivi pour assurer le suivi des entités associées à un objet réel donné ou à un jeu d’incidents.

Il n’est pas obligatoire de définir un champ d’ID de suivi pour analyser et traiter les données. Toutefois, certains outils d’analyse en temps réel ou Big Data exigent qu’un ID de suivi soit défini pour le flux ou la source de données.

Planifier l’intervalle d’interrogation

Bien que de nombreux flux soient de type continu, certains types de flux doivent extraire les données à intervalles réguliers. L’intervalle défini détermine la fréquence à laquelle le flux se connecte à la source pour extraire les données. Vous pouvez définir un intervalle d’interrogation pour les types de flux suivants :

Pour plus d’informations sur la configuration de l’intervalle d’interrogation de flux, consultez la rubrique Planifier un intervalle d’interrogation de flux.

Enregistrer

L’étape finale consiste à indiquer un nom et, éventuellement, une synthèse pour le flux ; puis à enregistrer le flux.