L’une des raisons les plus courantes qui poussent à utiliser des analyses de Big Data récurrentes est le traitement en temps quasi réel. Par exemple, vous pouvez configurer une analyse Big Data configurée pour qu'elle s’exécute toutes les quelques minutes ou quelques heures et traite uniquement les entités les plus récentes écrites et stockées dans une couche d’entités.
Autre exemple : imaginons une analyse temps réel configurée pour recevoir des données à partir d’un flux qui recueille la position d’un véhicule mise à jour toutes les 10 secondes. Cette analyse en temps réel écrit des données d’événement dans une couche d’entités (nouvelle) en sortie et calcule un champ de date (nommé par exemple process_timestamp) à l’aide de l’outil Calculer un champ avec l’heure à laquelle un événement a été traité à l’aide de la fonction Arcade Date().
Remarque :
Il est préférable d’utiliser l’outil Calculer un champ dans une analyse en temps réel pour écrire la date et l'heure de traitement dans la couche d’entités qui sera consommée par l’analyse Big Data pour une analyse proche temps réel. Certaines sources de données utilisées par les flux présentent un délai inhérent dans la fourniture de données ou l’interrogation, qui peut amener les requêtes du champ d’horodatage à manquer certaines entités.
Pour compléter cette analyse temps réel, vous pouvez configurer une analyse de Big Data planifiée récurrente qui utilise la sortie de l’analyse temps réel comme source de données. Dans cette analyse Big Data récurrente, une source de Couche d’entités est configurée pour collecter la sortie de la couche d’entités créée par l’analyse en temps réel. Lorsque vous configurez une Source de couche d’entités, à l’étape Timestamp Field (Champ d’horodatage), vous pouvez sélectionner un champ de date dans le paramètre Date field for latest features (Champ de date des dernières entités). Sélectionnez le champ d’horodatage généré par l’outil Calculer un champ dans l’analyse en temps réel. Dans cet exemple, le nom du champ est process_timestamp.
La source de la couche d’entités utilise cet horodatage pour récupérer uniquement les dernières entités de la couche d’entités à chaque exécution. Si un champ est sélectionné pour le paramètre Date field for latest features (Champ de date des dernières entités), la première fois que ArcGIS Velocityinterroge la couche d’entités, il charge toutes les entités dont la valeur d’horodatage est inférieure à l’heure de la première exécution prévue, qui répondent également aux critères de la clause WHERE. À chaque exécution suivante, les entités dont la valeur d’horodatage est comprise entre l’heure de la dernière exécution programmée et l’heure de l’exécution actuelle programmée, et qui répondent aux critères de la clause WHERE, sont chargées.
L’analyseBig Data est configurée pour s’exécuter selon l’intervalle de répétition souhaitée, par exemple toutes les 5 minutes. Lorsqu'on utilise un champ d’horodatage comme cela est décrit ci-dessus, seules les entités les plus récentes non encore traitées sont analysées par l’analyse Big Data lors des exécutions suivantes.
Vous avez un commentaire à formuler concernant cette rubrique ?