大数据分析

大数据分析对存储的数据(例如要素图层或者诸如 Amazon S3Azure Blob Store 等云大数据存储中的数据)执行批处理分析和处理。 大数据分析通常用于汇总观测值以及执行模式分析和丰富数据。 可以执行的分析将使用 Velocity 中以下工具类别的工具:

  • 分析模式
  • 数据丰富
  • 查找位置
  • 管理数据
  • 汇总数据
  • 邻近分析

示例

  • 作为环境科学家,您可以在数百万静态传感器记录的数据集中识别全国范围内达到高臭氧水平的时间和位置。
  • 作为零售业分析人员,您可以在指定的时间范围内处理数百万个匿名手机位置,以确定商店位置一定距离内的潜在消费者数量。
  • 作为 GIS 分析师,您可以运行循环大数据分析,以每五分钟检查一次数据源是否存在新要素,并在满足某些属性或空间条件时发送通知。

大数据分析的组成部分

大数据分析包含三个部分:

  • 资源
    • 数据源可用于在大数据分析中加载静态或近乎实时的数据。 您可以使用许多数据源类型。 有关源和可用源类型的详细信息,请参阅什么是数据源?
    • 分析可以包含多个数据源。
  • 工具
    • 工具将处理或分析从源加载的数据。
    • 大数据分析可以包含多种工具。
    • 工具可以相互连接,其中一个工具的输出表示下一个工具的输入。
  • 输出
    • 输出可定义应对大数据分析处理的结果执行的操作。
    • 有许多输出选项可供选择,其中包括将要素存储到新要素图层或现有要素图层中、将要素写入 Amazon S3Azure Blob 存储中的云图层等。 有关详细信息,请参阅输出简介分析输出的基础知识
    • 可以将工具或源的结果发送到多个输出。

处理输出

在运行实时或大数据分析时,该分析将生成一个或多个输出。 根据配置的输出类型,您可以通过多种方法在 ArcGIS Velocity 中访问这些输出并与其进行交互。

ArcGIS 要素图层和流图层输出

当实时或大数据分析创建要素图层或流图层输出时,您可以在 Velocity 中与这些输出图层进行交互。 请注意,如果尚未运行分析,则无法使用这些方法。

在分析中访问要素图层和流图层输出

编辑已运行并成功创建输出图层的分析时,右键单击分析编辑器中的要素或流图层节点以查看可用选项,包括访问节点属性、更改节点标注、查看项目详细信息、在地图查看器或场景查看器中打开图层、对节点数据进行采样、移除节点等。

从图层页面访问要素图层和流图层输出

通过实时和大数据分析创建的所有要素图层、地图图像图层和流图层将显示在 Velocity 中的图层页面中。 在此处,可以编辑现有图层、在地图查看器中查看这些图层、访问和查看项目详细信息、在 REST 服务目录中打开图层,以及删除和共享图层。

Amazon S3Azure Blob Store 输出

大数据分析可将输出要素写入 Amazon S3Azure Blob Store 云储存。 大数据分析完成后,数据将显示在相应的云位置中。 如果未按预期显示输出,请检查日志选项卡中的分析日志。

所有其他输出

大数据分析的其他输出类型包括电子邮件Kafka。 通过这些输出,Velocity 与所选输出建立连接,并将事件数据相应地发送到输出。

运行大数据分析(计划)

可以将大数据分析配置为采用以下两种方式之一运行:运行一次计划运行。 对运行设置进行更改时,请记住单击应用以将更改保存到大数据分析。

运行一次

配置为仅运行一次的大数据分析在启动大数据分析时运行。 分析将执行定义的处理和分析,然后在完成后恢复为停止状态。 该分析与源、实时分析和计划大数据分析不同,这些分析在启动后会继续运行。 运行一次为大数据分析的默认选项。

“计划”按钮运行设置“运行一次”选择

计划

大数据分析可以计划为定期运行(例如,每 5 分钟)或按循环时间运行(例如,每天凌晨 4 点)。

“计划”按钮运行设置“每 5 分钟运行一次”选择

如果将大数据分析配置为以计划方式运行,则启动分析后,除非停止分析,否则该分析将保持启动状态。 与实时分析不同,启动的计划大数据分析只会在执行分析时消耗资源。 例如,如果将大数据分析计划为定期运行(每小时一次),并且分析需要四分钟才能完成,则大数据分析仅会在执行分析的四分钟时间消耗资源(每小时一次)。

有关如何计划大数据分析的详细信息,请参阅计划循环大数据分析

执行近乎实时的分析

计划大数据分析可用于执行近乎实时的分析,其中大数据分析仅处理自上次运行以来添加至要素图层的最新要素。 有关配置近乎实时的分析的用例和选项的详细信息,请参阅执行近乎实时的分析

生成最新的信息产品

或者,可以使用计划大数据分析以用户定义的间隔生成最新的信息产品。 有关此类工作流的详细信息以及用例和选项的示例,请参阅生成最新的信息产品

运行设置

通过大数据分析,您可以调整运行设置。 这些设置将控制由 Velocity 部署为处理分析提供的资源分配。 更改运行设置后,请务必保存分析。

通常,为分析提供的资源越多,则其完成处理并生成结果的速度越快。 在处理大型数据集或复杂分析时,这是最佳做法,并且有时还必须增加可用于分析的资源分配。

相反,如果您拥有一个简单分析,该分析包含较少要素,并且可以使用中(默认)设置成功运行,请考虑将运行设置资源分配减小为设置。 由此即可在 Velocity 部署中运行更多的源、实时分析和大数据分析。

大数据分析资源分配运行设置

注意事项和限制

使用大数据分析时,需要牢记几点注意事项:

  • 大数据分析进行优化后,可处理大量数据并汇总模式和趋势,与输入要素的数量相比,输出要素或记录的数量通常会减少。
  • 大数据分析并未针对在单次运行中加载或编写大量要素的功能进行优化。 使用大数据分析编写数千万个(或更多)要素可能会导致运行时间较长。
  • 建议的最佳做法是使用大数据分析进行汇总和分析,而不是复制数据。
  • ArcGIS Velocity Standard 和 Advanced 许可提供的大型运行设置仅可与运行一次设置配合使用。