配置输入数据

ArcGIS Velocity 将使用源或数据源来提取实时和大数据分析的数据。 源是实时数据流;当实时分析开始时,数据源加载一次静态或接近实时的数据,使其可用于快速连接、丰富和地理围栏。 有关详细信息,请参阅使用源使用数据源

源应用于利用实时数据或用作实时分析中分析工具的连接数据。

Velocity 提供了简化的上下文工作流,以优化在根据源或数据源配置输入数据时的用户体验。 此配置工作流在多种源和数据源类型中通用。

设置连接和配置参数

配置源或数据源时的第一步是定义所需的连接和配置参数,以使 Velocity 可以连接到数据。 可用参数取决于源或数据源类型。

例如,在配置 Kafka 源时,请填充代理主题参数以连接到数据。 在配置 Amazon S3 数据源时,必须提供所有相关的连接参数值,才能成功建立连接。

配置参数

接下来,Velocity 将使用提供的配置参数来验证连接。 然后 Velocity 将尝试对数据进行采样并派生数据的方案。 如果连接不成功并且未成功派生数据,请相应地更新配置参数,然后重试。

确认方案

确认方案步骤显示返回的方案以及数据样本。 根据数据格式,可以使用其他参数以将数据解析调整为有效方案。

对于确认方案步骤,您可以查看和调整字段名称、字段类型和数据格式。 此外,可以在调整数据格式或数据格式参数后,再次派生数据以获取新样本或派生方案。 由此可确保 Velocity 能够标识源或数据源提取的数据格式。

HTTP 轮询器确认方案步骤

自动采样和方案派生

对于确认方案步骤,Velocity 将使用您在上一步中设置的连接和配置参数连接到指定的源或数据源,并检索采样数据。

根据采样数据,Velocity 将自动派生数据格式以及由字段名称和字段类型组成的方案。 对于某些数据格式,还会标识几何以及日期时间关键字段。

更改字段类型和字段名称

Velocity 将显示基于已获取数据样本的方案派生所标识的字段类型和字段名称。

可以对派生方案进行以下调整:

  • 更改字段类型
    • 使用字段名称旁的下拉箭头以更改字段类型。
    • 在使用某些源或数据源类型(例如要素图层源或数据源)时,无法更改字段类型。
    • 由于以下原因,在更改字段类型时,请谨慎操作:
      • 任何字段类型都可以更改为字符串类型字段;但是,如果您尝试将包含字母的字符串类型字段更改为整型字段,则在数据获取期间会出现错误。
      • 不推荐将字段从浮点型(Float32 或 Float64)更改为整型(Int32 或 Int64)。 更改字段类型不适用于数值的即时转换。 对于某些格式,从浮点型降级为整型会导致该值被完全跳过。
  • 更改字段名称
    • 根据需要修改字段名称。
  • 禁用字段
    • 要禁用字段,请取消选中字段类型旁边的复选框。 从源中提取数据时,该字段将被忽略。
    • 出于速度和容量性能方面的考虑,最佳做法是禁用所有不需要的字段。

注:

在调整字段类型和字段名称之前,请执行数据格式参数修改和方案重采样。 如果数据格式或数据格式参数发生更改,并且需要方案派生,则所做的任何更改都将被覆盖。

更改数据格式和数据格式参数

Velocity 可以使用来自多种源和数据源类型的各种数据格式的数据。 某些源和数据源类型(例如 HTTP 轮询器)可以使用多种格式的数据。 其他源和数据源类型(例如要素图层)具有固定的数据格式。

支持以下数据格式:

  • 分隔
  • JSON
  • GeoJSON
  • EsriJSON
  • RSS
  • GeoRSS
  • Shapefile(仅限大数据分析)
  • Parquet(仅限大数据分析)

Velocity 将自动尝试派生数据格式。 但是,您可以根据需要更改派生数据格式。

此外,某些数据格式具有相应参数,可以根据 Velocity 将数据解析为方案的方式对这些参数进行调整。 例如,分隔数据格式具有两个参数:字段分隔符和标题行。

有关各种格式以及与每种数据格式相关联的参数的详细信息,请参阅受支持的数据格式

更改数据格式参数并派生方案

Velocity 将使用派生的数据样本来尝试定义数据的格式、方案和参数。

可以修改数据格式参数,或指定其他数据格式。 为此,请更改数据格式属性,然后单击派生方案以便根据所做的更改再次派生数据。 这些参数将根据派生的数据相应地更新。

例如,如果您使用多级嵌套 JSON 连接到 JSON 源,并且您仅希望从特定 JSON 节点采集数据,或者希望展平多级 JSON 以检索所有属性值,则可以使用 root nodeflatten 参数来配置 Velocity 以直接与 JSON 数据进行交互。

未返回采样数据

如果 Velocity 中未返回采样数据,请尝试以下任意选项:

  • 验证连接和配置参数是否正确。
  • 当数据正在流动或可用时,请单击派生方案以进行重新采样。
  • 通过复制记录提供您自己的样本。 可以检查样本的数据格式并派生出有效的模式。
  • 手动定义数据的格式和方案。

识别关键字段

为新的源或数据源配置输入数据的下一步是标识关键字段。 可以使用关键字段从字段中解析要素几何,根据字符串构建日期,指定开始和结束时间字段以及将字段指定为追踪 ID。

位置

对于许多源和数据源类型,必须定义 Velocity 根据观测值或记录确定要素几何的方式。 可以使用单个几何字段或 X/Y 字段定义几何。 或者,可以加载不含位置的表格数据,也可以不指定几何字段。

有关配置位置参数的详细信息,请参阅位置参数

日期和时间

源或数据源中的要素可能具有可用的日期和时间字段。 如果您指定了数据具有日期字段,则可能还需要指定日期格式。 系统提供了两个选项:新纪元值其他(字符串)。 如果您选择其他(字符串),则必须指定日期格式字符串值,以便 Velocity 将字符串解析为日期。

此外,可以选择开始时间关键字段值。 无需设置分析和处理数据的开始时间和结束时间。 但是,实时分析和大数据分析中的某些工具需要标识开始时间或者开始时间和结束时间,才能执行时间分析。

有关配置日期和时间参数的详细信息,请参阅日期和时间参数

追踪

追踪 ID 关键字段是数据中将要素与特定实体相关联的唯一标识符。 例如,一辆卡车可以通过它的车牌号来进行识别,而一架飞机可以通过指定的航班号进行识别。 这些标识符可用作追踪 ID,以便追踪与特定实际实体或一组事故相关联的要素。

无需设置追踪 ID 字段,即可分析和处理数据。 但是,实时和大数据分析中的某些工具需要标识源或数据源的追踪 ID。

计划轮询间隔

虽然许多源以流式传输数据,但某些源类型需要定期检索数据。 定义的时间间隔决定了源连接到数据源以检索数据的频率。 可以为以下源类型设置轮询间隔:

有关源轮询间隔的配置和注意事项的详细信息,请参阅计划源轮询间隔

保存

最后一个步骤是提供源名称以及选择性地提供源的摘要;然后保存源。