设计大数据分析

在本课程中,您将学习如何使用 ArcGIS Velocity 创建大数据分析。 您将担当交通规划师的角色,以更好地了解多年来涉及骑行者的机动车事故。 您的发现将用于帮助确定在何处建设自行车友好型基础设施(例如自行车道和道路障碍)将对骑行者安全性带来最大影响。

本课程中使用的数据可以从纽约市 (NYC) 开放数据站点下载。 从该站点以 CSV 格式下载了超过 150 万条记录的完整数据集。 在本课程中,CSV 文件已托管在公共 Amazon S3 存储段中,并在以下步骤中提供了连接信息。

在执行这些步骤时,您将创建大数据分析和数据源,配置各种工具,并生成输出要素图层,其中包含可在 web 地图中查看的分析结果。

本课程适用于初学者。 您必须拥有具有 ArcGIS Velocity 访问权限的 ArcGIS Online 帐户。 完成本课程的预计时间为 30 分钟。

创建大数据分析

首先,您将在 ArcGIS Velocity 中创建一个大数据分析。

  1. 在 web 浏览器中,打开 ArcGIS Velocity,然后使用您的 ArcGIS Online 凭据进行登录。

    为了获得最佳体验,请使用 Google ChromeMozilla Firefox

    注:

    如果登录时遇到问题,请与 ArcGIS Online 管理员联系。 可能需要为您分配具有 ArcGIS Velocity 使用权限的 ArcGIS Online 角色。 有关创建角色和分配用户的详细信息,请参阅创建角色和分配用户主题。

  2. 在主菜单中,单击分析下的大数据访问大数据分析页面。

    大数据分析页面上,您可以查看现有大数据分析并创建新的大数据分析,也可以开始和停止、检查状态、编辑现有大数据分析、克隆和删除大数据分析。

  3. 单击创建大数据分析以打开用于创建新大数据分析的配置向导。

配置数据源

配置大数据分析时,首先要选择数据源的类型。

  1. 选择一种数据源窗口上,单击类别下的查看全部

    “选择一种数据源”窗口

    注:

    所有大数据分析都必须至少有一个数据源作为输入。

  2. 云选项下,选择 Amazon S3

    云数据源选项

    有关云提供商的详细信息,请参阅 Azure Blob StoreAzure Cosmos DBAmazon S3 中的提供商网站。

  3. 配置 Amazon S3 窗口中,针对配置 Amazon S3 存储段步骤,如下设置参数:
    1. 对于访问模式,选择公共
    2. 对于存储段名称,键入 arcgis-velocity-public
    3. 对于区域,选择美国西部(俄勒冈州)
    4. 对于文件夹路径(可选),键入 /nyc-motor-vehicle-collisions
    5. 对于数据集,键入 NYPD_Motor_Vehicle_Collisions.csv

    Amazon S3 数据源配置向导

  4. 单击下一步以应用 Amazon S3 存储段参数。

    数据源验证并返回您将在下一部分中查看和确认的采样事件数据。

确认数据方案

设置 Amazon S3 存储段参数后,您现在将确认数据方案。 在配置数据源时,定义加载数据的方案非常重要。 Velocity 在对源数据进行采样时将定义该方案,包括数据格式、字段分隔符、字段类型和字段名称。

  1. 确认方案步骤中,查看并确认数据的方案与下图类似。

    确认数据源的方案

    Velocity 测试了与数据源的连接,对前几条数据记录进行了采样,并根据采样记录解释了数据的方案。 此时,可以根据需要更改数据格式、字段分隔符、字段类型和字段名称,以确保方案有效。 但是,在本课程中,您将接受默认的方案参数。

  2. 单击下一步以确认方案已采样。

识别关键字段

接下来,您将配置关键字段,以便 Velocity 可以正确构建数据的几何、日期信息和唯一标识符。

  1. 识别关键字段步骤中,按如下所示配置位置日期和时间追踪参数:
    1. 对于位置类型,选择 X/Y 字段
    2. 对于 X(经度),选择经度
    3. 对于 Y(纬度),选择纬度
    4. 对于 Z(高度),选择
    5. 对于空间参考,接受默认 GCS WGS 1984
    6. 对于您的数据是否包含日期字段?,选择

      此参数可用于设置数据源中的开始和结束日期或日期/时间字段。 如果传入数据具有字符串格式的日期信息,则需要日期格式。 有关详细信息,请参阅日期和时间参数。 对于本课程,您将不指定日期或时间信息。

    7. 对于追踪 ID,选择数据不具有追踪 ID

      此参数可用于在数据源中指定追踪 ID 字段。 有关追踪 ID 的详细信息,请参阅追踪 ID。 对于本课程,您将不定义追踪 ID。

      识别数据源中的关键字段

  2. 单击完成以创建一个新的数据源。

    新的 Amazon S3 数据源随即添加到分析编辑器中。

创建大数据分析

数据源现已添加到分析编辑器中,您现在将创建大数据分析。

  1. 新建大数据分析页面上,单击创建分析
  2. 创建分析窗口中,对于标题,键入 NYC Cyclist Accidents
  3. 对于摘要,键入 Process motor vehicle accidents to identify and analyze those involving cyclists
  4. 对于文件夹,选择要在其中创建大数据分析的文件夹。

    “创建分析”窗口

  5. 单击创建分析创建分析。

    在创建分析后,分析编辑器顶部的工具栏将提供其他选项和控件,用于保存、启动、计划和运行分析设置。

将工具添加到分析

创建新的分析后,您现在将向该分析中添加工具,以对纽约市骑行者事故数据进行大数据分析。 使用 Velocity,您可以配置一个分析管道,其中一个步骤的输出是下一个步骤的输入。 现在,您将配置顺序工具,从而更好地了解涉及骑行者受伤的机动车事故。

首先,您将添加计算字段工具,然后添加一个名为 TotalCyclistCasualties 的字段,用于为数据源中的每条单独记录计算 NUMBER_CYCLIST_INJUREDNUMBER_CYCLIST_KILLED 字段的总和。

  1. 从左侧的添加节点菜单中,单击管理数据文件夹,然后选择计算字段工具。

    管理数据文件夹中的计算字段工具

    “计算字段”工具将添加到分析编辑器中。

  2. Amazon S3 数据源连接到计算字段工具。

    Amazon S3 数据源连接到计算字段工具

    必须连接这两个节点,以允许计算字段工具了解将在下一步中使用的源数据。

  3. 双击计算字段工具以访问属性。
  4. 计算字段工具进行如下配置:
    1. 确保已选择新建字段选项。
    2. 字段列中,键入 TotalCyclistCasualties
    3. 类型列中,单击下拉列表并选择 Int64

      这样将指定字段类型为一个 64 位整数字段。

    4. 单击配置 Arcade 表达式按钮以打开配置 Arcade 表达式窗口。
    5. 在左侧窗格中,使用 Arcade 表达式构建器或键入 $feature.NUMBER_CYCLIST_INJURED+$feature.NUMBER_CYCLIST_KILLED
    6. 单击运行以运行 Arcade 表达式。

      运行结果应与下图类似。

      配置 Arcade 表达式窗口

    7. 单击确定以保存表达式。
    8. 添加字段计算列,单击添加以添加新字段。

      已配置的“计算字段”工具

    9. 单击应用以应用属性。

      使用现已配置并其连接到 Amazon S3 数据源的计算字段工具,您现在将过滤纽约市机动车事故数据,以识别具有有效位置坐标的导致骑行者受伤或死亡的事故。

  5. 在分析编辑器中,单击保存,保存当前的大数据分析配置。
  6. 添加节点菜单中,单击管理数据文件夹,然后选择按表达式过滤工具。

    新的按表达式过滤工具随即添加到分析编辑器中。

  7. 按表达式过滤工具拖放到计算字段工具的右侧,然后连接两个节点。

    添加到模型的按表达式过滤工具

  8. 双击按表达式过滤工具,打开属性,配置如下:
    1. 单击配置 Arcade 表达式按钮以打开配置 Arcade 表达式窗口。
    2. 在左侧窗格中,使用 Arcade 表达式构建器或键入 $feature.TotalCyclistCasualties>0&$feature.LATITUDE>0

      此数据集中存在坐标无效的记录。 可以通过过滤出纬度值小于或等于 0 的记录来忽略这些记录。

    3. 单击运行以运行 Arcade 表达式。

      运行结果应与下图类似。

      配置 Arcade 表达式窗口

    4. 单击确定以返回到按表达式过滤工具属性。
    5. 单击应用以应用表达式。

    添加过滤器后,您将添加另一个工具聚合点,该工具将在空间上聚合点,以将涉及骑行者受伤或死亡的事故数表示为正六边形图格。

  9. 添加节点菜单中,单击汇总数据文件夹,然后选择聚合点工具。

    “聚合点”工具将添加到分析编辑器中。

  10. 在分析编辑器中,单击保存,保存更新的大数据分析配置。
  11. 聚合点工具拖放到按表达式过滤工具的右侧,然后连接两个节点。

    添加到模型的按表达式过滤工具

  12. 双击聚合点工具,打开属性,配置如下:
    1. 对于将点聚合到,选择图格
    2. 对于图格类型,选择六边形
    3. 对于图格大小,键入 250,然后将测量单位设置为
    4. 对于汇总字段中的属性,选择 TotalCyclistCasualties
    5. 对于统计数据,选择总和
    6. 对于输出字段名称,保留默认值 TotalCyclistCasualties_Sum
    7. 单击添加以添加汇总字段。

      聚合点工具属性

    8. 单击应用以应用属性。

      您已成功添加三个用于处理事故数据的分析工具。 接下来,您将添加一个输出。

将输出添加到分析

创建数据源和分析工具后,最后一步是添加一个输出,将处理后的事件数据发送到要素图层,该图层可以在 web 地图中可视化。

  1. 添加节点菜单中,单击输出文件夹,然后选择要素图层(新)输出。

    配置要素图层(新)窗口随即打开。

  2. 配置要素图层步骤中,按如下方式配置属性:
    1. 对于在时空要素图层选项中存储数据,打开切换按钮。
    2. 对于数据存储方法,选择添加所有新要素

      如果您正在使用已定义追踪 ID 的数据源,则将使用仅保留每个追踪 ID 值的最新要素方法。 使用这种存储方法,每次接收到某个追踪 ID 的新要素时,与该追踪 ID 相关联的已存储要素都将替换为新要素。

    3. 对于每次运行分析时,选择替换现有要素和方案

      配置新要素图层输出

      如果选择替换现有要素和方案,则每次运行大数据分析时,输出要素图层中的要素和方案都将被覆盖。 在创建大数据分析以及在分析运行之间添加、移除或更改工具时,此功能将非常有用。 或者,如果您希望在每次运行大数据分析时附加记录,则保留现有要素和方案选项将十分有用。

  3. 单击下一步
  4. 保存步骤中,对于要素图层名称,键入 Cyclist_Accident_Aggregation
  5. 对于要素图层摘要,键入 NYC cyclist accident aggregated feature layer
  6. 对于文件夹,选择用于保存要素图层的文件夹。

    保存新的要素图层输出

  7. 单击完成以保存新输出。

    新的 Cyclist_Accident_Aggregation 输出将添加到分析编辑器中。

  8. Cyclist_Accident_Aggregation 输出拖放到聚合点工具的右侧,然后连接两个节点。

    您可以移动节点以使模型在视觉上更具吸引力。

    最终配置的大数据分析
  9. 单击保存,保存 NYC Cyclist Accidents 大数据分析。

开始大数据分析

现在您已经成功配置了具有所有必要节点的大数据分析,您将启动分析并运行一次。 分析将使用定义的方案从 CSV 文件中加载超过 150 万条记录,通过各种工具处理事件数据,并将分析输出写入新的要素图层。

  1. 在分析编辑器中,单击开始以启动 NYC Cyclist Accidents 大数据分析。

    开始大数据分析

    开始按钮文本将过渡为初始化,然后过渡为停止,表明分析已经开始并且正在运行。

    注:

    启动后,Velocity 中的 实时分析将保持运行状态。 另一方面,大数据分析将一直运行到分析完成并自动停止。 使用分析编辑器中的计划下拉菜单中的可用选项,可以将大数据分析配置为以循环方式运行。 选项提供了一次、定期或重复运行分析的功能。 有关如何计划大数据分析的详细信息,请参阅计划循环大数据分析

  2. 监控分析,直到停止按钮变为开始为止。

    停止按钮变为开始表示分析已运行一次,现已完成且不再运行。 此外,您还可以通过大数据分析页面监控大数据分析的状态。

在 web 地图中浏览分析结果

在上一部分中开始大数据分析时,将创建一个输出要素图层。 现在,您将在 web 地图中打开该输出要素图层,并查看有关纽约市骑行者事故数据的大数据分析结果。

  1. 在主菜单中,单击输出下的图层以打开图层页面。
  2. 在列表中找到 Cyclist_Accident_Aggregation 要素图层,然后单击在 Map Viewer 中打开以在 web 地图中查看该图层。

    在 Map Viewer 中打开要素图层

    注:

    在分析运行并生成输出之前,由实时和大数据分析创建的输出图层不会显示在图层页面上。

  3. 放大到美国纽约市中的数据范围。
  4. 将底图更改为深灰色画布
  5. Cyclist Accident Aggregation 图层上,单击更改样式,对于选择要显示的属性步骤,从下拉菜单中选择计数
  6. 对于选择绘制样式步骤,选择计数和数量(颜色),然后单击选项
  7. 单击符号,将色带更改为红色/橙色/白色色带,然后单击确定
  8. 选中分类数据复选框。
  9. 使用下拉菜单中,选择标准差并将类大小设置为 1 个标准差。
  10. 接受其他默认属性,单击确定,然后单击完成

    在 web 地图中添加并符号化的要素图层

  11. 在 web 地图上平移和缩放以浏览大数据分析的结果。 确定与骑行者相关的伤害和死亡较多和较少的区域。

接下来的步骤

在本课程中,您创建并运行了一个大数据分析,其中分析了大约 150 万起骑行者的事故,以识别纽约市中发生事故次数最多的区域。 通过这些结果,您可以针对新的自行车基础设施在何处将产生最大影响做出更明智决策。

当您继续使用 ArcGIS Velocity 时,可以使用其他资源,包括最新版本中的新特性基本 ArcGIS Velocity 词汇大数据分析实时分析使用 Arcade 表达式