设计大数据分析

本课程中的步骤概述了如何使用 ArcGIS Velocity 创建大数据分析。 该示例采用了交通规划员的角色,目的是更好地理解涉及骑行者的机动车事故情况,并分析多年的数据。 这些发现将用于帮助确定在何处建设自行车友好型基础设施(例如自行车道和道路障碍)将对骑行者安全性带来最大影响。

在执行这些步骤时,您将创建大数据分析,配置其数据源和工具,并生成输出要素图层,其中包含可在 Web 地图中查看的分析结果。

本课程适用于初学者。 您必须拥有具有 Velocity 访问权限的 ArcGIS Online 账户。 完成本课程的预计时间为 30 分钟。

创建大数据分析

开始时,请执行以下操作:

  1. 在 Web 浏览器中打开 ArcGIS Velocity,并使用已授予 Velocity 许可的 ArcGIS Online 账户登录。

    为了获得最佳体验,请使用 Google ChromeMozilla Firefox

    注:

    如果登录时遇到问题,请联系您的 ArcGIS 组织管理员。 可能需要为您分配具有 ArcGIS Velocity 使用权限的 ArcGIS Online 角色。

    了解有关角色创建和用户分配的详细信息

    随即显示主页页面。

  2. 单击分析下的大数据选项卡,访问大数据分析页面。
    提示:

    首页入门部分在大数据分析下方设有创建大数据分析快捷按钮。

    大数据分析页面,您可以对现有的大数据分析执行以下操作:

    • 查看
    • 创建
    • 起点
    • 停止
    • 检查状态
    • 编辑
    • 克隆
    • 删除
  3. 单击创建大数据分析

    配置向导打开并显示数据源类型选项。

您已登录 Velocity 并开始在配置向导中创建大数据分析。 接下来的步骤是配置数据源。

配置数据源

本课程中使用的数据可以从纽约市 (NYC) 开放数据站点下载。 从该站点以 CSV 格式下载了超过 150 万条记录的完整数据集。 在本课程中,CSV 文件已托管在公共 Amazon S3 存储段中,并在以下步骤中提供了连接信息。

大数据分析需要一个数据源。 按照以下步骤配置数据源:

  1. 选择一种数据源步骤中,单击类别下的查看全部
    云数据源类型
    注:

    所有大数据分析都必须至少有一个输入数据源。

  2. 云选项下,选择 Amazon S3
    云数据源选项

    了解有关 Azure Blob StoreAzure Cosmos DBAmazon S3 的详细信息。

  3. 配置 Amazon S3 对话框中,针对配置 Amazon S3 存储段步骤,如下设置参数:
    1. 对于访问模式,选择公共
    2. 对于存储段名称,键入 arcgis-velocity-public
    3. 对于区域,选择美国西部(俄勒冈州)
    4. 对于文件夹路径(可选),键入 /nyc-motor-vehicle-collisions
    5. 对于数据集,键入 NYPD_Motor_Vehicle_Collisions.csv
    配置向导中的 Amazon S3 数据源步骤
  4. 单击下一步以应用 Amazon S3 存储段参数。

    数据源验证并返回采样事件数据以供查看。 接下来的步骤是确认数据方案。

确认数据方案

设置 Amazon S3 存储段参数后,即可确认数据方案。 在配置数据源时,定义加载数据的方案非常重要。 Velocity 定义了对源数据进行采样时所用的方案,包括数据格式字段分隔符字段类型字段名称选项的值。

  1. 确认方案步骤中,查看并确认数据的方案与下图类似:
    确认数据源的方案

    Velocity 测试了与数据源的连接,对前几条数据记录进行了采样,并根据采样记录解释了数据的方案。 可以根据需要更改数据格式字段分隔符字段类型字段名称值,确保方案有效。 本课程中将接受默认的方案参数。

  2. 单击下一步以确认方案已采样。

配置向导将继续进行到下一步骤。

识别关键字段

在这一步骤中,您需要为空间和时间功能指定字段,选择位置日期和时间追踪参数的值,以便 Velocity 可以正确构建数据的几何、日期信息和唯一标识符。

完成以下步骤,识别关键字段:

  1. 对于位置类型,选择 X/Y 字段
  2. 对于 X(经度),选择经度
  3. 对于 Y(纬度),选择纬度
  4. 对于 Z(高度),选择
  5. 对于空间参考,保留默认值 GCS WGS 1984
  6. 对于您的数据是否包含日期字段?,选择

    此参数可用于设置数据源中的开始和结束日期或日期/时间字段。 如果传入数据具有字符串格式的日期信息,则需要日期格式。 本课程中不指定日期或时间信息。

    了解有关日期和时间参数的详细信息

  7. 对于追踪 ID,选择数据不具有追踪 ID

    此参数可用于在数据源中指定追踪 ID 字段。 本课程中无需定义追踪 ID。

    识别数据源中的关键字段
  8. 单击完成以创建一个新的数据源。

新的 Amazon S3 数据源随即添加到分析编辑器中。

创建大数据分析

数据源现已添加到分析编辑器中,您可以创建大数据分析。

  1. 新建大数据分析页面上,单击创建分析

    创建分析对话框随即显示。

  2. 对于标题,输入 NYC Cyclist Accidents
  3. 对于摘要,键入 Process motor vehicle accidents to identify and analyze those involving cyclists
  4. 对于文件夹,选择要在其中创建大数据分析的文件夹。
    创建分析对话框
  5. 单击创建分析创建分析。

分析编辑器重新出现,并且工具栏中显示更多选项。

将工具添加到分析

创建新的分析后,您可以向其中添加工具,以对纽约市骑行者事故数据进行大数据分析。 Velocity 允许您配置分析管道。

首先,您将添加计算字段工具,然后添加 TotalCyclistCasualties 字段,用于为数据源中的每条单独记录计算 NUMBER_CYCLIST_INJUREDNUMBER_CYCLIST_KILLED 字段的总和。

完成以下步骤,配置顺序工具,从而更好地了解涉及骑行者受伤的机动车事故。

  1. 添加节点菜单中,单击管理数据,然后选择计算字段工具。
    管理数据文件夹中的计算字段工具

    计算字段工具将添加到分析编辑器中。

  2. Amazon S3 数据源连接到计算字段工具。
    Amazon S3 数据源已连接到“计算字段”工具

    如果需要,请在分析编辑器中重新定位工具和数据源,以便于连接。 连接可确保计算字段工具了解要使用的数据源。

  3. 双击计算字段工具访问其属性。
  4. 单击添加字段计算,然后选择新字段
  5. 对于字段,键入 TotalCyclistCasualties
  6. 单击类型下拉箭头,然后选择 Int64

    这样将指定字段类型为一个 64 位整数字段。

  7. 单击配置 Arcade 表达式按钮,打开配置 Arcade 表达式对话框。
    1. 使用 Arcade 表达式构建器,并输入 $feature.NUMBER_CYCLIST_INJURED+$feature.NUMBER_CYCLIST_KILLED
    2. 单击运行以运行 Arcade 表达式。

      结果应类似于以下示例:

      配置 Arcade 表达式对话框
    3. 单击确定以保存表达式。
    4. 单击添加字段计算,将新的字段计算添加到计算字段工具中。
      提示:

      如有需要,可以添加更多的字段计算。 本课程只使用了一个字段计算。

      已配置的“计算字段”工具与 Arcade 表达式
    5. 单击应用,将计算应用到计算字段工具的属性。

    计算字段工具已配置并与 Amazon S3 数据源连接。 接下来,您可以过滤纽约市机动车事故数据,识别具有有效位置坐标的导致骑行者受伤或死亡的事故。

  8. 在分析编辑器中,单击保存,保存大数据分析配置。
  9. 添加节点菜单中,单击管理数据,然后选择按表达式过滤工具。

    按表达式过滤工具随即添加到分析编辑器中。

  10. 按表达式过滤工具拖放到计算字段工具后,然后连接两个节点。
    添加到模型的按表达式过滤工具
  11. 双击按表达式过滤工具,打开属性,配置如下:
    1. 单击配置 Arcade 表达式按钮,打开配置 Arcade 表达式对话框。
    2. 使用 Arcade 表达式构建器或键入 $feature.TotalCyclistCasualties>0&$feature.LATITUDE>0

      此数据集中存在坐标无效的记录。 可以通过过滤出纬度值小于或等于 0 的记录来忽略这些记录。

    3. 单击运行以运行 Arcade 表达式。

      结果应类似于以下示例:

      使用表达式配置 Arcade 表达式对话框
    4. 单击确定以返回到按表达式过滤工具属性。
    5. 单击应用以应用表达式。

      已添加过滤器。 接下来,您将添加聚合点工具,该工具将在空间上聚合点,以将涉及骑行者受伤或死亡的事故数表示为正六边形图格。

  12. 添加节点菜单中,单击汇总数据,然后选择聚合点工具。

    聚合点工具将添加到分析编辑器中。

  13. 在分析编辑器中,单击保存,保存更新的大数据分析配置。
  14. 聚合点工具拖放到按表达式过滤工具后,然后连接两个节点。
    添加到模型的按表达式过滤工具
  15. 双击聚合点工具,打开属性,配置如下:
    1. 对于将点聚合到,选择图格
    2. 对于图格类型,选择六边形
    3. 对于图格大小,键入 250,然后将测量单位设置为
    4. 保留时间步长部分不变,在摘要字段部分,单击添加摘要字段

      属性窗格随即显示。

    5. 对于属性,选择 TotalCyclistCasualties
    6. 对于统计数据,选择总和
    7. 对于输出字段名称,保留默认值 TotalCyclistCasualties_Sum
    8. 单击添加摘要字段,添加汇总字段。
      聚合点工具属性窗格
    9. 单击应用,应用工具属性。

您已成功添加三个用于处理事故数据的分析工具。 接下来,您将添加一个输出。

将输出添加到分析

创建数据源和分析工具后,本课程的最后一步是添加一个输出,将处理后的事件数据发送到要素图层,该图层可以在 Web 地图中可视化。

完成以下步骤添加输出:

  1. 添加节点菜单中,单击输出,然后选择要素图层(新)

    随即显示配置要素图层(新)对话框。

  2. 配置要素图层步骤中,按如下方式配置属性:
    1. 开启在时空要素图层中存储数据选项。
    2. 对于数据存储方法,选择添加所有新要素

      如果您正在使用已定义追踪 ID 的数据源,则将使用仅保留每个追踪 ID 值的最新要素方法。 使用这种存储方法,每次接收到某个追踪 ID 的新要素时,与该追踪 ID 相关联的已存储要素都将替换为新要素。

    3. 对于每次运行分析时,选择替换现有要素和方案
      新要素图层输出的属性

      如果选择替换现有要素和方案,则每次运行大数据分析时,输出要素图层中的要素和方案都将被覆盖。 在创建大数据分析以及在分析运行之间添加、移除或更改工具时,此功能将非常有用。 或者,如果您希望在每次运行大数据分析时附加记录,则保留现有要素和方案选项将十分有用。

  3. 单击下一步
  4. 保存步骤中,对于要素图层名称,键入 Cyclist_Accident_Aggregation
  5. 对于要素图层摘要,键入 NYC cyclist accident aggregated feature layer
  6. 对于文件夹,选择用于保存要素图层的文件夹。
    保存新的要素图层输出
  7. 单击完成以保存新输出。

    新的 Cyclist_Accident_Aggregation 输出将添加到分析编辑器中。

  8. Cyclist_Accident_Aggregation 输出拖放到聚合点工具后,然后连接两个节点。
    提示:

    您可以移动节点以使模型在视觉上更具吸引力。

    最终配置的大数据分析
  9. 单击保存,保存 NYC Cyclist Accidents 大数据分析。

开始大数据分析

现在您已经成功配置了具有所有必要节点的大数据分析,您将启动分析。 分析将使用定义的方案从 CSV 文件中加载超过 150 万条记录,通过各种工具处理事件数据,并将分析输出写入新的要素图层。

请完成下列步骤运行一次分析:

  1. 在分析编辑器中,单击开始以启动 NYC Cyclist Accidents 大数据分析。
    开始大数据分析

    开始按钮将变为停止初始化按钮,随后变为停止按钮,指示分析已启动并正在运行。

    注:

    启动后,Velocity 中的 实时分析将保持运行状态。 另一方面,大数据分析将一直运行到分析完成并自动停止。 使用分析编辑器中的计划下拉菜单中的可用选项,可以将大数据分析配置为以循环方式运行。 选项提供了一次、定期或重复运行分析的功能。

    了解如何计划循环大数据分析

  2. 监控分析,直到停止按钮变为开始为止。

    这表示分析已运行一次,现已完成且不再运行。 此外,您还可以通过大数据分析页面监控大数据分析的状态。

在 Web 地图中浏览分析结果

在上一部分中开始大数据分析时,将创建一个输出要素图层。 现在,您将在 Web 地图中打开该输出要素图层,并查看有关纽约市骑行者事故数据的大数据分析结果。

  1. 在主菜单中,单击输出下的图层选项卡,打开图层页面。
  2. 在列表中找到 Cyclist_Accident_Aggregation 要素图层,然后单击在 Map Viewer 中打开图标,在 Web 地图中查看该图层。
    在 Map Viewer 中打开要素图层
    注:

    在分析运行并生成输出之前,由实时和大数据分析创建的输出图层不会显示在图层页面上。

  3. 单击 Map Viewer 经典版 顶部的在 Map Viewer 中打开,在 Map Viewer 中查看 Cyclist_Accident_Aggregation 要素图层。 在 Map Viewer 中打开
  4. 聚焦于美国纽约市的数据
  5. 内容(深色)工具栏中,单击底图,并将底图更改为深灰色画布
  6. 对于 Cyclist_Accident_Aggregation 要素图层,单击样式
  7. 对于选择属性,从下拉菜单中选择计数,并单击添加
  8. 对于选择样式,如有必要,选择计数和数量(颜色),然后单击样式选项
  9. 样式选项中,单击符号样式。 对于颜色,将色带更改为红色和黄色。 调整颜色后,单击完成,并关闭符号样式。
  10. 滚动至样式选项的末尾,切换分类数据按钮,对数据进行分组,并突出显示骑行者相关伤害较多的区域。
  11. 单击分类数据切换按钮下方的方法下拉箭头。 选择标准差,并将分类大小设置为 1 个标准差。
  12. 接受其他默认属性,然后单击完成
    在 web 地图中添加并符号化的要素图层

Web 地图已设置完成,可供审查。 您可以在 Web 地图中平移和缩放,探索大数据分析的结果,并识别骑行者相关伤害和死亡人数较多及较少的区域。

其他资源

在本课程中,您创建并运行了一个大数据分析,其中分析了大约 150 万起骑行者的事故,以识别纽约市中发生事故次数最多的区域。 通过这些结果,您可以针对新的自行车基础设施在何处将产生最大影响做出更明智决策。

当您继续使用 Velocity 时,可以使用其他资源,包括: