注:
Insights desktop 中提供了数据工程。 所有 Insights in ArcGIS Online 和 Insights in ArcGIS Enterprise 用户都可以访问 Insights desktop。 有关详细信息,请参阅 ArcGIS Insights 概述。
数据工程现在可以预览。
列工具可用于更改特定列中的数据,并可从数据模型下方表中的各个列进行访问。 列工具在应用后会被添加到数据模型中。
转换数据类型
数据类型将应用于 Insights 中的每一列。 默认数据类型可能并非对所有列而言都合适,具体取决于输入数据中的格式。 例如,.csv 文件不支持日期/时间格式,因此所有日期/时间列都将作为字符串进行导入。
可以将列转换为字符串型、整型、双精度型或日期/时间数据类型。
要使用转换数据类型,请完成以下步骤:
该列将转换为所选的数据类型。
整型
整型数据类型是指没有小数值的数字。
任何带有数字的列都可以转换为整型列。 如果该列中包含了数字以外的字符,则系统将移除这些字符。
如果该列中包含了小数值,则系统将移除小数点后的数字且不对整数进行四舍五入。 如果您希望对数字进行四舍五入,则可以将该列转换为双精度型,并使用 ROUND() 函数来计算一个新列。
整型数据类型在 Insights 工作簿中将被读取为数值字段。
双精度
双精度型(或双精度浮点型)数据类型为支持小数值的数字。
任何带有数字的列都可以转换为双精度型列。 如果该列中包含了数字以外的字符,则系统将移除这些字符。
双精度型数据类型在 Insights 工作簿中将被读取为数值字段。
日期/时间
日期/时间列可以是仅日期、仅时间或日期和时间。
将列转换为日期/时间数据类型需要用到日期/时间格式。 默认的日期/时间格式为 ISO 8601。 如果您的数据未使用 ISO 8601 格式,则您必须更改自定义格式框中的格式以匹配您的数据。
注:
单个列中的所有日期和时间必须使用相同的格式。 最佳做法是使用 12 小时制为所有时间值包含一个时间段组件,以确保使用正确的时间。
系统将支持使用以下变量来创建您的日期/时间格式:
日期/时间组件 | 变量 | 受支持的值 |
---|---|---|
月 | MM | 01 到 12 |
M | 1 到 12 | |
天 | DD | 01 到 31 |
D | 1 到 31 | |
年 | YYYY | 四位数年份 |
YY | 两位数年份(00 到 99) | |
小时 | HH | 00 至 24 |
H | 0 至 24 | |
hh | 01 到 12 | |
h | 1 到 12 | |
分 | mm | 00 至 59 |
m | 0 至 59 | |
秒 | ss | 00 至 59 |
s | 0 至 59 | |
时间段 | A | AM、PM 或您的区域设置支持的时间段格式。 |
a | ||
时区 | ZZ | +HHmm 或 -HHmm |
TZD | +hh:mm 或 -hh:mm |
过滤器值
属性过滤器将使用查询从数据集中移除不必要的数据。 此工具可用于减小数据集的大小并仅包含与您的分析相关的数据。 例如,您可能希望移除具有空值的条目或仅将数据过滤到指定的研究区域或日期范围。
完成以下步骤以使用过滤器值:
系统将应用过滤器并移除与过滤条件不匹配的行。
查找和替换
注:
查找和替换当前可用于字符串列。 要替换数字或日期/时间列中的值,您必须将该列转换为字符串,替换该字符串,然后将该列转换回原始数据类型。
可使用查找和替换在列中搜索特定值并将其替换为新值。 可将此工具用于将占位符或默认值替换为空值、修复拼写错误的字符串或创建一致的大小写形式以及其他用途。
请完成以下步骤以使用查找和替换:
- 如有必要,可在 Insights desktop 中打开数据工作簿并添加数据。
- 单击列名称旁边的箭头以展开列工具菜单。
注:
如果您的视图仅为模型或地图,请单击显示表格按钮 。
- 选择查找和替换。
- 执行以下操作之一:
- 要查找和替换自定义字符串,请停留在字符串选项卡(默认)上。 在查找框中,键入要在列中搜索的自定义字符串。 如有必要,请选择匹配大小写形式以使搜索区分大小写,并选择仅限全字匹配以便仅返回完整的字符串匹配项。
- 要查找和替换空字符串值,请单击空字符串选项卡。
- 要查找和替换空值,请单击空选项卡。
- 在替换为框中,键入要用于替换匹配字符串的字符串。 将替换为框留空可将其替换为空字符串。 如果您要用空值来替换空字符串(空字符串选项卡),请选择替换为空。
- 可以选择单击查找以搜索并突出显示匹配的字符串。
- 单击替换以搜索并替换匹配的字符串。
- 重复这些步骤以查找和替换其他字符串,或单击完成以关闭对话框。
系统将更新匹配的字符串。
移除列
移除列工具可用于从输出数据集中排除不必要的列。 稍后在使用显示隐藏字段进行分析期间将无法显示已移除的列。 移除列仅会影响输出数据集,而不会将列从源数据集中删除。
注:
数据工作簿中的数据集必须至少包含一列。 对于只有一列的数据集禁用移除列。
请完成以下步骤以从数据集中移除列。
系统将从表中移除该列。
显示列摘要
显示列摘要将创建分布图并使用列中的数据来计算统计数据。 摘要可用于查找数据中的问题,例如字符串拼写错误或异常值。
注:
显示列摘要将创建列中值的可视化而非更改值。 因此,系统不会将显示列摘要添加到数据模型中。
请完成以下步骤以创建列摘要:
系统将显示一个侧面板,其中包含该列的图表和统计数据。
字符串列
字符串列将创建条形图摘要。 条形图将显示具有要素计数的列中的唯一值,而摘要将显示要素总计数、空值计数、空字符串计数和唯一值总数的统计数据。 如有必要,可使用图表一侧的滑块来放大和查看所有唯一值。 使用排序按钮 按升序、降序或字母顺序对图表进行排序。
通过单击各个条柱,可以在条形图摘要上进行选择。 条形图摘要上的选择将反映在表视图或地图视图中(如果适用)。
请在您的字符串列摘要中查找以下问题:
- 该列中是否包含空值和空字符串? 系统将分别对空值和空字符串进行分析。 使用查找和替换工具可将空值替换为空字符串,反之亦然。
- 是否所有值都使用一致的大小写形式? 大小写形式不一致可能会导致错误地将应该聚合为单个唯一值的值分隔开来。 使用查找和替换工具对字符串执行不区分大小写的搜索,并将所有匹配值替换为单一值。
- 该列是否包含拼写错误的值? 拼写不一致将导致聚合不准确。 使用查找和替换工具来搜索拼写错误的值并将其替换为正确的拼写。
数字列
数字列将创建直方图摘要。 直方图会将数字聚合到图格,并显示每个图格中值的频率。 平均值和中值将显示在直方图上,且摘要将显示要素总计数、空值计数、平均值、近似中值、上四分位数和下四分位数、标准差、偏度以及超额峰度的统计数据。 可使用 x 轴下方的滑块来更改直方图上的图格数量。
通过单击各个条柱,可以在直方图摘要上进行选择。 直方图摘要上的选择将反映在表视图或地图视图中(如果适用)。
请在您的数字列摘要中查找以下问题:
- 数据集是否包含了超出预期范围的异常值或值? 例如,如果该列包含了百分比值,则预期范围将是 0 到 100。 使用过滤器值工具来移除具有不正确值的行。
- 数据是否呈正态分布? 某些统计分析(例如创建回归模型)需要呈正态分布的数据。 使用计算列工具对列应用变换。
- 数据集中是否包含应移除的占位符或默认值(例如 9999)? 使用查找和替换工具将这些值替换为空值(如适用),或使用过滤器值工具来移除包含占位符或默认值的行。
注:
查找和替换目前仅支持字符串列。 您必须将数字列转换为字符串,替换该字符串,然后将该列转换回数字(整型或双精度型)。
日期/时间列
日期/时间列将创建时间序列摘要。 时间序列可将日期/时间值聚合为间隔并显示每个间隔的计数。 该摘要将显示要素总计数、最小日期、最大日期和空值计数。 可使用时间序列上方的滑块进行放大并以更精细的比例查看图形。 如果缩放级别通过所需的阈值,则日期/时间间隔将更新为适当的间隔。
通过单击各个时间点,可以在时间序列摘要上进行选择。 时间序列摘要上的选择将反映在表视图或地图视图中(如果适用)。
请在您的日期/时间列摘要中查找以下问题:
- 日期是否在所要求的日期范围内? 请使用过滤器值工具仅保留所需日期/时间范围内的值。
- 您的数据集中是否包含应移除的占位符或默认值(例如 1000-01-01)? 使用查找和替换工具将这些值替换为空值(如适用),或使用过滤器值工具来移除包含占位符或默认值的行。
注:
查找和替换目前仅支持字符串列。 您必须将日期/时间列转换为字符串,替换该字符串,然后将该列转换回日期/时间。