您可以使用数据工程来评估数据中每个字段的值的质量和分布。 例如,在识别具有丢失数据的要素时,字段中空值的数量可能是有用的数据质量指标。 描述性统计数据(例如平均值、标准差和峰度)可以帮助您了解字段中值的分布以及评估在分析中使用字段时如何进行。
AllSource 中的“数据工程”视图允许您以表格式显示数据中感兴趣字段的描述性统计数据和指标,该表格式将每个字段显示为一行,将每个统计数据显示为一列。 通过访问设置符号系统、创建图表和运行与所选字段的每个指标和属性相关的地理处理工具,可以将该表用于进一步的数据探索和数据中问题的校正。
选择字段并计算统计数据
当您打开“数据工程”视图时,它包含两个面板:一个显示数据中的字段,另一个显示字段的统计数据表(选择并计算后)。
首先,在字段面板中单击单个字段,然后按住 Ctrl 同时单击以选择单独的字段,或按住 Shift 同时单击以选择多个字段。 然后将字段拖到统计数据面板。
或者,右键单击选定的字段,然后单击添加到统计数据或添加到统计数据并计算。
注:
还可以在添加字段之前执行一个操作添加并计算所有字段,方法为在字段面板的工具栏中单击添加字段并计算统计数据按钮 ,或在空白统计数据面板的中间位置单击添加所有字段并计算按钮。
添加字段后,它们将在统计数据表中显示为行。 每行包含所选字段的字段名称、别名和数据类型。 此外,将显示一系列统计数据列,这些列将在进行计算后包含有关所选字段的其他信息。
要为所选字段填充统计数据列的信息,请单击计算按钮。 计算统计数据时,计算按钮会更改为取消按钮,您可以单击该按钮取消计算。
统计数据列中填充了数据每个字段的信息。
如果已选择记录,则结果与数据中的所选记录相对应。 统计数据表下方显示了所选要素的数量和用于计算统计数据的要素数量。
如果要素图层或表中存在待处理的编辑,则将在计算中使用待处理的编辑。
统计数据的类型
在“数据工程”视图中,您可以将数据中每个字段的统计数据和数据质量指标作为表中的列进行计算和显示。 完成值计算后,右键单击每个字段的统计数据单元格以访问与统计数据有关的其他功能。 其中一些功能使用地理处理工具来修改输入数据。 如果数据不可编辑,请在开始数据工程之前制作其可编辑的副本。
注:
如何对统计数据表中的结果进行舍入取决于值的量级。 对于带有小数位的统计数据,至少显示一个小数位,但是只有在将取整误差保持在 1% 以下的情况下,才添加其他小数位。
统计数据 | 描述 | 适用的数据类型 | 菜单选项 |
---|---|---|---|
空 | 字段中包含空值的记录总数的计数和百分比。 要选择包含空值的记录,请右键单击此列中的单元格。 注:如果图层的符号系统未配置为显示空值,则所选内容可能不会显示在地图上。 配置符号系统以显示超出范围的值,以显示具有空值的要素。 | 数值、文本、日期 |
|
图表预览 | 字段中值分布的视觉表示。 对于数值字段(短、长、浮点、双精度)显示直方图,对于分类字段(文本)显示条形图,对于日期类型字段显示折线图。 使用图表预览列执行初始浏览。 要为感兴趣字段创建图表,请右键单击此列中的单元格。 注:直方图和折线图默认显示带有 20 个条柱。 根据数据的稀疏程度,可能会有不包含数据的条柱,并且具有空值的条柱在图表预览中被视为零。 要更改细节层次,请右键单击图表预览并创建图表。 可以将光标悬停在条形图和折线图上以显示包含其他信息的工具提示。 对于条形图,工具提示显示最常见的类别,对于折线图,工具提示描述图表中间隔的数量和持续时间。 注:对于日期字段的间隔描述,月视为 30 天。 例如,3.2 个月的间隔对应 96 天。 | 数值、文本、日期 | |
最小值 | 字段中的最小值。 要选择包含最小值的记录,请右键单击此列中的单元格。 | 数值、日期 |
|
最大值 | 字段中的最大值。 要选择包含最大值的记录,请右键单击此列中的单元格。 | 数值、日期 |
|
平均值 | 字段中所有值的平均值。 平均值是分布中的平均值,计算为这些值的总和除以该字段中的总数。 平均值是分布中中心趋势的最常见度量。 要计算日期字段的平均日期,通过计算日期与参考日期(例如 1900-01-01)之间的差(以毫秒为单位),将每个日期转换为数字。 所有毫秒值的总和除以日期值的数量即为平均日期,出于显示目的,该日期将舍入到最接近的秒数。 注:平均日期可能与字段中的值具有不同的时态分辨率(即分钟、秒、毫秒)。 要选择包含平均值之上和之下的值的记录,请右键单击此列中的单元格。 | 数值、日期 |
|
标准差 | 字段中值的标准差。 标准差是分布范围的度量。 它被计算为方差的平方根,其中方差是每个值与字段平均值的平方差的平均值。 | 数值 | |
中值 | 字段中所有值的中位数。 中位数是值的排序列表中的中间值。 如果有偶数个值,则中位数是分布中两个中间值之间的平均值。 要选择包含高于中位数的值和低于中位数的值的记录,请右键单击此列中的单元格。 | 数值、日期 |
|
计数 | 字段中非空值总数的计数和百分比。 | 数值、文本、日期 |
|
唯一值数 | 字段中的唯一值数 | 数值、文本、日期 | 没有独特的操作 |
众数 | 字段中所有值的众数。 众数是字段中最频繁出现的值。 如果是关联,当字段中最频繁出现的值对应多个值时,单元格将显示 [多个值],可以将光标悬停在单元格上显示众数值及其频率。 如果字段中的所有值均唯一,则单元格将显示 [所有唯一值]。 要选择包含该众数的记录,请右键单击此列中的单元格。 | 数值、文本、日期 |
|
最不常见 | 字段中最不常见的值。 如果是关联,当字段中最不常见的值对应多个值时,单元格将显示 [多个值],可以将光标悬停在单元格上显示最不常见的值及其频率。 如果字段中的所有值均唯一,则单元格将显示 [所有唯一值]。 要选择包含最不常见值的记录,请右键单击此列中的单元格。 | 数值、文本、日期 |
|
异常值 | 字段中具有异常值的记录数量。 异常值是大于所选字段的第三四分位数或低于第一四分位数的四分位距的 1.5 倍的值。 要选择包含异常值(或异常值以外的所有值)的记录,请右键单击此列中的单元格。 | 数值 |
|
总和 | 字段内所有值的总和。 | 数值 | 没有独特的操作 |
范围 | 字段中最小和最大值之间的差。 对于日期字段,范围提供字段包含的最早日期和最晚日期之间的时间跨度。 注:对于日期字段范围,月视为 30 天。 例如,3.2 个月的范围对应 96 天。 | 数值、日期 | 没有独特的操作 |
四分位距 | 字段中第一四分位数和第三四分位数值之间的范围。 四分位数将值的排序列表分为四组,每组包含相等数量的值。 第一四分位数是升序的第一组的上限,而第三四分位数是第三组的上限。 要选择包含在此范围内的记录,请右键单击此列中的单元格。 | 数值 | |
第一四分位数 | 字段中第一四分位数的值 四分位数将值的排序列表分为四组,每组包含相等数量的值。 第一四分位数是升序的第一组的上限。 在关联的情况下,则显示所有对应值的平均值。 要选择包含第一四分位数之上和之下的值的记录,请右键单击此列中的单元格。 | 数值、日期 | |
第三四分位数 | 字段中第三四分位数的值。 四分位数将值的排序列表分为四组,每组包含相等数量的值。 第三四分位数是第三组的上限。 在关联的情况下,则显示所有对应值的平均值。 要选择包含第三四分位数之上和之下的值的记录,请右键单击此列中的单元格。 | 数值、日期 | |
变化系数 | 字段中值的变化系数。 变化系数是值相对分布的度量。 计算方法为标准差除以字段的平均值。 与必须始终在数据范围环境中考虑的标准差不同,变化系数提供了一种比较具有不同范围和平均值的数据序列的方法。 如果平均值为零,则无法计算变化系数。 如果平均值接近于零,并且数据集中同时存在正值和负值,则变化系数可能缺少有意义的解释。 | 数值 | |
偏度 | 字段中值的偏度。 偏度测量分布的对称性。 如果分布在两侧都是对称的(如正态分布所示),则偏度为零(或接近零)。 左侧尾部较长的分布具有负偏度,而右侧尾部较长的分布具有正偏度。 偏度的计算方法是三阶矩(三次方数据值的平均值)除以三次方标准差。 | 数值 | |
峰度 | 字段中值的峰度。 峰度描述了分布的尾部与正态分布的尾部相比的尾重,有助于识别极值的频率。 峰度小于 3 的分布具有比正态分布更轻的尾部和更少的极值,而峰度大于 3 的分布具有比正态分布更重的尾部和更多的极值。 峰度的计算方法是:四阶矩(数据值的期望值取四次方)除以标准差的四次方。 | 数值 |
交互式统计数据表
统计数据表是交互式的。 右键单击单元格和标题,然后使用工具栏访问功能。
与字段交互
右键单击行标题,以访问适用于所选字段的功能,例如:
- 创建图表 - 使用所选字段创建图表。 根据数据类型提供建议。
- 字段 - 打开字段视图并将当前字段设置为视图中的活动字段。
- 属性表 - 打开属性表并将当前字段设置为属性表中的活动字段。
- 清理、构造、集成和格式化 - 访问地理处理工具以准备数据。 请参阅准备数据以了解有关这些选项的更多信息。
- 移除字段 - 从统计数据表移除字段并清理其统计数据。
注:
修改输入数据的大多数地理处理操作无法撤消。
与单元格进行交互
右键单击单元格可访问适用于选定单元格的功能。 可对所有单元格使用复制以将单元格的值复制到剪贴板。 对于图表预览列中的单元格,可以打开单元格的默认图表,或创建适用于单元格数据类型的图表。 对于所有其他列,可使用上下文相关选择和地理处理工具选项。 例如,标准差列允许选择平均值的一个、两个或三个标准差内的记录,并包含 Standardize 字段和 Transform 字段工具的链接。 对于适用于每个列的选项和函数列表,请参阅上述统计类型一节中的表。
显示特定数据类型
统计数据表工具栏包含用于根据数据类型指定显示哪些字段和统计数据列的选项。
例如,您可以单击文本选项以移除数据类型文本的字段。
当从统计数据表中移除数据类型时,被移除的数据类型唯一的列也将被移除。 这样可以更轻松地在表中查看感兴趣的项目。 例如,如果仅显示日期类型的字段,则描述分布的列(例如偏度和峰度)将被省略,因此列数减少为仅感兴趣的列数。
对列进行排序、隐藏、冻结和重新排序
默认情况下,字段的显示顺序与它们在属性表中的显示顺序相同。 您可以通过列标题的选项对表中的列进行排序、隐藏和冻结。
您可以通过排序按计算的统计数据中的值对行进行重新排序。 例如,您可以按空值列对字段进行排序,以了解哪些字段可能缺少数据。
注:
如果表包含具有单一数据类型的字段,则只能排序。 使用工具栏上的显示选项可以过滤到特定的数据类型;然后排序。 每次将新字段添加到统计表时,排序顺序都会重置为默认值。
单击冻结/取消冻结将列移动到统计数据表的开头并将其锁定在适当的位置,以便在水平滚动表时显示该列。 要重新排序列,请将列标题拖到新位置。
要隐藏列,单击隐藏列。 这将从视图中移除列。 要显示所有隐藏列,单击显示所有列。
要从统计表中移除所有字段及其统计数据,请单击移除所有字段。 如果移除的字段重新添加到统计表中,您将需要再次单击计算按钮以查看其统计数据。
导出统计数据
要使用 AllSource 其他部分的统计数据,请将统计数据保存为一个独立表。 单击将统计数据导出为表打开字段统计数据至表工具。 此选项允许您将统计数据导出为单个表或每个数据类型的单独表。
参考资料
- Sheskin, D.J. (2000)。 "Handbook of Parametric and Nonparametric Statistical Procedures." 第二版。 Boca Raton, Florida: Chapman & Hall/CRC. ISBN: 978-1-58488-814-7.
- UCLA: Statistical Consulting Group.
"IEEE Standard for Floating-Point Arithmetic." IEEE Std 754-2019 (Revision of IEEE 754-2008), vol., no., pp.1-84, 22 July 2019. https://ieeexplore.ieee.org/document/8766229.