计算复合指数的工作原理

复合指数在社会和环境领域中被广泛使用,以将来自多个指标的复杂信息表示为单一指标,该指标可以衡量相对目标的进展情况并促进决策。 “计算复合指数”工具支持指数创建过程的三个主要步骤:将输入变量标准化到通用比例(预处理)、将变量组合成单一指数变量(组合)以及将结果指数缩放到有意义的值(后处理)。

计算复合指数工具示意图

设计指数

创建适当的指数取决于对指数试图回答的问题、变量选择以及所应用方法的仔细考虑。 咨询领域专家和最终用户将非常有用。

设计指数时考虑以下因素:

  • 是否将变量结构化为子指数。 指数衡量的概念可能由多个维度表示。 例如,脆弱性指数可能由住房、交通和收入属性域组成,每个属性域包含多个变量。 您可以通过多次运行工具来构建代表每个维度的子指数。 这可以帮助提高可解释性,并且根据所用方法,也可能改变指数的结果。
  • 如何选择变量。 最佳做法是在保留捕获指数所需的足够基本信息的同时减少输入变量的数量。 输入变量数量过多可能导致解释指数时遇到困难。 此外,如果多个变量属于同一属性域(例如,收入中位数和贫困),则此属性域的影响可能在指数结果中被过分表示。 这是意外影响,被称为意外加权。

了解更多关于创建适当指数的最佳做法和重要考虑因素

设置变量权重

对变量进行加权,以表示影响指数的每个因子的相对重要性。 默认情况下,所有权重设置为 1,表示每个变量的权重相等。 但是,标注变量相对于其他变量的相对贡献差异可能非常重要。 通过将其中一个变量的权重改为 2,而其他变量保持为 1,可以指示在对最终指数的贡献中,该变量的重要性应被视为其他变量的两倍。

您也可以使用加起来等于 1 的权重。 例如,如果使用三个变量,其中一个的重要性应被视为其他两个的两倍,则可以使用 0.5、0.25 和 0.25 的权重值。

如果变量通过平均值组合,则权重通过将每个变量乘以其相应的权重来进行应用。 如果权重通过几何平均值组合,则权重通过将每个变量提升到其相应权重的幂来进行应用。

权重对结果指数有显著影响。 无论您保持相等的权重还是更改权重以偏好变量,使用权重都会为分析增加主观性。 此外,由于变量之间的相关性和差异性,您可能无意中进行了加权。

了解关于相关性和差异性对指数影响的详细信息

预处理变量

要创建适当的指数,变量必须处于兼容的比例。 为此,工具中提供了预处理选项,将不同的输入变量转变为通用测量比例,以对其进行适当地组合。 您还可以对变量进行取反,使得每个变量中的高值含义与其他变量一致。

将变量预处理到通用比例。

预处理变量以反转变量方向

考虑每个变量中低值和高值的含义,并确保它们彼此一致。 例如,在社会脆弱性指数中,收入中位数较低的地区更脆弱,但无保险人口比例较低的地区脆弱性较小;这些变量的方向在指数目的的上下文中是相反的。

反转变量方向

通过将每个值乘以 -1 并在变量的原始范围内进行缩放来计算变量的反转。

将变量预处理到相同的比例

该工具包括多个选项,可使用缩放和组合变量的方法参数来缩放变量。 组合值(缩放值的平均值)复合差值(缩放值的几何平均值)选项使用最小值-最大值进行缩放。 组合等级(百分位数平均值)选项使用百分位数进行缩放。 高亮显示极值(高于 90% 的值计数)选项使用二进制值进行缩放。 所选选项将应用于所有变量,输出中将提供结果的缩放字段。 可用选项如下:

  • 最小值-最大值 - 使用每个变量的最小值和最大值将变量缩放到 0 和 1 之间。 这种方法最简单,因为它保留了输入变量的分布,并缩放到易于解释的 0 至 1 比例。

    最小值-最大值缩放方法

    该方法使用以下公式:

    最小值-最大值公式

    由于此方法保留了变量分布,它可能会受到偏斜分布和异常值的影响。 例如,如果存在一个具有非常高值的单个异常值,该异常值将获得 1 的值,但其余的值将相似并更接近于零。 由于预处理变量中的变化减少,此变量可能对结果指数的影响较小。

    此方法还依赖于输入数据中的最小值和最大值,当变量的最小值和最大值可能随每个时间步长发生变化时,此方法可能不太适合跨多个时间段进行指数比较。

  • 百分位数 - 变量被转换为 0 到 1 之间的百分位数。 当每个变量的等级比其实际值更重要时,可以使用此方法。 由于变量被转换为均匀分布,因此它对异常值和偏斜分布也很稳健。

    百分位数缩放方法

    百分位数有各种定义。 此方法使用以下公式:

    百分比数公式,

    其中 R 是序数等级(在并列情况下使用最小排名值),N 是值的数值,P 是结果百分位数。

    百分位数表示一个值相对于变量内其他值的位置。 例如,尽管 50,000 与 60,000 之间的收入差异可能不大,但如果有许多要素的值介于两者之间,则百分位数差异可能很大。

  • 按阈值标记(二进制)- 变量被转换为二进制值 (0, 1),指示值是高于还是低于指定阈值。 当重点突出某些值并且值的变化不重要时,这种方法非常有用。

    按阈值标记(二进制)缩放方法

    此方法不受输入变量中异常值的影响,但会导致每个输入变量中的区间级别信息丢失,因为每个变量将被转换为二进制 (0, 1) 形式。

  • 原始值 - 使用变量的原始值。 仅当所有变量均处于可比较的比例上时,才应使用此方法。 例如,当所有变量均为标准单位(如百分比或每百万分之一)时,将使用此方法。 当已发生变量标准化或转换时,这种方法也可能非常有用。

组合变量

变量被预处理到一个通用比例上后,即可将变量聚合以创建单一值。 组合缩放值(缩放值的平均值)选项的缩放和组合变量的方法参数通过平均值进行聚合。 复合缩放值(缩放值的几何平均值)方法通过几何平均值进行聚合。 高亮显示极值(高于 90% 的值计数)通过求和进行聚合。

求和平均值是加法方法。 几何平均值是乘法方法。

加法方法

求和平均值组合方法相对简单易懂,是各种指数的常用方法。 这些方法几乎相同;对于具有相同形状但仅在比例上不同的分布,它们可以让结果指数地图看起来相同。 仅值不同。

加法组合方法

这些方法允许一个变量中的高值补偿另一个变量中的低值。

加法补偿

乘法方法

乘法方法的优势在于它们不允许一个变量中的高值补偿另一个变量中的低值;要得到高值指数,则多个变量必须具有高值。

乘法组合方法

乘法方法不进行补偿

几何平均值类似于乘法。 使用几何平均值的指数地图与使用乘法组合变量的指数地图相同,原因是分布形状相同,只是值不同。

后处理指数

变量被预处理并组合成原始指数后,后处理可能有助于使指数更易于理解。

对指数取反

考虑指数的目的,并评估高指数值是否符合预期。 对指数取反将使原始指数中的高值成为最终指数中的低值,反之亦然。

对指数值取反

使用最小值和最大值缩放指数

使用最小值和最大值缩放指数会改变输出指数的范围。 无论使用哪种预处理和组合方法,此选项都有助于进行解释。 例如,指定最小值为 0 和最大值为 100 来将原始指数缩放到这个范围。 此选项使用以下公式:

最小值-最大值输出指数缩放公式

其中 x 是原始值,min(x) 是指数中发现的最小值,max(x) 是指数中发现的最大值,a 是指定的最小值,b 是指定的最大值,x' 是缩放值。

最小值-最大值输出指数缩放

解释结果

指数图层显示了任何可选缩放或取反后指数值的分布。 该图层提供了一个连续的分区统计图,可用于评估指数结果。 您可以使用地图来评估高低指数值,保留指数分布和任何异常值。

索引图层

图层还包括以下用于浏览结果的字段:

  • 百分比数字段,指示指数值之间的相对位置(等级)。 使用此字段可根据位置的等级而不是实际指数差异来研究位置之间的关系。
  • 指数分为五个等间隔类别的字段。
  • 指数分为五个分位数类别的字段。
  • 指数分为六个标准差类别的字段。 使用此字段可了解每个位置的指数值与平均指数值的关系,并确定具有极高和极低指数值的位置。

其他资源

有关详细信息,请参阅经济合作与发展组织的构建复合指标手册:方法论和用户指南