链接分析是一种分析技术,侧重于数据集中的关系和连接。 利用链接分析,您能够计算中心性度量,即点度、中介度、接近度和特征向量,并查看链接图表或链接地图。
关于链接分析
链接分析使用互连链接和节点的网络来识别和分析在原始数据中不容易看到的关系。 常见的网络类型包括:
- 可以显示谁在和谁交谈的社交网络
- 说明彼此相关主题的语义网络
- 说明玩家之间联系的联盟的冲突网络
- 显示哪些机场有转机航班的航线网络
示例
犯罪分析师正在调查犯罪网络。 手机记录的数据可用于确定网络成员之间的关系和等级制度。
一家信用卡公司正在研发一种检测信用卡盗窃的新系统。 系统使用每个客户的已知交易模式(例如城市、商店)和交易类型来识别异常并提醒客户潜在的盗窃行为。
一位公共卫生分析师正在研究北美的阿片类药物危机。 分析师使用处方和人口统计数据来确定随着危机蔓延而出现的新模式。
链接分析的工作原理
下表提供了链接分析中术语的概述:
术语 | 描述 | 示例 |
---|---|---|
网络 | 一组相互连接的节点和链接。 | 使用配置文件和关系网络来联系用户的在线社交网络。 利用机场和航班网络将旅客从出发地护送到目的地的航线网络。 |
节点 | 表示对象的点或顶点,例如人物、地点、犯罪类型或推文。 该节点还包括相关属性。 | 社交网络中的配置文件。 相关属性可能包括用户的姓名、家乡或雇主。 航线网络中的机场。 相关属性可能包括机场名称。 |
链接 | 节点之间的关系或连接。 该链接还包括相关属性。 | 网络中的配置文件之间的关系,例如好友、粉丝或相关人。 相关属性可能包括关系的时长。 航线网络中机场之间的航班。 相关属性可能包括机场之间的航班数量。 |
中心性
中心性是网络中节点重要性的度量。
整体中心性有以下几种用途:
- 评估节点对网络中其他节点的影响。 例如,在分享一条新闻或工作机会时哪个用户会获得最多的用户访问量?
- 识别受其他节点影响最大的节点。 例如,哪个机场受到因不同地区的风暴而取消航班的影响最大?
- 观察事物在网络中的流动或传播,包括信息、物体或现象。 例如,包裹如何从仓库移动到收货地址?
- 了解哪些节点能最高效地通过网络传播现象。 例如,应该联系哪个报纸或频道,以便故事能够传达给大多数人?
- 找到可以限制或阻止现象传播的节点。 例如,应该在哪里设立疫苗接种门诊来阻止病毒的传播?
在 Insights 中,有四种衡量中心性的方法:点度中心性、中介中心性、接近中心性和特征向量中心性。
中介中心性、接近中心性和特征向量中心性的计算可以采用加权和或未加权。
点度中心性
点度中心性基于节点所具有的直接联系数量。 如果要确定哪些节点具有最直接的影响,应该使用点度中心性。 例如,在社交网络中,具有最多连接的用户将具有较高的点度中心性。
节点 x 的点度中心性使用以下公式计算:
点度中心性(x) = deg(x)/(节点总数 - 1)
其中:
- 节点总数 = 网络中的节点数量
- deg(x) = 与节点 x 有联系的节点数量
如果链接是定向的,意味着信息仅在一个方向上在节点之间流动,那么点度中心性可以作为入度或出度来计量。 在社交网络中,入度将基于用户所遵循的配置文件的数量,而出度将基于用户具有的粉丝的数量。
入度中心性使用以下方程计算:
入度中心性(x) = indeg(x)/(节点总数 - 1)
其中:
- 节点总数 = 网络中的节点数量
- indeg(x) = 连接到节点 x 的节点数量,其中流量指向节点 x
出度中心性使用以下方程计算:
出度中心性(x) = outdeg(x)/(节点总数 - 1)
其中:
- 节点总数 = 网络中的节点数量
- outdeg(x) = 连接到节点 x 的节点的数量,其中流量指向远离节点 x 方向
对于定向图,在默认情况下,Insights 根据出度中心性来确定节点的大小。
中介中心性
中介中心性基于节点在多大程度上是其他节点之间最短路径的一部分。 如果要确定哪些节点用于将其他节点彼此连接,应使用中介中心性。 例如,在社交网络中,与多个朋友群组有联系的用户将比仅与一个群组中有联系的用户具有更高的中介中心性。
使用以下方程来计算节点 x 的中介中心性:
中介中心性(x) = Σa,bϵ节点(路径a,b(x)/路径a,b)
其中:
- 节点 = 网络中的所有节点
- 路径a,b = 所有节点 a 和 b 之间的最短路径数
- 路径a,b(x) = 通过节点 x 连接的节点 a 和 b 之间的最短路径数
上面介绍的中介性中心性方程没有考虑到网络的规模,所以大型网络比小型网络具有更大的中介中心性值。 为了便于在不同大小的网络之间进行比较,必须除以图表中的节点对数来归一化中介中心性方程。
以下方程用于归一化无向图表:
1/2(节点总数 - 1)(节点总数 - 2)
其中:
- 节点总数 = 网络中的节点数量
以下方程用于归一化定向图表:
(节点总数 - 1)(节点总数 - 2)
其中:
- 节点总数 = 网络中的节点数量
接近中心性
接近中心性基于节点之间最短网络路径距离的平均值。 如果要确定哪些节点与网络中的其他节点关联最密切,应使用接近中心性。 例如,社交网络中具有更多人脉的用户将比通过其他人(换言之,朋友的朋友)连接起来的用户具有更高的接近中心性。
注:
节点之间的距离是指分隔它们的链接数量,而非地理距离。
使用以下方程计算节点 x 的接近中心性:
接近中心性(x) = (节点(x,y)/(节点总数 - 1))*(节点(x,y)/dist(x,y)总数)
其中:
- 节点总数 = 网络中的节点数量
- 节点 (x,y) = 连接到节点 x 的节点数量
- dist(x,y) 总数 = 从节点 x 到其他节点的最短路径距离之和
特征向量中心性
特征向量中心性基于连接到其他重要节点的重要节点。 当您想要确定哪些节点是影响聚类的一部分时,应使用特征向量中心性。 例如,如果社交网络中的某个用户与具有许多连接的其他用户之间建立了许多连接,则比仅建立少量连接的用户,或与仅具有少量连接的其他用户建立连接的用户具有更高的特征向量中心性。
节点 x 的特征向量中心性使用幂迭代进行计算,以使用以下方程找到最大的特征向量:
Ax = λx
其中:
- λ = 特征值
- x = 特征向量
- A = 描述线性变换的矩阵
边权重
接近中心性、中介中心性和特征向量中心性的计算可以采用加权和未加权。 未加权中介计算将边设置为统一权重(值为 1),而加权计算使用字段值为每个边分配一个值。
注:
未定义权重被赋予值 1。 最好为边权重分配不含空值或缺失值的字段。
对于特征向量中心性,权重用于确定节点之间的连接强度。 由于特征向量中心性衡量网络中节点的重要性,权重值越高代表其连接节点的值越高。
对于接近中心性和中介中心性,权重值表示节点之间的距离。 边权重越高,意味着节点之间的距离越大,边被用于最短路径的可能性越低。 如果期望权重字段中的数值较高,表示重要性越高(例如,社交网络成员之间发送的消息数量表示成员的联系程度),必须使用反向值计算一个新字段。 使用以下等式计算反向值字段:
weight=ABS(field-MAX(field))+IF(MIN(field)<0, ABS(MIN(field)), MIN(field))
对于未加权接近或中介计算,最短路径是使用链接数最少的路径。 以下示例显示包含四个节点(A、B、C 和 D)和统一权重的网络。 连接节点 A 到节点 D 的路径有两条:A-B-D 或 A-B-C-D。由于 A-B-D 包含的链接更少,它是最短路径。
加权计算基于字段值将权重应用于每个边。 加权接近中心性和中介中心性使用 Bellman-Ford 算法寻找节点之间的最短路径。
以下示例显示包含四个节点和加权边的网络。 路径 A-B-D 的值为 15,路径 A-B-C-D 的值为 9。 由于 A-B-C-D 的边缘值最低,它是最短路径。
加权接近中心性和中介中心性计算不支持负权重环路。 如果检测到负权重环路,所有中心性值均设为 0。 在以下情况下可能会发生负权重环路:
- 图表包含负环路。
- 图表包含负自闭合边。
- 图表无向并且包含负边。
资源
要了解有关链接分析的详细信息,请使用以下资源: