リンク解析は、データセット内のリレーションシップや関連性に注目する手法です。 リンク解析により、中心性の測定値 (次数、媒介、近接、固有ベクトル) を計算し、リンク チャートまたはリンク マップで関連性を視覚化することができます。
リンク解析では、リンクとノードで連結したネットワークを使用して、生データでは把握が難しいリレーションシップを特定し、解析します。 ネットワークの一般的なタイプには次のものがあります。
- 誰が誰と会話するかを示すソーシャル ネットワーク
- 相互に関連するトピックを示すセマンティック ネットワーク
- プレイヤー間の接続の連携を示す競合ネットワーク
- どの空港に接続便があるかを示すエアライン ネットワーク
例
リンク解析を使用するシナリオの例として、次のようなものがあります。
- 犯罪解析は、犯罪ネットワークを調査します。 携帯電話記録のデータを使用して、ネットワークのメンバー間のリレーションシップと階層を特定できます。
- クレジット カード会社は、クレジット カード盗難を検出するための新しいシステムを開発しています。 このシステムは、クライアントごとの取引の既知のパターン (都市、店舗、取引の種類など) を使用して異常値を特定し、盗難の可能性をクライアントに警告します。
- 公衆衛生解析は、北アメリカのオピオイドの蔓延危機を調査しています。 解析では、処方箋のデータと人口統計データを使用して、危機の拡大に伴って発生する新しいパターンを特定します。
リンク解析の詳細
次の表で、リンク解析の用語の概要を説明します。
用語 | 説明 | 例 |
---|---|---|
ネットワーク | 連結された一連のノードとリンク | オンライン ソーシャル ネットワークは、ユーザーを接続するために、プロファイルとリレーションシップのネットワークを使用します。 エアライン ネットワークは、旅客を出発地から目的地まで輸送するために、空港とフライト便のネットワークを使用します。 |
ノード | オブジェクトを表すポイントまたは頂点 (人、場所、犯罪の種類、ツイートなど)。 ノードには、関連するプロパティも含まれる場合があります。 | ソーシャル ネットワーク内のプロファイル。 関連プロパティには、ユーザーの名前、出身地、勤務先が含まれる場合があります。 エアライン ネットワーク内の空港。 関連プロパティには、空港名が含まれる場合があります。 |
リンク | ノード間のリレーションシップまたは関連性。 リンクには、関連するプロパティも含まれる場合があります。 | ネットワーク内のプロファイル間のリレーションシップ (友人、フォロワー、つながりなど)。 関連プロパティには、リレーションシップの長さが含まれる場合があります。 エアライン ネットワーク内の空港間のフライト便。 関連プロパティには、空港間のフライト便の数が含まれる場合があります。 |
中心性
中心性は、ネットワーク内のノードの重要性の測定値です。
中心性は次の目的に使用します。
- ネットワーク内で、あるノードが他のノードに及ぼす影響を評価するため。 たとえば、ニュースや雇用機会を共有するときに、どのユーザーの影響が大半のユーザーに及ぶかを評価します。
- 他のノードによって最も影響を受けるノードを特定するため。 たとえば、別の地域の荒天によりキャンセルとなったフライト便の影響を最も受ける空港を特定します。
- ネットワークを通じたあるものの流れまたは広がり (情報、物、現象など) を監視するため。 たとえば、ある荷物が倉庫から配送先までどのように配送されるを示します。
- どのノードが最も効率的にネットワークを通じて現象を拡散するかを把握するため。 たとえば、ストーリーが最大数の人々に届くには、どの新聞または媒体にアクセスすべきかを把握します。
- 現象の拡散を防止できるノードを特定するため。 たとえば、ウィルスの拡散を防ぐために、ワクチン接種施設をどこに配置するかを特定します。
Insights で中心性を測定する方法には、次数中心性、媒介中心性、近接中心性、固有ベクトル中心性の 4 つがあります。
媒介、近接、および固有ベクトルの中心性は、重み付けなしまたは重み付けありのいずれかの方法で計算できます。
次数中心性
次数中心性は、ノードが持つ直接接続の数に基づいています。 次数中心性は、どのノードが最も直接的な影響を与えるかを特定する場合に使用します。 たとえば、ソーシャル ネットワークでは、最大接続数を持つユーザーが高い次数中心性を持ちます。
ノード X の次数中心性は、次の方程式を使用して計算されます。
degCentrality(x)=deg(x)/(NodesTotal-1)
条件:
- NodesTotal = ネットワーク内のノードの数
- deg(x) = ノード x に接続するノードの数
リンクが方向付けられている場合 (すなわち、ノード間で情報が 1 方向のみに移動する場合)、次数中心性は、入次数または出次数のいずれかとして計測できます。 ソーシャル ネットワークの場合、入次数は、ユーザーがフォローしているプロファイルの数に基づき、出次数はユーザーのフォロワーの数に基づきます。
入次数中心性は、次の方程式を使用して計算されます。
indegCentrality(x)=indeg(x)/(NodesTotal-1)
条件:
- NodesTotal = ネットワーク内のノードの数
- indeg(x) = ノード x に接続し、ノード x に入るノードの数
出次数中心性は、次の方程式を使用して計算されます。
outdegCentrality(x)=outdeg(x)/(NodesTotal-1)
条件:
- NodesTotal = ネットワーク内のノードの数
- outdeg(x) = ノード x に接続し、ノード x から出るノードの数
方向付けのあるグラフでは、Insights はデフォルトで、出次数中心性によってノードをサイズ設定します。
媒介中心性
媒介中心性は、あるノードが他のノード間の最短経路の一部となっている程度に基づいています。 媒介中心性は、どのノードを使用して他のノードが相互接続しているかを特定する場合に使用します。 たとえば、複数グループの友人に接続しているソーシャル ネットワーク内のユーザーは、1 つのグループで接続しているユーザーよりも高い媒介中心性を持ちます。
ノード X の媒介中心性は、次の方程式を使用して計算されます。
btwCentrality(x)=Σa,bϵNodes(pathsa,b(x)/pathsa,b)
条件:
- Nodes = ネットワーク内のすべてのノード
- pathsa,b = すべてのノード間の最短経路の a および b の数
- pathsa,b(x) = ノード x を介して接続されているノード間の最短経路の a と b の数
上記の媒介中心性の方程式では、ネットワークのサイズは考慮されないため、小さいネットワークよりも大きいネットワークの方が媒介中心性の値が大きくなる傾向があります。 サイズの異なるネットワーク間を比較するには、チャート内のノードのペア数で割ることで、媒介中心性の方程式を正規化する必要があります。
方向付けのないチャートを正規化するには、次の方程式を使用します。
1/2(NodesTotal-1)(NodesTotal-2)
条件:
- NodesTotal = ネットワーク内のノードの数
方向付けのあるチャートを正規化するには、次の方程式を使用します。
(NodesTotal-1)(NodesTotal-2)
条件:
- NodesTotal = ネットワーク内のノードの数
近接中心性
近接中心性は、ノード間のネットワーク経路の最短距離の平均に基づいています。 近接中心性は、ネットワーク内のどのノードが他のノードと最も緊密に関連しているかを特定する場合に使用します。 たとえば、ソーシャル ネットワーク内でより多くのつながりを持っているユーザーには、他の人 (すなわち、友人の友人) を通じてつながっているユーザーよりも高い近接中心性があります。
注意:
ノード間の距離は、地理的距離ではなく、ノードを分割するリンクの数を参照します。
ノード X の近接中心性は、次の方程式を使用して計算されます。
closeCentrality(x)=(nodes(x,y)/(NodesTotal-1))*(nodes(x,y)/dist(x,y)Total)
条件:
- NodesTotal = ネットワーク内のノードの数
- nodes(x,y) = ノード x に接続するノードの数
- dist(x,y)Total = ノード x から他のノードまでの最短経路距離の合計
固有ベクトル中心性
固有ベクトル中心性は、他の重要なノードに接続している重要なノードに基づいています。 固有ベクトル中心性は、どのノードが、影響を持つクラスターの一部であるかを特定する場合に使用します。 たとえば、ソーシャル ネットワーク内で接続数の多い他のユーザーと多数接続しているユーザーは、接続数の少ないユーザーや接続数の少ない他のユーザーに接続しているユーザーよりも固有ベクトル中心性が高くなります。
ノード X の固有ベクトル中心性は、べき乗法を使用して計算され、次の方程式を使用して最大固有ベクトルが特定されます。
Ax=λx
条件:
- λ = 固有値
- x = 固有ベクトル
- A = 線形変換を示すマトリックス
エッジ ウェイト
近接、媒介、および固有ベクトルの中心性は、重み付けなしまたは重み付けありのいずれかの方法で計算できます。 重み付けなしの中心性の計算では、エッジの値を 1 にして一様分布の重み付けに設定しますが、重み付けありの計算では、フィールド値を使用して各エッジに値を割り当てます。
注意:
未定義の重み付けの値は 1 に設定されます。 エッジ ウェイトには、NULL または欠損値が含まれていないフィールドを割り当てることをお勧めします。
固有ベクトル中心性では、重み付けを使用してノード間の接続の強度を決定します。 固有ベクトル中心性はネットワーク内のノードの重要度を計測するため、重み付け値が高いほどその接続ノードの値も高くなります。
近接中心性と媒介中心性で、重み付け値はノード間の距離を示します。 エッジ ウェイトが高いほど、ノード間の距離が大きくなり、そのエッジが最短パスで使用される可能性が低くなります。 目的の重み付けフィールドの数値が高いほど重要度が高いことを示す場合 (たとえば、ソーシャル ネットワークのメンバー間で送信されたメッセージの数が、メンバー間のつながりの強さを示す場合)、新しいフィールドを逆数で計算する必要があります。 次の式を使用して、逆数のフィールドを計算します。
weight=ABS(field-MAX(field))+IF(MIN(field)<0, ABS(MIN(field)), MIN(field))
重み付けなしの近接または媒介の計算で、最短パスは使用するリンクの数が最も少ないパスを指します。 以下の例は、4 つのノード (A、B、C、D) と一様分布の重み付けを含むネットワークを示しています。 ノード A とノード D を結合するパスには、A-B-D と A-B-C-D の 2 つがありますが、A-B-D のリンク数のほうが少ないため、最短パスになります。
重み付けありの計算では、フィールド値に基づいて各エッジに重み付けが適用されます。 重み付けありの近接中心性と媒介中心性では、ベルマン-フォード法を使用してノード間の最短パスを検索します。
以下の例は、4 つのノードと重み付けありのエッジを含むネットワークを示しています。 パス A-B-D の値は 15 で、パス A-B-C-D の値は 9 です。 A-B-C-D のエッジ値が最も低いため、最短パスになります。
重み付けありの近接中心性と媒介中心性の計算では、負のウェイト サイクルをサポートしていません。 負のウェイト サイクルが検出された場合、中心性の値はすべて 0 に設定されます。 負のウェイト サイクルは、次の状況で発生する可能性があります。
- グラフに負のサイクルが含まれています。
- グラフに負の自己ループが含まれています。
- グラフは無向で,負のエッジが含まれています。
リソース
リンク解析をより詳しく学習するには、次のリソースをご利用ください。