Bei der Verbindungsanalyse handelt sich um eine Technik, die auf Beziehungen und Verbindungen in einem Dataset ausgerichtet ist. Mit der Verbindungsanalyse können Sie Zentralitätskennzahlen wie Gradzentralität, Zwischenzentralität, Nähezentralität und Eigenvektor-Zentralität berechnen und die Verbindungen in einem Verbindungsdiagramm oder auf einer Verbindungskarte visualisieren.
In der Verbindungsanalyse wird ein Netzwerk aus Verbindungen und miteinander verbundenen Knoten verwendet; mit ihr lassen sich Beziehungen identifizieren und analysieren, die den Rohdaten auf den ersten Blick nicht zu entnehmen sind. Gängige Netzwerktypen:
- Soziale Netzwerke geben Aufschluss darüber, welche Teilnehmer miteinander kommunizieren
- Semantische Netzwerke zeigen an, auf welche Weise Begriffe miteinander in Beziehung stehen
- In Konfliktnetzwerken werden die Verbindungsallianzen zwischen den Beteiligten aufgezeigt
- In Netzwerken von Fluggesellschaften werden Flughäfen mit Anschlussflügen dargestellt
Beispiele
Nachfolgend finden Sie Beispielszenarien für die Verwendung der Verbindungsanalyse:
- Ein Kriminologe führt Ermittlungen zu einem Verbrechernetz. Hier können ihm Mobiltelefondaten Aufschluss über die Beziehungen und Hierarchien geben, die unter den Mitgliedern des Netzwerks herrschen.
- Ein Kreditkartenunternehmen möchte ein neues System zur Feststellung von Kartendiebstählen entwickeln. Das System kann hier anhand von bekannten Transaktionsmustern der Karteninhaber – z. B. Stadt und Geschäfte des Karteneinsatzes sowie Transaktionsarten – Abweichungen erkennen und die Karteninhaber über einen möglichen Diebstahl informieren.
- Ein Analyst im Gesundheitswesen führt eine Untersuchung zur Opioid-Krise in Nordamerika durch. Anhand von ärztlichen Verordnungen und demografischen Daten kann er mit zunehmender Ausbreitung der Krise neue Muster erkennen.
Funktionsweise der Verbindungsanalyse
In der folgenden Tabelle erhalten Sie einen Überblick über die in der Verbindungsanalyse verwendeten Begriffe:
Begriff | Beschreibung | Beispiele |
---|---|---|
Netzwerk | Mehrere miteinander verbundene Knoten und Beziehungen. | Soziale Online-Netzwerke verbinden Benutzer anhand ihrer Profile und Beziehungen miteinander. Streckennetze: Fluggesellschaften nutzen zur Beförderung ihrer Passagiere von der Start- zur Zieldestination ein Netzwerk aus Flughäfen und Flügen. |
Knoten | Punkt oder Stützpunkt zur Darstellung eines Objekts, z. B. einer Person, eines Ortes, einer Straftat oder eines Tweets. Ein Knoten kann auch verknüpfte Eigenschaften enthalten. | Die Profile in einem sozialen Netzwerk. Verknüpfte Eigenschaften sind z. B. der Name, die Heimatstadt oder der Arbeitgeber der Benutzers. Die Flughäfen in einem Netzwerk aus Fluggesellschaften. Eine verknüpfte Eigenschaft ist z. B. der Name des Flughafens. |
Link | Die Beziehungen oder Verbindungen zwischen den Knoten. Eine Verbindung kann auch verknüpfte Eigenschaften enthalten. | Die Beziehung zwischen den Profilen im Netzwerk, z. B. Freund, Follower oder Verbindung. Eine verknüpfte Eigenschaften ist z. B. der Länge der Beziehung. Die Flüge zwischen den einzelnen Flughäfen in einem Netzwerk aus Fluggesellschaften. Eine verknüpfte Eigenschaft ist z. B. die Anzahl der Flüge zwischen zwei Flughäfen. |
Zentralität
Die Zentralität ist ein Maß für die Relevanz der Knoten in einem Netzwerk.
Die Gesamtzentralität wird für folgende Zwecke verwendet:
- Bewerten des Einflusses, den ein Knoten auf andere Knoten im Netzwerk hat. Beispiel: Welcher Benutzer erreicht die meisten Benutzer, wenn er eine Nachricht oder ein Stellenangebot veröffentlicht?
- Ermitteln der Knoten, die am stärksten von anderen Knoten beeinflusst werden. Beispiel: Welcher Flughafen ist am stärksten betroffen, wenn es aufgrund eines Unwetters in einer anderen Region zu Flugausfällen kommt?
- Beobachten des Flusses oder der Verbreitung von Informationen, Objekten oder Phänomenen in einem Netzwerk. Beispiel: Wie gelangt ein Paket vom Lager zur Lieferadresse?
- Ermitteln der Knoten, die bestimmte Phänomene am effizientesten durch das Netzwerk verbreiten. Beispiel: An welche Zeitung oder welchen Fernsehsender sollte man sich wenden, damit eine Geschichte möglichst viele Menschen erreicht?
- Ermitteln der Knoten, die die Verbreitung eines Phänomens blockieren oder verhindern können. Beispiel: Wo sollten Impfinstitutionen am besten verortet sein, um die Ausbreitung eines Virus zu verhindern?
In Insights gibt es drei Arten, die Zentralität zu messen: Gradzentralität, Zwischenzentralität, Nähezentralität und Eigenvektor-Zentralität.
Berechnungen für Zwischenzentralität, Nähezentralität und Eigenvektor-Zentralität können gewichtet oder ungewichtet erfolgen.
Gradzentralität
Die Gradzentralität basiert auf der Anzahl der direkten Verbindungen eines Knotens. Damit können Sie die Knoten ermitteln, die den größten direkten Einfluss haben. Beispiel: Die Benutzer in einem sozialen Netzwerk mit den meisten Verbindungen weisen eine hohe Gradzentralität auf.
Die Gradzentralität von Knoten x lässt sich mit der folgenden Gleichung berechnen:
degCentrality(x)=deg(x)/(NodesTotal-1)
Dabei gilt:
- NodesTotal = Anzahl der Knoten im Netzwerk
- deg(x) = Anzahl der mit dem Knoten x verbundenen Knoten
Wenn es sich um gerichtete Verbindungen handelt, die Informationen also nur einseitig zwischen den Knoten fließen, lässt sich die Gradzentralität entweder als Eingangs- oder Ausgangsgradzentralität messen. In sozialen Netzwerken basiert die Eingangsgradzentralität auf der Anzahl der Profile, denen der Benutzer folgt, und die Ausgangsgradzentralität auf der Anzahl der Follower dieses Benutzers.
Die Eingangsgradzentralität von Knoten x lässt sich mit der folgenden Gleichung berechnen:
indegCentrality(x)=indeg(x)/(NodesTotal-1)
Dabei gilt:
- NodesTotal = Anzahl der Knoten im Netzwerk
- indeg(x) = Anzahl der mit Knoten x verbundenen Knoten mit Fluss in Richtung Knoten x
Die Ausgangsgradzentralität von Knoten x lässt sich mit der folgenden Gleichung berechnen:
outdegCentrality(x)=outdeg(x)/(NodesTotal-1)
Dabei gilt:
- NodesTotal = Anzahl der Knoten im Netzwerk
- outdeg(x) = Anzahl der mit dem Knoten x verbundenen Knoten mit Fluss vom Knoten x ausgehend
Knoten in gerichteten Diagrammen werden in Insights standardmäßig nach Ausgangsgradzentralität bemessen.
Zwischenzentralität
Die Zwischenzentralität beschreibt das Ausmaß, zu dem ein Knoten Teil der kürzesten Verbindung zwischen anderen Knoten ist. Damit können Sie ermitteln, über welche Knoten Verbindungen zwischen anderen Knoten im Netzwerk hergestellt werden. Beispiel: Ein Benutzer in einem sozialen Netzwerk mit Verbindungen zu mehreren Freundesgruppen weist eine höhere Zwischenzentralität auf als ein Benutzer mit nur einer Verbindung zu einer Gruppe.
Die Zwischenzentralität von Knoten x lässt sich mit der folgenden Gleichung berechnen:
btwCentrality(x)=Σa,bϵNodes(pathsa,b(x)/pathsa,b)
Dabei gilt:
- Nodes = Alle Knoten im Netzwerk
- pathsa,b = Anzahl der kürzesten Verbindungen zwischen allen Knoten a und b
- pathsa,b(x) = Anzahl der kürzesten Verbindungen zwischen den Knoten a und b über Knoten x
In der obigen Gleichung zur Berechnung der Zwischenzentralität bleibt die Größe des Netzwerks unberücksichtigt; große Netzwerke weisen daher eine höhere Zwischenzentralität auf als kleine. Damit verschieden große Netzwerke vergleichbar werden, muss die Gleichung zur Berechnung der Zwischenzentralität mittels Division durch die Anzahl der Knotenpaare im Diagramm normalisiert werden.
Mit der folgenden Gleichung lässt sich ein ungerichtetes Diagramm normalisieren:
1/2(NodesTotal-1)(NodesTotal-2)
Dabei gilt:
- NodesTotal = Anzahl der Knoten im Netzwerk
Mit der folgenden Gleichung lässt sich ein gerichtetes Diagramm normalisieren:
(NodesTotal-1)(NodesTotal-2)
Dabei gilt:
- NodesTotal = Anzahl der Knoten im Netzwerk
Nähezentralität
Die Nähezentralität basiert auf dem Durchschnitt der kürzesten Pfadentfernung zwischen zwei Knoten im Netzwerk. Damit können Sie ermitteln, welche Knoten am engsten mit den anderen Knoten im Netzwerk verknüpft sind. Beispiel: Ein Benutzer mit vielen direkten Verbindungen im sozialen Netzwerk hat eine höhere Nähezentralität als ein Benutzer, der über andere Personen verbunden ist ("Freund eines Freundes").
Hinweis:
Die Entfernung zwischen Knoten steht für die Anzahl der sie trennenden Verbindungen und nicht für die geographische Entfernung.
Die Nähezentralität von Knoten x lässt sich mit der folgenden Gleichung berechnen:
closeCentrality(x)=(nodes(x,y)/(NodesTotal-1))*(nodes(x,y)/dist(x,y)Total)
Dabei gilt:
- NodesTotal = Anzahl der Knoten im Netzwerk
- nodes(x,y) = Anzahl der mit dem Knoten x verbundenen Knoten
- dist(x,y)Total = Summe der kürzesten Pfadentfernung zwischen dem Knoten x und anderen Knoten
Eigenvektor-Zentralität
Die Eigenvektor-Zentralität basiert auf wichtigen Knoten, die mit anderen wichtigen Knoten verbunden werden. Damit können Sie die Knoten ermitteln, die Teil eines einflussreichen Clusters sind. Beispielweise hat ein Benutzer in einem sozialen Netzwerk mit vielen Verbindungen zu anderen Benutzern eine höhere Eigenvektor-Zentralität als ein Benutzer, der über wenig Verbindungen verfügt oder mit Benutzern verbunden ist, die über wenig Verbindungen verfügen.
Die Eigenvektor-Zentralität des Knotens x wird unter Verwendung der Potenzmethode mit der folgenden Gleichung berechnet, um den größten Eigenvektor zu ermitteln:
Ax=λx
Dabei gilt:
- λ = der Eigenvektor
- x = der Eigenvektor
- A = die Matrix der linearen Transformation
Kantengewichtung
Berechnungen für Nähezentralität, Zwischenzentralität und Eigenvektor-Zentralität können gewichtet oder ungewichtet erfolgen. Bei einer ungewichteten Zentralitätsberechnung wird den Kanten eine einheitliche Gewichtung mit dem Wert 1 zugewiesen. Bei einer gewichteten Berechnung wird jeder Kante anhand von Feldwerten ein Wert zugewiesen.
Hinweis:
Undefinierten Gewichtungen wird der Wert 1 zugewiesen. Es hat sich bewährt, für die Kantengewichtung ein Feld ohne NULL-Werte oder fehlende Werte zuzuweisen.
Bei der Eigenvektor-Zentralität werden Gewichtungen zur Ermittlung der Signalstärke bei Verbindungen zwischen Knoten verwendet. Da mit der Eigenvektor-Zentralität die Relevanz von Knoten im Netzwerk gemessen wird, entsprechen höhere Gewichtungswerte höheren Werten für die jeweiligen Verbindungsknoten.
Bei der Nähezentralität und der Zwischenzentralität geben Gewichtungswerte die Entfernung zwischen Knoten an. Eine höhere Kantengewichtung steht für eine größere Entfernung zwischen Knoten und für eine geringere Wahrscheinlichkeit, dass die Kanten für die kürzeste Route verwendet werden. Wenn eine größere Anzahl im gewünschten Gewichtungsfeld auf eine höhere Relevanz hindeutet (wenn also z. B. die Anzahl der Nachrichten, die zwischen den Mitgliedern in einem sozialen Netzwerk gesendet werden, darauf hindeutet, wie stark die Mitglieder verbunden sind), muss ein neues Feld mit inversen Werten berechnet werden. Verwenden Sie zur Berechnung eines Feldes mit inversen Werten die folgende Gleichung:
weight=ABS(field-MAX(field))+IF(MIN(field)<0, ABS(MIN(field)), MIN(field))
Bei der ungewichteten Berechnung der Nähezentralität bzw. der Zwischenzentralität ist die kürzeste Route die Route mit den wenigsten Verbindungen. Im folgenden Beispiel ist ein Netzwerk mit vier Knoten (A, B, C und D) und einheitlichen Gewichtungen dargestellt. Es gibt zwei Routen, über die Knoten A mit Knoten D verbunden ist: A-B-D und A-B-C-D. Da die Route A-B-D weniger Verbindungen aufweist, ist dies die kürzeste Route.
Bei einer gewichteten Berechnung wird jede Kante basierend auf Feldwerten gewichtet. Für die gewichtete Berechnung der Nähezentralität bzw. der Zwischenzentralität wird zur Ermittlung der kürzesten Routen zwischen Knoten der Bellman-Ford-Algorithmus verwendet.
Im folgenden Beispiel ist ein Netzwerk mit vier Knoten und gewichteten Kanten dargestellt. Route A-B-D weist den Wert 15 und Route A-B-C-D den Wert 9 auf. Da A-B-C-D den niedrigsten Kantenwert aufweist, ist dies die kürzeste Route.
Für die gewichtete Berechnung der Nähezentralität bzw. der Zwischenzentralität werden keine negativen Gewichtungszyklen unterstützt. Wenn ein negativer Gewichtungszyklus erkannt wird, werden alle Zentralitätswerte auf 0 festgelegt. Ein negativer Gewichtungszyklus kann unter folgenden Umständen auftreten:
- Der Graph enthält einen negativen Zyklus.
- Der Graph enthält eine negative Selbstschleife.
- Der Graph ist ungerichtet und enthält eine negative Kante.
Ressourcen
Weitere Informationen zum Thema Verbindungsanalyse finden Sie in den folgenden Quellen: