Ermitteln von Communitys in einem Verbindungsdiagramm

Sie können mit einem Verbindungsdiagramm auf der Basis eines Wissensgraphen Communitys ermitteln und Entitäten suchen, die untereinander eng und mit Entitäten in anderen Communitys lose verbunden sind. Communitys werden basierend auf Entitäten ermittelt, die sich aktuell im Verbindungsdiagramm befinden, und nicht basierend auf dem Inhalt des gesamten Wissensgraphen.

Mithilfe der Algorithmen zur Erkennung von Communitys können Sie Gruppen von eng miteinander verbundenen Entitäten visualisieren, die mit anderen Analysemethoden nicht gefunden werden können. Communitys können unter anderem Folgendes aufzeigen: einflussreiche Gruppen in sozialen Netzwerken, Muster in der wissenschaftlichen Zusammenarbeit und Forschung sowie Personen, die sich aufgrund gemeinsamer Verbindungen besser kennen.

Communitys können eine Entität als Mitglied haben. In Ihren Analysen können Sie auch Entitäten ermitteln, die vom Rest des Netzwerks isoliert sind.

Nachfolgend werden die Berechnungsmethoden für Communitys, die Anpassung der Methodenparameter und die Auswertung der Ergebnisse beschrieben.

Methoden zur Erkennung von Communitys

Für auf einem Wissensgraphen basierende Verbindungsdiagramme gibt es sechs Methoden zur Erkennung von Communitys: Louvain, Girvan-Newman, Doppelt verbunden, Schwach verbunden, Eng verbunden und Beschriftungsweitergabe. Wählen Sie die gewünschte Methode in der Tabellensicht "Community" Community-Erkennung aus der Dropdown-Liste Erkennungsmethode aus. Es kann immer nur eine Methode verwendet werden.

Louvain

Bei der Community-Erkennungsmethode "Louvain" handelt es sich um einen hierarchischen Cluster-Bildungsalgorithmus, der Communitys in großen Netzwerken ausfindig machen kann. Mit der Methode lässt sich untersuchen, wie eng die Entitäten in einer Community miteinander verbunden sind, und sie vergleicht das Ergebnis mit der Art der Verbindung in einem Zufallsnetzwerk. Diese Methode wird beim Öffnen der Tabelle "Community" standardmäßig ausgeführt.

Wenn die Beziehungen in einer Community enger sind als sie es in einem Zufallsnetzwerk wären, ist die Modularität positiv. Die Modularität nimmt zu, da die Beziehungen in den Communitys enger sind.

Mit dieser Methode werden durch Optimierung der Modularität zunächst kleine Communitys erkannt. Die Modularität ist ein Maß für die Qualität der Aufteilung von Knoten in Communitys. Wenn die Beziehungen in einer Community enger sind als sie es in einem Zufallsnetzwerk wären, ist die Modularität positiv, sodass sich die Entitäten in einer Community befinden. Je enger die Beziehungen in einer Community sind, desto höher der Modularitätswert.

Der Prozess wird iterativ wiederholt, und es werden größere Communitys mit zufälligen Community-Zuweisungen untersucht.

Girvan-Newman

Mit der Community-Erkennungsmethode "Girvan-Newman" werden Communitys unter Berücksichtigung der Zwischenzentralität für die Beziehungen ermittelt, durch die die Communitys miteinander verbunden sind. Es werden die kürzesten Verbindungen zwischen allen Entitäten im Graphen und die Zwischenzentralität für alle durchlaufenden Beziehungen berechnet. Beziehungen, durch die separate Communitys miteinander verbunden sind, weisen die höchste Zwischenzentralität auf, weil sie auf dem Weg zwischen zwei Communitys am häufigsten durchlaufen werden müssen.

Die Beziehung mit der höchsten Zwischenzentralität wird entfernt, und der Prozess wird wiederholt. Aufgrund der Entfernung der zentralen Beziehungen werden die Communitys eindeutiger. Die Beziehungen werden iterativ entfernt, bis alle verbleibenden Beziehungen dieselbe Zwischenzentralität aufweisen.

In großen Verbindungsdiagrammen kann dieser Vorgang sehr lange dauern.

Doppelt verbunden

Mit der Methode "Doppelt verbunden" werden im Netzwerk miteinander verbundene Communitys gefunden. Dabei sind zwei durch eine Beziehung verbundene Entitäten Teil derselben Community. Zu einer Community können auch andere Entitäten gehören, sofern sich aus den Beziehungen ein Pfad von einer Entität zu einer anderen ergibt und dies auch noch gilt, wenn eine der Beziehungen aus der Community entfernt wird. Eine Entität kann zu mehreren Communitys gehören.

Verbindungsdiagramm mit drei miteinander verbundenen Communitys

In diesem Beispiel ist die Entität C Bestandteil aller drei Communitys, da sie eine Beziehung zu den Entitäten in allen Communitys aufweist. Die Entitäten A, B und C bilden eine Community, weil sie alle miteinander verbunden sind und dies auch bleiben, wenn eine der Beziehungen entfernt wird. Wenn die Beziehung zwischen C und D oder C und E oder C und F entfernt wird, sind D, E und F nicht mehr mit A und B verbunden und nicht mehr Bestandteil der Community A, B, C.

Schwach verbunden

In einer schwach verbundenen Community sind alle Entitäten durch einen Pfad miteinander verbunden. Die Richtung der Beziehungen zwischen den Entitäten im Verbindungsdiagramm bleibt unberücksichtigt; das heißt, dass das Verbindungsdiagramm als ungerichteter Graph bewertet wird.

Verbindungsdiagramm mit zwei schwach verbundenen Communitys

In diesem Beispiel gibt es zwei schwach verbundene Communitys. A, B, C, D, E und F bilden eine und X, Y und Z eine andere Community. Beide Communitys weisen Beziehungen auf, durch die alle Entitäten verbunden sind. Es gibt keine Beziehungen zwischen der Community X, Y, Z zur Community A, B, C, D, E, F.

Wenn jede Entität im Graphen in irgendeiner Form mit jeder anderen Entität verbunden ist, ist der gesamte Graph schwach verbunden.

Eng verbunden

In einer eng verbundenen Community sind alle Entitäten der Community miteinander verbunden, wenn die Richtung einer Beziehung berücksichtigt wird. Das bedeutet, dass das Verbindungsdiagramm als gerichteter Graph bewertet wird.

Wenn Sie also an einem beliebigen Punkt in der Community beginnen und unter Berücksichtigung aller Beziehungen einen Pfad verfolgen, können Sie alle Entitäten in der Community erreichen.

Verbindungsdiagramm mit einigen eng verbundenen Communitys

In diesem Beispiel sind die Communitys X, Y, Z und A, B, C, D eng verbunden, weil Sie in jeder der beiden bei einer beliebigen Entität starten und über die gerichteten Beziehungen jede andere Entität erreichen können.

E und F sind eigene Communitys, weil sie mit keiner anderen Entität eng verbunden sind. F ist von der Community A, B, C, D aus erreichbar, aber die größere Community kann nicht von F aus erreicht werden. Entsprechend ist die Community A, B, C, D von E aus erreichbar, aber E kann nicht von der größeren Community aus erreicht werden.

Beschriftungsweitergabe

Die Methode "Beschriftungsweitergabe" verfügt über einen Algorithmus zur Ermittlung von Communitys anhand der Art und Weise, auf die die Informationen den Graphen durchlaufen. Dabei erhalten die Entitäten zunächst eine Beschriftung. Anschließend wertet eine nach dem Zufallsprinzip ausgewählte Entität ihre Nachbarn aus und ermittelt die Beschriftung, die von den meisten Nachbarn verwendet wird. Die Beschriftung der Entität wird dann an die von den meisten Nachbarn verwendete Beschriftung angepasst. Dieser Prozess (Auswertung der Nachbarn durch eine Entität und Anpassung der Beschriftung der Entität) wird fortlaufend wiederholt.

Nach mehreren Iterationen tendieren Beschriftungen dazu, in eng verbundenen Communitys vorzuherrschen, und haben Schwierigkeiten, in andere, weniger eng verbundene Regionen des Graphen zu gelangen. Je mehr Iterationen durchgeführt werden, desto größer ist die Wahrscheinlichkeit, dass die Beschriftungen von einer eng in eine schwach verbundene Community gelangen. Wenn jeder Knoten die Beschriftung der meisten seiner Nachbarn aufweist, endet der Algorithmus, auch wenn die festgelegte Anzahl der Iterationen noch nicht erreicht ist.

Bei jeder Ausführung der Methode "Beschriftungsweitergabe" können sich unterschiedliche Community-Konstellationen ergeben, je nachdem, mit welchen Optionen die Analyse durchgeführt wird. Folgende Einstellungen können Sie ändern: die Nummer des Ursprungs, die für die Initialisierung des vom Algorithmus verwendeten Zufallszahlengenerators verwendet wird, die Anzahl der generierten Lösungen und die Anzahl der Iterationen des Algorithmus, die für die Erzeugung jeder Lösung verwendet werden sollen.

Die Tabelle "Community" enthält eine Zusammenfassung aller Lösungen, die sich aus mehreren Durchläufen ergeben. Die Ergebnisse der einzelnen Durchläufe sehen Sie, wenn Sie die Tabelle nach dem Feld Solution sortieren. Es werden standardmäßig 20 Lösungen erstellt. In der Tabelle wird den Ergebnissen des ersten Durchlaufs die Partition 0 und die denen des 20. Durchlaufs die Partition 19 zugeordnet.

Es gibt Einstellungen, mit denen Sie einige Parameter der Methode "Beschriftungsweitergabe" festlegen können. Klicken Sie auf der Werkzeugleiste im oberen Tabellenbereich auf die Schaltfläche Optionen und dann auf die Überschrift Beschriftungsweitergabe.

Öffnen der Tabelle "Community"

Die Communitys für die Entitäten in einem Verbindungsdiagramm werden standardmäßig mit der Louvain-Methode ermittelt und in der Tabelle "Community" Community-Erkennung beschrieben. Über die Dropdown-Liste Erkennungsmethode können Sie eine andere Methode für die Untersuchung von Communitys festlegen. Dann werden alle Tabellenzeilen aktualisiert, sodass sie die Eigenschaften der neuen Community-Ergebnisse enthalten.

Die Tabelle enthält eine Zeile für jede Community. Die Eigenschaften der einzelnen Communitys werden in verschiedenen Feldern der Tabelle angezeigt:

  • Solution– Wird bei der Methode "Beschriftungsweitergabe" nur angezeigt, wenn die Option Lösungsspalte anzeigen aktiviert ist; diese ist standardmäßig aktiviert. Dieses Feld enthält ID für jede Lösung, die sich mit der Methode "Beschriftungsweitergabe" ergibt.
  • Community– Bei allen Community-Erkennungsmethoden mit Ausnahme der Beschriftungsweitergabe enthält dieses Feld eine ID für die Community und wird standardmäßig zum Sortieren der Tabellenzeilen verwendet. Bei der Methode "Beschriftungsweitergabe" enthält diese Spalte einen Wert, der die Community in einer mit dieser Methode erstellten Lösung identifiziert.
  • Count– Die Anzahl der Entitäten in der Community.
  • Entity– Der Anzeigename der einzelnen Entitäten in der Community. Die ersten fünf Entitäten werden standardmäßig aufgelistet. Wenn die Community mehr als fünf Entitäten enthält, können Sie weitere Entitäten anzeigen, indem Sie im unteren Bereich der Liste auf +Mehr klicken. Wenn Sie auf -Weniger klicken, werden weniger Entitäten angezeigt.
  • Type– Der Typ der einzelnen Entitäten in der Community. Die Typen der ersten fünf Entitäten werden standardmäßig aufgelistet. Wenn die Liste mehr Entitäten enthält, werden auch die Typen dieser Entitäten in der Spalte Type aufgeführt. Klicken Sie im unteren Bereich der Liste "Typ" auf +Mehr, um zusätzliche Entitätstypen anzuzeigen. Klicken Sie auf -Weniger, damit weniger Entitätstypen angezeigt werden.

Gehen Sie wie folgt vor, um Communitys für die Entitäten in einem Verbindungsdiagramm anzuzeigen:

  1. Klicken Sie im Menüband auf der Registerkarte Verbindungsdiagramm in der Gruppe Analysieren auf Community Community-Erkennung.

    Die Tabelle "Community" Community-Erkennung wird geöffnet. Der Name, der auf der Registerkarte der Tabellensicht "Community" angezeigt wird, gibt das Verbindungsdiagramm an, für das die Communities berechnet wurden. Standardmäßig wird die Louvain-Methode verwendet. Zeilen der Tabelle werden standardmäßig nach dem Feld Community sortiert.

    Die Tabelle "Community" beschreibt Gruppen aus eng verbundenen Entitäten im Verbindungsdiagramm.

  2. Klicken Sie auf die Dropdown-Liste Erkennungsmethode und dann auf eine andere Untersuchungsmethode für Communitys.

    Communitys im Verbindungsdiagramm werden erneut bewertet, und die Zeilen der Tabelle werden entsprechend den Ergebnissen aktualisiert.

Einbeziehen von Dokumenten

Standardmäßig bleiben Dokument-Entitäten bei der Ermittlung von Communitys unberücksichtigt, auch wenn sie im Verbindungsdiagramm enthalten sind; Dokument-Entitäten können aber in die Berechnungen einbezogen werden. Zum Beispiel können Sie festlegen, dass mit bestimmten Entitäten verbundene Dokumente auch zu diesem Communitys gehören.

  1. Aktivieren oder deaktivieren Sie dazu das Kontrollkästchen Dokumente einbeziehen auf der Werkzeugleiste im oberen Bereich der Tabelle "Community".
    • Aktiviert: Dokument-Entitäten werden bei der Ermittlung von Communitys einbezogen. Dokumente werden berücksichtigt und je nach ausgewählter Methode in ihre jeweiligen Communitys einbezogen.

    • Deaktiviert: Dokument-Entitäten werden bei der Ermittlung von Communitys ignoriert. Dokumente werden nicht berücksichtigt und nicht in Communitys einbezogen. Dies ist die Standardeinstellung.

Die Tabelle "Community" wird automatisch mit den Änderungen, die sich durch diese Einstellung ergeben, aktualisiert. Dokument-Entitäten werden der Tabelle hinzugefügt oder daraus entfernt, und Communitys werden automatisch neu berechnet.

Identifizieren von Communitys im Verbindungsdiagramm

Wenn Sie in der Tabelle "Community" eine oder mehrere Zeilen auswählen, werden im Feld Entity und im damit verknüpften Verbindungsdiagramm alle in den Communitys durch diese Zeilen definierten Entitäten ausgewählt. Klicken Sie auf die Zeilennummer oder auf Werte im Feld Community, Count oder Solution, um eine Zeile in der Tabelle auszuwählen.

Sie können zur Auswahl der Zeile auf eine oder mehrere einzelne Entitäten im Feld Entity klicken. Entsprechend wird eine Entität, die Sie im Verbindungsdiagramm auswählen, im Feld Entity der entsprechenden Tabelle "Community" ausgewählt. Bei der Methode "Beschriftungsweitergabe" kann eine Entität in mehreren Zeilen der Tabelle "Community" enthalten sein; sie wird dann in allen Zeilen ausgewählt, in denen sie vorkommt.

Klicken Sie im Feld Type auf einen Entitätstyp, um alle Entitäten dieses Typs in der Community auszuwählen.

  1. Klicken Sie auf eine Zeile in der Tabelle "Community", um die Entitäten in dieser Community auszuwählen.

    Die entsprechenden Entitäten werden dann im Feld Entity und im Verbindungsdiagramm ausgewählt.

    Entitäten werden in der Tabelle "Community" und im Verbindungsdiagramm ausgewählt.

  2. Klicken Sie im Feld Type auf einen Typ, um alle Entitäten dieses Typs in einer Community auszuwählen.

    Die entsprechenden Entitäten werden dann im Feld Entity und im Verbindungsdiagramm ausgewählt.

    Entitäten des angegebenen Typs in der Community werden in der Tabelle "Community" und im Verbindungsdiagramm ausgewählt.

  3. Klicken Sie auf eine Entität im Feld Entity, um sie auszuwählen.

    Die Entität wird dann im Feld Entity und im Verbindungsdiagramm ausgewählt.

    Die betreffende Entität wird in der Tabelle "Community" und im Verbindungsdiagramm ausgewählt.

  4. Klicken Sie unten in der Liste der Entitäten im Feld Entity oder unten in der Liste der Typen im Feld Type auf +Mehr, um alle Entitäten und Typen in einer Community anzuzeigen.
  5. Klicken Sie unten in der Liste der Entitäten im Feld Entity oder unten in der Liste der Typen im Feld Type auf -Weniger, um weniger Entitäten und Typen in einer Community anzuzeigen.

Durchsuchen der Tabelle "Community" nach einer Entität

Manchmal ist es nicht so leicht zu erkennen, welche Community eine Entität von Interesse enthält. Sie können nach einer Entität suchen und diese in der Tabellensicht "Community" auswählen.

  1. Klicken Sie dazu in das Textfeld auf der Werkzeugleiste im oberen Bereich der Tabelle "Community".
  2. Geben Sie den Anzeigenamen einer Entität aus dem Verbindungsdiagramm ein.

    Die Zeilen der Tabelle "Community" werden dann automatisch nach den Entitäten gefiltert, deren Name mit dem eingegebenen Wert übereinstimmt. In der Tabelle werden nur die gefilterten Entitäten angezeigt.

    Geben Sie den Anzeigennamen einer Entität im Textfeld ein, um die Tabelle "Community" nach dieser Entität zu durchsuchen.

  3. Wählen Sie die Community aus, die die Entität von Interesse enthält.
  4. Klicken Sie im Textfeld "Suchen" auf die Schaltfläche Löschen Löschen, um die Suche zu löschen und alle Zeilen der Tabelle "Community" aufzurufen.

    Es sind dann alle Entitäten der Community sichtbar und bleiben ausgewählt. Alle Communitys in der Tabelle sind sichtbar.

Filtern der Tabelle "Community" nach Entitätstypen

Standardmäßig enthält die Tabelle "Community" alle Entitätstypen aus dem Verbindungsdiagramm. Bei großen Verbindungsdiagrammen kann die Tabelle daher zu viele Informationen für die Verarbeitung enthalten. Sie können die Tabelle dann filtern, sodass nur bestimmte Typen in den jeweiligen Communitys angezeigt werden.

  1. Klicken Sie auf die Schaltfläche Typen Typfilter, die Sie auf der Werkzeugleiste im oberen Bereich der Tabelle "Community" finden.

    Es wird eine Dropdown-Liste angezeigt, die alle Entitätstypen im Wissensgraphen enthält. Es sind selbst diejenigen Typen enthalten, die nicht im Verbindungsdiagramm vorhanden sind. Standardmäßig sind alle Entitätstypen aktiviert.

  2. Lassen Sie die Entitätstypen, die in der Tabelle "Community" angezeigt werden sollen, in der Dropdown-Liste aktiviert. Deaktivieren Sie die Entitätstypen, die nicht in der Tabelle sein sollen. Wenn Sie den gewünschten Entitätstyp nicht in der Liste sehen, beginnen Sie mit der Eingabe des Namens. Die Typenliste wird automatisch gefiltert, und Sie können die Entitätstypen in der gefilterten Liste aktivieren oder deaktivieren.

    Die Gesamtzahl der ausgewählten Entitätstypen wird auf der Werkzeugleiste neben der Schaltfläche Typen angezeigt.

Die Entitäten in der Tabelle "Community" werden automatisch aktualisiert. Entitäten, die die aktivierten Entitätstypen aufweisen, werden in der Tabelle angezeigt. Entitäten, die die nicht aktivierten Entitätstypen aufweisen, werden aus der Tabelle entfernt.

Erneutes Berechnen von Communitys

Wenn Sie die Tabelle "Community" für ein Verbindungsdiagramm zum ersten Mal öffnen, werden die Communitys ermittelt, und im unteren Bereich wird die Meldung "Communitys sind auf dem aktuellen Stand" angezeigt.

Wenn Sie Entitäten oder Beziehungen aus einem Verbindungsdiagramm löschen, spiegeln zuvor ermittelte Communitys den Inhalt des Verbindungsdiagramms möglicherweise nicht mehr wider. Im unteren Bereich der Tabelle "Community" wird die Meldung "Communitys sind veraltet" angezeigt.

  1. Klicken Sie im unteren Bereich der Tabellensicht "Community" auf die Schaltfläche Aktualisieren Aktualisieren.

    Es werden alle Zeilen aus der Tabelle "Community" gelöscht, und neue Communitys werden neu berechnet.

Die Meldung im unteren Bereich der Tabelle gibt an, dass die Communitys auf dem aktuellen Stand sind.

Festlegen von Optionen für die Beschriftungsweitergabe

Bei der Methode "Beschriftungsweitergabe" können Sie die Ermittlung von Communitys im Verbindungsdiagramm steuern.

Beispielsweise können Sie festlegen, wie viele Lösungen mit dieser Methode erzeugt und wie viele Iterationen für jede Lösung durchgeführt werden sollen. Zudem können Sie für die Initialisierung des Zufallszahlengenerators eine Nummer für den Ursprung angeben, die im Algorithmus verwendet wird. Je nach Ursprungswert werden unterschiedliche Lösungen erzeugt.

Wenn Sie die Einstellungen im Bereich Optionen festgelegt haben, aktualisieren Sie die Tabelle "Community", sodass die Communitys neu berechnet werden.

  1. Klicken Sie auf die Schaltfläche Optionen Optionen, die Sie auf der Werkzeugleiste im oberen Bereich der Tabelle "Community" finden.

    Das Fenster Optionen wird angezeigt.

  2. Klicken Sie im Bereich Optionen auf die Überschrift Beschriftungsweitergabe, um die verfügbaren Einstellungen anzuzeigen.
  3. Geben Sie einen Wert im Textfeld Ursprung für Zufallszahlengenerator ein.

    Die Standardeinstellung lautet 0.

  4. Geben Sie im Textfeld Anzahl von Lösungen an, wie häufig der Algorithmus ausgeführt werden soll, um einen Satz Communitys für das Verbindungsdiagramm zu erstellen.

    Die Standardeinstellung lautet 1.

    Wenn als Anzahl von Lösungen der Wert 1 festgelegt wird, wird für das Verbindungsdiagramm ein Satz von Communitys erstellt. Diesen Communitys wird im Feld Solution der Wert 0 zugewiesen. Wenn die Anzahl von Lösungen auf 10 eingestellt ist, werden für das Verbindungsdiagramm Community-Sätze erzeugt, wobei den Communitys des zehnten Durchlaufs im Feld Solution der Wert 9 zugewiesen wird.

  5. Geben Sie im Textfeld Anzahl der Iterationen die maximale Anzahl der Iterationen an, die verwendet werden sollen, um den letzten Community-Satz für eine durch den Beschriftungsweitergabe-Algorithmus erzeugte Lösung zu bestimmen.

    Die Standardeinstellung lautet 1.000.

  6. Über das Kontrollkästchen Lösungsspalte anzeigen können Sie auswählen, ob die gefundenen Communitys sortierbar sein sollen, sodass die durch die einzelnen Durchläufe oder den Algorithmus erzeugte Lösung untersucht wird.
    • Aktiviert: Das Feld Solution wird angezeigt. Dies ist die Standardeinstellung.
    • Deaktiviert: Das Feld Solution wird nicht angezeigt.
  7. Klicken Sie in der unteren rechten Ecke der Tabellensicht "Community" auf die Schaltfläche "Aktualisieren" Aktualisieren, um die aktualisierten Ergebnisse anzuzeigen.