Выявление сообществ в диаграмме связей

Вы можете использовать диаграмму связей, основанную на графе знаний, для выявления сообществ, чтобы найти элементы, которые тесно связаны друг с другом и слабо связаны с элементами в других сообществах. Сообщества выявляются на основе элементов, которые в данный момент присутствуют на диаграмме связей, а не на содержании графа знаний в целом.

Алгоритмы выявления сообщества могут помочь вам визуализировать группы тесно связанных элементов, которые невозможно обнаружить с помощью других методов анализа. Сообщества могут отображать влиятельные группы в социальной сети, научное сотрудничество и образцы исследований, людей, которые с большей вероятностью знают друг друга на основе общих связей, и так далее.

Сообщество может иметь один элемент в качестве участника. Ваш анализ также может выявить элементы, которые изолированы от остальной части сети.

Методы вычисления сообществ, настройки параметров метода и изучения результатов описаны ниже.

Методы выявления сообществ

Для диаграмм связей на основе графа знаний доступны шесть методов обнаружения сообщества: Лувен, Гирван Ньюман, Двухсвязный, Слабо связанные, Сильно связанные и Надписать распространение. Выберите метод из ниспадающего списка Метод выявления в виде таблицы Community Обнаружение сообщества. Одновременно можно использовать только один метод.

Лувен

Метод выявления сообществ Лувена представляет собой алгоритм иерархической кластеризации, который обнаруживает сообщества в больших сетях. Метод оценивает, насколько плотно связаны элементы в сообществе, и сравнивает результат с тем, насколько связаны элементы в рандомизированной сети. Этот метод используется по умолчанию при открытии таблицы Community.

Если отношения внутри сообщества более плотные, чем в случайной сети, модульность является положительной. Модульность увеличивается по мере того, как отношения в сообществах становятся более плотными.

Этот метод сначала выявляет небольшие сообщества за счет оптимизации модульности. Модульность — это мера качества разделения узлов на сообщества . Если отношения в сообществе более плотные, чем в случайной сети, модульность является положительной , и элементы помещаются в сообщество. Чем плотнее отношения в сообществе, тем выше показатель модульности.

Процесс повторяется итеративно, оценивая сообщества увеличивающегося размера со случайно назначенными сообществами.

Гирван Ньюман

Метод выявления сообществ Гирвана-Ньюмана идентифицирует сообщества, рассматривая уровень промежуточности для отношений, которые связывают сообщества друг с другом. Кратчайшие пути рассчитываются между всеми элементами в графе, а центральность промежуточности рассчитывается для всех пройденных отношений. Отношения, которые соединяют отдельные сообщества, имеют наивысшую центральность промежуточности, потому что их нужно пересекать чаще всего, чтобы добраться от одного сообщества к другому.

Отношения с наивысшей центральностью промежуточности удаляются, и процесс повторяется. По мере удаления центральных отношений сообщества становятся более отчетливыми. Отношения итеративно удаляются до тех пор, пока все оставшиеся отношения не будут иметь одинаковую центральность промежуточности.

Этот процесс может занять много времени для очень больших диаграмм связей.

Двухсвязные

Метод Двухсвязные находит сообщества в сети, которые связаны друг с другом. Два элемента, связанные отношениями, являются частью одного и того же сообщества. Другие элементы принадлежат к тому же сообществу, если отношения позволяют переходить от одного элемента к другому, и если это остается верным после удаления одного из отношений в сообществе. Каждый элемент может принадлежать многим сообществам.

Диаграмма связей с тремя взаимосвязанными сообществами

В этом примере C является частью всех трех сообществ, поскольку он имеет отношение к элементам в каждом сообществе. Элементы A, B и C образуют одно сообщество, поскольку каждый из них связан друг с другом, и они остаются связанными друг с другом, когда одно из отношений между ними удаляется. Когда отношения между C и D, или C и E, или C и F удалены, D, E и F, соответственно, больше не связаны с A и B, поэтому они не являются частью сообщества A, B и С.

Слабо связанные

Слабо связанное сообщество — это сообщество, в котором все элементы связаны друг с другом посредством пути. Направление отношений между элементами в диаграмме связей не учитывается; то есть диаграмма связей оценивается как неориентированный граф.

Диаграмма связей с двумя слабо связанными сообществами

В этом примере есть два слабо связанных сообщества. A, B, C, D, E и F образуют одно сообщество, а X, Y и Z образуют другое сообщество. Каждое из этих сообществ имеет отношения, которые соединяют все элементы. Отсутствуют отношения, связывающие сообщество X, Y, Z с сообществом A, B, C, D, E, F.

Если каждый элемент в графе каким-либо образом связан со всеми другими элементами, весь граф слабо связан.

Сильно связанные

Сильно связанное сообщество — это сообщество, в котором все элементы в сообществе связаны друг с другом, когда рассматривается направление отношений. То есть диаграмма связей оценивается как ориентированный граф.

Это означает, что если вы начнете где-то в сообществе и проследите путь, учитывающий направление каждого отношения, вы сможете достичь всех элементов в сообществе.

Диаграмма связей с некоторыми сильно связанными сообществами

В этом примере сообщества X, Y, Z и сообщества A, B, C, D тесно связаны, потому что вы можете начать с любого элемента в любом сообществе и следовать направленным отношениям, чтобы достичь каждого другого элемента.

E и F являются их собственными сообществами, поскольку они не сильно связаны с какими-либо другими элементами. Вы можете связаться с F из сообщества A, B, C, D, но вы не можете связаться с большим сообществом из F. Точно так же вы можете связаться с сообществом A, B, C, D из E, но вы не можете связаться с E из более крупного сообщества.

Надписать распространение

Метод Надписать распространение - это алгоритм, который определяет сообщества на основе того, как информация перемещается по графу. Сначала элементам присваивается надпись. Затем элемент, выбранный случайным образом, оценивает своих соседей и определяет, какая надпись используется большинством их соседей. Элемент обновляет свою надпись так, чтобы она соответствовала той, что есть у большинства ее соседей. Процесс оценки элементом своих соседей и обновления своей надписи повторяется снова и снова.

После нескольких итераций надписи, как правило, становятся доминирующими в плотно связанных сообществах и имеют проблемы с переходом в другие области графа, которые менее связаны. Чем больше итераций используется, тем больше шансов, что надписи перейдут от сообщества с плотной связью к сообществу со слабой связью. Когда у каждого узла есть надпись, которая есть у большинства его соседей, алгоритм завершается, даже если заданное количество итераций не было выполнено.

Метод Надписать распространения может создавать разные наборы сообществ каждый раз, когда он используется, в зависимости от того, какие параметры используются для выполнения анализа. Вы можете изменить начальное число, используемое для инициализации генератора случайных чисел, используемого алгоритмом, количество генерируемых решений и количество итераций алгоритма, используемых для получения каждого решения.

В таблице Community представлена совокупность всех решений, созданных в результате нескольких запусков. Вы можете увидеть результаты каждого запуска, отсортировав таблицу Community с помощью поля Solution. По умолчанию создается 20 решений. Результаты первого запуска связаны с нулевым разделом, а результаты двадцатого запуска связаны с разделом 19 в таблице.

Доступны настройки, позволяющие определить некоторые параметры метода Надписать распространение. Щелкните кнопку Опции на панели инструментов вверху таблицы Community и щелкните заголовок Надписать распространение.

Открыть таблицу Community

Сообщества для элементов в диаграмме связей определяются по методу Лувена по умолчанию и описываются в таблице Community Обнаружение сообщества. Используйте ниспадающий список Метод выявления, чтобы оценивать сообщества с помощью другого метода. Все строки в таблице будут обновлены для отображения свойств новых результатов сообщества.

В таблице есть одна строка для каждого сообщества. Свойства каждого сообщества показаны в разных полях таблицы:

  • Solution- Отображается для метода Надписать распространение, только если отмечена опция Показать столбец решения; опция отмечена по умолчанию. В этом поле содержится идентификатор для каждого решения, созданного методом Надписать распространение.
  • Community- для всех методов обнаружения сообщества, кроме Надписать распространение, в этом поле отображается идентификатор сообщества, и оно используется по умолчанию для сортировки строк в таблице. Для метода Надписать распространение в этом столбце отображается значение, которое идентифицирует сообщество в одном решении, созданном этим методом.
  • Count- Число элементов в сообществе.
  • Entity- Отображаемое имя для каждого элемента в сообществе. Первые пять элементов перечислены по умолчанию. Если сообщество включает более пяти элементов, вы можете отобразить дополнительные элементы, щелкнув +Больше в нижней части списка. Щелкните -Меньше, чтобы показать меньше элементов.
  • Type- Тип элемента для каждого элемента в сообществе. Типы первых пяти элементов перечислены по умолчанию. Когда в списке отображается больше элементов, соответствующие им типы элементов также отображаются в столбце Type. Щелкните +Больше в нижней части списка Тип, чтобы отобразить дополнительные типы элементов. Щелкните -Меньше, чтобы показать меньше типов элементов.

Чтобы просмотреть сообщества для элементов на диаграмме связей, выполните следующие действия:

  1. На вкладке Диаграмма связей на ленте в группе Анализ щелкните Сообщество Обнаружение сообщества.

    Открывается таблица Community Обнаружение сообщества. Имя, отображаемое на вкладке вида таблицы Community, определяет диаграмму связей, для которой были рассчитаны сообщества. Метод Лувена используется по умолчанию. По умолчанию строки в таблице сортируются с использованием поля Community.

    Таблица Community описывает группы тесно связанных элементов в диаграмме связей.

  2. Щелкните ниспадающий список Метод выявления и щелкните другой метод оценки сообществ.

    Сообщества в диаграмме связей оцениваются повторно, а строки в таблице обновляются для представления результатов.

Включить документы

По умолчанию элементы Document не учитываются при обнаружении сообществ, даже если они присутствуют в диаграмме связей; однако вы можете включить в расчеты элементы Document. Например, вы можете определить, принадлежат ли документы, связанные с определенными элементами, этим сообществам.

  1. Снимите или поставьте отметку Включить документы на панели инструментов в верхней части таблицы Community.
    • Отмечено - включать элементы Document при выявлении сообществ. Документы будут рассмотрены и включены в соответствующие сообщества на основе выбранного метода.

    • Не отмечено - исключить элементы Document при выявлении сообществ. Документы не будут рассматриваться или включаться в сообщества. Это установка по умолчанию.

Таблица Community автоматически обновляется, чтобы отразить изменения этой настройки. Элементы Document добавляются в таблицу или удаляются из нее, а сообщества пересчитываются автоматически.

Идентификация сообществ в диаграмме связей

Когда вы выбираете одну или несколько строк в таблице Community, все элементы в сообществах, определенных этими строками, выбираются в полеEntity в таблице и в связанной диаграмме связей. Щелкните номер строки или значения в полях Community, Count, или Solution, чтобы выбрать строку в таблице.

Вы можете щелкнуть один или несколько отдельных элементов в полеEntity, чтобы выбрать их. Точно так же, если вы выберете элемент на диаграмме связей, он будет выбран в поле Entityсоответствующей таблицы Community. При использовании метода выявления Надписать распространение элемент может появляться более чем в одной строке таблицы Community и выбирается во всех строках, в которых он появляется.

Вы можете щелкнуть тип элемента в поле Type, чтобы выбрать все элементы этого типа в сообществе.

  1. Щелкните строку в таблице Community, чтобы выбрать элементы в этом сообществе.

    Соответствующие элементы выбираются в поле Entity и на диаграмме связей.

    Элементы сообщества выбираются в таблице Community и на диаграмме связей.

  2. Щелкните тип в поле Type, чтобы выбрать все элементы этого типа в сообществе.

    Соответствующие элементы выбираются в поле Entity и на диаграмме связей.

    Элементы указанного типа в сообществе выбираются в таблице Community и на диаграмме связей.

  3. Щелкните элемент в поле Entity, чтобы выбрать его.

    Элемент выбран в поле Entity и на диаграмме связей.

    Конкретный элемент выбирается в таблице Community и на диаграмме связей.

  4. Щелкните +Больше внизу списка элементов в поле Entity или внизу списка типов в поле Type, чтобы увидеть все элементы и типы в сообществе.
  5. Щелкните -Меньше внизу списка элементов в поле Entity или внизу списка типов в поле Type, чтобы увидеть меньше элементов и типов в сообществе.

Поиск элемента в таблице Community

Может быть неочевидно, какое сообщество включает интересующий элемент. Вы можете выполнить поиск элемента, чтобы выбрать его в виде таблицы Community.

  1. Щелкните текстовое поисковое окно на панели инструментов в верхней части таблицы Community.
  2. Введите отображаемое имя элемента в диаграмме связей.

    Строки в таблице Community автоматически фильтруются, чтобы отображались только элементы, отображаемое имя которых совпадает с введенным вами именем. В таблице отображаются только строки, представляющие отфильтрованные элементы.

    Введите отображаемое имя объекта в текстовое поисковое окно, чтобы найти элемент в таблице Community.

  3. Выберите сообщество, содержащее интересующий вас элемент.
  4. Щелкните кнопку Удалить Удалить в текстовом поисковом окне, чтобы очистить поиск и просмотреть все строки в таблице Community.

    Все элементы в сообществе видны и остаются выбранными. Все сообщества видны в таблице.

Фильтрация по типу элемента, отображаемого в таблице Community

По умолчанию таблица Community включает все типы элементов в диаграмме связей. Для больших диаграмм связей таблица может содержать слишком много информации для обработки. Вы можете отфильтровать типы, отображаемые в таблице, чтобы показать только определенные типы элементов в соответствующих сообществах.

  1. Щелкните кнопку Типы Фильтры типов на панели инструментов в верхней части таблицы Community.

    Появится ниспадающий список, включающий все типы элементов в графе знаний, даже если элементов этого типа нет на диаграмме связей. По умолчанию отмечены все типы элементов.

  2. В ниспадающем списке отметьте нужные типы элементов в таблице Community. Снимите отметку с типов элементов, которые вы не хотите использовать в таблице. Введите имя типа элемента, если вы не видите его в списке; список типов элементов фильтруется автоматически, и вы можете отметить или снять отметку с типами элементов в отфильтрованном списке.

    Общее количество выбранных типов элементов отображается на панели инструментов рядом с кнопкой Типы.

Элементы в таблице Community обновляются автоматически. Элементы, связанные с отмеченными типами элементов, отображаются в таблице. Элементы, связанные с неотмеченными типами элементов, удаляются из таблицы.

Пересчитать сообщества

Когда вы впервые открываете таблицу Community для диаграммы связей, обнаруживаются сообщества, и в нижней части таблицы появляется сообщение, указывающее, что сообщества обновлены.

После добавления или удаления элементов и связей в диаграмме связей ранее обнаруженные сообщества могут больше не отражать содержание диаграммы связей. Внизу таблицы Community появится сообщение о том, что сообщества устарели.

  1. В нижней части вида таблицы Community щелкните кнопку Обновить Refresh.

    Все строки удаляются из таблицы Community, и новые сообщества пересчитываются.

Сообщение в нижней части таблицы указывает на то, что сообщества обновлены.

Установка опций метода Надписать распространение

Метод Надписать распространение позволяет вам в некоторой степени контролировать процесс обнаружения сообществ в диаграмме связей.

Вы можете определить, сколько решений создается этим методом и сколько итераций используется для разработки каждого решения. Также может быть предоставлено начальное число для инициализации генератора случайных чисел, который используется в алгоритме. При разных начальных значениях могут быть получены разные решения.

После выбора настроек на панели Опции обновите таблицу Community, чтобы пересчитать сообщества.

  1. Щелкните кнопку Опции Опции на панели инструментов в верхней части таблицы Community.

    Появится панель Опции.

  2. На панели Опции щелкните заголовок Надписать распространение, чтобы просмотреть доступные настройки.
  3. Введите значение в текстовом окне Начальная точка генератора случайных чисел.

    Значение по умолчанию равно нулю.

  4. В текстовом окне Количество решений введите количество запусков алгоритма для создания набора сообществ для диаграммы связей.

    Значение по умолчанию равно 1.

    Если Количество решений равно 1, для диаграммы связей создается один набор сообществ. Эти сообщества связаны с нулевым значением в поле Solution. Если Количество решений равно 10, для диаграммы связей создается 10 наборов сообществ, а сообщества для десятого запуска связаны со значением девять в поле Solution.

  5. В текстовом окне Число итераций введите максимальное число итераций, которое будет использоваться для определения окончательного набора сообществ для одного решения, созданного алгоритмом метода Надписать распространение.

    Число по умолчанию - 1000

  6. Отметка Показать столбец решения позволяет выбрать, можно ли сортировать найденные сообщества для оценки решения, полученного в результате каждого запуска или алгоритма.
    • Отмечено - отображается поле Solution. Используется по умолчанию.
    • Не отмечено - поле Solution не отображается.
  7. В правом нижнем углу вида таблицы Community щелкните кнопку Обновить Refresh, чтобы просмотреть обновленные результаты .