تحليل الرابط هو تقنية تقوم بالتركيز على العلاقات والاتصالات في مجموعة البيانات. يتيح تحليل الروابط حساب مقاييس المركزية - وهي على وجه التحديد الدرجة والوساطة والتقارب ومتجه ذاتي القيمة - وتصوّر الاتصالات على مخطط روابط أو خريطة روابط.
يستخدم تحليل الارتباط شبكة من الروابط والعقد المتواصلة لتحديد وتحليل العلاقات التي لم يتم رؤيتها بسهولة في البيانات الأولية. تتضمن الأنواع الشائعة للشبكات ما يلي:
- الشبكات الاجتماعية التي تظهر من يتحدث لمن
- شبكات دلالية توضح الموضوعات التي تكون مرتبطة بعضها البعض
- تعارض الشبكات التي تشير إلى تحالفات الاتصالات بين المشغلات
- شبكات الخطوط الجوية التي تشير إلى المطارات التي لديها رحلات متواصلة
أمثلة
فيما يلي أمثلة على سيناريوهات استخدام تحليل الروابط:
- محلل الجريمة يتحقق من الشبكة الإجرامية. يمكن استخدام البيانات من سجلات الهاتف الخلوي لتحديد العلاقة والتسلسل الهيكلي بين أعضاء الشبكة.
- شركة بطاقة الائتمان تقوم بتطوير نظام جديد لاكتشاف سرقة بطاقة الائتمان. يستخدم النظام الأنماط المعروفة للمعاملات لكل عميل، مثل المدينة، المتاجر، وأنواع المعاملات لتحديد الأشياء غير الطبيعية وتنبيه العميل لحدوث سرقة محتملة.
- محلل الصحة العامة يبحث عن أزمة الأفيونات في أمريكا الشمالية. يستخدم المحلل الوصفات العلاجية والخصائص الديموغرافية للبيانات لتحديد الأنماط الجديدة التي تظهر مع انتشار الأزمة.
كيفية عمل تحليل الارتباط
يوفر الجدول التالي رؤية عامة على المصطلحات الموجودة في تحليل الارتباط:
مصطلحات | الوصف | أمثلة |
---|---|---|
شبكة | مجموعة من العقد والارتباطات المتواصلة. | شبكة تواصل اجتماعي على الإنترنت تستخدم شبكة ملفات تعريفية وعلاقات لربط المستخدمين. شبكات Airline التي تستخدم شبكة مطارات ورحلات جوية لنقل المسافرين من بلادهم إلى وجهتهم. |
عقدة | نقطة أو نقطة قممية تُمثل كائن، مثل شخص، أو مكان، أو نوع جريمة، أو تغريدة. يمكن أن تشتمل العقدة أيضاً على خصائص مرتبطة. | ملفات التعريف في الشبكات الاجتماعية. قد تشتمل الخصائص المرتبطة على اسم المستخدم، البلدة، أو صاحب العمل. المطارات في شبكة الخطوط الجوية. قد تشتمل الخصائص المرتبطة على اسم المطار. |
رابط | العلاقات او الاتصالات بين العُقد. يمكن أن يشتمل الرابط أيضاً على خصائص مرتبطة. | العلاقة بين ملفات التعريف في الشبكة، مثل صديق، أو تابع، أو اتصال. قد تشتمل الخصائص المرتبطة على طول العلاقة. الرحلات الجوية بين المطارات في شبكة الخطوط الجوية. قد تشتمل الخصائص المرتبطة على عدد الرحلات الجوية بين المطارات. |
مركزية
المكزية هي قياس أهمية العُقد في الشبكة.
يتم استخدام المركزية الشاملة للأغراض التالية:
- تقييم تأثير العُقدة على العُقد الأخرى في الشبكة. على سبيل المثال، ما هو المستخدم الذي يصل إلى معظم المستخدمين الأخرين عند مشاركة قطعة أخبار أو فرصة وظيفة؟
- تحديد العُقد التي تكون أكثر تأثراً بواسطة العُقد الأخرى. على سبيل المثال، ما هو المطار الذي سيكون أكثر تأثراً بإلغاء الرحلات الجوية بسبب العواصف في مناطق مختلفة؟
- مراقبة التدفق أو انتشار شيء ما في جميع أنحاء الشبكة، بما في ذلك المعلومات، أو الكائنات، أو الظواهر. على سبيل المثال، كيف ينتقل طرد من المخزن إلى عنوان التسليم؟
- فهم ظاهرة انتشار العُقد من خلال الشبكة الأكثر كفاءة. على سبيل المثال، ما هي الصحيفة أو القناة التي يجب التواصل معها حتى تصل القصة إلى معظم الأشخاص؟
- تحديد موقع العُقد التي يمكنها حظر أو منع انتشار الظاهرة. على سبيل المثال، أين يجب وضع عيادات التطعيم لوقف انتشار الفيروسات؟
هناك أربع طرق لقياس المركزية في Insights: مركزية الدرجة، مركزية البينية، مركزية القرب، ومركزية المتجه الذاتي.
يمكن أن تكون حسابات التباعد، والقرب ومركزيات القيمة الذاتية مرجحة أو غير مرجحة.
مركزية الدرجة
تستند مركزية الدرجة إلى عدد الاتصالات المباشرة التي تكون لدى كل عقدة. استخدام مركزية الدرجة عندما ترغب في تحديد العُقد التي لديها أشد تأثير مباشر. على سبيل المثال، في شبكة التواصل الاجتماعي، سيتوفر لدى المستخدمين الذي يتمتعون بمعظم الاتصالات بمركزية درجة أكبر.
يتم احتساب مركزية الدرجة للعقدة x باستخدام المعادلة التالية:
degCentrality(x)=deg(x)/(إجماليالعقد-1)
حيث:
- إجماليالعقد = عدد العُقد في الشبكة
- deg(x) = عدد العقد المرتبطة بعقدة x
إذا كانت الروابط موجهة، أي أن المعلومات تتدفق بين العقد في اتجاه واحد فقط، يمكن قياس مركزية الدرجة إما كدرجة داخلية أو خارجية. في حالة الشبكات الاجتماعية، سوف تستند الدرجة الداخلية إلى عدد ملفات التعريف الذي يتبعها المستخدم، في حين تستند الدرجة الخارجية إلى عدد المتتبعين لدى المستخدم.
يتم احتساب مركزية الدرجة الداخلية باستخدام المعادلة التالية:
indegCentrality(x)=indeg(x)/(إجماليالعقد-1)
حيث:
- إجماليالعقد = عدد العُقد في الشبكة
- indeg(x) = عدد العُقد المتصلة بالعقدة x مع التدفق الموجه نحو العُقدة x
يتم احتساب الدرجة الخارجية باستخدام المعادلة التالية:
outdegCentrality(x)=outdeg(x)/(إجماليالعقد-1)
حيث:
- إجماليالعقد = عدد العُقد في الشبكة
- outdeg(x) = عدد العقد المرتبط بعقدة x بتدفق موجه بعيدًا عن عقدة x
بالنسبة للرسومات البيانية الموجهة، يُغير Insights حجم العُقد حسب مركزية الدرجة الخارجية افتراضياً.
مركزية التباين
تعتمد مركزية البينية على المدى الذي تكون العقدة جزءًا من المسار الأقصر بين العقد الأخرى. استخدام مركزية التباين عندما ترغب في تحديد العُقد التي تستخدم لاتصال العُقد الأخرى بعضها البعض. على سبيل المثال، مستخدم في الشبكات الاجتماعية لديه اتصالات بأكثر من مجموعة من الأصدقاء سيكون لديه مركزية تباين أعلى من المستخدمين الذين لديهم اتصالات في مجموعة واحدة فقط.
يتم حساب مركزية وسطية عقدة x باستخدام المعادلة التالية:
btwCentrality(x)=Σa,bϵ عقدة(المساراتa,b(x)/المساراتa,b)
حيث:
- العقد = كل العقد في الشبكة
- المساراتa،b = عدد المسارات الأقصر بين كل عقد a وb
- المساراتa،b(x) = عدد المسارات الأقصر بين عقد a وb التي تتصل عبر عقدة x
لا تضع معادلة مركزية التباين المذكورة أعلاه في الاعتبار حجم الشبكة، لذلك تميل الشبكات الكبيرة أن يكون لديها قيم أكبر لمركزية التباين عن الشبكات الصغيرة. للسماح بالمقارنات بين الشبكات بأحجامها المختلفة، يجب توحيد معادلة مركزية التباين بواسطة القسمة على عدد أزواج العُقدة في المخطط.
تستخدم المعادلة التالية لتوحيد المخطط غير الموجه:
1/2(إجماليالعقد-1)(إجماليالعقد-2)
حيث:
- إجماليالعقد = عدد العُقد في الشبكة
تستخدم المعادلة التالية لتوحيد المخطط الموجه:
(إجماليالعقد-1)(إجماليالعقد-2)
حيث:
- إجماليالعقد = عدد العُقد في الشبكة
مركزية التقارب
تستند مركزية التقارب إلى متوسط أقصر مسافة لمسار الشبكة بين العُقد. استخدام مركزية التقارب عندما ترغب في تحديد العُقد التي يتم ارتباطها بالعُقد الأخرى في الشبكة بشكل وثيق للغاية. على سبيل المثال، سيكون لدى المستخدم الذي يتمتع بالمزيد من الاتصالات في شبكة التواصل الاجتماعي مركزية اقتراب أكبر من المستخدم المتصل عبر أشخاص آخرين (أي صديق لصديق).
ملاحظة:
تشير المسافة بين العُقد إلى عدد الروابط المنفصلة عنهم، وليست المسافة الجغرافية.
يتم احتساب مركزية التقارب للعُقدة x باستخدام المعادلة التالية:
closeCentrality(x)=(إجمالي العقد(x,y)/العقد-1))*(إجمالي العقد(x,y)/التوزيع(x,y))
حيث:
- إجماليالعقد = عدد العُقد في الشبكة
- nodes(x,y) = عدد العقد المرتبطة بعقدة x
- dist(x,y)الإجمالي = مجموع مسافات المسار الأقصر من عقدة x إلى العقد الأخرى.
مركزية المتجه الذاتي
تعتمد مركزية المتجه الذاتي على عقد هامة يتم ربطها بالعقد الهامة الأخرى. استخدام مركزية المتجه الذاتي عندما تريد تحديد العقد التي تكون جزءًا من مجموعة تأثير. على سبيل المثال، سيتمتع مستخدم شبكة التواصل الاجتماعي والذي يوجد لديه اتصالات عديدة بمستخدمين آخرين بمركزية متجه ذاتي أعلى مقارنة بمستخدم باتصالات أقل أو متصل بمستخدمين آخرين باتصالات أقل.
يتم حساب مركزية المتجه الذاتي لعقدة x باستخدام إعادة الطاقة للبحث عن أكبر مركزية للمتجه الذاتي باستخدام المعادلة التالية:
Ax=λx
حيث:
- λ = القيمة الذاتية
- x = المتجه الذاتي
- A = المصفوفة تصف التحويل الخطي
وزن الحافة
يمكن أن تكون حسابات القرب والبينية ومركزيات القيمة الذاتية مرجحة أو غير مرجحة. يعين حساب المركزية غير المرجحة الحواف على ترجيح موحد بقيمة 1، بينما يستخدم الحساب المرجح قيم الحقل لتعيين قيمة لكل حافة.
ملاحظة:
يتم تعيين قيمة 1 للأوزان غير المحددة. من أفضل الممارسات تعيين حقل بدون قيم خالية أو مفقودة لترجيح الحافة.
بالنسبة لمركزية المتجهات الذاتية، يتم استخدام الترجيحات لتحديد قوة الاتصال بين العُقد. نظرًا لأن مركزية المتجهات الذاتية تقيس أهمية العُقد داخل الشبكة، فإن قيم الترجيح الأعلى تتوافق مع القيم الأعلى للعقد المتصلة.
بالنسبة لمراكز القرب والبينية، تشير قيم الترجيح إلى المسافة بين العُقد. تعني تؤجيحات الحواف الأعلى مسافة أكبر بين العقد وتقليل احتمالية استخدام الحافة في أقصر مسار. إذا كان الرقم الأعلى في حقل الترجيح المطلوب يشير إلى أهمية متزايدة (على سبيل المثال، يشير عدد الرسائل المرسلة بين الأعضاء في شبكة اجتماعية إلى مدى اتصال الأعضاء)، فيجب حساب حقل جديد بقيم معكوسة. استخدم المعادلة التالية لحساب حقل القيم العكسية:
weight=ABS(field-MAX(field))+IF(MIN(field)<0, ABS(MIN(field)), MIN(field))
بالنسبة لحساب القرب أو البينية غير المرجحة، فإن أقصر مسار هو المسار الذي يستخدم أقل عدد من الروابط. يوضح المثال أدناه شبكة بها أربع عُقد (A وB وC وD) وترجيحات موحدة. هناك مساران يربطان العقدة A بالعقدة D: A-B-D أو A-B-C-D. نظرًا لأن A-B-D تحتوي على عدد أقل من الروابط، فهو أقصر مسار.
يطبق الحساب المرجح أوزانًا على كل حافة بناءً على قيم الحقل. تستخدم مركزيات القرب والبينية المرجح خوارزمية بيلمان فورد للعثور على أقصر المسارات بين العُقد.
يوضح المثال أدناه شبكة بها أربع عُقد وحواف مرجحة. يتضمن المسار A-B-D قيمة 15 والمسار A-B-C-D قيمة 9. نظرًا لأن A-B-C-D يحتوي على أقل قيمة للحافة، فهو المسار الأقصر.
لا تدعم حسابات القرب والبينية المرجحة دورات الترجيح السالبة. إذا تم الكشف عن دورة ترجيح سالبة، فسيتم تعيين جميع قيم المركزية على 0. يمكن أن تحدث دورة الترجيح السالبة في الظروف التالية:
- يحتوي الرسم البياني على دورة سلبية.
- يحتوي الرسم البياني على دورة ذاتية سالبة.
- الرسم البياني غير موجه ويحتوي على حافة سالبة.
موارد
استخدم الموارد التالية للتعرف على المزيد عن تحليل الارتباط: