تحليل التراجع هو تقنية تحليل تقوم بحساب العلاقة المقدرة بين متغير تبعي ومتغير توضيحي واحد أو أكثر. باستخدام تحليل التراجع، يمكنك نمذجة العلاقة بين المتغيرات المختارة وكذلك التنبؤ بالقيم بناءً على النموذج.
معاينة تحليل التراجع
يستخدم تحليل التراجع طريقة تقدير مختارة ومتغير تبعي ومتغير توضيحي واحد أو أكثر لإنشاء معادلة تقوم بتقدير قيم المتغير التبعي.
يشمل نموذج الانحدار الإخراجات، مثل R2 والقيم الاحتمالية p، لتوفير معلومات بشأن مدى كفاءة تقدير النموذج للمتغير التابع.
يمكن أيضًا استخدام المخططات، مثل مقاييس مخطط التبعثر والمدرجات التكرارية ومخططات النقاط، في تحليل الانحدار لتحليل العلاقات واختبار الافتراضيات.
يمكن أيضًا استخدام تحليل التراجع لحل المشكلات التالية:
- تحديد المتغيرات التوضيحية المرتبطة بالمتغير التبعي.
- التعرف على العلاقة بين المتغير التبعي والمتغير التوضيحي.
- التنبؤ بالقيم المعروفة للمتغير التبعي.
أمثلة
محلل لسلسلة محال صغيرة يدرس أداء المواقع المختلفة للمتجر. يريد المحلل التعرف على سبب وجود نسبة مبيعات منخفضة بشكل غير متوقع في بعض المتاجر. ينشئ المحلل نموذج تراجع بمتغيرات توضيحية، مثل متوسط العمر والدخل في المنطقة المحيطة، وكذلك المسافة إلى مراكز البيع بالتجزئة والمواصلات العامة، من أجل تحديد المتغيرات المؤثر على حركة المبيعات.
محلل تابع لوزارة التعليم يدرس تأثير برامج الإفطار المدرسي. يقوم المحلل بإنشاء نموذج تراجع لنتائج التحصيل الدراسي، مثل معدل التخرج، باستخدام متغيرات توضيحية، مثل حجم الفصل الدراسي ودخل الأسرة وميزانية المدرسة لكل فرد نسبة الطلاب الذي يتناولون الإفطار يوميًا. يمكن استخدام معادلة النموذج لتحديد التأثير النسبي لكل متغير على نواتج التحصيل الدراسي.
محلل تابع لمنظمة غير حكومية يدرس انبعاثات غازات الدفيئة في العالم. يقوم المحلل بإنشاء نموذج تراجع لأحدث الانبعاثات لكل بلد يستخدم متغيرات توضيحية، مثل الناتج المحلي الإجمالي (GDP) وعدد السكان وإنتاج الطاقة الكهربائية باستخدام وقود الحفريات واستخدام المركبات. ومن ثمَّ، يمكن استخدام النموذج للتنبؤ بانبعاثات غازات الدفيئة في العالم باستخدام القيم التقديرية للناتج المحلي الإجمالي وعدد السكان.
المربعات الأقل الاعتيادية
تتم نمذجة تحليل الانحدار في ArcGIS Insights باستخدام طريقة المربعات الصغرى العادية (OLS).
تعد طريقة المربعات الصغرى المعتادة (OLS) نموذجًا لانحدار خطي متعدد، وهو ما يعني أنه يجب نمذجة العلاقة بين المتغيرات التابعة والمتغيرات المستقلة عن طريق ملاءمة معادلة خطية للبيانات المراقَبَة.
نموذج OLS يستخدم المعادلة التالية:
yi=β0+β1x1+β2x2+...+βnxn+ε
حيث:
- yi=القيمة المراقَبَة للمتغير التبعي عند نقطة i
- β0=تقاطع y (قيمة ثابتة)
- βn=معامل انحدار أو منحدر للمتغير التوضيحي N عند النقطة i
- xn=قيمة المتغير N عند النقطة i
- ε=خطأ معالجة التراجع
الافتراضيات
يوجد لدى كل طريقة من طرق التراجع افتراضات متعددة يجب تلبيتها للمعادلة لاعتبارها جديرة بالثقة. يجب التحقق من صحة افتراضات OLS عند إنشاء نموذج تراجع.
يجب اختبار وتلبية الافتراضية التالية عند استخدام طريقة OLS:
- يجب أن يكون النموذج خطيًا.
- يجب أخذ عينة البيانات عشوائيًا.
- يجب ألا تتواجد المتغيرات التوضيحية على خط واحد.
- يجب أن يوجد في المتغيرات التوضيحية خطأ بسيط في القياس.
- يوجد لدى القيم المتبقية مجموع صفر متوقع.
- تحتوي القيم المتبقية على متغير متجانس.
- يتم توزيع القيم المتبقية بشكل معتاد.
- يجب ألا تعرض القيم المتبقية المتجاورة ارتباطًا تلقائيًا.
يجب أن يكون النموذج خطيًا
لا يمكن استخدام تراجع OLS إلا لإنشاء نموذج خطي. يمكن اختبار الخطية بين المتغير التبعي والمتغيرات التوضيحية باستخدام مخطط تبعثر. يمكن لـ مصفوفة مخطط التبعثر اختبار كل المتغيرات، شريطة أن يزيد العدد عن 5 متغيرات بشكل إجمالي.
يجب أخذ عينة من البيانات عشوائيًا
يجب أخذ عينة من البيانات المستخدمة في تحليل التراجع بطريقة تكون فيها العينات نفسها مستقلة عن أي عامل خارجي. يمكن اختبار أخذ عينة عشوائية باستخدام القيم المتبقية من نموذج الانحدار. يجب ألا يوجد ارتباط في القيم المتبقية، والتي تعد ناتجًا لنموذج التراجع، عند وضعها مقابل المتغيرات التوضيحية على مخطط تبعثر أو مصفوفة مخطط تبعثر.
يجب ألا تتواجد المتغيرات التوضيحية على خط واحد
تشير الخطية إلى علاقة خطية بين المتغيرات التوضيحية، وتنشئ تكرارًا في النموذج. في بعض الحالات، يمكن إنشاء النموذج باستخدام الخطية. ومع ذلك، إذا ظهر أن أحد المتغيرات الخطية يعتمد على متغير خطي آخر، يمكنك أخذ إفلات ذلك المتغير من النموذج في اعتبارك. يمكن اختبار الخطية باستخدام مخطط تبعثر أو مصفوفة مخطط تبعثر للمتغيرات التوضيحية.
يجب أن يوجد في المتغيرات التوضيحية خطأ بسيط في القياس.
نموذج التراجع هو النموذج الوحيد الذي يتساوى في دقته مع بياناته المدخلة. إذا كان لدى المتغيرات التوضيحية هوامش خطأ أكبر، فإنه يتعذر قبول النموذج كنموذج دقيق. عند تنفيذ تحليل تراجع، من الضروري استخدام مجموعات بيانات من مصادر معروفة وموثوقة لضمان بساطة الخطأ.
يوجد لدى القيم المتبقية مجموع صفر متوقع
القيم المتبقية هي الاختلاف بين القيم المراقبة والمقدرة في تحليل انحدار. سيكون لدى القيم المراقَبَة التي تقع أعلى منحنى التراجع قيمة متبقية موجبة، وسيكون لدى القمي المراقَبَة التي تقع أسفل منحنى التراجع قيمة متبقية سلبية. يجب أن يقع منحنى التراجع بطول مركز نقاط البيانات، لذا يجب أن يكون مجموع القيم المتبقية صفرًا. يمكن حساب مجموع حقل في جدول ملخص.
تحتوي القيم المتبقية على متغير متجانس
يجب أن يكون التباين متطابقًا لكل القيم المتبقية. يمكن اختبار هذا الافتراض باستخدام مخطط تبعثر للقيم المتبقية (محور y) والقيم المقدرة (محور x). يجب أن يظهر مخطط التبعثر الناتج كشريط أفقي من النقاط المبعثرة عبر المخطط.
يتم توزيع القيم المتبقية بشكل معتاد
يعد التوزيع المعتاد، والذي يُعرَف أيضًا باسم منحنى الجرس، توزيعًا طبيعيًا، حيث يكون معدل حدوث الظاهرة مرتفعًا بجانب المتوسط وينتهي بزيادة المسافة من المتوسط. غالبًا ما يتم استخدام توزيعًا عاديًا على أنه الفرض البطال في تحليل إحصائي. يجب توزيع القيم المتبقية بشكل عادي لعرض تحسين ذلك الخط الخاص بأفضل ملاءمة مركزيًا ضمن نقاط البيانات المراقَبَة، وليس انحرافًا تجاه البعض وبعيدة عن البعض الآخر. يمكن اختبار هذا الافتراض بإنشاء مدرج تكراري بالقيم المتبقية. قد يتم تراكب منحنى التوزيع الطبيعي ويتم الإبلاغ عن قياسات الانحراف والتفرطح على الجهة الخلفية من بطاقة المدرج التكراري.
يجب ألا تعرض القيم المتبقية المتجاورة ارتباطًا تلقائيًا
يعتمد الافتراض على بيانات مرتبة حسب الوقت. إذا تم ترتيب البيانات حسب الوقت، فيجب أن تكون كل نقاط البيانات مستقلة عن نقاط البيانات السابقة واللاحقة. لذا، من الضروري التأكد من تنظيم البيانات المرتبة حسب الوقت بالترتيب الصحيح عند تنفيذ تحليل تراجع. يمكن حساب هذا الافتراض باستخدام اختبار دربن واتسون.
يعد اختبار درين واتسون قياسًا للارتباط التلقائي في القيم المتبقية في نموذج التراجع. يستخدم اختبار درين واتسون مقياسًا من 0 إلى 4 بقيم من 0 إلى 2 تشير إلى ارتباط تلقائي موجب، و2 يشير إلى عدم وجود ارتباط تلقائي، وكذلك من 2 إلى 4 يشير إلى ارتباط تلقائي سالب. لذا، تعد القيم القريبة من 2 مطلوبة لتلبية افتراض عدم ارتباط تلقائي في القيم المتبقية. بشكل عام، تعتبر القيم بين 1.5 و2.5 مقبولة، في حين أن القيم الأقل من 1.5 أو أكبر من 2.5 تشير إلى أن النموذج لا يتلائم مع افتراض عدم الارتباط التلقائي.
التحقق من صحة النموذج
تعد دقة معادلة التراجع جزءًا هامًا من تحليل التراجع. ستشمل كل النماذج جزءًا من الخطأ، ولكن سيساعدك التعرف على الإحصائيات تحديد ما إذا كان بالإمكان استخدام النموذج في التحليل أو إذا كانت هناك حاجة إلى أي تعديلات.
هناك طريقتان لتحديد صحة نموذج انحدار: التحليل التوضيحي والتحليل التوكيدي.
التحليل التوضيحي
التحليل التوضيحي هو طريقة لفهم بياناتك باستخدام مجموعة متنوعة من التقنيات المرئية والإحصائية. خلال تحليلك التوضيحي، سوف تختبر افتراضات انحدار المربعات الصغرى المعتادة (OLS) ومقارنة فعالية المتغيرات التوضيحية المختلفة. سيسمح لك التحليل التوضيحي بمقارنة فعالية النماذج المختلفة ودقتها، لكنه لا يحدد ما إذا كان يجب عليك استخدام النموذج أو رفضه. يجب إجراء التحليل التوضيحي قبل التحليل التأكيدي لكل نموذج انحدار والتكرار لإجراء مقارنات بين النماذج.
يمكن استخدام المخططات والإحصائيات التالية كجزء من التحليل التوضيحي:
- مخطط التبعثر ومصفوفة مخطط التبعثر
- المدرج التكراري والتوزيع الطبيعي
- معادلة الانحدار والتنبؤ بملاحظات جديدة
- معامل التحديد R2 وR2 المعدل
- الخطأ القياسي المتبقي
- مخطط نقطة
يجب أن يبدأ التحليل التوضيحي أثناء اختيار المتغيرات التوضيحية وقبل إنشاء نموذج انحدار. نظرًا لأن المربعات الصغرى المعتادة (OLS) هي طريقة انحدار خطي، فأن أحد الافتراضات الرئيسية هي أن النموذج يجب أن يكون خطيًا. يمكن استخدام مخطط تبعثر ومصفوفة مخطط تبعثر لتقييم الخطية بين المتغير التابع والمتغيرات التوضيحية. يمكن لمصفوفة مخطط تبعثر عرض حتى أربعة متغيرات توضيحية إلى جانب المتغير التابع، مما يجعلها أداة مهمة للمقارنات واسعة النطاق بين كل المتغيرات. يمكن لمخطط تبعثر واحد عرض متغيرين: متغير تابع ومتغير تابع أو توضيحي. يتيح لك عرض مخطط تبعثر لمتغير تابع ومتغير توضيحي واحد إجراء تقييم أكثر حدة للعلاقة بين المتغيرات. يمكن اختبار الخطية قبل إنشاء نموذج انحدار للمساعدة في تحديد المتغيرات التوضيحية التي ستُنشئ نموذجًا مقبولاً.
تتوفر العديد من الإخراجات الإحصائية بعد إنشاء نموذج انحدار، بما في ذلك معادلة الانحدار وقيمة R2 واختبار دربن واتسون. بمجرد إنشاء نموذج الانحدار، يجب عليك استخدام الإخراجات والجداول والرسوم البيانية اللازمة لاختبار افتراضات انحدار المربعات الصغرى المعتادة (OLS) المتبقية. إذا كان النموذج يلبي الافتراضات، يمكنك المتابعة مع التحليل التوضيحي المتبقي.
تقدم معادلة الانحدار معلومات قيمة حول تأثير كل متغير توضيحي على القيم المتوقعة، بما في ذلك معامل الانحدار لكل متغير توضيحي. يمكن مقارنة قيم المنحدر لتحديد التأثير النسبي لكل متغير توضيحي بالنسبة للمتغير التابع؛ كلما تغيرت قيمة المنحدر عن الصفر (سواء كانت موجبة أو سالبة)، زاد التأثير. يمكن أيضًا استخدام معادلة الانحدار للتنبؤ بقيم المتغير التابع بإدخال قيم لكل متغير توضيحي.
يقيس معامل التحديد الذي يحمل رمز R2 مدى ملاءمة نمذجة معادلة الانحدار لنقاط البيانات الفعلية. قيمة R2 هي عدد بين 0 و1، بقيم أقرب إلى 1 يشير إلى نماذج أكثر دقة. تشير قيمة R2 إلى نموذج كامل، وهو ما يعد بعيد الاحتمال للغاية في مواقف عالم الواقع التي حصلت على تعقيد التفاعلات بين العوامل المختلفة والمتغيرات المجهولة. لذا، يجب عليك بذل ما بوسعك لإنشاء نموذج تراجع بأعلى قيمة R2 ممكنة، في حين أنه قد لا يكون التعرف على أن تلك القيمة أقرب إلى 1.
عند تنفيذ تحليل تراجع، توجد مخاطرة إنشاء نموذج تراجع بقيمة R2 مقبولة بإضافة متغيرات توضيحية تتسبب في ملاءمة أفضل بناءً على الحظ فقط. تُحسَب قيمة R2 المعدلة، وهي ما تعد أيضًا قيمة بين 0 و1، لمتغيرات توضيحية إضافية، مما يعمل على تخفيض الدور الذي يلعبه الحظ في الحساب. يجب استخدام R2 لنماذج تستخدم متغيرات توضيحية عديدة، أو عند مقارنة النماذج مع أرقام مختلفة للمتغيرات التوضيحية.
يقيس الخطأ القياسي المتبقي الدقة حيث يمكن لنموذج الانحدار أن يتنبأ بالقيم مع البيانات الجديدة. تشير القيم الأصغر إلى نموذج أكثر دقة؛ لذلك، عند مقارنة نماذج متعددة، سيكون النموذج ذو القيمة الأصغر هو النموذج الذي يقلل من الخطأ القياسي المتبقي.
يمكن استخدام المخططات النقطية لتحليل المتغيرات التوضيحية الخاصة بك لأنماط مثل التجميع والقيم الشاذة، والتي قد تؤثر على دقة النموذج.
التحليل التوكيدي
التحليل التأكيدي هو عملية اختبار النموذج الخاص بك مقابل فرضية العدم. في تحليل الانحدار، تكون فرضية العدم هي أنه لا توجد علاقة بين المتغير التابع والمتغيرات التوضيحية. سيكون للنموذج الذي لا علاقة له قيم ميل من 0. إذا كانت عناصر التحليل التوضيحي ذات دلالة إحصائية، فيمكنك رفض فرضية العدم (بمعنى آخر، تشير الدلالة الإحصائية إلى وجود علاقة بين المتغيرات التابعة والتوضيحية).
تُستخدم النواتج الإحصائية التالية لتحديد الأهمية كجزء من التحليل التأكيدي:
- إحصاء F والقيمة الاحتمالية p
- إحصائيات t والقيم الاحتمالية p المقترنة
- الفواصل الزمنية للثقة
إحصاء F هو إحصاء عالمي يتم إرجاعه من اختبار F، مما يشير إلى قدرة التوقع لنموذج الانحدار من خلال تحديد ما إذا كانت جميع معاملات الانحدار في النموذج مختلفة بشكل كبير عن 0. يحلل اختبار F التأثير المشترك للمتغيرات التوضيحية، بدلاً من اختبار المتغيرات التوضيحية بشكل فردي. إحصاء F له قيمة احتمالية p مقترنة، مما يشير إلى احتمالية حدوث العلاقات في بياناتك عن طريق الصدفة. نظرًا لأن القيم الاحتمالية p تستند إلى الاحتمالات، يتم إعطاء القيم على مقياس من 0.0 إلى 1.0. يلزم وجود قيمة احتمالية p صغيرة، عادةً ما تكون 0.05 أو أقل، لتحديد أن العلاقات في النموذج حقيقية (بمعنى آخر، لا تحدث بالصدفة) ولرفض فرضية العدم. في هذه الحالة، يكون احتمال حدوث العلاقات في النموذج بالصدفة 0.05 أو 1 في 20. بدلاً من ذلك، فإن احتمال أن تكون العلاقات حقيقية هو 0.95 أو 19 في 20.
إحصاء t هو إحصاء محلي يتم إرجاعه من اختبار t، والذي يشير إلى قدرة التوقع لكل متغير توضيحي على حدة. مثل اختبار F، يحلل اختبار t ما إذا كانت معاملات الانحدار في النموذج تختلف اختلافًا كبيرًا عن الصفر. ومع ذلك، نظرًا لإجراء الاختبار على كل متغير توضيحي، سيعود النموذج بقيمة إحصائية لكل متغير توضيحي، بدلاً من واحد لكل نموذج. لكل إحصاء t قيمة محتملة p مرتبطة، والذي يشير إلى أهمية المتغير التوضيحي. مثل قيم p الاحتمالية لاختبار F، يجب أن تكون قيمة p لكل اختبار t هي 0.05 أو أقل لرفض فرضية العدم. إذا كان للمتغير التوضيحي قيمة احتمالية p أكبر من 0.05، فيجب إهمال المتغير وإنشاء نموذج جديد، حتى لو كانت قيمة الاحتمالية p العامة مهمة.
تُظهر فواصل الثقة الزمنية معامل الانحدار لكل متغير توضيحي وفواصل الثقة المرتبطة 90 و95 و99 في المائة. لذلك، يمكن استخدام الفواصل الزمنية للثقة إلى جانب القيم p من اختبارات t لتقييم فرضية العدم للمتغيرات التوضيحية الفردية. يجب ألا تساوي معاملات الانحدار 0 إذا كنت ترفض فرضية العدم ومتابعة استخدام النموذج. لذلك، بالنسبة لكل متغير توضيحي، يجب ألا يتداخل معامل الانحدار والفواصل الزمنية للثقة المرتبطة مع 0. إذا تداخل فاصل الثقة الزمني 99 أو 95 بالمائة لمتغير توضيحي محدد مع 0، فقد فشل المتغير التوضيحي في رفض فرضية العدم. قد يكون لإدراج مثل هذا المتغير في النموذج تأثيرًا على الأهمية الإجمالية للنموذج. إذا تداخل فقط فاصل الثقة الزمني 90 بالمائة مع 0، فيمكن إدراج المتغير التوضيحي في النموذج شريطة أن تكون الإحصائيات العامة الأخرى كبيرة. بشكل مثالي، يجب أن تكون فواصل الثقة لجميع المتغيرات التوضيحية بعيدة عن 0.
النواتج الأخرى
تعتبر النواتج الأخرى، مثل القيم المقدرة والمتبقية، مهمة لاختبار افتراضات انحدار المربعات الصغرى المعتادة (OLS). في هذا القسم، سوف تتعلم المزيد عن كيفية حساب هذه القيم.
القيم المقدرة
تُحتسب القيم المقدرة باستخدام معادلة الانحدار والقيم لكل متغير توضيحي. بشكل مثالي، ستكون القيم المقدرة مساوية للقيم المُلاحظة (بمعنى آخر، القيم الفعلية للمتغير التابع).
تُستخدم القيم المقدرة مع القيم المُلاحظة لحساب القيم المتبقية.
المُتبقي
تمثل القيم المتبقية في تحليل تراجع الانحدار الاختلافات بين القيم المُلاحظة في مجموعة البيانات والقيم المقدرة المحسوبة بمعادلة الانحدار.
سيتم حساب القيم المتبقية A وB للعلاقة أعلاه كما يلي:
القيم المتبقيةA = ملحوظةA - مقدرA القيم المتبقيةA = 595 - 487.62 القيم المتبقيةA = 107.38
القيم المتبقيةB = ملحوظةB - مقدرB القيم المتبقيةB = 392 - 527.27 القيم المتبقيةB = -135.27
يمكن استخدام القيم المتبقية لحساب الخطأ في معادلة تراجع وكذلك لاختبار افتراضات عديدة.