اختبار فرضيات بسيطة باختبار Pearson chi-square في MS EXCEL. شروط وقيود استخدام اختبار Pearson chi-square

حتى نهاية القرن التاسع عشر ، كان التوزيع الطبيعي يعتبر القانون العالمي لتغير البيانات. ومع ذلك ، لاحظ K.Pearson أن الترددات التجريبية يمكن أن تختلف اختلافًا كبيرًا عن التوزيع الطبيعي. كان السؤال كيف يمكن إثبات ذلك. لم يتطلب فقط مقارنة رسومية ، وهو أمر شخصي ، ولكن أيضًا تبريرًا كميًا صارمًا.

وهكذا اخترع المعيار χ 2(مربع كاي) ، الذي يختبر أهمية التناقض بين الترددات التجريبية (المرصودة) والنظرية (المتوقعة). حدث هذا في عام 1900 ، لكن المعيار لا يزال قيد الاستخدام حتى اليوم. علاوة على ذلك ، فقد تم تكييفه لحل مجموعة واسعة من المهام. بادئ ذي بدء ، هذا هو تحليل البيانات الاسمية ، أي تلك التي يتم التعبير عنها ليس بالكمية ، ولكن بالانتماء إلى فئة. على سبيل المثال ، فئة السيارة وجنس المشارك في التجربة ونوع النبات وما إلى ذلك. لا يمكن تطبيق العمليات الحسابية مثل الجمع والضرب على مثل هذه البيانات ، يمكن فقط حساب الترددات لها.

نشير إلى الترددات المرصودة أوه (لوحظ)، مُتوقع - E (متوقع). كمثال ، لنأخذ نتيجة رمي النرد 60 مرة. إذا كان متماثلًا وموحدًا ، فإن احتمال ظهور أي جانب هو 1/6 وبالتالي فإن العدد المتوقع لكل جانب قادم هو 10 (1/6 ∙ 60). نكتب الترددات المرصودة والمتوقعة في جدول ونرسم مدرج تكراري.

الفرضية الصفرية هي أن الترددات متسقة ، أي أن البيانات الفعلية لا تتعارض مع المتوقع. الفرضية البديلة هي أن الانحرافات في الترددات تتجاوز التقلبات العشوائية ، أي أن التناقضات ذات دلالة إحصائية. للوصول إلى نتيجة صارمة ، نحن بحاجة.

  1. مقياس معمم للتناقض بين الترددات المرصودة والمتوقعة.
  2. يتم توزيع هذا المقياس تحت صحة الفرضية القائلة بعدم وجود فروق.

لنبدأ بالمسافة بين الترددات. إذا أخذنا الفرق فقط يا - إي، إذن سيعتمد هذا الإجراء على حجم البيانات (الترددات). على سبيل المثال ، 20-5 = 15 و 1020 - 1005 = 15. في كلتا الحالتين ، يكون الفرق هو 15. لكن في الحالة الأولى ، تكون الترددات المتوقعة أقل بثلاث مرات من الترددات المرصودة ، وفي الحالة الثانية ، 1.5 فقط ٪. نحتاج إلى مقياس نسبي لا يعتمد على المقياس.

دعنا ننتبه إلى الحقائق التالية. في الحالة العامة ، يمكن أن يكون عدد التدرجات التي تُقاس فيها الترددات أكبر بكثير ، لذا فإن احتمال أن تقع ملاحظة واحدة في فئة أو أخرى يكون ضئيلًا نوعًا ما. إذا كان الأمر كذلك ، فإن توزيع مثل هذا المتغير العشوائي سوف يخضع لقانون الأحداث النادرة ، المعروف باسم قانون بواسون. في قانون بواسون ، كما هو معروف ، قيمة التوقع الرياضي والتباين هما نفس الشيء (المعلمة λ ). ومن ثم ، التردد المتوقع لبعض فئات المتغير الاسمي إيسيكون في وقت واحد وتشتت لها. علاوة على ذلك ، يميل قانون بواسون مع عدد كبير من الملاحظات إلى الوضع الطبيعي. بدمج هاتين الحقيقتين ، نحصل على أنه إذا كانت الفرضية حول الاتفاق بين الترددات المرصودة والمتوقعة صحيحة ، مع عدد كبير من الملاحظات، التعبير

سوف نحصل على .

من المهم أن نتذكر أن الحالة الطبيعية ستظهر فقط عند الترددات العالية بما فيه الكفاية. من المقبول عمومًا في الإحصائيات أن العدد الإجمالي للملاحظات (مجموع الترددات) يجب أن يكون 50 على الأقل وأن يكون التردد المتوقع في كل تدرج على الأقل 5. في هذه الحالة فقط ، سيكون للقيمة الموضحة أعلاه معيار عادي توزيع. لنفترض أنه تم استيفاء هذا الشرط.

يحتوي التوزيع الطبيعي القياسي على جميع القيم تقريبًا ضمن ± 3 (قاعدة سيغما الثلاثة). وبالتالي ، فقد تلقينا فرقًا نسبيًا في الترددات لتدرج واحد. نحن بحاجة إلى مقياس معمم. لا يمكنك فقط جمع كل الانحرافات - نحصل على 0 (احزر السبب). اقترح بيرسون إضافة مربعات هذه الانحرافات.

هذه هي العلامات معيار χ 2بيرسون. إذا كانت الترددات تتوافق حقًا مع الترددات المتوقعة ، فستكون قيمة المعيار صغيرة نسبيًا (لأن معظم الانحرافات قريبة من الصفر). ولكن إذا تبين أن المعيار كبير ، فإن هذا يشهد لصالح وجود اختلافات كبيرة بين الترددات.

يصبح المعيار "كبيرًا" عندما يصبح من غير المحتمل حدوث مثل هذه القيمة أو حتى أكبر منها. ولحساب مثل هذا الاحتمال ، من الضروري معرفة توزيع المعيار عند تكرار التجربة عدة مرات ، عندما تكون فرضية اتفاق التردد صحيحة.

كما ترى ، تعتمد قيمة مربع كاي أيضًا على عدد المصطلحات. وكلما زاد عددهم ، زادت قيمة المعيار ، لأن كل مصطلح سيساهم في المبلغ الإجمالي. لذلك ، لكل كمية لا يعتمدحيث سيكون لها توزيعها الخاص. لقد أتضح أن χ 2هي مجموعة كاملة من التوزيعات.

وها نحن نصل إلى لحظة حساسة. ما هو الرقم لا يعتمدمصلحات؟ يبدو أن أي مصطلح (أي انحراف) مستقل. اعتقد ك. بيرسون ذلك أيضًا ، لكن تبين أنه كان مخطئًا. في الواقع ، سيكون عدد المصطلحات المستقلة أقل بمقدار واحد من عدد تدرجات المتغير الاسمي ن. لماذا ا؟ لأنه إذا كان لدينا عينة تم حساب مجموع الترددات الخاصة بها بالفعل ، فيمكن دائمًا تعريف أحد الترددات على أنه الفرق بين العدد الإجمالي ومجموع كل الترددات الأخرى. وبالتالي ، سيكون الاختلاف أقل إلى حد ما. لاحظ رونالد فيشر هذه الحقيقة بعد 20 عامًا من قيام بيرسون بتطوير معياره. حتى الطاولات كان لا بد من إعادة بنائها.

في هذه المناسبة ، قدم فيشر مفهومًا جديدًا للإحصاءات - درجة من الحرية(درجات الحرية) ، وهو عدد المصطلحات المستقلة في المجموع. مفهوم درجات الحرية له تفسير رياضي ولا يظهر إلا في التوزيعات المرتبطة بالعادي (Student و Fisher-Snedekor و chi-square نفسه).

لفهم معنى درجات الحرية بشكل أفضل ، دعنا ننتقل إلى النظير المادي. تخيل نقطة تتحرك بحرية في الفضاء. لديها 3 درجات من الحرية ، لأن يمكن أن تتحرك في أي اتجاه من الفضاء ثلاثي الأبعاد. إذا تحركت نقطة على طول أي سطح ، فهذا يعني أنها تتمتع بالفعل بدرجتين من الحرية (للأمام - للخلف ، ولليمين - لليسار) ، على الرغم من استمرار وجودها في الفضاء ثلاثي الأبعاد. النقطة التي تتحرك على طول الربيع هي مرة أخرى في الفضاء ثلاثي الأبعاد ، ولكن لديها درجة واحدة فقط من الحرية ، لأن يمكن أن تتحرك إما للأمام أو للخلف. كما ترى ، فإن المساحة التي يوجد بها الكائن لا تتوافق دائمًا مع حرية الحركة الحقيقية.

قد يعتمد أيضًا توزيع معيار إحصائي تقريبًا على عدد أقل من العناصر من الشروط اللازمة لحسابه. في الحالة العامة ، يكون عدد درجات الحرية أقل من عدد الملاحظات بعدد التبعيات المتاحة. إنها رياضيات بحتة ، لا سحر.

إذن التوزيع χ 2هي عائلة من التوزيعات ، كل منها يعتمد على معيار درجات الحرية. والتعريف الرسمي لاختبار كاي سكوير هو كما يلي. توزيع χ 2(مربع تشي) مع كدرجات الحرية هي توزيع مجموع المربعات كالمتغيرات العشوائية القياسية المستقلة.

بعد ذلك ، يمكننا الانتقال إلى الصيغة نفسها ، والتي وفقًا لها يتم حساب دالة توزيع مربع كاي ، لكن لحسن الحظ ، تم حساب كل شيء بالنسبة لنا منذ فترة طويلة. للحصول على احتمالية الاهتمام ، يمكنك استخدام الجدول الإحصائي المقابل أو وظيفة جاهزة في برنامج متخصص ، والذي يتوفر حتى في Excel.

من المثير للاهتمام أن نرى كيف يتغير شكل توزيع مربع كاي اعتمادًا على عدد درجات الحرية.

مع زيادة درجات الحرية ، يميل توزيع مربع كاي إلى أن يكون طبيعيًا. يتم تفسير ذلك من خلال عمل نظرية الحد المركزي ، والتي بموجبها يكون لمجموع عدد كبير من المتغيرات العشوائية المستقلة توزيع طبيعي. لا يقول أي شيء عن المربعات.

اختبار فرضية مربع تشي

لذلك نأتي إلى اختبار الفرضيات باستخدام طريقة مربع كاي. بشكل عام ، تظل التقنية قائمة. يتم طرح فرضية فارغة مفادها أن الترددات المرصودة تتوافق مع الترددات المتوقعة (أي لا يوجد فرق بينها ، حيث إنها مأخوذة من نفس السكان). إذا كانت هذه هي الحالة ، فسيكون الانتشار صغيرًا نسبيًا ، ضمن حدود التقلبات العشوائية. يتم تحديد مقياس الانتشار عن طريق اختبار مربع كاي. بعد ذلك ، إما أن يتم مقارنة المعيار نفسه بالقيمة الحرجة (لمستوى الأهمية المقابل ودرجات الحرية) ، أو بشكل صحيح ، يتم حساب المستوى p الملحوظ ، أي احتمال الحصول على هذه القيمة أو حتى قيمة أكبر للمعيار تحت صلاحية الفرضية الصفرية.

لان نظرًا لأننا مهتمون باتفاق الترددات ، فسيتم رفض الفرضية عندما يكون المعيار أكبر من المستوى الحرج. أولئك. المعيار أحادي الجانب. ومع ذلك ، في بعض الأحيان (في بعض الأحيان) يكون مطلوبًا اختبار فرضية اليد اليسرى. على سبيل المثال ، عندما تكون البيانات التجريبية مشابهة جدًا لتلك النظرية. ثم يمكن أن يقع المعيار في منطقة غير محتملة ، ولكن بالفعل على اليسار. الحقيقة هي أنه في الظروف الطبيعية ، من غير المرجح الحصول على ترددات تتطابق عمليًا مع تلك النظرية. هناك دائما بعض العشوائية التي تعطي خطأ. ولكن إذا لم يكن هناك مثل هذا الخطأ ، فربما تكون البيانات مزورة. لكن مع ذلك ، عادة ما يتم اختبار الفرضية اليمنى.

دعنا نعود إلى مشكلة النرد. احسب قيمة اختبار مربع كاي وفقًا للبيانات المتاحة.

لنجد الآن القيمة المجدولة للمعيار عند 5 درجات من الحرية ( ك) ومستوى دلالة 0.05 ( α ).

هذا هو χ2 0.05 ؛ 5 = 11,1.

دعنا نقارن القيمة الفعلية والجداول. 3.4 ( χ 2) < 11,1 (χ2 0.05 ؛ 5). تبين أن المعيار المحسوب أصغر ، مما يعني أن فرضية المساواة (الموافقة) للترددات لم يتم رفضها. في الشكل ، يبدو الوضع هكذا.

إذا سقطت القيمة المحسوبة في المنطقة الحرجة ، فسيتم رفض الفرضية الصفرية.

سيكون من الأصح حساب المستوى p أيضًا. للقيام بذلك ، تحتاج إلى إيجاد أقرب قيمة في الجدول لعدد معين من درجات الحرية والاطلاع على مستوى الأهمية المقابل. لكن هذا هو القرن الماضي. نحن نستخدم جهاز كمبيوتر ، وخاصة MS Excel. يحتوي Excel على العديد من الوظائف المتعلقة بـ chi-square.

فيما يلي وصف موجز لها.

XI2.OBR- القيمة الحرجة للمعيار لاحتمال معين على اليسار (كما في الجداول الإحصائية)

chi2.ex.phهي القيمة الحرجة للمعيار لاحتمال معين على اليمين. الوظيفة تكرر بشكل أساسي الوظيفة السابقة. ولكن هنا يمكنك تحديد المستوى على الفور α ، بدلاً من طرحها من 1. هذا أكثر ملاءمة ، لأن في معظم الحالات ، يكون المطلوب هو الذيل الصحيح للتوزيع.

CH2.DIST- مستوى p على اليسار (يمكن حساب الكثافة).

HI2.DIST.PH- مستوى p على اليمين.

HI2.TEST- يقوم بإجراء اختبار مربع كاي على نطاقي تردد معينين في وقت واحد. يتم أخذ عدد درجات الحرية أقل بمقدار واحد من عدد الترددات في العمود (كما ينبغي أن يكون) ، مع إرجاع قيمة المستوى p.

في الوقت الحالي ، لنحسب في تجربتنا القيمة الحرجة (الجدولية) لـ 5 درجات من الحرية و 0.05 ألفا. ستبدو صيغة Excel كما يلي:

CH2.OBR (0.95 ؛ 5)

chi2.inv.rx (0.05؛ 5)

ستكون النتيجة هي نفسها - 11.0705. هذه هي القيمة التي نراها في الجدول (مقربة إلى منزلة عشرية واحدة).

أخيرًا ، نحسب المستوى p لـ 5 درجات من الحرية للمعيار χ 2= 3.4. نحتاج إلى الاحتمال على اليمين ، لذلك نأخذ الوظيفة مع إضافة RH (الذيل الأيمن)

CH2.DIST.RH (3.4 ؛ 5) = 0.63857

لذلك ، مع 5 درجات من الحرية ، احتمال الحصول على قيمة المعيار χ 2= 3.4 فأكثر تساوي 64٪ تقريبًا. بطبيعة الحال ، لا يتم رفض الفرضية (المستوى p أكبر من 5٪) ، والترددات في توافق جيد جدًا.

والآن دعنا نتحقق من الفرضية المتعلقة باتفاق التردد باستخدام دالة CH2.TEST.

لا توجد جداول ، ولا حسابات مرهقة. عند تحديد الأعمدة ذات الترددات المرصودة والمتوقعة كوسيطات للوظيفة ، نحصل على المستوى p على الفور. الجمال.

تخيل الآن أنك تلعب النرد بنوع مريب. يظل توزيع النقاط من 1 إلى 5 كما هو ، لكنه يتدحرج 26 ستًا (يصبح عدد جميع القوائم 78).

تبين أن المستوى P في هذه الحالة هو 0.003 ، وهو أقل بكثير من 0.05. هناك أسباب جدية للشك في صحة النرد. هذا ما يبدو عليه هذا الاحتمال في مخطط توزيع مربع كاي.

تبين أن معيار chi-square نفسه هنا هو 17.8 ، وهو بطبيعة الحال أكثر من المعيار الجدولي (11.1).

آمل أن أكون قادرًا على شرح ما هو معيار جودة الملاءمة. χ 2(مربع كاي) بيرسون وكيف يتم اختبار الفرضيات الإحصائية معها.

أخيرًا ، مرة أخرى عن حالة مهمة! يعمل اختبار مربع كاي بشكل صحيح فقط عندما يتجاوز عدد جميع الترددات 50 ، ولا تقل القيمة الدنيا المتوقعة لكل تدرج عن 5. إذا كان التردد المتوقع في أي فئة أقل من 5 ، ولكن مجموع كل الترددات يتجاوز 50 ، ثم يتم دمج هذه الفئة مع أقرب فئة بحيث يتجاوز إجمالي ترددها 5. إذا لم يكن ذلك ممكنًا ، أو كان مجموع الترددات أقل من 50 ، فيجب استخدام طرق أكثر دقة لاختبار الفرضيات. سنتحدث عنها مرة أخرى.

يوجد أدناه مقطع فيديو حول كيفية اختبار فرضية باستخدام اختبار مربع كاي في Excel.

  • رياضيات
  • في هذا المقال سنتحدث عن دراسة العلاقة بين الميزات ، أو ، كما تريد ، المتغيرات العشوائية ، المتغيرات. على وجه الخصوص ، سنقوم بتحليل كيفية تقديم مقياس للاعتماد بين الميزات باستخدام اختبار Chi-square ومقارنته بمعامل الارتباط.

    لماذا قد تكون هناك حاجة إلى هذا؟ على سبيل المثال ، من أجل فهم الميزات الأكثر اعتمادًا على المتغير المستهدف عند إنشاء التصنيف الائتماني - تحديد احتمال تقصير العميل. أو ، كما في حالتي ، لفهم المؤشرات التي يجب استخدامها لبرمجة روبوت التداول.

    بشكل منفصل ، ألاحظ أنه لتحليل البيانات أستخدم لغة c #. ربما تم تنفيذ كل هذا بالفعل في R أو Python ، لكن استخدام c # بالنسبة لي يسمح لي بفهم الموضوع بالتفصيل ، علاوة على ذلك ، هذه هي لغة البرمجة المفضلة لدي.

    لنبدأ بمثال بسيط للغاية ، دعنا ننشئ أربعة أعمدة في Excel باستخدام مولد أرقام عشوائي:
    X= RANDOMBETWEEN (-100،100)
    ص =X*10+20
    ض =X*X
    تي= RANDOMBETWEEN (-100،100)

    كما ترى ، المتغير صتعتمد خطيا على X؛ عامل ضمن الدرجة الثانية تعتمد على X؛ المتغيرات Xو تيلا يعتمد. لقد اتخذت هذا الاختيار عن قصد ، لأننا سنقارن مقياس الاعتماد لدينا مع معامل الارتباط. كما تعلم ، بين متغيرين عشوائيين يكون المقياس 1 إذا كان النوع الأكثر "صلابة" من الاعتماد الخطي بينهما. لا يوجد ارتباط صفري بين متغيرين عشوائيين مستقلين ، ولكن لا ينبع استقلالية معامل الارتباط من تساوي معامل الارتباط. سنرى هذا لاحقًا في مثال المتغيرات. Xو ض.

    نحفظ الملف باسم data.csv ونبدأ التقديرات الأولى. أولاً ، لنحسب معامل الارتباط بين القيم. لم أدخل الكود في المقالة ، إنه موجود على جيثب الخاص بي. نحصل على الارتباط لجميع الأزواج الممكنة:

    يمكن أن نرى أنه يعتمد على خطي Xو صمعامل الارتباط هو 1. ولكن ل Xو ضإنه يساوي 0.01 ، على الرغم من أننا حددنا الاعتماد بشكل صريح ض=X*X. من الواضح أننا بحاجة إلى مقياس "يشعر" بالتبعية بشكل أفضل. ولكن قبل الانتقال إلى اختبار Chi-Square ، دعنا ننظر إلى ماهية مصفوفة الطوارئ.

    لبناء مصفوفة طوارئ ، نقوم بتقسيم نطاق القيم المتغيرة إلى فترات (أو تصنيف). هناك طرق عديدة لمثل هذا التقسيم ، بينما لا توجد طريقة عالمية. بعضها مقسم إلى فترات بحيث يقع فيها نفس العدد من المتغيرات ، والبعض الآخر مقسم إلى فترات متساوية الطول. أنا شخصيا أحب الجمع بين هذه الأساليب. قررت استخدام هذه الطريقة: أطرح النتيجة من المتغير. التوقعات ، ثم أقسم النتيجة على تقدير الانحراف المعياري. بمعنى آخر ، أقوم بتوسيط المتغير العشوائي وتطبيعه. يتم ضرب القيمة الناتجة في عامل (في هذا المثال يساوي 1) ، وبعد ذلك يتم تقريب كل شيء إلى عدد صحيح. الإخراج هو متغير من النوع int ، وهو معرف الفئة.

    لذلك دعونا نأخذ علاماتنا Xو ضنقوم بتصنيفها بالطريقة الموضحة أعلاه ، وبعد ذلك نحسب عدد واحتمالات حدوث كل فئة واحتمالات حدوث أزواج من الميزات:

    هذه مصفوفة بالكمية. هنا في السطور - عدد تكرارات الفئات المتغيرة X، في الأعمدة - عدد تكرارات الفئات المتغيرة ض، في الخلايا - عدد تكرارات أزواج الفئات في نفس الوقت. على سبيل المثال ، تحدث الفئة 0 865 مرة لمتغير X، 823 مرة للمتغير ضولم يكن لدي زوج (0،0). دعنا ننتقل إلى الاحتمالات بقسمة جميع القيم على 3000 (العدد الإجمالي للملاحظات):

    تلقي مصفوفة الطوارئ التي تم الحصول عليها بعد تصنيف الميزات. حان الوقت الآن للتفكير في المعيار. بحكم التعريف ، تكون المتغيرات العشوائية مستقلة إذا كانت سيغما-الجبر الناتجة عن هذه المتغيرات العشوائية مستقلة. استقلال سيغما الجبر يعني استقلالية مزدوجة للأحداث عنها. يتم استدعاء حدثين مستقلين إذا كان احتمال حدوثهما المشترك مساويًا لمنتج احتمالات هذه الأحداث: بيج = Pi * Pj. هذه هي الصيغة التي سنستخدمها لبناء المعيار.

    فرضية العدم: الميزات المصنفة Xو ضلا يعتمد. مكافئ لها: توزيع مصفوفة الطوارئ يُعطى فقط من خلال احتمالات حدوث فئات من المتغيرات (احتمالات الصفوف والأعمدة). أو هكذا: خلايا المصفوفة هي نتاج الاحتمالات المقابلة للصفوف والأعمدة. سنستخدم هذه الصيغة للفرضية الصفرية لبناء قاعدة القرار: تناقض كبير بين بيجو بي * Pjسيكون أساسًا لرفض الفرضية الصفرية.

    دع - احتمالية حدوث الفئة 0 في المتغير X. في المجموع لدينا نالطبقات Xو مالطبقات ض. اتضح أنه لتعيين توزيع المصفوفة ، علينا معرفة هذه نو مالاحتمالات. لكن في الحقيقة ، إذا علمنا ن -1احتمال ل X، ثم يتم العثور على الأخير عن طريق طرح مجموع الآخرين من 1. وبالتالي ، لإيجاد توزيع مصفوفة الطوارئ ، نحتاج إلى معرفة ذلك ل = (ن -1) + (م -1)القيم. أو لدينا لمساحة بارامترية الأبعاد ، المتجه الذي يمنحنا التوزيع المطلوب. ستبدو إحصائية مربع كاي كما يلي:

    ووفقًا لنظرية فيشر ، يكون توزيع مربع كاي مع ن * م -1 = (ن -1) (م -1)درجات الحرية.

    لنقم بتعيين مستوى الأهمية على 0.95 (أو احتمال حدوث خطأ من النوع الأول هو 0.05). لنجد مقدار توزيع مربع Chi لمستوى معين من الأهمية ودرجات الحرية من المثال (ن -1) (م -1) = 4 * 3 = 12: 21.02606982. إحصاء مربع كاي نفسه للمتغيرات Xو ضيساوي 4088.006631. يمكن ملاحظة أن فرضية الاستقلال غير مقبولة. من المناسب النظر في نسبة إحصاء Chi-squared إلى قيمة العتبة - في هذه الحالة تساوي Chi2Coeff = 194.4256186. إذا كانت هذه النسبة أقل من 1 ، يتم قبول فرضية الاستقلال ؛ إذا كانت أكبر ، فلا. لنجد هذه النسبة لجميع أزواج الميزات:

    هنا العامل 1و العامل 2- أسماء الميزات
    src_cnt1و src_cnt2- عدد القيم الفريدة للسمات الأصلية
    mod_cnt1و mod_cnt2- عدد قيم السمات الفريدة بعد التصنيف
    تشي 2- إحصائيات Chi-square
    chi2max- القيمة الحدية لإحصاءات Chi-squared لمستوى أهمية 0.95
    chi2Coeff- نسبة إحصاء مربع كاي إلى القيمة الحدية
    كور- معامل الارتباط

    يمكن ملاحظة أنها مستقلة (chi2coeff<1) получились следующие пары признаков - (X ، ت), (Y، T) و ( Z ، T) ، وهو أمر منطقي لأن المتغير تيولدت عشوائيا. المتغيرات Xو ضتعتمد ، ولكنها أقل من تعتمد خطيًا Xو ص، وهو أمر منطقي أيضًا.

    لقد قمت بنشر كود الأداة التي تحسب هذه المؤشرات على github ، في نفس المكان الذي يوجد فيه ملف data.csv. تقبل الأداة المساعدة ملف csv كمدخلات وتحسب التبعيات بين جميع أزواج الأعمدة: PtProject.Dependency.exe data.csv


    الاختبارات الإحصائية للجداول المتقاطعة - اختبار Chi-Square

    للحصول على الاختبارات الإحصائية للجدول ، انقر فوق الزر إحصائيات ... في مربع الحوار الجدولي. سيتم فتح مربع حوار Crosstabs: Statistics (انظر الشكل 11.9).

    أرز. 11.9:

    تسمح لك مربعات الاختيار في مربع الحوار هذا بتحديد معيار واحد أو أكثر.

      اختبار Chi-Square ( X 2)

      الارتباطات

      مقاييس الارتباط بالمتغيرات المتعلقة بالمقياس الاسمي

      مقاييس الارتباط للمتغيرات المتعلقة بالمقياس الترتيبي

      مقاييس الارتباط بالمتغيرات المتعلقة بمقياس الفاصل

      معامل كابا ( إلى)

      قياس المخاطر

      اختبار ماكنيمار

      إحصائيات كوكران و Mantel-Haenzel

    تتم مناقشة هذه الاختبارات في القسمين التاليين ، ولأن اختبار مربع كاي له أهمية كبيرة في الحوسبة الإحصائية ، فهو مخصص لقسم منفصل.

    اختبار Chi-Square ( X 2)

    عند إجراء اختبار مربع كاي ، يتم التحقق من الاستقلال المتبادل لمتغيرين في جدول الطوارئ ونتيجة لذلك بشكل غير مباشرتم العثور على اعتماد كلا المتغيرين. يقال أن متغيرين مستقلين بشكل متبادل إذا كانت الترددات الملحوظة (f o) في الخلايا تتطابق مع الترددات المتوقعة (fe).

    لإجراء اختبار chi-square باستخدام SPSS ، اتبع الخطوات التالية:

      حدد من قائمة الأوامر تحليل (تحليل) الإحصاء الوصفي (الإحصاء الوصفي) الجداول المشتركة ... (جداول الطوارئ)

      استخدم زر إعادة الضبط لمسح الإعدادات الممكنة.

      متغير الحركة الجنسإلى قائمة السلاسل والمتغير روح- إلى قائمة الأعمدة.

      انقر فوق الزر خلايا ...(خلايا). في مربع الحوار ، بالإضافة إلى مربع الاختيار "المرصود" الافتراضي ، حدد مربعي الاختيار "متوقع وموحد". قم بتأكيد اختيارك باستخدام الزر "متابعة".

      انقر فوق الزر إحصائيات...(إحصائيات). يتم فتح مربع حوار Crosstabs: Statistics الموضح أعلاه.

      حدد مربع الاختيار Chi-square. انقر فوق الزر "متابعة" ، وفي مربع الحوار الرئيسي ، انقر فوق "موافق".

    سوف تتلقى جدول الطوارئ التالي.

    الجنس * جدول الطوارئ الحالة العقلية

    الحالة العقلية المجموع
    غير مستقر للغاية غير مستقر مستدام مستقرة جدا
    أرضية أنثى عدد 16 18 9 1 44
    العدد المتوقع 7,9 16,6 17,0 2,5 44,0
    الأمراض المنقولة جنسيا. المتبقية 2,9 ,3 -1,9 -.9
    ذكر عدد 3 22 32 5 62
    العدد المتوقع 11,1 23,4 24,0 3,5 62,0
    الأمراض المنقولة جنسيا. المتبقية -2,4 -,3 1,6 ,8
    المجموع عدد 19 40 41 6 106
    العدد المتوقع 19,0 40,0 41,0 6,0 106,0

    بالإضافة إلى ذلك ، ستظهر نتائج اختبار مربع كاي في نافذة العارض:

    اختبارات Chi-Square

    القيمة مدافع Asymp. سيج. (2 انحازت)
    (دلالة مقاربة (ذيلان))
    بيرسون تشي سكوير
    (مربع تشي حسب بيرسون)
    22.455 (أ) 3 ,000
    نسبة احتمالية
    (نسبة احتمالية)
    23,688 3 ,000
    الرابطة الخطية بخطي
    (تبعية خطية خطية)
    20,391 1 ,000
    عدد الحالات الصالحة
    (عدد الحالات المسموح بها)
    106

    أ. توقعت خليتان (25.0٪) عدد أقل من 5. الحد الأدنى المتوقع للعد هو 2.49

    تُستخدم ثلاث طرق مختلفة لحساب اختبار مربع كاي:

    • صيغة بيرسون;
    • تصحيح المصداقية;
    • اختبار Mantel-Haenszel.
    • إذا كان الجدول المتقاطع يحتوي على أربعة حقول (جدول 2 × 2) وكان الاحتمال المتوقع أقل من 5 ، بالإضافة إلى ذلك ، اختبار فيشر الدقيق.

    عادةً ما تُستخدم معادلة بيرسون لحساب اختبار خي مربع:

    هنا يتم حساب مجموع مربعات القيم المتبقية الموحدة في جميع حقول جدول الطوارئ. لذلك ، تساهم الحقول ذات المخلفات المعيارية الأعلى بشكل أكبر في قيمة مربع كاي وبالتالي في نتيجة ذات مغزى. وفقًا للقاعدة الواردة في القسم 8.9 ، يشير المتبقي القياسي 2 (1.96) أو أكثر إلى وجود تباين كبير بين الترددات المرصودة والمتوقعة في خلية جدول معينة.

    في هذا المثال ، تعطي معادلة بيرسون القيمة الأكثر أهمية لاختبار كاي سكوير (ص<0,0001). Если рассмотреть стандартизованные остатки в отдельных полях таблицы сопряженности, то на основе вышеприведенного правила можно сделать вывод, что эта значимость в основном определяется полями, в которых переменная روحتعني "غير مستقر للغاية". في النساء ، تزداد هذه القيمة بشكل كبير ، وتنخفض عند الرجال.

    صحة ملفيتم تحديد اختبار مربع كاي بشرطين:

    • الترددات المتوقعة< 5 должны встречаться не более чем в 20% полей таблицы;
    • يجب أن تكون مجاميع الصفوف والأعمدة أكبر من الصفر دائمًا.

    ومع ذلك ، في المثال قيد النظر ، لم يتم استيفاء هذا الشرط بالكامل. كما تشير الملاحظة بعد جدول اختبار مربع كاي ، فإن 25٪ من الحقول لها تردد متوقع أقل من 5. ومع ذلك ، نظرًا لأن الحد المسموح به البالغ 20٪ يتم تجاوزه بشكل طفيف فقط وهذه الحقول ، نظرًا لصغر حجمها المتبقي المعياري ، تساهم بنسبة صغيرة جدًا في قيمة مربع اختبار تشي ، يمكن اعتبار هذا الانتهاك غير مهم.

    بديل لصيغة Pearson لحساب اختبار مربع كاي هو تعديل الاحتمالية:

    مع حجم العينة الكبير ، تعطي معادلة بيرسون والصيغة المصححة نتائج قريبة جدًا. في مثالنا ، اختبار خي مربع الاحتمال المعدل هو 23.688.

    تشي سكويربيرسون هو أبسط اختبار لأهمية الارتباط بين متغيرين مصنّفين. يعتمد معيار بيرسون على حقيقة أنه موجود في جدول المُدخلين مُتوقعيمكن حساب الترددات تحت الفرضية "لا توجد علاقة بين المتغيرات" مباشرة. تخيل أن 20 رجلاً و 20 امرأة سئلوا عن اختيارهم للصودا (ماركة أأو علامة تجارية ب). إذا لم تكن هناك علاقة بين التفضيل والجنس ، فهذا طبيعي توقعاختيار العلامة التجارية المتساوية أوالعلامات التجارية بلكل جنس.

    معنى الإحصاء تشي مربعويعتمد مستوى أهميته على العدد الإجمالي للملاحظات وعدد الخلايا في الجدول. وفقًا للمبادئ التي تمت مناقشتها في القسم ، ستثبت الانحرافات الصغيرة نسبيًا للترددات المرصودة عن الترددات المتوقعة أنها مهمة إذا كان عدد الملاحظات كبيرًا.

    لا يوجد سوى قيد واحد مهم على استخدام المعيار تشي مربع(بصرف النظر عن الافتراض الواضح المتمثل في اختيار عشوائي للملاحظات) ، وهو أن الترددات المتوقعة يجب ألا تكون صغيرة جدًا. هذا لأن المعيار تشي مربععن طريق الشيكات الطبيعة الاحتمالاتفي كل خلية وإذا أصبحت الترددات المتوقعة في الخلايا صغيرة ، على سبيل المثال ، أقل من 5 ، فلا يمكن تقدير هذه الاحتمالات بدقة كافية باستخدام الترددات المتاحة. لمزيد من المناقشة ، انظر Everitt (1977) ، Hays (1988) أو Kendall and Stuart (1979).

    اختبار Chi-Square (طريقة الاحتمال الأقصى).أقصى احتمالية تشي مربعتم تصميمه لاختبار نفس الفرضية حول العلاقات في الجداول العرضية مثل الاختبار تشي مربعبيرسون. ومع ذلك ، يعتمد حسابها على طريقة الحد الأقصى للاحتمالية. في الممارسة العملية ، إحصائيات MP تشي مربعقريب جدًا من حيث الحجم من إحصائية بيرسون المعتادة تشي مربع. لمزيد من المعلومات حول هذه الإحصاءات ، انظر Bishop و Fienberg و Holland (1975) أو Fienberg (1977). في الفصل سجل التحليل الخطيتمت مناقشة هذه الإحصائيات بمزيد من التفصيل.

    تصحيح ييتس.تقريب الإحصائيات تشي مربعبالنسبة للجداول 2 × 2 التي تحتوي على عدد صغير من الملاحظات في الخلايا يمكن تحسينها عن طريق تقليل القيمة المطلقة للاختلافات بين الترددات المتوقعة والملاحظة بمقدار 0.5 قبل التربيع (ما يسمى تصحيح ييتس). عادةً ما يتم تطبيق تصحيح Yates ، الذي يجعل التقدير أكثر اعتدالًا ، عندما تحتوي الجداول على ترددات صغيرة فقط ، على سبيل المثال ، عندما تصبح بعض الترددات المتوقعة أقل من 10 (لمزيد من المناقشة ، انظر Conover ، 1974 ؛ Everitt ، 1977 ؛ Hays ، 1988 ؛ كيندال وستيوارت ، 1979 و Mantel ، 1974).

    اختبار فيشر الدقيق.ينطبق هذا المعيار فقط على جداول 2x2. المعيار يعتمد على المنطق التالي. بالنظر إلى الترددات الهامشية في الجدول ، افترض أن كلا المتغيرين المجدولين مستقلين. لنطرح على أنفسنا سؤالاً: ما هو احتمال الحصول على الترددات الملحوظة في الجدول ، بناءً على تلك الهامشية المعينة؟ اتضح أن هذا الاحتمال محسوب بالضبطعد جميع الجداول التي يمكن بناؤها بناءً على الجداول الهامشية. وهكذا ، يحسب معيار فيشر دقيقاحتمال حدوث الترددات المرصودة في ظل فرضية العدم (عدم وجود ارتباط بين المتغيرات المجدولة). يوضح جدول النتائج كلا من المستويات أحادية الجانب ومزدوجة الجانب.

    مربع تشي ماكنيمار.ينطبق هذا المعيار عندما تمثل الترددات في جدول 2x2 يعتمدعينات. على سبيل المثال ، ملاحظات نفس الأفراد قبل وبعد التجربة. على وجه الخصوص ، يمكنك حساب عدد الطلاب الذين حصلوا على أقل الدرجات في الرياضيات في بداية الفصل الدراسي ونهايته ، أو التفضيل لنفس المستجيبين قبل الإعلان وبعده. يتم حساب قيمتين تشي مربع: ميلاديو قبل الميلاد. A / D تشي مربعيختبر الفرضية القائلة بأن الترددات في الخلايا أو د(أعلى اليسار ، أسفل اليمين) هي نفسها. ب / ج تشي مربعيختبر الفرضية حول تساوي الترددات في الخلايا بو ج(أعلى اليمين ، أسفل اليسار).

    معامل فاي.فاي سكويرهو مقياس للارتباط بين متغيرين في جدول 2x2. تختلف قيمها من 0 (لا تبعية بين المتغيرات ؛ تشي مربع = 0.0 ) قبل 1 (العلاقة المطلقة بين عاملين في الجدول). انظر كاستيلان وسيجل (1988 ، ص 232) لمزيد من التفاصيل.

    الارتباط الرباعي.يتم حساب هذه الإحصائية (وتطبيقها) فقط للجداول المتقاطعة 2 × 2. إذا كان من الممكن النظر إلى جدول 2x2 كنتيجة لتقسيم (اصطناعي) لقيم متغيرين مستمرين إلى فئتين ، فإن معامل الارتباط الرباعي يجعل من الممكن تقدير العلاقة بين هذين المتغيرين.

    معامل الاقتران.معامل الطوارئ قائم على الإحصاء تشي مربعمقياس لعلاقة الميزات في جدول الطوارئ (مقترح من قبل بيرسون). ميزة هذا المعامل على الإحصائيات المعتادة تشي مربعفي أنه من الأسهل تفسير ذلك لأن مداها في النطاق من 0 قبل 1 (أين 0 يتوافق مع حالة استقلالية العلامات في الجدول ، والزيادة في المعامل تظهر زيادة في درجة الاتصال). عيب معامل الطوارئ هو أن قيمته القصوى "تعتمد" على حجم الجدول. يمكن أن يصل هذا العامل إلى 1 فقط إذا كان عدد الفئات غير محدود (انظر Siegel ، 1956 ، ص 201).

    تفسير تدابير الاتصال.من العوائق الكبيرة لمقاييس الارتباط (التي تمت مناقشتها أعلاه) صعوبة تفسيرها من حيث الاحتمالية العادية أو "جزء من التباين الموضح" ، كما في حالة معامل الارتباط. صبيرسون (انظر الارتباطات). لذلك ، لا يوجد مقياس أو معامل ارتباط مقبول بشكل عام.

    الترتيب على أساس الإحصاءات.في العديد من المشكلات التي تنشأ في الممارسة العملية ، لدينا قياسات فقط في ترتيبي مقياس (انظر المفاهيم الأولية للإحصاء). هذا ينطبق بشكل خاص على القياسات في مجال علم النفس وعلم الاجتماع والتخصصات الأخرى المتعلقة بدراسة الإنسان. لنفترض أنك أجريت مقابلة مع مجموعة من المشاركين لمعرفة مواقفهم تجاه رياضات معينة. أنت تمثل القياسات على مقياس بالمواقف التالية: (1) دائماً, (2) عادة, (3) بعض الأحيانو (4) أبداً. من الواضح الجواب مهتمة في بعض الأحيانيظهر اهتمام المستفتى أقل من الإجابة عادة ما تكون مهتمةإلخ. وبالتالي ، من الممكن تبسيط (ترتيب) درجة اهتمام المستجيبين. هذا مثال نموذجي لمقياس ترتيبي. المتغيرات المقاسة على مقياس ترتيبي لها أنواع الارتباط الخاصة بها والتي تسمح لك بتقييم التبعيات.

    آر سبيرمان.الإحصاء صيمكن تفسير سبيرمان بنفس طريقة تفسير ارتباط بيرسون ( ص Pearson) من حيث نسبة التباين الموضحة (مع الأخذ في الاعتبار ، مع ذلك ، أن إحصاء Spearman يتم حسابه من الرتب). من المفترض أن يتم قياس المتغيرات على الأقل ترتيبيمقياس. يمكن العثور على مناقشة شاملة لارتباط رتبة سبيرمان ، وقوتها وفعاليتها ، على سبيل المثال ، في Gibbons (1985) ، Hays (1981) ، McNemar (1969) ، Siegel (1956) ، Siegel and Castellan (1988) ، Kendall (1948) ) ، Olds (1949) و Hotelling and Pabst (1936).

    تاو كيندال.إحصائيات تاوما يعادل كيندال صسبيرمان في ظل افتراضات أساسية معينة. أيضا ما يعادل قوتهم. ومع ذلك ، عادة القيم صسبيرمان و تاوتختلف كيندال لأنها تختلف في منطقها الداخلي وطريقة حسابها. في Siegel and Castellan (1988) ، عبر المؤلفون عن العلاقة بين هذين الإحصائيين على النحو التالي:

    1 < = 3 * Тау Кендалла - 2 * R Спирмена < = 1

    الأهم من ذلك ، إحصائيات كيندال تاووسبيرمان صلها تفسيرات مختلفة: بينما الإحصاءات صيمكن اعتبار سبيرمان بمثابة تناظرية مباشرة للإحصاءات صبيرسون محسوبة حسب الرتب ، إحصائيات كيندال تاوبدلا من ذلك الاحتمالات. بتعبير أدق ، يتم التحقق من وجود فرق بين احتمال أن تكون البيانات المرصودة في نفس الترتيب لكميتين واحتمال أن تكون بترتيب مختلف. يناقش كيندال (1948 ، 1975) ، إيفريت (1977) ، وسيجل وكاستيلان (1988) بتفصيل كبير تاوكيندال. عادة يتم حساب نوعين مختلفين من الإحصائيات تاوكيندال: تاو بو تاو ج. تختلف هذه المقاييس فقط في الطريقة التي يتم بها التعامل مع الرتب المتداخلة. في معظم الحالات ، تكون معانيها متشابهة تمامًا. إذا ظهرت اختلافات ، فيبدو أنها الطريقة الأكثر أمانًا للنظر في أصغر القيمتين.

    معامل سومر د: د (س | ص) ، د (ص | س).إحصائيات دسومر مقياس غير متماثل للعلاقة بين متغيرين. هذه الإحصائية قريبة من تاو ب(انظر سيجل وكاستيلان ، 1988 ، ص 303-310).

    إحصائيات جاما.إذا كان هناك العديد من القيم المطابقة في البيانات ، فإن الإحصائيات جاماالأفضل صسبيرمان أو تاوكيندال. من حيث الافتراضات الأساسية والإحصاءات جامايعادل الإحصائيات صسبيرمان أو تاو كيندال. يتشابه تفسيرها وحساباتها مع إحصاء تاو الخاص بكيندال أكثر من إحصائية سبيرمان آر. بالمختصر، جاماهو أيضا احتمالا؛ بتعبير أدق ، الفرق بين احتمال تطابق ترتيب متغيرين ، مطروحًا منه احتمال عدم تطابقه ، مقسومًا على واحد ناقص احتمال التطابقات. إذن الإحصائيات جامامكافئ في الأساس تاوكيندال ، باستثناء أن المصادفات تؤخذ بعين الاعتبار في التطبيع. مناقشة مفصلة للإحصاءات جامايمكن العثور عليها في Goodman and Kruskal (1954 ، 1959 ، 1963 ، 1972) ، Siegel (1956) و Siegel and Castellan (1988).

    معاملات عدم اليقين.هذه النسب تقيس اتصال المعلوماتبين العوامل (صفوف وأعمدة الجدول). مفهوم تبعية المعلوماتينشأ في نهج المعلومات النظرية لتحليل جداول التردد ، يمكن للمرء الرجوع إلى الكتيبات ذات الصلة لتوضيح هذه المسألة (انظر Kullback ، 1959 ؛ Ku and Kullback ، 1968 ؛ Ku ، Varner ، و Kullback ، 1971 ؛ انظر أيضًا Bishop ، فينبرج وهولندا ، 1975 ، ص 344-348). إحصائيات س(ص ، س) متماثل ويقيس كمية المعلومات في متغير صنسبة إلى متغير Xأو في متغير Xنسبة إلى متغير ص. إحصائيات ق (س | ص)و ق (ص | س)التعبير عن علاقة اتجاهية.

    الاستجابات والانقسامات متعددة الأبعاد. تظهر المتغيرات مثل الاستجابات متعددة المتغيرات والثنائيات متعددة المتغيرات في المواقف التي لا يهتم فيها الباحث فقط بالترددات "البسيطة" للأحداث ، ولكن أيضًا في بعض الخصائص النوعية (غير المنظمة غالبًا) لهذه الأحداث. من الأفضل فهم طبيعة المتغيرات (العوامل) متعددة الأبعاد من خلال الأمثلة.

    • · استجابات متعددة المتغيرات
    • · الانقسامات متعددة الأبعاد
    • التداخل في الاستجابات متعددة المتغيرات والانقسامات
    • الجمع بين المتغيرات مع استجابات متعددة المتغيرات
    • · تعليق ختامي

    استجابات متعددة الأبعاد.تخيل أنه في سياق بحث تسويقي كبير ، طلبت من العملاء تسمية أفضل 3 مشروبات غازية من وجهة نظرهم. قد يبدو السؤال النموذجي هكذا.

    عند إجراء اختبار مربع كاي ، يتم التحقق من الاستقلال المتبادل لمتغيرين من جدول الطوارئ ونتيجة لذلك ، يتم الكشف عن اعتماد كلا المتغيرين بشكل غير مباشر. يُقال أن متغيرين مستقلين عن بعضهما البعض إذا كانت الترددات الملحوظة (f 0) في الخلايا تتطابق مع الترددات المتوقعة (fe).

    لإجراء اختبار chi-square باستخدام SPSS ، اتبع الخطوات التالية:

    • حدد الأوامر من القائمة حلل(تحليل)> الإحصاء الوصفي(الإحصاء الوصفي) > الطابعات الجدلية ...(جداول الطوارئ)
    • زر إعادة تعيين(إعادة) امسح الإعدادات الممكنة.
    • انقل الجنس المتغير إلى قائمة الصفوف والمتغير نفسية إلى قائمة الأعمدة.
    • انقر فوق الزر خلايا ...(خلايا). في مربع الحوار ، حدد بالإضافة إلى مربع الاختيار الافتراضي لاحظ، المزيد من مربعات الاختيار مُتوقعو موحد. أكد اختيارك بالزر يكمل.
    • انقر فوق الزر إحصائيات…(إحصائيات).

    سيتم فتح مربع الحوار الموضح أعلاه. Crosstabs: الإحصاء.

    • خانة الاختيار تشي سكوير(مربع تشي). انقر فوق الزر يكمل، وفي مربع الحوار الرئيسي - إلى نعم.

    سوف تتلقى جدول الطوارئ التالي.

    الجنس * الحالة العقلية. طاولة الطوارئ.

    الحالة العقلية المجموع
    غير مستقر للغاية غير مستقر مستدام مستقرة جدا
    أرضية أنثى عدد 16 18 9 1 44
    العدد المتوقع 7.9 16.6 17.0 2.5 44.0
    الأمراض المنقولة جنسيا. المتبقية 2.9 0.3 -1.9 -0.9
    ذكر عدد 3 22 32 5 62
    العدد المتوقع 11.1 23.4 24.0 3.5 62.0
    الأمراض المنقولة جنسيا. المتبقية -2.4 -0.3 1.6 0.8
    المجموع عدد 19 40 41 6 106
    العدد المتوقع 19.0 40.0 41.0 6.0 106.0

    بالإضافة إلى ذلك ، ستظهر نتائج اختبار مربع كاي في نافذة العارض:

    اختبارات Chi-Square

    • أ. توقعت خليتان (25.0٪) عدد أقل من 5. الحد الأدنى المتوقع للعد هو 2.49

    تُستخدم ثلاث طرق مختلفة لحساب اختبار مربع كاي: معادلة بيرسون ، وتعديل الاحتمالية ، واختبار مانتل-هاينزل. إذا كان الجدول المتقاطع يحتوي على أربعة حقول وكان الاحتمال المتوقع أقل من 5 ، فسيتم إجراء اختبار فيشر الدقيق أيضًا.

    اختبار بيرسون كاي سكوير

    عادةً ما تُستخدم معادلة بيرسون لحساب اختبار خي مربع:

    هنا يتم حساب مجموع مربعات القيم المتبقية الموحدة في جميع حقول جدول الطوارئ. لذلك ، تساهم الحقول ذات المخلفات المعيارية الأعلى بشكل أكبر في قيمة مربع كاي وبالتالي في نتيجة ذات مغزى. وفقًا للقاعدة الواردة في القسم 8.7.2 ، يشير المتبقي القياسي 2 أو أكثر إلى وجود تباين كبير بين الترددات المرصودة والمتوقعة.

    في المثال الذي ندرسه ، تعطي صيغة بيرسون القيمة الأكثر أهمية لاختبار خي مربع (ص<0.001). Если рассмотреть стандартизованные остатки в отдельных полях таблицы сопряженности, то на основе вышеприведенного правила можно сделать вывод, что эта значимость в основном определяется полями, в которых переменная psyche имеет значение "крайне неустойчивое". У женщин это значение сильно повышено, а у мужчин - понижено.

    يتم تحديد صحة اختبار مربع كاي بشرطين: أولاً ، الترددات المتوقعة< 5 должны встречаться не более чем в 20% полей таблицы; во-вторых, суммы по строкам и столбцам всегда должны быть больше нуля.

    ومع ذلك ، في المثال قيد النظر ، لم يتم استيفاء هذا الشرط بالكامل. كما تشير الملاحظة بعد جدول اختبار مربع كاي ، فإن 25٪ من الحقول لها تردد متوقع أقل من 5. ومع ذلك ، نظرًا لأن الحد المسموح به البالغ 20٪ يتم تجاوزه بشكل طفيف فقط وهذه الحقول ، نظرًا لصغر حجمها المتبقي المعياري ، تساهم بنسبة صغيرة جدًا في قيمة اختبار مربع كاي ، يمكن اعتبار هذا الانتهاك غير مهم.

    اختبار خي مربع معدلة الاحتمالية

    بديل لصيغة Pearson لحساب اختبار مربع كاي هو تعديل الاحتمالية:

    مع حجم العينة الكبير ، تعطي معادلة بيرسون والصيغة المصححة نتائج قريبة جدًا. في مثالنا ، اختبار خي مربع الاحتمال المعدل هو 23.688.

    اختبار Mantel-Haensel

    بالإضافة إلى ذلك ، في جدول الطوارئ تحت التصنيف خطي بخطي("خطي إلى خطي") يتم عرض قيمة اختبار Mantel-Haenszel (20.391). هذا النموذج من اختبار Mantel-Haenszel chi-square هو مقياس آخر للعلاقة الخطية بين صفوف وأعمدة الجدول المتقاطع. يتم تعريفه على أنه ناتج معامل ارتباط بيرسون مضروبًا في عدد الملاحظات ناقصًا واحدًا:

    المعيار الذي تم الحصول عليه بهذه الطريقة له درجة واحدة من الحرية. يتم استخدام طريقة Mantel-Haenszel دائمًا عند استخدام مربع الحوار Crosstabs: الإحصاءالتحقق تشي سكوير. ومع ذلك ، بالنسبة للبيانات المتعلقة بالمقياس الاسمي ، لا ينطبق هذا المعيار.