مستوى الدلالة الإحصائية (ع). الدلالة الإحصائية: التعريف والمفهوم والدلالة ومعادلات الانحدار واختبار الفرضيات

في أي حالة علمية وعملية للتجربة (المسح) ، لا يمكن للباحثين دراسة جميع الناس (عامة السكان ، السكان) ، ولكن فقط عينة معينة. على سبيل المثال ، حتى لو كنا نفحص مجموعة صغيرة نسبيًا من الأشخاص ، مثل أولئك الذين يعانون من مرض معين ، فمن غير المرجح أن تكون لدينا الموارد أو نحتاج إلى اختبار كل مريض. بدلاً من ذلك ، عادةً ما يتم اختبار عينة من السكان لأنها أكثر ملاءمة وتستغرق وقتًا أقل. في هذه الحالة ، كيف نعرف أن النتائج التي تم الحصول عليها من العينة تمثل المجموعة بأكملها؟ أو ، لاستخدام المصطلحات المهنية ، هل يمكننا التأكد من أن دراستنا تصف الكل بشكل صحيح تعداد السكان، العينة التي استخدمنا منها؟

للإجابة على هذا السؤال ، من الضروري تحديد الأهمية الإحصائية لنتائج الاختبار. دلالة إحصائية (مستوى كبير، مختصر سيج.) ،أو / 7-مستوى الأهمية (مستوى ع) -هو احتمال أن تمثل نتيجة معينة بشكل صحيح المجتمع الذي درست منه العينة. لاحظ أن هذا فقط احتمالا- من المستحيل أن نقول على وجه اليقين المطلق أن هذه الدراسة تصف بشكل صحيح جميع السكان. في أحسن الأحوال ، يمكن للمرء أن يستنتج فقط من مستوى الأهمية أن هذا أمر محتمل للغاية. وبالتالي ، فإن السؤال التالي الذي يطرح نفسه لا محالة: ما هو مستوى الأهمية الذي يجب أن يكون من أجل اعتبار هذه النتيجة توصيفًا صحيحًا للسكان؟

على سبيل المثال ، ما هي قيمة الاحتمالية التي تريد أن تقول إن مثل هذه الاحتمالات كافية للمخاطرة؟ إذا كانت الفرص 10 من 100 أو 50 من 100؟ ولكن ماذا لو كان هذا الاحتمال أعلى؟ ماذا عن احتمالات مثل 90 من 100 أو 95 من 100 أو 98 من 100؟ بالنسبة للموقف المرتبط بالمخاطر ، يعد هذا الاختيار مشكلة كبيرة ، لأنه يعتمد على الخصائص الشخصية للشخص.

في علم النفس ، يُعتقد تقليديًا أن 95 فرصة أو أكثر من 100 تعني أن احتمالية صحة النتائج عالية بما يكفي لتعميمها على جميع السكان. تم إنشاء هذا الرقم في عملية النشاط العلمي والعملي - لا يوجد قانون يجب بموجبه اختياره كمبدأ توجيهي (وفي الواقع ، في العلوم الأخرى ، يتم أحيانًا اختيار قيم أخرى لمستوى الأهمية).

في علم النفس ، يتم التعامل مع هذا الاحتمال بطريقة غير عادية إلى حد ما. بدلاً من احتمال أن تمثل العينة مجتمعًا ، احتمالية أن تكون العينة لا يمثلتعداد السكان. بمعنى آخر ، هو احتمال أن تكون العلاقة أو الاختلافات المكتشفة عشوائية وليست خاصية للمجتمع. وبالتالي ، بدلاً من القول إن نتائج الدراسة صحيحة مع احتمال 95 من 100 ، يقول علماء النفس أن هناك 5 فرص من أصل 100 أن النتائج خاطئة (وبالمثل ، 40 من 100 فرصة لصالح الصواب. من النتائج تعني 60 فرصة من أصل 100 لصالح خطأهم). يتم التعبير عن قيمة الاحتمال أحيانًا كنسبة مئوية ، ولكن غالبًا ما تتم كتابتها ككسر عشري. على سبيل المثال ، يتم تمثيل 10 فرص من 100 على أنها كسر عشري 0.1 ؛ 5 من 100 مكتوبة على شكل 0.05 ؛ 1 في 100 - 0.01. مع هذا الشكل من التسجيل ، تكون القيمة الحدية 0.05. لكي يتم اعتبار النتيجة صحيحة ، يجب أن يكون مستوى أهميتها أقلهذا الرقم (تذكر أن هذا هو احتمال أن تكون النتيجة ليس تمامايصف السكان. للتخلص من المصطلحات ، نضيف أن "احتمال نتيجة خاطئة" (وهو الاسم الصحيح أكثر مستوى الأهمية)عادة ما يشار إليها بالحرف اللاتيني تم العثور على R.عادة ما يتضمن وصف نتائج التجربة خلاصة موجزة ، مثل "كانت النتائج مهمة على مستوى الأهمية (ع) أقل من 0.05 (أي أقل من 5٪).

وبالتالي ، فإن مستوى الدلالة ( ر) يشير إلى احتمال أن تكون النتائج ليستمثل السكان. حسب التقاليد في علم النفس ، يُعتقد أن النتائج تعكس بشكل موثوق الصورة العامة ، إذا كانت القيمة رأقل من 0.05 (أي 5٪). ومع ذلك ، هذا مجرد بيان احتمالي ، وليس ضمانًا غير مشروط على الإطلاق. في بعض الحالات ، قد يكون هذا الاستنتاج غير صحيح. في الواقع ، يمكننا حساب عدد المرات التي يمكن أن يحدث فيها هذا إذا نظرنا إلى حجم مستوى الأهمية. عند مستوى دلالة 0.05 ، في 5 حالات من أصل 100 ، ربما تكون النتائج غير صحيحة. 11 أ للوهلة الأولى يبدو أن هذا ليس كثيرًا ، ولكن إذا فكرت في الأمر ، فإن 5 فرص من أصل 100 هي نفسها 1 من 20. بمعنى آخر ، في حالة واحدة من كل 20 حالة ستظهر النتيجة من الخطأ. لا تبدو مثل هذه الاحتمالات مواتية بشكل خاص ، ويجب على الباحثين الحذر من ارتكابها أخطاء من النوع الأول.هذا هو اسم الخطأ الذي يحدث عندما يعتقد الباحثون أنهم توصلوا إلى نتائج حقيقية ، لكن في الحقيقة لا توجد نتائج. تسمى الأخطاء المعاكسة ، المتمثلة في حقيقة أن الباحثين يعتقدون أنهم لم يعثروا على نتيجة ، ولكن في الحقيقة هناك واحدة ، أخطاء من النوع الثاني.

تنشأ هذه الأخطاء لأنه لا يمكن استبعاد احتمال التحليل الإحصائي غير الصحيح. يعتمد احتمال الخطأ على مستوى الدلالة الإحصائية للنتائج. لقد لاحظنا بالفعل أنه من أجل اعتبار النتيجة صحيحة ، يجب أن يكون مستوى الأهمية أقل من 0.05. بالطبع ، بعض النتائج أقل ، وليس من غير المألوف العثور على نتائج منخفضة تصل إلى 0.001 (القيمة 0.001 تعني أن هناك احتمالًا واحدًا من كل 1000 أن تكون النتائج خاطئة). كلما كانت قيمة p أصغر ، زادت ثقتنا في صحة النتائج.

في الجدول. يوضح 7.2 التفسير التقليدي لمستويات الأهمية حول إمكانية الاستدلال الإحصائي وتبرير القرار بشأن وجود اتصال (الاختلافات).

الجدول 7.2

التفسير التقليدي لمستويات الأهمية المستخدمة في علم النفس

بناءً على تجربة البحث العملي ، يوصى ، من أجل تجنب أخطاء النوعين الأول والثاني ، عند تقديم استنتاجات مسؤولة ، يجب اتخاذ قرارات بشأن وجود اختلافات (اتصالات) ، مع التركيز على المستوى رعلامة ن.

اختبار إحصائي(الاختبار الإحصائي -إنها أداة لتحديد مستوى الأهمية الإحصائية. هذه قاعدة قرار تضمن قبول فرضية صحيحة ورفض فرضية خاطئة باحتمالية عالية.

تشير المعايير الإحصائية أيضًا إلى طريقة حساب رقم معين وهذا الرقم نفسه. يتم استخدام جميع المعايير بهدف رئيسي واحد: التحديد مستوى الأهميةالبيانات التي يقومون بتحليلها (أي احتمال أن تعكس البيانات التأثير الحقيقي الذي يمثل بشكل صحيح المجتمع الذي تم سحب العينة منه).

يمكن استخدام بعض المعايير فقط للبيانات الموزعة بشكل طبيعي (وإذا تم قياس الميزة على مقياس فاصل) - تسمى هذه المعايير عادةً حدودي.بمساعدة معايير أخرى ، يمكنك تحليل البيانات باستخدام أي قانون توزيع تقريبًا - يتم استدعاؤها غير معلمية.

المعايير البارامترية - المعايير التي تتضمن معلمات التوزيع في صيغة الحساب ، أي الوسائل والتباينات (اختبار الطالب ، اختبار فيشر F ، إلخ).

المعايير غير المعلمية - المعايير التي لا تتضمن معلمات التوزيع في صيغة حساب التوزيعات وتعتمد على ترددات التشغيل أو الرتب (المعيار سروزنباوم ، المعيار يومانا - ويتني

على سبيل المثال ، عندما نقول أن أهمية الاختلافات تم تحديدها بواسطة اختبار الطالب t ، فإننا نعني أنه تم استخدام طريقة اختبار t للطالب لحساب القيمة التجريبية ، والتي تتم مقارنتها بعد ذلك بالقيمة الجدولية (الحرجة).

وفقًا لنسبة القيم التجريبية (التي حسبناها) والقيم الحرجة للمعيار (الجدول) ، يمكننا الحكم على فرضيتنا أو دحضها. في معظم الحالات ، من أجل التعرف على الاختلافات على أنها كبيرة ، من الضروري أن تتجاوز القيمة التجريبية للمعيار القيمة الحرجة ، على الرغم من وجود معايير (على سبيل المثال ، اختبار Mann-Whitney أو اختبار الإشارة) التي يجب أن نلتزم بالقاعدة المعاكسة.

في بعض الحالات ، تتضمن صيغة الحساب للمعيار عدد الملاحظات في عينة الدراسة ، والمشار إليها بالرمز ص. باستخدام جدول خاص ، نحدد مستوى الأهمية الإحصائية للاختلافات الذي يتوافق مع قيمة تجريبية معينة. في معظم الحالات ، قد تكون نفس القيمة التجريبية للمعيار مهمة أو غير مهمة ، اعتمادًا على عدد الملاحظات في عينة الدراسة ( ص ) أو من ما يسمى ب عدد درجات الحرية ، والتي يشار إليها باسم الخامس (ز>) أو كليهما مدافع (بعض الأحيان د).

معرفة صأو عدد درجات الحرية ، يمكننا تحديد القيم الحرجة للمعيار باستخدام جداول خاصة (ترد أهمها في الملحق 5) ومقارنة القيمة التجريبية التي تم الحصول عليها معهم. عادة ما يتم كتابتها على النحو التالي: ن = 22 القيم الحرجة للمعيار هي tSt = 2.07 "أو" في الخامس (د) = 2 ، القيم الحرجة لمعيار الطالب هي = 4.30 "وما يسمى.

ومع ذلك ، عادة ما يتم إعطاء الأفضلية للمعايير البارامترية ، ونحن نلتزم بهذا الموقف. تعتبر أكثر موثوقية ويمكن أن توفر المزيد من المعلومات والتحليل الأعمق. بالنسبة إلى تعقيد الحسابات الرياضية ، عند استخدام برامج الكمبيوتر ، يختفي هذا التعقيد (لكن البعض الآخر يبدو أنه يمكن التغلب عليه تمامًا).

  • في هذا الكتاب المدرسي ، لا نتعامل بالتفصيل مع مشكلة الإحصاء
  • الفرضيات (صفر - R0 والبديل - Hj) والقرارات الإحصائية ، حيث يدرس طلاب علم النفس هذا بشكل منفصل في تخصص "الطرق الرياضية في علم النفس". بالإضافة إلى ذلك ، تجدر الإشارة إلى أنه عند إعداد تقرير بحثي (ورقة مصطلح أو أطروحة ، منشور) ، لا يتم عادةً تقديم الفرضيات الإحصائية والحلول الإحصائية. عادة ، عند وصف النتائج ، يتم الإشارة إلى معيار ، والإحصاءات الوصفية اللازمة (الوسائل ، سيجما ، معاملات الارتباط ، إلخ) ، والقيم التجريبية للمعايير ، ودرجات الحرية ، ومستوى أهمية p بالضرورة. ثم يتم صياغة استنتاج ذي مغزى فيما يتعلق بالفرضية التي يتم اختبارها ، مما يشير (عادةً في شكل عدم مساواة) إلى مستوى الأهمية الذي تم تحقيقه أو عدم تحقيقه.

فكر في مثال نموذجي لتطبيق الأساليب الإحصائية في الطب. يقترح مبتكرو الدواء أنه يزيد من إدرار البول بما يتناسب مع الجرعة المأخوذة. لاختبار هذا الافتراض ، أعطوا خمسة متطوعين جرعات مختلفة من الدواء.

وفقًا لنتائج الملاحظات ، تم رسم مخطط لإدرار البول مقابل الجرعة (الشكل 1.2 أ). الاعتماد مرئي للعين المجردة. الباحثون يهنئون بعضهم البعض على هذا الاكتشاف ، ويهنئ العالم على مدرات البول الجديدة.

في الواقع ، تسمح لنا البيانات بأن نقول بشكل موثوق فقط أن اعتماد إدرار البول على الجرعة لوحظ في هؤلاء المتطوعين الخمسة. حقيقة أن هذا الاعتماد سيظهر في جميع الأشخاص الذين سيتعاطون الدواء ليس أكثر من تخمين.
WJ

مع

زيني. لا يمكن القول أنه لا أساس له - وإلا فلماذا التجربة؟

لكن الدواء الآن معروض في السوق. المزيد والمزيد من الناس يأخذونها على أمل زيادة إدرار البول. وماذا نرى؟ نرى الشكل 1.2 ب ، والذي يشير إلى عدم وجود أي علاقة بين جرعة الدواء وإدرار البول. تمثل الدوائر السوداء بيانات من الدراسة الأصلية. الإحصائيات لديها طرق لتقدير احتمالية الحصول على مثل هذه العينة "غير التمثيلية" ، علاوة على أنها مربكة. اتضح أنه في حالة عدم وجود علاقة بين إدرار البول وجرعة الدواء ، يمكن ملاحظة "الاعتماد" الناتج في حوالي 5 تجارب من كل 1000 تجربة. لذلك ، في هذه الحالة ، كان الباحثون محظوظين. حتى لو طبقوا حتى أكثر الأساليب الإحصائية مثالية ، فلن ينقذهم ذلك من الخطأ.

هذا خيالي ، ولكن ليس بعيدًا عن الواقع على الإطلاق ، مثال ، استشهدنا به ليس للإشارة إلى عدم جدوى
الإحصاء. يتحدث عن شيء آخر ، عن الطبيعة الاحتمالية لاستنتاجاتها. نتيجة لتطبيق الطريقة الإحصائية ، لا نحصل على الحقيقة المطلقة ، ولكن فقط تقدير لاحتمال افتراض معين. بالإضافة إلى ذلك ، تعتمد كل طريقة إحصائية على نموذجها الرياضي الخاص ونتائجها صحيحة إلى الحد الذي يتوافق مع هذا النموذج مع الواقع.

المزيد عن الموثوقية والأهمية الإحصائية:

  1. فروق ذات دلالة إحصائية في مؤشرات جودة الحياة
  2. المجموع الإحصائي. علامات الحساب. مفهوم البحث المستمر والانتقائي. متطلبات المجتمع الإحصائي واستخدام وثائق المحاسبة وإعداد التقارير
  3. مقال. دراسة موثوقية قراءات مقياس الضغط لقياس الضغط داخل العين 2018، 2018

في رأيك ، ما الذي يجعل "توأم روحك" مميزًا وذو مغزى؟ هل يتعلق الأمر بشخصيتها (شخصيته) أم بمشاعرك التي تشعر بها تجاه هذا الشخص؟ أو ربما مع الحقيقة البسيطة وهي أن الدراسات تظهر أن الفرضية القائلة بأن إعجابك عشوائي به احتمال أقل من 5٪؟ إذا اعتبرنا العبارة الأخيرة موثوقة ، فلن تكون مواقع المواعدة الناجحة موجودة من حيث المبدأ:

عندما تقوم باختبار الانقسام أو أي تحليل آخر لموقعك ، فإن سوء فهم "الأهمية الإحصائية" يمكن أن يؤدي إلى تفسير خاطئ للنتائج وبالتالي خطوات خاطئة في عملية تحسين التحويل. هذا صحيح بالنسبة لآلاف الاختبارات الإحصائية الأخرى التي يتم إجراؤها يوميًا في أي صناعة قائمة.

لفهم معنى "الأهمية الإحصائية" ، تحتاج إلى الخوض في تاريخ هذا المصطلح ، ومعرفة معناه الحقيقي وفهم كيف سيساعدك هذا الفهم القديم "الجديد" على تفسير نتائج بحثك بشكل صحيح.

القليل من التاريخ

على الرغم من أن البشرية كانت تستخدم الإحصاء لحل المشكلات لعدة قرون ، إلا أن الفهم الحديث للدلالة الإحصائية ، واختبار الفرضيات ، والعشوائية ، وحتى تصميم التجارب (تصميم التجارب (DOE)) بدأ يتشكل فقط في بداية القرن العشرين ويرتبط ارتباطًا وثيقًا باسم السير رونالد فيشر (السير رونالد فيشر ، 1890-1962):

كان رونالد فيشر عالم أحياء تطوريًا وإحصائيًا لديه شغف خاص بدراسة التطور والانتقاء الطبيعي في ممالك الحيوانات والنباتات. خلال حياته المهنية اللامعة ، طور ونشر العديد من الأدوات الإحصائية المفيدة التي ما زلنا نستخدمها حتى اليوم.

استخدم فيشر التقنيات التي طورها لشرح العمليات في علم الأحياء مثل الهيمنة والطفرة والتنوع الجيني. يمكننا تطبيق نفس الأدوات اليوم لتحسين محتوى موارد الويب وتحسينه. حقيقة أن أدوات التحليل هذه يمكن استخدامها للعمل مع كائنات لم تكن موجودة حتى وقت إنشائها تبدو مفاجئة إلى حد ما. ومن المثير للدهشة أيضًا أن الأشخاص اعتادوا إجراء أكثر العمليات الحسابية تعقيدًا بدون استخدام الآلات الحاسبة أو أجهزة الكمبيوتر.

لوصف نتائج تجربة إحصائية على أنها ذات احتمال كبير في أن تكون صحيحة ، استخدم فيشر كلمة دلالة.

ومن بين التطورات الأكثر إثارة للاهتمام في فيشر هي فرضية "الابن الجنسي". وفقًا لهذه النظرية ، تفضل النساء الرجال المختلطين (المشاة) لأن هذا سيسمح للأبناء المولودين من هؤلاء الرجال أن يكون لديهم نفس الاستعداد وينتجوا المزيد من النسل (لاحظ أن هذه مجرد نظرية).

لكن لا أحد ، حتى العلماء العبقريون ، في مأمن من ارتكاب الأخطاء. عيوب فيشر تزعج المتخصصين حتى يومنا هذا. لكن تذكر كلمات ألبرت أينشتاين: "من لم يخطئ قط لم يخلق شيئًا جديدًا".

قبل الانتقال إلى النقطة التالية ، تذكر أن الدلالة الإحصائية هي حالة يكون فيها الاختلاف في نتائج الاختبار كبيرًا جدًا بحيث لا يمكن تفسير هذا الاختلاف بتأثير العوامل العشوائية.

ما هي فرضيتك؟

لفهم ما تعنيه "ذات دلالة إحصائية" ، تحتاج أولاً إلى فهم معنى "اختبار الفرضية" ، نظرًا لأن المصطلحين متشابكان بشكل وثيق.
الفرضية هي مجرد نظرية. بمجرد تطوير نظرية ، ستحتاج إلى إنشاء إجراء لجمع أدلة كافية ، وفي الواقع ، جمع هذه الأدلة. هناك نوعان من الفرضيات.

التفاح أم البرتقال - أيهما أفضل؟

فرضية العدم

كقاعدة عامة ، يواجه العديد من الصعوبات في هذا المكان. يجب أن تضع في اعتبارك أن الفرضية الصفرية ليست شيئًا يحتاج إلى إثبات ، مثل ، على سبيل المثال ، إثبات أن تغييرًا معينًا على الموقع سيؤدي إلى زيادة في التحويل ، ولكن العكس صحيح. الفرضية الصفرية هي نظرية تقول أنه إذا أجريت أي تغييرات على الموقع ، فلن يحدث شيء. وهدف الباحث دحض هذه النظرية لا إثباتها.

إذا انتقلنا إلى تجربة اكتشاف الجريمة ، حيث يفترض المحققون أيضًا من هو الجاني ، فإن فرضية العدم تأخذ شكل ما يسمى بافتراض البراءة ، وهو المفهوم القائل بأن المتهم بريء حتى تثبت إدانته في المحكمة.

إذا كانت الفرضية الصفرية هي أن كائنين متساويين في خصائصهما ، وتحاول إثبات أن أحدهما لا يزال أفضل (على سبيل المثال ، A أفضل من B) ، فأنت بحاجة إلى إسقاط الفرضية الصفرية لصالح البديل واحد. على سبيل المثال ، تقارن أداة أو أداة أخرى لتحسين التحويل مع بعضها البعض. في الفرضية الصفرية ، كلاهما لهما نفس التأثير على الهدف (أو ليس لهما تأثير). في المقابل ، يكون تأثير أحدهم أفضل.

قد تحتوي فرضيتك البديلة على قيمة عددية ، مثل B - A> 20٪. في هذه الحالة ، يمكن أن تأخذ الفرضية الصفرية والبديل الشكل التالي:

اسم آخر لفرضية بديلة هو فرضية البحث ، حيث أن الباحث مهتم دائمًا بإثبات هذه الفرضية المعينة.

دلالة إحصائية وقيمة "p"

دعنا نعود إلى رونالد فيشر ومفهومه عن الدلالة الإحصائية.

الآن بعد أن أصبح لديك الفرضية الصفرية والبديل ، كيف يمكنك إثبات أحدهما ودحض الآخر؟

نظرًا لأن الإحصائيات ، بطبيعتها ، تتضمن دراسة مجموعة سكانية معينة (عينة) ، فلا يمكنك أبدًا أن تكون متأكدًا بنسبة 100٪ من النتائج التي تحصل عليها. مثال واضح: غالبًا ما تختلف نتائج الانتخابات عن نتائج الاستطلاعات الأولية وحتى مجموعات الخروج.

أراد الدكتور فيشر إنشاء خط فاصل يتيح لك معرفة ما إذا كانت تجربتك ناجحة أم لا. هذه هي الطريقة التي جاء بها مؤشر الثقة. الموثوقية هي المستوى الذي نأخذه لنقول ما نعتبره "ذو مغزى" وما هو ليس كذلك. إذا كان "p" ، مؤشر الثقة 0.05 أو أقل ، فإن النتائج مهمة.

لا تقلق ، فالأمر ليس محيرًا حقًا كما يبدو.

التوزيع الاحتمالي الغاوسي. عند الحواف - القيم الأقل احتمالا للمتغير ، في الوسط - الأكثر احتمالا. الدرجة p (المنطقة المظللة باللون الأخضر) هي احتمال حدوث نتيجة ملحوظة بالصدفة.

التوزيع الاحتمالي العادي (التوزيع الغوسي) هو تمثيل لجميع القيم الممكنة لمتغير معين على الرسم البياني (في الشكل أعلاه) وتردداتها. إذا قمت بالبحث بشكل صحيح ، ثم قمت برسم جميع الإجابات التي تحصل عليها على رسم بياني ، فستحصل على هذا التوزيع بالضبط. وفقًا للتوزيع العادي ، ستحصل على نسبة كبيرة من الإجابات المتشابهة ، وستكون الخيارات المتبقية موجودة عند أطراف الرسم البياني (ما يسمى بـ "ذيول"). غالبًا ما يوجد مثل هذا التوزيع للكميات في الطبيعة ، ولهذا يطلق عليه "طبيعي".

باستخدام معادلة تستند إلى العينة ونتائج الاختبار ، يمكنك حساب ما يسمى "إحصاء الاختبار" الذي يخبرك بمدى انحراف النتائج. سيخبرك أيضًا بمدى قربك من صحة الفرضية الصفرية.

لإبقاء رأسك منخفضًا ، استخدم الآلات الحاسبة عبر الإنترنت لحساب الدلالة الإحصائية:

مثال واحد على هذه الآلات الحاسبة

يشير الحرف "p" إلى احتمال صحة الفرضية الصفرية. إذا كان الرقم صغيرًا ، فهذا يشير إلى وجود اختلاف بين مجموعات الاختبار ، في حين أن الفرضية الصفرية هي أنها متطابقة. من الناحية الرسومية ، سيبدو هذا وكأن إحصائية اختبارك أقرب إلى أحد ذيول توزيع الجرس.

قرر الدكتور فيشر تعيين حد الثقة للنتائج عند p 0.05. ومع ذلك ، فإن هذا البيان مثير للجدل أيضًا ، لأنه يؤدي إلى صعوبتين:

1. أولاً ، حقيقة أنك أثبتت خطأ الفرضية الصفرية لا يعني أنك أثبتت الفرضية البديلة. كل هذه الأهمية تعني فقط أنه لا يمكنك إثبات أ أو ب.

2. ثانيًا ، إذا كانت قيمة p تساوي 0.049 ، فهذا يعني أن احتمال فرضية العدم سيكون 4.9٪. يمكن أن يعني هذا أنه في نفس الوقت ، يمكن أن تكون نتائج اختبارك صحيحة وخاطئة في نفس الوقت.

يمكنك استخدام القيمة p أم لا ، ولكن بعد ذلك ستحتاج إلى حساب احتمال الفرضية الصفرية في كل حالة فردية وتحديد ما إذا كانت كبيرة بما يكفي لعدم إجراء التغييرات التي خططت لها واختبرتها.

السيناريو الأكثر شيوعًا لإجراء اختبار إحصائي اليوم هو تعيين عتبة أهمية قدرها p 0.05 قبل إجراء الاختبار الفعلي. فقط تذكر أن تفحص بعناية قيمة p عند التحقق من النتائج.

الخطأان 1 و 2

لقد مر وقت طويل حتى أن الأخطاء التي يمكن أن تحدث عند استخدام مقياس الأهمية الإحصائية قد تلقت أسماءها.

الخطأ 1 (أخطاء النوع 1)

كما ذكرنا سابقًا ، تعني القيمة p البالغة 0.05 أن هناك احتمال بنسبة 5٪ أن تكون الفرضية الصفرية صحيحة. إذا لم تقم بذلك ، فأنت ترتكب الخطأ رقم 1. وتشير النتائج إلى أن موقع الويب الجديد الخاص بك قد أدى إلى زيادة معدلات التحويل ، ولكن هناك احتمال بنسبة 5٪ ألا يكون كذلك.

خطأ 2 (أخطاء من النوع 2)

هذا الخطأ هو عكس الخطأ 1: أنت تقبل الفرضية الصفرية عندما تكون خاطئة. على سبيل المثال ، تخبرك نتائج الاختبار أن التغييرات التي تم إجراؤها على الموقع لم تجلب أي تحسينات ، أثناء إجراء التغييرات. نتيجة لذلك: تفوتك فرصة زيادة أدائك.

هذا الخطأ شائع في الاختبارات ذات أحجام العينات غير الكافية ، لذلك تذكر أنه كلما كانت العينة أكبر ، كانت النتيجة أكثر موثوقية.

استنتاج

ربما لا يوجد مصطلح بين الباحثين شائع مثل الدلالة الإحصائية. عندما لا تعتبر نتائج الاختبار ذات دلالة إحصائية ، فإن النتائج تتراوح من زيادة معدلات التحويل إلى انهيار الشركة.

ونظرًا لأن المسوقين يستخدمون هذا المصطلح عند تحسين مواردهم ، فأنت بحاجة إلى معرفة ما يعنيه حقًا. قد تتغير ظروف الاختبار ، لكن حجم العينة ومعايير النجاح مهمة دائمًا. تذكر هذا.

قبل جمع البيانات ودراستها ، يقرر علماء النفس التجريبيون عادةً كيفية تحليل البيانات إحصائيًا. غالبًا ما يحدد الباحث مستوى الأهمية ، الذي يُعرف بالإحصاء ، أعلى ( او تحت) الذي يحتوي على قيم تسمح لنا بالنظر إلى تأثير العوامل على أنه غير عشوائي. عادة ما يقدم الباحثون هذا المستوى في شكل تعبير احتمالي.

في العديد من التجارب النفسية ، يمكن التعبير عنها كـ " مستوى 0.05" أو " مستوى 0.01". هذا يعني أن النتائج العشوائية ستحدث فقط بتردد 0.05 (1 من هذا الوقت)أو 0.01 (1 في 100 مرة). نتائج التحليل الإحصائي للبيانات التي تلبي معيارًا محددًا مسبقًا ( سواء كان ذلك 0.05 أو 0.01 أو حتى 0.001)، يشار إليها أدناه باعتبارها ذات دلالة إحصائية.

وتجدر الإشارة إلى أن النتيجة قد لا تكون ذات دلالة إحصائية ، ولكنها لا تزال ذات أهمية. في كثير من الأحيان ، خاصة أثناء الدراسات الأولية أو التجارب مع عدد صغير من الموضوعات أو مع عدد محدود من الملاحظات ، قد لا تصل النتائج إلى مستوى الأهمية الإحصائية ، ولكنها تشير إلى أنه في دراسات أخرى مع ضوابط أكثر دقة ومع المزيد من الملاحظات ، فإنها سوف تصبح أكثر موثوقية. في الوقت نفسه ، يجب أن يكون المجرب حريصًا جدًا في رغبته في تغيير ظروف التجربة عن قصد من أجل تحقيق النتيجة المرجوة بأي ثمن.

في مثال آخر لخطة 2x2 جي استخدم نوعين من الموضوعات ونوعين من المهام لدراسة تأثير المعرفة الخاصة على حفظ المعلومات.

في دراستي جي درس حفظ الأعداد وقطع الشطرنج ( متغير أ) الأطفال على الكراسي ريكارو يونغ سبورتوالكبار ( متغير ب) ، أي وفقًا للخطة 2 × 2. كان الأطفال يبلغون من العمر 10 سنوات وكانوا يجيدون الشطرنج ، بينما كان الكبار جددًا في اللعبة. كانت المهمة الأولى هي حفظ موضع القطع على السبورة ، كما قد يكون في اللعب العادي ، واستعادتها بعد إزالة القطع. جزء آخر من هذه المهمة هو حفظ سلسلة قياسية من الأرقام ، كما يحدث عادة عند تحديد معدل الذكاء.

اتضح أن المعرفة الخاصة ، مثل القدرة على لعب الشطرنج ، تجعل من السهل تذكر المعلومات المتعلقة بهذه المنطقة ، ولكن ليس لها تأثير كبير على تذكر الأرقام. الكبار ، الذين ليسوا من ذوي الخبرة في حكمة اللعبة القديمة ، يحفظون عددًا أقل من الأرقام ، لكنهم أكثر نجاحًا في حفظ الأرقام.

في متن التقرير جي يعطي تحليلا إحصائيا ، مؤكدا رياضيا النتائج المقدمة.

تصميم 2x2 هو أبسط تصميمات العوامل. تؤدي زيادة عدد العوامل أو مستويات العوامل الفردية إلى تعقيد هذه الخطط بشكل كبير.