Нивото на статистическа значимост (p). Статистическа значимост: определение, концепция, значимост, регресионни уравнения и тест на хипотеза

Във всяка научна и практическа ситуация на експеримент (проучване), изследователите не могат да изследват всички хора (генерална популация, популация), а само определена извадка. Например, дори ако изследваме относително малка група хора, като тези с определено заболяване, е много малко вероятно да разполагаме с ресурси или нужда да тестваме всеки пациент. Вместо това обикновено се тества извадка от популацията, защото е по-удобно и отнема по-малко време. В такъв случай как да разберем, че резултатите, получени от извадката, представляват цялата група? Или, ако използваме професионална терминология, можем ли да сме сигурни, че нашето изследване правилно описва цялото население, пробата, от която използвахме?

За да се отговори на този въпрос, е необходимо да се определи статистическата значимост на резултатите от теста. Статистическа значимост (Значително ниво, съкратено подпис),или /7-ниво на значимост (p ниво) -е вероятността даден резултат да представя правилно популацията, от която е изследвана извадката. Имайте предвид, че това е само вероятност- не е възможно да се каже с абсолютна сигурност, че това изследване правилно описва цялото население. В най-добрия случай само от нивото на значимост може да се заключи, че това е много вероятно. Така неизбежно възниква следният въпрос: какво трябва да бъде нивото на значимост, за да се приеме този резултат като правилна характеристика на съвкупността?

Например, при каква стойност на вероятността сте готови да кажете, че такива шансове са достатъчни, за да поемете риск? Ако шансовете са 10 от 100 или 50 от 100? Но какво ще стане, ако тази вероятност е по-висока? Какво ще кажете за коефициенти като 90 от 100, 95 от 100 или 98 от 100? За ситуация, свързана с риск, този избор е доста проблематичен, тъй като зависи от личните характеристики на човек.

В психологията традиционно се смята, че 95 или повече шанс от 100 означава, че вероятността за правилността на резултатите е достатъчно висока, за да бъде обобщена за цялото население. Тази цифра е установена в процеса на научна и практическа дейност - няма закон, според който тя трябва да бъде избрана като ориентир (и наистина в други науки понякога се избират други стойности от нивото на значимост).

В психологията тази вероятност се обработва по малко необичаен начин. Вместо вероятността извадката да представлява съвкупност, вероятността извадката да е такава не представляванаселение. С други думи, това е вероятността откритите взаимоотношения или разлики да са случайни, а не свойство на популацията. По този начин, вместо да кажат, че резултатите от едно проучване са 95 от 100 верни, психолозите казват, че има 5 от 100 шанс резултатите да са грешни (по същия начин, 40 от 100 шанса в полза на резултатите да са верни означава 60 от 100 шанса в полза на тяхната грешка). Стойността на вероятността понякога се изразява като процент, но по-често се записва като десетична дроб. Например, 10 шанса от 100 са представени като десетична дроб от 0,1; 5 от 100 се записва като 0,05; 1 на 100 - 0,01. При тази форма на запис граничната стойност е 0,05. За да се счита даден резултат за правилен, неговото ниво на значимост трябва да бъде По-долутова число (не забравяйте, че това е вероятността резултатът неправилноописва населението. За да премахнем терминологията, добавяме, че "вероятността от грешен резултат" (което по-правилно се нарича ниво на значимост)обикновено се обозначава с латинската буква Р.Описанието на резултатите от експеримента обикновено включва обобщено заключение, като например „резултатите са значими на ниво значимост (p) по-малко от 0,05 (т.е. по-малко от 5%).

По този начин нивото на значимост ( Р) показва вероятността резултатите непредставляват населението. По традиция в психологията се смята, че резултатите надеждно отразяват цялостната картина, ако стойността Рпо-малко от 0,05 (т.е. 5%). Това обаче е само вероятностно твърдение и изобщо не е безусловна гаранция. В някои случаи това заключение може да е неправилно. Всъщност можем да изчислим колко често това може да се случи, ако погледнем величината на нивото на значимост. При ниво на значимост от 0,05, в 5 от 100 случая резултатите вероятно са неверни. 11a на пръв поглед изглежда, че това не е твърде често, но ако се замислите, тогава 5 шанса от 100 са същите като 1 от 20. С други думи, в един на всеки 20 случая резултатът ще се обърне греши. Такива шансове не изглеждат особено благоприятни и изследователите трябва да се пазят от извършване грешки от първи вид.Това е името на грешката, която възниква, когато изследователите смятат, че са намерили реални резултати, но всъщност няма такива. Обратните грешки, състоящи се във факта, че изследователите смятат, че не са намерили резултат, но всъщност има такъв, се наричат грешки от втори вид.

Тези грешки възникват, защото не може да се изключи възможността за неправилен статистически анализ. Вероятността за грешка зависи от нивото на статистическа значимост на резултатите. Вече отбелязахме, че за да се счита резултатът за правилен, нивото на значимост трябва да е под 0,05. Разбира се, някои резултати са по-ниски и не е необичайно да откриете резултати от 0,001 (стойност от 0,001 показва 1 на 1000 шанс за грешка). Колкото по-малка е стойността на p, толкова по-силна е нашата увереност в правилността на резултатите.

В табл. 7.2 показва традиционната интерпретация на нивата на значимост относно възможността за статистически извод и обосновка на решението за наличието на връзка (разлики).

Таблица 7.2

Традиционна интерпретация на нивата на значимост, използвани в психологията

Въз основа на опита от практически изследвания се препоръчва, за да се избегнат грешки от първия и втория тип, при вземане на отговорни заключения да се вземат решения за наличието на различия (връзки), като се фокусира върху нивото Р n знак.

Статистически тест(Статистически тест -това е инструмент за определяне на нивото на статистическа значимост. Това е правило за вземане на решение, което гарантира, че вярната хипотеза е приета и фалшивата е отхвърлена с голяма вероятност.

Статистическите критерии също така показват метода за изчисляване на определено число и самото число. Всички критерии се използват с една основна цел: да се определи ниво на значимостданните, които анализират (т.е. вероятността данните да отразяват истинския ефект, който правилно представя популацията, от която е взета извадката).

Някои критерии могат да се използват само за нормално разпределени данни (и ако характеристиката се измерва в интервална скала) - тези критерии обикновено се наричат параметричен.С помощта на други критерии можете да анализирате данни с почти всеки закон за разпространение - те се наричат непараметричен.

Параметрични критерии – критерии, които включват параметри на разпределение във формулата за изчисление, т.е. средни и дисперсии (t-тест на Студент, F-тест на Фишер и др.).

Непараметрични критерии - критерии, които не включват параметри на разпределение във формулата за изчисляване на разпределения и се основават на работни честоти или рангове (критерий ВРозенбаум, критерий УМанна - Уитни

Например, когато казваме, че значимостта на разликите е определена от t-теста на Студент, имаме предвид, че методът на t-теста на Студент е използван за изчисляване на емпиричната стойност, която след това се сравнява с табличната (критична) стойност.

Според съотношението на емпиричните (изчислихме) и критичните стойности на критерия (таблица) можем да преценим дали нашата хипотеза е потвърдена или опровергана. В повечето случаи, за да разпознаем разликите като значими, е необходимо емпиричната стойност на критерия да надвишава критичната, въпреки че има критерии (например тестът на Ман-Уитни или тестът на знака), при който трябва да се придържаме към обратното правило.

В някои случаи формулата за изчисление на критерия включва броя на наблюденията в извадката от изследването, обозначен като П. С помощта на специална таблица определяме какво ниво на статистическа значимост на разликите съответства на дадена емпирична стойност. В повечето случаи една и съща емпирична стойност на критерия може да се окаже значителна или незначителна, в зависимост от броя на наблюденията в извадката от изследването ( П ) или от т.нар брой степени на свобода , което се обозначава като v (g>) или и двете df (понякога д).

знаейки Пили броя на степените на свобода, можем да определим критичните стойности на критерия с помощта на специални таблици (основните са дадени в Приложение 5) и да сравним получената емпирична стойност с тях. Обикновено се пише така: n = 22 критични стойности на критерия са tSt = 2,07" или "при v (д) = 2, критичните стойности на критерия на Студент са = 4,30" и т.нар.

Обикновено обаче се предпочита параметрични критерии и ние се придържаме към тази позиция. Те се считат за по-надеждни и могат да предоставят повече информация и по-задълбочен анализ. Що се отнася до сложността на математическите изчисления, при използване на компютърни програми тази сложност изчезва (но някои други обаче изглеждат доста преодолими).

  • В този учебник не се занимаваме подробно със статистическия проблем
  • хипотези (нула - R0 и алтернатива - Hj) и статистически решения, тъй като студентите по психология изучават това отделно в дисциплината "Математически методи в психологията". Освен това трябва да се отбележи, че при изготвяне на изследователски доклад (курсова работа или теза, публикация) обикновено не се дават статистически хипотези и статистически решения. Обикновено при описание на резултатите се посочва критерий, дават се необходимата описателна статистика (средни, сигма, коефициенти на корелация и др.), емпирични стойности на критериите, степени на свобода и задължително нивото на p-значимост. След това се формулира смислен извод по отношение на хипотезата, която се тества, като се посочва (обикновено под формата на неравенство) постигнатото или непостигнатото ниво на значимост.

Разгледайте типичен пример за прилагането на статистически методи в медицината. Създателите на лекарството предполагат, че той увеличава диурезата пропорционално на приетата доза. За да тестват това предположение, те дават на петима доброволци различни дози от лекарството.

Според резултатите от наблюденията се начертава графика на диурезата спрямо дозата (фиг. 1.2А). Зависимостта се вижда с просто око. Изследователите се поздравяват взаимно за откритието, а света – за новия диуретик.

Всъщност данните ни позволяват надеждно да заявим само, че зависимостта на диурезата от дозата е наблюдавана при тези петима доброволци. Фактът, че тази зависимост ще се прояви при всички хора, които ще приемат лекарството, не е нищо повече от предположение.
WJ

с

zhenie. Не може да се каже, че е безпочвен - иначе защо да експериментирате?

Но сега лекарството е на пазара. Все повече хора го приемат с надеждата да увеличат диурезата си. И какво виждаме? Виждаме Фигура 1.2В, която показва липсата на каквато и да е връзка между дозата на лекарството и диурезата. Черните кръгове представляват данни от оригиналното изследване. Статистиката има методи за оценка на вероятността за получаване на такава "непредставителна", освен това объркваща извадка. Оказва се, че при липса на връзка между диурезата и дозата на лекарството, получената „зависимост“ би се наблюдавала в около 5 от 1000 експеримента. Така че в този случай изследователите просто нямаха късмет. Дори и да прилагат дори най-съвършените статистически методи, това пак няма да ги спаси от грешка.

Този измислен, но съвсем не далеч от реалността пример, цитирахме не за да посочим безполезността
статистика. Той говори за нещо друго, за вероятностния характер на нейните заключения. В резултат на прилагането на статистическия метод ние не получаваме последната истина, а само оценка на вероятността за определено предположение. Освен това всеки статистически метод се основава на свой собствен математически модел и неговите резултати са коректни до степен, в която този модел отговаря на реалността.

Още за НАДЕЖДНОСТ И СТАТИСТИЧЕСКА ЗНАЧИМОСТЬ:

  1. Статистически значими разлики в показателите за качество на живот
  2. Статистически агрегат. Знаци за акаунти. Концепцията за непрекъснато и селективно изследване. Изисквания към статистическата съвкупност и използването на счетоводни и отчетни документи
  3. ЕСЕ. ПРОУЧВАНЕ НА НАДЕЖДНОСТТА НА ОТКАЗВАНЕТО НА ТОНОМЕТР ЗА ИЗМЕРВАНЕ НА ВЪТРЕКУЛАРНОТО НАЛЯГАНЕ ПРЕЗ КЛЕПАЧА 2018, 2018

Какво мислите, че прави вашата "сродна душа" специална, значима? Свързано ли е с нейната (неговата) личност или с вашите чувства, които изпитвате към този човек? Или може би с простия факт, че проучванията показват, че хипотезата, че харесването ви е случайно, има вероятност под 5%? Ако считаме последното твърдение за надеждно, тогава успешните сайтове за запознанства не биха съществували по принцип:

Когато правите разделно тестване или друг анализ на вашия сайт, погрешното разбиране на „статистическата значимост“ може да доведе до погрешно тълкуване на резултатите и следователно до погрешни стъпки в процеса на оптимизиране на конверсията. Това важи за хилядите други статистически тестове, извършвани ежедневно във всяка съществуваща индустрия.

За да разберете какво е „статистическа значимост“, трябва да се задълбочите в историята на този термин, да знаете истинското му значение и да разберете как това „ново“ старо разбиране ще ви помогне да интерпретирате правилно резултатите от вашето изследване.

Малко история

Въпреки че човечеството използва статистиката за решаване на проблеми в продължение на много векове, съвременното разбиране за статистическа значимост, тестване на хипотези, рандомизация и дори проектиране на експерименти (Design of Experiments (DOE)) започва да се оформя едва в началото на 20-ти век. и е неразривно свързан с името на сър Роналд Фишър (Sir Ronald Fisher, 1890-1962):

Роналд Фишър беше еволюционен биолог и статистик, който имаше особена страст към изучаването на еволюцията и естествения подбор в животинските и растителните царства. По време на блестящата си кариера той разработи и популяризира много полезни статистически инструменти, които използваме и до днес.

Фишър използва разработените от него техники, за да обясни процеси в биологията като доминиране, мутация и генетични вариации. Днес можем да приложим същите инструменти за оптимизиране и подобряване на съдържанието на уеб ресурсите. Фактът, че тези инструменти за анализ могат да се използват за работа с обекти, които дори не са съществували по време на тяхното създаване, изглежда доста изненадващо. Също толкова изненадващо е, че хората правеха най-сложните изчисления без калкулатори или компютри.

За да опише резултатите от статистически експеримент като имащи голяма вероятност да бъдат верни, Фишър използва думата значимост.

Също така едно от най-интересните разработки на Фишър е хипотезата за „сексуален син“. Според тази теория жените дават предпочитание на безразборните мъже (ходилките), защото това ще позволи на синовете, родени от тези мъже, да имат същата предразположеност и да произвеждат повече собствено потомство (имайте предвид, че това е само теория).

Но никой, дори брилянтните учени, не е имунизиран от грешки. Недостатъците на Fisher дразнят специалистите и до днес. Но не забравяйте думите на Алберт Айнщайн: „Който никога не е правил грешка, никога не е създал нищо ново“.

Преди да преминете към следващата точка, не забравяйте, че статистическата значимост е ситуация, при която разликата в резултатите от тестването е толкова голяма, че тази разлика не може да се обясни с влиянието на случайни фактори.

Каква е вашата хипотеза?

За да разберете какво означава „статистически значимо“, първо трябва да разберете какво е „тестване на хипотези“, тъй като двата термина са тясно преплетени.
Хипотезата е само теория. След като разработите теория, ще трябва да установите процедура за събиране на достатъчно доказателства и всъщност да съберете тези доказателства. Има два вида хипотези.

Ябълки или портокали - кое е по-добре?

Нулева хипотеза

По правило мнозина изпитват трудности именно на това място. Трябва да имате предвид, че нулевата хипотеза не е нещо, което трябва да се доказва, като например доказвате, че определена промяна в сайта ще доведе до увеличаване на конверсията, а обратното. Нулевата хипотеза е теория, която казва, че ако направите някакви промени в сайта, нищо няма да се случи. И целта на изследователя е да опровергае тази теория, а не да я докаже.

Ако се обърнем към опита от разкриването на престъпления, където следователите също поставят хипотеза кой е извършителят, нулевата хипотеза приема формата на т. нар. презумпция за невиновност, концепцията, че обвиняемият се счита за невинен до доказване на вината в съда.

Ако нулевата хипотеза е, че два обекта са равни по своите свойства и се опитвате да докажете, че единият от тях все още е по-добър (например A е по-добър от B), трябва да отхвърлите нулевата хипотеза в полза на алтернативата един. Например сравнявате един или друг инструмент за оптимизиране на конверсията един с друг. В нулевата хипотеза и двете имат еднакъв ефект върху целта (или нямат ефект). Като алтернатива ефектът от един от тях е по-добър.

Вашата алтернативна хипотеза може да съдържа числова стойност, като B - A > 20%. В този случай нулевата хипотеза и алтернативата могат да приемат следната форма:

Друго име за алтернативна хипотеза е изследователска хипотеза, тъй като изследователят винаги е заинтересован да докаже тази конкретна хипотеза.

Статистическа значимост и стойност "p".

Нека се върнем към Роналд Фишър и неговата концепция за статистическа значимост.

Сега, когато имате нулевата хипотеза и алтернативата, как можете да докажете едното и да опровергаете другото?

Тъй като статистиката по своята същност включва изучаване на определена популация (извадка), никога не можете да сте 100% сигурни в резултатите, които получавате. Ясен пример: Резултатите от изборите често се различават от резултатите от предварителните проучвания и дори от изходните групи.

Д-р Фишър искаше да създаде разделителна линия, която да ви уведоми дали експериментът ви е бил успешен или не. Така се появи индексът на доверието. Надеждността е нивото, което приемаме, за да кажем какво смятаме за „смислено“ и какво не. Ако "p", индексът на доверие, е 0,05 или по-малко, тогава резултатите са значителни.

Не се притеснявайте, наистина не е толкова объркващо, колкото изглежда.

Гаусово разпределение на вероятностите. В краищата - по-малко вероятни стойности на променливата, в центъра - най-вероятните. P-резултатът (зелена засенчена зона) е вероятността наблюдаван резултат да настъпи случайно.

Нормалното разпределение на вероятностите (разпределение на Гаус) е представяне на всички възможни стойности на определена променлива на графика (на фигурата по-горе) и техните честоти. Ако направите своето изследване правилно и след това нанесете всички отговори, които получавате, на графика, ще получите точно това разпределение. Съгласно нормалното разпределение ще получите голям процент подобни отговори, а останалите опции ще бъдат разположени в краищата на графиката (така наречените „опашки“). Такова разпределение на количествата често се среща в природата, поради което се нарича "нормално".

Използвайки уравнение, базирано на вашата проба и резултати от теста, можете да изчислите това, което се нарича "тестова статистика", която ви казва колко са се отклонили резултатите. Освен това ще ви каже колко сте близо до това, че нулевата хипотеза е вярна.

За да държите главата си наведена, използвайте онлайн калкулатори, за да изчислите статистическата значимост:

Един пример за такива калкулатори

Буквата "p" означава вероятността нулевата хипотеза да е вярна. Ако броят е малък, това би означавало разлика между тестовите групи, докато нулевата хипотеза би била, че те са еднакви. Графично това ще изглежда, че вашата тестова статистика е по-близо до една от опашките на вашето разпределение на звънеца.

Д-р Фишер решава да зададе прага на доверие за резултатите на p ≤ 0,05. Това твърдение обаче също е противоречиво, тъй като води до две трудности:

1. Първо, фактът, че сте доказали грешната нулева хипотеза, не означава, че сте доказали алтернативната хипотеза. Цялото това значение просто означава, че не можете да докажете нито А, нито Б.

2. Второ, ако p-стойността е равна на 0,049, това ще означава, че вероятността за нулевата хипотеза ще бъде 4,9%. Това може да означава, че в същото време резултатите от вашите тестове могат да бъдат едновременно валидни и неверни.

Можете да използвате p-стойността или не, но тогава ще трябва да изчислите вероятността за нулевата хипотеза във всеки отделен случай и да решите дали тя е достатъчно голяма, за да не правите промените, които сте планирали и тествали.

Най-често срещаният сценарий за провеждане на статистически тест днес е да се зададе праг на значимост от p ≤ 0,05 преди провеждането на действителния тест. Само не забравяйте внимателно да изследвате p-стойността, когато проверявате резултатите.

Грешки 1 и 2

Измина толкова много време, че грешките, които могат да възникнат при използване на мярка за статистическа значимост, дори са получили собствените си имена.

Грешка 1 (Грешки от Тип 1)

Както бе споменато по-горе, p-стойност от 0,05 означава, че има 5% шанс нулевата хипотеза да е вярна. Ако не го направите, правите грешка номер 1. Резултатите казват, че вашият нов уебсайт има повишени проценти на реализация, но има 5% шанс да не е така.

Грешка 2 (Грешки от Тип 2)

Тази грешка е противоположна на грешка 1: приемате нулевата хипотеза, когато тя е невярна. Например резултатите от теста ви казват, че направените промени в сайта не са донесли никакви подобрения, докато промените са. В резултат: пропускате възможността да увеличите ефективността си.

Тази грешка е често срещана при тестове с недостатъчни размери на извадката, така че не забравяйте, че колкото по-голяма е извадката, толкова по-надежден е резултатът.

Заключение

Може би нито един термин сред изследователите не е толкова популярен, колкото статистическата значимост. Когато резултатите от теста не се считат за статистически значими, последствията варират от повишаване на процента на конверсия до колапс на компанията.

И тъй като маркетолозите използват този термин, когато оптимизират своите ресурси, трябва да знаете какво всъщност означава. Условията на теста може да се променят, но размерът на извадката и критериите за успех винаги са важни. Запомни това.

Преди да събират и изучават данни, експерименталните психолози обикновено решават как данните ще бъдат анализирани статистически. Често изследователят определя нивото на значимост, дефинирано като статистика, по-високо ( или по-долу), който съдържа стойности, които ни позволяват да разглеждаме влиянието на факторите като неслучайно. Изследователите обикновено представят това ниво под формата на вероятностен израз.

В много психологически експерименти може да се изрази като " ниво 0,05" или " ниво 0,01". Това означава, че произволните резултати ще се появяват само с честота 0,05 (1 от-ти път)или 0,01 (1 на 100 пъти). Резултатите от статистическия анализ на данни, които отговарят на предварително определен критерий ( било то 0,05, 0,01 или дори 0,001), са посочени по-долу като статистически значими.

Трябва да се отбележи, че резултатът може да не е статистически значим, но все пак представлява известен интерес. Често, особено по време на предварителни проучвания или експерименти с малък брой субекти или с ограничен брой наблюдения, резултатите може да не достигнат нивото на статистическа значимост, но предполагат, че при по-нататъшни проучвания с по-прецизни контроли и с повече наблюдения, те ще стават по-надеждни.. В същото време експериментаторът трябва да бъде много внимателен в желанието си целенасочено да промени условията на експеримента, за да постигне желания резултат на всяка цена.

В друг пример за план 2x2 Джи използва два вида предмети и два вида задачи за изследване на ефекта на специалните знания върху запаметяването на информация.

В моето изследване Джи изучава запаметяването на числа и шахматни фигури ( променлива А) деца на фотьойли RECARO Young Sportи възрастни ( променлива Б), тоест по план 2x2. Децата бяха на 10 години и бяха добри в играта на шах, докато възрастните бяха нови в играта. Първата задача беше да се запомни позицията на фигурите на дъската, както би била по време на нормална игра, и да се възстанови след отстраняването на фигурите. Друга част от тази задача беше да се запомни стандартна серия от числа, както обикновено се прави при определяне на IQ.

Оказва се, че специалните знания, като умението да се играе шах, улесняват запомнянето на информация, свързана с тази област, но не оказват голям ефект върху запомнянето на числата. Възрастните, които не са много опитни в мъдростта на древната игра, запомнят по-малко цифри, но в запаметяването на числа са по-успешни.

В тялото на доклада Джи дава статистически анализ, математически потвърждаващ представените резултати.

Дизайнът 2x2 е най-простият от всички факториални дизайни. Увеличаването на броя на факторите или нивата на отделните фактори значително усложнява тези планове.