Stopnja statistične pomembnosti (p). Statistična pomembnost: definicija, koncept, pomembnost, regresijske enačbe in testiranje hipotez

domov

Čiščenje vode

V nobeni znanstveni in praktični situaciji eksperimenta (ankete) raziskovalci ne morejo preučevati vseh ljudi (splošne populacije, populacije), temveč le določen vzorec. Na primer, tudi če pregledujemo sorazmerno majhno skupino ljudi, na primer tiste z določeno boleznijo, je zelo malo verjetno, da imamo sredstva ali potrebo po testiranju vsakega bolnika. Namesto tega se običajno testira vzorec populacije, ker je bolj priročno in traja manj časa. Kako v tem primeru vemo, da rezultati, dobljeni iz vzorca, predstavljajo celotno skupino? Oziroma, povedano s strokovno terminologijo, ali smo lahko prepričani, da naša študija pravilno opisuje celoto prebivalstvo, vzorec iz katerega smo uporabili?

Za odgovor na to vprašanje je treba določiti statistično pomembnost rezultatov testa. Statistični pomen (Pomembna raven, skrajšano Sig.), ali /7-stopnja pomembnosti (raven p) - je verjetnost, da dani rezultat pravilno predstavlja populacijo, iz katere je bil vzorec proučen. Upoštevajte, da je to samo verjetnost- ni mogoče z absolutno gotovostjo reči, da ta študija pravilno opisuje celotno populacijo. V najboljšem primeru lahko le po stopnji pomembnosti sklepamo, da je to zelo verjetno. Tako se neizogibno pojavi naslednje vprašanje: kakšna bi morala biti stopnja pomembnosti, da bi ta rezultat obravnavali kot pravilno karakterizacijo populacije?

Na primer, pri kateri vrednosti verjetnosti ste pripravljeni reči, da so takšne kvote dovolj za tveganje? Če so možnosti 10 od 100 ali 50 od 100? Kaj pa, če je ta verjetnost večja? Kaj pa kvote, kot so 90 od 100, 95 od 100 ali 98 od 100? Za situacijo, povezano s tveganjem, je ta izbira precej problematična, saj je odvisna od osebnih lastnosti osebe.

V psihologiji tradicionalno velja, da možnost 95 ali več od 100 pomeni, da je verjetnost pravilnosti rezultatov dovolj velika, da jo lahko posplošimo na celotno populacijo. Ta številka je bila ugotovljena v procesu znanstvene in praktične dejavnosti - ni zakona, po katerem bi ga bilo treba izbrati kot vodilo (in res, v drugih znanostih so včasih izbrane druge vrednosti stopnje pomembnosti).

V psihologiji se ta verjetnost obravnava nekoliko nenavadno. Namesto verjetnosti, da vzorec predstavlja populacijo, je verjetnost, da vzorec predstavlja ne predstavlja prebivalstvo. Z drugimi besedami, gre za verjetnost, da so odkrite povezave ali razlike naključne in niso last populacije. Tako psihologi namesto da bi trdili, da so rezultati študije pravilni z verjetnostjo 95 od 100, trdijo, da obstaja 5 od 100 možnosti, da so rezultati napačni (podobno 40 od 100 možnosti v korist pravilnost rezultatov pomeni 60 od 100 možnosti v korist njihove napačnosti). Vrednost verjetnosti je včasih izražena v odstotkih, pogosteje pa je zapisana kot decimalni ulomek. Na primer, 10 možnosti od 100 je predstavljenih kot decimalni ulomek 0,1; 5 od 100 je zapisano kot 0,05; 1 od 100 - 0,01. Pri tej obliki evidentiranja je mejna vrednost 0,05. Da se rezultat šteje za pravilnega, mora biti njegova stopnja pomembnosti spodaj to število (ne pozabite, da je to verjetnost, da rezultat ne pravilno opisuje prebivalstvo. Da bi odpravili terminologijo, dodajamo, da je "verjetnost napačnega rezultata" (ki se pravilneje imenuje stopnja pomembnosti) običajno označena z latinsko črko R. Opis rezultatov poskusa običajno vključuje povzetek zaključka, kot je "rezultati so bili pomembni na ravni pomembnosti. (R(p) manj kot 0,05 (tj. manj kot 5 %).

Tako je stopnja pomembnosti ( R) označuje verjetnost, da rezultati ne predstavljajo prebivalstvo. Po tradiciji v psihologiji se verjame, da rezultati zanesljivo odražajo celotno sliko, če je vrednost R manj kot 0,05 (tj. 5%). Vendar je to le verjetnostna izjava in nikakor ne brezpogojno jamstvo. V nekaterih primerih je lahko ta sklep napačen. Pravzaprav lahko izračunamo, kako pogosto se to lahko zgodi, če pogledamo velikost stopnje pomembnosti. Pri stopnji pomembnosti 0,05 so v 5 od 100 primerov rezultati verjetno napačni. 11a na prvi pogled se zdi, da to ni prepogosto, a če dobro pomislite, je 5 možnosti od 100 enakih 1 od 20. Z drugimi besedami, v enem od vsakih 20 primerov se bo rezultat obrnil narobe. Takšne možnosti se ne zdijo posebej ugodne in raziskovalci bi se morali paziti zavezanosti napake prve vrste. To je ime napake, ki se pojavi, ko raziskovalci mislijo, da so našli prave rezultate, v resnici pa jih ni. Nasprotne napake, ki so sestavljene iz dejstva, da raziskovalci verjamejo, da niso našli rezultata, v resnici pa obstaja, se imenujejo napake druge vrste.

Te napake nastanejo, ker ni mogoče izključiti možnosti napačne statistične analize. Verjetnost napake je odvisna od stopnje statistične pomembnosti rezultatov. Omenili smo že, da mora biti stopnja pomembnosti nižja od 0,05, da se rezultat šteje za pravilnega. Seveda so nekateri rezultati nižji in ni nenavadno, da najdemo rezultate tako nizke kot 0,001 (vrednost 0,001 označuje 1 proti 1000 možnosti za napako). Manjša kot je vrednost p, močnejše je naše zaupanje v pravilnost rezultatov.

V tabeli. 7.2 prikazuje tradicionalno razlago stopenj pomembnosti o možnosti statističnega sklepanja in utemeljitve odločitve o prisotnosti povezave (razlik).

Tabela 7.2

Tradicionalna razlaga stopenj pomembnosti, ki se uporablja v psihologiji

Na podlagi izkušenj praktičnih raziskav je priporočljivo, da se v izogib napakam prve in druge vrste pri sprejemanju odgovornih zaključkov odloči o prisotnosti razlik (povezav) s poudarkom na ravni R n znak.

Statistični test(Statistični test - je orodje za določanje stopnje statistične pomembnosti. To je pravilo odločanja, ki zagotavlja, da je resnična hipoteza sprejeta in napačna z veliko verjetnostjo zavrnjena.

Statistična merila označujejo tudi način izračuna določenega števila in samo to število. Vsi kriteriji se uporabljajo z enim glavnim ciljem: določiti stopnja pomembnosti podatke, ki jih analizirajo (tj. verjetnost, da podatki odražajo pravi učinek, ki pravilno predstavlja populacijo, iz katere je bil vzet vzorec).

Nekatera merila je mogoče uporabiti samo za normalno porazdeljene podatke (in če je značilnost izmerjena na intervalni lestvici) - ta merila se običajno imenujejo parametrični. S pomočjo drugih meril lahko analizirate podatke s skoraj vsakim distribucijskim zakonom - imenujejo se neparametrični.

Parametrična merila - merila, ki vključujejo parametre porazdelitve v formuli za izračun, tj. srednje vrednosti in variance (Studentov t-test, Fisherjev F-test itd.).

Neparametrična merila - merila, ki ne vključujejo parametrov porazdelitve v formuli za izračun porazdelitev in temeljijo na delovnih frekvencah ali rangih (merilo Q Rosenbaum, kriterij U Manna - Whitney

Ko na primer rečemo, da je bila pomembnost razlik določena s Studentovim t-testom, mislimo, da smo z metodo Studentovega t-testa izračunali empirično vrednost, ki jo nato primerjamo s tabelarno (kritično) vrednostjo.

Glede na razmerje med empirično (izračunali smo) in kritično vrednostjo kriterija (tabela) lahko presodimo, ali je naša hipoteza potrjena ali ovržena. V večini primerov je za to, da razlike prepoznamo kot pomembne, nujno, da empirična vrednost kriterija presega kritično, čeprav obstajajo kriteriji (na primer Mann-Whitneyjev test ali test znakov), pri katerih držati se moramo nasprotnega pravila.

V nekaterih primerih formula za izračun merila vključuje število opazovanj v študijskem vzorcu, označeno kot p. S posebno tabelo ugotovimo, kakšna stopnja statistične pomembnosti razlik ustreza dani empirični vrednosti. V večini primerov se lahko ista empirična vrednost kriterija izkaže za pomembno ali nepomembno, odvisno od števila opazovanj v študijskem vzorcu ( p ) ali iz ti število prostostnih stopinj , ki je označen kot v (g>) ali oboje df (včasih d).

Vedeti p ali število stopenj svobode, lahko uporabimo posebne tabele (glavne so podane v dodatku 5), da določimo kritične vrednosti merila in z njimi primerjamo pridobljeno empirično vrednost. Običajno je zapisano takole: n = 22 kritičnih vrednosti kriterija je tSt = 2,07" ali "pri v (d) = 2, kritične vrednosti Studentovega kriterija so = 4,30 "in t.i.

Običajno pa se daje prednost parametričnim kriterijem in tega stališča se tudi držimo. Veljajo za bolj zanesljive in lahko zagotovijo več informacij in globljo analizo. Kar zadeva kompleksnost matematičnih izračunov, pri uporabi računalniških programov ta kompleksnost izgine (nekatere druge pa se zdijo precej premagljive).

V tem učbeniku se ne ukvarjamo podrobneje s problemom statistike
hipoteze (ničelna - R0 in alternativna - Hj) in statistične odločitve, saj študentje psihologije to študirajo ločeno pri disciplini "Matematične metode v psihologiji". Poleg tega je treba opozoriti, da pri pripravi raziskovalnega poročila (seminarske ali diplomske naloge, objave) statistične hipoteze in statistične rešitve praviloma niso podane. Običajno je pri opisu rezultatov navedeno merilo, podana je potrebna deskriptivna statistika (povprečja, sigma, korelacijski koeficienti itd.), Empirične vrednosti kriterijev, stopnje svobode in nujno raven p-pomena. Nato se v zvezi s hipotezo, ki se testira, oblikuje smiseln sklep, ki nakazuje (običajno v obliki neenakosti) doseženo ali nedoseženo raven pomembnosti.

Razmislite o tipičnem primeru uporabe statističnih metod v medicini. Ustvarjalci zdravila kažejo, da poveča diurezo sorazmerno z odmerkom. Da bi preverili to domnevo, dajo petim prostovoljcem različne odmerke zdravila.

Glede na rezultate opazovanj se izriše graf diureze v odvisnosti od odmerka (slika 1.2A). Odvisnost je vidna s prostim očesom. Raziskovalci drug drugemu čestitajo za odkritje, svetu pa za nov diuretik.

Pravzaprav nam podatki omogočajo, da zanesljivo trdimo le, da je bila pri teh petih prostovoljcih opažena odvisnost diureze od odmerka. Dejstvo, da se bo ta odvisnost pokazala pri vseh ljudeh, ki bodo jemali drogo, ni nič drugega kot ugibanje.
WJ

zhenie. Ne moremo reči, da je neutemeljeno - drugače, zakaj eksperimentirati?

Toda zdaj je zdravilo na trgu. Vse več ljudi ga jemlje v upanju, da bo povečalo diurezo. In kaj vidimo? Vidimo sliko 1.2B, ki kaže na odsotnost kakršne koli povezave med odmerkom zdravila in diurezo. Črni krogi predstavljajo podatke iz prvotne študije. Statistika ima metode za ocenjevanje verjetnosti pridobitve takšnega »nereprezentativnega«, poleg tega zmedenega vzorca. Izkazalo se je, da bi v odsotnosti povezave med diurezo in odmerkom zdravila nastalo "odvisnost" opazili v približno 5 od 1000 poskusov. Torej v tem primeru raziskovalci niso imeli sreče. Tudi če bi uporabili še tako popolne statistične metode, jih to še vedno ne bi rešilo pred napakami.

Ta izmišljeni, a prav nič daleč od realnosti primer, smo navedli ne zato, da bi opozorili na nekoristnost
statistika. Govori o nečem drugem, o verjetnosti njenih sklepov. Z uporabo statistične metode ne dobimo končne resnice, temveč le oceno verjetnosti posamezne predpostavke. Poleg tega vsaka statistična metoda temelji na svojem lastnem matematičnem modelu in njeni rezultati so pravilni do te mere, da ta model ustreza realnosti.

Več o ZANESLJIVOSTI IN STATISTIČNI POMEMBNOSTI:

Statistično značilne razlike v kazalnikih kakovosti življenja
Statistični agregat. Računski znaki. Koncept kontinuiranega in selektivnega raziskovanja. Zahteve za statistično populacijo in uporabo knjigovodskih in poročevalskih listin
ESEJ. ŠTUDIJA ZANESLJIVOSTI ODČITKOV TONOMETRA ZA MERENJE INTRAOKULARNEGA TISKA SKOZI VEKO 2018, 2018

Kaj misliš, da je tvoja "sorodna duša" posebna, pomembna? Je to povezano z njeno (njegovo) osebnostjo ali z vašimi občutki, ki jih imate do te osebe? Ali morda s preprostim dejstvom, da študije kažejo, da ima hipoteza, da je vaša všečnost naključna, verjetnost manj kot 5 %? Če menimo, da je zadnja izjava zanesljiva, potem uspešna spletna mesta za zmenke načeloma ne bi obstajala:

Ko izvajate split testiranje ali katero koli drugo analizo svojega spletnega mesta, lahko napačno razumevanje "statistične pomembnosti" povzroči napačno interpretacijo rezultatov in s tem napačne korake v procesu optimizacije konverzije. To velja za tisoče drugih statističnih testov, ki se dnevno izvajajo v kateri koli obstoječi industriji.

Da bi razumeli, kaj je "statistična pomembnost", se morate poglobiti v zgodovino tega izraza, poznati njegov pravi pomen in razumeti, kako vam bo to "novo" staro razumevanje pomagalo pri pravilni razlagi rezultatov vaše raziskave.

Malo zgodovine

Čeprav človeštvo s statistiko rešuje probleme že dolga stoletja, se je sodobno razumevanje statistične pomembnosti, preverjanja hipotez, randomizacije in celo načrtovanja eksperimentov (Design of Experiments (DOE)) začelo oblikovati šele v začetku 20. stoletja. in je neločljivo povezan z imenom Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher je bil evolucijski biolog in statistik, ki je imel posebno strast do proučevanja evolucije in naravne selekcije v živalskem in rastlinskem kraljestvu. V svoji veličastni karieri je razvil in populariziral številna uporabna statistična orodja, ki jih uporabljamo še danes.

Fisher je uporabil tehnike, ki jih je razvil, da bi razložil procese v biologiji, kot so dominanca, mutacije in genetske variacije. Ista orodja lahko danes uporabimo za optimizacijo in izboljšanje vsebine spletnih virov. Dejstvo, da se ta orodja za analizo lahko uporabljajo za delo s predmeti, ki sploh niso obstajali v času njihovega nastanka, se zdi precej presenetljivo. Enako presenetljivo je, da so ljudje nekoč delali najbolj zapletene izračune brez kalkulatorjev ali računalnikov.

Da bi rezultate statističnega eksperimenta opisal kot tiste, ki imajo veliko verjetnost, da so resnični, je Fisher uporabil besedo pomen.

Tudi ena izmed najbolj zanimivih Fisherjevih razvojev je hipoteza o "spolnem sinu". Po tej teoriji ženske dajejo prednost promiskuitetnim moškim (hodcem), ker bodo tako sinovi, rojeni od teh moških, imeli enako predispozicijo in ustvarili več svojih potomcev (upoštevajte, da je to le teorija).

Toda nihče, niti briljantni znanstveniki, ni imun na napake. Fisherjeve napake motijo strokovnjake še danes. Toda spomnite se besed Alberta Einsteina: "Kdor ni nikoli naredil napake, ni nikoli ustvaril ničesar novega."

Preden preidete na naslednjo točko, ne pozabite, da je statistična pomembnost situacija, ko je razlika v rezultatih testiranja tako velika, da te razlike ni mogoče razložiti z vplivom naključnih dejavnikov.

Kakšna je vaša hipoteza?

Da bi razumeli, kaj pomeni "statistično pomembno", morate najprej razumeti, kaj je "testiranje hipotez", saj sta izraza tesno prepletena.
Hipoteza je le teorija. Ko razvijete teorijo, boste morali vzpostaviti postopek za zbiranje dovolj dokazov in te dokaze dejansko zbrati. Obstajata dve vrsti hipotez.

Jabolka ali pomaranče - kaj je bolje?

Ničelna hipoteza

Praviloma se na tem mestu mnogi srečujejo s težavami. Zavedati se morate, da ničelna hipoteza ni nekaj, kar je treba dokazovati, kot na primer, da dokažete, da bo določena sprememba na spletnem mestu povzročila povečanje konverzije, ampak obratno. Ničelna hipoteza je teorija, ki pravi, da če naredite kakršne koli spremembe na spletnem mestu, se ne bo zgodilo nič. In cilj raziskovalca je ovreči to teorijo, ne pa dokazati.

Če se obrnemo na izkušnje z odkrivanjem kaznivih dejanj, kjer preiskovalci postavljajo tudi hipotezo o tem, kdo je storilec, je nična hipoteza v obliki tako imenovane domneve nedolžnosti, koncepta, da obtoženec velja za nedolžnega, dokler mu krivda ni dokazana na sodišču.

Če je ničelna hipoteza, da sta dva predmeta enaka v svojih lastnostih, in poskušate dokazati, da je eden od njiju še vedno boljši (na primer, A je boljši od B), morate opustiti ničelno hipotezo v korist alternative eno. Na primer, primerjate eno ali drugo orodje za optimizacijo konverzije med seboj. V ničelni hipotezi imata oba enak učinek na tarčo (ali nimata učinka). Druga možnost je, da je učinek enega od njih boljši.

Vaša alternativna hipoteza lahko vsebuje številčno vrednost, kot je B - A > 20 %. V tem primeru imata lahko ničelna hipoteza in alternativa naslednjo obliko:

Drugo ime za alternativno hipotezo je raziskovalna hipoteza, saj je raziskovalec vedno zainteresiran za dokazovanje te določene hipoteze.

Statistična značilnost in "p" vrednost

Vrnimo se k Ronaldu Fisherju in njegovemu konceptu statistične pomembnosti.

Zdaj, ko imate ničelno hipotezo in alternativo, kako lahko dokažete eno in ovržete drugo?

Ker statistika po svoji naravi vključuje preučevanje določene populacije (vzorca), nikoli ne morete biti 100 % prepričani o rezultatih, ki jih dobite. Jasen primer: rezultati volitev se pogosto razlikujejo od rezultatov predhodnih anket in celo izhodnih skupin.

Dr. Fisher je želel ustvariti ločnico, ki bi vam povedala, ali je bil vaš poskus uspešen ali ne. Tako je nastal indeks zaupanja. Zanesljivost je raven, na kateri povemo, kaj se nam zdi "smiselno" in kaj ne. Če je "p", indeks zaupanja, 0,05 ali manj, so rezultati pomembni.

Ne skrbite, res ni tako zmedeno, kot se zdi.

Gaussova verjetnostna porazdelitev. Na robovih - manj verjetne vrednosti spremenljivke, v sredini - najbolj verjetne. P-rezultat (zeleno zasenčeno območje) je verjetnost, da se opazovani izid zgodi po naključju.

Normalna verjetnostna porazdelitev (Gaussova porazdelitev) je predstavitev vseh možnih vrednosti določene spremenljivke na grafu (na zgornji sliki) in njihovih frekvenc. Če pravilno raziščete in nato vse odgovore, ki jih dobite, narišete na graf, boste dobili točno to porazdelitev. Glede na normalno porazdelitev boste dobili velik odstotek podobnih odgovorov, preostale možnosti pa se bodo nahajale na robovih grafa (tako imenovani "repi"). Takšno porazdelitev količin pogosto najdemo v naravi, zato jo imenujemo »normalna«.

Z uporabo enačbe, ki temelji na vašem vzorcu in rezultatih testa, lahko izračunate tako imenovano "testno statistiko", ki vam pove, koliko so rezultati odstopali. Prav tako vam bo povedal, kako blizu ste temu, da je ničelna hipoteza resnična.

Za pomiritev uporabite spletne kalkulatorje za izračun statistične pomembnosti:

En primer takih kalkulatorjev

Črka "p" pomeni verjetnost, da je ničelna hipoteza resnična. Če je število majhno, bi to pomenilo razliko med testnimi skupinami, medtem ko bi bila nična hipoteza, da so enake. Grafično bo to videti, kot da je vaša testna statistika bližje enemu od repov vaše porazdelitve zvona.

Dr. Fischer se je odločil, da bo postavil prag zaupanja za rezultate pri p ≤ 0,05. Vendar pa je ta izjava tudi sporna, saj vodi do dveh težav:

1. Prvič, dejstvo, da ste dokazali napačno ničelno hipotezo, ne pomeni, da ste dokazali alternativno hipotezo. Ves ta pomen samo pomeni, da ne morete dokazati ne A ne B.

2. Drugič, če je p-vrednost enaka 0,049, bo to pomenilo, da bo verjetnost ničelne hipoteze 4,9 %. To lahko pomeni, da so lahko vaši rezultati testa hkrati veljavni in napačni.

P-vrednost lahko uporabite ali ne, vendar boste potem morali izračunati verjetnost ničelne hipoteze v vsakem posameznem primeru in se odločiti, ali je dovolj velika, da ne boste naredili sprememb, ki ste jih načrtovali in preizkusili.

Najpogostejši scenarij za izvedbo statističnega testa danes je nastavitev praga pomembnosti p ≤ 0,05 pred izvajanjem dejanskega testa. Ne pozabite le skrbno preučiti p-vrednosti, ko preverjate rezultate.

Napaki 1 in 2

Minilo je že toliko časa, da so napake, ki lahko nastanejo pri uporabi merila statistične pomembnosti, dobile celo svoja imena.

Napaka 1 (napake tipa 1)

Kot je navedeno zgoraj, p-vrednost 0,05 pomeni, da obstaja 5 % verjetnost, da je ničelna hipoteza resnična. Če tega ne storite, delate napako številka 1. Rezultati pravijo, da je vaše novo spletno mesto povečalo stopnjo konverzije, vendar obstaja 5-odstotna verjetnost, da ni.

Napaka 2 (napake vrste 2)

Ta napaka je nasprotje napake 1: sprejmete ničelno hipotezo, ko je napačna. Rezultati testiranja vam na primer povedo, da spremembe spletnega mesta niso prinesle nobenih izboljšav, medtem ko so spremembe prinesle. Posledično: zamujate priložnost za povečanje svoje uspešnosti.

Ta napaka je pogosta pri testih z nezadostnimi velikostmi vzorcev, zato ne pozabite, da večji kot je vzorec, zanesljivejši je rezultat.

Zaključek

Morda noben izraz med raziskovalci ni tako priljubljen kot statistična pomembnost. Kadar se rezultati testov ne štejejo za statistično značilne, se posledice razlikujejo od povečanja stopenj konverzije do propada podjetja.

In ker tržniki uporabljajo ta izraz, ko optimizirajo svoje vire, morate vedeti, kaj v resnici pomeni. Pogoji testiranja se lahko spremenijo, vendar sta velikost vzorca in merila uspeha vedno pomembna. Zapomni si to.

Pred zbiranjem in proučevanjem podatkov se eksperimentalni psihologi običajno odločijo, kako bodo podatke statistično analizirali. Pogosto raziskovalec postavi višjo stopnjo pomembnosti, definirano kot statistika ( ali spodaj), ki vsebuje vrednosti, ki nam omogočajo, da vpliv dejavnikov obravnavamo kot nenaključne. Raziskovalci to raven običajno predstavijo v obliki verjetnostnega izraza.

V mnogih psiholoških poskusih se lahko izrazi kot " stopnja 0,05" ali " stopnja 0,01". To pomeni, da se bodo naključni rezultati pojavljali le pogosto 0,05 (1 od th časa) oz 0,01 (1 od 100-krat). Rezultati statistične analize podatkov, ki ustrezajo vnaprej določenemu kriteriju ( naj bo to 0,05, 0,01 ali celo 0,001), so v nadaljevanju označeni kot statistično pomembni.

Opozoriti je treba, da rezultat morda ni statistično pomemben, vendar je še vedno zanimiv. Pogosto, zlasti med predhodnimi študijami ali poskusi z majhnim številom subjektov ali z omejenim številom opazovanj, rezultati morda ne bodo dosegli ravni statistične pomembnosti, vendar kažejo, da bodo v nadaljnjih študijah z natančnejšimi kontrolami in z več opazovanji postane bolj zanesljiv.. Obenem mora biti eksperimentator zelo previden v želji, da namenoma spremeni pogoje eksperimenta, da bi za vsako ceno dosegel želeni rezultat.

V drugem primeru načrta 2x2 Ji uporabili dve vrsti predmetov in dve vrsti nalog, da bi preučevali učinek specialnega znanja na pomnjenje informacij.

V moji delovni sobi Ji preučevali pomnjenje številk in šahovskih figur ( spremenljivka A) otroci na foteljih RECARO Young Sport in odrasli ( spremenljivka B), torej po načrtu 2x2. Otroci so bili stari 10 let in so bili dobri v šahu, medtem ko so bili odrasli novi v igri. Prva naloga je bila zapomniti položaj figur na plošči, kakršen bi bil med običajno igro, in ga obnoviti, ko so bile figure odstranjene. Drugi del te naloge je bil zapomniti standardno serijo številk, kot se običajno počne pri določanju IQ.

Izkazalo se je, da posebna znanja, kot je na primer sposobnost igranja šaha, olajšajo pomnjenje informacij, povezanih s tem področjem, nimajo pa velikega vpliva na pomnjenje številk. Odrasli, ki niso preveč izkušeni v modrosti starodavne igre, si zapomnijo manj figur, vendar so pri pomnjenju številk uspešnejši.

V telesu poročila Ji podaja statistično analizo, ki matematično potrjuje predstavljene rezultate.

Zasnova 2x2 je najpreprostejša od vseh faktorskih zasnov. Povečevanje števila dejavnikov oziroma ravni posameznih dejavnikov te načrte močno zaplete.

Oddelki