Ceea ce se numește populația generală și populația eșantion. Populații generale și eșantion

Populația- un set de unitati care au caracter de masa, tipicitate, uniformitate calitativa si prezenta variatiei.

Populația statistică este formată din obiecte existente material (Angajați, întreprinderi, țări, regiuni), este un obiect.

Unitatea de populație- fiecare unitate specifică a populaţiei statistice.

Aceeași populație statistică poate fi omogenă într-o caracteristică și eterogenă în alta.

Uniformitate calitativă- asemănarea tuturor unităților populației pentru orice caracteristică și neasemănarea pentru toate celelalte.

Într-o populație statistică, diferențele dintre o unitate a populației și alta sunt mai adesea de natură cantitativă. Modificările cantitative ale valorilor atributului diferitelor unități ale populației se numesc variație.

Variație caracteristică- modificarea cantitativă a unui semn (pentru un semn cantitativ) în timpul trecerii de la o unitate a populației la alta.

semn- aceasta este o proprietate, trăsătură caracteristică sau altă trăsătură a unităților, obiectelor și fenomenelor care pot fi observate sau măsurate. Semnele sunt împărțite în cantitative și calitative. Diversitatea și variabilitatea valorii unei caracteristici în unități individuale ale populației se numesc variație.

Caracteristicile atributive (calitative) nu sunt cuantificabile (compunerea populației pe sex). Caracteristicile cantitative au o expresie numerică (compunerea populației pe vârstă).

Index- aceasta este o caracteristică generalizantă cantitativ calitativă a oricărei proprietăți a unităților sau agregatelor în ansamblu în condiții specifice de timp și loc.

Tabloul de punctaj este un set de indicatori care reflectă cuprinzător fenomenul studiat.

De exemplu, luați în considerare salariul:
  • Semn - salarii
  • Populația statistică - toți angajații
  • Unitatea populației este fiecare muncitor
  • Omogenitate calitativă - salariu acumulat
  • Variație caracteristică - o serie de numere

Populația generală și eșantionul din ea

Baza este un set de date obținute ca urmare a măsurării uneia sau mai multor caracteristici. Setul de obiecte observat efectiv, reprezentat statistic printr-o serie de observații ale unei variabile aleatorii, este prelevarea de probe, și existentul ipotetic (gândit) - populatie generala. Populația generală poate fi finită (număr de observații N = const) sau infinit ( N = ∞), iar un eșantion din populația generală este întotdeauna rezultatul unui număr limitat de observații. Se numește numărul de observații care alcătuiesc un eșantion marime de mostra. Dacă dimensiunea eșantionului este suficient de mare n→∞) se ia în considerare eșantionul mare, altfel se numește probă volum limitat. Se ia în considerare eșantionul mic, dacă, la măsurarea unei variabile aleatoare unidimensionale, dimensiunea eșantionului nu depășește 30 ( n<= 30 ), iar când se măsoară simultan mai multe ( k) caracteristici într-o relație spațială multidimensională n La k nu depășește 10 (n/k< 10) . Formele eșantionului serie de variații dacă membrii săi sunt statisticile comenzilor, adică valorile eșantionului ale variabilei aleatoare X sunt sortate în ordine crescătoare (clasate), valorile atributului sunt numite Opțiuni.

Exemplu. Aproape același set de obiecte selectat aleatoriu - băncile comerciale ale unui district administrativ al Moscovei, poate fi considerat ca un eșantion din populația generală a tuturor băncilor comerciale din acest district și ca un eșantion din populația generală a tuturor băncilor comerciale din Moscova , precum si un esantion de banci comerciale din tara si etc.

Metode de bază de eșantionare

De fiabilitatea concluziilor statistice și interpretarea semnificativă a rezultatelor depinde reprezentativitate mostre, adică completitudinea și adecvarea prezentării proprietăților populației generale, în raport cu care acest eșantion poate fi considerat reprezentativ. Studiul proprietăţilor statistice ale populaţiei poate fi organizat în două moduri: utilizând continuuȘi discontinuu. Observație continuă include examinarea tuturor unitati studiat agregate, A observație necontinuă (selectivă).- doar părți din ea.

Există cinci moduri principale de organizare a eșantionării:

1. selecție aleatorie simplă, în care obiectele sunt selectate aleatoriu din populația generală de obiecte (de exemplu, folosind un tabel sau un generator de numere aleatorii), iar fiecare dintre eșantioanele posibile are o probabilitate egală. Se numesc astfel de mostre de fapt aleatoriu;

2. selecție simplă printr-o procedură obișnuită se realizează folosind o componentă mecanică (de exemplu, datele, zilele săptămânii, numerele apartamentelor, literele alfabetului etc.) iar eșantioanele obținute în acest fel se numesc mecanic;

3. stratificat selecţia constă în faptul că populaţia generală de volum este subdivizată în submulţimi sau straturi (straturi) de volum astfel încât . Straturile sunt obiecte omogene din punct de vedere al caracteristicilor statistice (de exemplu, populația este împărțită în straturi pe grupe de vârstă sau clasă socială; întreprinderi pe industrie). În acest caz, eșantioanele sunt numite stratificat(in caz contrar, stratificat, tipic, zonat);

4. metode serial selecția sunt folosite pentru a forma serial sau mostre imbricate. Sunt convenabile dacă este necesar să se examineze simultan un „bloc” sau o serie de obiecte (de exemplu, un transport de mărfuri, produse dintr-o anumită serie sau populația din diviziunea administrativ-teritorială a țării). Selectarea serii poate fi efectuată în mod aleatoriu sau mecanic. În același timp, se efectuează o cercetare continuă a unui anumit lot de mărfuri sau a unei întregi unități teritoriale (o clădire de locuit sau un sfert);

5. combinate selecția (în trepte) poate combina mai multe metode de selecție simultan (de exemplu, stratificată și aleatorie sau aleatorie și mecanică); se numeste un astfel de esantion combinate.

Tipuri de selecție

De minte există selecție individuală, de grup și combinată. La selecție individuală unități individuale ale populației generale sunt selectate în setul de eșantion, cu selecția grupului sunt grupuri (serii) de unități calitativ omogene și selecție combinată implică o combinație între primul și al doilea tip.

De metodă selectie distinge repetate și nerepetitive probă.

irepetabil numită selecție, în care unitatea care a intrat în eșantion nu revine la populația inițială și nu participă la selecția ulterioară; în timp ce numărul de unităţi ale populaţiei generale N redus în timpul procesului de selecție. La repetate selecţie prinsîn eșantion, după înregistrare, unitatea este returnată populației generale și, astfel, își păstrează șanse egale, alături de alte unități, de a fi utilizată în continuarea procedurii de selecție; în timp ce numărul de unităţi ale populaţiei generale N rămâne neschimbată (metoda este rar folosită în studiile socio-economice). Cu toate acestea, cu un mare N (N → ∞) formule pentru nerepetat selecția sunt apropiate de cele pentru repetate selecția și acestea din urmă sunt folosite aproape mai des ( N = const).

Principalele caracteristici ale parametrilor populației generale și eșantionului

La baza concluziilor statistice ale studiului se află distribuția unei variabile aleatoare, în timp ce valorile observate (x 1, x 2, ..., x n) se numesc realizări ale variabilei aleatoare X(n este dimensiunea eșantionului). Distribuția unei variabile aleatoare în populația generală este teoretică, de natură ideală, iar analogul eșantionului este empiric distributie. Unele distribuții teoretice sunt date analitic, i.e. al lor Opțiuni determinați valoarea funcției de distribuție în fiecare punct din spațiul valorilor posibile ale variabilei aleatoare. Pentru un eșantion, este dificil, și uneori imposibil, să se determine funcția de distribuție, prin urmare Opțiuni sunt estimate din date empirice și apoi sunt substituite într-o expresie analitică care descrie distribuția teoretică. În acest caz, ipoteza (sau ipoteză) despre tipul de distribuție poate fi atât corectă statistic, cât și eronată. Dar, în orice caz, distribuția empirică reconstruită din eșantion o caracterizează doar aproximativ pe cea adevărată. Cei mai importanți parametri de distribuție sunt valorea estimatași dispersie.

Prin însăși natura lor, distribuțiile sunt continuuȘi discret. Cea mai cunoscută distribuție continuă este normal. Analogi selectivi ai parametrilor și pentru ei sunt: ​​valoarea medie și varianța empirică. Dintre cele discrete în studiile socio-economice, cele mai frecvent utilizate alternativă (dihotomică) distributie. Parametrul de așteptare al acestei distribuții exprimă valoarea relativă (sau acțiune) unități ale populației care au caracteristica studiată (se indică prin litera ); proporţia populaţiei care nu are această caracteristică se notează cu literă q (q = 1 - p). Varianta distribuției alternative are și un analog empiric.

În funcție de tipul de distribuție și de metoda de selectare a unităților de populație, caracteristicile parametrilor de distribuție se calculează diferit. Principalele distribuții teoretice și empirice sunt date în tabel. 1.

Cota de probă k n este raportul dintre numărul de unități ale populației eșantionului și numărul de unități ale populației generale:

k n = n/N.

Cotă de probă w este raportul dintre unitățile care au trăsătura în studiu X la dimensiunea eșantionului n:

w = n n / n.

Exemplu.Într-un lot de mărfuri ce conține 1000 de unități, cu o probă de 5%. fracția de probă k nîn valoare absolută este de 50 de unități. (n = N*0,05); dacă în această probă se găsesc 2 produse defecte, atunci fracția de probă w va fi 0,04 (w = 2/50 = 0,04 sau 4%).

Deoarece populația eșantion este diferită de populația generală, există erori de eșantionare.

Tabelul 1. Principalii parametri ai populației generale și eșantionului

Erori de eșantionare

Cu orice (solide și selective) pot apărea erori de două tipuri: înregistrare și reprezentativitate. Greșeli înregistrare poate avea AleatoriuȘi sistematic caracter. Aleatoriu erorile sunt alcătuite din multe cauze diferite de necontrolat, sunt de natură neintenționată și, de obicei, se echilibrează între ele (de exemplu, modificări ale citirilor instrumentului din cauza fluctuațiilor de temperatură din cameră).

Sistematic erorile sunt părtinitoare, deoarece încalcă regulile de selectare a obiectelor din eșantion (de exemplu, abateri ale măsurătorilor la modificarea setărilor dispozitivului de măsurare).

Exemplu. Pentru a evalua statutul social al populației din oraș, se preconizează examinarea a 25% dintre familii. Dacă, totuși, selecția fiecărui al patrulea apartament se bazează pe numărul său, atunci există pericolul de a selecta toate apartamentele de un singur tip (de exemplu, apartamente cu o cameră), ceea ce va introduce o eroare sistematică și va distorsiona rezultatele; alegerea numărului apartamentului după lot este mai de preferat, deoarece eroarea va fi aleatorie.

Erori de reprezentativitate inerente doar observarii selective, ele nu pot fi evitate si apar ca urmare a faptului ca proba nu o reproduce integral pe cea generala. Valorile indicatorilor obținuți din eșantion diferă de indicatorii acelorași valori în populația generală (sau obținuți în timpul observației continue).

Eroare de eșantionare este diferența dintre valoarea parametrului în populația generală și valoarea eșantionului acestuia. Pentru valoarea medie a unui atribut cantitativ, aceasta este egală cu: , iar pentru cota (atribut alternativ) - .

Erorile de eșantionare sunt inerente numai în observațiile eșantionului. Cu cât aceste erori sunt mai mari, cu atât distribuția empirică diferă de cea teoretică. Parametrii distribuției empirice și sunt variabile aleatoare, prin urmare, erorile de eșantionare sunt, de asemenea, variabile aleatoare, pot lua valori diferite pentru diferite eșantioane și, prin urmare, este obișnuit să se calculeze eroare medie.

Eroare medie de eșantionare este o valoare care exprimă abaterea standard a mediei eșantionului de la așteptările matematice. Această valoare, supusă principiului selecției aleatorii, depinde în primul rând de mărimea eșantionului și de gradul de variație al trăsăturii: cu cât variația trăsăturii este mai mare și mai mică (deci, valoarea lui ), cu atât valoarea lui este mai mică. eroarea medie de eșantionare . Raportul dintre variațiile populației generale și eșantionului este exprimat prin formula:

acestea. pentru suficient de mare, putem presupune că . Eroarea medie de eșantionare arată posibilele abateri ale parametrului populației eșantionului față de parametrul populației generale. În tabel. 2 prezintă expresii pentru calcularea erorii medii de eșantionare pentru diferite metode de organizare a observației.

Tabelul 2. Eroarea medie (m) a mediei eșantionului și proporția pentru diferite tipuri de eșantion

Unde este media variațiilor eșantionului intragrup pentru o caracteristică continuă;

Media dispersiunilor intragrup ale cotei;

— numărul de serii selectate; — numărul total de serii;

,

unde este media seriei a-lea;

- media generală pe întregul eșantion pentru o caracteristică continuă;

,

unde este proporția trăsăturii din seria a III-a;

— ponderea totală a trăsăturii pe întregul eșantion.

Cu toate acestea, mărimea erorii medii poate fi apreciată doar cu o anumită probabilitate Р (Р ≤ 1). Lyapunov A.M. a demonstrat că distribuția mediilor eșantionului, și deci abaterile acestora de la media generală, cu un număr suficient de mare, respectă aproximativ legea distribuției normale, cu condiția ca populația generală să aibă o medie finită și varianță limitată.

Matematic, această afirmație pentru medie este exprimată astfel:

iar pentru fracție, expresia (1) va lua forma:

Unde - Există eroare marginală de eșantionare, care este un multiplu al erorii medii de eșantionare , iar factorul de multiplicitate este criteriul lui Student („factor de încredere”), propus de W.S. Gosset (pseudonim „Student”); valorile pentru diferite dimensiuni ale eșantionului sunt stocate într-un tabel special.

Valorile funcției Ф(t) pentru unele valori ale lui t sunt:

Prin urmare, expresia (3) poate fi citită astfel: cu probabilitate P = 0,683 (68,3%) se poate susține că diferența dintre eșantion și media generală nu va depăși o valoare a erorii medii m(t=1), cu probabilitate P = 0,954 (95,4%)— că nu depășește valoarea a două erori medii m (t = 2), cu probabilitate P = 0,997 (99,7%)- nu va depăși trei valori m (t = 3) . Astfel, determină probabilitatea ca această diferență să depășească de trei ori valoarea erorii medii nivelul de eroareși nu este mai mult decât 0,3% .

În tabel. 3 prezintă formulele de calcul al erorii marginale de eșantionare.

Tabelul 3. Eroarea marginală de eșantionare (D) pentru medie și proporție (p) pentru diferite tipuri de observare a eșantionului

Extinderea rezultatelor eșantionului la populație

Scopul final al observării eșantionului este de a caracteriza populația generală. Pentru dimensiunile mici ale eșantionului, estimările empirice ale parametrilor ( și ) se pot abate semnificativ de la valorile lor adevărate ( și ). Prin urmare, devine necesar să se stabilească limitele în care se află adevăratele valori ( și ) pentru valorile eșantion ale parametrilor ( și ).

Interval de încredere a unui parametru θ al populației generale se numește un interval aleator de valori ale acestui parametru, care cu o probabilitate apropiată de 1 ( fiabilitate) conține valoarea adevărată a acestui parametru.

eroare marginală mostre Δ vă permite să determinați valorile limită ale caracteristicilor populației generale și ale acestora intervale de încredere, care sunt egale cu:

Concluzie interval de încredere obtinut prin scadere eroare marginală din eșantion înseamnă (cota), iar cea de sus prin adăugarea acesteia.

Interval de încredere pentru medie, folosește eroarea marginală de eșantionare și pentru un anumit nivel de încredere este determinat de formula:

Aceasta înseamnă că cu o probabilitate dată R, care se numește nivelul de încredere și este determinat în mod unic de valoare t, se poate argumenta că adevărata valoare a mediei se află în intervalul de la , iar valoarea reală a acțiunii este în intervalul de la

La calcularea intervalului de încredere pentru cele trei niveluri de încredere standard P=95%, P=99% și P=99,9% valoarea este selectată de . Aplicații în funcție de numărul de grade de libertate. Dacă dimensiunea eșantionului este suficient de mare, atunci valorile corespunzătoare acestor probabilități t sunt egale: 1,96, 2,58 Și 3,29 . Astfel, eroarea marginală de eșantionare ne permite să determinăm valorile marginale ale caracteristicilor populației generale și intervalele de încredere ale acestora:

Distribuția rezultatelor observației selective către populația generală în studiile socio-economice are propriile sale caracteristici, deoarece necesită caracterul complet al reprezentativității tuturor tipurilor și grupurilor sale. Baza pentru posibilitatea unei astfel de distribuții este calculul eroare relativă:

Unde Δ % - eroare relativă marginală de eșantionare; , .

Există două metode principale pentru extinderea unei observații prin eșantion la populație: conversie directă și metoda coeficienților.

Esență conversie directă este de a înmulți media eșantionului!!\overline(x) cu dimensiunea populației.

Exemplu. Să fie estimat numărul mediu de copii mici din oraș printr-o metodă de eșantionare și valoarea unei persoane. Dacă în oraș sunt 1000 de familii tinere, atunci numărul de locuri necesare în creșa municipală se obține prin înmulțirea acestei medii cu mărimea populației generale N = 1000, adică. va fi de 1200 de locuri.

Metoda coeficienților se recomanda folosirea in cazul in care se efectueaza observatia selectiva pentru a clarifica datele de observatie continua.

În acest sens, se utilizează formula:

unde toate variabilele sunt mărimea populației:

Mărimea eșantionului necesară

Tabelul 4. Mărimea eșantionului necesară (n) pentru diferite tipuri de organizații de eșantionare

Atunci când se planifica o anchetă de eșantionare cu o valoare predeterminată a erorii de eșantionare admisibile, este necesar să se estimeze corect valoarea necesară marime de mostra. Această sumă poate fi determinată pe baza erorii admisibile în timpul observației selective pe baza unei probabilități date care garantează un nivel de eroare acceptabil (ținând cont de modul în care este organizată observația). Formulele pentru determinarea dimensiunii necesare a eșantionului n pot fi obținute cu ușurință direct din formulele pentru eroarea marginală de eșantionare. Deci, din expresia pentru eroarea marginală:

dimensiunea eșantionului este direct determinată n:

Această formulă arată că odată cu descreșterea erorii marginale de eșantionare Δ crește semnificativ dimensiunea eșantionului necesară, care este proporțională cu varianța și pătratul testului t Student.

Pentru o metodă specifică de organizare a observației, dimensiunea necesară a eșantionului este calculată conform formulelor date în tabel. 9.4.

Exemple practice de calcul

Exemplul 1. Calculul valorii medii și al intervalului de încredere pentru o caracteristică cantitativă continuă.

Pentru a evalua viteza de decontare cu creditorii din bancă, a fost efectuat un eșantion aleatoriu de 10 documente de plată. Valorile lor s-au dovedit a fi egale (în zile): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Obligatoriu cu probabilitate P = 0,954 determina eroarea marginală Δ media eșantionului și limitele de încredere ale timpului mediu de calcul.

Soluţie. Valoarea medie este calculată prin formula din tabel. 9.1 pentru populația eșantion

Dispersia este calculată conform formulei din tabel. 9.1.

Eroarea pătratică medie a zilei.

Eroarea mediei se calculează cu formula:

acestea. valoarea medie este x ± m = 12,0 ± 2,3 zile.

Fiabilitatea mediei a fost

Eroarea limită este calculată prin formula din tabel. 9.3 pentru reselecție, deoarece dimensiunea populației este necunoscută, și pt P = 0,954 nivel de încredere.

Astfel, valoarea medie este `x ± D = `x ± 2m = 12,0 ± 4,6, i.e. valoarea sa reală se află în intervalul de la 7,4 la 16,6 zile.

Utilizarea tabelului Studentului. Aplicația ne permite să concluzionăm că pentru n = 10 - 1 = 9 grade de libertate valoarea obținută este de încredere cu un nivel de semnificație a £ 0,001, i.e. valoarea medie rezultată este semnificativ diferită de 0.

Exemplul 2. Estimarea probabilității (cota generală) r.

Cu o metodă de eșantionare mecanică de anchetă a statutului social a 1000 de familii, a fost relevat că proporția familiilor cu venituri mici a fost w = 0,3 (30%)(eșantionul a fost 2% , adică n/N = 0,02). Necesar cu nivel de încredere p = 0,997 definiți un indicator R familii cu venituri mici din întreaga regiune.

Soluţie. Conform valorilor funcţiei prezentate Ф(t) găsiți pentru un anumit nivel de încredere P = 0,997 sens t=3(vezi formula 3). Eroare de cotă marginală w determinați prin formula din tabel. 9.3 pentru eșantionarea nerepetată (prelevarea mecanică este întotdeauna nerepetată):

Limitarea erorii relative de eșantionare în % va fi:

Probabilitatea (ponderea generală) a familiilor cu venituri mici din regiune va fi p=w±Δw, iar limitele de încredere p sunt calculate pe baza inegalității duble:

w — Δw ≤ p ≤ w — Δw, adică adevărata valoare a lui p se află în:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Astfel, cu o probabilitate de 0,997, se poate argumenta că proporția familiilor cu venituri mici în rândul tuturor familiilor din regiune variază de la 28,6% la 31,4%.

Exemplul 3 Calculul valorii medii și al intervalului de încredere pentru o caracteristică discretă specificată de o serie de intervale.

În tabel. 5. Se stabilește repartizarea aplicațiilor pentru producerea comenzilor în funcție de momentul implementării lor de către întreprindere.

Tabelul 5. Distribuția observațiilor în funcție de momentul apariției

Soluţie. Timpul mediu de finalizare a comenzii este calculat prin formula:

Timpul mediu va fi:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 luni

Primim același răspuns dacă folosim datele de pe p i din penultima coloană a tabelului. 9.5 folosind formula:

Rețineți că mijlocul intervalului pentru ultima gradație se găsește prin completarea artificială a acestuia cu lățimea intervalului gradației anterioare egală cu 60 - 36 = 24 luni.

Dispersia se calculează prin formula

Unde x i- mijlocul seriei de intervale.

Prin urmare!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) iar eroarea standard este .

Eroarea mediei este calculată prin formula pentru luni, adică media este!!\overline(x) ± m = 23,1 ± 13,4.

Eroarea limită este calculată prin formula din tabel. 9,3 pentru reselecție deoarece dimensiunea populației este necunoscută, pentru un nivel de încredere de 0,954:

Deci media este:

acestea. adevărata sa valoare se află în intervalul de la 0 la 50 de luni.

Exemplul 4 Pentru a determina viteza decontărilor cu creditorii ai N = 500 de întreprinderi ale corporației într-o bancă comercială, este necesar să se efectueze un studiu selectiv folosind metoda selecției aleatorii nerepetitive. Determinați dimensiunea eșantionului necesar n astfel încât, cu o probabilitate P = 0,954, eroarea mediei eșantionului să nu depășească 3 zile, dacă estimările testului au arătat că abaterea standard s a fost de 10 zile.

Soluţie. Pentru a determina numărul de studii necesare n, folosim formula pentru selecția nerepetitivă din tabel. 9.4:

În ea, valoarea lui t este determinată de la nivelul de încredere P = 0,954. Este egal cu 2. Valoarea pătrată medie s = 10, dimensiunea populației N = 500 și eroarea marginală a mediei Δ x = 3. Înlocuind aceste valori în formulă, obținem:

acestea. este suficient să se facă un eșantion de 41 de întreprinderi pentru a estima parametrul necesar - viteza decontărilor cu creditorii.

În secțiunea anterioară, ne-a interesat distribuția unei caracteristici într-un anumit set de elemente. Mulțimea care combină toate elementele care au această caracteristică se numește general. Dacă semnul este uman (naționalitate, educație, coeficient IQ etc.), atunci populația generală este întreaga populație a pământului. Aceasta este o colecție foarte mare, adică numărul de elemente din colecția n este mare. Numărul de elemente se numește volumul populației. Colecțiile pot fi finite sau infinite. Populația generală - toți oamenii, deși foarte mari, dar, desigur, finiți. Populația generală - toate stelele, este probabil infinită.

Dacă cercetătorul măsoară o variabilă aleatoare continuă X, atunci fiecare rezultat al măsurării poate fi considerat un element al unei populații generale ipotetice nelimitate. În această populație generală, un număr nenumărat de rezultate sunt distribuite în funcție de probabilitate sub influența erorilor din instrumente, a neatenției experimentatorului, a interferențelor aleatorii în fenomenul în sine etc.

Dacă efectuăm n măsurători repetate ale unei variabile aleatoare X, adică obținem n valori numerice diferite specifice, atunci acest rezultat al experimentului poate fi considerat un eșantion de dimensiunea n dintr-un set general ipotetic de rezultate ale măsurătorilor unice.

Este firesc să presupunem că valoarea reală a valorii măsurate este media aritmetică a rezultatelor. Această funcție de n măsurători se numește statistică și este ea însăși o variabilă aleatoare care are o distribuție numită distribuție de eșantionare. Determinarea distribuției de eșantionare a unei anumite statistici este cea mai importantă sarcină a analizei statistice. Este clar că această distribuție depinde de dimensiunea eșantionului n și de distribuția variabilei aleatoare X a populației generale ipotetice. Distribuția eșantionului unei statistici este distribuția lui X q într-un set infinit de toate eșantioanele posibile de dimensiune n din populația inițială.

De asemenea, este posibilă măsurarea unei variabile aleatoare discrete.

Fie măsurarea unei variabile aleatoare X aruncarea unei piramide triunghiulare omogene regulate, pe fețele căreia sunt scrise numerele 1, 2, 3, 4. Variabila discretă, aleatoare X are o distribuție uniformă simplă:

Experimentul poate fi efectuat de un număr nelimitat de ori. O populație teoretică ipotetică este o populație infinită în care există cote egale (0,25 fiecare) a patru elemente diferite, notate cu numerele 1, 2, 3, 4. această populație generală. Ca rezultat al experimentului, avem n numere. Poti introduce cateva functii ale acestor marimi, care se numesc statistici, pot fi asociate anumitor parametri ai distributiei generale.

Cele mai importante caracteristici numerice ale distribuțiilor sunt probabilitățile P i , așteptarea matematică M, varianța D. Statisticile pentru probabilitățile P i sunt frecvențele relative, unde n i este frecvența rezultatului i (i=1,2, 3,4) în probă. Aşteptarea matematică M corespunde statisticilor

care se numește media eșantionului. Varianta eșantionului

corespunde varianței generale D.

Frecvența relativă a oricărui eveniment (i=1,2,3,4) într-o serie de n retestări (sau în eșantioane de dimensiune n din populație) va avea o distribuție binomială.

Această distribuție are o așteptare de 0,25 (nu depinde de n) și o abatere standard de (descrește rapid pe măsură ce n crește). Distribuția este o distribuție de eșantionare a unei statistici, frecvența relativă a oricăruia dintre cele patru rezultate posibile ale unei singure aruncări de piramidă în n reîncercări. Dacă am alege dintr-o populație infinită, generală, în care patru elemente diferite (i=1,2,3,4) au cote egale de 0,25, toate eșantioanele posibile de mărimea n (numărul lor este și infinit), atunci am obține așa-numita dimensiune matematică a eșantionului n. În această probă, fiecare dintre elementele (i=1,2,3,4) este distribuit conform legii binomiale.

Să presupunem că am finalizat aruncările acestei piramide, iar numărul doi a căzut de 3 ori (). Putem găsi probabilitatea acestui rezultat folosind distribuția de eșantionare. Ea este egală

Rezultatul nostru sa dovedit a fi foarte puțin probabil; într-o serie de douăzeci și patru de aruncări multiple, are loc aproximativ o dată. În biologie, un astfel de rezultat este de obicei considerat practic imposibil. În acest caz, vom avea îndoieli: este piramida corectă și omogenă, este adevărată egalitatea dintr-o singură aruncare, este corectă distribuția și, prin urmare, distribuția de eșantionare.

Pentru a rezolva îndoiala, este necesar să aruncați încă o dată de patru ori. Dacă rezultatul apare din nou, atunci probabilitatea a două rezultate cu este foarte mică. Este clar că am obținut un rezultat aproape complet imposibil. Prin urmare, distribuția originală este incorectă. Evident, dacă al doilea rezultat se dovedește a fi și mai puțin probabil, atunci există și mai multe motive pentru a face față acestei piramide „corecte”. Dacă rezultatul experimentului repetat este și, atunci putem presupune că piramida este corectă, iar primul rezultat () este, de asemenea, corect, dar pur și simplu puțin probabil.

Nu ne-am putea ocupa de verificarea corectitudinii și omogenității piramidei, dar a priori considerăm piramida corectă și omogenă și, prin urmare, distribuția eșantionării este corectă. În continuare, ar trebui să aflați ce oferă cunoștințe despre distribuția eșantionului pentru studiul populației generale. Dar, deoarece stabilirea unei distribuții de eșantionare este sarcina principală a cercetării statistice, o descriere detaliată a experimentelor piramidale poate fi considerată justificată.

Vom presupune că distribuția de eșantionare este corectă. Apoi, valorile experimentale ale frecvenței relative în diferite serii de n aruncări ale piramidei vor fi grupate în jurul valorii 0,25, care este centrul distribuției de eșantionare și valoarea exactă a probabilității estimate. În acest caz, se spune că frecvența relativă este o estimare imparțială. Deoarece varianța eșantionului tinde spre zero odată cu creșterea n, valorile experimentale ale frecvenței relative vor fi din ce în ce mai strâns grupate în jurul așteptării matematice a distribuției eșantionului odată cu creșterea dimensiunii eșantionului. Prin urmare, este o estimare de probabilitate consistentă.

Dacă piramida s-a dovedit a fi regulată și neomogenă, atunci distribuțiile eșantionului pentru diferite (i=1,2,3,4) ar avea așteptări matematice diferite (diferite) și varianțe.

Rețineți că distribuțiile binomiale ale eșantioanelor obținute aici pentru n () mari sunt bine aproximate printr-o distribuție normală cu parametri și, ceea ce simplifică foarte mult calculele.

Să continuăm un experiment aleatoriu - aruncând o piramidă obișnuită, uniformă, triunghiulară. Variabila aleatoare X asociată acestei experiențe are o distribuție. Așteptările matematice aici sunt

Să facem n aruncări, ceea ce este echivalent cu un eșantion aleatoriu de dimensiunea n dintr-o populație generală ipotetică, infinită, care conține cote egale (0,25) a patru elemente diferite. Obținem n valori eșantion ale variabilei aleatoare X (). Alegem o statistică care reprezintă media eșantionului. Valoarea în sine este o variabilă aleatoare care are o anumită distribuție, în funcție de dimensiunea eșantionului și de distribuția variabilei aleatoare originale X. Valoarea este suma medie a n variabile aleatoare identice (adică cu aceeași distribuție). Este clar că

Prin urmare, statistica este un estimator imparțial al așteptărilor matematice. Este, de asemenea, o estimare consistentă, deoarece

Astfel, distribuția de eșantionare teoretică are aceeași așteptare matematică ca și distribuția originală, varianța fiind redusă de n ori.

Amintiți-vă că este egal cu

Un eșantion infinit matematic, abstract, asociat cu un eșantion de mărime n din populația generală și cu statisticile introduse va conține elemente în cazul nostru. De exemplu, dacă, atunci în eșantionul matematic vor exista elemente cu valori statistice. În total vor fi 13 elemente.Proporția elementelor extreme din eșantionul matematic va fi minimă, deoarece rezultatele și au probabilități egale. Printre multele rezultate elementare ale aruncării cu patru ori a piramidei, există doar unul favorabil și. Pe măsură ce statisticile se apropie de medie, probabilitățile vor crește. De exemplu, valoarea va fi realizată cu rezultate elementare etc. În consecință, ponderea elementului 1.5 în eșantionul matematic va crește și ea.

Valoarea medie va avea probabilitatea maximă. Pe măsură ce n crește, rezultatele experimentale se vor grupa mai strâns în jurul valorii medii. Faptul că media mediei eșantionului este egală cu media populației inițiale este adesea folosit în statistici.

Dacă efectuăm calcule de probabilitate în distribuția eșantionului c, atunci ne putem asigura că chiar și cu o valoare atât de mică de n, distribuția eșantionului va arăta ca una normală. Va fi simetric, în care valoarea va fi mediana, modul și media. Pe măsură ce n crește, este bine aproximat de normala corespunzătoare chiar dacă distribuția inițială este dreptunghiulară. Dacă distribuția inițială este normală, atunci distribuția este o distribuție Student pentru orice n.

Pentru a estima varianța generală, este necesar să alegeți o statistică mai complexă care să ofere o estimare imparțială și consecventă. În distribuția de eșantionare pentru S 2 , media este și varianța este. Pentru dimensiuni mari ale eșantionului, distribuția de eșantionare poate fi considerată normală. Pentru n mic și o distribuție inițială normală, distribuția eșantionului pentru S 2 va fi distribuția h 2 _.

Mai sus am încercat să prezentăm primii pași ai unui cercetător care încearcă să facă o analiză statistică simplă a experimentelor repetate cu o prismă triunghiulară uniformă regulată (tetraedru). În acest caz, cunoaștem distribuția originală. Este posibil, în principiu, să se obțină teoretic distribuții ale eșantionului ale frecvenței relative, mediei eșantionului și varianței eșantionului în funcție de numărul de experimente repetate n. Pentru n mare, toate aceste distribuții de eșantion se vor apropia de distribuțiile normale corespunzătoare, deoarece sunt legi de distribuție pentru sume de variabile aleatoare independente (teorema limită centrală). Astfel, știm rezultatele așteptate.

Experimentele sau mostrele repetate vor da estimări ale parametrilor distribuțiilor eșantionului. Am susținut că estimările experimentale ar fi corecte. Nu am realizat aceste experimente și nici nu am prezentat rezultatele experimentelor obținute de alți cercetători. Se poate sublinia că în determinarea legilor de distribuție se folosesc mai des metodele teoretice decât experimentele directe.

Sectiunea 2 Eșantion și populație

Populații generale și eșantionare.

Populația

General (include toate unitățile de observație care îi pot fi atribuite în conformitate cu scopul studiului.) Populația generală poate fi considerată nu numai în cadrul unor industrii sau limite teritoriale specifice, ci și limitată la alte caracteristici (sex, vârstă) și combinația lor.

Astfel, în funcție de scopul studiului și sarcinile acestuia, limitele populației generale se modifică, pentru aceasta se folosesc principalele caracteristici care îl limitează.

Eșantion (parte a populației generale, care ar trebui să fie reprezentativă pentru populația generală și să reflecte cel mai pe deplin proprietățile acesteia). Pe baza analizei populației eșantion, se poate obține o imagine destul de completă a tiparelor inerente întregii populații.

Setul de eșantion trebuie să fie reprezentativ, adică toate elementele trebuie să fie reprezentate în partea selectată și în același raport ca și în populația generală. Cu alte cuvinte, setul de eșantion trebuie să reflecte proprietățile populației generale, adică să o reprezinte corect. Reprezentativitatea ar trebui să fie atât cantitativă, cât și calitativă.

Cantitativ - bazat pe legea numerelor mari și înseamnă un număr suficient de elemente ale eșantionului, calculate după formule și tabele speciale.

Calitativ – bazat pe legea probabilității și înseamnă adecvarea (uniformitatea) trăsăturilor care caracterizează elementele eșantionului în raport cu generalul.

Metode de eșantionare:

- eșantion aleatoriu - selectarea la întâmplare a unităţilor de observaţie.

-Prelevare mecanică de probe - abordarea aritmetică a selecţiei unităţilor de observaţie eşantionarea tipologică- la formarea populatiei generale se imparte in prealabil in tipuri cu ultimul. selectarea unităţilor de observaţie din fiecare grup tipic. În același timp, numărul de unități poate fi selectat proporțional cu dimensiunea unui grup tipic și în mod disproporționat - Eșantionare în serie (eșantionare imbricată)- formate prin selectarea nu a unor unități individuale de observație, ci a unor grupuri întregi, serii sau cuiburi, care includ unități de observație organizate în mod separat

Metoda de selecție în mai multe etape - după numărul de etape se disting într-o etapă, în două etape, în trei etape etc. metoda de selecție dirijată- vă permite să identificați influența factorilor necunoscuți atunci când stabiliți influența celor cunoscuți

Algoritmi de criterii parametrice.

Testele parametrice sunt utilizate pentru probe cu o distribuție normală. Formula de calcul a acestor criterii conține parametrii eșantionului: medie, varianță etc. Prin urmare, aceștia se numesc parametri. Normalitatea legii de distribuție trebuie dovedită statistic folosind unul dintre testele de bunăstare a potrivirii: testul Pearson, testul F Fisher,-criteriul lui Kolmogorov etc.


În unele cazuri, criteriile parametrice sunt mai puternice decât criteriile neparametrice. Aceștia din urmă au o probabilitate mai mare a unei erori de al doilea fel - adoptarea unei ipoteze false nule.


Metodele parametrice includ următoarele:

– Testul t al elevului

– Criteriul Fisher

– Metode de analiză unidirecțională

– Metode de analiză cu doi factori

Criteriul elevului


Programare.
Criteriul vă permite să evaluați diferențele dintre valorile medii ale eșantioanelor care au o distribuție normală.

Descrierea criteriului.

Criteriul este aplicabil pentru compararea valorilor medii a două probe obținute înainte și după impactul unui anumit factor.

Acest criteriu a fost dezvoltat de William Gossett pentru a evalua calitatea berii la Guinness. În legătură cu obligațiile față de companie de nedezvăluire a secretelor comerciale (și conducerea Guinness a considerat ca atare utilizarea aparatului statistic în activitatea lor), articolul lui Gossett a fost publicat în revista Biometrics sub pseudonimul „Student” (Student). ).

Eșantioane dependente (înrudite) și independente (neînrudite).

Când se compară două (sau mai multe) mostre, dependența lor este un parametru important. Daca poti instala homomorf pereche (adică atunci când un caz din eșantionul X corespunde unui singur caz din eșantionul Y și invers) pentru fiecare caz din două eșantioane (și această bază de relație este importantă pentru trăsătura măsurată în eșantioane), astfel de eșantioane sunt numite dependent. Exemple de selecții dependente:

  • pereche de gemeni
  • două măsurători ale oricărei caracteristici înainte și după expunerea experimentală,
  • soți și soții
  • și așa mai departe.

Dacă nu există o astfel de relație între eșantioane, atunci aceste eșantioane sunt luate în considerare independent, De exemplu:

  • bărbați Și femei,
  • psihologi Și matematică.

În consecință, eșantioanele dependente au întotdeauna aceeași dimensiune, în timp ce dimensiunea eșantioanelor independente poate diferi.

Test t cu două eșantioane pentru probe independente


Pentru două mostre neînrudite (observațiile nu aparțin aceluiași grup de obiecte), sunt posibile două opțiuni de calcul:

    • când se cunosc variaţiile
    • când variațiile sunt necunoscute dar egale între ele.

Unde

abatere pătratică. AiciȘi – estimări ale varianţelor.


Luați în considerare mai întâi un număr egal de mostre. În acest caz

În cazul probelor egale , expresie

În ambele cazuri, numărul de grade de libertate este calculat folosind formulele

Este clar că cu egalitatea numerică a probelor

Valoarea empirică a criteriului Student este comparată cu valoarea critică (conform Tabelului 1 din Anexă) pentru un număr dat de grade de libertate.


Ipoteza nulă.

Să calculăm un exemplu într-un laborator.


Exemplu.

Psihologul a măsurat timpul unei reacții de alegere senzoriomotorie complexă (în ms) în grupul de control și experimental. Grupul experimental (X) a inclus 9 sportivi cu înaltă calificare. Grupul de control (Y) a fost format din 8 persoane care nu sunt implicate activ în sport. Psihologul susține ipoteza că viteza medie a unei reacții de alegere senzoriomotorie complexă la sportivi este mai mare decât aceeași valoare la persoanele care nu fac sport.



Grupuri


Abateri de la medie


Pătratele de abatere

X

Y

1

504

580

-22

-58

484

3368

2

560

692

34

54

1156

2916

3

420

700

-106

62

11236

3844

4

600

621

74

-17

5476

289

5

580

640

54

-2

2916

4

6

530

561

4

-77

16

5929

7

490

680

-36

42

1296

1764

8

580

630

54

-8

2916

64

9

470

-

-56

-

3136

-

Sumă

4734

5104

0

0

28632

18174

In medie

526

638

Valorile medii aritmetice ale lui X și Y:, în grupul de control.

Apoi

^ Numărul de grade de libertate k=9+8-2=15

Conform tabelului de aplicații pentru un anumit număr de grade, găsim

Construim axa semnificației






Acea. diferențele constatate de psiholog între loturile experimentale și cele de control sunt semnificative la peste 0,1%, sau cu alte cuvinte, viteza medie a unei reacții senzorio-motorii complexe la alegere în grupul de sportivi este semnificativ mai mare decât în ​​grupul de persoane care nu implicat activ în sport.

În ceea ce privește ipotezele statistice, această afirmație sună așa: se respinge ipoteza H0 despre similitudine și la nivelul de semnificație de 0,1% se acceptă ipoteza alternativă H1 - despre diferența dintre loturile experimentale și cele de control.

Testul t cu două eșantioane pentru probe dependente (înrudite).

Eșantioanele legate sunt observații pentru un grup de obiecte și toate observațiile sunt asociate perechi cu fiecare obiect de studiu și caracterizează starea acestuia înainte și după expunerea la un anumit factor.

Ipoteze

: valoarea medie din eșantion nu este diferită de zero.

: Media eșantionului este diferită de zero.

1. Se verifică în prealabil normalitatea legii de distribuție pentru unul dintre criteriile de bunăstare.

2. Calculați (i=1..n) – varianta diferențelor perechi și rezultatele măsurătorii pentru eu- obiect înainte și după impactul unui factor. Vom considera valoarea independentă pentru diferite obiecte și distribuită normal

3. Se calculează (de preferință sub formă tabelară): suma diferențelor pe perechi și a parametrilor auxiliari.

4. Valoarea empirică a criteriului se calculează prin gradele de libertate conform formulei

Unde n este dimensiunea eșantionului.

5. Valoarea empirică găsită Criteriul studentului este comparat cu valoarea critică(conform tabelului 1 al anexei) pentru un număr dat de grade de libertate.
Ipoteza nulăla un anumit nivel de semnificaţieacceptată dacă valoarea empirică.

Valoarea critică pentru probabilitatea selectată și numărul dat de grade de libertate pot fi găsite folosind funcția încorporată de Excel STUDISP.


Exemplu.

Psihologul a sugerat că, în urma antrenamentului, timpul pentru rezolvarea problemelor echivalente (adică având același algoritm de soluție) ar fi redus semnificativ. Pentru a testa ipoteza, opt subiecți au comparat timpul de rezolvare (în minute) a primei și a treia sarcini.


Soluția problemei este prezentată în tabel.


Numărul subiectului


1 sarcină


3 sarcină

Populația- un set de elemente care satisfac anumite conditii specificate; denumită și populația de studiu. Populația generală (Universul) - întregul ansamblu de obiecte (subiecți) din studiu, din care sunt selectate (pot fi selectate) obiecte (subiecți) pentru sondaj (sondaj).

PROBĂ sau cadru de prelevare(Eșantion) este un set de obiecte (subiecte) selectate într-un mod special pentru o anchetă (sondaj). Orice date obținute pe baza unei anchete prin sondaj (sondaj) sunt de natură probabilistică. În practică, aceasta înseamnă că în cursul studiului nu se determină o anumită valoare, ci intervalul în care se află valoarea determinată.

Caracteristicile eșantionului:

Caracteristicile calitative ale eșantionului - ce alegem exact și ce metode de eșantionare folosim pentru aceasta.

Caracteristica cantitativă a eșantionului este câte cazuri selectăm, cu alte cuvinte, dimensiunea eșantionului.

Nevoia de eșantionare:

Obiectul de studiu este foarte larg. De exemplu, consumatorii produselor unei companii globale sunt un număr mare de piețe dispersate geografic.

Este nevoie de a colecta informații primare.

Marime de mostra- numărul de cazuri incluse în eșantion.

Eșantioane dependente și independente.

Când se compară două (sau mai multe) mostre, dependența lor este un parametru important. Dacă este posibil să se stabilească o pereche homomorfă (adică atunci când un caz din proba X corespunde unui singur caz din proba Y și invers) pentru fiecare caz în două eșantioane (și această bază de relație este importantă pentru trăsătură măsurate în probe), astfel de eșantioane se numesc dependent.

Dacă nu există o astfel de relație între eșantioane, atunci aceste eșantioane sunt luate în considerare independent.

Tipuri de mostre.

Probele sunt împărțite în două tipuri:

Probabilistică;

Nu probabilistic;

Probă reprezentativă- populaţie eşantion în care caracteristicile principale coincid cu caracteristicile populaţiei generale. Doar pentru acest tip de eșantion, rezultatele unui sondaj asupra unei părți a unităților (obiectelor) pot fi extinse la întreaga populație. O condiție necesară pentru construirea unui eșantion reprezentativ este disponibilitatea informațiilor despre populația generală, adică. fie o listă completă a unităților (subiectelor) populației generale, fie informații despre structura caracteristicilor care afectează semnificativ atitudinea față de subiectul cercetării.

17. Serii de variații discrete, clasament, frecvență, particularitate.

serie de variații(seria statistică) - numită succesiune de opțiuni, scrise în ordine crescătoare și ponderile corespunzătoare.

Seria de variații poate fi discret(selectarea valorilor unei variabile aleatoare discrete) și continuă (interval) (selectarea valorilor unei variabile aleatoare continue).

Seria variațională discretă are forma:

Se numesc valorile observate ale variabilei aleatoare x1, x2, ..., xk Opțiuni,și schimbarea acestor valori se numește variație.

Probă(populație eșantion) - un set de observații selectate aleatoriu din populația generală.

Numărul de observații din populație se numește volumul acesteia.

N- volumul populaţiei generale.

n– dimensiunea eșantionului (suma tuturor frecvențelor seriei).

Frecvență varianta хi este numărul ni (i=1,…,k), care arată de câte ori apare această variantă în eșantion.

Frecvență(frecvență relativă, acțiuni) variante хi (i=1,…,k) este raportul dintre frecvența sa ni și dimensiunea eșantionului n.
w i=n i/n

Clasificarea datelor experimentale- o operație constând în faptul că rezultatele observațiilor asupra unei variabile aleatoare, adică valorile observate ale unei variabile aleatoare, sunt aranjate în ordine nedescrescătoare.

Serii variaționale discrete distribuția se numește un set de opțiuni xi cu frecvențele sau particularitățile corespunzătoare.

Necesitatea de a efectua cercetări selective poate fi cauzată de diverse motive:

    adesea un studiu complet al fenomenului studiat este prea costisitor și îndelungat;

    uneori posibilitatea de a utiliza informațiile primite într-un studiu complet poate fi epuizată înainte de finalizarea procesului de pregătire a acestuia;

    in unele cazuri, ca urmare a verificarii calitatii produsului, obiectul studiat este distrus.

Exemplu:

    să presupunem că populația este toți elevii din școală (600 de persoane din 20 de clase, 30 de persoane în fiecare clasă). Subiectul de studiu este atitudinea față de fumat.

Populația este un set de obiecte despre care trebuie să obțineți informații.

Populația generală este formată din toate obiectele care au calități, proprietăți care prezintă interes pentru cercetător. Uneori, populația generală este întreaga populație adultă a unei anumite regiuni (de exemplu, când se studiază atitudinea potențialilor alegători față de un candidat), cel mai adesea sunt stabilite mai multe criterii care determină obiectele de studiu. De exemplu, femeile de 10-89 de ani care folosesc o anumită marcă de cremă de mâini cel puțin o dată pe săptămână și au un venit de cel puțin 5.000 de ruble per membru al familiei.

Probă este un mic set de obiecte extrase din populația generală.

Setul de eșantionare este minimul de rezultate (cazuri, subiecți, obiecte, evenimente, probe) selectate printr-o anumită procedură din populația generală, necesare studiului.

Exemple:

    identificând reacția clienților firmei la inovații, toți clienții firmei reprezintă populația generală. Clienții care au fost chemați formează un eșantion.

    Când audităm firme cu un număr mare de tranzacții, trebuie să te mulțumești cu examinarea unui număr selectat de tranzacții. Toate tranzacțiile firmei formează populația generală, selectată - eșantionul.

    populatia generala este formata din toti recrutii dintr-un anumit an.

    toate lămpile realizate într-un anumit timp la o anumită întreprindere formează o populație generală. Acele lămpi care sunt selectate pentru control sunt opționale.

Eșantionul poate fi considerat reprezentativ sau nereprezentator. Eșantionul va fi reprezentativ atunci când se examinează un grup mare de persoane, dacă în cadrul acestui grup există reprezentanți ai diferitelor subgrupuri, doar astfel se pot trage concluzii corecte. .

Reprezentativitatea - corespondența caracteristicilor eșantionului cu caracteristicile populației sau ale populației generale în ansamblu. Reprezentativitatea determină cât de mult este posibil să se generalizeze rezultatele studiului cu implicarea unui anumit eșantion la întreaga populație de la care a fost colectat.

Reprezentativitatea poate fi definită și ca proprietatea unui eșantion de a reprezenta parametrii populației generale care sunt semnificativi din punctul de vedere al obiectivelor studiului.

Exemplu: un eșantion de 60 de liceeni reprezintă populația mult mai rău decât un eșantion din aceleași 60 de persoane, care va include câte 3 elevi din fiecare clasă. Motivul principal pentru aceasta este distribuția inegală pe vârstă în clase. Prin urmare, în primul caz, reprezentativitatea eșantionului este scăzută, iar în al doilea caz, reprezentativitatea este mare (ceteris paribus) .

Sarcina 1.Într-un oraș cu 253.000 de cetățeni eligibili, cercetați simpatiile politice ale viitorilor alegători.

Soluţie

    Eșantionul poate fi construit prin intervievarea la fiecare 15 clienți care părăsesc un centru comercial mare. Un astfel de eșantion va reflecta opinia vizitatorilor centrului comercial, dar este puțin probabil să reprezinte punctul de vedere al tuturor locuitorilor orașului.

    O altă metodă de eșantionare este efectuarea unui sondaj telefonic pentru fiecare al 100-lea locuitor al orașului, luând numerele din agenda telefonică. O astfel de eșantionare sistematică va oferi informații despre punctul de vedere al unui grup de persoane care au un telefon, sunt acasă și răspund la apeluri telefonice. Dar nu reflectă punctele de vedere ale tuturor locuitorilor orașului.

    O altă metodă de eșantionare ar putea fi intervievarea participanților la un miting organizat de mai multe partide politice. Un astfel de eșantion va oferi informații despre rezidenții care sunt implicați activ în viața politică a orașului.

Deci, avem nevoie de astfel de metode de eșantionare care să reprezinte întreaga populație, adică eșantionul ar trebui să fie reprezentativ (reprezentator).

Sarcina 2. Determinați dacă eșantionul este reprezentativ:

1) numărul de accidente de mașină în luna iunie, dacă este necesară întocmirea unui raport statistic privind accidentele din oraș pe anul;

2) locuitorii din mediul urban la calculul numărului de mașini pe cap de locuitor din țară;

3) persoane cu vârsta cuprinsă între 40 și 50 de ani la stabilirea ratingului unui program de televiziune pentru tineret.

Soluţie

1) Eșantionul nu este reprezentativ. Vara, nu există zăpadă și gheață pe drumuri, iar aceasta este una dintre principalele cauze ale accidentelor.

2) Eșantionul nu este reprezentativ. Este clar că în oraș sunt mult mai multe mașini decât în ​​mediul rural. Acest lucru trebuie luat în considerare.

3) Eșantionul nu este reprezentativ. Este puțin probabil ca persoanele cu vârste cuprinse între 40 și 50 de ani să-și arate interesul pentru un program destinat unui public de tineret. Atunci când se utilizează un astfel de eșantion, ratingul poate scădea semnificativ, dar acest lucru nu reflectă starea reală a lucrurilor. Pentru a forma o populație eșantion, sunt utilizate diferite metode de selecție. Datele statistice trebuie prezentate astfel încât să poată fi utilizate.

Populația și parametrii eșantionului

N este populația generală, care este subdivizată în straturi N 1 , N 2 și așa mai departe.

straturi reprezintă obiecte omogene din punct de vedere al caracteristicilor statistice (de exemplu, populația este împărțită în straturi pe grupe de vârstă sau clasă socială; întreprinderi pe industrie). În acest caz, eșantioanele se numesc stratificate.

N - dimensiunea eșantionului.

La baza concluziilor statistice ale studiului se află distribuția variabilei aleatoare X, în timp ce valorile observate x 1 , x 2 , x 3 se numesc realizări ale variabilei aleatoare x.

Distribuția variabilei aleatoare X în populația generală este teoretică, de natură ideală, iar omologul său eșantion este distribuția empirică

Pentru un eșantion, este dificil, și uneori imposibil, să se determine funcția de distribuție, astfel încât parametrii sunt estimați din date empirice și apoi sunt înlocuiți într-o expresie analitică care descrie distribuția teoretică. În acest caz, ipoteza despre tipul de distribuție poate fi atât corectă statistic, cât și eronată.

Dar, în orice caz, distribuția empirică reconstruită din eșantion o caracterizează doar aproximativ pe cea adevărată.

Cei mai importanți parametri ai distribuțiilor sunt așteptările matematiceA si varianta σ2este o măsură a împrăștierii datelor.

Deviație standardσ - gradul de abatere al datelor observaționale sau al seturilor de la valoarea medie.

Sarcina 3. Mihail, împreună cu prietenii săi, au decis să măsoare înălțimea câinilor lor (la greabăn). Găsiți: valoarea medie; abaterea cresterii.

Soluţie

    Așteptările matematice sau valoarea medie poate fi găsită prin formula:


    Acum calculăm abaterea înălțimii fiecărui câine de la media sau așteptarea matematică, adică calculăm varianța.


Abaterea standard este doar rădăcina pătrată a varianței.

σ \ = 147,32

Deci, cunoscând abaterea standard, știm ce este „înălțimea normală” și ce este un câine foarte înalt și foarte mic.

Raspuns: 394, 21.704; 147,32.

Sarcina 4. Observarea în laboratorul de control a termenului de expirare a 50 de lămpi electrice de aceeași putere, luate la întâmplare dintr-un lot mare de lămpi de aceeași putere produse de fabrică, a condus la următoarele date despre încălcarea garanției stabilitetimp de ardere:

Abaterea în H

10 distribuție mică, care reflectă abaterea realului th perioada de ardere a becurilor din garantie.

Soluţie.

Abatere medie

Astfel, distribuția normală dorită este caracterizată de următoarele valori ale parametrilor: a = 0,4;σ2 = 318; σ = 17,8.

De aici densitatea de probabilitate:

Funcția de distribuție corespunzătoare acestei densități va arăta astfel: