Kaj je značilno za razpršenost znotraj skupine. Pričakovanje in varianca naključne spremenljivke

Če je populacija razdeljena v skupine glede na preučevano značilnost, potem lahko za to populacijo izračunamo naslednje vrste variance: skupno, skupinsko (znotraj skupine), povprečje skupine (povprečje znotraj skupine), medskupinsko.

Na začetku izračuna koeficient determinacije, ki pokaže, kolikšen del celotne variacije preučevane lastnosti predstavlja medskupinska variacija, tj. zaradi značilnosti združevanja:

Empirično korelacijsko razmerje označuje tesnost povezave med združevanjem (faktorialom) in značilnostmi delovanja.

Empirično korelacijsko razmerje lahko zavzame vrednosti od 0 do 1.

Za oceno tesnosti povezave na podlagi empiričnega korelacijskega razmerja lahko uporabite Chaddockove relacije:

Primer 4. O opravljanju dela projektantskih in geodetskih organizacij različnih oblik lastništva so na voljo naslednji podatki:

Določite:

1) skupna varianca;

2) skupinske variance;

3) povprečje skupinskih varianc;

4) medskupinska varianca;

5) skupno varianco na podlagi pravila za seštevanje varianc;


6) koeficient determinacije in empirično korelacijsko razmerje.

Potegnite zaključke.

rešitev:

1. Določimo povprečni obseg dela, ki ga opravijo podjetja dveh oblik lastništva:

Izračunajmo skupno varianco:

2. Določite povprečja skupine:

milijonov rubljev;

milijonov rubljev

Skupinska odstopanja:

;

3. Izračunajte povprečje skupinskih varianc:

4. Določimo medskupinsko varianco:

5. Izračunajte skupno varianco na podlagi pravila za seštevanje varianc:

6. Določimo koeficient determinacije:

.

Tako je obseg dela, ki ga izvajajo projektantske in geodetske organizacije, za 22% odvisen od oblike lastništva podjetij.

Empirično korelacijsko razmerje se izračuna po formuli

.

Vrednost izračunanega kazalnika kaže, da je odvisnost obsega dela od oblike lastnine podjetja majhna.

Primer 5. S pregledom tehnološke discipline proizvodnih površin so bili pridobljeni naslednji podatki:

Določite koeficient determinacije

Glavna posplošujoča kazalca variacije v statistiki sta disperzija in standardni odklon.

Razpršenost to aritmetična sredina kvadrat odstopanj vsake značilne vrednosti od skupnega povprečja. Varianco običajno imenujemo srednji kvadrat odstopanj in jo označimo z  2. Odvisno od izvornih podatkov se lahko varianca izračuna z uporabo enostavne ali tehtane aritmetične sredine:

 neutežena (enostavna) varianca;

 tehtano z varianco.

Standardni odklon to je posplošujoča značilnost absolutnih velikosti variacije znaki v agregatu. Izražen je v enakih merskih enotah kot atribut (v metrih, tonah, odstotkih, hektarjih itd.).

Standardni odklon je kvadratni koren variance in je označen z :

 standardni odklon neutežen;

 tehtano standardno odstopanje.

Standardni odklon je merilo zanesljivosti povprečja. Manjši kot je standardni odklon, bolje aritmetična sredina odraža celotno predstavljeno populacijo.

Pred izračunom standardnega odklona je izračun variance.

Postopek za izračun utežene variance je naslednji:

1) določite tehtano aritmetično sredino:

2) izračunajte odstopanja možnosti od povprečja:

3) kvadrat odstopanja vsake možnosti od povprečja:

4) pomnožite kvadrate odstopanj z utežmi (frekvencami):

5) povzemite dobljene izdelke:

6) dobljeni znesek se deli z vsoto uteži:

Primer 2.1

Izračunajmo uteženo aritmetično sredino:

Vrednosti odstopanj od povprečja in njihovi kvadrati so predstavljeni v tabeli. Določimo varianco:

Standardni odklon bo enak:

Če so izvorni podatki predstavljeni v obliki intervala distribucijske serije , potem morate najprej določiti diskretno vrednost atributa in nato uporabiti opisano metodo.

Primer 2.2

Pokažimo izračun variance za intervalno serijo z uporabo podatkov o porazdelitvi posejane površine kolektivne kmetije glede na pridelek pšenice.

Aritmetična sredina je:

Izračunajmo varianco:

6.3. Izračun variance z uporabo formule na podlagi individualnih podatkov

Računska tehnika odstopanja zapleteno, z velikimi vrednostmi možnosti in frekvenc pa je lahko okorno. Izračune je mogoče poenostaviti z uporabo lastnosti disperzije.

Disperzija ima naslednje lastnosti.

1. Zmanjšanje ali povečanje uteži (frekvenc) spremenljive karakteristike za določeno število krat ne spremeni disperzije.

2. Zmanjšajte ali povečajte vsako vrednost značilnosti za enako konstantno količino A ne spremeni disperzije.

3. Zmanjšajte ali povečajte vsako vrednost lastnosti za določeno število krat k oziroma zmanjša ali poveča varianco v k 2-krat standardni odklon  v k enkrat.

4. Disperzija karakteristike glede na poljubno vrednost je vedno večja od disperzije glede na aritmetično sredino na kvadrat razlike med povprečno in poljubno vrednostjo:

če A 0, potem pridemo do naslednje enakosti:

to pomeni, da je varianca značilnosti enaka razliki med srednjim kvadratom značilnih vrednosti in kvadratom srednje vrednosti.

Vsako lastnost lahko pri izračunu variance uporabite samostojno ali v kombinaciji z drugimi.

Postopek za izračun variance je preprost:

1) določiti aritmetična sredina :

2) kvadrirajte aritmetično sredino:

3) kvadrat odstopanja vsake različice serije:

X jaz 2 .

4) poiščite vsoto kvadratov možnosti:

5) razdelite vsoto kvadratov možnosti na njihovo število, tj. določite povprečni kvadrat:

6) določite razliko med srednjim kvadratom karakteristike in kvadratom srednje vrednosti:

Primer 3.1 O produktivnosti delavcev so na voljo naslednji podatki:

Naredimo naslednje izračune:

Varianca naključne spremenljivke je merilo širjenja vrednosti te spremenljivke. Nizka varianca pomeni, da so vrednosti združene blizu skupaj. Velika disperzija kaže na močno razpršitev vrednosti. Koncept variance naključne spremenljivke se uporablja v statistiki. Na primer, če primerjate varianco dveh vrednosti (na primer med bolniki in pacientkami), lahko preizkusite pomembnost spremenljivke. Varianca se uporablja tudi pri izdelavi statističnih modelov, saj je nizka varianca lahko znak, da pretiravate z vrednostmi.

Koraki

Izračun variance vzorca

  1. Zabeležite vzorčne vrednosti. V večini primerov imajo statistiki dostop le do vzorcev določenih populacij. Na primer, statistiki praviloma ne analizirajo stroškov vzdrževanja vseh avtomobilov v Rusiji - analizirajo naključni vzorec več tisoč avtomobilov. Tak vzorec bo pomagal določiti povprečne stroške avtomobila, vendar bo najverjetneje dobljena vrednost daleč od resnične.

    • Na primer, analizirajmo število prodanih žemljic v kavarni v 6 dneh, vzetih po naključnem vrstnem redu. Vzorec izgleda takole: 17, 15, 23, 7, 9, 13. To je vzorec, ne populacija, saj nimamo podatkov o prodanih žemljicah za vsak dan, ko je kavarna odprta.
    • Če vam je dana populacija namesto vzorca vrednosti, nadaljujte z naslednjim razdelkom.
  2. Zapišite formulo za izračun variance vzorca. Disperzija je merilo širjenja vrednosti določene količine. Bližje ko je vrednost variance nič, bližje so vrednosti združene skupaj. Pri delu z vzorcem vrednosti uporabite naslednjo formulo za izračun variance:

    • s 2 (\displaystyle s^(2)) = ∑[(x i (\displaystyle x_(i))- x̅) 2 (\displaystyle ^(2))] / (n - 1)
    • s 2 (\displaystyle s^(2))– to je disperzija. Disperzija se meri v kvadratnih enotah.
    • x i (\displaystyle x_(i))– vsako vrednost v vzorcu.
    • x i (\displaystyle x_(i)) morate odšteti x̅, ga kvadrirati in nato sešteti rezultate.
    • x̅ – vzorčna sredina (vzorčna sredina).
    • n – število vrednosti v vzorcu.
  3. Izračunajte vzorčno povprečje. Označena je kot x̅. Vzorčno povprečje se izračuna kot preprosto aritmetično povprečje: seštejte vse vrednosti v vzorcu in nato rezultat delite s številom vrednosti v vzorcu.

    • V našem primeru seštejte vrednosti v vzorcu: 15 + 17 + 23 + 7 + 9 + 13 = 84
      Zdaj rezultat razdelite na število vrednosti v vzorcu (v našem primeru jih je 6): 84 ÷ 6 = 14.
      Vzorčno povprečje x̅ = 14.
    • Vzorčna sredina je osrednja vrednost, okoli katere so porazdeljene vrednosti v vzorcu. Če so vrednosti v vzorčni skupini okoli vzorca srednje, potem je varianca majhna; drugače je odstopanje veliko.
  4. Od vsake vrednosti v vzorcu odštejte povprečje vzorca. Zdaj izračunaj razliko x i (\displaystyle x_(i))- x̅, kje x i (\displaystyle x_(i))– vsako vrednost v vzorcu. Vsak dobljen rezultat kaže stopnjo odstopanja posamezne vrednosti od vzorčnega povprečja, to je, kako daleč je ta vrednost od vzorčnega povprečja.

    • V našem primeru:
      x 1 (\displaystyle x_(1))- x = 17 - 14 = 3
      x 2 (\displaystyle x_(2))- x̅ = 15 - 14 = 1
      x 3 (\displaystyle x_(3))- x = 23 - 14 = 9
      x 4 (\displaystyle x_(4))- x̅ = 7 - 14 = -7
      x 5 (\displaystyle x_(5))- x̅ = 9 - 14 = -5
      x 6 (\displaystyle x_(6))- x̅ = 13 - 14 = -1
    • Pravilnost dobljenih rezultatov je enostavno preveriti, saj mora biti njihova vsota enaka nič. To je povezano z definicijo povprečja, saj so negativne vrednosti (razdalje od povprečja do manjših vrednosti) popolnoma izravnane s pozitivnimi vrednostmi (razdalje od povprečja do večjih vrednosti).
  5. Kot je navedeno zgoraj, vsota razlik x i (\displaystyle x_(i))- x̅ mora biti enak nič. To pomeni, da je povprečna varianca vedno enaka nič, kar ne daje nobene predstave o širjenju vrednosti določene količine. Za rešitev tega problema kvadrirajte vsako razliko x i (\displaystyle x_(i))- x̅. Tako boste dobili samo pozitivna števila, katerih seštevek nikoli ne bo enak 0.

    • V našem primeru:
      (x 1 (\displaystyle x_(1))- x̅) 2 = 3 2 = 9 (\displaystyle ^(2)=3^(2)=9)
      (x 2 (\displaystyle (x_(2))- x̅) 2 = 1 2 = 1 (\displaystyle ^(2)=1^(2)=1)
      9 2 = 81
      (-7) 2 = 49
      (-5) 2 = 25
      (-1) 2 = 1
    • Našli ste kvadrat razlike - x̅) 2 (\displaystyle ^(2)) za vsako vrednost v vzorcu.
  6. Izračunajte vsoto kvadratov razlik. To pomeni, poiščite tisti del formule, ki je zapisan takole: ∑[( x i (\displaystyle x_(i))- x̅) 2 (\displaystyle ^(2))]. Tukaj znak Σ pomeni vsoto kvadratov razlik za vsako vrednost x i (\displaystyle x_(i)) v vzorcu. Kvadrate razlike ste že našli (x i (\displaystyle (x_(i))- x̅) 2 (\displaystyle ^(2)) za vsako vrednost x i (\displaystyle x_(i)) v vzorcu; zdaj samo dodajte te kvadratke.

    • V našem primeru: 9 + 1 + 81 + 49 + 25 + 1 = 166 .
  7. Rezultat delite z n - 1, kjer je n število vrednosti v vzorcu. Pred časom so statistiki za izračun variance vzorca rezultat preprosto delili z n; v tem primeru boste dobili povprečje kvadratne variance, kar je idealno za opis variance danega vzorca. Vendar ne pozabite, da je vsak vzorec le majhen del populacije vrednosti. Če vzamete drug vzorec in izvedete enake izračune, boste dobili drugačen rezultat. Izkazalo se je, da deljenje z n - 1 (namesto samo z n) da natančnejšo oceno variance populacije, kar vas zanima. Deljenje z n – 1 je postalo običajno, zato je vključeno v formulo za izračun variance vzorca.

    • V našem primeru vzorec vključuje 6 vrednosti, to je n = 6.
      Varianca vzorca = s 2 = 166 6 − 1 = (\displaystyle s^(2)=(\frac (166)(6-1))=) 33,2
  8. Razlika med varianco in standardnim odklonom. Upoštevajte, da formula vsebuje eksponent, zato se disperzija meri v kvadratnih enotah vrednosti, ki se analizira. Včasih je takšno velikost precej težko upravljati; v takih primerih uporabite standardni odklon, ki je enak kvadratnemu korenu variance. Zato je vzorčna varianca označena kot s 2 (\displaystyle s^(2)), standardni odklon vzorca pa je as s (\displaystyle s).

    • V našem primeru je standardna deviacija vzorca: s = √33,2 = 5,76.

    Izračun populacijske variance

    1. Analizirajte nekaj niza vrednosti. Komplet vključuje vse vrednosti obravnavane količine. Na primer, če preučujete starost prebivalcev Leningrajske regije, potem celota vključuje starost vseh prebivalcev te regije. Pri delu s populacijo je priporočljivo ustvariti tabelo in vanjo vnesti vrednosti populacije. Razmislite o naslednjem primeru:

      • V določeni sobi je 6 akvarijev. Vsak akvarij vsebuje naslednje število rib:
        x 1 = 5 (\displaystyle x_(1)=5)
        x 2 = 5 (\displaystyle x_(2)=5)
        x 3 = 8 (\displaystyle x_(3)=8)
        x 4 = 12 (\displaystyle x_(4)=12)
        x 5 = 15 (\displaystyle x_(5)=15)
        x 6 = 18 (\displaystyle x_(6)=18)
    2. Zapišite formulo za izračun populacijske variance. Ker populacija vključuje vse vrednosti določene količine, vam spodnja formula omogoča, da dobite natančno vrednost variance populacije. Za razlikovanje populacijske variance od vzorčne variance (ki je le ocena) statistiki uporabljajo različne spremenljivke:

      • σ 2 (\displaystyle ^(2)) = (∑(x i (\displaystyle x_(i)) - μ) 2 (\displaystyle ^(2)))/n
      • σ 2 (\displaystyle ^(2))– razpršenost populacije (beri kot "sigma na kvadrat"). Disperzija se meri v kvadratnih enotah.
      • x i (\displaystyle x_(i))– vsaka vrednost v celoti.
      • Σ – znak vsote. Se pravi od vsake vrednosti x i (\displaystyle x_(i)) morate odšteti μ, kvadrirati in nato sešteti rezultate.
      • μ – populacijska sredina.
      • n – število vrednosti v populaciji.
    3. Izračunajte srednjo populacijo. Pri delu s populacijo je njena sredina označena z μ (mu). Srednja populacija se izračuna kot preprosta aritmetična sredina: seštejte vse vrednosti v populaciji in nato rezultat delite s številom vrednosti v populaciji.

      • Upoštevajte, da povprečja niso vedno izračunana kot aritmetična sredina.
      • V našem primeru pomeni populacija: μ = 5 + 5 + 8 + 12 + 15 + 18 6 (\displaystyle (\frac (5+5+8+12+15+18)(6))) = 10,5
    4. Od vsake vrednosti v populaciji odštejte povprečje populacije. Bližje ko je vrednost razlike nič, bližje je specifična vrednost povprečju populacije. Poiščite razliko med vsako vrednostjo v populaciji in njeno srednjo vrednostjo in dobili boste prvo predstavo o porazdelitvi vrednosti.

      • V našem primeru:
        x 1 (\displaystyle x_(1))- μ = 5 - 10,5 = -5,5
        x 2 (\displaystyle x_(2))- μ = 5 - 10,5 = -5,5
        x 3 (\displaystyle x_(3))- μ = 8 - 10,5 = -2,5
        x 4 (\displaystyle x_(4))- μ = 12 - 10,5 = 1,5
        x 5 (\displaystyle x_(5))- μ = 15 - 10,5 = 4,5
        x 6 (\displaystyle x_(6))- μ = 18 - 10,5 = 7,5
    5. Vsak dobljeni rezultat kvadrirajte. Vrednosti razlike bodo pozitivne in negativne; Če so te vrednosti narisane na številski premici, bodo ležale desno in levo od sredine populacije. To ni dobro za izračun variance, ker se pozitivna in negativna števila med seboj izničijo. Torej kvadrirajte vsako razliko, da dobite izključno pozitivna števila.

      • V našem primeru:
        (x i (\displaystyle x_(i)) - μ) 2 (\displaystyle ^(2)) za vsako vrednost populacije (od i = 1 do i = 6):
        (-5,5)2 (\displaystyle ^(2)) = 30,25
        (-5,5)2 (\displaystyle ^(2)), Kje x n (\displaystyle x_(n))– zadnja vrednost v populaciji.
      • Če želite izračunati povprečno vrednost dobljenih rezultatov, morate najti njihovo vsoto in jo deliti z n:(( x 1 (\displaystyle x_(1)) - μ) 2 (\displaystyle ^(2)) + (x 2 (\displaystyle x_(2)) - μ) 2 (\displaystyle ^(2)) + ... + (x n (\displaystyle x_(n)) - μ) 2 (\displaystyle ^(2)))/n
      • Zdaj pa zapišimo zgornjo razlago z uporabo spremenljivk: (∑( x i (\displaystyle x_(i)) - μ) 2 (\displaystyle ^(2))) / n in dobite formulo za izračun populacijske variance.

rešitev.

Kot merilo razpršenosti vrednosti slučajnih spremenljivk uporabljamo disperzija

Disperzija (beseda disperzija pomeni "razpršenost") je merilo razpršenosti vrednosti naključnih spremenljivk glede na njegovo matematično pričakovanje. Disperzija je matematično pričakovanje kvadrata odstopanja naključne spremenljivke od njenega matematičnega pričakovanja

Če je naključna spremenljivka diskretna z neskončno, a šteto množico vrednosti, potem

če vrsta na desni strani enakosti konvergira.

Lastnosti disperzije.

  • 1. Varianca konstantne vrednosti je nič
  • 2. Varianca vsote naključnih spremenljivk je enaka vsoti varianc
  • 3. Konstantni faktor lahko vzamemo iz predznaka kvadratne disperzije

Varianca razlike slučajnih spremenljivk je enaka vsoti varianc

Ta lastnost je posledica druge in tretje lastnosti. Odstopanja se lahko samo seštevajo.

Disperzijo je priročno izračunati s formulo, ki jo je mogoče enostavno dobiti z uporabo lastnosti disperzije

Varianca je vedno pozitivna.

Varianca ima razsežnost kvadratne dimenzije same naključne spremenljivke, kar ni vedno priročno. Zato je količina

Standardni odklon(standardni odklon ali standard) naključne spremenljivke je aritmetična vrednost kvadratnega korena njene variance

Vrzite dva kovanca v apoenih po 2 in 5 rubljev. Če kovanec pade kot grb, se dodeli nič točk, če pade kot številka, pa število točk, ki je enako vrednosti kovanca. Poiščite matematično pričakovanje in varianco števila točk.

rešitev. Poiščimo najprej porazdelitev naključne spremenljivke X – števila točk. Vse kombinacije - (2;5),(2;0),(0;5),(0;0) - so enako verjetne in distribucijski zakon je:

Pričakovana vrednost:

Varianco poiščemo s formulo

zakaj računamo

Primer 2.

Poiščite neznano verjetnost R, matematično pričakovanje in varianca diskretne naključne spremenljivke, podane s tabelo porazdelitve verjetnosti

Najdemo matematično pričakovanje in varianco:

M(X) = 00,0081 + 10,0756 + 20,2646 + 3 0,4116 + +40,2401=2,8

Za izračun disperzije uporabimo formulo (19.4)

D(X) = 020 ,0081 + 120,0756 + 220,2646 + 320,4116 + 420,2401 - 2,82 = 8,68 -

Primer 3. Dva enako močna tekmovalca organizirata turnir, ki traja do prve zmage enega od njiju ali do petih odigranih iger. Verjetnost zmage ene igre za vsakega od tekmovalcev je 0,3, verjetnost remija pa 0,4. Poiščite zakon porazdelitve, matematično pričakovanje in disperzijo števila odigranih iger.

rešitev. Naključna vrednost X- število odigranih iger ima vrednosti od 1 do 5, tj.

Določimo verjetnosti konca tekme. Tekma se bo končala v prvem nizu, če zmaga eden od njihovih tekmovalcev. Verjetnost zmage je

R(1) = 0,3+0,3 =0,6.

Če je bil neodločen (verjetnost neodločenega izida je 1 - 0,6 = 0,4), se tekma nadaljuje. Tekma se konča v drugi igri, če je bila prva neodločena in je v drugi zmagal nekdo. Verjetnost

R(2) = 0,4 0,6=0,24.

Prav tako se tekma konča v tretji partiji, če sta bila dva zaporedoma neodločena in je spet nekdo zmagal

R(3) = 0,4 0,4 0,6 = 0,096. R(4)= 0,4 0,4 0,4 0,6=0,0384.

Peta igra je zadnja v katerikoli različici.

R(5)= 1 - (R(1)+R(2)+R(3)+R(4)) = 0,0256.

Vse postavimo v tabelo. Porazdelitveni zakon naključne spremenljivke "število dobljenih iger" ima obliko

Pričakovana vrednost

Varianco izračunamo s formulo (19.4)

Standardne diskretne porazdelitve.

Binomska porazdelitev. Naj se izvede Bernoullijeva eksperimentalna shema: n identični neodvisni poskusi, v vsakem od njih dogodek A se lahko pojavi s stalno verjetnostjo str in se verjetno ne bo pojavil

(glej predavanje 18).

Število ponovitev dogodka A v teh n poskusi obstaja diskretna naključna spremenljivka X, katerih možne vrednosti so:

0; 1; 2; ... ;m; ... ; n.

Verjetnost pojava m dogodki A v določeni seriji n poskusi z in porazdelitveni zakon takšne naključne spremenljivke je podan z Bernoullijevo formulo (glej predavanje 18)

Numerične značilnosti naključne spremenljivke X porazdeljeno po binomskem zakonu:

če n je super (), potem, ko gre formula (19.6) v formulo

in tabelirano Gaussovo funkcijo (tabela vrednosti Gaussove funkcije je podana na koncu predavanja 18).

V praksi pogosto ni pomembna sama verjetnost pojava. m dogodkov A v določeni seriji iz n poskusi in verjetnost, da dogodek A nič manj se ne bo pojavilo

krat in ne več kot krat, tj. verjetnost, da X prevzame vrednosti

Da bi to naredili, moramo sešteti verjetnosti

če n je super (), ko se formula (19.9) spremeni v približno formulo

tabelarno funkcijo. Tabele so podane na koncu 18. predavanja.

Pri uporabi tabel je treba upoštevati, da

Primer 1. Avto, ki se približuje križišču, lahko z enako verjetnostjo nadaljuje gibanje po kateri koli od treh cest: A, B ali C. Pet avtomobilov se približuje križišču. Poiščite povprečno število avtomobilov, ki bodo vozili po cesti A, in verjetnost, da bodo po cesti B vozili trije avtomobili.

rešitev.Število avtomobilov, ki vozijo mimo vsake ceste, je naključna spremenljivka. Če predpostavimo, da vsi avtomobili, ki se približujejo križišču, potujejo neodvisno drug od drugega, potem je ta naključna spremenljivka porazdeljena po binomskem zakonu z

n= 5 in str = .

Zato je povprečno število avtomobilov, ki bodo sledili cesti A, po formuli (19,7)

in želeno verjetnost pri

Primer 2. Verjetnost okvare naprave med vsakim testom je 0,1. Izvedenih je 60 testov naprave. Kolikšna je verjetnost, da pride do okvare naprave: a) 15-krat; b) ne več kot 15-krat?

A. Ker je število testov 60, uporabimo formulo (19.8)

Glede na tabelo 1 v prilogi k predavanju 18 ugotovimo

b. Uporabimo formulo (19.10).

Glede na tabelo 2 priloge k predavanju 18

  • - 0,495
  • 0,49995

Poissonova porazdelitev) zakon redkih dogodkov).če n velik in R malo (), in izdelek itd ohranja konstantno vrednost, ki jo označimo z l,

potem formula (19.6) postane Poissonova formula

Poissonov zakon porazdelitve ima obliko:

Očitno je definicija Poissonovega zakona pravilna, ker glavna lastnost distribucijske serije

Končano, ker vsota serije

Razširitev funkcije pri

Izrek. Matematično pričakovanje in varianca naključne spremenljivke, porazdeljene po Poissonovem zakonu, sovpadata in sta enaka parametru tega zakona, tj.

Dokaz.

Primer. Za promocijo svojih izdelkov na trgu podjetje oddaja letake v poštne nabiralnike. Dosedanje izkušnje kažejo, da v približno enem primeru od 2000 sledi ukaz. Poiščite verjetnost, da bo pri oddaji 10.000 oglasov prispelo vsaj eno naročilo, povprečno število prejetih naročil in varianco števila prejetih naročil.

rešitev. Tukaj

Verjetnost, da bo prispelo vsaj eno naročilo, bomo našli z verjetnostjo nasprotnega dogodka, tj.

Naključen tok dogodkov. Tok dogodkov je zaporedje dogodkov, ki se zgodijo ob naključnem času. Tipični primeri tokov so okvare v računalniških omrežjih, klici na telefonskih centralah, tok zahtevkov za popravilo opreme itd.

Tok dogodki se imenujejo stacionarni, če je verjetnost, da določeno število dogodkov pade v časovni interval dolžine, odvisna samo od dolžine intervala in ni odvisna od lokacije časovnega intervala na časovni osi.

Pogoj stacionarnosti je izpolnjen s pretokom zahtevkov, katerih verjetnostne značilnosti niso odvisne od časa. Zlasti za stacionarni tok je značilna konstantna gostota (povprečno število zahtevkov na časovno enoto). V praksi pogosto obstajajo tokovi zahtevkov, ki jih (vsaj za omejeno časovno obdobje) lahko štejemo za stacionarne. Na primer, pretok klicev na mestni telefonski centrali v časovnem obdobju od 12 do 13 ur se lahko šteje za stacionarni. Enakega pretoka v celem dnevu ne moremo več šteti za stacionarnega (ponoči je gostota klica bistveno manjša kot podnevi).

Tok dogodkov imenujemo tok brez posledic, če za katera koli časovna obdobja, ki se ne prekrivajo, število dogodkov, ki padejo na eno od njih, ni odvisno od števila dogodkov, ki padejo na druge.

Pogoj odsotnosti naknadnega učinka - najbolj bistven za najenostavnejši tok - pomeni, da aplikacije vstopajo v sistem neodvisno druga od druge. Na primer, tok potnikov, ki vstopajo na postajo podzemne železnice, lahko štejemo za tok brez posledic, ker razlogi, ki so določili prihod posameznega potnika v določenem trenutku in ne v drugem, praviloma niso povezani s podobnimi razlogi za druge potnike. . Vendar pa je pogoj brez naknadnega učinka lahko zlahka prekršen zaradi pojava takšne odvisnosti. Na primer, toka potnikov, ki zapuščajo metro postajo, ni več mogoče šteti za tok brez posledic, saj so trenutki izstopa potnikov, ki prihajajo z istim vlakom, odvisni drug od drugega.

Tok dogodki se imenujejo vsakdanji, če je verjetnost, da se zgodita dva ali več dogodkov v kratkem časovnem intervalu t, zanemarljiva v primerjavi z verjetnostjo, da se zgodi en dogodek (v zvezi s tem se Poissonov zakon imenuje zakon redkih dogodkov).

Pogoj navadnosti pomeni, da naročila prispejo posamično in ne v parih, trojčkih itd. odstopanje variance Bernoullijeva porazdelitev

Na primer, tok strank, ki vstopajo v frizerski salon, lahko štejemo za skoraj običajnega. Če v izrednem toku prijave pridejo samo v parih, samo v trojčkih itd., potem se izredni tok zlahka zmanjša na navadnega; Če želite to narediti, je dovolj, da namesto toka posameznih zahtev upoštevate tok parov, trojčkov itd.. Težje bo, če se lahko vsaka zahteva naključno izkaže za dvojno, trojno itd. ukvarjajo s tokom ne homogenih, temveč heterogenih dogodkov.

Če ima tok dogodkov vse tri lastnosti (tj. stacionaren, navaden in nima naknadnega učinka), se imenuje preprost (ali stacionaren Poissonov) tok. Ime "Poisson" je posledica dejstva, da bo, če so izpolnjeni navedeni pogoji, število dogodkov, ki padejo na kateri koli določen časovni interval, porazdeljeno na Poissonov zakon

Tukaj je povprečno število dogodkov A, ki se pojavi na časovno enoto.

Ta zakon je enoparameterski, tj. če ga želite nastaviti, morate poznati le en parameter. Lahko se pokaže, da sta pričakovanje in varianca v Poissonovem zakonu numerično enaka:

Primer. Recimo, da je sredi delovnega dne povprečno število zahtevkov 2 na sekundo. Kolikšna je verjetnost, da 1) v sekundi ne bo prejeta nobena prijava, 2) bo v dveh sekundah prispelo 10 prijav?

rešitev. Ker veljavnost uporabe Poissonovega zakona ni dvomljiva in je njegov parameter podan (= 2), se rešitev problema zmanjša na uporabo Poissonove formule (19.11)

1) t = 1, m = 0:

2) t = 2, m = 10:

Zakon velikih števil. Matematična osnova za dejstvo, da se vrednosti naključne spremenljivke združujejo okoli nekaterih konstantnih vrednosti, je zakon velikih števil.

Zgodovinsko gledano je bila prva formulacija zakona velikih števil Bernoullijev izrek:

"Z neomejenim povečanjem števila enakih in neodvisnih eksperimentov n pogostost pojavljanja dogodka A konvergira po verjetnosti k njegovi verjetnosti," tj.

kjer je pogostost pojavljanja dogodka A v n poskusih,

V bistvu izraz (19.10) pomeni, da se pri velikem številu poskusov pogostost pojavljanja dogodka A lahko nadomesti neznano verjetnost tega dogodka in večje kot je število izvedenih poskusov, bližje p* k p. Zanimivo zgodovinsko dejstvo. K. Pearson je 12.000-krat vrgel kovanec in njegov grb se je pojavil 6.019-krat (frekvenca 0,5016). Pri 24.000-kratnem metu istega kovanca je dobil 12.012 grbov, tj. frekvenca 0,5005.

Najpomembnejša oblika zakona velikih števil je Čebiševljev izrek: z neomejenim povečanjem števila neodvisnih eksperimentov, ki imajo končno varianco in se izvajajo pod enakimi pogoji, se aritmetična sredina opazovanih vrednosti naključne spremenljivke po verjetnosti konvergira k njenemu matematičnemu pričakovanju. V analitični obliki lahko ta izrek zapišemo na naslednji način:

Čebiševljev izrek ima poleg temeljnega teoretičnega pomena tudi pomembno praktično uporabo, na primer v teoriji merjenja. Po opravljenih n meritvah določene količine X, dobite različne neujemajoče se vrednosti X 1, X 2, ..., xn. Za približno vrednost merjene količine X vzamemo aritmetično sredino opazovanih vrednosti

pri čemer, Več kot je izvedenih poskusov, bolj natančen bo rezultat. Dejstvo je, da se disperzija količine zmanjšuje z večanjem števila izvedenih eksperimentov, saj

D(x 1) = D(x 2)=…= D(xn) D(x), To

Razmerje (19.13) kaže, da je tudi pri visoki netočnosti merilnih instrumentov (velika vrednost) mogoče s povečanjem števila meritev dobiti rezultat s poljubno visoko natančnostjo.

Z uporabo formule (19.10) lahko najdete verjetnost, da statistična frekvenca odstopa od verjetnosti za največ

Primer. Verjetnost dogodka v vsakem poskusu je 0,4. Koliko testov morate opraviti, da z verjetnostjo, ki ni manjša od 0,8, pričakujete, da bo relativna frekvenca dogodka odstopala od verjetnosti v absolutni vrednosti za manj kot 0,01?

rešitev. Po formuli (19.14)

torej glede na tabelo obstajata dve aplikaciji

torej, n 3932.

Izračunajmo vGOSPAEXCELvzorčna varianca in standardni odklon. Izračunali bomo tudi varianco naključne spremenljivke, če je znana njena porazdelitev.

Najprej razmislimo disperzija, potem standardni odklon.

Varianca vzorca

Varianca vzorca (odstopanje vzorca,vzorecvarianca) označuje širjenje vrednosti v matriki glede na .

Vse 3 formule so matematično enakovredne.

Iz prve formule je jasno, da vzorčna varianca je vsota kvadratov odstopanj vsake vrednosti v matriki od povprečja, deljeno z velikostjo vzorca minus 1.

odstopanja vzorcev uporabljena je funkcija DISP(), angl. ime VAR, tj. VARIANCA. Od različice MS EXCEL 2010 je priporočljivo uporabljati njegov analog DISP.V(), angl. ime VURS, tj. Vzorec VARiance. Poleg tega je od različice MS EXCEL 2010 na voljo funkcija DISP.Г(), angleščina. ime VARP, tj. Population VARiance, ki izračuna disperzija Za prebivalstvo. Celotna razlika se zmanjša na imenovalec: namesto n-1, kot je DISP.V(), ima DISP.G() samo n v imenovalcu. Pred MS EXCEL 2010 se je za izračun variance populacije uporabljala funkcija VAR().

Varianca vzorca
=QUADROTCL(vzorec)/(ŠTEVILO(vzorec)-1)
=(SUM(vzorec)-COUNT(vzorec)*POVPREČJE(vzorec)^2)/ (COUNT(vzorec)-1)– običajna formula
=SUM((Vzorec -AVERAGE(Vzorec))^2)/ (ŠTEVILO(Vzorec)-1) –

Varianca vzorca je enaka 0, le če so vse vrednosti med seboj enake in posledično enake Povprečna vrednost. Običajno je večja vrednost odstopanja, večja je razpršenost vrednosti v matriki.

Varianca vzorca je točkovna ocena odstopanja porazdelitev naključne spremenljivke, iz katere je bila narejena vzorec. O gradnji intervali zaupanja pri ocenjevanju odstopanja lahko preberete v članku.

Varianca naključne spremenljivke

Za izračun disperzija naključna spremenljivka, jo morate poznati.

Za odstopanja naključna spremenljivka X je pogosto označena kot Var(X). Razpršenost enako kvadratu odstopanja od povprečja E(X): Var(X)=E[(X-E(X)) 2 ]

disperzija izračunano po formuli:

kjer je x i vrednost, ki jo lahko zavzame naključna spremenljivka, μ pa povprečna vrednost (), p(x) je verjetnost, da bo naključna spremenljivka zavzela vrednost x.

Če ima naključna spremenljivka , potem disperzija izračunano po formuli:

Dimenzija odstopanja ustreza kvadratu merske enote prvotnih vrednosti. Na primer, če vrednosti v vzorcu predstavljajo meritve delne teže (v kg), bi bila dimenzija variance kg 2 . To je lahko težko razlagati, zato je za opredelitev širjenja vrednosti vrednost enaka kvadratnemu korenu odstopanjastandardni odklon.

Nekatere lastnosti odstopanja:

Var(X+a)=Var(X), kjer je X naključna spremenljivka in a konstanta.

Var(aH)=a 2 Var(X)

Var(X)=E[(X-E(X)) 2 ]=E=E(X 2)-E(2*X*E(X))+(E(X)) 2 =E(X 2)- 2*E(X)*E(X)+(E(X)) 2 =E(X 2)-(E(X)) 2

Ta lastnost disperzije se uporablja v članek o linearni regresiji.

Var(X+Y)=Var(X) + Var(Y) + 2*Cov(X;Y), kjer sta X in Y naključni spremenljivki, Cov(X;Y) je kovarianca teh naključnih spremenljivk.

Če so naključne spremenljivke neodvisne, potem so kovarianca je enako 0 in zato Var(X+Y)=Var(X)+Var(Y). Ta lastnost disperzije se uporablja pri izpeljavi.

Pokažimo, da je za neodvisne količine Var(X-Y)=Var(X+Y). Dejansko Var(X-Y)= Var(X-Y)= Var(X+(-Y))= Var(X)+Var(-Y)= Var(X)+Var(-Y)= Var( X)+(- 1) 2 Var(Y)= Var(X)+Var(Y)= Var(X+Y). Ta lastnost disperzije se uporablja za konstrukcijo.

Standardni odklon vzorca

Standardni odklon vzorca je merilo, kako široko so razpršene vrednosti v vzorcu glede na njihove .

A-priory, standardni odklon enako kvadratnemu korenu iz odstopanja:

Standardni odklon ne upošteva velikosti vrednosti v vzorec, temveč le stopnjo razpršenosti vrednot okoli njih povprečje. Za ponazoritev tega navedimo primer.

Izračunajmo standardno deviacijo za 2 vzorca: (1; 5; 9) in (1001; 1005; 1009). V obeh primerih je s=4. Očitno je, da se razmerje med standardnim odklonom in vrednostmi niza med vzorci bistveno razlikuje. Za take primere se uporablja Koeficient variacije(Koeficient variacije, CV) - razmerje Standardni odklon do povprečja aritmetika, izraženo v odstotkih.

V MS EXCEL 2007 in starejših različicah za izračun Standardni odklon vzorca uporabljena je funkcija =STDEVAL(), angleščina. ime STDEV, tj. Standardni odklon. Od različice MS EXCEL 2010 je priporočljivo uporabiti njegov analog =STDEV.B() , angl. ime STDEV.S, tj. Vzorec standardnega odstopanja.

Poleg tega je od različice MS EXCEL 2010 na voljo funkcija STANDARDEV.G(), angleščina. ime STDEV.P, tj. Standardni odklon populacije, ki izračuna standardni odklon Za prebivalstvo. Celotna razlika se zmanjša na imenovalec: namesto n-1 kot v STANDARDEV.V(), ima STANDARDEVAL.G() samo n v imenovalcu.

Standardni odklon lahko izračunate tudi neposredno z uporabo spodnjih formul (glejte primer datoteke)
=ROOT(QUADROTCL(vzorec)/(ŠTEVILO(vzorec)-1))
=ROOT((SUM(vzorec)-COUNT(vzorec)*AVERAGE(vzorec)^2)/(COUNT(vzorec)-1))

Druge mere razpršenosti

Funkcija SQUADROTCL() izračuna z vsota kvadratov odstopanj vrednosti od njihovih povprečje. Ta funkcija bo vrnila enak rezultat kot formula =DISP.G( Vzorec)*PREVERI( Vzorec) , Kje Vzorec- sklic na obseg, ki vsebuje niz vzorčnih vrednosti (). Izračuni v funkciji QUADROCL() so narejeni po formuli:

Funkcija SROTCL() je tudi merilo širjenja nabora podatkov. Funkcija SROTCL() izračuna povprečje absolutnih vrednosti odstopanj vrednosti od povprečje. Ta funkcija bo vrnila enak rezultat kot formula =SUMPRODUCT(ABS(Vzorec-POVPREČJE(Vzorec)))/ŠTEVILO(Vzorec), Kje Vzorec- povezava do obsega, ki vsebuje niz vzorčnih vrednosti.

Izračuni v funkciji SROTCL () so narejeni po formuli: