Kritickú hodnotu t kritéria je možné zistiť z tabuľky. Študentovo rozdelenie t-testu na testovanie hypotézy priemeru a výpočet intervalu spoľahlivosti v programe MS Excel

Testovanie štatistickej hypotézy vám umožňuje urobiť rigorózny záver o charakteristikách všeobecnej populácie na základe údajov vzorky. Hypotézy sú rôzne. Jednou z nich je hypotéza o priemere (matematické očakávanie). Jeho podstatou je urobiť správny záver o tom, kde môže alebo nemusí byť všeobecný priemer založený len na dostupnej vzorke (presnú pravdu sa nikdy nedozvieme, ale môžeme zúžiť okruh vyhľadávania).

Je opísaný všeobecný prístup k testovaniu hypotéz, takže priamo k veci. Predpokladajme najprv, že vzorka je získaná z normálneho súboru náhodných premenných X so všeobecným priemerom μ a rozptyl σ2(Viem, viem, že sa to nedeje, ale nemusíte ma prerušovať!). Aritmetický priemer tejto vzorky je samozrejme náhodná premenná. Ak extrahujeme veľa takýchto vzoriek a vypočítame pre ne priemery, potom budú mať aj matematické očakávania μ a

Potom náhodná premenná

Vzniká otázka: bude všeobecný priemer s pravdepodobnosťou 95 % v rozmedzí ±1,96 s x̅. Inými slovami, sú distribúcie náhodných premenných

ekvivalent.

Prvýkrát túto otázku položil (a vyriešil) chemik, ktorý pracoval v továrni na pivo Guinness v Dubline (Írsko). Ten chemik sa volal William Seeley Gosset a odoberal vzorky piva na chemickú analýzu. V určitom okamihu zrejme William začal mať nejasné pochybnosti o rozdelení priemerov. Ukázalo sa, že je to trochu viac rozložené, ako by normálne rozdelenie malo byť.

Po zhromaždení matematického zdôvodnenia a vypočítaní hodnôt distribučnej funkcie, ktorú objavil, napísal dublinský chemik William Gosset poznámku, ktorá bola publikovaná v marci 1908 v časopise Biometrics (šéfredaktor - Karl Pearson). . Pretože Guinness prísne zakázal vydávať tajomstvá pivovarníctva, Gosset sa podpísal pod pseudonym Student.

Napriek tomu, že K. Pearson už vynašiel distribúciu, stále dominovala všeobecná myšlienka normálnosti. Nikto si nemyslel, že rozdelenie odhadov vzorky nemusí byť normálne. Preto zostal článok W. Gosseta prakticky nepovšimnutý a zabudnutý. A Gossetov objav ocenil iba Ronald Fisher. Fischer vo svojej práci použil novú distribúciu a dal jej názov Študentovo t-rozdelenie. Kritériom testovania hypotéz sa stalo, resp Študentov t-test. Nastala teda „revolúcia“ v štatistike, ktorá vstúpila do éry analýzy vzorových údajov. Bola to krátka odbočka do histórie.

Pozrime sa, čo mohol vidieť W. Gosset. Vygenerujme 20 tisíc normálnych vzoriek zo 6 pozorovaní s priemerom ( X) 50 a štandardná odchýlka ( σ ) 10. Potom pomocou vzorkovacích prostriedkov normalizujeme všeobecný rozptyl:

Výsledných 20 tisíc priemerov zoskupíme do intervalov dĺžky 0,1 a vypočítame frekvencie. Nakreslite skutočné (Norm) a teoretické (ENNorm) frekvenčné distribúcie priemerov vzorky do diagramu.

Body (pozorované frekvencie) sa takmer zhodujú s priamkou (teoretické frekvencie). Je to pochopiteľné, pretože údaje sú prevzaté z rovnakej všeobecnej populácie a rozdiely sú len výberové chyby.

Urobme nový experiment. Priemery normalizujeme pomocou rozptyl vzorky.

Opäť spočítajme frekvencie a vynesme ich do diagramu ako bodky, pričom čiaru štandardného normálneho rozdelenia necháme na porovnanie. Označme empirickú frekvenciu priemerov, povedzme, cez písmeno t.

Je vidieť, že distribúcie si tentoraz nie sú veľmi podobné. Blízko, áno, ale nie to isté. Chvosty sa stali "ťažšími".

Gosset-Student nemal najnovšiu verziu MS Excel, ale presne tento efekt si všimol. prečo je to tak? Vysvetlenie je, že náhodná premenná

závisí nielen od výberovej chyby (čitateľa), ale aj od smerodajnej chyby priemeru (menovateľa), ktorý je tiež náhodnou veličinou.

Poďme si trochu zistiť, aké rozdelenie by mala mať takáto náhodná premenná. Najprv si musíte zapamätať (alebo sa naučiť) niečo z matematickej štatistiky. Existuje taká Fisherova veta, ktorá hovorí, že vo vzorke z normálneho rozdelenia:

1. stredná X a rozptyl vzorky s2 sú nezávislé veličiny;

2. Pomer výberového a všeobecného rozptylu, vynásobený počtom stupňov voľnosti, má rozdelenie χ 2(chí-kvadrát) s rovnakým počtom stupňov voľnosti, t.j.

kde k- počet stupňov voľnosti (v angličtine stupne voľnosti (d.f.))

Mnohé ďalšie výsledky v štatistikách normálnych modelov sú založené na tomto zákone.

Vráťme sa k rozdeleniu priemeru. Rozdeľte čitateľa a menovateľa výrazu

na σX̅. Získajte

Čitateľ je štandardná normálna náhodná premenná (označujeme ξ (xi)). Menovateľ môže byť vyjadrený z Fisherovej vety.

Potom bude mať pôvodný výraz formu

Toto je vo všeobecnosti (pomer študentov). Jeho distribučnú funkciu je už možné odvodiť priamo, pretože distribúcie oboch náhodných premenných v tomto výraze sú známe. Toto potešenie prenechajme matematikom.

Študentova funkcia t-distribúcie má vzorec, ktorý je dosť ťažké pochopiť, takže nemá zmysel ho analyzovať. Každopádne to nikto nepoužíva, lebo. pravdepodobnosti sú uvedené v špeciálnych tabuľkách Studentovho rozdelenia (niekedy nazývaných aj tabuľky Studentových koeficientov), ​​alebo sú zatĺkané do vzorcov PC.

Takže vyzbrojení novými poznatkami budete schopní pochopiť oficiálnu definíciu distribúcie Student.
Náhodná premenná, ktorá sa riadi Študentovým rozdelením s k stupňa voľnosti je pomer nezávislých náhodných premenných

kde ξ distribuované podľa štandardného normálneho zákona a χ 2k predmetom distribúcie χ 2 c k stupne slobody.

Teda vzorec pre študentské kritérium pre aritmetický priemer

Existuje špeciálny prípad študentského vzťahu

Zo vzorca a definície vyplýva, že rozdelenie Studentovho t-testu závisí len od počtu stupňov voľnosti.

O k> 30 t-test sa prakticky nelíši od štandardného normálneho rozdelenia.

Na rozdiel od chí-kvadrát môže byť t-test jedno- alebo dvojstranný. Zvyčajne sa používa obojstranné za predpokladu, že odchýlka môže nastať v oboch smeroch od priemeru. Ak však stav problému umožňuje odchýlku iba v jednom smere, potom je rozumné použiť jednostranné kritérium. To mierne zvyšuje výkon, tk. na pevnej hladine významnosti sa kritická hodnota mierne blíži k nule.

Podmienky na uplatnenie Studentovho t-testu

Napriek tomu, že Studentov objav svojho času urobil revolúciu v štatistike, t-test je stále dosť obmedzený vo svojej použiteľnosti, pretože vychádza z predpokladu normálneho rozdelenia pôvodných údajov. Ak údaje nie sú normálne (čo je zvyčajne prípad), potom t-test už nebude mať Studentovo rozdelenie. V dôsledku pôsobenia centrálnej limitnej vety však stredná hodnota aj pre nenormálne dáta rýchlo nadobudne zvonovité rozdelenie.

Zoberme si napríklad údaje, ktoré majú výrazné zošikmenie doprava, napríklad rozdelenie chí-kvadrát s 5 stupňami voľnosti.

Teraz vytvorme 20 tisíc vzoriek a pozorujme, ako sa rozloženie prostriedkov mení v závislosti od ich veľkosti.

Rozdiel je dosť viditeľný v malých vzorkách do 15–20 pozorovaní. Ale potom to rýchlo zmizne. Abnormalita distribúcie teda, samozrejme, nie je dobrá, ale nie kritická.

T-kritérium sa predovšetkým „bojí“ odľahlých hodnôt, t.j. abnormálne odchýlky. Zoberme si 20 tisíc normálnych vzoriek z 15 pozorovaní a k niektorým z nich pridajme jednu náhodnú odľahlú hodnotu.

Obrázok je nešťastný. Skutočné frekvencie priemerov sú veľmi odlišné od teoretických. Použitie t-distribúcie v takejto situácii sa stáva veľmi riskantným podnikom.

Takže v nie veľmi malých vzorkách (z 15 pozorovaní) je t-test relatívne odolný voči nenormálnemu rozdeleniu počiatočných údajov. Odľahlé hodnoty v údajoch však silne skresľujú distribúciu t-testu, čo zase môže viesť k chybám štatistickej inferencie, takže anomálne pozorovania by sa mali eliminovať. Často sú zo vzorky odstránené všetky hodnoty, ktoré spadajú mimo ± 2 štandardné odchýlky od priemeru.

Príklad testovania hypotézy matematického očakávania pomocou Studentovho t-testu v MS Excel

Excel má niekoľko funkcií súvisiacich s t-distribúciou. Zvážme ich.

STUDENT.DIST - "klasické" ľavostranné Studentovo t-rozdelenie. Vstupom je hodnota t-kritéria, počet stupňov voľnosti a možnosť (0 alebo 1), ktorá určuje, čo je potrebné vypočítať: hustotu alebo hodnotu funkcie. Na výstupe dostaneme hustotu, resp. pravdepodobnosť, že náhodná premenná bude menšia ako t-kritérium špecifikované v argumente.

STUDENT.DIST.2X - obojsmerná distribúcia. Ako argument sa uvádza absolútna hodnota (modulo) t-kritéria a počet stupňov voľnosti. Na výstupe dostaneme pravdepodobnosť získania tejto alebo aj väčšej hodnoty t-kritéria, t.j. skutočná hladina významnosti (p-hladina).

STUDENT.DIST.RH - pravotočivé t-rozdelenie. Takže 1-ŠTUDENT.VZD.(2;5;1) = STUDENT.VZD.PX(2;5) = 0,05097. Ak je t-test pozitívny, potom je výsledná pravdepodobnosť p-úroveň.

STUDENT.INV – používa sa na výpočet ľavostrannej prevrátenej hodnoty t-rozdelenia. Argumentom je pravdepodobnosť a počet stupňov voľnosti. Na výstupe dostaneme hodnotu t-kritéria zodpovedajúcu tejto pravdepodobnosti. Pravdepodobnosť sa počíta vľavo. Preto je pre ľavý chvost potrebná samotná hladina významnosti α a za pravú 1 - α .

STUDENT.ORD.2X je recipročná dvojstranná Studentova distribúcia, t.j. hodnota t-testu (modulo). Ako vstup sa uvádza aj hladina významnosti. α . Len tentoraz je odpočítavanie z oboch strán súčasne, takže pravdepodobnosť je rozdelená na dva chvosty. Takže STUDENT.OBR (1-0,025; 5) \u003d STUDENT. OBR. 2X (0,05; 5) \u003d 2,57058

STUDENT.TEST je funkcia na testovanie hypotézy o rovnosti matematických očakávaní na dvoch vzorkách. Nahrádza kopu výpočtov, pretože. stačí zadať len dva rozsahy s údajmi a pár ďalších parametrov. Výstup je na úrovni p.

ŠTUDENTSKÁ DÔVERA - výpočet intervalu spoľahlivosti priemeru s prihliadnutím na t-distribúciu.

Zoberme si takýto príklad školenia. Spoločnosť balí cement do vriec po 50 kg. Kvôli náhode je v jednom vreci povolená určitá odchýlka od očakávanej hmotnosti, ale všeobecný priemer by mal zostať 50 kg. Oddelenie kontroly kvality náhodne odvážilo 9 vriec a získalo tieto výsledky: priemerná hmotnosť ( X) predstavovala 50,3 kg, štandardná odchýlka ( s) - 0,5 kg.

Je výsledok v súlade s nulovou hypotézou, že všeobecný priemer je 50 kg? Inými slovami, je možné dosiahnuť takýto výsledok čistou náhodou, ak zariadenie funguje správne a produkuje priemernú náplň 50 kg? Ak hypotéza nie je zamietnutá, získaný rozdiel zapadá do rozsahu náhodných výkyvov, ale ak je hypotéza zamietnutá, potom s najväčšou pravdepodobnosťou došlo k zlyhaniu v nastaveniach zariadenia, ktoré plní vrecia. Treba to skontrolovať a upraviť.

Stručná podmienka vo všeobecne akceptovanom zápise vyzerá takto.

H0: μ = 50 kg

H1: μ ≠ 50 kg

Existujú dôvody domnievať sa, že rozdelenie obsadenosti vakov sleduje normálne rozdelenie (alebo sa od neho príliš nelíši). Takže na testovanie hypotézy matematického očakávania môžete použiť Studentov t-test. Náhodné odchýlky sa môžu vyskytnúť v oboch smeroch, takže je potrebný obojstranný t-test.

Najprv použijeme predpotopné prostriedky: manuálny výpočet t-testu a jeho porovnanie s kritickou tabuľkovou hodnotou. Odhadovaný t-test:

Teraz zistime, či výsledné číslo presahuje kritickú úroveň na úrovni významnosti α = 0,05. Využime Študentovu tabuľku t-rozdelenia (dostupnú v ktorejkoľvek učebnici štatistiky).

Stĺpce zobrazujú pravdepodobnosť pravej strany rozdelenia, riadky počet stupňov voľnosti. Zaujíma nás obojstranný t-test s hladinou významnosti 0,05, čo zodpovedá t-hodnote pre polovicu hladiny významnosti vpravo: 1 - 0,05 / 2 = 0,975. Počet stupňov voľnosti je veľkosť vzorky mínus 1, t.j. 9 - 1 = 8. Na priesečníku nájdeme tabuľkovú hodnotu t-testu - 2,306. Ak by sme použili štandardné normálne rozdelenie, potom by kritický bod bol 1,96, ale tu je to viac, pretože t-distribúcia na malých vzorkách má viac sploštenú formu.

Porovnávame skutočnú (1,8) a tabuľkovú hodnotu (2,306). Ukázalo sa, že vypočítané kritérium bolo nižšie ako tabuľkové. Dostupné údaje preto nie sú v rozpore s hypotézou H 0, že všeobecný priemer je 50 kg (ale ani to nedokazujú). To je všetko, čo môžeme zistiť pomocou tabuliek. Stále sa môžete, samozrejme, pokúsiť nájsť úroveň p, ale bude približná. A spravidla sa na testovanie hypotéz používa úroveň p. Prejdime teda k Excelu.

Na výpočet t-testu v Exceli nie je pripravená žiadna funkcia. To však nie je strašidelné, pretože vzorec Študentovho t-testu je pomerne jednoduchý a dá sa ľahko vytvoriť priamo v bunke Excelu.

Mám to isté 1.8. Najprv nájdime kritickú hodnotu. Berieme alfa 0,05, kritérium je obojstranné. Pre dvojstrannú hypotézu ŠTUDENT.OBR.2X potrebujeme funkciu prevrátenej hodnoty t-distribúcie.

Výsledná hodnota odreže kritickú oblasť. Pozorovaný t-test do nej nespadá, takže hypotéza nie je zamietnutá.

Ide však o rovnaký spôsob testovania hypotézy s tabuľkovou hodnotou. Informatívnejší bude výpočet p-levelu, t.j. pravdepodobnosť získania pozorovanej alebo ešte väčšej odchýlky od priemeru 50 kg, ak je táto hypotéza správna. Pre dvojstrannú hypotézu STUDENT.DIST.2X budete potrebovať Študentovu distribučnú funkciu.

P-hladina sa rovná 0,1096, čo je viac ako prípustná hladina významnosti 0,05 – hypotézu nezamietame. Teraz však môžeme posúdiť mieru dôkazov. Ukázalo sa, že úroveň P je celkom blízko k úrovni, keď je hypotéza zamietnutá, čo vedie k rôznym myšlienkam. Napríklad, že vzorka bola príliš malá na zistenie výraznej odchýlky.

Predpokladajme, že po chvíli sa kontrolné oddelenie opäť rozhodlo skontrolovať, ako bol dodržaný štandard plnenia vrecka. Tentoraz sa pre väčšiu spoľahlivosť vybralo nie 9, ale 25 vriec. Je intuitívne jasné, že rozptyl priemeru sa bude zmenšovať, a preto sa zvyšuje šanca na nájdenie zlyhania v systéme.

Povedzme, že boli získané rovnaké hodnoty priemeru a smerodajnej odchýlky pre vzorku ako prvýkrát (50,3 a 0,5). Vypočítajme t-test.


Kritická hodnota pre 24 stupňov voľnosti a α = 0,05 je 2,064. Obrázok nižšie ukazuje, že t-test spadá do oblasti odmietnutia hypotézy.

Možno konštatovať, že s pravdepodobnosťou spoľahlivosti vyššou ako 95% sa všeobecný priemer líši od 50 kg. Aby sme boli presvedčivejší, pozrime sa na úroveň p (posledný riadok v tabuľke). Pravdepodobnosť získania priemeru s touto alebo ešte väčšou odchýlkou ​​od 50, ak je hypotéza správna, je 0,0062, alebo 0,62 %, čo je pri jedinom meraní prakticky nemožné. Vo všeobecnosti hypotézu zamietame ako nepravdepodobnú.

Výpočet intervalu spoľahlivosti pomocou Studentovho t-distribúcie

Ďalšou štatistickou metódou úzko súvisiacou s testovaním hypotéz je výpočet intervalov spoľahlivosti. Ak hodnota zodpovedajúca nulovej hypotéze spadá do získaného intervalu, potom je to ekvivalentné skutočnosti, že nulová hypotéza nie je zamietnutá. V opačnom prípade sa hypotéza zamietne s príslušnou úrovňou spoľahlivosti. V niektorých prípadoch analytici vôbec netestujú hypotézy v klasickej forme, ale počítajú iba intervaly spoľahlivosti. Tento prístup vám umožňuje získať ešte užitočnejšie informácie.

Vypočítajme intervaly spoľahlivosti pre priemer pri 9 a 25 pozorovaniach. Na to nám poslúži excelovská funkcia TRUST.STUDENT. Tu je napodiv všetko celkom jednoduché. V argumentoch funkcie musíte zadať iba úroveň významnosti α , štandardná odchýlka vzorky a veľkosť vzorky. Na výstupe dostaneme polovičnú šírku intervalu spoľahlivosti, teda hodnotu, ktorú je potrebné odložiť na obe strany priemeru. Po vykonaní výpočtov a nakreslení vizuálneho diagramu dostaneme nasledovné.

Ako vidíte, pri vzorke 9 pozorovaní hodnota 50 spadá do intervalu spoľahlivosti (hypotéza nie je zamietnutá) a pri 25 pozorovaniach nespadá (hypotéza je zamietnutá). Zároveň pri experimente s 25 vrecami možno tvrdiť, že s pravdepodobnosťou 97,5 % všeobecný priemer presahuje 50,1 kg (spodná hranica intervalu spoľahlivosti je 50,094 kg). A to sú dosť cenné informácie.

Rovnaký problém sme teda vyriešili tromi spôsobmi:

1. Starodávny prístup, porovnávajúci vypočítanú a tabuľkovú hodnotu t-kritéria
2. Modernejšie, výpočtom p-úrovne, pridaním istej miery istoty pri odmietnutí hypotézy.
3. Ešte viac informatívne pri výpočte intervalu spoľahlivosti a získaní minimálnej hodnoty všeobecného priemeru.

Je dôležité mať na pamäti, že t-test sa týka parametrických metód, pretože na základe normálneho rozdelenia (má dva parametre: priemer a rozptyl). Preto je pre jeho úspešnú aplikáciu dôležitá aspoň približná normalita počiatočných údajov a absencia odľahlých hodnôt.

Nakoniec navrhujem pozrieť si video o tom, ako vykonávať výpočty súvisiace so Studentovým t-testom v Exceli.

Metóda umožňuje testovať hypotézu, že priemerné hodnoty dvoch všeobecných populácií, z ktorých sa porovnávajú závislý vzorky sa od seba líšia. Predpoklad závislosti najčastejšie znamená, že znak sa meria dvakrát v tej istej vzorke, napríklad pred a po expozícii. Vo všeobecnom prípade je každému zástupcovi jednej vzorky priradený zástupca z inej vzorky (sú spojené do párov), takže tieto dva dátové rady navzájom pozitívne korelujú. Slabšie typy závislosti vzoriek: vzorka 1 - manželia, vzorka 2 - ich manželky; vzorka 1 - ročné deti, vzorka 2 je tvorená dvojičkami detí zo vzorky 1 atď.

Testovateľná štatistická hypotéza, ako v predchádzajúcom prípade, H 0: M1 = M2(stredné hodnoty vo vzorkách 1 a 2 sú rovnaké.) Keď sa zamietne, prijme sa alternatívna hypotéza, že M 1 viacmenej) M2.

Počiatočné predpoklady pre štatistické overenie:

□ každému zástupcovi jednej vzorky (z jednej všeobecnej populácie) je priradený zástupca inej vzorky (z inej všeobecnej populácie);

□ údaje dvoch vzoriek pozitívne korelujú (spárujú);

□ distribúcia študovaného znaku v oboch vzorkách zodpovedá normálnemu zákonu.

Počiatočná dátová štruktúra: pre každý objekt (pre každý pár) existujú dve hodnoty študovaného znaku.

Obmedzenia: rozloženie znaku v oboch vzorkách by sa nemalo výrazne líšiť od normálneho; údaje z dvoch meraní zodpovedajúcich jednej a druhej vzorke sú pozitívne korelované.

Alternatívy: T-Wilcoxonov test, ak sa rozdelenie pre aspoň jednu vzorku výrazne líši od normálneho; t-student test pre nezávislé vzorky - ak údaje pre dve vzorky nekorelujú pozitívne.

Vzorec pretože empirická hodnota Studentovho t-testu odráža skutočnosť, že jednotkou diferenčnej analýzy je rozdiel (posun) hodnoty vlastností pre každú dvojicu pozorovaní. Podľa toho sa pre každý z N párov charakteristických hodnôt najprv vypočíta rozdiel d i \u003d x 1 i - x 2 i.

(3) kde Md je priemerný rozdiel hodnôt; σ d je štandardná odchýlka rozdielov.

Príklad výpočtu:

Predpokladajme, že v priebehu testovania efektivity tréningu bola každému z 8 členov skupiny položená otázka "Ako často sa vaše názory zhodujú s názorom skupiny?" - dvakrát, pred a po tréningu. Pre odpovede bola použitá 10-bodová škála: 1 – nikdy, 5 – v polovici prípadov, 10 – vždy. Bola testovaná hypotéza, že v dôsledku tréningu sa zvýši sebahodnotenie konformity (túžba byť ako ostatní v skupine) účastníkov (α = 0,05). Urobme si tabuľku pre medzivýpočty (tabuľka 3).

Tabuľka 3

Aritmetický priemer pre rozdiel Md = (-6)/8 = -0,75. Odčítajte túto hodnotu od každého d (predposledný stĺpec tabuľky).

Vzorec pre smerodajnú odchýlku sa líši len tým, že namiesto X sa objaví d. Dosadíme všetky potrebné hodnoty, dostaneme

σd = 0,886.

Krok 1. Vypočítajte empirickú hodnotu kritéria pomocou vzorca (3): priemerný rozdiel M d= -0,75; smerodajná odchýlka σ d = 0,886; t e = 2,39; df = 7.

Krok 2. Úroveň p-významnosti určíme z tabuľky kritických hodnôt Studentovho t-testu. Pre df = 7 je empirická hodnota medzi kritickými hodnotami pre p = 0,05 a p - 0,01. Preto p< 0,05.

df R
0,05 0,01 0,001
2,365 3,499 5,408

Krok 3. Urobíme štatistické rozhodnutie a sformulujeme záver. Štatistická hypotéza, že priemery sú rovnaké, sa zamieta. Záver: štatisticky významne sa zvýšil ukazovateľ sebahodnotenia konformity účastníkov po tréningu (na hladine významnosti p< 0,05).

Parametrické metódy zahŕňajú porovnanie rozptylov dvoch vzoriek podľa kritéria F-Fischer. Niekedy táto metóda vedie k hodnotným zmysluplným záverom a v prípade porovnávania priemerov pre nezávislé vzorky je porovnanie rozptylov povinné postup.

Kalkulovať F emp musíte nájsť pomer rozptylov dvoch vzoriek, a to tak, aby väčší rozptyl bol v čitateli a menší menovateľ.

Porovnanie rozptylov. Metóda vám umožňuje testovať hypotézu, že rozptyly dvoch všeobecných populácií, z ktorých sa extrahujú porovnávané vzorky, sa navzájom líšia. Testovaná štatistická hypotéza H 0: σ 1 2 = σ 2 2 (rozptyl vo vzorke 1 sa rovná rozptylu vo vzorke 2). Keď sa zamietne, prijme sa alternatívna hypotéza, že jeden rozptyl je väčší ako druhý.

Počiatočné predpoklady: náhodne sa odoberú dve vzorky z rôznych všeobecných populácií s normálnym rozložením študovaného znaku.

Počiatočná dátová štruktúra:študovaný znak sa meria na objektoch (subjektoch), z ktorých každý patrí do jednej z dvoch porovnávaných vzoriek.

Obmedzenia: Distribúcie znaku v oboch vzorkách sa výrazne nelíšia od normálneho.

Alternatívna metóda: test Levene "sTest, ktorého aplikácia si nevyžaduje kontrolu predpokladu normality (používa sa v programe SPSS).

Vzorec pre empirickú hodnotu F-Fisherovho testu:

(4)

kde σ 1 2 - veľká disperzia a σ 2 2 - menšia disperzia. Keďže nie je vopred známe, ktorý rozptyl je väčší, potom na určenie úrovne p, Tabuľka kritických hodnôt pre nesmerové alternatívy. Ak F e > F Kp pre zodpovedajúci počet stupňov voľnosti teda R < 0,05 и статистическую гипотезу о равенстве дисперсий можно отклонить (для α = 0,05).

Príklad výpočtu:

Deti dostali obvyklé aritmetické úlohy, po ktorých jednej náhodne vybranej polovici študentov povedali, že test neprešli, a zvyšok - naopak. Potom sa každého dieťaťa spýtali, koľko sekúnd by mu trvalo vyriešiť podobný problém. Experimentátor vypočítal rozdiel medzi časom zavolaným dieťaťom a výsledkom dokončenej úlohy (v sekundách). Očakávalo sa, že ohlásenie zlyhania spôsobí určitú nedostatočnosť v sebaúcte dieťaťa. Testovanou hypotézou (na úrovni α = 0,005) bolo, že rozptyl populácie sebahodnotení nezávisí od správ o úspechu alebo neúspechu (Н 0: σ 1 2=σ 2 2).

Boli prijaté nasledujúce údaje:


Krok 1. Vypočítajte empirickú hodnotu kritéria a počet stupňov voľnosti pomocou vzorcov (4):

Krok 2. Podľa tabuľky kritických hodnôt kritéria f-Fisher pre nesmerové alternatív, pre ktoré nájdeme kritickú hodnotu číslo df = 11; znak df= 11. Existuje však kritická hodnota iba pre číslo df= 10 a df znak = 12. Väčší počet stupňov voľnosti nemožno vziať, preto berieme kritickú hodnotu pre číslo df= 10: Pre R = 0,05 F Kp = 3,526; pre R = 0,01 F Kp = 5,418.

Krok 3. Štatistické rozhodnutie a zmysluplný záver. Keďže empirická hodnota presahuje kritickú hodnotu pre R= 0,01 (a ešte viac pre p = 0,05), potom v tomto prípade p< 0,01 и принимается альтернативная гипо­теза: дисперсия в группе 1 превышает дисперсию в группе 2 (R< 0,01). Následne po nahlásení neúspechu je nedostatočná sebaúcta vyššia ako po nahlásení úspechu.

/ praktická štatistika / referenčné materiály / hodnoty študentského t-testu

Významt - Študentský test na hladine významnosti 0,10, 0,05 a 0,01

ν – stupne voľnosti variácií

Štandardné hodnoty Studentovho t-testu

Počet stupňov voľnosti

Úrovne významnosti

Počet stupňov voľnosti

Úrovne významnosti

Tabuľka XI

Štandardné hodnoty Fisherovho testu používané na posúdenie významnosti rozdielov medzi dvoma vzorkami

Stupne slobody

Úroveň významnosti

Stupne slobody

Úroveň významnosti

Študentov t-test

Študentov t-test- všeobecný názov pre triedu metód na štatistické testovanie hypotéz (štatistické testy) na základe rozdelenia podľa Študenta. Najčastejšie prípady aplikácie t-testu súvisia s kontrolou rovnosti priemerov v dvoch vzorkách.

t-štatistika sa zvyčajne zostavuje podľa nasledujúceho všeobecného princípu: čitateľ je náhodná premenná s nulovým matematickým očakávaním (keď je splnená nulová hypotéza) a menovateľom je výberová smerodajná odchýlka tejto náhodnej premennej získaná ako druhá odmocnina z odhad nezmiešaného rozptylu.

Príbeh

Toto kritérium vyvinul William Gosset na hodnotenie kvality piva v Guinness. V súvislosti so záväzkami voči spoločnosti za nezverejňovanie obchodného tajomstva (guinnessovské vedenie uvažovalo o takomto využití štatistického aparátu pri svojej práci) bol Gossetov článok publikovaný v roku 1908 v časopise Biometrics pod pseudonymom „Student“ (Študent) .

Požiadavky na údaje

Na uplatnenie tohto kritéria je potrebné, aby pôvodné údaje mali normálne rozdelenie. V prípade aplikácie dvojvýberového testu pre nezávislé výbery je potrebné dodržať aj podmienku rovnosti rozptylov. Existujú však alternatívy k Studentovmu t-testu pre situácie s nerovnakými rozptylmi.

Pre presný t (\displaystyle t) -test je nevyhnutná požiadavka, aby rozloženie údajov bolo normálne. Avšak aj pri iných distribúciách údajov je možné použiť t (\displaystyle t) -štatistiku. V mnohých prípadoch majú tieto štatistiky asymptoticky štandardné normálne rozdelenie - N (0 , 1) (\displaystyle N(0,1)) , takže možno použiť kvantily tohto rozdelenia. Často však aj v tomto prípade nie sú kvantily použité zo štandardného normálneho rozdelenia, ale zo zodpovedajúceho Studentovho rozdelenia, ako v presnom t (\displaystyle t) -teste. Sú asymptoticky ekvivalentné, ale na malých vzorkách sú intervaly spoľahlivosti Studentovho rozdelenia širšie a spoľahlivejšie.

Jednovzorkový t-test

Používa sa na testovanie nulovej hypotézy H 0: E (X) = m (\displaystyle H_(0):E(X)=m) o rovnosti očakávania E (X) (\displaystyle E(X)) na nejakú známu hodnotu m ( \displaystyle m) .

Je zrejmé, že pri nulovej hypotéze E (X ¯) = m (\displaystyle E((\overline (X)))=m) . Vzhľadom na predpokladanú nezávislosť pozorovaní V (X ¯) = σ 2 / n (\displaystyle V((\overline (X)))=\sigma ^(2)/n) . Použitím nestranného odhadu rozptylu s X 2 = ∑ t = 1 n (X t − X ¯) 2 / (n − 1) (\displaystyle s_(X)^(2)=\sum _(t=1)^( n )(X_(t)-(\overline (X)))^(2)/(n-1)) dostaneme nasledujúcu t-štatistiku:

t = X ¯ − m s X / n (\displaystyle t=(\frac ((\overline (X))-m)(s_(X)/(\sqrt (n))))))

Podľa nulovej hypotézy je rozdelenie tejto štatistiky t (n − 1) (\displaystyle t(n-1)) . Ak teda hodnota štatistiky v absolútnej hodnote prekročí kritickú hodnotu tohto rozdelenia (na danej hladine významnosti), nulová hypotéza sa zamieta.

Dvojvýberový t-test pre nezávislé vzorky

Nech existujú dve nezávislé vzorky veľkostí n 1 , n 2 (\displaystyle n_(1)~,~n_(2)) normálne rozdelených náhodných premenných X 1 , X 2 (\displaystyle X_(1),~X_(2) )) . Je potrebné otestovať nulovú hypotézu rovnosti matematických očakávaní týchto náhodných premenných H 0: M 1 = M 2 (\displaystyle H_(0):~M_(1)=M_(2)) pomocou vzorových údajov.

Zvážte rozdiel medzi priemermi vzorky Δ = X ¯ 1 − X ¯ 2 (\displaystyle \Delta =(\overline (X))_(1)-(\overline (X))_(2)) . Je zrejmé, že ak je splnená nulová hypotéza, E (Δ) = M 1 − M 2 = 0 (\displaystyle E(\Delta)=M_(1)-M_(2)=0) . Rozptyl tohto rozdielu je založený na nezávislosti vzoriek: V (Δ) = σ 1 2 n 1 + σ 2 2 n 2 (\displaystyle V(\Delta)=(\frac (\sigma _(1) ^(2))( n_(1)))+(\frac (\sigma _(2)^(2))(n_(2)))) . Potom pomocou nezaujatého odhadu rozptylu s 2 = ∑ t = 1 n (X t − X ¯) 2 n − 1 (\displaystyle s^(2)=(\frac (\sum _(t=1)^(n)) ( X_(t)-(\overline (X)))^(2))(n-1))) získame nestranný odhad rozptylu rozdielu medzi priemermi vzorky: s Δ 2 = s 1 2 n 1 + s 2 2 n 2 (\ štýl zobrazenia s_(\Delta )^(2)=(\frac (s_(1)^(2))(n_(1)))+(\frac (s_(2)^ (2))(n_(2)))). Preto t-štatistika na testovanie nulovej hypotézy je

T = X ¯ 1 − X ¯ 2 s 1 2 n 1 + s 2 2 n 2 (\displaystyle t=(\frac ((\overline (X))_(1)-(\overline (X))_( 2))(\sqrt ((\frac (s_(1)^(2))(n_(1)))+(\frac (s_(2)^(2))(n_(2))))) ))

Táto štatistika podľa nulovej hypotézy má rozdelenie t (d f) (\displaystyle t(df)), kde d f = (s 1 2 / n 1 + s 2 2 / n 2) 2 (s 1 2 / n 1 ) 2 / (n 1 − 1) + (s 2 2 / n 2) 2 / (n 2 − 1) (\displaystyle df=(\frac ((s_(1)^(2)/n_(1)+) s_(2)^(2)/n_(2))^(2))((s_(1)^(2)/n_(1))^(2)/(n_(1)-1)+( s_(2)^(2)/n_(2))^(2)/(n_(2)-1))))

Rovnaký prípad rozptylu

Ak sa predpokladá, že odchýlky vzorky sú rovnaké, potom

V (Δ) = σ 2 (1 n 1 + 1 n 2) (\displaystyle V(\Delta)=\sigma ^(2)\left((\frac (1)(n_(1)))+(\ frac (1)(n_(2)))\vpravo))

Potom je t-štatistika:

T = X ¯ 1 − X ¯ 2 s X 1 n 1 + 1 n 2, s X = (n 1 − 1) s 1 2 + (n 2 − 1) s 2 2 n 1 + n 2 − 2 (\ štýl zobrazenia t=(\frac ((\overline (X))_(1)-(\overline (X))_(2))(s_(X)(\sqrt ((\frac (1)(n_(1) )))+(\frac (1)(n_(2)))))~,~~s_(X)=(\sqrt (\frac ((n_(1)-1)s_(1)^ (2)+(n_(2)-1)s_(2)^(2))(n_(1)+n_(2)-2))))

Táto štatistika má rozdelenie t (n 1 + n 2 − 2) (\displaystyle t(n_(1)+n_(2)-2))

Dvojvýberový t-test pre závislé vzorky

Na výpočet empirickej hodnoty kritéria t (\displaystyle t) v situácii testovania hypotézy o rozdieloch medzi dvoma závislými vzorkami (napríklad dvoma vzorkami toho istého testu s časovým intervalom) sa používa nasledujúci vzorec: :

T = M d s d / n (\displaystyle t=(\frac (M_(d))(s_(d)/(\sqrt (n)))))

kde M d (\displaystyle M_(d)) je stredný rozdiel hodnôt, s d (\displaystyle s_(d)) je štandardná odchýlka rozdielov a n je počet pozorovaní

Táto štatistika má rozdelenie t (n − 1) (\displaystyle t(n-1)) .

Testovanie lineárneho obmedzenia na parametroch lineárnej regresie

T-test môže tiež testovať ľubovoľné (jediné) lineárne obmedzenie parametrov lineárnej regresie odhadovanej obyčajnými najmenšími štvorcami. Nech je potrebné otestovať hypotézu H 0: c T b = a (\displaystyle H_(0):c^(T)b=a) . Je zrejmé, že pri nulovej hypotéze E (c T b ^ − a) = c T E (b ^) − a = 0 (\displaystyle E(c^(T)(\hat (b))-a)=c^( T)E((\hat (b)))-a=0) . Tu využívame vlastnosť nezaujatých odhadov najmenších štvorcov parametrov modelu E (b ^) = b (\displaystyle E((\hat (b)))=b) . Okrem toho V (c T b ^ − a) = c T V (b ^) c = σ 2 c T (X T X) − 1 c (\displaystyle V(c^(T)(\hat (b))-a )=c^(T)V((\hat (b)))c=\sigma ^(2)c^(T)(X^(T)X)^(-1)c) . Ak použijeme namiesto neznámeho rozptylu jeho nezaujatý odhad s 2 = E S S / (n − k) (\displaystyle s^(2)=ESS/(n-k)) dostaneme nasledujúcu t-štatistiku:

T = c T b ^ − a s c T (X T X) − 1 c (\displaystyle t=(\frac (c^(T)(\hat (b))-a)(s(\sqrt (c^(T)) (X^(T)X)^(-1)c)))))

Táto štatistika podľa nulovej hypotézy má rozdelenie t (n − k) (\displaystyle t(n-k)), takže ak je hodnota štatistiky väčšia ako kritická hodnota, potom je nulová hypotéza lineárneho obmedzenia odmietol.

Testovanie hypotéz o koeficiente lineárnej regresie

Špeciálnym prípadom lineárneho obmedzenia je testovanie hypotézy, že regresný koeficient b j (\displaystyle b_(j)) sa rovná nejakej hodnote a (\displaystyle a) . V tomto prípade je zodpovedajúca t-štatistika:

T = b ^ j − a s b ^ j (\displaystyle t=(\frac ((\hat (b))_(j)-a)(s_((\hat (b))_(j)))))

kde s b ^ j (\displaystyle s_((\hat (b))_(j))) je štandardná chyba odhadu koeficientu - druhá odmocnina zodpovedajúceho diagonálneho prvku kovariančnej matice odhadov koeficientov.

Podľa nulovej hypotézy je rozdelenie tejto štatistiky t (n − k) (\displaystyle t(n-k)) . Ak je absolútna hodnota štatistiky vyššia ako kritická hodnota, potom je rozdiel koeficientu od a (\displaystyle a) štatisticky významný (nenáhodný), v opačnom prípade je nevýznamný (náhodný, to znamená, že skutočný koeficient je pravdepodobne sa rovná alebo je veľmi blízko očakávanej hodnote a (\ štýl zobrazenia a))

Komentujte

Jednovzorkový test pre matematické očakávania možno zredukovať na testovanie lineárneho obmedzenia parametrov lineárnej regresie. V jednovzorkovom teste ide o „regresiu“ na konštantu. Preto s 2 (\displaystyle s^(2)) regresie je vzorový odhad rozptylu skúmanej náhodnej premennej, matica X T X (\displaystyle X^(T)X) sa rovná n (\displaystyle n) a odhad „koeficientu“ modelu je výberový priemer. Z toho dostaneme výraz pre t-štatistiku uvedenú vyššie pre všeobecný prípad.

Podobne je možné ukázať, že dvojvýberový test s rovnakými vzorovými rozptylmi sa tiež redukuje na testovanie lineárnych obmedzení. V dvojvzorovom teste ide o „regresiu“ na konštantu a fiktívnu premennú, ktorá identifikuje podvzorku v závislosti od hodnoty (0 alebo 1): y = a + b D (\displaystyle y=a+bD) . Hypotézu o rovnosti matematických očakávaní vzoriek možno formulovať ako hypotézu o rovnosti koeficientu b tohto modelu k nule. Dá sa ukázať, že zodpovedajúca t-štatistika na testovanie tejto hypotézy sa rovná t-štatistike uvedenej pre dvojvýberový test.

Môže sa tiež zredukovať na kontrolu lineárneho obmedzenia v prípade rôznych odchýlok. V tomto prípade má rozptyl chýb modelu dve hodnoty. Z toho možno tiež získať t-štatistiku podobnú tej, ktorá je uvedená pre dvojvýberový test.

Neparametrické analógy

Analógom dvojvzorkového testu pre nezávislé vzorky je Mann-Whitney U-test. Pre situáciu so závislými vzorkami sú analógmi znakový test a Wilcoxonov T-test

Literatúra

študent. Pravdepodobná chyba priemeru. // Biometrika. 1908. Číslo 6 (1). S. 1-25.

Odkazy

O kritériách na testovanie hypotéz o homogenite prostriedkov na webovej stránke Štátnej technickej univerzity v Novosibirsku

Študentov t-test je všeobecný názov pre triedu metód na štatistické testovanie hypotéz (štatistické testy) na základe Studentovho rozdelenia. Najčastejšie prípady aplikácie t-testu súvisia s kontrolou rovnosti priemerov v dvoch vzorkách.

1. História vývoja t-testu

Toto kritérium bolo vyvinuté William Gosset na posúdenie kvality piva v Guinness. V súvislosti so záväzkami voči spoločnosti nezverejňovať obchodné tajomstvá bol Gossetov článok publikovaný v roku 1908 v časopise Biometrics pod pseudonymom „Student“ (Študent).

2. Na čo slúži Studentov t-test?

Na stanovenie štatistickej významnosti priemerných rozdielov sa používa Studentov t-test. Dá sa použiť ako v prípade porovnávania nezávislých vzoriek ( napríklad skupiny pacientov s diabetes mellitus a skupiny zdravých) a pri porovnávaní súvisiacich súborov ( priemerná srdcová frekvencia u tých istých pacientov pred a po užití antiarytmika).

3. Kedy je možné použiť Studentov t-test?

Pre aplikáciu Studentovho t-testu je potrebné, aby mali pôvodné dáta normálne rozdelenie. V prípade aplikácie dvojvýberového testu pre nezávislé vzorky je potrebné splniť aj podmienku rovnosť (homoskedasticita) rozptylov.

Ak tieto podmienky nie sú splnené, pri porovnávaní priemerov vzoriek by sa mali použiť podobné metódy. neparametrické štatistiky, medzi ktorými sú najznámejšie Mann-Whitney U-test (ako dvojvýberový test pre nezávislé vzorky), a znakové kritérium a Wilcoxonov test(používa sa v prípadoch závislých vzoriek).

4. Ako vypočítať Studentov t-test?

Na porovnanie priemerov sa Studentov t-test vypočíta pomocou nasledujúceho vzorca:

kde M 1- aritmetický priemer prvej porovnávanej populácie (skupiny), M 2- aritmetický priemer druhej porovnávanej populácie (skupiny), m 1- priemerná chyba prvého aritmetického priemeru, m2- priemerná chyba druhého aritmetického priemeru.

5. Ako interpretovať hodnotu Studentovho t-testu?

Výslednú hodnotu Studentovho t-testu je potrebné správne interpretovať. Na to potrebujeme poznať počet subjektov v každej skupine (n 1 a n 2). Zistenie počtu stupňov voľnosti f podľa nasledujúceho vzorca:

f \u003d (n 1 + n 2) - 2

Potom určíme kritickú hodnotu Studentovho t-testu pre požadovanú hladinu významnosti (napríklad p = 0,05) a pre daný počet stupňov voľnosti. f podľa tabuľky ( Pozri nižšie).

Porovnávame kritické a vypočítané hodnoty kritéria:

  • Ak vypočítaná hodnota Studentovho t-testu rovnaké alebo väčšie kritické, nájdené v tabuľke, sme dospeli k záveru, že rozdiely medzi porovnávanými hodnotami sú štatisticky významné.
  • Ak je hodnota vypočítaného Studentovho t-testu menej tabuľkové, čo znamená, že rozdiely medzi porovnávanými hodnotami nie sú štatisticky významné.

6. Príklad výpočtu Studentovho t-testu

Na štúdium účinnosti nového preparátu železa boli vybrané dve skupiny pacientov s anémiou. V prvej skupine dostávali pacienti nový liek dva týždne a v druhej skupine dostávali placebo. Potom sa merala hladina hemoglobínu v periférnej krvi. V prvej skupine bola priemerná hladina hemoglobínu 115,4±1,2 g/l a v druhej skupine - 103,7±2,3 g/l (údaje sú uvedené vo formáte M±m), porovnávané populácie majú normálne rozdelenie. Počet prvej skupiny bol 34 a druhej - 40 pacientov. Je potrebné vyvodiť záver o štatistickej významnosti získaných rozdielov a účinnosti nového prípravku železa.

Riešenie: Na posúdenie významnosti rozdielov používame Studentov t-test vypočítaný ako rozdiel medzi priemermi delený súčtom štvorcových chýb:

Po vykonaní výpočtov bola hodnota t-testu rovná 4,51. Počet stupňov voľnosti zistíme ako (34 + 40) - 2 = 72. Získanú hodnotu Studentovho t-testu 4,51 porovnáme s kritickou hodnotou pri p=0,05 uvedenou v tabuľke: 1,993. Keďže vypočítaná hodnota kritéria je väčšia ako kritická hodnota, konštatujeme, že pozorované rozdiely sú štatisticky významné (hladina významnosti p<0,05).

Jedným z najznámejších štatistických nástrojov je Studentov t-test. Používa sa na meranie štatistickej významnosti rôznych párových veličín. Microsoft Excel má špeciálnu funkciu na výpočet tohto ukazovateľa. Poďme sa naučiť vypočítať Studentov t-test v Exceli.

Na začiatok si však ešte zistime, aké je kritérium študenta vo všeobecnosti. Tento indikátor sa používa na kontrolu rovnosti priemerných hodnôt dvoch vzoriek. To znamená, že určuje platnosť rozdielov medzi dvoma skupinami údajov. Zároveň sa na určenie tohto kritéria používa celý súbor metód. Indikátor možno vypočítať s jednostranným alebo dvojstranným rozdelením.

Výpočet ukazovateľa v Exceli

Teraz prejdime k otázke, ako vypočítať tento ukazovateľ v programe Excel. Dá sa to urobiť cez funkciu ŠTUDENTSKÝ TEST. Vo verziách Excelu 2007 a starších bol tzv TTEST. V neskorších verziách bol však ponechaný kvôli kompatibilite, ale stále sa odporúča používať v nich modernejší - ŠTUDENTSKÝ TEST. Táto funkcia môže byť použitá tromi spôsobmi, ktoré budú podrobne popísané nižšie.

Metóda 1: Sprievodca funkciou

Najjednoduchší spôsob výpočtu tohto ukazovateľa je pomocou Sprievodcu funkciami.


Vykoná sa výpočet a výsledok sa zobrazí na obrazovke vo vopred vybranej bunke.

Metóda 2: Práca s tabuľkou Vzorce

Funkcia ŠTUDENTSKÝ TEST možno vyvolať aj prechodom na kartu "vzorce" pomocou špeciálneho gombíka na stuhe.


Metóda 3: manuálne zadanie

Vzorec ŠTUDENTSKÝ TEST možno ho zadať aj ručne do ľubovoľnej bunky na pracovnom hárku alebo do panela funkcií. Jeho syntax vyzerá takto:

STUDENT.TEST(Pole1;Pole2;Tails;Typ)

Pri analýze prvej metódy sa zvažovalo, čo každý z argumentov znamená. Tieto hodnoty by sa mali nahradiť touto funkciou.

Po zadaní údajov stlačte tlačidlo Zadajte na zobrazenie výsledku na obrazovke.

Ako vidíte, kritérium študenta sa v Exceli počíta veľmi jednoducho a rýchlo. Hlavná vec je, že používateľ, ktorý vykonáva výpočty, musí pochopiť, čo je a aké vstupné údaje sú za čo zodpovedné. Program vykoná priamy výpočet sám.

Súvisiace publikácie