Khi-karratuaren proba

Estatistikan, doikuntzaren egokitasunerako khi-karratuaren proba datu multzo baten probabilitate eredu batekiko doikuntzaren egokitasunari buruz erabakitzen duen proba estatistiko bat da, khi-karratu estatistikoan oinarritzen dena. Probak balio edo balio-tarte bakoitzeko maiztasun enpiriko eta teorikoen arteko aldea hartzen du oinarrittzat, khi-karratu estatistikoaren bitartez, erabakia hartzeko: aldea txikia bada, hipotesi nulua onartu eta eredua datuetara doitasunez egokitzen dela erabaki behar da; aldea handia bada, berriz, probabilitate ereduaren berezko aldakortasunarengantik gertatu ez eta ereduaren egokitzapenaren doitasun ezari dagozkiola erabakitzen da. Khi-karratu estatistikoak kalkulatrzen duen aldearen adierazgarritasuna khi-karratu banaketaren bitartez aztertzen da, hipotesi nulupean estatistikoa banaketa horri jarraiki banatzen baita.

Proba probabilitate eredu jarraitu zein diskretuetarako erabil daiteke. Eredu jarraituetan datuak tartetan biltzen dira maiztasunak eratzeko.

Adibideak

Probabilitate berdintasunerako proba bat

Khi-karratu estatistikoaren balioa 2.398 da. Khi-karratuaren proban estatistikoaren balio handiek, maiztasun enpirikoak eta teorikoak oso ezberdinak direnean sortzen direnak, hipotesi nuluko eredua baztertzera daramate; hau da, eskualde kritikoa eskubian dago proba honetan. Adibidean, erreferentziazko khi-karratu banaketan %10eko adierazgarritasun-maila gainetik uzten duen balio kritikoa 6.251 da. Hortik gorako khi-karratu estatistikoaren balioek eredua baztertzea ekarriko dute. Kasu honetan, estatistikoa ez da horretara heltzen eta beraz, eredua onartu egiten da.

Jogurt berri baterako lau aukera eman zaie dastatzeko 60 bezero potentzialeko talde bati eta lauetatik zein nahiago duten galdetu zaie. A, B, C eta D aukerak nahiago izan dituztenak 20, 14, 12 eta 14 dira, hurrenik hurren. Lau aukerak berdintsuak edo probabilitate berekoak direla baiezta al daiteke %10eko adierazgarritasun-maila batez?

Aukerak	Maiztasun enpirikoak: O_i	Probabilitatea: p_i	Maiztasun teorikoak: E_i	(O_i-E_i)²/E_i
A	20	0.25	0.25×60=15	1.666
B	14	0.25	0.25×60=15	0.066
C	12	0.25	0.25×60=15	0.600
D	14	0.25	0.25×60=15	0.066
Totalak	50	1	50	2.398

\mathrm {X} ^{2}=\sum _{i}{\frac {(O_{i}-E_{i})^{2}}{E_{i}}}=1.666+0.066+0.600+0.066=2.398

Estatistikoaren emaitza $\chi _{4-1}^{2}=\chi _{3}^{2}\,$ da, khi-karratu banaketa bateko 90. pertzentilarekin alderatu behar da, gainetik %10eko probabilitatea (adierazgarritasun maila) utziz, askatasun-maila kopurua 4-1 (4 jogurt edo datu-klase - 1) izanik:

\chi _{4-1,0.1}^{2}=6.251

$2.398<6.251\,$ betetzen denez, khi-karratu estatistikoak maiztasun enpiriko eta teorikoen artean duen aldea, probabilitate berdintasuna ezartzen duen hipotesi nulupean, ez da aski handia eta beraz probabilitate berdintasuna onartu egiten da: lau jogurt aukerak neurri berean nahiago direla erabaki behar da.

Eredu diskretu baten egokitasuna

100 egunetan zehar egunero gertatzen den matxura kopurua jaso da (datu gordinak 0, 0, ..., 1, ... izango lirateke):

Matxura kopurua	0	1	2	3	>3
Egun kopurua	21	19	15	20	25

Eguneko matxura kopurua Poissonen banaketari jarraiki gertatzen dela esan al daiteke, adierazgarritasun maila %10 izanik?

Poissonen banaketak ezartzen dituen probabilitateak kuantifikatzeko $\lambda \,$ parametroa zenbatetsi behar da lehenbizi. Ohiko zenbateslea batezbesteko aritmetikoa da (3 baino handiagoak diren datuen balio adierazgarri gisa 5 balioa hartu da, jatorrizko daturik ezean):

{\hat {\lambda }}={\overline {x}}={\frac {0\times 21+1\times 19+2\times 15+3\times 20+5\times 25}{100}}=2.34\ matxura\ eguneko

Parametroaren zenbatespen honekin, ereduaren probabilitate zehatzak eman daitezke. Poissonen banaketaren probabilitate funtzioa erabiliz:

P[X=x]={\frac {e^{-2.34}\times 2.34^{x}}{x!}}

Probabilitateak kalkulaturik, khi-karratu estatistikoa kalkulatzeari ekiten zaio:

Matxura kopuruak	Maiztasun enpirikoak: O_i	Probabilitatea: p_i	Maiztasun teorikoak: E_i	(O_i-E_i)²/E_i
0	21	0.096	0.096×100=9.6	13.537
1	19	0.225	0.225×100=22.5	0.544
2	15	0.264	0.264×100=26.4	4.922
3	20	0.205	0.205×100=20.5	0.012
>3	25	0.208	0.208×100=20.8	0.848
Totalak	25	1	25	19.863

\mathrm {X} ^{2}=\sum _{i}{\frac {(O_{i}-E_{i})^{2}}{E_{i}}}=13.537+0.544+4.922+0.012+0.848=19.863

Kasu honetan, ereduaren parametro bat datuetatik zenbatetsi denez, erreferentzia gisa hartu beharreko khi-karratu banaketak 5-1-1 (5 klase - 1 zenbatespen - 1) askatasun-maila ditu, zenbatespenaren balioaren erabilerak askatasun-maila bat gutxiago uzten baitu: $\chi _{5-1-1,0.1}^{2}=6.251$

$19.863>6.251$ betetzen denez, hipotesi nuluak baieztatzen duen Poissonen eredua baztertu behar da eta beraz, datuetarako bestelako probabilitate-eredu bat zehaztu behar da.

Eredu jarrai baten egokitasuna

Eredua jarraia denean, datuak tartetan bildu behar dira.

Ikasle talde bati matematika-test bat proposatu zaie. Izandako puntuazioak hauek dira:

Puntuazioa	0-20	20-40	40-60	60-80	80-100
Ikasleak	2	14	34	38	12

%10eko adierazgarritasun mailaz datuetara banaketa normala doi egokitzen den erabaki behar da.

Banakuntza normalaren probabilitateak kalkulatzeko, batezbestekoa eta desbidazio estandarra zenbatetsi behar dira:

{\hat {\mu }}={\overline {x}}=58.8\ ;\ {\hat {s}}={\sqrt {\frac {\sum _{i}(x_{i}-{\overline {x}})^{2}}{n-1}}}=18.92

Datuek konfirmatu beharreko eredu normal zenbatetsia hau da: $N(58.8,18.92)\,$ . Eredu honetatik probabilitateak zehaztuko dira.

Puntuazioak	Maiztasun enpirikoak: O_i	Probabilitatea: p_i	Maiztasun teorikoak: E_i	(O_i-E_i)²/E_i
0-20	2	0.02	0.02×100=2	0
20-40	14	0.14	0.14×100=14	0
40-60	34	0.37	0.37×100=37	0.243
60-80	38	0.34	0.34×100=34	0.470
80-100	12	0.13	0.13×100=13	0.077
Totalak	100	1	100	0.79

\mathrm {X} ^{2}=\sum _{i}{\frac {(O_{i}-E_{i})^{2}}{E_{i}}}=0+0+0.243+0.470+0.077=0.79

Balio hau 5-2-1=2 askatasun maila dituen khi-karratu banaketaren 90. pertzentilarekin alderatu behar da, zenbatespenek bi askatasun-maila kentzen dituztelako: $\chi _{2,0.1}^{2}=4.60$ . Estatistikoaren balioa txikiagoa denez, hipotesi nulua onartu eta beraz, eredu normala egokitzat jotzen da.

Kanpo estekak

Datuak: Q1071004