
Hi-kvadrat
Frekvenčna razporeditev spremenljivke je porazdelitev vrednosti spremenljivke in njihovih frekvenc. Frekvence ponavadi zapišemo v obliki relativnih frekvenc oziroma strukturnih odstotkov.
- Hi-kvadrat test (χ2) uporabljamo za testiranje povezanosti dveh nominalnih oz. opisnih spremenljivk. Le ta meri razlike med empiričnimi in teoretičnimi frekvencami. Ko so empirične frekvence enake ali zelo podobne frekvencam, kakršne bi bile v primeru nepovezanosti (torej teoretičnim frekvencam), takrat je χ2 = 0 – spremenljivki nista povezani. Če pa se empirične frekvence razlikujejo od teoretičnih frekvenc χ2 > 0, potem lahko zaključimo, da vzorčni podatki kažejo na povezanost med spremenljivkama.
- Majhna razlika med empiričnimi in teoretičnimi frekvencami, ki smo jo dobili na vzorcu, je zelo verjetna v primeru, da spremenljivki na populaciji nista povezani.
- Zadosti velika razlika med empiričnimi in teoretičnimi frekvencami, ki smo jo dobili na vzorcu, je zelo malo verjetna v primeru, da sta spremenljivki na populaciji povezani.
- Lastnosti Hi-kvadrat statistike:
Lahko le pozitivna (gre namreč za kvadrate razlik med empiričnimi in teoretičnimi frekvencami). Zato je tudi test preverjanja domneve enostranski (H1: χ2>0 ).
Hi-kvadrat test pove, ali na populaciji obstaja povezanost med obravnavanima nominalnima spremenljivkama. Ne pove pa, kako močna je ta povezanost. Hi-kvadrat (χ2) statistika namreč ni primerljiva med različnimi kontingenčnimi tabelami, ker je njena vrednost odvisna od števila enot v vzorcu in števila celic v tabeli (števila vrednosti obravnavanih spremenljivk).
Predpostavka χ2 test – vse teoretične frekvence so vsaj 5.
Če je teoretičnih frekvenc, ki so manjše od 5 več kot 20%, je predpostavka huje kršena.
- Ker Hi-kvadrat (χ2) statistika ni primerljiva med različnimi tabelami, nam ne podaja informacije o moči povezanosti. Slednjo merimo s kontingenčnimi koeficienti, ki so izpeljani iz χ2 ter normirani (imajo določen interval možnih vrednosti in so zato primerljivi med različnimi tabelami).