img
Regresijska analiza

Regresijska analiza je najpogostejša metoda za analizo odvisnosti med intervalnimi / razmernostnimi spremenljivkami. Je metoda za pojasnjevanje in napovedovanje vrednosti odvisnih spremenljivk, s pomočjo vrednosti neodvisnih spremenljivk

  • Regresijsko analizo uporabimo takrat, kadar se vrednosti pojasnjevane spremenljivke ocenjujejo z vrednostmi ene pojasnjevalne spremenljivke (bivariatna regresija) ali več pojasnjevalnih spremenljivk (multipla regresija). Najprej se postavi nek regresijski model, ki vsebuje predpostavke o odnosih med spremenljivkami. Poleg tega mora tudi ustrezati določenim pogojem (homoskedastičnost, multikolinearnost, neodvisnost motenj, itd.). Nato se ga testira na vzorcu proučevane populacije.
  • Regresijska analiza je pomembna, ker omogoča ocenjevanje parametrov tega modela in opredelitev njegovega statističnega pomena ter zato, ker lahko (če poznamo vrednosti neodvisnih spremenljivk) na njeni osnovi napovemo vrednost odvisne spremenljivke.
  • Regresijska premica (Y = a +bX)

    Odnos med Y in X je odvisen od dveh parametrov:

    a ... določa, kje regresijska premica seka ordinato, a=Y(0), torej Y ima vrednost a, ko ima X vrednost 0.

    b ... določa naklon premice (pozitivna ali negativna povezanost in moč povezanosti)

    b imenujemo REGRESIJSKI KOEFICIENT. Pove, za koliko se spremeni vrednost Y, če se X spremeni za eno enoto. Če je b=0, potem Y ni odvisna od X (spremenljivka Y je konstanta, za katerokoli vrednost spremenljivke X ima isto vrednost, t.j. Y’ = a).

    S pomočjo regresijske premice lahko napovedujemo vrednosti odvisne spremenljivke: izračunamo vrednost spremenljivke Y pri dani vrednosti spremenljivke X.

regresijska analiza

  • Primer

    8 oseb, za katere imamo podatek o X – izobrazbi (število priznanih let šole) in Y - številu ur branja dnevnih časopisov na teden. Izračunali smo naslednji dve regresijski premici: Y' = -0.68 + 0.46X X' = 2.45 + 1.85Y

    Kaj lahko razberemo iz te regresijske premice?

    Napovejmo vrednost, npr. X = 10, Y’ = -0.68 + 0.46*10 = 3.92. Če bi bila pogostost branja dnevnih časopisov na teden odvisna le od izobrazbe in nobenega drugega dejavnika, potem bi za osebo, ki ima 10 let šolanja, napovedali, da bere dnevne časopise približno 4 ure na teden.

    b = 0.46 ... Pozitivna odvisnost: tisti, ki imajo več let šolanja, tudi pogosteje berejo dnevne časopise. Za vsako dodatno leto šolanje se število ur branja poveča za 0.46 ure. Npr. X = 10, Y’ = 3.92, X = 11, Y’ = 4.38, razlika med njima je ravno 0.46 ure.

    (a = -0.68 ... Pomenilo bi, koliko ur tedensko berejo dnevne časopise osebe, ki nimajo nobenega priznanega leta šole. V tem primeru vsebinsko nesmiselno.)

linearna regresija

  • Kako dober je regresijski model (regresijska funkcija) pa nam pove:

    Determinacijski koeficient (delež pojasnjene variance) - kazalec kvalitete opisa odvisnosti med spremenljivkama z regresijsko premico.
    Standardna napaka ocene - kazalec kvalitete napovedovanja vrednosti odvisne spremenljivke s pomočjo regresijske premice.