Zoran Skoda linearna regresija

Regresija je procjena zakonitosti među slučajnim veličinama kad promatramo više od jedne slučajne veličine.

Najjednostavniji je slučaj zavisnosti među dvije veličine. Ponekad kažemo da je to podešavanje krivulje podacima eksperimenata (engl. curve fitting).

Pretpostavimo, dakle da u eksperimentima mjerimo dvije različite slučajne veličine xx i yy.

Povezanost tih dviju veličina nekad zovemo i korelacijom (jedna od mjera te povezanosti je koeficijent korelacije, definiran niže)- Promatramo dakle ishode (x,y)(x,y) niza eksperimenata. Svaki od tih ishoda se dešava nekom frekvencijom, pa možemo podijeliti tu frekvenciju s ukupnom brojem da dobijemo relativnu frekvenciju. Kod velikog broja eksperimenata, relativna frekvencija se približava vjerojatnosti tog ishoda, P(x,y)P(x,y). Po tome je sve isto kao kod jedne varijable (vidi statistika jedne slučajne veličine). Sve podatke koji imaju isti xx možemo staviti u jedan razred, pa je frekvencija tog razreda zbroj svih frekvencija (x,y)(x,y) za raličite xx. Iz toga možemo dobiti vjerojatnost cijelog razreda P(x)P(x) i slično gledamo razrede s fiksnim yy i dobijemo vjerojatnost P(y)P(y).

Kažemo da su dvije slučajne veličine međusobno statistički nezavisne ako je vjerojatnost kombinacije

P(x,y)=P(x)P(y) P(x,y) = P(x)\cdot P(y)

Ako gledamo samo vrijednosti xx, možemo izračunati srednju vrijednost (odnosno očekivanje) varijable xx, naime x¯\overline{x} i slično gledajući samo vrijednosti yy izračunamo y¯\overline{y}.

Statistička zavisnost koja se mjeri korelacijom ne mora značiti uzročno-posljedičnu vezu. Naime, obje veličine u korelaciji mogu za zajednički uzrok imati nešto treće. Na primjer i ptice i ljudi su uznemireni uoči nevremena, no to ne znači da su ptice uznemirene zbog uznemirenosti ljudi ili obratno. Kažemo da korelacija ne mora nužno povlačiti kauzalnost (uzorčno-posljedičnu vezu).

Kovarijanca para slučajnih veličina, (x,y)(x,y), je izraz

Cov(x,y) = 1n i(x ix¯)(y iy¯) = (x 1x¯)(y 1y¯)+(x 2x¯)(y 2y¯)++(x nx¯)(y ny¯)n\array{ Cov(x,y) &=& \frac{1}{n}\sum_i (x_i-\overline{x})\cdot(y_i-\overline{y}) \\ &=& \frac{(x_1-\overline{x})\cdot(y_1-\overline{y})+(x_2-\overline{x})\cdot(y_2-\overline{y})+\ldots+(x_n-\overline{x})\cdot(y_n-\overline{y})}{n} }

gdje je nn broj eksperimenata i u ii-tom eksperimentu smo izmjerili (x i,y i)(x_i,y_i). Između ostalog, Var(x)=Cov(x,x)Var(x) = Cov(x,x) (vidi statistika jedne slučajne veličine). Dakle, kovarijanca je poopćenje varijance.

U problemu regresije tražimo krivulju nekog tipa koja je minimalno udaljena od rezultata mjerenja. Dakle ako je krivulja graf funkcije y=f(x)y = f(x), tada želimo da je zbroj udaljanosti od (x i,y i)(x_i,y_i) do krivulje minimalna. Standardna teorija zapravo traži da je zbroj kvadrata udaljenosti minimalan.

Ako je krivulja pravac onda je jednadžba tog pravca

yy¯=Cov(x,y)Var(x)(xx¯) y - \overline{y} = \frac{Cov(x,y)}{Var(x)}(x-\overline{x})

To je pravac “linearne regresije”. Taj pravac prolazi kroz točku čije su koordinate par srednjih vrijednosti (x¯,y¯)(\overline{x},\overline{y}). Općenito o jednadžbi pravca u ravnini vidi pravac u ravnini.

Nagib (= naklon = “koeficijent smjera”, engl. slope) pravca regresije je Cov(x,y)Var(x)=Cov(x,y)σ x 2=\frac{Cov(x,y)}{Var(x)}=\frac{Cov(x,y)}{\sigma_x^2}= i zovemo ga i koeficijent regresije. Njegove mjerne jedinice su, prema toj formuli, očito, jedinice od xx podijeljene s jedinicama od yy, što se slaže i s time što treba definirati naklon pravca u ravnini xx-yy.

S druge strane, omjer

Kor(x,y)=Cov(x,y)Var(x)Var(y)=Cov(x,y)σ xσ y Kor(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}} = \frac{Cov(x,y)}{\sigma_x\cdot\sigma_y}

je koeficijent korelacije koji je 00 kod nezavisnih veličina i ±1\pm 1 kad su veličine proporcionalne, a po apsolutnoj vrijednosti nikad nije veći od 11.

Riješeni primjer s izračunom kovarijance, korelacije i linearnom regresijom je na str. 11-17 slideova statpres2.pdf

Last revised on May 2, 2023 at 17:01:14. See the history of this page for a list of all contributions to it.