Zoran Skoda
linearna regresija

Regresija je procjena zakonitosti među slučajnim veličinama kad promatramo više od jedne slučajne veličine.

Najjednostavniji je slučaj zavisnosti među dvije veličine. Ponekad kažemo da je to podešavanje krivulje podacima eksperimenata (engl. curve fitting).

Pretpostavimo, dakle da u eksperimentima mjerimo dvije različite slučajne veličine xx i yy.

Povezanost tih dviju veličina nekad zovemo i korelacijom (jedna od mjera te povezanosti je koeficijent korelacije, definiran niže)- Promatramo dakle ishode (x,y)(x,y) niza eksperimenata. Svaki od tih ishoda se dešava nekom frekvencijom, pa možemo podijeliti tu frekvenciju s ukupnom brojem da dobijemo relativnu frekvenciju. Kod velikog broja eksperimenata, relativna frekvencija se približava vjerojatnosti tog ishoda, P(x,y)P(x,y). Po tome je sve isto kao kod jedne varijable (vidi statistika jedne slučajne veličine). Sve podatke koji imaju isti xx možemo staviti u jedan razred, pa je frekvencija tog razreda zbroj svih frekvencija (x,y)(x,y) za raličite xx. Iz toga možemo dobiti vjerojatnost cijelog razreda P(x)P(x) i slično gledamo razrede s fiksnim yy i dobijemo vjerojatnost P(y)P(y).

Kažemo da su dvije slučajne veličine međusobno statistički nezavisne ako je vjerojatnost kombinacije

P(x,y)=P(x)P(y) P(x,y) = P(x)\cdot P(y)

Ako gledamo samo xx-razrede, možemo izračunati srednju vrijednost (odnosno očekivanje) varijable xx, naime x¯\overline{x} slično y¯\overline{y}.

Kovarijanca para slučajnih veličina, (x,y)(x,y), je izraz

Cov(x,y)=1n i(x ix¯)(y iy¯)=(x 1x¯)(y 1y¯)+(x 2x¯)(y 2y¯)++(x nx¯)(y ny¯)n Cov(x,y) = \frac{1}{n}\sum_i (x_i-\overline{x})\cdot(y_i-\overline{y}) = \frac{(x_1-\overline{x})\cdot(y_1-\overline{y})+(x_2-\overline{x})\cdot(y_2-\overline{y})+\ldots+(x_n-\overline{x})\cdot(y_n-\overline{y})}{n}

gdje je nn broj eksperimenata i u ii-tom eksperimentu smo izmjerili (x i,y i)(x_i,y_i). Između ostalog, Var(x)=Cov(x,x)Var(x) = Cov(x,x) (vidi statistika jedne slučajne veličine). Dakle, kovarijanca je poopćenje varijance.

U problemu regresije tražimo krivulju nekog tipa koja je minimalno udaljena od rezultata mjerenja. Dakle ako je krivulja graf funkcije y=f(x)y = f(x), tada želimo da je zbroj udeljanosti od (x i,y i)(x_i,y_i) do krivulje minimalna. Standardna teorija zapravo traži da je zbroj kvadrata udaljenosti minimalan.

Ako je krivulja pravac onda je jednadžba tog pravca

yy¯=Cov(x,y)Var(x)(xx¯) y - \overline{y} = \frac{Cov(x,y)}{Var(x)}(x-\overline{x})

To je pravac “linearne regresije”. Taj pravac prolazi kroz točku čije su koordinate par srednjih vrijednosti (x¯,y¯)(\overline{x},\overline{y}).

Nagib (= naklon = “koeficijent smjera”, engl. slope) pravca regresije je Cov(x,y)Var(x)=Cov(x,y)σ x 2=\frac{Cov(x,y)}{Var(x)}=\frac{Cov(x,y)}{\sigma_x^2}= i zovemo ga i koeficijent regresije.

S druge strane, omjer

Cov(x,y)Var(x)Var(y)=Cov(x,y)σ xσ y \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}} = \frac{Cov(x,y)}{\sigma_x\cdot\sigma_y}

je koeficijent korelacije koji je 00 kod nezavisnih veličina i ±1\pm 1 kad su veličine proporcionalne, a po apsolutnoj vrijednosti nikad nije veći od 11.

Last revised on January 28, 2019 at 14:04:06. See the history of this page for a list of all contributions to it.