Regresija je procjena zakonitosti među slučajnim veličinama kad promatramo više od jedne slučajne veličine.
Najjednostavniji je slučaj zavisnosti među dvije veličine. Ponekad kažemo da je to podešavanje krivulje podacima eksperimenata (engl. curve fitting).
Pretpostavimo, dakle da u eksperimentima mjerimo dvije različite slučajne veličine i .
Povezanost tih dviju veličina nekad zovemo i korelacijom (jedna od mjera te povezanosti je koeficijent korelacije, definiran niže)- Promatramo dakle ishode niza eksperimenata. Svaki od tih ishoda se dešava nekom frekvencijom, pa možemo podijeliti tu frekvenciju s ukupnom brojem da dobijemo relativnu frekvenciju. Kod velikog broja eksperimenata, relativna frekvencija se približava vjerojatnosti tog ishoda, . Po tome je sve isto kao kod jedne varijable (vidi statistika jedne slučajne veličine). Sve podatke koji imaju isti možemo staviti u jedan razred, pa je frekvencija tog razreda zbroj svih frekvencija za raličite . Iz toga možemo dobiti vjerojatnost cijelog razreda i slično gledamo razrede s fiksnim i dobijemo vjerojatnost .
Kažemo da su dvije slučajne veličine međusobno statistički nezavisne ako je vjerojatnost kombinacije
Ako gledamo samo vrijednosti , možemo izračunati srednju vrijednost (odnosno očekivanje) varijable , naime i slično gledajući samo vrijednosti izračunamo .
Statistička zavisnost koja se mjeri korelacijom ne mora značiti uzročno-posljedičnu vezu. Naime, obje veličine u korelaciji mogu za zajednički uzrok imati nešto treće. Na primjer i ptice i ljudi su uznemireni uoči nevremena, no to ne znači da su ptice uznemirene zbog uznemirenosti ljudi ili obratno. Kažemo da korelacija ne mora nužno povlačiti kauzalnost (uzorčno-posljedičnu vezu).
Kovarijanca para slučajnih veličina, , je izraz
gdje je broj eksperimenata i u -tom eksperimentu smo izmjerili . Između ostalog, (vidi statistika jedne slučajne veličine). Dakle, kovarijanca je poopćenje varijance.
U problemu regresije tražimo krivulju nekog tipa koja je minimalno udaljena od rezultata mjerenja. Dakle ako je krivulja graf funkcije , tada želimo da je zbroj udaljanosti od do krivulje minimalna. Standardna teorija zapravo traži da je zbroj kvadrata udaljenosti minimalan.
Ako je krivulja pravac onda je jednadžba tog pravca
To je pravac “linearne regresije”. Taj pravac prolazi kroz točku čije su koordinate par srednjih vrijednosti . Općenito o jednadžbi pravca u ravnini vidi pravac u ravnini.
Nagib (= naklon = “koeficijent smjera”, engl. slope) pravca regresije je i zovemo ga i koeficijent regresije. Njegove mjerne jedinice su, prema toj formuli, očito, jedinice od podijeljene s jedinicama od , što se slaže i s time što treba definirati naklon pravca u ravnini -.
S druge strane, omjer
je koeficijent korelacije koji je kod nezavisnih veličina i kad su veličine proporcionalne, a po apsolutnoj vrijednosti nikad nije veći od .
Riješeni primjer s izračunom kovarijance, korelacije i linearnom regresijom je na str. 11-17 slideova statpres2.pdf
Last revised on May 2, 2023 at 17:01:14. See the history of this page for a list of all contributions to it.