John se testira na ebolu i pri tome nema nikakav poseban razlog za testiranje u odnosu na ostalu populaciju. Ukoliko je osoba stvarno pozitivna na ebolu (zaražena), test će to potvrditi s vjerojatnošću od 98%, a pogriješiti u 2% slučajeva. Ukoliko osoba nije pozitivna onda test griješi u 3% slučajeva, tj. u 3% imamo lažni pozitiv. U općoj populaciji gdje se John testira samo je 0.01% stvarno inficiranih.
Treba li John biti zabrinut ako je test pokazao pozitivan rezultat ?
Označimo događaje:
P(PO|Z) = 0.98
P(NE|Z) = 0.02
P(PO|NZ) = 0.03
P(NE|NZ) = 0.97
P(Z) = 0.0001
treba ako je P(Z|PO) velika ne treba ako je mala, tj. P(NZ|PO) je velika
P(Z|PO) = P(Z i PO)/P(PO)
= P(PO|Z)P(Z)/(P(PO|Z)P(Z)+P(PO|NZ)P(NZ))
= (0.98 x 0.0001)/(0.98 x 0.0001 + 0.03 x 0.97)
= 0.000098/(0.000098+0.029100)
= 0.000098/0.029198
= 0.003356 = 0.3 %
Poissonova razdioba, neki primjer
koliko puta se neki događaj desi u danom intervalu
lambda označava prosječno koliko je događaja u tom intervalu
r prosjek u jediničnom intervalu, t duljina intervala
U prosjeku na nebu iznad Johnove kuće u sat vremena prođu 3 aviona. Danas je baš brojio cijelo popodne i u 3 i pol sata je primijetio 8 aviona. Je li taj broj neobičan u smislu da se desi jako rijetko ? Točnije, koja je vjerojatnost da zaista u 3 i pol sata prođu točno 8 aviona ?
dakle, = oko 10 %
r = 3/sat
t = 3.5 sata
lambda
Testiranje hipoteza hi-kvadrat testom (pišemo i -test)
populacija, npr. milijun ljudi, ili svi auto koji se proizvedu u nekoj tvornici
uzorak dio populacije na kojem radimo neka mjerenja, ispitivanja
Gledamo neka statistička obilježja (statističke veličine) i želimo zaključivati o cijeloj populaciji na osnovu gledanja uzorka.
Postavljamo hipotezu i gledamo kolika je vjerojatnost da podaci nisu protivni toj hipotezi. Prva hipoteza koju želim potvrditi zove se nul hipoteza, no zapravo mi gledamo aha pokušaj dokazati da moja nul hipoteza ne valja (alternativna hipoteza) i ta vjerojatnost mora biti jako mala. (without reasonable doubt – jako mala vjerojatnost da nije – u statistici se zove p-vrijednost (p-value))
Statističar R. Fisher je uzimao 0.05, što se i dalje najčešće koristi, a uzimaju se i 0.01, 0.0033 i još neke vrijednosti kao standardne u nekim primjenama. Takvu graničnu vrijednost obično zovemo alfa (statistička značajnost/zamjetnost) i ona se zada unaprijed. Npr. kontrola kvalitete. Znači hoćemo da je p manji od unaprijed zadane norme (granične prihvatljive vrijednost alfa ).
Očekivanje = za uzorak je ocijenjen srednjom vrijednošću
gdje je .
Primjer. U nekoj školi dijele poklon pakete po razredima. Paketa nema dovoljno. Ravnateljica izvlači tko će dobiti paket tako da stavi imena učenika u neku kutiju i nasumce izvlači tko će dobiti poklon paket.
p za jednog učenika ispada 23/70
A B C 20 učenika 32 18 ukupno 70
fi 8 9 6 dobilo paket 23 paketa
ei 20x23/70 32x23/70 18x23/70
ei 6.57 10.51 5.91
hi-kvadrat
znači smatramo da je unutar slučajnosti, tj. da je značaj odstupanja jako mala (p < 0.05).
broj stupnjeva slobode = 3-1 = 2
Jesmo li sigurni sa statističkom zamjetnošću od 5% da ravnateljica nije gledala u kutiju i bila pristrana prema jednom od razreda ?
Nul hipoteza (nije kriv)
Alternativna hipoteza (sumnjamo!)
Last revised on January 22, 2021 at 03:45:24. See the history of this page for a list of all contributions to it.