Wpis z mikrobloga

@grajlord: Patrzysz na to ze złej strony. Najpierw masz próbkę o liczebności n z populacji generalnej. Na podstawie tej próbki konstruujesz 95% przedział ufności dla średniej. Oznacza to, że masz 95% pewności, że (przy spełnionych założeniach o normalności rozkładu) rzeczywista średnia populacji zawiera się w tym przedziale.
@scyth: Wydaje mi się, że wiem o co chodzi z CI, bo to w sumie łatwe. W oryginale ten tekst brzmiał

It is incorrect to say that there is a probability of 95% that the true mean is within 75.94+-0.72. If we repeatedly obtained samples of size 14 from the population and constructed these limits for each, we could expect 95% of the intervals to contain the true mean".


Drugie zdanie
@scyth: Czyli na razie nie uczę się definicji prawdopodobieństwa i zakładam, że to taka gra słówek ;P

To jeszcze mógłbyś mi wytłumaczyć, dlaczego musimy wykonać test na normalność rozkładu próbki? Bo w ten sposób sobie wnioskujemy, czy populacja ma rozkład normalny, bo jeżeli nie, to wariancja małej próbki (n<100) jest złym estymatorem wariancji populacji, więc mamy spore szanse na otrzymanie niewłaściwego przedziału ufności?
@grajlord: Tak, konstruujesz przedział ufności opierając się na założeniu, że próbka pochodzi z danego rozkładu (tu - normalnego). Jak nie pochodzi to wiadomo, że twoja estymacja jest błędna.
@scyth: A t-testów używamy do określania CI dla małych próbek (zakładam rozkład normalny, n<<30), bo: w małych próbkach częściej otrzymamy średnią próbki bardziej oddaloną od prawdziwej średniej populacji --> a wtedy częściej wariancja próbki będzie się znacznie różniła (będzie mniejsza) od wariancji populacji?

Pytam o tę wariancję, bo już sam fakt, że mamy średnią próbki bardziej oddaloną od prawdziwej średniej populacji skutkuje gorszą estymacją. Rozumiem natomiast, że skoro i tak wtedy
@grajlord: OK, no to tak. Wiadomo, że im mniejsza próbka, tym gorsze oszacowanie. Weź pod uwagę, że warunek n<30 jest czysto arbitralny - po prostu tak się przyjęło (podobnie konstrukcja 95%CI - równie dobrze można liczyć inne). Dla dużych (znów nieprecyzyjne określenie) próbek rozkłady t i normalnie wiele się nie różnią.
@scyth: No, właśnie sobie wyobrażałem, że są już podobne i liczebność (n<30 dla normalnego, n<100 dla pozostałych) jest podyktowana jakąś praktyką i wygodą, po prostu chciałem sprecyzować pytanie w ten sposób ;)

A teraz hit wieczoru: jeżeli sobie wylosujemy jakąś próbę (o liczebności n) i oznaczymy 95% CI w obrębie którego mieści się średnia populacji, to czy możemy sobie te policzyć 95% CI w obrębie którego będzie mieściła się średnia innej
@grajlord: Chcesz na podstawie pierwszej próbki oszacować, jaka będzie średnia dla drugiej? Cóż, wielkiej filozofii tu nie ma - twoim najlepszym oszacowaniem jest, że średnia będzie taka sama. Jeśli masz dwie różne próbki możesz porównać ich średnie (a zatem czy pochodzą z tego samego rozkładu).
@scyth:

Jeśli masz dwie różne próbki


No właśnie nie mam, interesują mnie próbki, które mogę wylosować. Może to pytanie bardzo teoretyczne i nieprzydatne, ale jakoś tak mi utknęło ;)

Chcesz na podstawie pierwszej próbki oszacować, jaka będzie średnia dla drugiej?


Nie tyle dokładnej średniej próbki, co 95-procentowy przedział ufności, w obrębie którego średnia tej kolejnej, wybranej próbki się znajdzie. Bo z mojej zawiłej logiki wynika, że będzie on szerszy, niż 95-procentowy
@grajlord: Zauważ, że przedział ufności zależy od liczebności próbki - im mniejsza próbka, tym szerszy przedział ufności. Ale nie wiem czy jest sens w tym, co chcesz zrobić...
@scyth: No wiem, ale zakładam tę samą liczebność próbki. Raczej nie ma to żadnego zastosowania, tylko się zastanawiam czy ktoś to roztrząsał na jakichś wykładach.
@scyth: Teraz sytuacja z życia, tylko nie wiem czy możliwa w 100%.

Wpadam na genialny pomysł dokonania analizy statystycznej (populacja nieskończona) dla próby n=2 i testuję hipotezę, że średnia populacji jest większa od średniej jakiejśtam innej populacji. Nie znam wariancji populacji, nie znam rozkładu populacji - wszystko muszę estymować z próby. Użyłem więc jakiegoś nieparametrycznego testu (bo nie jestem w stanie przetestować normalności rozkładu, tak mi się wydaje), założyłem sobie alpha<0.05
@scyth: Ok, a dlaczego? Nawet jeżeli różnica średnich między dwiema populacjami które porównujemy jest gigantyczna?

Bo jestem świadom tego, że przy wnioskowaniu z takiej próbki dostajesz po prostu wielki przedział ufności, ale jeszcze większa, istniejąca różnica między populacjami wciąż go może "przeskoczyć".

Wiem, że nie ma sensu projektować badania klinicznego jeśli dysponujemy taką śmieszną próbą, ale z drugiej strony wydawało mi się, że p-value wykonanego testu jest tak samo "wiarygodne", niezależnie