Wpis z mikrobloga

@Wujek_Mietek: Niestety jest standardem nie tylko w naukach społecznych, co nie oznacza, że jest postępowaniem prawidłowym. Obrazowanie nietrywialnej (nieliniowej) zależności przy pomocy prostej regresji jest błędem, a stosowanie r czy R^2 jako miary "siły" tej regresji kontynuacją tego błędu. Skoro taka "regresja" przekłamuje rzecywistość, tak samo będzie w przypadku R^2. Najłatwiej to sobie uzmysłowić próbując sobie ręcznie obliczyć ten współczynnik (R^2) dla naszych danych - wykonane działania nie mają żadnego logicznego
@grajlord: czemu nie r2? warto policzyć i sprawdzić co wyjdzie, czy w ogóle hipoteza zerowa zostanie odrzucona, potem jaki wynik, a potem testować kolejne hipotezy i jako najlepiej wyjaśniającą wybrać tę, która daje najlepsze wyniki
@ly000: ten Twój wykres jednak z deka inny niż opa, ja bym widział tam linię odcięcią koło 45%, ale to też trzeba mieć teoretyczny pomysł dlaczego np. powyżej pewnego poziomu zaufania zarobki są bez znaczenia, ale dlaczego?

also no 'niemalże liniowa' to przegięcie, ale wykres na pewno nie jest losowy, to lepiej podać kontrhipotezy a nie paplać 'nie ma liniowego i tyle'
@takie_chwile_jak_te: bo licząc R^2 dla prostej regresji zakładasz inną hipotezę - że twoja regresja jest dobrym modelem do opisania rzeczywistości (że spełnione są założenia tego modelu, np. normalność, homoskedastyczność błędów). To, że nie jest takim modelem, widać z całkiem dużą pewnością po samych danych. Jeżeli dane nie pasują do założeń modelu, to wszystkie jego parametry, współczynniki, miary są niestety nieprawidłowe. Jak bardzo nieprawidłowe - to zależy od tego, jak model odbiega
ten Twój wykres jednak z deka inny niż opa, ja bym widział tam linię odcięcią koło 45%, ale to też trzeba mieć teoretyczny pomysł dlaczego np. powyżej pewnego poziomu zaufania zarobki są bez znaczenia, ale dlaczego?

@takie_chwile_jak_te: to nie była odpowiedź do postu opa. Chciałem jedynie pokazać dla Wujek_Mietek, że duża wartość współczynnika R^2 nie jest warunkiem wystarczającym korelacji liniowej. W przypadku wykresu opa, liczenie R^2 nie ma sensu, bo korelacji
@grajlord: a no racja, normalne rozkłady to tu chyba nie będą, raczej prawoskośne, to co byś proponował?

Równie dobrze mogę wykonać 100 innych nikomu-niepotrzebnych wyliczeń i może akurat coś z tego wyjdzie.


@ly000: przypomniała mi się moja magisterka ( ͡° ͜ʖ ͡°)
@gnus: Nie wiem po co dyskutuje o semantyce statystyki o tej godzinie, ale dla zabawy podeprę się dalej tym co mogę znaleźć w internecie.
Zacznijmy od PWN, który nie używa w żadnym miejscu słowa "liniowość" w żadnej odmianie przy definicji korelacji.
https://sjp.pwn.pl/sjp/korelacja;2474043.html - zważ na użycie w definicji słowa "współzależność".
Pójdźmy przez wikisłownik który wskaże trop tego całego zamieszania
https://pl.wiktionary.org/wiki/korelacja - ta definicja również nie wskazuje że korelacja to stricte korelacja
Niestety jest standardem nie tylko w naukach społecznych, co nie oznacza, że jest postępowaniem prawidłowym.


@grajlord: To prawda. Ale każdy obrońca socjalizmu posługuje się takimi wykresami, gdzie jest nagromadzenie punktów blisko początku wykresu a dalej to już loteria. Nawet naszego wykopowego Einsteina chyba widziałem z takimi wykresami.
normalne rozkłady to tu chyba nie będą, raczej prawoskośne, to co byś proponował?


@takie_chwile_jak_te: przy regresji z problemem nienormalności rozkładu zmiennej najczęściej wiąże się potrzeba transformacji, ja z reguły robię box-cox (lub pokrewną), ale zwykle wystarczy np. zlogarytmować. To jednak nie rozwiązuje problemu confoundingu albo jakichś nieliniowości wyższego stopnia i wtedy można próbować dorzucać inne zmienne do modelu, wprowadzać stratyfikację, albo po prostu stosować modele nieliniowe. Nie ma na to niestety