Aż sobie z ciekawości przeszukałem po słowach kluczowych związanych z konfederacja bo te snowflaki najczęściej płaczą jak to są banowani i jak to moderacja jest przeciwko nim. Co tu jest niby łamiącego regulamin? Rozumiem wyzwiska czy przekleństwa, ale to? xD
Kilka przykładów:
BAN-PL.csv:6408,633,"Kolejny raz znalezisko krytykujące pis i kolejny raz k0nfiarz {USERNAME} już od 6 rano stoi na straży by zakopywać xD
BAN-PL.csv:5281,8401,{USERNAME}: Gorzej - obecne młode pokolenie jest nienormalne i zafunduje nam nazizm - vide wysokie poparcie k0nfederacji w tej grupie wiekowej.,0,1
@Kryspin013: Masz jak byk tam napisane, że nie tylko zbanowane posty są w repo ale także neutralne. No ale oczekiwać czytania ze zrozumieniem od lewaka to jednak za dużo ¯\(ツ)/¯
To najlepszy tl;dr, jaki mogłem zrobić, oryginał zmniejszony o 67% (jestem botem)
BAN-PL: Najnowszy polski zbiór danych wyświetlający zawartości obraźliwe, szkodliwe i zakazane z serwisu internetowego Wykop.pl
W repozytorium znajduje się pierwszy publicznie dostępny zbiór danych wyświetlający zawartości obraźliwe i szkodliwe zakazane przez profesjonalnych moderatorów z wykop.pl (często nazywanego "polskim redditem"). Zbiór składa się z 24 tysięcy próbek anonimowych wpisów i komentarzy - 12 tysięcy dla klasy "szkodliwej" oraz 12 tysięcy dla klasy "neutralnej", która nie zawiera zawartości szkodliwych. Jest to pierwsza część całego zbioru, który składa się z około 700 tysięcy próbek, które zostaną przetworzone przed udostępnieniem. W przyszłości planowane jest wydawanie kolejnych partii danych.
Moderacja na wykop.pl opiera się na własnej polityce i kategoryzacji, np. zawartość podżegającą do nienawiści lub przemocy (tj. "Propagowanie nienawiści lub przemocy, drastyczna treść", "Nienawiść lub przemoc") oraz zawartość atakującą osobiste prawa (tj. "Atak na mnie lub naruszanie moich praw osobistych", "Atak na mnie", "Atak na innych"). Pierwszym krokiem w przetwarzaniu danych było połączenie tych kategorii w jedną "szkodliwą" klasę.
Ciekawy pomysł ale można by to rozwinąć do formy wtyczki FF/GC. Pobierać wszystko jak leci i po 48 godzinach zachowywać to co zostanie zbanowane. Następnie przez wtyczkę linkować w miejsce usuniętych komentarzy. Taki backup w locie XD
Autorzy zamieszczają listę ponad 6,5 tys. polskich wulgaryzmów! We wszelkich trybach i przypadkach. Cenny materiał dla automatów cenzurujących buraków. Choć ja bym dodał jeszcze jakiś stopień wulgarności do tego. Arbitralny, oczywiście, bo dla niektórych ku*wa to słowo codziennego, ba, cominutowego użytku.
Lista niepełna. Może uzupełnimy? Brakuje np. naku*wiać. W odpowiedzi proponuję dopisywać braki.
@LudzieToDebile: Ale jak sobie czasami człowiek przeklnie to nie koniec świata :) Poza tym patrząc na zawartość tych zipów to chodzi raczej o ideologię niezgodną z tą lewostronną.
@paw1470: Rozumiem, że nie masz emocji? Przekleństwa mogą służyć wyrażaniu (zazwyczaj skrajnych) emocji i we właściwych sytuacjach właśnie po to się ich używa, co często skutkuje rozładowaniem wewnętrznego napięcia. W tym kontekście nie można im zarzucić braku znaczenia. No i z powyższego wynika, że przekleństwo wcale nie musi być tylko przerywnikiem. Poza tym nudni trochę są ludzie, którzy nigdy rzucili przypadkową "k$rwą" i w sumie podejrzani.
Komentarze (114)
najlepsze
Kilka przykładów:
Wszystkie cytaty, które wrzuciłeś są w klasie 0, czyli zapewne non-harmful. Możliwe, że to treści które poleciały razem z całym kontem. ;)
Lista niepełna. Może uzupełnimy?
Brakuje np. naku*wiać. W odpowiedzi proponuję dopisywać braki.
A jeszcze co do