Wpis z mikrobloga

Wykop udostępnił Naukowej i Akademickiej Sieci Komputerowej (NASK) zbiór komentarzy zawierających ofensywne i szkodliwe komentarze usunięte wykopu. W wielkim skrócie można sobie przejrzeć co "profesjonalni moderatorzy" wykopu usuwają.

The repository contains the first publicly available dataset of offensive and harmful content banned from a web service Wykop.pl (often called the "Polish Reddit") by professional moderators. Thanks to the Wykop owners, the banned posts and comments have been reclaimed and preprocessed for public usage. The current version of the dataset consists of 24 000 samples of anonymized content, with 12 000 pieces for the "harmful" and 12 000 for the "neutral" (non-harmful) class. It is the first part of the entire set of about 700 000 samples that have been acquired but still need to be processed before launching. In the near future, we will continue to release further batches.


link do repozytorium z danymi: https://github.com/ZILiAT-NASK/BAN-PL/
dane są zanimizowane. Niestety baza danych zawiera pojedyncze usunięte komentarze bez kontekstu, więc czasami ciężko stwierdzić dlaczego i czy w ogóle słusznie treść została oznaczona jako szkodliwa.

#dane #programowanie #wykop #zbiorydanych #wykopapi #dataset #datascience #ciekawostka
sokytsinolop - Wykop udostępnił Naukowej i Akademickiej Sieci Komputerowej (NASK) zbi...

źródło: PB2h3L1

Pobierz
  • 3