Wpis z mikrobloga

Skopiuj link

02.08.2016, 08:58:28

Mirki z #programowanie, tworzę aplikację, której celem jest pobieranie postów z fanpejdża i cos tam coś tam. Jednym z punktów, który muszę poruszyć to filtrowanie contentu tych postów pod względem wulgaryzmów i ewentualnie jakichś słów niepożądanych. Wiadomix, że klasycznie jeżeli post zawiera jakieś słowo z listy zakazanych to się je wyłapie natychmiast, ale co w przypadku pokemonów, które przedłużają te słowa powtarzając literę, albo zastępują jakieś litery znaczkami, czy celowo robią literówkę. Macie doświadczenie przy implementowaniu takich rozwiązań lub chociaż jakieś docsy o tym?

w.....j

konto usunięte 02.08.2016, 09:00:49

@e7450: jak chcesz wszystko takie wyłapywac to pisz do googla niech Ci pomoga ze sztuczną inteligencją, nie ma jeszcze algorytmu który to wszystko wyłapie

e7450

02.08.2016, 09:04:50

@wczoraj: jestem świadomy tego, ze 100. procentowej skutecznosci nie wyrobię, ale moze ktoś tworzył cos podobnego i jest w stanie podrzucić jakies pomysły poza sprawdzaniem istnienia danego słowa, bo to trochę banalne.

pavel_

02.08.2016, 09:22:03 via Android

@e7450 powtarzanie akurat proste :) eliminuj litery koło siebie i rób dopasowanie. Kolejno możesz podmieniać znaki, które są wstawiane zamiast wkasciwych, np a zamiast @. Inaczej nie bardzo wiem jak (poza tym co wspomniano wczesniej). Patrzyłem na Napiprojekt i tam jest txt z listą wulgaryzmów. Nie wiem tylko czy dopasowują 1:1 czy mają jakąś większą magię. Tak czy inaczej możesz ten pliczek zakosic ;)

Vetinari

02.08.2016, 09:23:47

@e7450: Sprawdzaj odległość leksykalną między słowami (https://pl.wikipedia.org/wiki/Odleg%C5%82o%C5%9B%C4%87_Hamminga). Jeżeli będzie bardzo mała różnica (albo np. słowo zawiera pełny ciąg wulgaryzmu w środku) to filtruj. Lepiej filtrować za dużo niż za mało.

Edit: A i porównuj formę znormalizowaną NFD.

Aktywne Wpisy

Korzystaliście kiedyś z usług doradcy inwestycyjnego?

Aktywne Znaleziska

Chiński Targ Małżeński

Czemu migranci są problemem i dlaczego doszło do zamieszek w UK

Kacapy płaczą że uciekali tylko w klapkach i krótkich spodenkach

Iga Świątek pokonała Rosjankę i awansowała do półfinału WTA w Cincinnati

Podeszła z nożem do strażników. Seniorka podawała się za dziecko

Popularne tagi