Aktywne Wpisy
L3stko +10
Kojarzycie sprawę tweeta z groźbą ataku na Sejm? Nie mam zamiaru nikogo bronic bo sam również krytykowałem gościa, ale robi się ciekawie. Osoba o której była mowa w tamtym znalezisku zgłosiła na policji przejęcie swojego konta twitterowego. Jeśli faktycznie to nie on pisał, kolejny raz okaże się, że wykopki to wieśniaki z widłami i pochodniami.
Jak już wspomniałem, ja sam go krytykowałem ale jednocześnie zakopałem znalezisko, za co oczywiście byłem bluzgany. Głównym
Jak już wspomniałem, ja sam go krytykowałem ale jednocześnie zakopałem znalezisko, za co oczywiście byłem bluzgany. Głównym
Wanzey +419
Pan Żywiec Zdrój, człowiek który wymyślił wodę.
Szanujesz - plusujesz.
Szanujesz - plusujesz.
#programowanie
Hej, mam problem z wyłapaniem "duplikatów" wśród plików. Niestety tych plików mam kilkanaście tysięcy do przejrzenia. Duplikaty same w sobie nie dotyczą całości nazwy pliku tylko błędów, które ktoś wprowadził typu:
00DOWBporte de garage - sectionalgen
01DOWBporte de garage - sectionalegen
Ja wiem, że to są identyczne pliki, ale różniące się "00" i "01" oraz "sectional" i "sectionale". To samo dotyczy poniższych.
20DOWBporte intérieure double - coulissantgen
03DOWBporte intérieure double - coulissantegen
00TAG-MCUNelevation origin - schedule levelgen
00TAG-MCUNélévation origin - schedule levelgen (tutaj różnica między "e" i "é",
56GAWPBcontact fenêtregen
56GAWPBcontacte fenêtregen
ktoś po prostu namieszał w nazwach i wrzucił do jednego wora wszystkie pliki i teraz mam problem z wyłapaniem podobnie brzmiących nazw, żeby je usunąć. Nie mam pomysłu, jak to ugryźć. mam nadzieję, że nie pozostaje mi scrollowanie arkusza z nazwami, żeby wyłapywać takie kwiatki.
Dzięki z góry. Pozdrawiam
Znajdź implementację tego w języku który znasz, oblicz dystans każdy z każdym i tam gdzie uznasz że jest wystarczająco mały - uznaj za identyczne.
edit: chociaż widzę, że nawet jest dedykowany do tego: https://pypi.org/project/python-Levenshtein/