Wpis z mikrobloga

@WpiszSwojLogin: no właśnie nie bardzo, bo to nie pliki tekstowe tylko tylko pliki projektów, a pliki te same się różnią "binarnie", wystarczy zapisać ten sam plik dwa razy i już binarnie się różni. @GeDox juz zrobiłem takie podejście, ale to idzie zwariować przeglądając tyle plików.
  • Odpowiedz
@bedestawiacszope: jest coś takiego jak Levenshtein distance - miara podobieństwa tekstów. Jeżeli jest zero, to są identyczne, a każde dodanie, usunięcie, przestawienie litery zwiększa ten dystans.
Znajdź implementację tego w języku który znasz, oblicz dystans każdy z każdym i tam gdzie uznasz że jest wystarczająco mały - uznaj za identyczne.
  • Odpowiedz