#excel #programowanie Hej, mam problem z wyłapaniem "duplikatów" wśród... (@bedestawiacszope)

@WpiszSwojLogin: no właśnie nie bardzo, bo to nie pliki tekstowe tylko tylko pliki projektów, a pliki te same się różnią "binarnie", wystarczy zapisać ten sam plik dwa razy i już binarnie się różni. @GeDox juz zrobiłem takie podejście, ale to idzie zwariować przeglądając tyle plików.

GeDox

17.10.2023, 23:36:17 via Wykop

0

@bedestawiacszope: ale to wklej co napisałem np do chatgpt, żeby w Pythonie to wypluł.

bedestawiacszope

17.10.2023, 23:39:54 via Wykop

0

@GeDox: OK, dziękuję spróbuję tego podejścia. Pozdrawiam

DocEmmettBrown

18.10.2023, 00:10:55 via Wykop

0

@bedestawiacszope: sam nie używałem ale polecam zobaczyc, w 'wydaniach' po prawej mozna pobrac exe dla windowsa: https://github.com/qarmin/czkawka

heniek_8

18.10.2023, 05:54:14 via Wykop

4

@bedestawiacszope: jest coś takiego jak Levenshtein distance - miara podobieństwa tekstów. Jeżeli jest zero, to są identyczne, a każde dodanie, usunięcie, przestawienie litery zwiększa ten dystans.
Znajdź implementację tego w języku który znasz, oblicz dystans każdy z każdym i tam gdzie uznasz że jest wystarczająco mały - uznaj za identyczne.

bedestawiacszope

18.10.2023, 09:00:31 via Wykop

1

@heniek_8: strzał w dziesiątkę, dzięki Mireczku za pomoc :)

bedestawiacszope

18.10.2023, 20:08:20 via Wykop

1

@heniek_8: Kurde Mireczku, jak ja Ci jestem wdzięczny za tego tipa. Usprawniło mi to całą robotę. Twoja pomoc była przeogromna. pozdrawiam

heniek_8

19.10.2023, 05:46:22 via Wykop

0

@bedestawiacszope: a z jakiej biblioteki w jakim języku korzystałeś?

bedestawiacszope

19.10.2023, 06:51:39 via Wykop

1

@heniek_8: Python/itertools. Nie jestem programistą, wiec nie wiem, czy byłaby jakaś bardziej odpowiednia do tego.
edit: chociaż widzę, że nawet jest dedykowany do tego: https://pypi.org/project/python-Levenshtein/