Aktywne Wpisy

Emerald84 +43

denazyfikacja +121
W systemie kaucyjnym największym nieporozumieniem jest to, że po oddaniu butelek dostaje się ten taki paragon z podsumowaniem odzyskanej kwoty, więc w skali całego kraju takich paragonów drukuje się całe sterty. Przecież to jest jest jakiś absurd kompletny, nie wiem dlaczego nikt nie porusza tego tematu bo to chyba najbardziej pokazuje nieudolność tego całego systemu xD Tyle lat się mówi że barwniki stosowane w paragonach są szkodliwe dla ludzkiego zdrowia i środowiska
źródło: image_picker_D8C362DB-2DBD-44BF-8D60-C8DEA6B37336-16151-0000027096A4FF38
Pobierz





Mirki, mam mały problem.
Posiadam bazę ponad 4 mln pozycji zawierających opis części samochodowych. Bez kategorii - no może poza nr Index który pewnie w katalogu producenta oznacza dany produkt,
Mam jednak kolumnę 'Opis', w której jest opis produktu wprowadzany zapewne przez pracowników w którym oprócz nazwy części mam też podane - w różny sposób - markę a czasem markę i model samochodu do którego cześć pasuje. Dodam że w opisie panuje pełna dowolność, nie ma reguły jak co jest wpisane.
Ja potrzebuję jednak choćby jakąkolwiek kategorię - a najlepiej konkretny podział na kategorie - które pozwolą mi na dalszą obróbkę danych.
Macie jakiś pomysł jak podejść do sprawy, z czego skorzystać itp
Dziękuję za wszelką pomoc!
@smileplease: dzięki
W pierwszym kategorie i marki - jak już wspomniałeś.
Dzięki!
Wydaje mi się że NER by to fajnie ogarnął, zrób najpierw data cleansing tak jak @zibizz1 zasugerował.
Następnie bierzesz próbkę z danych (najlepiej jakaś dobra metoda samplująca). Oznaczasz co chcesz wyciągać (labelled dataset) i trenujesz model.
NER-em możesz sam określić co jest kategorią np. rozmiar,