Wpis z mikrobloga

#programowanie #programista15k
Mirki, mam mały problem.
Posiadam bazę ponad 4 mln pozycji zawierających opis części samochodowych. Bez kategorii - no może poza nr Index który pewnie w katalogu producenta oznacza dany produkt,
Mam jednak kolumnę 'Opis', w której jest opis produktu wprowadzany zapewne przez pracowników w którym oprócz nazwy części mam też podane - w różny sposób - markę a czasem markę i model samochodu do którego cześć pasuje. Dodam że w opisie panuje pełna dowolność, nie ma reguły jak co jest wpisane.
Ja potrzebuję jednak choćby jakąkolwiek kategorię - a najlepiej konkretny podział na kategorie - które pozwolą mi na dalszą obróbkę danych.
Macie jakiś pomysł jak podejść do sprawy, z czego skorzystać itp

Dziękuję za wszelką pomoc!
  • 7
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@masaj: poszukaj powtarzające się słowa? Posortuj wg występowania. To już będzie jakaś wskazówka. Potem spróbuj utworzyć kategorie na podstawie słów kluczowych. Ale generalnie lipa ( ͡° ͜ʖ ͡°)
  • Odpowiedz
via Wykop Mobilny (Android)
  • 3
@masaj: pobrać wszystkie opisy , zrobić split na słowa, wywalić 1-2 literowe, wywalić liczby, resztę podliczać i posortować od najczęściej do najmniej, następnie przejrzeć i zdecydować które to kategorie i powtórzyć proces grupując
  • Odpowiedz
@masaj: jeżeli kategorią ma być marka i model to może warto też podejść od 2 strony i ogarnąć jakiś zbiór predefiniowany Marek i modeli i sprawdzać czy w opisie jest coś ze zbioru i na tej podstawie przydzielać albo inna opcja to poszukać tych katalogów, przeparsowac do wygodnego formatu i jakiegoś etla przygotowac żeby to pożenić że sobą
  • Odpowiedz
  • 1
@maciekkkkk: Właśnie o tym pomyślałem. Tam jest jeszcze jeden problem bo oprócz opisów „słowno-muzycznych” mam różnorakie cyferki i inne oznaczenia - ale myśle ze tym zjem się w kolejnym etapie.
W pierwszym kategorie i marki - jak już wspomniałeś.
Dzięki!
  • Odpowiedz
@masaj:

Wydaje mi się że NER by to fajnie ogarnął, zrób najpierw data cleansing tak jak @zibizz1 zasugerował.
Następnie bierzesz próbkę z danych (najlepiej jakaś dobra metoda samplująca). Oznaczasz co chcesz wyciągać (labelled dataset) i trenujesz model.

NER-em możesz sam określić co jest kategorią np. rozmiar,
  • Odpowiedz