Wpis z mikrobloga

Skopiuj link

05.02.2021, 20:47:21

#programowanie #programista15k
Mirki, mam mały problem.
Posiadam bazę ponad 4 mln pozycji zawierających opis części samochodowych. Bez kategorii - no może poza nr Index który pewnie w katalogu producenta oznacza dany produkt,
Mam jednak kolumnę 'Opis', w której jest opis produktu wprowadzany zapewne przez pracowników w którym oprócz nazwy części mam też podane - w różny sposób - markę a czasem markę i model samochodu do którego cześć pasuje. Dodam że w opisie panuje pełna dowolność, nie ma reguły jak co jest wpisane.
Ja potrzebuję jednak choćby jakąkolwiek kategorię - a najlepiej konkretny podział na kategorie - które pozwolą mi na dalszą obróbkę danych.
Macie jakiś pomysł jak podejść do sprawy, z czego skorzystać itp

Dziękuję za wszelką pomoc!

s.....e

konto usunięte 05.02.2021, 20:50:51

@masaj: poszukaj powtarzające się słowa? Posortuj wg występowania. To już będzie jakaś wskazówka. Potem spróbuj utworzyć kategorie na podstawie słów kluczowych. Ale generalnie lipa ( ͡° ͜ʖ ͡°)

zibizz1

05.02.2021, 20:52:33 via Wykop Mobilny (Android)

@masaj: pobrać wszystkie opisy , zrobić split na słowa, wywalić 1-2 literowe, wywalić liczby, resztę podliczać i posortować od najczęściej do najmniej, następnie przejrzeć i zdecydować które to kategorie i powtórzyć proces grupując

masaj

05.02.2021, 21:00:46

@zibizz1: o takim podejściu nie pomyślałem...dzięki!
@smileplease: dzięki

maciekkkkk

05.02.2021, 21:47:25

@masaj: jeżeli kategorią ma być marka i model to może warto też podejść od 2 strony i ogarnąć jakiś zbiór predefiniowany Marek i modeli i sprawdzać czy w opisie jest coś ze zbioru i na tej podstawie przydzielać albo inna opcja to poszukać tych katalogów, przeparsowac do wygodnego formatu i jakiegoś etla przygotowac żeby to pożenić że sobą

masaj

05.02.2021, 21:56:04 via iOS

@maciekkkkk: Właśnie o tym pomyślałem. Tam jest jeszcze jeden problem bo oprócz opisów „słowno-muzycznych” mam różnorakie cyferki i inne oznaczenia - ale myśle ze tym zjem się w kolejnym etapie.
W pierwszym kategorie i marki - jak już wspomniałeś.
Dzięki!

b.....q

konto usunięte 06.02.2021, 14:52:57

@masaj:

Wydaje mi się że NER by to fajnie ogarnął, zrób najpierw data cleansing tak jak @zibizz1 zasugerował.
Następnie bierzesz próbkę z danych (najlepiej jakaś dobra metoda samplująca). Oznaczasz co chcesz wyciągać (labelled dataset) i trenujesz model.

NER-em możesz sam określić co jest kategorią np. rozmiar,

masaj

06.02.2021, 15:20:10 via iOS

@bartosaq: Dzięki, sprobuje coś podziałać w tym kierunku!

Aktywne Wpisy

Emerald84

Emerald84 +43

4 godz. i 59 min temu

#ice #usa

Jest kolejne nowe nagranie pod innym kątem i minutę przed interwencją agentów ICE, ona cały czas blokowała drogę i trąbiła.

Emerald84 - #ice #usa

Jest kolejne nowe nagranie pod innym kątem i minutę przed inte...

denazyfikacja

denazyfikacja +121

2 godz. i 49 min temu

W systemie kaucyjnym największym nieporozumieniem jest to, że po oddaniu butelek dostaje się ten taki paragon z podsumowaniem odzyskanej kwoty, więc w skali całego kraju takich paragonów drukuje się całe sterty. Przecież to jest jest jakiś absurd kompletny, nie wiem dlaczego nikt nie porusza tego tematu bo to chyba najbardziej pokazuje nieudolność tego całego systemu xD Tyle lat się mówi że barwniki stosowane w paragonach są szkodliwe dla ludzkiego zdrowia i środowiska