Wpis z mikrobloga

Skopiuj link

06.10.2023, 12:52:47

#programista15k #datascience #artificialintelligence #sztucznainteligencja #python

Hej mirki,
szukam ciekawego papera dotyczącego trenowania wielolabelowych modeli z nierównomiernie rozłożonym datasetem.
Danych jest niewiele. Z moich badań wyszło, że najlepiej radzi sobie linear SVC na tfidf (accuracy 92), ale zastanawiam się, czy jest coś lepszego.

Przykładowo, kiedyś, przy niewielkiej liczbie klas pisałem 1vs all na wszystkich klasach i działało to fajnie. Wtedy jednak robiłem to na jakimś
transformerze, a teraz mam do dyspozycji jedynie bardzo podstawowe modele. LSTM to najbardziej zastosowana rzecz, jaką mogę użyć.

jelly2833

Bejro

06.10.2023, 16:12:28 via iOS

@JamesJoyce podaj przykłady próbek z datasetu. Jeśli danych jest mało to może metalearning uda się jakoś zastosować

JamesJoyce

JamesJoyce

06.10.2023, 16:25:40 via iOS

@Bejro gdybym tylko mógł ( ͡° ͜ʖ ͡°). Przede wszystkim jest to nlp. Po preprocessingu mam dataset treningowy z trzema kolumnami: freetext który trzeba z klasyfikować, około 1k znaków; jeden z 4 labeli i index labeli. Co do rozkładu labeli, jedna kategoria ma ok 35%, reszta równomiernie rozłożona. Ok 1200 rekordów.

Bejro

06.10.2023, 16:48:27 via iOS

@JamesJoyce Ok, ale to nie jest szczególnie niezbalansowany dataset. A czemu nie możesz użyć innych modeli? Brzmi to na problem na 10 minut i niczego nie trzeba uczyć. Wygeneruj BERT embeddings dla całego zbioru, generujesz to samo dla nowego inputu, knn i gotowe pora na CSa, czy ma to chodzić na Arduino?

Bob13

JamesJoyce

06.10.2023, 17:25:35 via iOS

@Bejro tak, to nie jest trudny problem, ale klientem jest firma która wszystko ma zamknięte. Nie ma mowy o żadnym llmie. Plus trenowanie na procesorze. W skrócie: migracja na azure jest w trakcie, póki nie nadejdzie, wszystko postawione na tym co da się zrobić z nadgorliwym security i na procku.

Bejro

06.10.2023, 18:00:21 via Wykop

@JamesJoyce: Przecież model typu BERT pójdzie na CPU na luzie - a trenowanie nie jest potrzebne tu wcale. BERT-Base ma 110M parametrów i pewnie będzie potrzebować kilka sekund na iterację ale jak rozumiem próbek do analizy nie ma dużo. Jest też tinyBERT o prawie takiej samej jakości ale ma tylko 14M parametrów - to nawet na malinie będzie płynnie chodzić. A KNN przy pomocy faiss na CPU śmiga w milisekundy przy

JamesJoyce

07.10.2023, 07:43:13 via Wykop

@Bejro: Zgadza się, ale jest jeszcze jeden problem. Musiałbym użyć berta czy t5 z biblioteki, która nie wymaga by był on pobrany w binarce. Próbowałem już z t5 i nie da się. Security blokuje binarki jako potencjalne malware. Nie można też używać biblioteki "transformers".

summer

07.10.2023, 09:36:59 via Wykop

@JamesJoyce: czas na zmianę pracy

Bejro

07.10.2023, 09:57:10 via Wykop

@JamesJoyce: No to z fartem. Ale przecież paczki jak torch czy transformers są budowalne ze źródła. Jeśli masz torcha, to bert to tylko max kila plików z kodem skopiowanych z transformers. A tak to weź może spacy, zrób wektoryzację (embedding) zdania po zdaniu, projekcję (gęsta, konwolucja, może z tzw. implicit kernel) i uczenie kontrastowe w jakiejś uproszczonej przestrzeni aby "porozsuwać" klastry.

JamesJoyce

10.10.2023, 13:21:13 via Wykop

@summer: to tylko projekt. Za jakiś czas uciekam. Kontraktornia bardzo dobrze płaci.

JamesJoyce

10.10.2023, 13:25:02 via Wykop

@Bejro: No syf. Co więcej mogę powiedzieć ( ͡° ͜ʖ ͡°). Ja tam jestem od paru msc, ale ich zespół AI klepie od 7 lat, w taki sposób. Bawiłem się ze spacy, ale wyniki raczej gorsze od svm.

Aktywne Wpisy

Joa024

Joa024 +77

5 godz. i 39 min temu

#pracbaza
#patologia

Myślałam, ze w dorosłym życiu sa normalni ludzie. Tymczasem pracuje z ludźmi co mowia do mnke per"jebnc ci" albo "masz ryj". Gdzie w okresie edukacji szkolnej nie uskyszalam takich określeń to w dorosłym zyciu byc gnebiona.
Do tego molestujacy kierownik, z tekstami "na ochłodę dobre sa lody i ile bym zrobila". Czy inny tejst "masz bobra" wstretny oblech. I jak tu sie zemścić. Baba po 50 co ookazuje "fucka". To