Wpis z mikrobloga

#it #programowanie #programista15k #sztucznainteligencja #si #chatgpt

Jeszcze jedna rzecz na dziś dla zainteresowanych. Nieco mniej pozytywna (dla niektórych, bo dla innych bardzo pozytywna).

Otóż badacze Stanford dokonali pierwszego w historii benchmarku wykorzystania RAG w modelach prawniczych (legal research), typu Lexis Nexis, WestLaw czy Ask Practical Law.

Okazało się, że nawet dodanie bardzo zaawansowanego ragu do tych modeli, doprowadziło do poziomu prawidłowych odpowiedzi na poziomie jedynie 65%.

Źródła z artykułu pokazują, że te systemy są coraz częściej używane w realnej pracy prawniczej, bo pracownicy wierzą, że podpięcie pod ich prywatne dokumenty czyni cuda. Tak jednak nie jest w tym przypadku.

Drugi wniosek jest taki, że w przypadku modeli ogólnych, takich jak GPT4 zaawansowany rag radzi sobie znacznie lepiej.

Konkluzja: trzeba sprawdzić jak wyglądają statystyki dla modeli z innej dziedziny, i czy jest to rzeczywiście trend, czy tylko cecha modeli prawniczych. Jeśli trend, pojawi się nie lada problem w wielu dziedzinach. Praktycznie każda branża chcąca obecnie wprowadzać llmy, chce integrować je ze swoimi danymi.Np. firmowym repo czy dokumentacją projektową. Jeśli okaże się, że to jednak wcale tak dobrze nie działa, to będzie klapa, bo albo płacimy za wielkie modele albo programiści znowu potrzebni ( ͡° ͜ʖ ͡°)

Link: https://dho.stanford.edu/wp-content/uploads/Legal_RAG_Hallucinations.pdf

Miłej niedzieli Mirki
  • 6
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@JamesJoyce: chat gpt sobie nie radzi z prostą konfigracją NATa na routerze albo czymś za paywallem jednak możliwym do dedukcji z danych, ale na pewno 90% programistów w piach, tak jak piszą na portalach technologicznych ( ͡ ͜ʖ ͡)
  • Odpowiedz
@tellet to prawda. Wszystkie firmy technologiczne i naukowcy wzięli sobie za pkt honoru najważniejszą wadę llmow - halucynacje. Wydawało się, że takie metody jak różne rodzaje promptowania, finetuning na lorze, agenci czy rag to rozwiąże. I teoretycznie rozwiązuje, ale w bardzo prostych przypadkach.

Na wykopie już snuto od dawna teorie, że sam duży context window sprawi, że podłączymy się do całych wielkich repo i będziemy mieli rozwiązanie, które zwolni 80% pracowników.
  • Odpowiedz
@JamesJoyce: ja widzę to po pracy- owszem czat się sprawdza jako małpa z młotkiem- jak uda mu się w pierwszych 3 podejściach wysmarować bazowy kod, to ok. Jak widać, że już na początku pisze głupoty, to "po chłopie" xD
Ostatecznie zamieniamy czas spalony na pisanie kodu, na czas spalony na pisanie promptów i walkę z małpą.
  • Odpowiedz
@tellet tylko tutaj idea jest taka, że dodajesz swoje repo do bazy wektorowej, która tak jakby dostraja basicowy model.

Ale nawet mimo tego halucynuje. Tylko nie np. nt tego jak wygląda struktura kodu ogólnie, np tworząc metody, których nie ma, ale halucynuje też nt. tego repo, które dodałeś xdd. Nie ogarnia np zależności między funkcjonalnościami, myli requirementsy z różnych repo itd. Więc tak, dalej będziesz walczył z małpką.
  • Odpowiedz
Okazało się, że nawet dodanie bardzo zaawansowanego ragu do tych modeli, doprowadziło do poziomu prawidłowych odpowiedzi na poziomie jedynie 65%.


@JamesJoyce: to pokazuje jak prawo jest idiotycznie napisane.
  • Odpowiedz