Aktywne Wpisy

lubie-sernik +10
Co lubicie? Ale jedna rzecz.
Bo ja lubię np. sernik
Bo ja lubię np. sernik

lubie-sernik +42
Dawniej się pisało, że nocna to już nie nocna. Ale wtedy siedziało tu parę osób, dostawało się plusy i jakoś to szło do przodu.
Teraz dopiero nocna to nie nocna. Siedzi tu max 5 osób. Dramat.
Teraz dopiero nocna to nie nocna. Siedzi tu max 5 osób. Dramat.




Jeszcze jedna rzecz na dziś dla zainteresowanych. Nieco mniej pozytywna (dla niektórych, bo dla innych bardzo pozytywna).
Otóż badacze Stanford dokonali pierwszego w historii benchmarku wykorzystania RAG w modelach prawniczych (legal research), typu Lexis Nexis, WestLaw czy Ask Practical Law.
Okazało się, że nawet dodanie bardzo zaawansowanego ragu do tych modeli, doprowadziło do poziomu prawidłowych odpowiedzi na poziomie jedynie 65%.
Źródła z artykułu pokazują, że te systemy są coraz częściej używane w realnej pracy prawniczej, bo pracownicy wierzą, że podpięcie pod ich prywatne dokumenty czyni cuda. Tak jednak nie jest w tym przypadku.
Drugi wniosek jest taki, że w przypadku modeli ogólnych, takich jak GPT4 zaawansowany rag radzi sobie znacznie lepiej.
Konkluzja: trzeba sprawdzić jak wyglądają statystyki dla modeli z innej dziedziny, i czy jest to rzeczywiście trend, czy tylko cecha modeli prawniczych. Jeśli trend, pojawi się nie lada problem w wielu dziedzinach. Praktycznie każda branża chcąca obecnie wprowadzać llmy, chce integrować je ze swoimi danymi.Np. firmowym repo czy dokumentacją projektową. Jeśli okaże się, że to jednak wcale tak dobrze nie działa, to będzie klapa, bo albo płacimy za wielkie modele albo programiści znowu potrzebni ( ͡° ͜ʖ ͡°)
Link: https://dho.stanford.edu/wp-content/uploads/Legal_RAG_Hallucinations.pdf
Miłej niedzieli Mirki
Na wykopie już snuto od dawna teorie, że sam duży context window sprawi, że podłączymy się do całych wielkich repo i będziemy mieli rozwiązanie, które zwolni 80% pracowników.
Ostatecznie zamieniamy czas spalony na pisanie kodu, na czas spalony na pisanie promptów i walkę z małpą.
Ale nawet mimo tego halucynuje. Tylko nie np. nt tego jak wygląda struktura kodu ogólnie, np tworząc metody, których nie ma, ale halucynuje też nt. tego repo, które dodałeś xdd. Nie ogarnia np zależności między funkcjonalnościami, myli requirementsy z różnych repo itd. Więc tak, dalej będziesz walczył z małpką.
@JamesJoyce: to pokazuje jak prawo jest idiotycznie napisane.