Wpis z mikrobloga

Skopiuj link

13.01.2025, 11:24:54

#it #programowanie #programista15k #sztucznainteligencja #openai

Ciekawy artykuł nt. o1. Sugeruje on, że o1 nie jest zwyczajnym chatem opartym na llmach, a "generatorem raportów". Warto rzucić okiem.

https://www.latent.space/p/o1-skill-issue

tommyrb

13.01.2025, 11:31:38 via Wykop

@JamesJoyce: Troche nie chce mi się całego czytać bo się na tym nie znam, ale to nie jest tak, że własnie od początku i od zawsze, powinniśmy dostarczać jak najwięcej kontekstu i danych, żeby uzyskać oczekiwaną odpowiedź xD?

JamesJoyce

13.01.2025, 11:43:36 via Wykop

@tommyrb: W skrócie, jeśli dasz mu wystarczająco dużo kontekstu i powiesz mu, co chcesz wyprowadzić, często znajdzie rozwiązanie za jednym zamachem.

1. O1 (w przeciwieństwie np do gpt4 czy Claude) weźmie proste i banalne pytania za dobrą monetę i nie będzie próbował wyciągnąć od Ciebie kontekstu. Zamiast tego musisz wepchnąć do o1 jak najwięcej kontekstu.

Nawet jeśli zadajesz tylko proste pytanie

JamesJoyce

13.01.2025, 11:50:19 via iOS

@tommyrb teoretycznie tak, ale klasyczne modele raczej nie wypytują Cię o kontekst jeśli go nie podasz.

tommyrb

13.01.2025, 11:56:33 via Wykop

@JamesJoyce: ty jesteś na bieżąco, to może mi powiesz, czy w związku z tym, że karmimy modele coraz większa ilością danych, skąd mamy pewność, że będzie dawało "dobre" odpowiedzi, zamiast tych "złych", których caly czas przybywa? Tak jak teraz w internecie - 1/100 rzeczy warta uwagi a 99 to jakieś kopalnie seo czy jakieś inne zmyślone posty.

JamesJoyce

13.01.2025, 12:05:20 via iOS

@tommyrb nie mamy. Albo wręcz mamy pewność że syntetyczne dane pogarszają llmy. Na ostatnim NeurIPS sam Ilya potwierdził że trenowanie nowych modeli na danych z Internetu jest skończone.

tommyrb

13.01.2025, 12:06:25 via Wykop

@JamesJoyce: Czyli tak jak przeczuwałem, dzięki za odp.

Defined

13.01.2025, 13:09:41 via Wykop

@JamesJoyce: klasyczne garbage in garbage out. Stąd ta cała moda na "prompt engineering", który obiecuje niesamowite rezultaty.

Aktualne modele, to nie są klasyczne modele w stylu czystej LLamy 3.0 (którą sobie można pobrać i uruchomić lokalnie), do której wrzucasz tekst i przewidujesz kolejny token, aż do <eot>. Aktualne modele typu o1, to są całe systemy, które składają się z modułów odpowiadających za uzyskiwanie dodatkowych informacji z jakichś API, aby odpowiedzieć