@JamesJoyce: Troche nie chce mi się całego czytać bo się na tym nie znam, ale to nie jest tak, że własnie od początku i od zawsze, powinniśmy dostarczać jak najwięcej kontekstu i danych, żeby uzyskać oczekiwaną odpowiedź xD?
@tommyrb: W skrócie, jeśli dasz mu wystarczająco dużo kontekstu i powiesz mu, co chcesz wyprowadzić, często znajdzie rozwiązanie za jednym zamachem.
1. O1 (w przeciwieństwie np do gpt4 czy Claude) weźmie proste i banalne pytania za dobrą monetę i nie będzie próbował wyciągnąć od Ciebie kontekstu. Zamiast tego musisz wepchnąć do o1 jak najwięcej kontekstu.
@JamesJoyce: ty jesteś na bieżąco, to może mi powiesz, czy w związku z tym, że karmimy modele coraz większa ilością danych, skąd mamy pewność, że będzie dawało "dobre" odpowiedzi, zamiast tych "złych", których caly czas przybywa? Tak jak teraz w internecie - 1/100 rzeczy warta uwagi a 99 to jakieś kopalnie seo czy jakieś inne zmyślone posty.
@tommyrb nie mamy. Albo wręcz mamy pewność że syntetyczne dane pogarszają llmy. Na ostatnim NeurIPS sam Ilya potwierdził że trenowanie nowych modeli na danych z Internetu jest skończone.
@JamesJoyce: klasyczne garbage in garbage out. Stąd ta cała moda na "prompt engineering", który obiecuje niesamowite rezultaty.
Aktualne modele, to nie są klasyczne modele w stylu czystej LLamy 3.0 (którą sobie można pobrać i uruchomić lokalnie), do której wrzucasz tekst i przewidujesz kolejny token, aż do <eot>. Aktualne modele typu o1, to są całe systemy, które składają się z modułów odpowiadających za uzyskiwanie dodatkowych informacji z jakichś API, aby odpowiedzieć
Ciekawy artykuł nt. o1. Sugeruje on, że o1 nie jest zwyczajnym chatem opartym na llmach, a "generatorem raportów". Warto rzucić okiem.
https://www.latent.space/p/o1-skill-issue
1. O1 (w przeciwieństwie np do gpt4 czy Claude) weźmie proste i banalne pytania za dobrą monetę i nie będzie próbował wyciągnąć od Ciebie kontekstu. Zamiast tego musisz wepchnąć do o1 jak najwięcej kontekstu.
Nawet jeśli zadajesz tylko proste pytanie
Aktualne modele, to nie są klasyczne modele w stylu czystej LLamy 3.0 (którą sobie można pobrać i uruchomić lokalnie), do której wrzucasz tekst i przewidujesz kolejny token, aż do <eot>. Aktualne modele typu o1, to są całe systemy, które składają się z modułów odpowiadających za uzyskiwanie dodatkowych informacji z jakichś API, aby odpowiedzieć