Wpis z mikrobloga

@JamesJoyce: Troche nie chce mi się całego czytać bo się na tym nie znam, ale to nie jest tak, że własnie od początku i od zawsze, powinniśmy dostarczać jak najwięcej kontekstu i danych, żeby uzyskać oczekiwaną odpowiedź xD?
  • Odpowiedz
  • 1
@tommyrb: W skrócie, jeśli dasz mu wystarczająco dużo kontekstu i powiesz mu, co chcesz wyprowadzić, często znajdzie rozwiązanie za jednym zamachem.

1. O1 (w przeciwieństwie np do gpt4 czy Claude) weźmie proste i banalne pytania za dobrą monetę i nie będzie próbował wyciągnąć od Ciebie kontekstu. Zamiast tego musisz wepchnąć do o1 jak najwięcej kontekstu.

Nawet jeśli zadajesz tylko proste pytanie
  • Odpowiedz
@JamesJoyce: ty jesteś na bieżąco, to może mi powiesz, czy w związku z tym, że karmimy modele coraz większa ilością danych, skąd mamy pewność, że będzie dawało "dobre" odpowiedzi, zamiast tych "złych", których caly czas przybywa? Tak jak teraz w internecie - 1/100 rzeczy warta uwagi a 99 to jakieś kopalnie seo czy jakieś inne zmyślone posty.
  • Odpowiedz
@tommyrb nie mamy. Albo wręcz mamy pewność że syntetyczne dane pogarszają llmy. Na ostatnim NeurIPS sam Ilya potwierdził że trenowanie nowych modeli na danych z Internetu jest skończone.
  • Odpowiedz
@JamesJoyce: klasyczne garbage in garbage out. Stąd ta cała moda na "prompt engineering", który obiecuje niesamowite rezultaty.

Aktualne modele, to nie są klasyczne modele w stylu czystej LLamy 3.0 (którą sobie można pobrać i uruchomić lokalnie), do której wrzucasz tekst i przewidujesz kolejny token, aż do <eot>. Aktualne modele typu o1, to są całe systemy, które składają się z modułów odpowiadających za uzyskiwanie dodatkowych informacji z jakichś API, aby odpowiedzieć
  • Odpowiedz