Wpis z mikrobloga

Skopiuj link

22.09.2024, 19:26:05

#it #programowanie #programista15k #it #sztucznainteligencja #openai #chatgpt

Im głębiej testuję i czytam nt. gpt4o, tym mocniej mi to śmierdzi. Przesłanki, jakie prowadzą do moich wątpliwości:

1. Zgodnie z tym artykułem https://pub.towardsai.net/why-openais-o1-model-is-a-scam-eb3356c3d70e i przykładami w nim zawartymi OpenAI blokuje użytkowników za pytania o mechanizm Chain of Thought i wręcz daje im bany za takie pytania (wtf?!). Wniosek oczywisty. OpenAI nie chce, żebyśmy znali techniczne detale. Czemu? Autor odpowiada: "Odpowiedź jest prosta i entuzjaści LLM o tym wiedzą - ta technika jest stosowana od lat. Nie było to "nowe podejście" wprowadzone przez zespół OpenAI; To była po prostu strategia marketingowa kopiuj-wklej".
Dobrze wiecie, że można to odtworzyć bardzo szybko.

2. Używając "czystego" GPT4 musimy samodzielnie użyć COT. W 4o dzieje się to automatycznie, bo model był pod to dotrenowany. Trudno zatem się dziwić lepszej wydajności.

3. W paperze nt. GPT4 na stronie 18, możemy przeczytać, że " However, it often spent a significant amount of time doing trial-and-error debugging of simple mistakes (e.g., hallucinations, misuses of APIs) for each step. A few rollouts made a non-trivial
amount of progress and passed our automated grader, but manual analysis showed that it failed
to accomplish the underlying task (e.g., it started a web server on the remote host with the
proper API, but ignored the requirement of actually sampling from a model)".

W skrócie: 4o tworzy większe halucynacje niż podstawowy model. Ponad to, Open AI zaleca, żeby nie używać COT w 4o.

https://blog.cubed.run/openais-o1-model-is-a-disaster-a597e2050505

Jest ciekawy paper, który wskazuje, że finetunowanie llmów prowadzi do powiększenia halucynacji:

https://arxiv.org/pdf/2405.05904

4. Przypomina mi to case Reflection 70b od Matta Shumera. W skrócie: Shumer ogłosił na tt, że oto sam dotrenował model, który bije wszystkie sota w benchmarkach. Jednak po udostępnieniu modelu nikt nie był w stanie powtórzyć jego wyników. Jak się okazało po pewnym czasie, nie był to żaden model, tylko wrapper Llamy z wbudowanym COT. Shumer był na tyle bezczelny, że usunął nawet z modelu wszystkie odniesienia do LLamy i jej podobnych xdd. WNIOSEK: każdy wrapper z finetuningiem COT pobije model bazowy. To nic nadzwyczajnego.

https://www.tomsguide.com/ai/the-reflection-70b-model-held-huge-promise-for-ai-but-now-its-creators-are-accused-of-fraud-heres-what-went-wrong

5. 4o może być czymś podobnym, tylko z dużo lepiej i głębiej zaimplementowanym COT i tyle. Nie jest to oszustwo, jak w przypadku Shumera. Ale nie jest to też żaden przełom, tylko akcja marketingowa, celem zdobycia finansowania, wyciśnięcia pieniędzy od użytkowników, postawienia się konkurencji, a być może i przykrycia faktu, że trenowanie GPT5 nie idzie wcale tak dobrze, lub wyniki jakie osiąga nie są tak zdumiewające.

6. Koniec. Mogę się mylić. To tylko wieczorne przemyślenia.

ZgrywusPrzegrywus

22.09.2024, 19:32:06 via Wykop

@JamesJoyce: AI nadmuchaną bańką pod inwestorów? Stare, znałem

eU2MO

22.09.2024, 19:54:59 via Wykop

@JamesJoyce: Od lat są znane Chain-Of-Thoughts i lepsze Tree-Of-Thoughts. No, ale zależnie od zastosowań, może się okazać że opłaca się zapłacić za ukryty COT, coby się nie bawić w jawny COT. A jeśli ktoś używa API, to rzeczywiście nie musi płacić za o1, bo może to samemu zrobić - kosztem czasu. Są IDE do robienie prompt engineeringu, a to pokazuje ile czasu trzeba na obmyślanie dobrych zapytań - o1 to

JamesJoyce

22.09.2024, 20:01:55 via Wykop

@eU2MO: To prawda. Ale to znaczy ponownie, więcej hajpu niż technologii. Większe halucynacje nie są chyba związane z CHOT, tylko z faktem, że finetuning je zwiększa. A tutaj mógł być bardzo zaawansowany finetuning.

kolekcjoner_szekli

22.09.2024, 20:05:20 via Wykop

@JamesJoyce:
4o czy o1? 4o chyba nie ma COT, czy coś się zmieniło odkąd ostatnio używałem.
Z moich ciekawostek, o1 dzisiaj nagle odmówił odpowiedzi przy debuggowaniu jednego z package managerów w pythonie tłumacząc się tym, że rzekomo mój prompt zmusza go do naruszenia zasad społeczności w odpowiedzi XD
Zagrywka jest ewidentnie pod fundusze, potrzebują pilnie pieniędzy więc muszą czymś zachęcić inwestorów.
Ciekawe jak finansowo im się to opłaca, bo przy

JamesJoyce

22.09.2024, 20:15:16 via iOS

@kolekcjoner_szekli o1 oczywiście. Literówka. Dzieki

pa6lo

22.09.2024, 20:17:32 via Wykop

@JamesJoyce Nie zgadzam się z twierdzeniem, że o1-preview to scam - autor bloga dramatyzuje, zbyt bardzo dbając o engagement.

Ogólnie, podejście OpenAI śmierdzi: sami niczego już nie publikują, obficie korzystając z cudzych odkryć, np. CoT. Banowanie za próby wyłuskania prompta CoT w modelu o1, o czym głośno od tygodnia, jest wisienką na torcie.

Działanie samego modelu jest dla mnie dość intuicyjne. Tak jak napisałeś, to jest automatyzacja procesu, który użytkownicy robili

JamesJoyce

22.09.2024, 20:29:46 via iOS

@pa6lo tak, też nie zgadzam się że to scam. I zgadzam się, że z OpenAI wydaje się coraz słabsze. Brakuje Ilji.

Defined

22.09.2024, 20:51:22 via Wykop

Jest możliwe, że w przyszłości zapytanie w języku naturalnym będzie skutkować tysiącem wywołań do kilku mniejszych, wyspecjalizowanych modeli (generatorów i dyskryminatorów), zamiast jednego omnipotentnego LLMa.

@pa6lo: To właściwie już teraz się dzieje. Problem jest tylko taki, że musisz dokonać klasyfikacji zapytania użytkownika, co dość znacznie komplikuje cały system. Przyszłość to raczej modele z pamięcią inną niż wagi, gdzie będziesz mógł podmienić w kontekście Kapitał Marksa na Badania nad naturą i

WpisujcieMiasta

22.09.2024, 21:07:01 via Wykop

@JamesJoyce: ile jest liter R w słowie rower i AI wysiada

Bejro

22.09.2024, 21:15:24 via Wykop

@JamesJoyce: Z tego co na ten moment wiem o o1 to jest to wielkie osiągnięcie ale także nie jest to technologicznie jakiś skok na przód. Jest to spuścizna między innymi Ilji i jego "let's verify step by step" i przyuczenie większego modelu do uważnego podążania za spójnością dłuższych outputów. W tym momencie walczą tutaj o tygodnie oraz miesiące przewagi nad Antropiciem aby zatrzymać uciekających użytkowników. Jest to kwestia odgadnięcia jedynie

Bejro

22.09.2024, 21:19:23 via Wykop

@WpisujcieMiasta: Otóż nie, w przypadku "raspberry", zwykły prompt "pomyśl chwilę" sprawia, że nawet stary GPT-4 odpowie, że 3 w 20-30% przypadków - to po prostu dziwne pytanie z punku widzenia ich pojmowania świata. Tak samo jak ja bym zapytał kogoś ile sekund wymawia się słowo "banan"? - Nie wiem z 0.9 sekundy strzelam. Gemini 1.5 odpowiada, że są 2 litery "r" ale 3 znaki "r" - może dla LLMów więcej

wafel93

23.09.2024, 07:24:58 via Wykop

@JamesJoyce: PRZECIEZ AGI JEST TUŻ ZA ROGIEM, CZEGO SIE NIE BOISZ

hub_bub

25.09.2024, 19:38:30 via Wykop

@Bejro: jest dużo prostych pytań na których AI się wywala np. czy większa jest liczba 9.9 czy 9.11. Lepiej z AI się jednak korzysta, gdy szuka się miejsc w których najlepiej on się sprawdzi, współpracuję się z nim, a nie na siłę szuka nierozwiązywalnych problemów.

@JamesJoyce Uważam że tak jak na ChatGPT 3.5 był największy hype to każda kolejna generacja AI jest coraz lepsza.

Jeżeli o1 to nic innego

Aktywne Wpisy

marjanoos

marjanoos +159

4 godz. i 17 min temu

Nie ma już ratunku dla osób z mentalnością "z-----------a". I bynajmniej nie chodzi o ciężką pracę, a o szybką jazdę.

Przypadek wypadku na skrzyżowaniu Grochowskiej i Zamienieckiej w Warszawie. Kierująca fordem wymusza pierwszeństwo, wytrąca z drogi toyotę. Ta dachuje i wjeżdża w grupę przechodniów, "wymiatając z planszy" kilkuletnie dziecko.

Odpowiedzialność za wypadek niepodważalnie ponosi osoba wymuszająca pierwszeństwo. Niemniej pojawiają się głosy, że spory procent uczestników ruchu przekracza tam nagminnie dozwoloną prędkość. W końcu dwa

32cm

32cm +21

3 godz. i 42 min temu

Mirki
Czasem chcesz się pożalić, ale nie masz do kogo....
Żona chce kupić samochód. Padło na BMW X3, ja mówię lexusa (RX, UX, NX) ale nie bo brzydki lub stary, lub za duży przebieg, ok, gusta są różne...
Więc pada wybór kryteriów samochodu, rocznik powyżej 2017, automat, benzyna, przebieg poniżej 150k. Ustawiam wyszukiwanie, raz na jakiś czas coś się trafia, ale zawsze jakiś powód aby nie jechać, a to dziecko, a to samochód

Aktywne Wpisy

Aktywne Znaleziska

Deweloperskie pustynie na mapie Polski. Gdzie rynek pierwotny nie istnieje?

Chiny prowadzą rabunkowe rybołówstwo u wybrzeży Ameryki Południowej

Microsoft na World Economic Forum: Przekonamy ludzi do sztucznej inteligencji

Strzelił sobie w głowę i... wyzdrowiał. Najbardziej paradoksalny przypadek w ...

Mają panele, pompę ciepła i magazyn energii. Grzeją się przy kominku

Popularne tagi