Wpis z mikrobloga

#it #programowanie #programista15k #it #sztucznainteligencja #openai #chatgpt

Im głębiej testuję i czytam nt. gpt4o, tym mocniej mi to śmierdzi. Przesłanki, jakie prowadzą do moich wątpliwości:

1. Zgodnie z tym artykułem https://pub.towardsai.net/why-openais-o1-model-is-a-scam-eb3356c3d70e i przykładami w nim zawartymi OpenAI blokuje użytkowników za pytania o mechanizm Chain of Thought i wręcz daje im bany za takie pytania (wtf?!). Wniosek oczywisty. OpenAI nie chce, żebyśmy znali techniczne detale. Czemu? Autor odpowiada: "Odpowiedź jest prosta i entuzjaści LLM o tym wiedzą - ta technika jest stosowana od lat. Nie było to "nowe podejście" wprowadzone przez zespół OpenAI; To była po prostu strategia marketingowa kopiuj-wklej".
Dobrze wiecie, że można to odtworzyć bardzo szybko.

2. Używając "czystego" GPT4 musimy samodzielnie użyć COT. W 4o dzieje się to automatycznie, bo model był pod to dotrenowany. Trudno zatem się dziwić lepszej wydajności.

3. W paperze nt. GPT4 na stronie 18, możemy przeczytać, że " However, it often spent a significant amount of time doing trial-and-error debugging of simple mistakes (e.g., hallucinations, misuses of APIs) for each step. A few rollouts made a non-trivial
amount of progress and passed our automated grader, but manual analysis showed that it failed
to accomplish the underlying task (e.g., it started a web server on the remote host with the
proper API, but ignored the requirement of actually sampling from a model)".

W skrócie: 4o tworzy większe halucynacje niż podstawowy model. Ponad to, Open AI zaleca, żeby nie używać COT w 4o.

https://blog.cubed.run/openais-o1-model-is-a-disaster-a597e2050505

Jest ciekawy paper, który wskazuje, że finetunowanie llmów prowadzi do powiększenia halucynacji:

https://arxiv.org/pdf/2405.05904

4. Przypomina mi to case Reflection 70b od Matta Shumera. W skrócie: Shumer ogłosił na tt, że oto sam dotrenował model, który bije wszystkie sota w benchmarkach. Jednak po udostępnieniu modelu nikt nie był w stanie powtórzyć jego wyników. Jak się okazało po pewnym czasie, nie był to żaden model, tylko wrapper Llamy z wbudowanym COT. Shumer był na tyle bezczelny, że usunął nawet z modelu wszystkie odniesienia do LLamy i jej podobnych xdd. WNIOSEK: każdy wrapper z finetuningiem COT pobije model bazowy. To nic nadzwyczajnego.

https://www.tomsguide.com/ai/the-reflection-70b-model-held-huge-promise-for-ai-but-now-its-creators-are-accused-of-fraud-heres-what-went-wrong

5. 4o może być czymś podobnym, tylko z dużo lepiej i głębiej zaimplementowanym COT i tyle. Nie jest to oszustwo, jak w przypadku Shumera. Ale nie jest to też żaden przełom, tylko akcja marketingowa, celem zdobycia finansowania, wyciśnięcia pieniędzy od użytkowników, postawienia się konkurencji, a być może i przykrycia faktu, że trenowanie GPT5 nie idzie wcale tak dobrze, lub wyniki jakie osiąga nie są tak zdumiewające.

6. Koniec. Mogę się mylić. To tylko wieczorne przemyślenia.
  • 13
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@JamesJoyce: Od lat są znane Chain-Of-Thoughts i lepsze Tree-Of-Thoughts. No, ale zależnie od zastosowań, może się okazać że opłaca się zapłacić za ukryty COT, coby się nie bawić w jawny COT. A jeśli ktoś używa API, to rzeczywiście nie musi płacić za o1, bo może to samemu zrobić - kosztem czasu. Są IDE do robienie prompt engineeringu, a to pokazuje ile czasu trzeba na obmyślanie dobrych zapytań - o1 to
  • Odpowiedz
  • 1
@eU2MO: To prawda. Ale to znaczy ponownie, więcej hajpu niż technologii. Większe halucynacje nie są chyba związane z CHOT, tylko z faktem, że finetuning je zwiększa. A tutaj mógł być bardzo zaawansowany finetuning.
  • Odpowiedz
@JamesJoyce:
4o czy o1? 4o chyba nie ma COT, czy coś się zmieniło odkąd ostatnio używałem.
Z moich ciekawostek, o1 dzisiaj nagle odmówił odpowiedzi przy debuggowaniu jednego z package managerów w pythonie tłumacząc się tym, że rzekomo mój prompt zmusza go do naruszenia zasad społeczności w odpowiedzi XD
Zagrywka jest ewidentnie pod fundusze, potrzebują pilnie pieniędzy więc muszą czymś zachęcić inwestorów.
Ciekawe jak finansowo im się to opłaca, bo przy
  • Odpowiedz
@JamesJoyce Nie zgadzam się z twierdzeniem, że o1-preview to scam - autor bloga dramatyzuje, zbyt bardzo dbając o engagement.

Ogólnie, podejście OpenAI śmierdzi: sami niczego już nie publikują, obficie korzystając z cudzych odkryć, np. CoT. Banowanie za próby wyłuskania prompta CoT w modelu o1, o czym głośno od tygodnia, jest wisienką na torcie.

Działanie samego modelu jest dla mnie dość intuicyjne. Tak jak napisałeś, to jest automatyzacja procesu, który użytkownicy robili
  • Odpowiedz
Jest możliwe, że w przyszłości zapytanie w języku naturalnym będzie skutkować tysiącem wywołań do kilku mniejszych, wyspecjalizowanych modeli (generatorów i dyskryminatorów), zamiast jednego omnipotentnego LLMa.


@pa6lo: To właściwie już teraz się dzieje. Problem jest tylko taki, że musisz dokonać klasyfikacji zapytania użytkownika, co dość znacznie komplikuje cały system. Przyszłość to raczej modele z pamięcią inną niż wagi, gdzie będziesz mógł podmienić w kontekście Kapitał Marksa na Badania nad naturą i
  • Odpowiedz
@JamesJoyce: Z tego co na ten moment wiem o o1 to jest to wielkie osiągnięcie ale także nie jest to technologicznie jakiś skok na przód. Jest to spuścizna między innymi Ilji i jego "let's verify step by step" i przyuczenie większego modelu do uważnego podążania za spójnością dłuższych outputów. W tym momencie walczą tutaj o tygodnie oraz miesiące przewagi nad Antropiciem aby zatrzymać uciekających użytkowników. Jest to kwestia odgadnięcia jedynie
  • Odpowiedz
@WpisujcieMiasta: Otóż nie, w przypadku "raspberry", zwykły prompt "pomyśl chwilę" sprawia, że nawet stary GPT-4 odpowie, że 3 w 20-30% przypadków - to po prostu dziwne pytanie z punku widzenia ich pojmowania świata. Tak samo jak ja bym zapytał kogoś ile sekund wymawia się słowo "banan"? - Nie wiem z 0.9 sekundy strzelam. Gemini 1.5 odpowiada, że są 2 litery "r" ale 3 znaki "r" - może dla LLMów więcej
  • Odpowiedz
@Bejro: jest dużo prostych pytań na których AI się wywala np. czy większa jest liczba 9.9 czy 9.11. Lepiej z AI się jednak korzysta, gdy szuka się miejsc w których najlepiej on się sprawdzi, współpracuję się z nim, a nie na siłę szuka nierozwiązywalnych problemów.

@JamesJoyce Uważam że tak jak na ChatGPT 3.5 był największy hype to każda kolejna generacja AI jest coraz lepsza.

Jeżeli o1 to nic innego
  • Odpowiedz