Aktywne Wpisy

CheekiBreekiBandito +387
źródło: temp_file3828091634160998515
Pobierz
AidsFiesta +410
Jestem na robocie właśnie u klientów, i jest taka fajna 18 letnia niunia, trochę ją tam podrywałem, ale chyba nie jest zainteresowana. Właśnie sobie walę kloca u nich na kiblu a w łazience mają cały kaloryfer suszących się majeteczek i staniczków. Kusi jak diabli ale trzymam się już 3 tyg bez keksu i 2 tyg no fap więc szkoda passy. No i nie chciałbym sam przed sobą robić creepa z siebie. Niuchnę





Im głębiej testuję i czytam nt. gpt4o, tym mocniej mi to śmierdzi. Przesłanki, jakie prowadzą do moich wątpliwości:
1. Zgodnie z tym artykułem https://pub.towardsai.net/why-openais-o1-model-is-a-scam-eb3356c3d70e i przykładami w nim zawartymi OpenAI blokuje użytkowników za pytania o mechanizm Chain of Thought i wręcz daje im bany za takie pytania (wtf?!). Wniosek oczywisty. OpenAI nie chce, żebyśmy znali techniczne detale. Czemu? Autor odpowiada: "Odpowiedź jest prosta i entuzjaści LLM o tym wiedzą - ta technika jest stosowana od lat. Nie było to "nowe podejście" wprowadzone przez zespół OpenAI; To była po prostu strategia marketingowa kopiuj-wklej".
Dobrze wiecie, że można to odtworzyć bardzo szybko.
2. Używając "czystego" GPT4 musimy samodzielnie użyć COT. W 4o dzieje się to automatycznie, bo model był pod to dotrenowany. Trudno zatem się dziwić lepszej wydajności.
3. W paperze nt. GPT4 na stronie 18, możemy przeczytać, że " However, it often spent a significant amount of time doing trial-and-error debugging of simple mistakes (e.g., hallucinations, misuses of APIs) for each step. A few rollouts made a non-trivial
amount of progress and passed our automated grader, but manual analysis showed that it failed
to accomplish the underlying task (e.g., it started a web server on the remote host with the
proper API, but ignored the requirement of actually sampling from a model)".
W skrócie: 4o tworzy większe halucynacje niż podstawowy model. Ponad to, Open AI zaleca, żeby nie używać COT w 4o.
https://blog.cubed.run/openais-o1-model-is-a-disaster-a597e2050505
Jest ciekawy paper, który wskazuje, że finetunowanie llmów prowadzi do powiększenia halucynacji:
https://arxiv.org/pdf/2405.05904
4. Przypomina mi to case Reflection 70b od Matta Shumera. W skrócie: Shumer ogłosił na tt, że oto sam dotrenował model, który bije wszystkie sota w benchmarkach. Jednak po udostępnieniu modelu nikt nie był w stanie powtórzyć jego wyników. Jak się okazało po pewnym czasie, nie był to żaden model, tylko wrapper Llamy z wbudowanym COT. Shumer był na tyle bezczelny, że usunął nawet z modelu wszystkie odniesienia do LLamy i jej podobnych xdd. WNIOSEK: każdy wrapper z finetuningiem COT pobije model bazowy. To nic nadzwyczajnego.
https://www.tomsguide.com/ai/the-reflection-70b-model-held-huge-promise-for-ai-but-now-its-creators-are-accused-of-fraud-heres-what-went-wrong
5. 4o może być czymś podobnym, tylko z dużo lepiej i głębiej zaimplementowanym COT i tyle. Nie jest to oszustwo, jak w przypadku Shumera. Ale nie jest to też żaden przełom, tylko akcja marketingowa, celem zdobycia finansowania, wyciśnięcia pieniędzy od użytkowników, postawienia się konkurencji, a być może i przykrycia faktu, że trenowanie GPT5 nie idzie wcale tak dobrze, lub wyniki jakie osiąga nie są tak zdumiewające.
6. Koniec. Mogę się mylić. To tylko wieczorne przemyślenia.
4o czy o1? 4o chyba nie ma COT, czy coś się zmieniło odkąd ostatnio używałem.
Z moich ciekawostek, o1 dzisiaj nagle odmówił odpowiedzi przy debuggowaniu jednego z package managerów w pythonie tłumacząc się tym, że rzekomo mój prompt zmusza go do naruszenia zasad społeczności w odpowiedzi XD
Zagrywka jest ewidentnie pod fundusze, potrzebują pilnie pieniędzy więc muszą czymś zachęcić inwestorów.
Ciekawe jak finansowo im się to opłaca, bo przy
Ogólnie, podejście OpenAI śmierdzi: sami niczego już nie publikują, obficie korzystając z cudzych odkryć, np. CoT. Banowanie za próby wyłuskania prompta CoT w modelu o1, o czym głośno od tygodnia, jest wisienką na torcie.
Działanie samego modelu jest dla mnie dość intuicyjne. Tak jak napisałeś, to jest automatyzacja procesu, który użytkownicy robili
@pa6lo: To właściwie już teraz się dzieje. Problem jest tylko taki, że musisz dokonać klasyfikacji zapytania użytkownika, co dość znacznie komplikuje cały system. Przyszłość to raczej modele z pamięcią inną niż wagi, gdzie będziesz mógł podmienić w kontekście Kapitał Marksa na Badania nad naturą i
@JamesJoyce Uważam że tak jak na ChatGPT 3.5 był największy hype to każda kolejna generacja AI jest coraz lepsza.
Jeżeli o1 to nic innego