Aktywne Wpisy

marjanoos +159
Nie ma już ratunku dla osób z mentalnością "z-----------a". I bynajmniej nie chodzi o ciężką pracę, a o szybką jazdę.
Przypadek wypadku na skrzyżowaniu Grochowskiej i Zamienieckiej w Warszawie. Kierująca fordem wymusza pierwszeństwo, wytrąca z drogi toyotę. Ta dachuje i wjeżdża w grupę przechodniów, "wymiatając z planszy" kilkuletnie dziecko.
Odpowiedzialność za wypadek niepodważalnie ponosi osoba wymuszająca pierwszeństwo. Niemniej pojawiają się głosy, że spory procent uczestników ruchu przekracza tam nagminnie dozwoloną prędkość. W końcu dwa
Przypadek wypadku na skrzyżowaniu Grochowskiej i Zamienieckiej w Warszawie. Kierująca fordem wymusza pierwszeństwo, wytrąca z drogi toyotę. Ta dachuje i wjeżdża w grupę przechodniów, "wymiatając z planszy" kilkuletnie dziecko.
Odpowiedzialność za wypadek niepodważalnie ponosi osoba wymuszająca pierwszeństwo. Niemniej pojawiają się głosy, że spory procent uczestników ruchu przekracza tam nagminnie dozwoloną prędkość. W końcu dwa

32cm +21
Mirki
Czasem chcesz się pożalić, ale nie masz do kogo....
Żona chce kupić samochód. Padło na BMW X3, ja mówię lexusa (RX, UX, NX) ale nie bo brzydki lub stary, lub za duży przebieg, ok, gusta są różne...
Więc pada wybór kryteriów samochodu, rocznik powyżej 2017, automat, benzyna, przebieg poniżej 150k. Ustawiam wyszukiwanie, raz na jakiś czas coś się trafia, ale zawsze jakiś powód aby nie jechać, a to dziecko, a to samochód
Czasem chcesz się pożalić, ale nie masz do kogo....
Żona chce kupić samochód. Padło na BMW X3, ja mówię lexusa (RX, UX, NX) ale nie bo brzydki lub stary, lub za duży przebieg, ok, gusta są różne...
Więc pada wybór kryteriów samochodu, rocznik powyżej 2017, automat, benzyna, przebieg poniżej 150k. Ustawiam wyszukiwanie, raz na jakiś czas coś się trafia, ale zawsze jakiś powód aby nie jechać, a to dziecko, a to samochód





Im głębiej testuję i czytam nt. gpt4o, tym mocniej mi to śmierdzi. Przesłanki, jakie prowadzą do moich wątpliwości:
1. Zgodnie z tym artykułem https://pub.towardsai.net/why-openais-o1-model-is-a-scam-eb3356c3d70e i przykładami w nim zawartymi OpenAI blokuje użytkowników za pytania o mechanizm Chain of Thought i wręcz daje im bany za takie pytania (wtf?!). Wniosek oczywisty. OpenAI nie chce, żebyśmy znali techniczne detale. Czemu? Autor odpowiada: "Odpowiedź jest prosta i entuzjaści LLM o tym wiedzą - ta technika jest stosowana od lat. Nie było to "nowe podejście" wprowadzone przez zespół OpenAI; To była po prostu strategia marketingowa kopiuj-wklej".
Dobrze wiecie, że można to odtworzyć bardzo szybko.
2. Używając "czystego" GPT4 musimy samodzielnie użyć COT. W 4o dzieje się to automatycznie, bo model był pod to dotrenowany. Trudno zatem się dziwić lepszej wydajności.
3. W paperze nt. GPT4 na stronie 18, możemy przeczytać, że " However, it often spent a significant amount of time doing trial-and-error debugging of simple mistakes (e.g., hallucinations, misuses of APIs) for each step. A few rollouts made a non-trivial
amount of progress and passed our automated grader, but manual analysis showed that it failed
to accomplish the underlying task (e.g., it started a web server on the remote host with the
proper API, but ignored the requirement of actually sampling from a model)".
W skrócie: 4o tworzy większe halucynacje niż podstawowy model. Ponad to, Open AI zaleca, żeby nie używać COT w 4o.
https://blog.cubed.run/openais-o1-model-is-a-disaster-a597e2050505
Jest ciekawy paper, który wskazuje, że finetunowanie llmów prowadzi do powiększenia halucynacji:
https://arxiv.org/pdf/2405.05904
4. Przypomina mi to case Reflection 70b od Matta Shumera. W skrócie: Shumer ogłosił na tt, że oto sam dotrenował model, który bije wszystkie sota w benchmarkach. Jednak po udostępnieniu modelu nikt nie był w stanie powtórzyć jego wyników. Jak się okazało po pewnym czasie, nie był to żaden model, tylko wrapper Llamy z wbudowanym COT. Shumer był na tyle bezczelny, że usunął nawet z modelu wszystkie odniesienia do LLamy i jej podobnych xdd. WNIOSEK: każdy wrapper z finetuningiem COT pobije model bazowy. To nic nadzwyczajnego.
https://www.tomsguide.com/ai/the-reflection-70b-model-held-huge-promise-for-ai-but-now-its-creators-are-accused-of-fraud-heres-what-went-wrong
5. 4o może być czymś podobnym, tylko z dużo lepiej i głębiej zaimplementowanym COT i tyle. Nie jest to oszustwo, jak w przypadku Shumera. Ale nie jest to też żaden przełom, tylko akcja marketingowa, celem zdobycia finansowania, wyciśnięcia pieniędzy od użytkowników, postawienia się konkurencji, a być może i przykrycia faktu, że trenowanie GPT5 nie idzie wcale tak dobrze, lub wyniki jakie osiąga nie są tak zdumiewające.
6. Koniec. Mogę się mylić. To tylko wieczorne przemyślenia.
4o czy o1? 4o chyba nie ma COT, czy coś się zmieniło odkąd ostatnio używałem.
Z moich ciekawostek, o1 dzisiaj nagle odmówił odpowiedzi przy debuggowaniu jednego z package managerów w pythonie tłumacząc się tym, że rzekomo mój prompt zmusza go do naruszenia zasad społeczności w odpowiedzi XD
Zagrywka jest ewidentnie pod fundusze, potrzebują pilnie pieniędzy więc muszą czymś zachęcić inwestorów.
Ciekawe jak finansowo im się to opłaca, bo przy
Ogólnie, podejście OpenAI śmierdzi: sami niczego już nie publikują, obficie korzystając z cudzych odkryć, np. CoT. Banowanie za próby wyłuskania prompta CoT w modelu o1, o czym głośno od tygodnia, jest wisienką na torcie.
Działanie samego modelu jest dla mnie dość intuicyjne. Tak jak napisałeś, to jest automatyzacja procesu, który użytkownicy robili
@pa6lo: To właściwie już teraz się dzieje. Problem jest tylko taki, że musisz dokonać klasyfikacji zapytania użytkownika, co dość znacznie komplikuje cały system. Przyszłość to raczej modele z pamięcią inną niż wagi, gdzie będziesz mógł podmienić w kontekście Kapitał Marksa na Badania nad naturą i
@JamesJoyce Uważam że tak jak na ChatGPT 3.5 był największy hype to każda kolejna generacja AI jest coraz lepsza.
Jeżeli o1 to nic innego