Wpis z mikrobloga

#programista15k #programista25k #it #programowanie #sztucznainteligencja

Zabawne jest to, że nawet taka firma jak Google musi wrzucać klasycznie zmanipulowane wykresy, by udawać ogromny wzrost wydajności Gemini vs GPT4. Oś powinna zaczynać się od zera.

W komentarzu wpis z tt, jak wygląda prawdziwa różnica wg. papera Google, między Gemini a GPT4.
JamesJoyce - #programista15k #programista25k #it #programowanie #sztucznainteligencja...

źródło: Zdjęcie z biblioteki

Pobierz
  • 25
@JamesJoyce: Zgadzam sie że 90% jest zbyt daleko od 89,8% bo nawet dalej niż 86,4%. Natomiast nie zgadzam się co do doboru skali wykresu. Akurat w tym wypadku pokazywanie cłąych 100% jest bez sensu. Zgadzam się że często powinno byc na Y od 0 a nie jest ale akurat tutaj jest OK.

W tym wypadku 90->99% jest pewnie tak samo trudne jak 99%>99,9%
@JamesJoyce: Przede wszystkim to nie jest wykres wydajności w sensie prędkości, tylko poprawności uzyskanych odpowiedzi, a tu już kilka procent potrafi zrobić różnicę. Z drugiej strony porównują wyniki z wykorzystaniem innych technik otrzymywania odpowiedzi. Wygląda na to, że Google na siłę szukało jakiegoś przypadku, w którym pokaże wyższość Gemini. Wszystkie naciągane wyniki zostaną zweryfikowane w niezależnych testach po udostępnieniu wersji Ultra.
Czemu na tych prezentacjach zawsze są jakieś pierdoły w stylu pograj z AI w kamień papier nożyce, albo wygeneruj prostą stronkę HTML? Gdzie jakiś realny use-case biznesowy?


@AntyKuc: chyba nie zrozumiałeś filmu promocyjnego. Obejrzyj raz jeszcze bo nie ma sensu tłumaczyć, podpowiem ze AI na bieżąco komentuje co robi user bo umie szybko analizować co dzieje się na filmie.

Co do jakości, Google deklaruje że codealpha 2 jest lepsze niż 90%
@kutafonixor:

Obejrzyj raz jeszcze bo nie ma sensu tłumaczyć, podpowiem ze AI na bieżąco komentuje co robi user bo umie szybko analizować co dzieje się na filmie.

Cudownie, ale to nie wykracza poza to co pokazywało Open AI

Co do jakości, Google deklaruje że codealpha 2 jest lepsze niż 90% programistów xD

W sensie lepsze w czym? W rozwiązywaniu zadanek z leet code?
@kutafonixor:

Co do jakości, Google deklaruje że codealpha 2 jest lepsze niż 90% programistów xD


Z raportu technicznego AlphaCode 2

Filtering

We execute each code sample on the corresponding test input, and filter out all which do not produce the expected output and therefore could not have been correct, as well as the less than 5% of samples that do not compile. On average, this filtering removes approximately 95% of the
@dejvo:

Cały schemat działania jest bardzo podobny jak w pracy “Let’s verify step by step”, opracowenej w OpenAI. Taka technika jest skuteczna, jednak trzeba powiedzieć wprost, że jest to podejście brute-force i jego zastosowanie zależy od dostępności zasobów, bo koszt wyprodukowania niewielkiego kawałka kodu może być paradoksalnie nawet wyższy niż zatrudnienie programisty. Przynajmniej na razie.


Źródło:
https://bulldogjob.pl/readme/alphacode-2-koduje-lepiej-niz-85-programistow
@dejvo: @t4il chyba nie doczytaliście

Zwróć uwagę, że pod spodem AlphaCode 2 wykorzystuje Gemini Pro, czyli nawet nie jest to najmocniejszy model, jakim dysponuje Google. Ciekawe jest też to, że DeepMind skupił się na rozwiązywaniu nowych problemów, by uniknąć false positive znanego z GPT 4 - który potrafił rozwiązać część problemów tego typu, o ile zostały opublikowane przed 2021 (kiedy zakończył się pierwotnie trening). Dla problemów, których nie znał z treningu,
Czyli wygenerowali 1 milion rozwiązań na każdy problem, z czego wybrali 50k sensownych i z tego tylko 10 najlepszych. Brzmi to trochę jak brute-force XD


@dejvo: ale to było zero shot czyli model nie był trenowany na dokładnie takich samych zadaniach tylko je rozkminil.nie oszukujmy się, większość programistów robi gówno taski które już można zautomatyzowac tylko póki co narzędzia które to mogą ogarnąć nie są spopularyzowane.

Kwestia miesięcy i taki programmer
skale zaczyna się od zera.


@JamesJoyce: no właśnie nie. skala może się zacząć od dowolnej liczby, zależy co chce się pokazać. jakbyś chciał pokazać wykres ciśnienia atmosferycznego to też byś zrobił wykres od 0? w tym przypadku również każdy punkt procentowy ma duże znaczenie.