Wpis z mikrobloga

#programista15k #programista25k #it #programowanie #sztucznainteligencja

Zabawne jest to, że nawet taka firma jak Google musi wrzucać klasycznie zmanipulowane wykresy, by udawać ogromny wzrost wydajności Gemini vs GPT4. Oś powinna zaczynać się od zera.

W komentarzu wpis z tt, jak wygląda prawdziwa różnica wg. papera Google, między Gemini a GPT4.
JamesJoyce - #programista15k #programista25k #it #programowanie #sztucznainteligencja...

źródło: Zdjęcie z biblioteki

Pobierz
  • 25
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@JamesJoyce: Czemu na tych prezentacjach zawsze są jakieś pierdoły w stylu pograj z AI w kamień papier nożyce, albo wygeneruj prostą stronkę HTML? Gdzie jakiś realny use-case biznesowy?
  • Odpowiedz
@JamesJoyce: Zgadzam sie że 90% jest zbyt daleko od 89,8% bo nawet dalej niż 86,4%. Natomiast nie zgadzam się co do doboru skali wykresu. Akurat w tym wypadku pokazywanie cłąych 100% jest bez sensu. Zgadzam się że często powinno byc na Y od 0 a nie jest ale akurat tutaj jest OK.

W tym wypadku 90->99% jest pewnie tak samo trudne jak 99%>99,9%
  • Odpowiedz
@JamesJoyce: gdzie tu widzisz manipulacje? masz dyskalkulię? jaki sens ma wstawianie wykresów, gdzie różnice są rzędu kilku procent i w skali od 0 nie widać różnicy?
  • Odpowiedz
@JamesJoyce: Przede wszystkim to nie jest wykres wydajności w sensie prędkości, tylko poprawności uzyskanych odpowiedzi, a tu już kilka procent potrafi zrobić różnicę. Z drugiej strony porównują wyniki z wykorzystaniem innych technik otrzymywania odpowiedzi. Wygląda na to, że Google na siłę szukało jakiegoś przypadku, w którym pokaże wyższość Gemini. Wszystkie naciągane wyniki zostaną zweryfikowane w niezależnych testach po udostępnieniu wersji Ultra.
  • Odpowiedz
Czemu na tych prezentacjach zawsze są jakieś pierdoły w stylu pograj z AI w kamień papier nożyce, albo wygeneruj prostą stronkę HTML? Gdzie jakiś realny use-case biznesowy?


@AntyKuc: chyba nie zrozumiałeś filmu promocyjnego. Obejrzyj raz jeszcze bo nie ma sensu tłumaczyć, podpowiem ze AI na bieżąco komentuje co robi user bo umie szybko analizować co dzieje się na filmie.

Co do jakości, Google deklaruje że codealpha 2 jest lepsze niż
  • Odpowiedz
@kutafonixor:

Obejrzyj raz jeszcze bo nie ma sensu tłumaczyć, podpowiem ze AI na bieżąco komentuje co robi user bo umie szybko analizować co dzieje się na filmie.

Cudownie, ale to nie wykracza poza to co pokazywało Open AI

Co do jakości, Google deklaruje że codealpha 2 jest lepsze niż 90% programistów xD

W sensie lepsze w czym? W rozwiązywaniu zadanek z leet code?
  • Odpowiedz
@dejvo:

Cały schemat działania jest bardzo podobny jak w pracy “Let’s verify step by step”, opracowenej w OpenAI. Taka technika jest skuteczna, jednak trzeba powiedzieć wprost, że jest to podejście brute-force i jego zastosowanie zależy od dostępności zasobów, bo koszt wyprodukowania niewielkiego kawałka kodu może być paradoksalnie nawet wyższy niż zatrudnienie programisty. Przynajmniej na razie.


Źródło:
https://bulldogjob.pl/readme/alphacode-2-koduje-lepiej-niz-85-programistow
  • Odpowiedz
@dejvo: @t4il chyba nie doczytaliście

Zwróć uwagę, że pod spodem AlphaCode 2 wykorzystuje Gemini Pro, czyli nawet nie jest to najmocniejszy model, jakim dysponuje Google. Ciekawe jest też to, że DeepMind skupił się na rozwiązywaniu nowych problemów, by uniknąć false positive znanego z GPT 4 - który potrafił rozwiązać część problemów tego typu, o ile zostały opublikowane przed 2021 (kiedy zakończył się pierwotnie trening). Dla problemów, których nie znał
  • Odpowiedz
skale zaczyna się od zera.


@JamesJoyce: no właśnie nie. skala może się zacząć od dowolnej liczby, zależy co chce się pokazać. jakbyś chciał pokazać wykres ciśnienia atmosferycznego to też byś zrobił wykres od 0? w tym przypadku również każdy punkt procentowy ma duże znaczenie.
  • Odpowiedz