Wpis z mikrobloga

Skopiuj link

07.12.2023, 09:07:44

#programista15k #programista25k #it #programowanie #sztucznainteligencja

Zabawne jest to, że nawet taka firma jak Google musi wrzucać klasycznie zmanipulowane wykresy, by udawać ogromny wzrost wydajności Gemini vs GPT4. Oś powinna zaczynać się od zera.

W komentarzu wpis z tt, jak wygląda prawdziwa różnica wg. papera Google, między Gemini a GPT4.

JamesJoyce

07.12.2023, 09:08:06 via iOS

@JamesJoyce

Zarzutkkake

07.12.2023, 09:10:17 via Android

@JamesJoyce to samo było na tvp, kiedy pis miał 1% głosów więcej to skala była wyższa o połowę xd

AntyKuc

07.12.2023, 09:27:52 via Wykop

@JamesJoyce: Czemu na tych prezentacjach zawsze są jakieś pierdoły w stylu pograj z AI w kamień papier nożyce, albo wygeneruj prostą stronkę HTML? Gdzie jakiś realny use-case biznesowy?

zibizz1

07.12.2023, 09:33:36 via Wykop

@JamesJoyce: Zgadzam sie że 90% jest zbyt daleko od 89,8% bo nawet dalej niż 86,4%. Natomiast nie zgadzam się co do doboru skali wykresu. Akurat w tym wypadku pokazywanie cłąych 100% jest bez sensu. Zgadzam się że często powinno byc na Y od 0 a nie jest ale akurat tutaj jest OK.

W tym wypadku 90->99% jest pewnie tak samo trudne jak 99%>99,9%

ly000

07.12.2023, 09:46:53 via Wykop

@JamesJoyce: gdzie tu widzisz manipulacje? masz dyskalkulię? jaki sens ma wstawianie wykresów, gdzie różnice są rzędu kilku procent i w skali od 0 nie widać różnicy?

zibizz1

07.12.2023, 09:55:32 via Wykop

@ly000: Skala tak, ale nadal poszczego;lne elmenty na niej sa zmanioulowane, powinno być tak

ly000

07.12.2023, 10:01:16 via Wykop

@zibizz1: tak, o to już można się przyczepić.

JamesJoyce

kolekcjoner_szekli

07.12.2023, 10:32:08 via Wykop

@JamesJoyce:
Mhm, historia jak z GPT-4, wspaniale AGI

JamesJoyce

JamesJoyce

07.12.2023, 10:34:30 via Wykop

@ly000: skale zaczyna się od zera. Różnice tak niewielkie jak ta nie przedstawia się z reguły a wykresie liniowym, tylko w zwykłej tabeli.

Sztywnesutkiszatana

dejvo

07.12.2023, 10:37:11 via Wykop

@JamesJoyce: Przede wszystkim to nie jest wykres wydajności w sensie prędkości, tylko poprawności uzyskanych odpowiedzi, a tu już kilka procent potrafi zrobić różnicę. Z drugiej strony porównują wyniki z wykorzystaniem innych technik otrzymywania odpowiedzi. Wygląda na to, że Google na siłę szukało jakiegoś przypadku, w którym pokaże wyższość Gemini. Wszystkie naciągane wyniki zostaną zweryfikowane w niezależnych testach po udostępnieniu wersji Ultra.

JamesJoyce

07.12.2023, 10:38:33 via Wykop

@JamesJoyce: Np. w taki sposób, który de facto też pochodzi od Google

JamesJoyce

07.12.2023, 10:39:52 via Wykop

@dejvo: tak. Jestem w trakcie czytania dokumentacji i wygląda na to, że ten ich model jednak niekoniecznie jest lepszy od GPT-4.

kutafonixor

07.12.2023, 11:22:40 via Wykop

Czemu na tych prezentacjach zawsze są jakieś pierdoły w stylu pograj z AI w kamień papier nożyce, albo wygeneruj prostą stronkę HTML? Gdzie jakiś realny use-case biznesowy?

@AntyKuc: chyba nie zrozumiałeś filmu promocyjnego. Obejrzyj raz jeszcze bo nie ma sensu tłumaczyć, podpowiem ze AI na bieżąco komentuje co robi user bo umie szybko analizować co dzieje się na filmie.

Co do jakości, Google deklaruje że codealpha 2 jest lepsze niż 90%

AntyKuc

07.12.2023, 11:31:42 via Wykop

@kutafonixor:

Obejrzyj raz jeszcze bo nie ma sensu tłumaczyć, podpowiem ze AI na bieżąco komentuje co robi user bo umie szybko analizować co dzieje się na filmie.

Cudownie, ale to nie wykracza poza to co pokazywało Open AI

Co do jakości, Google deklaruje że codealpha 2 jest lepsze niż 90% programistów xD

W sensie lepsze w czym? W rozwiązywaniu zadanek z leet code?

dejvo

07.12.2023, 11:46:29 via Wykop

@kutafonixor:

Co do jakości, Google deklaruje że codealpha 2 jest lepsze niż 90% programistów xD

Z raportu technicznego AlphaCode 2

Filtering

We execute each code sample on the corresponding test input, and filter out all which do not produce the expected output and therefore could not have been correct, as well as the less than 5% of samples that do not compile. On average, this filtering removes approximately 95% of the

t4il

07.12.2023, 12:22:50 via Wykop

@dejvo:

Cały schemat działania jest bardzo podobny jak w pracy “Let’s verify step by step”, opracowenej w OpenAI. Taka technika jest skuteczna, jednak trzeba powiedzieć wprost, że jest to podejście brute-force i jego zastosowanie zależy od dostępności zasobów, bo koszt wyprodukowania niewielkiego kawałka kodu może być paradoksalnie nawet wyższy niż zatrudnienie programisty. Przynajmniej na razie.

Źródło:
https://bulldogjob.pl/readme/alphacode-2-koduje-lepiej-niz-85-programistow

nad__czlowiek

07.12.2023, 12:43:56 via Wykop

@dejvo: @t4il chyba nie doczytaliście

Zwróć uwagę, że pod spodem AlphaCode 2 wykorzystuje Gemini Pro, czyli nawet nie jest to najmocniejszy model, jakim dysponuje Google. Ciekawe jest też to, że DeepMind skupił się na rozwiązywaniu nowych problemów, by uniknąć false positive znanego z GPT 4 - który potrafił rozwiązać część problemów tego typu, o ile zostały opublikowane przed 2021 (kiedy zakończył się pierwotnie trening). Dla problemów, których nie znał z treningu,

kolekcjoner_szekli

07.12.2023, 12:59:18 via Wykop

@nad__czlowiek:
Jacy CRUDiarze wszyscy pakować walizki, dobrze że trzeba będzie komu obsługiwać hardware na którym ten bruteforce do kodowania działa, to mam robotę

kutafonixor

07.12.2023, 15:43:50 via Wykop

Czyli wygenerowali 1 milion rozwiązań na każdy problem, z czego wybrali 50k sensownych i z tego tylko 10 najlepszych. Brzmi to trochę jak brute-force XD

@dejvo: ale to było zero shot czyli model nie był trenowany na dokładnie takich samych zadaniach tylko je rozkminil.nie oszukujmy się, większość programistów robi gówno taski które już można zautomatyzowac tylko póki co narzędzia które to mogą ogarnąć nie są spopularyzowane.

Kwestia miesięcy i taki programmer

ly000

07.12.2023, 21:06:57 via Wykop

skale zaczyna się od zera.

@JamesJoyce: no właśnie nie. skala może się zacząć od dowolnej liczby, zależy co chce się pokazać. jakbyś chciał pokazać wykres ciśnienia atmosferycznego to też byś zrobił wykres od 0? w tym przypadku również każdy punkt procentowy ma duże znaczenie.

Aktywne Wpisy

aei9077

aei9077 +305

5 godz. i 34 min temu

Przedmieścia Frankfurtu vs przedmieścia Krakowa dziś. Dla niemca planowanie przestrzenne to standard i konieczność, dla polaka robaka to lewacki komunizm i zamach na wolność. Problemy i koszty generowane przez ten burdel? A kto by się tam przejmował, stać nas na bangladesz w środku Europy.

#100latplanowaniawpolsce #skyscrapercity #urbanistyka #architektura #polska #krakow #patodeweloperka #nieruchomosci #4konserwy #neuropa #bekazpodludzi

aei9077 - Przedmieścia Frankfurtu vs przedmieścia Krakowa dziś. Dla niemca planowanie... — **źródło:** planowanie2
Pobierz

Hitmonlee

Hitmonlee +93

4 godz. i 37 min temu

Ja #!$%@?, byliśmy w restauracji w szóstkę i miło zapytałem kelnerkę, czy dałoby radę wymienić stolik, bo chętnie zaprosimy jeszcze kilka osób. Jak przyszli, to ta sama kelnerka poinformowała nas, że od teraz do każdego zamówienia doliczane będzie 10% dodatkowej opłaty. Zaprosiłem im klientów i cena mojego piwa wzrosła XDDDD
Zebraliśmy się i wyszliśmy ze scamowni
#zalesie #scam #warszawa

Aktywne Wpisy

Aktywne Znaleziska

Zaatakowano dwa duże rosyjskie statki desantowe

Prawdziwy powód dlaczego Francja rozważa wojnę z Rosją [ENG]

Piekło mężczyzn. 33-latka pobiła byłego partnera.

Czegoś takiego w pogodzie nie było od lat. Zniknął poważny problem

Jak mBank nierówno będzie traktować Polaków i Ukraińców

Popularne tagi