Wpis z mikrobloga

#programista15k #programista25k #it #programowanie #sztucznainteligencja

Zabawne jest to, że nawet taka firma jak Google musi wrzucać klasycznie zmanipulowane wykresy, by udawać ogromny wzrost wydajności Gemini vs GPT4. Oś powinna zaczynać się od zera.

W komentarzu wpis z tt, jak wygląda prawdziwa różnica wg. papera Google, między Gemini a GPT4.
Pobierz JamesJoyce - #programista15k #programista25k #it #programowanie #sztucznainteligencja...
źródło: Zdjęcie z biblioteki
  • 15
@JamesJoyce: Zgadzam sie że 90% jest zbyt daleko od 89,8% bo nawet dalej niż 86,4%. Natomiast nie zgadzam się co do doboru skali wykresu. Akurat w tym wypadku pokazywanie cłąych 100% jest bez sensu. Zgadzam się że często powinno byc na Y od 0 a nie jest ale akurat tutaj jest OK.

W tym wypadku 90->99% jest pewnie tak samo trudne jak 99%>99,9%
@JamesJoyce: Przede wszystkim to nie jest wykres wydajności w sensie prędkości, tylko poprawności uzyskanych odpowiedzi, a tu już kilka procent potrafi zrobić różnicę. Z drugiej strony porównują wyniki z wykorzystaniem innych technik otrzymywania odpowiedzi. Wygląda na to, że Google na siłę szukało jakiegoś przypadku, w którym pokaże wyższość Gemini. Wszystkie naciągane wyniki zostaną zweryfikowane w niezależnych testach po udostępnieniu wersji Ultra.
Czemu na tych prezentacjach zawsze są jakieś pierdoły w stylu pograj z AI w kamień papier nożyce, albo wygeneruj prostą stronkę HTML? Gdzie jakiś realny use-case biznesowy?


@AntyKuc: chyba nie zrozumiałeś filmu promocyjnego. Obejrzyj raz jeszcze bo nie ma sensu tłumaczyć, podpowiem ze AI na bieżąco komentuje co robi user bo umie szybko analizować co dzieje się na filmie.

Co do jakości, Google deklaruje że codealpha 2 jest lepsze niż 90%
  • 0
@kutafonixor:

Obejrzyj raz jeszcze bo nie ma sensu tłumaczyć, podpowiem ze AI na bieżąco komentuje co robi user bo umie szybko analizować co dzieje się na filmie.

Cudownie, ale to nie wykracza poza to co pokazywało Open AI

Co do jakości, Google deklaruje że codealpha 2 jest lepsze niż 90% programistów xD

W sensie lepsze w czym? W rozwiązywaniu zadanek z leet code?
  • 0
@kutafonixor:

Co do jakości, Google deklaruje że codealpha 2 jest lepsze niż 90% programistów xD


Z raportu technicznego AlphaCode 2

Filtering

We execute each code sample on the corresponding test input, and filter out all which do not produce the expected output and therefore could not have been correct, as well as the less than 5% of samples that do not compile. On average, this filtering removes approximately 95% of the