Wpis z mikrobloga

Google DeepMind zaktualizowało swój model Gemini 3 Deep Think: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
Wyniki są imponujące, zwłaszcza w teście ARC-AGI-2 (84% - obrazek).
W tym miesiącu reszta modeli Gemini 3 też ma wyjść z fazy zapoznawczej (preview) i wejść w fazę GA - General Availability (ogólna dostępność).
Więcej na kanale Demisa Hassabisa: https://x.com/demishassabis

#ai #sztucznainteligencja #technologia #nauka #ciekawostki #wykop
Arkass - Google DeepMind zaktualizowało swój model Gemini 3 Deep Think: https://blog....

źródło: image

Pobierz
  • 51
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

  • 5
Czyli będzie o 80% lepszy ale każde zapytanie będzie 10 razy droższe. Super


@ukradlem_ksiezyc: IMO:
Seria Deep Think od Gemini, to nie jest ekonomiczny model, ale multimodalny LRM z równoległym rozumowaniem, podobnie jak seria Pro od GPT. To modele raczej są do celów naukowych, rozwojowych i testowych, a nie dla "Kowalskiego".
Ekonomiczne od Gemini to te ze seri - Fast (szybki).
  • Odpowiedz
@Arkass: to tylko benchmark i czy coś z tego będzie nie wiadomo. Co najwyżej jeszcze więcej śmieciowych artykułów "naukowych". Nauka jak i internet są już martwe przez masowo tworzony śmieciowy kontent.
  • Odpowiedz
  • 2
Nauka jak i internet są już martwe przez masowo tworzony śmieciowy kontent.


@glass3: IMO:
Dramatyzujesz.

Ani Internet nie umarł, na co masz przykład tutaj, że raczej nie ma na Wykopie wiele botów
  • Odpowiedz
Ani Internet nie umarł, na co masz przykład tutaj, że raczej nie ma na Wykopie wiele botów piszących komentarze.


@Arkass: Zdziwiłbyś się. Już kilka botów zgłaszałem. A widać tylko przez myślniki, dziwne emoty i ogromną częstotliwość na świeżym koncie. Jak ktoś zrobi nieco sprytniej to już nie widać.
  • Odpowiedz
@Arkass: ja naprawdę nie wiem do jakich to naukowych rzeczy te modele mogą być przydatne. W pracy tylko przeszkadzają jak faktycznie czegoś trzeba poszukać. Ładnie prezentację robią i potrafią tekst unormować (ale znowu, trzeba go sprawdzać za każdym razem) ale nic poza tym. A ja się nie zajmuję jakimiś rakietami, żeby model nie miał się na czym uczyć. Jeszcze w 23 mogłem śmiało z tego korzystać ale już od dwóch
  • Odpowiedz
@Arkass: @kwanty ARC-AGI-2 Nazwa poważna wiec zobaczyłem i zweryfikowałem co ten test robi. I tu pytanie do was: Czy 100% w tym teście oznacza AGI? Uwaga: odpowiedź może zaskoczyć ( ͡º ͜ʖ͡º)

A tak ma serio wypadało by napisać co ten test robi i co się stanie jak jakiś model osiągnie 100% jak już koniecznie chcecie się tym ekscytować i wróżyć it upadek:)
  • Odpowiedz
A ja polubiłem się z Claude choć mam Chatgpt pro. Jedno mnie zastanawia, dlaczego czasem sesja w Claude idzie idealnie, robi to co ma robić i ładnie kontynuuje a czasem przy innych sesjach po chwili gubi się i jak grochem o ścianę.
  • Odpowiedz
@przemyslaw-maczka: test sprawdza modele na pozornie prostych (dla ludzi) zadaniach, których nie da się wyuczyć w fazie rozwoju modelu (warunkiem weryfikacji wyniku jest to, że trenowany model nie będzie miał w procesie treningu dostarczonych informacji na temat zadań składających się na benchmark). ARC-AGI 1 powstał w momencie, gdy modele (przed o1 od OpenAI) saturowały już inne benchmarki oparte na twardej wiedzy. Wóczas sceptycy (a wśród nich twórca benchmarku ARC-AGI) podnosili
  • Odpowiedz
  • 0
@Arkass: Gemini Flash - Szybkie (Thinking: Low) świetnie nadaje się do tłumaczeń tekstów, np. węgierskiego na czeski, czy niemieckiego na polski, itd.
Testowałem na dialogach.
Nawet GPT i Claude Sonnet sobie tak dobrze nie radzą. Warunkiem jest tłumaczenie maksymalnie po 1-3 akapitów naraz.
  • Odpowiedz
@Arkass: Czy w AI Studio jest on oznaczony jako Gemini 3 Pro Preview?

Jeśli tak, to w przypadku używania tego modelu u nas w pracy był dużo gorszy niż Gemini 2.5 Pro, jeśli chodzi o próbę generowanie kodu bez dokumentacji w C#.

Case mieliśmy taki, że potrzebowaliśmy napisać pewien kod w C# na podstawie pewnej biblioteki, do której nie ma publicznej dokumentacji. W całym Internecie praktycznie nie ma żadnych przykładowych implementacji, tylko
  • Odpowiedz
  • 0
@przemyslaw-maczka: arc-agi został zaprojektowany, żeby był trudny dla AI ale łatwy dla ludzi... bo testy trudne dla ludzi już zostały rozwiązane przez AI...

pierwsza wersja już została rozwiązana, druga jak widać już się jest coraz bliższa rozwiązania
  • Odpowiedz