Wpis z mikrobloga

Testował ktoś gemini 2.5 pro bezpłatne i płatne i ogarniał różnice?
Nie mogę się doszukać tego na benchmarkach, a ostatnimi czasy ten model zrobił na mnie wrażenie w swojej bazowej bezpłatnej formie - rozważam przerzucenie się z o3.

[cele czysto edukacyjne, benchmarki typu 'science']

Ew. jeśli ktoś testował gemini 2.5/o3 i porównywał z grokiem 4 bazowym to też może dać znać.

#sztucznainteligencja #gemini #gpt #ai #programowanie15k #grok
  • 11
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@KryptonZ: Z Gemini 2.5 Pro w płatnej sesji po prostu korzystasz bez oporów w płatnej subskrypcji za 99 PLN miesięcznie. To jest jedyna różnica między wersją płatną i bezpłatną, chyba że chodzi ci o jakąś wersję z rozszerzonym myśleniem która jest w abonamencie za 250 dolarów, ale to chyba było na razie tylko zapowiadanie i tego modelu nie ma jeszcze w powszechnym użyciu.
  • Odpowiedz
@KryptonZ @waydack
Podłącze się trochę do wątku z pytaniem który "chat" warto kupić?
Zastanawiam się nad subskrypcją na próbę na kilka mcy ale nie wiem w co pójść.
Z moje strony potrzebuję czegoś do programowania glownie python i ogólnych rozważań inżynierskich włączając obliczenia.
Macie jakiś faworytów?
  • Odpowiedz
@solid959: Najlepszy do kodowania jest Claude. W wersji płatnej za 20 dolarów masz dwie wersje Claude Sonnet i Opus. Opus to prawdopodobnie obecnie najlepsza sztuczna inteligencja na świecie, zwłaszcza w kodowaniu ale w tej wersji subskrypcji Opus jest ograniczony do kilku zapytań ale można spokojnie korzystać z Sonnet który też jest świetnym modelem. W wersji za 100 lub 200 dolarów masz już większe limity i dostęp do Claude Code, ich
  • Odpowiedz
modele te ewidentnie są znerfione. Widżę to po ich o3 i gemini 2.5 pro.


@KryptonZ: IMO:
Nie są to otwarte modele, aby ktoś sobie na ich podstawie stworzył jakieś lżejsze wersje i je udostępniał na LMArena.
- Zatem albo zamiast tych modeli to są wykorzystywane tam jakieś inne modele.
- Albo Twoja ocena nie jest miarodajna
  • Odpowiedz
  • 0
@Arkass: widzę to po prostu po tym, że gemini 2.5 pro na pewne pytania medyczne odpowiada niepoprawnie, a na google ai studio już tak.

Tak samo widzę to, że o3 zwyczajnie krócej myśli niż u chataGPT - ale to akurat mało rzetelna informacja ze względu na to, że nie wiem czy różni się szybkość przy tokenach i przy przeglądarce/aplikacji z subskrypcji
  • Odpowiedz
@KryptonZ: IMO:
No, ciekawa sprawa. Też jestem ciekaw wytłumaczenia, jak istnieje inne niż losowość, że czasami te modele odpowiadają lepiej a czasami gorzej, i akurat na LMArena trafić się mogły serie tych gorszych odpowiedzi.
  • Odpowiedz
  • 0
Podczas używania intensywnego do nauki stwierdzam:

1. Najnowszy model gemini ma zdecydowanie tryliard razy lepszej jakości dane, aktualniejsze niż o3 w większości przypadków.
2. o3 ma lepsze rozumowanie, ale gorszą bazę danych - przez co sumarycznie gorzej wypada w szerokopojętej kategorii "science"

Info z piątnicy.
Bezkonkurencyjnie, serio, gemini wygrywa w mojej, em, domenie/niszy (nie mówię o programowaniu, bo zwyczajnie tego nie uprawiam)
  • Odpowiedz
  • 0
Porównałem na lmarenie groka 4 z gemini 2.5 pro w pojedynczym pytaniu abcd medycznym, które zwyczajnie pokazuje mi wady danego modelu w tldr (bo raczej benchmarków wiarygodnych nie ma póki co najnowszych)

Grok 4 przegrał. XD
  • Odpowiedz