Nawet samo sprawdza wizualnie, otwiera przeglądarkę, scrolluje w miejsce i nawet klika, co jest dość ciekawe, bo potrafi nawet kliknąć idealnie w miejsce gdzie przycisk jest widoczny dopiero on hover, a opus po prostu jednym ruchem prosto na przycisk naprawradza klika i robi sobie screenshot by przeanalizować.
Wiec jak to działa? Opus wie gdzie kliknąć, wie jak przewijać stronę, ale musi zrobić screenshot strony i przeanalizować?
Ale w










Więc czemu nie zrobić kilka modeli które robią jedną rzecz ale dobrze?
PS. Moim celem jest stworzenie narzędzia gdzie najmniejszy model może robić to samo co największy model.
I chyba mi się udało, teraz LLM (ministral 3B) jak zobaczy że user chce np. Mermaid diagram, to nie tworzy sam (owszem potrafi, ale
źródło: Screenshot_2025-12-10_20-25-30
Pobierz