Wpis z mikrobloga

#codzienneainews Poprawa rozumowania AI poprzez ponowne czytanie pytań; Zwiększenie wydajności SI dzięki "ekspertom" dla każdego rodzaju danych; Poprawa jakości odpowiedzi poprzez ćwiczenie i uczenie się na własnych błędach; Porównanie dostawców Llamy

[1] Poprawa rozumowania AI poprzez... ponowne czytanie pytań
Zdarza się wam czytać dwa razy to samo zadanie, żeby lepiej je zrozumieć? No to naukowcy z Google DeepMind doszli do bardzo ciekawych wniosków. Ich badanie zatytułowane "Powtórne czytanie poprawia rozumowanie w dużych modelach językowych" przedstawia nową technikę o nazwie RE2, zaprojektowaną, aby pomóc LLM-om lepiej myśleć. Główna idea RE2 jest prosta: kiedy model przeczyta pytanie dwa razy, może lepiej je zrozumieć, co pomaga mu udzielać lepszych odpowiedzi.

W przeciwieństwie do innych metod, takich jak Chain-of-Thought (CoT), które koncentrują się na prowadzeniu modelu przez proces myślowy, RE2 skupia się na poprawie sposobu, w jaki model czyta i rozumie samo pytanie. Dzięki powtórnemu czytaniu, model może uzyskać pełniejsze zrozumienie pytania przed próbą odpowiedzi.

Naukowcy przetestowali tę metodę na różnych rodzajach problemów (jak matematyka i wiedza ogólna) za pomocą 14 różnych zestawów danych. Odkryli, że RE2 poprawiło wyniki modeli w wielu przypadkach, zwiększając ich dokładność w zadaniach wymagających rozumowania. Metoda działa dobrze z wieloma różnymi modelami (takimi jak ChatGPT i LLaMA) i jest łatwa do zastosowania z innymi strategiami rozwiązywania problemów.

[2] Zwiększenie wydajności SI dzięki "ekspertom" dla każdego rodzaju danych
META przedstawiła nową architekturę SI o nazwie MoMa, która poprawia sposób przetwarzania tekstu i obrazów przez komputery. Mówiąc prościej, MoMa pomaga AI obsługiwać zarówno obrazy, jak i słowa w jednym modelu, używając specjalnych "ekspertów" dla każdego rodzaju danych (tekst lub obraz). Ci eksperci to jak oddzielne zespoły, które działają lepiej, gdy koncentrują się na swoim zadaniu (tekstach lub obrazach), ale mogą również współpracować.

Główna idea polega na podzieleniu pracy SI na różne grupy w zależności od rodzaju przetwarzanych danych. Na przykład, gdy model widzi tekst, wysyła go do grupy „ekspertów od tekstu”, a gdy widzi obraz, wysyła go do grupy „ekspertów od obrazów”. Takie podejście przyspiesza uczenie i sprawia, że SI jest bardziej wydajne, zmniejszając ilość pracy, którą musi wykonać, bez utraty dokładności.

MoMa była testowana na dużych ilościach danych i uzyskała lepsze wyniki niż inne modele przetwarzające zarówno tekst, jak i obrazy. Używa mniej zasobów, a jednocześnie dostarcza mocne rezultaty, co jest kluczowe dla przyspieszenia systemów AI i zwiększenia ich mocy w zadaniach takich jak odpowiadanie na pytania, opisywanie obrazów i generowanie treści.

[3] Poprawa jakości odpowiedzi poprzez ćwiczenie i uczenie się na własnych błędach
LLM-y często popełniają błędy przy udzielaniu odpowiedzi lub rozwiązywaniu problemów. Pomysł SCoRe polega na tym, aby nauczyć te modele rozpoznawania własnych błędów i ponownej próby. Metoda ta wykorzystuje specjalny rodzaj treningu (RL), w którym model poprawia się na podstawie opinii, którą sam generuje z własnych wcześniejszych odpowiedzi. To pomaga poprawić zdolność modelu do rozwiązywania złożonych problemów, takich jak matematyka i kodowanie, bez potrzeby pomocy z zewnątrz. SCoRe został przetestowany na zadaniach związanych z rozwiązywaniem problemów matematycznych i kodowania, osiągając znaczące ulepszenia. W przypadku Gemini metoda SCoRe zaowocowa ła 15,6 procentowym wzrostem w benchmarku MATH i 9,1% wzrostem w HumanEval dotyczącym generowania kodu.

[4] Porównanie dostawców Llamy
Artificial Analysis porównało różnych dostawców Llamy 3.1 70B. Groq wydaje się wypadać najlepiej pod kątem wydajności-jakości-ceny. Pełny window context (128k), bardzo szybki (mediana: 249.5 tokenów/s) i relatywnie tani ($0.64 / milion tokenów).
Cerebras jest najszybszy (566.4 tk/s), nieco tańszy od Groqa ($0.60 / 1M tk), ale psuje to mizerny context window na poziomie... 8k.
Ze średniaków to Deepinfra wydaje się być w miarę, bo ma pełny window context, jest najtańszy ($0.36), wypluwa średnią ilość tokenów (27.5).
Rozczarowuje bardzo drogi MS Azure ($2.90 serio?) za wydajność Deepinfra...
Pełny raport tu:
[ https://artificialanalysis.ai/models/llama-3-1-instruct-70b/providers ]

#ainews #sztucznainteligencja #gruparatowaniapoziomu
PeterWeiss - #codzienneainews Poprawa rozumowania AI poprzez ponowne czytanie pytań; ...

źródło: midjourney ultra_arcane GWjeSAGbgAAB2y2

Pobierz
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach