Wpis z mikrobloga

Rewolucja? Meta opublikowała dokument, w którym opisuje Byte Latent Transformer (BLT) - nową architekturę dla modeli językowych działających na poziomie bajtów. BLT eliminuje potrzebę tokenizacji, dynamicznie grupując dane w "paczki" (patches), co pozwala na lepsze wykorzystanie zasobów obliczeniowych i poprawę wydajności w porównaniu do tradycyjnych modeli opartych na tokenach.
Kluczowe wnioski:
→ BLT grupuje bajty w dynamiczne paczki, optymalizując alokację obliczeń.
→ Zużywa do 50% mniej zasobów przy inferencji, osiągając wyniki na poziomie modeli tokenowych.
→ Jest skalowalny dzięki równoczesnemu zwiększaniu rozmiaru modelu i paczek.
→ Jest bardziej odporny na szum i lepszy w zadaniach znakowych (np. manipulacja tekstem, tłumaczenia języków niszowych).
→ Ogólnie lepiej się skaluje i radzi z danymi o dużej złożoności w porównaniu do tradycyjnych modeli opartych na tokenach.
[ https://ai.meta.com/research/publications/byte-latent-transformer-patches-scale-better-than-tokens/ ]

Ciekawe badanie z Tsinghua University. Autorzy wprowadzają paradygmat rozumowania „Chain-of-User-Thought” (COUT) dla agentów AI. COUT integruje spersonalizowane preferencje użytkownika z procesem decyzyjnym agenta poprzez trzyetapowy proces myślowy: nawigację po GUI, wnioskowanie o wymaganiach i spersonalizowane rekomendacje.
[ https://arxiv.org/abs/2412.07472 ]

Kilku naukowców z Peking University zaprezentowało DiffSensei, narzędzie do generowania mangi za pomocą tekstowych promptów. Łączy ono generator obrazów z modelem językowym umożliwiając dostosowanie wyglądu, pozycji i działań postaci. Wraz z nim zaprezentowano bazę MangaZero z 43 tys. stron mangi. DiffSensei choć nie idealny zdecydowanie przewyższa inne tego typu rozwiązania (np StoryGen, StoryDiffusion, MS-Diffusion).
[ https://arxiv.org/abs/2412.07589 ]

Gaze-LLE to obecnie topowy model analizujący na co patrzy dana osoba. Zamiast używać wielu skomplikowanych modeli, naukowcy z Georgia Institute of Technology i University of Illinois wykorzystali jeden uniwersalny model (DINOv2) i dodali do niego informacje o konkretnej osobie.
[ https://arxiv.org/abs/2412.09586 ]
[ https://github.com/fkryan/gazelle ]

======================
Tagi do obserwowania lub czarnolistowania: #codzienneainews #cainarxiv


======================
Zawołać cię do kolejnego wpisu? Zaplusuj CENTRALNĄ LISTĘ DO WOŁANIA dostępną pod tym linkiem:

https://wykop.pl/wpis/78971397/centralna-lista-do-wolania-zaplusuj-ten-wpis-aby-b

Aby nie być dalej wołanym/wołaną - odplusuj wspomniany wpis.
PeterWeiss - Rewolucja? Meta opublikowała dokument, w którym opisuje Byte Latent Tran...

źródło: MaxVOAO GeseDCaWQAIu17M

Pobierz
  • 21
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

model analizujący na co patrzy dana osoba.

@PeterWeiss: Marketing lubi to! Analiza w czasie rzeczywistym co dokładnie ogląda klient jest bezcenna.

Można to również wykorzystać do innych celów: monitorowania, czy patrzyłeś na ekran podczas wyświetlania reklamy, bo jeśli nie, to YouTube nie pokaże ci klipu, który chciałeś obejrzeć. Sony ma na to patent BTW.

O, albo do zliczania ile razy ktoś gapił się na twoje c---i, albo bebech (bo jest
jestemtakizmeczony - >model analizujący na co patrzy dana osoba.
@PeterWeiss: Marketi...

źródło: GetByF_bsAIVLjb

Pobierz
  • Odpowiedz