Wpis z mikrobloga

Meta wprowadza trzy nowe funkcje do okularów Ray-Ban: AI na żywo, tłumaczenia na żywo i Shazam.
AI na żywo umożliwia rozmowę z asystentem Meta i analizę otoczenia w czasie rzeczywistym (teoretycznie będzie mógł zasugerować przepisy kulinarne na podstawie składników na które patrzysz). Tłumaczenia na żywo obsługują języki angielski, hiszpański, francuski i włoski, z możliwością odsłuchu lub wyświetlenia transkrypcji na telefonie. Oczywiście funkcje te są "US&Canada only".
theverge.com

Naukowcy z Meta i Stanford udostępnili rodzinę dużych modeli multimodalnych Apollo. Model 7B ustanawia nowy standard i potrafi analizować godzinne nagrania wideo(!) Można go uruchomić lokalnie(!!).
Apollo-3B przewyższa większość modeli 7B zdobywając 55.1 punktów w LongVideoBench. Apollo-7B ustanawia nowy standard wśród modeli 7B, osiągając 70.9 w MLVU i 63.3 w Video-MME. Rozjeżdża w ten sposób znacznie większe modele takie jak Oryx-34B and VILA1.5-40B. Co ciekawe Apollo bazuje na Qwen2.5.
huggingface.co/papers
[ https://arxiv.org/abs/2412.10360 ]
PS boski jest ten fragment z podsumowania. Alchemia XXI wieku ;-)

the underlying mechanisms driving their video understanding remain poorly understood. Consequently, many design decisions in this domain are made without proper justification or analysis.


Google prezentuje nowy generator wideo Veo 2 i twierdzi, że jest lepszy od Sora.
Sęk w tym, że dostęp do niego mają zatwierdzeni wybrańcy, a w samej prasówce jest zbyt wiele "will have", "will do". Google pisze, że Veo 2 może generować filmy 4K o długości powyżej 2 minut. Fakty są takie, że obecnie ten generator pozwala na max 720p i długość zaledwie 8 sekund. Do tego ELi Collins, opiekun produktu, przyznaje że wyzwaniem bywa utrzymanie spójności postaci, poprawy wymaga szczegółowość, czy szybkie i złożone ruchy". Papierowa premiera dla shareholderów.
deepmind.google/technologies

Google zaprezentowało Whisk, eksperymentalne narzędzie AI do generowania obrazów, które zamiast tekstowych poleceń wykorzystuje inne obrazy jako wskazówki. Użytkownik może wskazać zdjęcia reprezentujące temat, scenę i styl, a także łączyć wiele obrazów w każdej z tych kategorii. Opcjonalnie można dodać opis tekstowy dla większej precyzji. US only.
blog.google/technology

Handelsblatt opisuje rozwój i zastosowanie nowego modelu językowego Teuken-7B stworzonego przez niemieckie instytuty Fraunhofera w ramach projektu OpenGPT-X. Model obsługuje 24 języki europejskie i został zaprojektowany na podstawie danych w tych językach, co poprawia jego działanie, szczególnie w przypadku mniej popularnych języków, takich jak rumuński czy bułgarski.
Brzmi świetnie, jednakże w praktyce wypada znacznie gorzej od wydanego niedawno EuroLLM-9B. Pokonuje go także Llama-3.1-8B.
handelsblatt.com

======================
Ujdzie? Daj plusa, zostaw komentarz i kliknij w dzwonec... A, nie, to nie tutaj.
Tag do obserwowania lub czarnolistowania: >> #codzienneainews <<


======================
Zawołać cię do kolejnego wpisu? Zaplusuj CENTRALNĄ LISTĘ DO WOŁANIA dostępną pod tym linkiem:

https://wykop.pl/wpis/78971397/centralna-lista-do-wolania-zaplusuj-ten-wpis-aby-b

Aby nie być dalej wołanym/wołaną - odplusuj wspomniany wpis.
======================
Obraz: Fischermann
@PeterWeiss +506
CENTRALNA LISTA DO WOŁANIA

Zaplusuj ten wpis, aby być wołanym do wpisów spod tagu #codzienneainews

Aby nie być dalej wołanym - odplusuj ten wpis. Aby ponownie dopisać się do listy - zaplusuj ten wpis. Przy każdym wołaniu będę na bieżąco pobierał aktualną listę plusujących.
PeterWeiss - Meta wprowadza trzy nowe funkcje do okularów Ray-Ban: AI na żywo, tłumac...

źródło: @AIFischermann 06 b

Pobierz
  • 15
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

  • 2

Treść została ukryta...

@PeterWeiss +506
CENTRALNA LISTA DO WOŁANIA

Zaplusuj ten wpis, aby być wołanym do wpisów spod tagu #codzienneainews

Aby nie być dalej wołanym - odplusuj ten wpis. Aby ponownie dopisać się do listy - zaplusuj ten wpis. Przy każdym wołaniu będę na bieżąco pobierał aktualną listę plusujących.
  • Odpowiedz
  • 2

Treść została ukryta...

@PeterWeiss +506
CENTRALNA LISTA DO WOŁANIA

Zaplusuj ten wpis, aby być wołanym do wpisów spod tagu #codzienneainews

Aby nie być dalej wołanym - odplusuj ten wpis. Aby ponownie dopisać się do listy - zaplusuj ten wpis. Przy każdym wołaniu będę na bieżąco pobierał aktualną listę plusujących.
  • Odpowiedz
  • 2

Treść została ukryta...

@PeterWeiss +506
CENTRALNA LISTA DO WOŁANIA

Zaplusuj ten wpis, aby być wołanym do wpisów spod tagu #codzienneainews

Aby nie być dalej wołanym - odplusuj ten wpis. Aby ponownie dopisać się do listy - zaplusuj ten wpis. Przy każdym wołaniu będę na bieżąco pobierał aktualną listę plusujących.
  • Odpowiedz
  • 3
Wołam plusujących CENTRALNĄ LISTĘ DO WOŁANIA dostępną pod tym linkiem:

https://wykop.pl/wpis/78971397/centralna-lista-do-wolania-zaplusuj-ten-wpis-aby-b

Aby nie być dalej wołanym/wołaną - odplusuj zalinkowany wpis.

@PeterWeiss +506
CENTRALNA LISTA DO WOŁANIA

Zaplusuj ten wpis, aby być wołanym do wpisów spod tagu #codzienneainews

Aby nie być dalej wołanym - odplusuj ten wpis. Aby ponownie dopisać się do listy - zaplusuj ten wpis. Przy każdym wołaniu będę na bieżąco pobierał aktualną listę plusujących.
  • Odpowiedz
  • 26
Kalendarz adwentowy OpenAI: dzień 8.
OpenAI udostępniło funkcję wyszukiwania w ChatGPT wszystkim (zalogowanym) użytkownikom darmowych kont na całym świecie. Dodano również wyszukiwanie głosowe oraz ulepszono działanie aplikacji na różnych platformach.
Najważniejsze zmiany:
→ Wydajniejsze wyszukiwanie i lepsza obsługa na urządzeniach mobilnych.
→ Integracja z mapami (w tym Apple Maps) i dostęp do lokalnych informacji.
→ Wyszukiwanie głosowe, które pozwala uzyskiwać informacje z internetu w czasie rzeczywistym i prowadzić rozmowy w wielu językach.
PeterWeiss - Kalendarz adwentowy OpenAI: dzień 8.
OpenAI udostępniło funkcję wyszukiw...

źródło: 7rydfxszig0e1

Pobierz
  • Odpowiedz
@PeterWeiss: > Alchemia XXI wieku ;-)
Tłumaczenie: Nie wiemy dokładnie jak i dlaczego to działa, ale działa, więc proszę bardzo - częstujcie się!

Widziałem wczoraj na rddt. Ciekawy temat. Owszem, taki gemini może podsumować filmik na yt, ale robi to tylko po napisach lub tekście z transkrypcji. Za to ten tool analizuje też obraz, więc może być przydatny dla entuzjastów kodowania po godzinach ( ͡° ͜ʖ ͡°
jestemtakizmeczony - @PeterWeiss: > Alchemia XXI wieku ;-)
Tłumaczenie: Nie wiemy dok...

źródło: apollo

Pobierz
  • Odpowiedz
  • 1
@PeterWeiss +2
Prompt do "trójki" i wygenerowane wideo.

A close-up of a steaming cup of coffee on a wooden table, with sunlight gently filtering through a window in the background. The camera slowly pans upward, revealing a peaceful morning scene outside—birds flying across the sky as leaves rustle in a
PeterWeiss - @dziacha: MiniMax od Hailuoai jest (a w każdym razie był gdy ostatni raz...
  • Odpowiedz
@adisoniusz jakieś tokeny, modele, LLM...

Przydałby się jakies drzewko rozwoju AI, gdzie grubość gałęzi oznaczałaby ważność danego projektu i co z czego się wywodzi.

Może AI kiedyś zrobi;)
  • Odpowiedz
który tool? Chat GPT?

@Wybredny_Marian: Ten z newsa: Apollo.
ChatGPT podobnie jak Gemini nie analizuje nagrań z youtuba pod kątem audio-wizualnym. Bazuje na napisach, transkryptach i opisach danego filmiku. W takim zastosowaniu Apollo tak jakby ma "oczy", a GPT/Gemini są niewidome i korzystają z zapisu w alfabecie Braille'a.
  • Odpowiedz