#codzienneainews •[1] Llama Stack upraszcza tworzenie aplikacji agentowych Meta wydała Llama Stack, nowy interfejs API, upraszcza wdrażanie i dostosowywanie modeli Llama.
•[2] Emu3: Rewolucja w AI multimodalnym dzięki przewidywaniu kolejnego tokena AAI wypuściło model Emu3, który wykorzystuje przewidywanie kolejnego tokena do generowania obrazów, tekstu i wideo. W przeciwieństwie do tradycyjnych modeli opartych na złożonych metodach, takich jak modele dyfuzyjne (np. Stable Diffusion) lub modele kompozytowe (np. CLIP z LLM), Emu3 używa pojedynczego transformera do obsługi sekwencji multimodalnych. Poprzez tokenizację obrazów, wideo i tekstu w przestrzeni dyskretnej, Emu3 osiąga najnowocześniejsze wyniki w zadaniach generowania (np. wysokiej jakości obrazy i wideo) oraz percepcji (np. zrozumienie wizji i języka).
Najważniejszą informacją jest to, że Emu3 przewyższa modele specjalistyczne takie jak SDXL w generowaniu obrazów oraz LLaVA w rozumieniu wizji i języka, nie polegając na metodach dyfuzyjnych ani innych. Uproszczona architektura skupia się wyłącznie na przewidywaniu kolejnego tokena, co ułatwia skalowanie podczas treningu i wnioskowania. Model wprowadza również przełomowe techniki w generowaniu wideo, przewidując kolejny token w sekwencji, co pozwala na rozszerzanie wideo na podstawie danych wejściowych.
•[3] API voice2voice dla agentów AI Deepgram zaprezentował Deepgram Voice Agent API, ujednolicony interfejs API voice-to-voice dla agentów AI, który umożliwia naturalnie brzmiące rozmowy między ludźmi i maszynami
•[4] Inwestycje, inwestycje Fundusz Blackstone zainwestuje 10 miliardów funtów (50 mld zł) w stworzenie "największego centrum obliczeniowego w Europie" w północno-wschodniej Anglii. Google inwestuje 3,3 miliarda dolarów (13 mld zł) w Karolinie Południowej. Za te pieniądze postawione zostaną dwa nowe centra obliczeniowe i rozbudowana zostanie infrastruktura. Microsoft ogłasza inwestycję o wartości 1,3 mld USD (5 mld zł) w infrastrukturę dla SI w Meksyku.
Bonus: Jak GTA: Vice City mogłoby wyglądać, gdyby zostało wydane w 2024 roku. Filmik powstał przy użyciu generatora Runway Gen 3 w trybie video-to-video.
• [1] Llama Stack upraszcza tworzenie aplikacji agentowych
Meta wydała Llama Stack, nowy interfejs API, upraszcza wdrażanie i dostosowywanie modeli Llama.
• [2] Emu3: Rewolucja w AI multimodalnym dzięki przewidywaniu kolejnego tokena
AAI wypuściło model Emu3, który wykorzystuje przewidywanie kolejnego tokena do generowania obrazów, tekstu i wideo. W przeciwieństwie do tradycyjnych modeli opartych na złożonych metodach, takich jak modele dyfuzyjne (np. Stable Diffusion) lub modele kompozytowe (np. CLIP z LLM), Emu3 używa pojedynczego transformera do obsługi sekwencji multimodalnych. Poprzez tokenizację obrazów, wideo i tekstu w przestrzeni dyskretnej, Emu3 osiąga najnowocześniejsze wyniki w zadaniach generowania (np. wysokiej jakości obrazy i wideo) oraz percepcji (np. zrozumienie wizji i języka).
Najważniejszą informacją jest to, że Emu3 przewyższa modele specjalistyczne takie jak SDXL w generowaniu obrazów oraz LLaVA w rozumieniu wizji i języka, nie polegając na metodach dyfuzyjnych ani innych. Uproszczona architektura skupia się wyłącznie na przewidywaniu kolejnego tokena, co ułatwia skalowanie podczas treningu i wnioskowania. Model wprowadza również przełomowe techniki w generowaniu wideo, przewidując kolejny token w sekwencji, co pozwala na rozszerzanie wideo na podstawie danych wejściowych.
• [3] API voice2voice dla agentów AI
Deepgram zaprezentował Deepgram Voice Agent API, ujednolicony interfejs API voice-to-voice dla agentów AI, który umożliwia naturalnie brzmiące rozmowy między ludźmi i maszynami
• [4] Inwestycje, inwestycje
Fundusz Blackstone zainwestuje 10 miliardów funtów (50 mld zł) w stworzenie "największego centrum obliczeniowego w Europie" w północno-wschodniej Anglii.
Google inwestuje 3,3 miliarda dolarów (13 mld zł) w Karolinie Południowej. Za te pieniądze postawione zostaną dwa nowe centra obliczeniowe i rozbudowana zostanie infrastruktura.
Microsoft ogłasza inwestycję o wartości 1,3 mld USD (5 mld zł) w infrastrukturę dla SI w Meksyku.
#ainews #sztucznainteligencja #gruparatowaniapoziomu
źródło: midjourney GXuAVGuagAAVwzx
Pobierz[1]
https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
[2]
https://github.com/baaivision/Emu3
https://streamable.com/yc5mn0
źródło: temp_file6502696099970813707
PobierzTak czy inaczej - pograłbym ( ͡° ͜ʖ ͡°)