Aktywne Wpisy
niegwynebleid +579
Zauważyliście, że w postapokaliptycznych światach nikt nie p--------a na rowerach?
Walka o samochody, benzyny, akumulatory, a jak nie ma to ubierają cichobieżki palestyńskie, ubierają plecak, który jest mniejszy i bardziej pusty niż plecak przedszkolaka wysłanego na jeden dzień na wycieczkę, i nawet czapki nie biorą.
Albo konia, jak oni nigdy obroku nie mają.
A rower jest świetny - prędkość wzrasta gwałtownie, można załadować zapasami jak konia, ominie zakorkowane miejsca, można go przenieść,
Walka o samochody, benzyny, akumulatory, a jak nie ma to ubierają cichobieżki palestyńskie, ubierają plecak, który jest mniejszy i bardziej pusty niż plecak przedszkolaka wysłanego na jeden dzień na wycieczkę, i nawet czapki nie biorą.
Albo konia, jak oni nigdy obroku nie mają.
A rower jest świetny - prędkość wzrasta gwałtownie, można załadować zapasami jak konia, ominie zakorkowane miejsca, można go przenieść,
Kunszt +108
• [1] Llama Stack upraszcza tworzenie aplikacji agentowych
Meta wydała Llama Stack, nowy interfejs API, upraszcza wdrażanie i dostosowywanie modeli Llama.
• [2] Emu3: Rewolucja w AI multimodalnym dzięki przewidywaniu kolejnego tokena
AAI wypuściło model Emu3, który wykorzystuje przewidywanie kolejnego tokena do generowania obrazów, tekstu i wideo. W przeciwieństwie do tradycyjnych modeli opartych na złożonych metodach, takich jak modele dyfuzyjne (np. Stable Diffusion) lub modele kompozytowe (np. CLIP z LLM), Emu3 używa pojedynczego transformera do obsługi sekwencji multimodalnych. Poprzez tokenizację obrazów, wideo i tekstu w przestrzeni dyskretnej, Emu3 osiąga najnowocześniejsze wyniki w zadaniach generowania (np. wysokiej jakości obrazy i wideo) oraz percepcji (np. zrozumienie wizji i języka).
Najważniejszą informacją jest to, że Emu3 przewyższa modele specjalistyczne takie jak SDXL w generowaniu obrazów oraz LLaVA w rozumieniu wizji i języka, nie polegając na metodach dyfuzyjnych ani innych. Uproszczona architektura skupia się wyłącznie na przewidywaniu kolejnego tokena, co ułatwia skalowanie podczas treningu i wnioskowania. Model wprowadza również przełomowe techniki w generowaniu wideo, przewidując kolejny token w sekwencji, co pozwala na rozszerzanie wideo na podstawie danych wejściowych.
• [3] API voice2voice dla agentów AI
Deepgram zaprezentował Deepgram Voice Agent API, ujednolicony interfejs API voice-to-voice dla agentów AI, który umożliwia naturalnie brzmiące rozmowy między ludźmi i maszynami
• [4] Inwestycje, inwestycje
Fundusz Blackstone zainwestuje 10 miliardów funtów (50 mld zł) w stworzenie "największego centrum obliczeniowego w Europie" w północno-wschodniej Anglii.
Google inwestuje 3,3 miliarda dolarów (13 mld zł) w Karolinie Południowej. Za te pieniądze postawione zostaną dwa nowe centra obliczeniowe i rozbudowana zostanie infrastruktura.
Microsoft ogłasza inwestycję o wartości 1,3 mld USD (5 mld zł) w infrastrukturę dla SI w Meksyku.
#ainews #sztucznainteligencja #gruparatowaniapoziomu
[1]
https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
[2]
https://github.com/baaivision/Emu3
https://streamable.com/yc5mn0
Tak czy inaczej - pograłbym ( ͡° ͜ʖ ͡°)