#codzienneainews **[1]** Naukowcy z Technicznego Uniwersytetu w Monach... (@PeterWeiss)

#codzienneainews [1] Naukowcy z Technicznego Uniwersytetu w Monachium opracowali narzędzie, które pozwala robotom poruszać się wydajniej naśladując naturalne wzorce ruchu zwierząt. Na przykładzie robo-psa wykazano, że można obliczyć najbardziej ekonomiczne wzorce ruchu dodając komputerowy regulator precyzyjnie wyzwalający impulsy energetyczne. Efekt: w wyścigu między trzema modelami nowa technika pozwoliła robotowi zaprogramowanemu metodą wewnętrznej dynamiki poruszać się szybciej i sprawniej.

https://www.sciencedaily.com/releases/2024/11/241118125806.htm

[2] Google rozpoczęło wdrażanie funkcji "pamięci" dla wybranych użytkowników Gemini. Podobna jest do tej znanej z ChatGPT i umożliwia dodawanie kontekstu do bieżących rozmów. Ma to usprawnić interakcje z chatbotem.

https://x.com/GeminiApp/status/1858929151476199591

[3] Le Chat firmy Mistral zyskał nowe funkcje, w tym przeszukiwanie internetu z cytowaniami, podobnie jak ChatGPT od OpenAI. Dodano także narzędzie Canvas umożliwiające edycję i przekształcanie treści takich jak makiety stron czy wizualizacje danych (bez konieczności regeneracji odpowiedzi). Le Chat obsługuje teraz duże pliki PDF i obrazy, umożliwiając ich analizę oraz podsumowanie, a także generowanie obrazów dzięki integracji z modelem Flux Pro od Black Forest Labs. Nowością są również "agenci" AI, pozwalający na automatyzację zadań takich jak przetwarzanie raportów wydatków czy faktur. Za większymi możliwościami stoją nowe modele - Pixtral Large i Mistral Large.

https://techcrunch.com/2024/11/18/mistral-unveils-new-ai-models-and-chat-features/

[4] ElevenLabs, znany z narzędzi AI do klonowania głosu i syntezatora mowy, wprowadził możliwość tworzenia botów konwersacyjnych. Na platformie deweloperskiej użytkownicy mogą dostosowywać zmienne, takie jak ton głosu, długość odpowiedzi czy kreatywność. Nowa funkcja obejmuje pełny pipeline do budowy agentów AI, z możliwością integracji własnej bazy wiedzy (np. plików czy URL-i) oraz wyboru modelu językowego (Gemini, GPT, Claude). Deweloperzy mogą modyfikować dodatkowe parametry, takie jak opóźnienia, stabilność, długość rozmów czy kryteria autoryzacji, a SDK obsługuje języki takie jak Python, JavaScript czy Swift.

https://techcrunch.com/2024/11/18/elevenlabs-now-offers-ability-to-build-conversational-ai-agents/

[5] Pojawiła się również LLaVA-o1. Jest to pierwszy(?) model języka wizualnego zdolny do spontanicznego, systematycznego "rozumowania", podobny do GPT-o1. Model 11B pokonał Gemini-1.5-pro, GPT-4o-mini i Llama-3.2-90B-Vision-Instruct w sześciu multimodalnych testach porównawczych.

https://github.com/PKU-YuanGroup/LLaVA-o1

#ainews #sztucznainteligencja #gruparatowaniapoziomu

======================

Zawołać cię do kolejnego wpisu? Zaplusuj CENTRALNĄ LISTĘ DO WOŁANIA dostępną pod tym linkiem:

https://wykop.pl/wpis/78971397/centralna-lista-do-wolania-zaplusuj-ten-wpis-aby-b

PeterWeiss

20.11.2024, 06:31:12 via Wykop

Wołam plusujących CENTRALNĄ LISTĘ DO WOŁANIA:

@PeterWeiss +508

CENTRALNA LISTA DO WOŁANIA

Zaplusuj ten wpis, aby być wołanym do wpisów spod tagu #codzienneainews

Aby nie być dalej wołanym - odplusuj ten wpis. Aby ponownie dopisać się do listy - zaplusuj ten wpis. Przy każdym wołaniu będę na bieżąco pobierał aktualną listę plusujących.

20.11.2024, 06:31:22 via Wykop

20.11.2024, 06:31:40 via Wykop

A tu przyjemmny artykuł, który nie tylko wyjaśnia, jak działają multimodalne modele językowe i porównuje je z najnowszymi badaniami w tej dziedzinie. Warto rzucić okiem.

[ https://magazine.sebastianraschka.com/p/understanding-multimodal-llms ]

Aktywne Wpisy

Co lepsze za 100 tysięcy

Aktywne Znaleziska

Elon Musk o przyszłości Europy. "Masowe ataki, masakra"

"Zrezygnujcie z VAT". USA stawiają Europie żądania

Dzietność w Polsce spada szybciej niż w najbardziej pesymistycznych scenariuszac

Bezprecedensowa decyzja. GPW zawiesza notowania

Największy krach od 2008 r. Panika na azjatyckich giełdach

Popularne tagi