Aktywne Wpisy

Co lepsze za 100 tysięcy
- Nowy kompaktowy samochód KIA 74.3% (329)
- 15 letnia klasa premium BMW 25.7% (114)

Uuroboros +11
nie chce mi się już oglądać p---o a gram już tylko w stare gry. Rutyna to moje całe życie a wyprawa do zoo ciągnie mi się już drugi rok.
Mógłbym czytać se książki całe dnie i nie zauważyłbym że jest noc, spontanicznie nic mi się nie chce, szybko popadam we frustracje w kontakcie z instytucjami prywatnymi i państwowymi, denerwują mnie rzeczy wybijające mnie z codzienności
Dorosłość jest p------a.
Mógłbym czytać se książki całe dnie i nie zauważyłbym że jest noc, spontanicznie nic mi się nie chce, szybko popadam we frustracje w kontakcie z instytucjami prywatnymi i państwowymi, denerwują mnie rzeczy wybijające mnie z codzienności
Dorosłość jest p------a.





[2] Google rozpoczęło wdrażanie funkcji "pamięci" dla wybranych użytkowników Gemini. Podobna jest do tej znanej z ChatGPT i umożliwia dodawanie kontekstu do bieżących rozmów. Ma to usprawnić interakcje z chatbotem.
[3] Le Chat firmy Mistral zyskał nowe funkcje, w tym przeszukiwanie internetu z cytowaniami, podobnie jak ChatGPT od OpenAI. Dodano także narzędzie Canvas umożliwiające edycję i przekształcanie treści takich jak makiety stron czy wizualizacje danych (bez konieczności regeneracji odpowiedzi). Le Chat obsługuje teraz duże pliki PDF i obrazy, umożliwiając ich analizę oraz podsumowanie, a także generowanie obrazów dzięki integracji z modelem Flux Pro od Black Forest Labs. Nowością są również "agenci" AI, pozwalający na automatyzację zadań takich jak przetwarzanie raportów wydatków czy faktur. Za większymi możliwościami stoją nowe modele - Pixtral Large i Mistral Large.
[4] ElevenLabs, znany z narzędzi AI do klonowania głosu i syntezatora mowy, wprowadził możliwość tworzenia botów konwersacyjnych. Na platformie deweloperskiej użytkownicy mogą dostosowywać zmienne, takie jak ton głosu, długość odpowiedzi czy kreatywność. Nowa funkcja obejmuje pełny pipeline do budowy agentów AI, z możliwością integracji własnej bazy wiedzy (np. plików czy URL-i) oraz wyboru modelu językowego (Gemini, GPT, Claude). Deweloperzy mogą modyfikować dodatkowe parametry, takie jak opóźnienia, stabilność, długość rozmów czy kryteria autoryzacji, a SDK obsługuje języki takie jak Python, JavaScript czy Swift.
[5] Pojawiła się również LLaVA-o1. Jest to pierwszy(?) model języka wizualnego zdolny do spontanicznego, systematycznego "rozumowania", podobny do GPT-o1. Model 11B pokonał Gemini-1.5-pro, GPT-4o-mini i Llama-3.2-90B-Vision-Instruct w sześciu multimodalnych testach porównawczych.
#ainews #sztucznainteligencja #gruparatowaniapoziomu
======================
Zawołać cię do kolejnego wpisu? Zaplusuj CENTRALNĄ LISTĘ DO WOŁANIA dostępną pod tym linkiem:
Zaplusuj ten wpis, aby być wołanym do wpisów spod tagu #codzienneainews
Aby nie być dalej wołanym - odplusuj ten wpis. Aby ponownie dopisać się do listy - zaplusuj ten wpis. Przy każdym wołaniu będę na bieżąco pobierał aktualną listę plusujących.
źródło: @Mischief_img 01
PobierzZaplusuj ten wpis, aby być wołanym do wpisów spod tagu #codzienneainews
Aby nie być dalej wołanym - odplusuj ten wpis. Aby ponownie dopisać się do listy - zaplusuj ten wpis. Przy każdym wołaniu będę na bieżąco pobierał aktualną listę plusujących.
[ https://magazine.sebastianraschka.com/p/understanding-multimodal-llms ]