Wpis z mikrobloga

Skopiuj link

15.11.2024, 05:01:29

#codzienneainews przegląd prac naukowych #cainarxiv

• [1] ML w psychiatrii klinicznej
Naukowcy z University of Toronto, Imperial College London, University of York i Western University zbadali wpływ ekonomiczny wykorzystania uczenia maszynowego w psychiatrii klinicznej. Stwierdzili, że uczenie maszynowe może przynieść oszczędności, pomagając lekarzom w skuteczniejszym diagnozowaniu i leczeniu pacjentów.

https://arxiv.org/abs/2411.05856

• [2] Nawigacja bez mapy, ale z VLM-em
Naukowcy z UC Berkeley i University of Pennsylvania opracowali nowy sposób wykorzystania Vision-Language Model (VLM) do nawigacji. Stworzyli oni nowy system promptowania, który pozwala VLM działać jako nawigator (na razie w pomieszczeniach). W przeciwieństwie do poprzednich rozwiązań, ta metoda nie opiera się ona na oddzielnych modułach percepcji, planowania i kontroli. A w dodatku w benchmarkach wypadła znacznie lepiej niż dotychczasowe rozwiązania.

You are an embodied robotic assistant, with an RGB image sensor. TASK: Idź po konewkę i podlej kwiatki.

https://jirl-upenn.github.io/VLMnav/

• [3] Deep Learning przyspiesza symulację ubrań
Naukowcy z UCLA, Epic Games, UC Davis oraz Uniwersytetu Stanforda opracowali nową metodę, która przyspiesza symulację ubrań. Wykorzystują zestaw płytkich sieci neuronowych, z których każda koncentruje się na konkretnym stawie, aby precyzyjnie odwzorować kształt animowanych postaci. Metoda ta jest dziesięciokrotnie szybsza niż dotychczasowe podejścia i potrafi obsłużyć do 6 000 cząsteczek na ubraniu.

Wcześniejsze metody wykorzystywały pojedynczą głęboką sieć neuronową do odwzorowania całej postaci, co bywało kosztowne obliczeniowo (szczególnie w aplikacjach działających w czasie rzeczywistym).

https://arxiv.org/abs/2411.06719

• [4] Dataset do nauki przedmiotów ścisłych dla niesłyszących
Badacze z Uniwersytetu Kalifornijskiego w Berkeley, Microsoft Research oraz Uniwersytetu Maryland stworzyli ASL STEM Wiki - pierwszy zestaw danych w (amerykańskim) języku migowym skoncentrowany na tematach STEM. Zawiera on ponad 300 godzin nagrań wideo w amerykańskim języku migowym, interpretowanych przez 37 certyfikowanych tłumaczy. Ten zestaw danych pomoże w opracowaniu narzędzi AI, które uczynią edukację STEM bardziej dostępną dla niesłyszących uczniów.

https://arxiv.org/abs/2411.05783

#sztucznainteligencja #gruparatowaniapoziomu

Zawołać cię do kolejnego wpisu? Zaplusuj CENTRALNĄ LISTĘ DO WOŁANIA dostępną pod tym linkiem:

https://wykop.pl/wpis/78971397/centralna-lista-do-wolania-zaplusuj-ten-wpis-aby-b

@PeterWeiss +506

CENTRALNA LISTA DO WOŁANIA

Zaplusuj ten wpis, aby być wołanym do wpisów spod tagu #codzienneainews

Aby nie być dalej wołanym - odplusuj ten wpis. Aby ponownie dopisać się do listy - zaplusuj ten wpis. Przy każdym wołaniu będę na bieżąco pobierał aktualną listę plusujących.

PeterWeiss

15.11.2024, 05:02:34 via Wykop

Narzędzi EJ-AJowych jest od groma i ciut ciut. Przez ten natłok dopiero ostatnio zauważyłem fajny projekt - Moondream. To malutki model do analizy obrazów, który robi spore wrażenie swoją efektywnością. W przeciwieństwie do swoich wielkich braci pokroju GPT-4V, zajmuje tylko 1GB pamięci i można go odpalić nawet na standardowym laptopie. Model potrafi opisywać obrazy, odpowiadać na ich temat i wykrywać tekst - wszystko to robiąc lokalnie, bez wysyłania danych w chmurę. Do

PeterWeiss

15.11.2024, 05:04:21 via Wykop

Wołam plusujących wpis:
https://wykop.pl/wpis/78971397/centralna-lista-do-wolania-zaplusuj-ten-wpis-aby-b

@PeterWeiss +506

makrofag74

15.11.2024, 06:15:58 via Wykop

https://huggingface.co/spaces/vikhyatk/moondream2
https://huggingface.co/vikhyatk/moondream2

E.....y

konto usunięte 15.11.2024, 07:02:13 via Android

@PeterWeiss jak się to uruchamia? Nigdy się nie bawiłem tym

makrofag74

15.11.2024, 11:04:08 via Wykop

moondream2 jest też dostępny na liście modeli wizyjnych w taggui https://github.com/jhc13/taggui

BreathDeath

15.11.2024, 11:07:35 via Wykop

@Eustachy_goli_pachy: Jest instrukcja na githubie.

PeterWeiss

15.11.2024, 11:42:17 via Wykop

@Eustachy_goli_pachy: Jeśli nie chcesz się bawić z terminalem, to odpal sobie eksperymentalną wersję Moondream w przeglądarce. Link niżej. Mimo "webGPU" w nazwie, wszystko odbywa się lokalnie. Na początku zaciąga prawie 2GB danych modelu i oczywiście nie działa w firefox, więc trzeba użyć czegoś innego (Edge np działa).