Wpis z mikrobloga

Dobra wiadomość dla fanatyków #machinelearning posiadających starsze akceleratory graficzne ( ͡° ͜ʖ ͡°)

openclnvidiageforcegt540m.0 : NVIDIA Corporation GeForce GT 540M (OpenCL)


Experimental Config Devices:

llvmcpu.0 : CPU (LLVM)

openclnvidiageforcegt540m.0 : NVIDIA Corporation GeForce GT 540M (OpenCL)

Using experimental devices can cause poor performance, crashes, and other nastiness.

Enable experimental device support? (y,n)[n]:y


Multiple devices detected (You can override by setting PLAIDMLDEVICEIDS).

Please choose a default device:


1 : llvmcpu.0

2 : openclnvidiageforcegt540m.0

Default device? (1,2)[1]:2


Selected device:

openclnvidiageforcegt540m.0


Almost done. Multiplying some matrices...

Tile code:

function (B[X,Z], C[Z,Y]) -> (A) { A[x,y : X,Y] = +(B[x,z] * C[z,y]); }

Whew. That worked.


Save settings to /home/anonymus/.plaidml? (y,n)[y]:

Success!


To znaczy że urządzenia z OpenCL starszym niż 1.2 będą działać!!! ( ͡ ͜ʖ ͡)
Musiałbym teraz doinstalować coś aby hd 4000 było wykryte, ale ważne że jest #nvidia!
@wytrzzeszcz: Dobra wiadomość dla Ciebie, więc możesz odstawić mozolną malinę na bok!
https://rustyonrampage.github.io/deep-learning/2018/10/18/tensorfow-amd.html

  • 13
  • Odpowiedz
hd 4000


@majsterV2: cóż odpalanie ML na takich antykach jest co najmniej dyskusyjne, z tego co widzę większe sieci zwieszają się na tych kartach zastanawia  mnie też czy ogólnie nie będzie problemu zn iektórymi rzeczami. A amd ma Rocm.
  • Odpowiedz
@majsterV2: ogólnie na starszym sprzęcie. Szczerze nie pamiętam teraz jak wygląda użycie ram karty przy odpalonym modelu rcnn ale przy uczeniu na gtx 1060 6gb to 99% ram zajęte. To raczej jest ciekawostka gdzie można by dla testów odpalić prostsze modele. To będzie "przełom" raczej jak wyjdzie karta graficzna intela i intel kupił ta firmę co tego plainML robi. Po prostu intel chce mieć pewnie na start stack do ML, to
  • Odpowiedz
@CukrowyWykop: Myślę że tutaj wykorzystany jest cały ram w komputerze; może przy 16gb ddr3 byłoby lepiej (laptop jest tylko do testów i kodzenia; od uczenia przygotowałem sobie lepszą machinerię).
  • Odpowiedz
@majsterV2: nie kumasz. Jak uczysz taką sieć to jedziesz mocno vram karty i jego gpu. Z kolei np. przy testowaniu nauczonych sieci rcnn do wykrywania obrazów gpu obserwowałem do około 25-30% na gtx 1060 6gb ale nie pamiętam ile vram. Dwa sam ram przy uczeniu to nie problem zajechać wystarczy wrzucić jedno dwa zdjęcia w jpg o rozmiarze 1 mb i dużej rozdzielczości i ram w komie się kończy przy uczeniu.
  • Odpowiedz
@CukrowyWykop: Można jakoś to rozwiązać aby było więcej pamięci z ramu?
Z tego co widzę to OpenCL może też na CPU działać, więc przydałoby się rozbić proces i większa przestrzeń zostałaby użyta.
  • Odpowiedz
@majsterV2: ehh. Chłopie chyba nie bardzo wiesz jak ML działa. Po pierwsze przy uczeniu maszynowym ładujesz te dane do karty, używasz też zwykłego ramu bo dane też trzeba ładować do ramu(oczywiście są optymalizacje jeśli idzie o pamięć gpu https://devblogs.nvidia.com/how-optimize-data-transfers-cuda-cc/ ).CPU jest podczas uczenia i działania appki też używane ale w ograniczonym stopniu np. moje 8 rdzeni cpu podczas uczenia jest obciążone na około 25% .Dwa CPU są koszmarnie wolne przy nauczaniu
  • Odpowiedz
@majsterV2: plainml to nakładka nad którą jest TF. Jest tak dlatego że cuda jest łatwiejsza i wydajność nie rzadko lepsza niż opencl. I tak jak mówiłem wydaje się to budowanie stacku pod kart intela bo TF pod AMD puścisz od dawna tylko nie najnowse wersje i bywają problemy.
  • Odpowiedz