Wpis z mikrobloga

Skopiuj link

01.03.2021, 17:16:31

#jezykc #cpp #programowanie Zawsze słyszałem żeby korzystać z jednowymiarowych tablic int* niż dwuwymiarowych int**,
porobiłem pare testów i wyszło że te dwuwymiarowe są ok. 4x lub wiecej szybsze niż 1 wymiarowe, przynamjniej kompilujac na Intelu visual studio x86, chce jeszcze sprawić na docelowej architekturze 68k.. może to wybika z tego że żeby móc traktoac 1 wymiarowa tablicę jako macierz trzeba jednac sobie obliczyć index = x + y * width - co jest dodatkową operacją.. w każdym razie w tym przypadku przyrost wydajności bardzo duży..

ZawzietyRobaczek

01.03.2021, 19:43:20

@Hadzik: @groman43: @hszan: @zrakiep: @Passer93: @zrakiep: @MamCieNaHita: @SpinOff podaje wiecej info:
- intel i7
- kompilator Visual Studio 2019, jezyk C (nie cpp), komilacja release x86
- tablice dynamiczne
- zarówno na debug i release tablice **

zrakiep

01.03.2021, 19:54:15

 for (int i = 0; i < RC_render_width_i; ++i)
 {
 tab_2d_1[i] = (my_struct*)malloc(RC_render_width_i * sizeof(my_struct));
 }

wymiary ci się pomieszały

ZawzietyRobaczek

01.03.2021, 20:00:25

@zrakiep: nie to jest do tab dwuwymiarowej

zrakiep

01.03.2021, 20:01:50

@ZawzietyRobaczek: jeżeli width masz 10 a height 1000, to robisz w tablicy tylko 10 wierszy po 10 elementow

Passer93

01.03.2021, 20:01:56

@ZawzietyRobaczek: Czemu Ty to tagujesz #cpp jak to jest jakieś jaskiniowe C? xD

ZawzietyRobaczek

01.03.2021, 20:02:14

@Hadzik: @groman43: @hszan: @zrakiep: @Passer93: @zrakiep: @MamCieNaHita: @SpinOff: test ktory podałem wyżej jest drugim testem, takim bardziej ułożónym, wczoraj robilem z kwadratową tablicą 10000x10000 i było to samo, także na razie wychodzi ze tab** sa szybsze przynajmniej w tych warunkach o ktorych wspomniałem

ZawzietyRobaczek

01.03.2021, 20:03:05

@Passer93: rownie dobrze można zamienić malloc na new i efekt bedzie ten sam

Passer93

01.03.2021, 20:05:46

@ZawzietyRobaczek: Ale mi chodzi o to że cały kod jest C xD Uzywaśz printfa, clocka, jak chcesz mierzyć czas dokładnie to masz od tego std::chrono::high_resolution_clock. A new się w modern cpp nie używa xD

zrakiep

01.03.2021, 20:06:26

na razie to widze, że to się wysypuje jak np dodam jeszcze jednego inta do structa. Coś jest nie tak z tym. Oprócz tego fora co ci go znalazłem, to jeszcze powinno być tab_2d_1 = (my_struct**)malloc(RC_render_width_i * sizeof(my_struct*)); - zabrakło ci * w sizeof

zrakiep

01.03.2021, 20:10:26

Poza tym.. mikrobenchmark na clock()? Poprawiłem twój kod ( https://paste.ofcode.org/t6g2zNG22RH36Cb8Z4tXcu ), i dodałem by też wypisał jaka to jest ta wartość time2-time1. Taki mam wynik:

test 1: 0.002000 2
test 2: 0.002000 2

Tak.. różnica w wartości clock() to 2. Trochę nie za dokładny ten test :)

zrakiep

01.03.2021, 20:16:58

@ZawzietyRobaczek, podkręciłem te wymiary x10 i mam trochę dokładniejsze pomiary. I faktycznie, 2d jest szybsze:

test 1: 0.701000 701
test 2: 0.207000 207

No i już widzę czemu: przechodzisz tablicę w najgorszy możliwy sposób. Nie po kolei, ale w każdej pętli skaczesz do kolejnego wiersza w tabeli. Zamieniłem w test1 fory miejscami (najpierw po ry, potem po rx: https://paste.ofcode.org/dmFcZCeWMgE4ZT6qPCMrTW ) i mam taki

ZawzietyRobaczek

01.03.2021, 20:20:09

@zrakiep: tak, przy małeych wartosciach moze być mneisza roznica, to był "prawdziwy" w sensie ze na takich wartoscaich operuje w programie, teraz mam tak, można uzyć też high precision clock ale wyniki beda podobne raczej

ZawzietyRobaczek

01.03.2021, 20:20:49

@zrakiep: osobiscie też mnie to zdzwiło, ale tez przyrost predkosci jest zbyt miły dla oka i musze lekko przerobić docelowy kod :)

zrakiep

01.03.2021, 20:20:52

@ZawzietyRobaczek, a nie, cofam. Bo zrobiłeś w test1 zasadniczo tablicę [ry][rx] a w test2 [rx][ry], potem przechodziłeś w sposób optymalny dla [rx][ry] i maksymalnie zły dla [ry][rx]. Stąd miałeś różnice w wynikach x4, tyle że to nie testowanie 1d vs 2d tylko "zgodnie z cache" vs "na złość cache".

W tym moim 134 vs 207 masz prawdziwą różnicę w wydajności 1d vs 2d na korzyść 1d.

ZawzietyRobaczek

01.03.2021, 20:21:41

@zrakiep: ok, to zrób test na kwadratowej :) 1000x1000

ZawzietyRobaczek

01.03.2021, 20:24:29

@zrakiep: ok, widzę różnice przy zamianie rx na ry.. wtedy faktycznie wynik jest odwrotny, ale mysle że mozna wykorzystać tą pierwszą wersję, lub dostosowac kod do niej zeby poprawić wydajnosc - na kwadratowej tez jest na korzysc 2d

ZawzietyRobaczek

01.03.2021, 20:28:08

@zrakiep: chociaż nie.. widać wszystko zalezy od kolejnosci dostępu rx->rx lub ry->rx w tym drugim jest wolniej faktycznie ale w tym pierwszym szybciej.. wiec kwestia dostosowania kodu programu zeby to wykorzystać i sprawdzenia bo łatwo się machnąć w tym,

zrakiep

01.03.2021, 20:28:51

@ZawzietyRobaczek: Nie, to nie tak - masz dwie różne tablicę. Popatrz na kod do znajdowani indeksów:

int tab1_index = rx + ry * RC_render_width_i;
Każdy kolejny ry jest od siebie oddalony od RC_render_width_i. Natomiast w drugiej tablicy masz [rx][ry] - każdy kolejny ry jest obok siebie.

Jak przechodzisz tablicę po kolei po ry, to w teście 1 skaczesz co RC_render_width_i (źle dla cache) a w teście 2 o