Wpis z mikrobloga

Skopiuj link

02.11.2020, 17:01:46

hej Mirki od #springboot #java, potrzebuję pomocy w optymalizacji tego kodu.

Kod na 1 corowym z 2GB RAM VPSie i bazą w pgsql działa ok 6-10 minut i jest dla mnie nie akceptowalny szczególnie dla takiej ilości danych.
Niestety z zewnętrznego źródła dostaję zawsze komplet UIDów (teraz ok 100 tys.) nieważnych dokumentów bez żadnych dodatkowych znaczników.
Chcę wyfiltrować dokumenty do usunięcia i je usunąć skoro trafiły na czarna listę i zapisać czarną listę dla rozpropagowania dalej identyfikatory dokumentów, które zostały usunięte.

saquas

02.11.2020, 17:18:04 via Wykop Mobilny (Android)

@JacobTheLiar: sprawdzałeś profilerem co zajmuje dużo czasu?

JacobTheLiar

02.11.2020, 17:25:00

@saquas: nie, szczerze nigdy nie używałem, tym bardziej nie myślałem uruchamiać podobnych narzędzi na zdalnym serwerze.

63274682374

02.11.2020, 17:44:47

@JacobTheLiar: Metoda isDocumentInvalid do poprawy. Dla Seta są szybsze sposoby na sprawdzenie czy obiekt się w nim znajduje niż zamiana na strumień i przechodzenie po wszystkich elementach aż się nie znajdzie szukanego.

JacobTheLiar

02.11.2020, 17:46:44

@63274682374: a może jakaś podpowiedź?

Ridicz

02.11.2020, 17:47:43

@JacobTheLiar: Te invalidDocuments dostajesz z jakiejś bazy? Query w SQLu będzie nieporównywalnie szybsze niż operacje na streamie. Jeśli możesz przesuń to do warstwy persystencji.

JacobTheLiar

02.11.2020, 17:49:23

@Ridicz: invalidDocuments dostaję z serwisu restowego.

63274682374

02.11.2020, 17:51:00

@JacobTheLiar: Metoda contains() (pamiętaj o hashCode i equals)

JacobTheLiar

JacobTheLiar

02.11.2020, 17:55:10

@63274682374: noo tak, ale contains() chyba mogę stosować do tych samych obiektów, a u porównuję sety dwóch różnych obiektów? czy się mylę?

63274682374

02.11.2020, 18:01:40

@JacobTheLiar: Generalnie tak, choć i tak wszystko zależy od implementacji hashCode i equals. W twoim przypadku nie ma natomiast potrzeby łamania zasad i:
- albo zmapujesz sobie Set do zbióru Uid i w nim będziesz szukał
- albo do contains przekażesz new InvalidDocument(document.getUid())

JacobTheLiar

JacobTheLiar

02.11.2020, 18:05:34

@63274682374: ok... jest to jakaś myśl, zbadam propozycje ...

JacobTheLiar

02.11.2020, 19:12:51

@63274682374: niestety zmiana tego pogorszyła sprawę i jest teraz 13 minut filtrowania. klasy hashe i equalsy mają. Pobieranie z bazy trwało niecałą sekundę.

return invalidDocuments.contains(new InvalidDocument(document.getUid()));

saquas

02.11.2020, 19:22:13

@JacobTheLiar: sorry, że dopiero teraz ale cały dzień byłem zarobiony. Jesteś w stanie skonfigurować środowisko lokalnie?

Jak nie takie szybkie pytanie: jak wygląda metoda: invalidDocumentRepository.saveAll(toAddInvalidDocuments)?

JacobTheLiar

saquas

02.11.2020, 19:24:24

@JacobTheLiar: a i wd mnie, Twoja metoda isDocumentInvalid jest w porządku. Drugie pytanie jak wygląda ta metoda: removeInvalid.removeInvalidDocuments(toDelete);

Wd mnie powinien iść sql który wygląda tak: delete * from documents d where d.id in (i tutaj id wszystkich documentów do wywalenia). Druga rzecz invalidDocumentRepository.saveAll(toAddInvalidDocuments) powinna być batchem.

JacobTheLiar

63274682374

02.11.2020, 19:41:19

a i wd mnie, Twoja metoda isDocumentInvalid jest w porządku.

@saquas: serio?

@JacobTheLiar: > Pobieranie z bazy trwało niecałą sekundę.
Raczej nie. Operacje bazodanowe są tutaj najbardziej czasochłonne. Najprawdopodobniej źle mierzysz czas wykonania, nie bierzesz pod uwagę tego co jest dociągane lazy itp...
Zmiana, którą wprowadziłeś na pewno przyspieszyła samo wyszukiwanie. Jedyne co mogło pogorszyć wydajność to tworzenie nowego obiektu i to tylko jeśłi masz jakiś kod w konstruktorze o

JacobTheLiar

JacobTheLiar

02.11.2020, 20:01:09

@63274682374: @saquas:

ogólnie każde repository jest springowe/hibernate. podobnie saveall i delete all z JpaRepository.

rozdzieliłem pobieranie i filtrowanie na dwa kroki

List documents = documentList.getAllDocuments();
Set toDelete = documents
.stream()
.filter(document -> isDocumentInvalid(document, invalidDocuments))
.collect(Collectors.toSet());

przed każdym krokiem dałem sdouta i wynik mam taki
step 1 - get 2020-11-02 19:55:42
step 2 - filter 2020-11-02 19:55:43
step - done 2020-11-02 20:08:15

choć kolejne wywołanie wygląda bardziej obiecująco
step 1 -

saquas

02.11.2020, 21:25:52

@63274682374: a co jest złego w tym sprawdzeniu? Wykonuje się to liniowo, porównuje hashe 2 stringów. I kończy kiedy znajdzie. Dokładnie robi to samo co metoda contains z listy.

JacobTheLiar

63274682374

02.11.2020, 21:43:53

Dokładnie robi to samo co metoda contains z listy.

@saquas: Dokładnie... tylko, że tu mamy Set!. Wyszukiwanie w nim tak jakby to była lista to o wiele gorsza złożoność. Tym bardziej, że ze sprawdzanych 50k obiektów znajduje kilka/kilknaście obiektów w zbiorze 100k. Oznacza to, że ok 50k razy iterujesz po wszystkich 100k obiektów... a to już strasznie dużo.

JacobTheLiar

saquas

02.11.2020, 21:54:19

@63274682374: masz rację, zwracam honor. Nie zauważyłem.

JacobTheLiar

03.11.2020, 07:04:06

@saquas: @63274682374: wszystko ekstra, mimo wszystko dla takiej ilości danych powinno lecieć max kilka sekund przy tej konfiguracji serwera, a nie kilka-kilkanaście minut.
dzięki sugestii @63274682374

Operacje bazodanowe są tutaj najbardziej czasochłonne.

zabrałem się za dokładne analizowanie serwera i to on okazał się winny całemu zamieszaniu (założę osobny wątek, na jego temat). Okazało się, że po ostatnim włamie na mój serwer VPS ktoś coś zostawił co żarło całe zasoby. Pewnie

**źródło:** comment_16043868198q24jhmz2Q6bBiGfm51VvT.jpg

JacobTheLiar

03.11.2020, 08:33:22

@saquas: @63274682374: FYI

średnie pobieranie danych z bazy - 11ms

średnie czasy filtrowania
invalidDocuments.contains(new InvalidDocument(document.getUid())); - 14ms
invalidDocuments.stream().anyMatch(invalidDocument -> document.getUid().equals(invalidDocument.getUid())); - 2m45sek

także dzięki wielkie @63274682374

Aktywne Wpisy

Fifth_Element

Fifth_Element +961

5 godz. i 50 min temu

Jeśli ten wpis osiągnie dzisiaj 243 plusy, to dorysuję kolejny poziom trójkąta sierpińskiego. Będę to robił codziennie (ale nie w weekend) aż do momentu, kiedy nie zbierze się odpowiednia liczba plusów lub wyrzucą mnie z roboty.
#glupiewykopowezabawy #informatyka #matematyka #trojkatsierpinskiego

kantek007

kantek007 +35

5 godz. i 51 min temu

#warszawa
Ide do urzędu
Numerki nie dzialają
wolna_amerykanka.gif
Do okienka dopycha się obcokrajowiec ze źle wypełnionym drukiem
urzędniczka tłumaczy mu po polsku bo nie zna ani słowa po angielsku xD
obcokrajowiec nipanimaju.exe coś się pyta po angielsku ale bez skutku
pani w okienku powtarza 10-razy to samo po polsku xDDDDD
Wreszcie jakiś facet tłumaczy o co chodzi i wszyscy się rozchodza z niczym xD

URZĄD PAŃSTWOWY W STOLICY KRAJU W JEDNEJ Z

Aktywne Wpisy

Aktywne Znaleziska

3 promile i tróje dzieci w aucie. 29-latka ujęta przez świadka

Rafał Trzaskowski podjął decyzję zastrzeleniu Warszawie ok. 200 dzików!

Mentzen zabiera głos w sprawie koalicji z Kaczyńskim.

Zawiera treści 18+

To stąd ten kwik. Kolejny sondaż i prawie 17% dla Konfederacji

Popularne tagi