Wpis z mikrobloga

Skopiuj link

konto usunięte 17.12.2017, 18:53:12

#programowanie #bazydanych #nosql
Witam Mireczków, interesuje mnie rozwiązanie pewnego problemu, który przedstawię na prostym przykładzie. Na przykład bierzemy bank, gdzie mamy klienta oraz jego przychody i wydatki. Zakładając, że mamy 100 000 klientów i każdy z nich wykona średnio 200 transakcji to mamy 20 000 000 rekordów w tabeli. Chyba zgodzicie się, że przeszukanie takiej tabeli jest bardzo czasochłonne, więc jak to zrobić by miało RENCE I NOGI.

Na obecny stan mój wiedzy wydaje mi się, że najłatwiej było by to zrobić w NoSQL, ale interesuje mnie rozwiązanie w relacyjnej bazie danych.

Cronox

Yahoo_

17.12.2017, 18:54:23 via Android

@nihilm 20kk rekordów to wcale nie tak dużo :)

oko_strusia

17.12.2017, 18:58:51

@nihilm: Dobre indeksy i przeszukanie wcale nie będzie czasochłonne.

n.....m

konto usunięte 17.12.2017, 18:58:55

@Yahoo_: Ale umówmy się, 200 transakcji na jednego klienta to pęknie w pierwsze kilka miesięcy, a mnie interesuje rozwiązanie

Yahoo_

17.12.2017, 19:01:56 via Android

@nihilm a banki stać na dobre serwery :p
A tak serio to szczerze nie wiem jak to rozwiązują, strzelam, że w bazie maja tylko część rekordów (np. 2 lata), a resztę archiwizują i mają do tego bazy w trybie read only.

konto usunięte

T.....n

konto usunięte 17.12.2017, 19:08:19

@nihilm: generalnie dzielisz transakcje na 2 części
1. część - transakcje bieżące (np z pół roku) i trzymasz je w normalnej bazce relacyjnej
2. część - pakujesz resztę do hurtowni danych z odpowiednim indeksowaniem
masz szybki system z danymi od razu do robienia analiz

problem solved

konto usunięte
konto usunięte
Dwiks

Ununoctium

17.12.2017, 19:10:59

@nihilm: Tak jak piszą koledzy wyżej. Wyszukiwanie działa szybko póki indeks mieści się w pamięci RAM. Aktualnie serwery potrafią mieć 256GB pamięci RAM.

Jeśli dalej jest problem i nie możemy go rozwiązać archiwizacją, to możemy wykorzystać np. sharding.

konto usunięte

GhoulPolonofag

17.12.2017, 19:37:18

Aktualnie serwery potrafią mieć 256GB pamięci RAM.

@Ununoctium: Witamy w 2012. Nawet Amazon oferuje instancje mające 4TB RAMu, a dedykowany sprzęt pod wysokowydajne bazy danych potrafi mieć więcej.

GhoulPolonofag

17.12.2017, 19:41:25

@nihilm:

Chyba zgodzicie się, że przeszukanie takiej tabeli jest bardzo czasochłonne, więc jak to zrobić by miało RENCE I NOGI.

Nie jest, opisywane przez Ciebie dane są malutkie i trywialne do zaindeksowania, bo partycjonujesz wg użytkownika i primary key jest zawsze rosnący (data lub liczba), więc wszystko pięknie się wstawia.

Ununoctium

17.12.2017, 19:49:05 via Android

@GhoulPolonofag Amazon to raczej chmura. Zdaje sobie sprawe że są pewnie instalacje z większą ilością ram, nie napisałem przecież że to max. Chodziło raczej o pokazanie rzędu wielkości.

plushy

17.12.2017, 19:53:09

@nihilm: Nie waż się wsadzać NoSQL do projektu jeśli nie jesteś specjalistą od baz relacyjnych. NoSQL ma swoje zastosowania ale to nie jest jedno z nich.

Supaplex

17.12.2017, 19:53:38

@nihilm: Poczytaj o partycjonowaniu tabeli.
Dzięki temu rozwiązaniu logicznie jest np. jedna tabela z transakcjami, ale transakcje są miesiącami porozrzucane na osobnych tablespace, a co za tym idzie osobnych storage czy nawet całych instancjach. Dzięki temu szukani transakcji w danym miesiącu - już powoduje szukanie tylko w jednym miejscu wg jednego "małego" indexu.

Jest to rozwiązania m.in oracla w wersji enterpice i z tego się korzysta.

RomantycznyRoman

GhoulPolonofag

17.12.2017, 20:09:44

@Supaplex: Partycjonowanie wg dat nie ma tu większego sensu, bo nie ma sensu nigdy szukać wg dat bez wskazania użytkownika. Bank to taki przypadek, że jeden użytkownik widzi dane tylko swoje - i nigdy nie przegląda jakiegoś ogólnego widoku "pokaż transakcje wszystkich klientów banku z poprzedniego miesiąca". Analizy można odpalać na archiwalnej kopii tutaj.

Partycjonowanie wg użytkowników i primary key na numer transakcji albo datę zlecenia.

Supaplex

17.12.2017, 20:11:45

@GhoulPolonofag: No w sumie racja. Po użytkowniku jet efektowniej.
Później i tak do hurtowni, odpowiednie agregacje i voila.

GhoulPolonofag

maniac777

17.12.2017, 20:14:53

Chyba zgodzicie się, że przeszukanie takiej tabeli jest bardzo czasochłonne, więc jak to zrobić by miało RENCE I NOGI.

@nihilm: Relacyjna baza danych (nie noSQL) i indeks. Możesz mieć setki milionów rekordów i nadal wyszukiwanie transakcji danego klienta to zagadnienie na kilka milisekund.

Wyszukiwanie działa szybko póki indeks mieści się w pamięci RAM.

@Ununoctium: Indeks nie musi mieścić się w całości w pamięci RAM.

Ununoctium

17.12.2017, 20:51:50 via Android

@maniac777 Nie musi, ale wtedy baza działa najlepiej.

maniac777

17.12.2017, 21:18:48

@Ununoctium: oczywiscie ze najlepiej ogolnie jak cala zmiesci sie w RAM ale w ram zawsze sa i bloki z indeksami i z danymi najczesciej nie masz kontroli nad tym ile blokow indeksow i ile blokow danych jest tam aktualnie. Najzadziej uzywane po prostu wypadaja z cache.

Poza tym by siegnac so konkretnego rekordu nie trzeba skanowac calego indeksu.

Ununoctium

17.12.2017, 21:30:59 via Android

@maniac777 By po prostu sięgnąć nie, ale są operacje wymagajace full scanu. Poza tym raczej nie chcemy wchodzić w technikalia zarządzania pamięcią, bo każdy DBMS ma swoje mechanizmy, a nie to było przedmiotem pytania.

Po prostu używam uproszczeń, nikogo chyba nie wprowadziłem w błąd?

maniac777

17.12.2017, 21:52:57

By po prostu sięgnąć nie, ale są operacje wymagajace full scanu

@Ununoctium: sa ale powinno sie ich unikac tak samo jak pelnego skanu tabeli.

Po prostu używam uproszczeń, nikogo chyba nie wprowadziłem w błąd?

W mojej ocenie wprowadziles tu:

Wyszukiwanie działa szybko póki indeks mieści się w pamięci RAM.

Wyszukiwanie po indeksie dziala o wiele rzedow wielkosci wydajniej bez wzgledu na to czy zmiesci sie on w RAM czy nie.

Obrazowo:

RelaeVEVO

Andrew7642

17.12.2017, 22:23:50

@nihilm: Nie waż się wsadzać NoSQL do projektu jeśli nie jesteś specjalistą od baz relacyjnych. NoSQL ma swoje zastosowania ale to nie jest jedno z nich.

@plushy: ZWŁASZCZA tutaj, przy operacjach finansowych, gdzie jak słyszy się o braku ACIDu i eventual consistency to właśnie jakiś gruby dyrektor schodzi na zawał.

plushy

17.12.2017, 22:56:03

Wyszukiwanie po indeksie dziala o wiele rzedow wielkosci wydajniej bez wzgledu na to czy zmiesci sie on w RAM czy nie.

@maniac777: Jak już mamy wchodzić w technikalia to nie zawsze działa szybciej ale z reguły tak.

Aktywne Wpisy

Szinako

Szinako +303

3 godz. i 17 min temu

Hamas przeprowadził terrorystyczny atak, w którym zabił kilkuset Izraelczyków. Dlatego właśnie teraz Izrael w ramach zemsty bombarduje strefę Gazy i wymorduje kilkanaście tysięcy Palestyńczyków w tym dzieci. Z tym że to już nie jest terroryzm i zbrodnie wojenne tylko coś innego, to metafizyka xD. Odcięcie dwóch milionów ludzi od wody, prądu i dostaw żywności to też ciekawa sprawa. Dziwnym trafem media zachodnie coś są cicho na ten temat. Widocznie wujek z ameryki

LuckyStrike

LuckyStrike +40

5 godz. i 14 min temu

#huawei dostarczy system inteligentnej jazdy dla #mercedes xD a wy co? Nadal za pomocą chińskich telefonów i komputerów nawołujecie do bojkotu chińskich produktów?
#tosachiny #chiny #motoryzacja

LuckyStrike - #huawei dostarczy system inteligentnej jazdy dla #mercedes xD a wy co? ... — **źródło:** IMG_6672

Aktywne Wpisy

Aktywne Znaleziska

Rząd przyznał dużą kasę na stadiony. Ale tylko "wstępnie". Łaskawcy...

Analiza rosyjskiego syndromu postimperialnego i mitów propagandowych + skandal

Żelazna Kopuła przechwytuje falę rakiet ze Strefy Gazy

Kaczyński jest tchórzem!

Morawiecki prawdopodobnie chce ukryć film o SKOKach!

Popularne tagi