Wpis z mikrobloga

Skopiuj link

02.12.2013, 19:19:51

Mam dostęp do pewnego dużego katalogu danych. Katalog ten zawiera setki tysięcy rekordów, a każdy z nich dużo różnych pól, jednak wśród nich próżno szukać id lub innego pola z unikatowymi danymi, które mogłoby za id posłużyć.

Owy katalog jest na bieżąco aktualizowany, więc jeżeli chciałbym zsynchronizować się z katalogiem, to jest problem... bo nie bardzo wiem, który rekord porównać z którym rekordem w mojej bazie.

Liczenie sumy kontrolnej jest bez sensu, gdyż aktualizacja jednego pola modyfikowałaby ową sumę i zamiast zaktualizować stary rekord, stworzyłbym nowy, bardzo podobny.

Jak wyjść z takiej sytuacji?

#programowanie #bazydanych

bzyq81

02.12.2013, 19:21:16

@noisy: nawet w kursach dla początkujących jest "dodaj id tabeli"

k.....3

konto usunięte 02.12.2013, 19:21:46

Komentarz usunięty przez autora

noisy

02.12.2013, 19:22:39

@bzyq81: @kravi93: oryginalne dane nie posiadają id, a każde pole z oryginalnego katalogu może się zmienić, więc nie nadaje się na ID, które powinno być niezmienne.

m.....q

konto usunięte 02.12.2013, 19:23:28

@noisy: Co to za baza?

konto usunięte

noisy

02.12.2013, 19:25:10

@msq: powiedzmy, że po mojej stronie jest mysql (aczkolwiek to się może w przyszłości zmienić), katalog z którego czytam zwraca dane w formacie, który nawet nie ma oficjalnej specyfikacji i pamięta lata 80, natomiast dorobiłem sobie przelotke, która konwertuje mi to na XMLa.

m.....q

konto usunięte 02.12.2013, 19:28:30

@noisy: Czyli za kazdym razem, w regularnych odstepach czasu dostajesz stamtad XMLa, w ktorym moga byc nowe rekordy, zmienione rekordy, tak? Czy rekordy moga tez byc usuwane? Stuktura tableli / XMLA sie zmieniaa czy nie?

W.....s

konto usunięte 02.12.2013, 19:28:39

@noisy: Nie masz możliwości wrzucić wszystkich danych do bazy?

noisy

02.12.2013, 19:30:12

@Wiceps: tak, jest. Jednak katalog jest codziennie aktualizowany, więc następnego dnia dane są nieaktualne. Nie mogę codzień budować bazy od nowa, bowiem po swojej stronie chce zbudować relacje między stosownymi rekordami a rekordami z innych tabel.

m.....q

konto usunięte 02.12.2013, 19:32:32

@noisy: Tak na dobra sprawe - to pomijajac juz Twoj problem - jak ten kataolg rozroznia rekord zmieniony od nowo dodanego, skoro nie ma zandego ID? I jak Ty chcesz to rozrozniac? Nie da sie. Jesli masz powiedzmy trzy kolumny i trzy z nich zmienia wartosc to jest nowy rekord czy dodany? :)

noisy

02.12.2013, 19:33:31

@bzyq81: @anonim1133: jeżeli wg Was jest to trywialny problem, będę naprawdę bardzo wdzięczny za oświecenie :) W przeciwnym razie proszę nie sabotować mi pytania :P

m.....q

konto usunięte 02.12.2013, 19:37:41

@noisy: Musisz miedc jakas kolumne ktore bedzie uniklanym indentyfikatorem rekordu. Inaczej nie zostaje Ci nic innego jak codziennie przeladowytac komplet danych po stronie mysql.

Pracuje z plikacjami ktore pobieraja dane z kilku zrodel i po przetworzeniu zapisuja je do bazy - jako nowy rekord lub jako aktualizacje. Ale w specyfikacji cala logika biznesowa jest dokladnie opisana - co, jak, na jakiej podstawie etc.

anonim1133

noisy

02.12.2013, 19:37:47

jak ten kataolg rozroznia rekord zmieniony od nowo dodanego, skoro nie ma zandego ID?

@msq: nie mam pojęcia jak to u nich działa. Może faktycznie po swojej stronie oni mają ID, jednak faktem jest to, że go nie podają na zewnątrz.

m.....q

konto usunięte 02.12.2013, 19:38:18

jednak faktem jest to, że go nie podają na zewnątrz.

@noisy: To zostaje Ci tylko przeladowywanie calej bazy.

anonim1133

02.12.2013, 19:41:41

@noisy: Co to za baza, że nie da się wyznaczyć klucza? Może dwie, albo trzy kolumny mogą robić za klucz?

A po czym ty wybierasz te dane?

konto usunięte

noisy

02.12.2013, 19:41:58

@msq: samo pobieranie danych trwa około 3-4 dni :D

Zacząłem się zastanawiać, czy nie zrobić czegoś takiego, że dziele dane z otrzymanego rekordu an 3-4 grupy. Dla każdej z tej grup liczę sumę kontrolną. Każdą sumę bym sobie zapisał. Owe sumy były by używane tylko do aktualizacji. Każdy rekord o niepowtarzalnych sumach dostałby przydzielone id przez bazę.

Przy aktualizacji sprawdzałbym, czy istnieje jakiś inny rekord, który posiada co najmniej dwie takie

noisy

02.12.2013, 19:43:44

A po czym ty wybierasz te dane?

@anonim1133: wyszukiwanie jest tekstowe. Czyli na dane słowo otrzymuję listę wpisów, które gdzieś te słowo posiadają. Osobnym problemem jest w ogóle odpytanie tego katalogu, by dostać wszystkie wpisy....

m.....q

konto usunięte 02.12.2013, 19:48:37

@noisy: Na Twoim miejscu przyjalbym po prostu ze te dwie, trzy kolumny ktorych zmiana jest najmniej prawdopodobna beda robic za klucz. I na tej podstawie albo robil update, albo delete, albo insert. Inaczej sie #!$%@? z implementacja a aplikacja bedzie puszczac banke nosem.

anonim1133

02.12.2013, 20:28:04

@noisy: Pobierasz wszystkie wpisy za każdym razem, czy tylko ileś ostatnich?

Dziwne.

noisy

02.12.2013, 20:40:51

@anonim1133: nie da się tylko ostatnich. Więc pobieram wszystkie, jakie są zwracane na dane zapytanie.

anonim1133

02.12.2013, 20:44:16

@noisy: Może by coś w rodzaju gita zrobić? On jakoś porównuje to wszystko ;>

Aktywne Wpisy

nobody_here

nobody_here +129

4 godz. i 2 min temu

najlepiej wydane 170 zł ostatnio xd #konsole #retrogaming

Dzonsin

Dzonsin +6

2 godz. i 21 min temu

#pracbaza #pracait #inwestycje #praca #warszawa #kapital

Mam do Was pytanie oraz chce zaczerpnąć inspiracji jak rozwiązać nasz (mój i żony) problem.

Kariera:
Wraz z żoną ukończyliśmy studia informatyczne z tytułem magistra/inżyniera. Podczas studiów znaleźliśmy staż (ja Python Developer, żona w analityce biznesowej.
Niedługo stuknie nam 30 lat, ja już Senior w przyjaznym korpo (na pracę nie narzekam 3x zdalnie 2x stacjonarnie). Łącznie ok. 20-30h przepracowane w ciągu tygodnia, czasami jak więcej pracy

Aktywne Wpisy

Aktywne Znaleziska

Ważna decyzja Kongresu USA. Chodzi o uzbrojenie dla Polski

Polska 100 lat za Francuzami. Paryż wie, jak walczyć o swoje w Zielonym Ładzie

Wewnętrzny krąg nie zgadza się z Putinem. Nie wierzą w jego wersję zamachu

Kto najczęściej chodził do Obajtka? Na liście 110 posłów, europosłów i senatorów

PRANIE PIENIĘDZY I MILIONY DLA LUDZI PIS - FUNDUSZ SPRAWIEDLIWOŚCI ZIOBRY

Popularne tagi