Wpis z mikrobloga

#programowanie
Przerabiał już ktoś pobieranie danych z EKW: https://przegladarka-ekw.ms.gov.pl/eukw_prz/KsiegiWieczyste/wyszukiwanieKW ?
Widzę to tak:
1) Narzędzie otrzymuje parametr wejściowy, czyli kod sądu, a potem sprawdza po cronie kolejne numery KW dopasowując cyfrę kontrolną. W ten sposób mamy informację o istniejących KW oraz cyklicznie sprawdzamy powstawanie nowych.
2) Zapisujemy dane z istniejących KW do bazy (dowolny rodzaj) i rozpoczynamy kolejną turę szukając zmian.
3) Dodajemy do bazy informacje o zmianach (oznaczamy rekordy aktualne jak i archiwalne).
4) Konieczna funkcja powiadamiania o numerach KW w których zaszły zdefiniowane zmiany, ewentualnie wyszukiwarka takich zmian/rekordów.
Szukam kogoś, kto to napisze a potem ewentualnie rozbuduje jeśli klient będzie zadowolony z efektów.
  • 47
  • Odpowiedz
@krzysztof114: Interesowałem się tematem jakieś 2 lata temu i sprawa wygląda z grubsza tak. Z KW temat już jest raczej zamknięty, firmy które pobrały bazę zanim pojawiła się captcha mogą ją łatwiej aktualizować, bo znają zakresy w których występują jakieś wpisy. Kto zdążył ten ma, kto nie - niestety musi znać numery KW i możliwość obliczenia sumy kontrolnej nie pomoże.
  • Odpowiedz
@sokytsinolop: Nie do końca rozumiem problem jaki powstaje w przypadku braku znajomości numeru KW. Przecież nawet w wersji webowej mogę sobie wpisać XXXX/000011122/Y, czyli sprawdzać wszystkie numery po kolej od 000 do 999. W sumie na takim sprawdzaniu właśnie mi zależy bo powstają nowe KW i one też mnie interesują.
  • Odpowiedz
@sokytsinolop: Numer KW składa się z XXXX, czyli kodu sądu wieczystoksięgowego (u mnie jest to PL1O), dalej same cyferki to numer właściwy KW, a dalej po / cyfra kontrolna. XXXX znasz i możesz zadeklarować gotową listę i wedle mojej wiedzy to się nie zmienia, natomiast same 00000011122 mogą się nam pozmieniać gdyż zarówno KW może zostać zamknięta jak i może być założona nowa, o nowym numerze.
  • Odpowiedz
@sokytsinolop: nie chce zgadywać. Chcę sprawdzać wszystkie możliwe kombinacje. Jeśli kombinacja zwróci dane to walimy do bazy, jak nie to szukamy dalej, a całość operacji w pętlę aby śledzić też zmiany w ramach poszczególnych KW.
  • Odpowiedz
@sokytsinolop: przecież ilość danych nie jest problemem? To tylko kwestia czasu i wydajności serwera. Nie muszę mieć wszystkich wyników na dziś ani śledzić zmian real time. Jak się dowiem o zmianie kilka dni po to i tak zawsze lepiej niż wcale ;-)
  • Odpowiedz
@krzysztof114: załóż sobie że potrzebujesz 0.2 sekundy na sprawdzenie jednej księgi, więc 2 lata na sprawdzenie jednego sądu. Oczywiście możesz odpalić to na kilku wątkach, ale to wciąż zakładając optymistycznie pół roku na jeden sąd. No i nie wiadomo jak na taką liczbę zapytań zareaguje ten serwis.

Pewnie da się to "zgadywać" lepiej, bo pewnie księgi występują w seriach w sensie od 0 do 10000 nie ma żadnej, a od 10001
  • Odpowiedz
@sokytsinolop: o widzisz, mądrze gadasz :-) Czyli jakaś chmura obliczeniowa i wątki. Najpierw wszystkie wątki na pobieranie danych, a jak już będą jakieś to sukcesywnie przekierowujemy siły w ten sposób aby część mocy szła na szukanie aktualizacji, a tylko część na szukanie ewentualnych nowych KW. Wiem, że ciężko będzie z rozruchem, ale potem już z górki. Wedle mojej wiedzy w RP mamy koło 16 milionów KW co daje nam wg Twojej
  • Odpowiedz
@krzysztof114: 2 lata temu jak próbowałem rozwiązać ten problem to znalazłem na wykopie mirka, który pisał że miał praktyki i wpisywał te dane ręcznie chyba... w każdym razie na pewno wiedział jak to wygląda od wewnątrz i jak wyglądają numery ksiąg i ich rozmieszenie na nazwijmy to osi kombinacji


Z tym 0.2 sekundy to strzał, trzeba sprawdzić ile średnio to trwa. Raczej musiałbyś pierwsze pobrać listę wszystkich i zapisać sobie, aktualizować
  • Odpowiedz
@krzysztof114: to że mamy 16 milionów KW niewiele nam daje bo kombinacji w jednym sądzie masz sto miliardów ;)
tez nie możesz odpalić za dużej ilości wątków bo wywali się serwer i pójdziesz do więzienia za utrudnianie dostępu do informacji publicznej i cyberatak na stronę rządową ( ͡° ͜ʖ ͡°)
  • Odpowiedz
@sokytsinolop: wedle mojej wiedzy numery KW idą zawsze rosnąco. Kiedyś numery KW były od 1 w górę. Były to tzw księgi dawne. W czasach bardziej współczesnych pracowaliśmy na księgach rzędu 300 do 70000 (w zależności od sądu i ilości nieruchomości). Potem wprowadzono EKW dodając na początek kod sądu, potem zera wiodące i stary numer i cyfra kontrolna. Nowe są tworzone nadal rosnąco wedle tego samego klucza. Owe partie numerów o których
  • Odpowiedz
@sokytsinolop: Kurde no :) Wiem o istnieniu co najmniej dwóch narzędzi, które monitorują zadaną listę KW po ich numerach i wysyłają alert trafiając na zmianę. Robią drugi krok z tego co mi potrzebne. Rozwiązanie niemalże bliźniacze do scraperów czeszących bazę CEIDG, więc liczyłem, że da się to jakoś sensownie ograć...
  • Odpowiedz
@krzysztof114: no ale jak znasz już to 16 milionów poprawnych numerów ksiąg, to żeby je sprawdzić wszystkie wystarczy ~40 dni (przy wcześniejszych założeniach). Nie wiem skąd firmy takie jak ksiegiwieczyste.pl mają tę liste, nawet gdyby nie było captchy to ciężko by było to wszystko zescrapować
  • Odpowiedz