Wpis z mikrobloga

Skopiuj link

17.09.2023, 12:22:35

Niestety z przykrością muszę stwierdzić, że otodom postanowił trochę namieszać w statystykach olxdata i popsuć liczbę ogłoszeń prezentowaną u nich na stronie. Ta błędna wartość jest aktualnie zaciągana przez mój serwis i na razie nie da się z tym nic zrobić. Miejmy nadzieję, że to zwykły błąd i wszystko niedługo wróci do normy. Może to być również celowe i w takim przypadku prawdopodobnie zabawa się skończyła na jakiś czas.

W przyrodzie jednak nic nie ginie i jak znika jedna funkcjonalność to w to miejsce pojawia się kolejna.
Teraz możecie sobie wszystko oglądać w formie sortowanej tabelki (aktualnie bez otodom).

Miłej zabawy!

https://olxdata.azurewebsites.net/zestawienie

#nieruchomosci

pastibox - Niestety z przykrością muszę stwierdzić, że otodom postanowił trochę namie... — **źródło:** olxdata_tabelka
Pobierz

KromkaMistrz

17.09.2023, 12:24:20 via Wykop

Miejmy nadzieję, że to zwykły błąd i wszystko niedługo wróci do normy. Może to być również celowe i w takim przypadku prawdopodobnie zabawa się skończyła na jakiś czas.

@pastibox: jest celowe. Duza szansa ze wiedza o Twojej stronie. A ze wystartowali ostatnio z narzedziem Otodom Analytics, dodatkowo (sporo) platnym dla agencji, to pewnie beda tak zmieniac i ograniczac API aby nie wyplywaly na zewnatrz zadne dane statystyczne

whoru

17.09.2023, 12:37:59 via Wykop

@KromkaMistrz: przecież to jest na bazie scrapingu, żadne API nie jest potrzebne do stworzenia czegoś takiego

mickpl

17.09.2023, 12:38:42 via Wykop

Miejmy nadzieję, że to zwykły błąd

@pastibox: Oczywiście ( ͡° ͜ʖ ͡°)

KromkaMistrz

17.09.2023, 12:42:11 via Wykop

@whoru: ah, to nie znam sie tak na tym, przepraszam ( ͡° ͜ʖ ͡°) ja zwyklym otwieraczem drzwi jestem.

mickpl

17.09.2023, 12:47:20 via Wykop

@whoru: To pobiera z jednego miejsca. Ale może zamiast takiego najprymitywniejszego scrapingu puszczać najpierw skrypt na pythonie i selenium - i liczyć ręcznie.

jatojaaniety

17.09.2023, 12:52:44 via Wykop

@pastibox: co się zmieniło po stronie otodomu?

pastibox

17.09.2023, 12:56:42 via Android

@jatojaaniety jak wejdziesz na stronę z listą prezentują błędną liczbę 1800 szt.

https://www.otodom.pl/pl/wyniki/sprzedaz/mieszkanie/cala-polska?viewType=listing

mickpl

17.09.2023, 13:06:51 via Wykop

@pastibox: Liczy dobrze, ale wyświetla tylko 50 stron ogłoszeń. 50 x 36 na stronę = 1800

mickpl

17.09.2023, 13:09:08 via Wykop

@pastibox: O, tu liczy dobrze. Scrapuj z tego miejsca.

jatojaaniety

17.09.2023, 13:10:10 via Wykop

@pastibox: Wygląda na błąd bo nawet stronicowanie działa do maksymalnie 50 strony (36*50 = 1800). Byłoby to dość dziwne bo ogłoszenia dalszych stron byłyby dostępne tylko i wyłącznie po zastosowaniu filtrów.

Jako workaround możnaby zamiast jednego zapytania zrobić zapytania po przedziały metrów - od 0 do 9, od 10 do 19, od 20 do 29 it'd, a potem zsumować.

pastibox

17.09.2023, 13:11:35 via Android

@mickpl czyli jednak to nie bug a feature :)

c.....l

konto usunięte 17.09.2023, 13:12:48 via Wykop

Komentarz usunięty przez autora

jatojaaniety

17.09.2023, 13:13:47 via Wykop

@controll: mają o tym gdzieś w regulaminie?

mickpl

17.09.2023, 13:15:27 via Wykop

nie bug a feature

@pastibox: Możliwe, oni ciągle coś tam mieszkają. Może jakiś geniusz zbrodni wymyślił, że ograniczy do 50 stron, aby była lepsza optymalizacja.

pastibox

17.09.2023, 13:16:12 via Android

@mickpl

@pastibox: O, tu liczy dobrze. Scrapuj z tego miejsca.

No niestety z tego nie mogę. Bo liczbe na tym buttonie podmienia java script (przeglądarka). Ja pobieram dane z response html I dobrej pory nie potrzebowałem aby strona była obrobiona przez js. Jeszcze się nie zastanawiałem jak to teraz by można scrappowac ale to będzie już wyższa szkoła jazdy.

mickpl

17.09.2023, 13:20:33 via Wykop

@pastibox: Doinstaluj do pythona selenium, nagraj sekwencję i sobie wyrzucaj do txt.

Na serwerze weź takie nagłówki i doinstaluj co trzeba to będzie się zachowywał jak chrome:

import datetime
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument('--no-sandbox')

driver = webdriver.Chrome('/usr/bin/chromedriver', options=chrome_options)

Do selenium masz wtyczkę do

mirunek

17.09.2023, 13:22:45 via Android

@pastibox puppeteer i jedziesz :)

https://github.com/puppeteer/puppeteer#example

pastibox

17.09.2023, 13:25:19 via Android

@mickpl jak będę miał trochę czasu to pomyślę nad tym. Teraz mam to napisane w .net core i używam biblioteki Html Agility Pack. Zobaczymy co da się zrobić

PanieAreczku

17.09.2023, 13:28:37 via Wykop

@pastibox: siema. Wielu tu zarzucało mi że jestem twoim multi xD gdzie byłeś jak Cię nie było?

Myślę, że otomoto wystartuje ze swoim nrzędziem analitycznym za konkretny abonament, ale moge sie mylic.

mickpl

17.09.2023, 13:32:15 via Wykop

@pastibox: No to odpal skrypt na jakimś linuchu, jak już będzie selenium to może logować się od razu na wypok, na jakiś tag #otodomrawdata a potem Azure może pobierać z tagu XD

Aktywne Wpisy

Aktywne Znaleziska

Unia umożliwia zakaz gazu z Rosji i tylko Węgry są przeciwko

Hołownia twierdzi, że posłowie polski 2050 będą walczyć z dyrektywą budynkową

"Trwa żydowskie ludobójstwo Palestyńczyków w Gazie"

Rolnik pryskał pole mimo wiatru. Osiem osób w szpitalu, także dzieci

Gaza to podręcznikowy przykład ludobójstwa...

Popularne tagi