Wpis z mikrobloga

W wolnej chwili ściągnąłem sobie w #python wszystkie oferty osobówek z otomoto, żeby mieć nowy dataset do zabawy. Aktualnie przeglądam sobie dane w poszukiwaniu ciekawostek i tak wygląda przebieg Audi A4 B8, a wiek samochodu.

Czyli co, przez pierwsze 4 lata przedstawiciel handlowy na leasingu katuje po 40k rocznie, a potem jakiś dziadziuś na spokojnie po 10k robi? xD

Jakie macie inne wytłumaczenie poza fałszowaniem przebiegu na ogromną skalę? Może czegoś nie widzę?

Zainteresowanym chętnie podeślę kod do otomoto.

#motoryzacja #ciekawostki #programowanie
LuvDesk - W wolnej chwili ściągnąłem sobie w #python wszystkie oferty osobówek z otom...

źródło: comment_BwTchPLbnUGMukEfjFYDJ1c8aRzTpGuU.jpg

Pobierz
  • 29
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@LuvDesk: ile ofert ściągnąłeś? Ile czasu to zajęło?
Jest jakieś API czy po prostu scrapowałeś z HTML-a? Jak tak, to nie zablokowali ci IP po x zapytaniach?
  • Odpowiedz
210k ofert, najpierw poszedł skrypt do zgarnięcia wszystkich URL ofert, a potem drugi do scrapowania HTMLa każdej.

Całość zajęła ok 20h. Pewnie da się szybciej, ale po prostu zostawiłem kompa na noc, a jak wróciłem następnego dnia z pracy to było gotowe. Nie zauważyłem blokad IP, a odpytywało ok. 3 oferty na sekundę.
  • Odpowiedz
@LuvDesk: akurat teoria z leasingiem jest jak najbardziej prawdopodobna. Oczywiście tłumaczy to tylko wolniejszy wzrost przebiegu w latach 4-7. To, co potem się dzieje to już magia speców od jeżdżenia na wstecznym :)
  • Odpowiedz
@LuvDesk: Bo tak jest, diesle robią po 30-40k km rocznie przez pierwsze lata ale to nie jest wielki procent, żadnym problemem nie jest kupno diesla 10 letniego z 200k km prawdziwego przebiegu.
  • Odpowiedz
@LuvDesk ci co duzo uzywaja auta to sprzedaja szybko, zanim zacznie sie psuc, stad duzo mlodych z relatywnie wysokim przebiegiem ( a oszustwa swoja droga, ale nie az w takiej skali jak sie wydaje)
  • Odpowiedz
@LuvDesk: filtrowałeś po marce czy scrapowałeś całość? interesuje mnie ostatnimi czasy wzrost zainteresowania Toyotą Sienną, też w kontekście tego, że szykuję się do kupna i może wyłapałbym jakieś negatywne trendy (one są stricte na rynek USA więc u nas zwykle po dzwonie), a w sumie nie pomyślałem żeby się przejechać pytongiem po serwisach ogłoszeniowych...
  • Odpowiedz
xpatha


@LuvDesk: możliwe. Ja jak kiedyś robiłem takie coś to pobierałem w nieco inny sposób. Nie wchodziłem na każde ogłoszenie osobno, tylko pobierałem dane z podstrony, na której były ogłoszenia (po 32 na stronę). Miało to tę wadę, że markę i model wyciągałem z nazwy.

I jakbyś miał chwilkę to podeślij mi kod albo dane :)
  • Odpowiedz