Wpis z mikrobloga

#python #datascience #naukaprogramowania #programowanie

Chciałbym za pomocą pythona ukazać w jakim procencie wszystkie polskie s-x portale to scam a w których idzie się umówić na dupcing

Z jednej strony wiem że można odpalić crawlera który będzie chodził po stronie i będzie zbierał wymagane dane ale trochę wydaję mi się to nie efektywne. NIe można by było zrobić np snapshotów określonych sekcji stron które by mnie interesowały i znich lokalnie czyścić te snapshoty?

Głównie chce:
- Ukazać korelacje płci
- Wiek konta
- Średnia aktywnego konta
- Ilość fake accountów (linki w nazwach)
- E-k---y (snap, onlyfans)
itp

Jak byście do tego podeszłi? Dane bym przechowywał w google sheet albo lokalnie i uploadowywał do Google Data Studio / Locker albo do Preset.io (Apache Superset)
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@dev_null__: Mógłbyś zaciągnąć cały HTML i potem lokalne pliki crawlować np. Puppeteerem, ale jak dla mnie to jest ta sama robota co napisanie prostego crawlera do każdego serwisu i zaciąganie od razu przetransformowanych danych do użytku np. w Sheets.

Edit: W zależności od tego jak dużo tych danych potrzebujesz - zastanów się, bo prosty crawler możesz nawet w Apps Scripts napisać i będzie Ci zaciągał dane bezpośrednio do Google Sheets.
  • Odpowiedz