Wpis z mikrobloga

Piszę swój pierwszy w życiu skrypt do web scrapingu i napotkałem pewien problem. Tak wygląda struktura mojej strony: https://pastebin.com/yPRJtxXu Moim zadaniem jest pobranie wszystkich plików pdf i mat ze strony, niestety nie wiem jak głęboko są one zagnieżdżone. Tutaj mój aktualny kod: https://pastebin.com/wfb6FJ8a Skrypt działa dopóki nie znajduje peirwszego pliku pdf. Problem polega na tym, że jak znajduje pierwszy plik pdf to nie iteruje dalej tylko dokleja do jego ścieżki kolejne hrefy czyli w tym przypadku plik mat i dalej dzieje się to samo dla kolejnych ścieżek, też są posklejane z poprzednimi. Pierwszy raz w życiu robię web scraping i rekurencję, nie wiem czy nie przegiąłem jak na jeden razy :D. Nie jestem w stanie dać linku do strony bo to wewnętrzna stronka w pracy, nawet na służbowym lapku nie działa.

#python #naukaprogramowania
  • 6
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach