Wpis z mikrobloga

#programowanie #c #c99

Masochizm w czystej postaci... Muszę wyciągnąć link i linki obrazków ze źródła strony. "OCZYWIŚCIE", bez użycia biblioteki, która parsuje html... Żeby sobie poćwiczyć "latanie wskaźnikami po tekście".

Dobra ale dość narzekania. Mam kilka pomysłów, ale za nim zacznę to pisać chciałbym zapytać czy Wy mirki macie jakieś ciekawe pomysły jak to ładnie zaimplementować. Bez zbyt dużego syfu :|

Myślałem żeby to oprzeć na wyrażeniach regularnych, bo to mi nawet mogłoby się przydać w dalszej części. Ale nie wiem...

Ps. Sorry, jeżeli pytam o głupotę, ale muszę to ogarnąć w miarę szybko.
  • 7
@kasper93: Myślę, że najlepiej wyrażeniami regularnymi ;)

Możesz po prostu ściągnąć plik .index.htm(l), potem przeszukiwać go regexem, w c# wyszukiwałam najpierw znaczniki ..,

MatchCollection m1 = Regex.Matches(htmlText, @"(.*?)", RegexOptions.IgnoreCase | RegexOptions.Singleline); //szukamy znacznikow

potem w tych znacznikach szukasz "słówko" href=, kopiowanie adresu, który się znajduje się po "href", potem pobieranie tego pliku podstrony i jej przeszukiwanie itd., obrazki szukasz podobnie, znacznik "img".

Ogólnie możesz poszukać jak się pisze Crawler'y, one przeszukują
@kasper93: jak masz latać wskaźnikami, to raczej nie chodzi o regexp.

generalnie lecisz w pętli i sprawdzasz kolejne znaki (musisz natrafić na ".

z img podobnie. zwykły algorytm wyszukujący frazę w tekście.