Wpis z mikrobloga

Skopiuj link

05.06.2013, 14:06:02

#programowanie #c #c99

Masochizm w czystej postaci... Muszę wyciągnąć link i linki obrazków ze źródła strony. "OCZYWIŚCIE", bez użycia biblioteki, która parsuje html... Żeby sobie poćwiczyć "latanie wskaźnikami po tekście".

Dobra ale dość narzekania. Mam kilka pomysłów, ale za nim zacznę to pisać chciałbym zapytać czy Wy mirki macie jakieś ciekawe pomysły jak to ładnie zaimplementować. Bez zbyt dużego syfu :|

Myślałem żeby to oprzeć na wyrażeniach regularnych, bo to mi nawet mogłoby się przydać w dalszej części. Ale nie wiem...

Ps. Sorry, jeżeli pytam o głupotę, ale muszę to ogarnąć w miarę szybko.

Hauleth

05.06.2013, 14:21:31

Zaimplementuj proste regexpy. Nie jest to zbyt trudne, a spełnia wszystkie warunki.

kasper93

panati

05.06.2013, 14:27:34

@kasper93: Myślę, że najlepiej wyrażeniami regularnymi ;)

Możesz po prostu ściągnąć plik .index.htm(l), potem przeszukiwać go regexem, w c# wyszukiwałam najpierw znaczniki ..,

MatchCollection m1 = Regex.Matches(htmlText, @"(.*?)", RegexOptions.IgnoreCase | RegexOptions.Singleline); //szukamy znacznikow

potem w tych znacznikach szukasz "słówko" href=, kopiowanie adresu, który się znajduje się po "href", potem pobieranie tego pliku podstrony i jej przeszukiwanie itd., obrazki szukasz podobnie, znacznik "img".

Ogólnie możesz poszukać jak się pisze Crawler'y, one przeszukują

kasper93

kasper93

05.06.2013, 14:36:56

@Hauleth: @panati: No to tak jak myślałem, idę w regexp. Zobaczymy jak to w C działa, bo z tego co widzę to sam język nie ma zaimplementowanych regexów. Ale co tam, najwyżej się przyczepi typek do tego.

k.....n

konto usunięte 05.06.2013, 17:09:35

@kasper93: jak masz latać wskaźnikami, to raczej nie chodzi o regexp.

generalnie lecisz w pętli i sprawdzasz kolejne znaki (musisz natrafić na ".

z img podobnie. zwykły algorytm wyszukujący frazę w tekście.