Aktywne Wpisy

Slavian4k +237
Czemu znalezisko o pobiciu grupy Polaków przez Ukraińców w której jestem pokrzywdzony, zostało zdjęte z głównej jako manipulacja?
Jedyną manipulacją jaką widzę jest oświadczenie policji, tak to prawda zostało spisanych 13 osób ale włącznie z nami w roli ofiar.
Agresorów było około 10, policja wylegitymowała 4 albo 5. Druga manipulcja że niczego nie zgłosiliśmy ja oraz 2 kolegów powiedzieliśmy że chcemy zgłosić oficjalne zeznania, powiedzieli żebyśmy im dali dokumenty i się do
Jedyną manipulacją jaką widzę jest oświadczenie policji, tak to prawda zostało spisanych 13 osób ale włącznie z nami w roli ofiar.
Agresorów było około 10, policja wylegitymowała 4 albo 5. Druga manipulcja że niczego nie zgłosiliśmy ja oraz 2 kolegów powiedzieliśmy że chcemy zgłosić oficjalne zeznania, powiedzieli żebyśmy im dali dokumenty i się do

dddobranoc +45





W mojej aplikacji pisanej w #cpp używam zewnętrznego parsera do stron internetowych, który m.in. zwraca mi ilość słów w zwracanym dokumencie (widocznych słów, bez znaczników itp.) Problem w tym, że zauważyłem przekłamania w tym parametrze. Zwracanie 1 zamiast prawidłowej wartości bym przeżył, bo łatwo to sprawdzić i obsłużyć, ale zdarza mu się również np. policzyć tylko słowa w pierwszym akapicie zamiast na całej stronie, a to już dużo trudniej zweryfikować.
Mógłbym usunąć feature'y związane z liczbą słów, ale są one dla mnie dość ważne, dlatego muszę ogarnąć jakiś lepszy, mniej zawodny sposób. Dokument zwrócony z parsera mam w stringu, a później przechodzi jeszcze przez libtidy i pugixml.
Jak można by to zrobić najlepiej? Znalazłem w internecie jakiś wpis wyliczający parsery do użycia w podobnej sytuacji i był tam libtidy, ale ja takich opcji w nim nie znalazłem, więc podejrzewam, że to błąd autora wpisu ¯\_(ツ)_/¯
Rozważałem użycie pugixml, skoro i tak w pewnym momencie ładuję tam cały dokument. Trawersowałbym drzewo i liczył spacje, ale po napisaniu tego wyniki są niezadowalające: liczba słów jest niesamowicie niedoszacowana, przypuszczam, że to przez to, że tekst zawiera pełno znaków specjalnych z HTML jak czy . Wydaje mi się, że liczenie ich wszystkich byłoby nie dość, że niezbyt wydajne, to jeszcze dość uciążliwe.
Zaznaczę tylko, że obecne strony potrafią być ogromne, więc wydajność jest tutaj dość ważna (aczkolwiek bez popadania w przesadę).
Podsumowując, co zrobić, żeby się nie narobić bez sensu, a żeby wszystko działało w miarę ok? ( ͡° ͜ʖ ͡°)
@Wina_Segmentacji: podejrzewam, że niezbyt, szczególnie jak uwzględnisz, jak ociężałe są obecne przeglądarki ( ͡° ͜ʖ ͡°)
https://pastebin.com/uVd6r21H
O ile nic nie pomyliłem, to mi wychodzi około 1350 słów
@Wina_Segmentacji: żaden. Dostaję to po prostu jako pole w JSON-ie.
public static void main( String args[] ) {
String line = "tutaj jakiś html";
line = line.replace("//(^/s*)|(/*$)/gi","");
line = line.replace("/[ ]{2,}/gi"," ");
line = line.replace("/\n /","\n");
System.out.println(line.split("
Tak, musisz podzielić znaki na odstępy i litery.
To trim i +1 do każdego tagu, bo n słów rozdziela n-1 odstępów.
gorzej, że pugixml nie czyta tego html, bo ma niedomknięte ![]()
@cevilo: Liczysz znaczniki jako słowa, czy wykop zmienił kod? Uwzględniłeś znaki większości wewnątrz atrybutów?
Dzięki za pomoc,
rozwiązanie, na które się zdecydowałem to trawers po drzewie XML utworzonym przez pugi i liczenie znaków "spacjowych" w tekście. Działa dobrze i wydajnie:
https://pastebin.com/tiGggaEM
EDIT:
przed załadowaniem do pugi przepuszczam całe źródło przez tidy, który domyka niezamknięte znaczniki i ogólnie porządkuje tekst tak, żeby był prawidłowym XML i nie wyrzucał żadnych błędów