Wpis z mikrobloga

Drodzy czytacze współdodawacze!

Jest tak, że ostatnio szukałem sobie książek do czytania i spojrzałem na podsumowanie tej edycji #bookmeter. Jakież moje było zdziwienie, kiedy uświadomiłem sobie, że mamy w podsumowaniu najpopularniejszych autorów, najpopularniejsze gatunki, a nie mamy najpopularniejszych tytułów!

Jako, że już kilkukrotnie prosiłem naszego nieocenionego kolegę @szokiniedowierzanie o dodanie funkcjonalności, postanowiłem, że się z tym zmierzę i sam spróbuję ten fragment kodu napisać. Jak pomyślałem, tak zrobiłem, dałem znać o tych moich wyczynach autorowi, który sprawdził to, poprawił (za co mu dzięki) i umieścił na serwerze. I oto jest!
Tutaj: https://bookmeter.ct8.pl/stats/summary.php

Istotą tego wpisu jest nie tylko przekazanie informacji, ale też zwrócenie uwagi na pewien problem, o którym kolega poinformował. Otóż zdarza się, że tytuł tej samej książki, czy nazwisko autora są zapisane inaczej, czy to za sprawą znaków interpunkcyjnych, literówek, czy (w przypadku autora) podania drugiego imienia. Stąd te nasze statystyki są takie mniej-więcej. Oczywiście samo zwrócenie uwagi na problem sprowadza się do działania w stylu "niech ktoś...". Spieszę zatem z propozycją rozwiązania.
Jak się dowiedziałem, jest możliwość, żeby ręcznie edytować bazę danych. Mógłbym się tym zająć, zupełnie społecznie i własnej i nieprzymuszonej woli. Tak czy tak czytam wszystkie wpisy, więc niwelowanie tych różnic (*w bazie danych*, nie we wpisach na wykopie) nie byłoby dla mnie wielkim obciążeniem. Uważam, że nie mogę jednak tak sobie sam, czy z autorem skryptu podjąć decyzji, że będziemy se modyfikować coś tam. To wszystko jest tworzone przez jakąś społeczność i to ona powinna wyrazić zdanie. Więc Was, droga społeczności pytam oto: czy ktoś ma coś przeciw? Jeśli tak, niech powie teraz, albo zamilknie na wieki.
Ze swojej strony mogę słowem ręczyć, że nie dotknę innych pól niż "autor" i "tytuł", mogę też informować o zmianie w komentarzu pod wpisem.
George_Stark - Drodzy czytacze współdodawacze!

Jest tak, że ostatnio szukałem sobi...

źródło: comment_1630431599fcMYl5ljBmIOQ5qAn7H8pH.jpg

Pobierz
  • 30
  • Odpowiedz
@rassvet: Ha! Pierwsza do sprawiania problemów! ;)
Ale pomyślałem i o tym! Musiałbym przyjąć jakiś standard w przypadku autorów, którzy już są dodani - taki problem występuje przy Gogolu, raz jest zapisany jako Mikołaj, raz jako Nikołaj.
Wydaje mi się, że nie jest ważne, jaki standard przyjmiemy, ważne żeby jakiś był. Moim zdaniem, ponieważ lubimyczytac jest największą (chyba) polską bazą książek i autorzy mają tam swoje strony, najrozsądniej byłoby odwołać
  • Odpowiedz
@kizimajaro: Ja i tak za stare wpisy zabiorę się nie wcześniej niż po 10 września - na podsumowanie roku się wyrobię ;) - bo teraz mam dostęp do Internetu trochę z doskoku. A później to już mogę robić to na bieżąco, tak jak pisałem i tak czytam każdy wpis. :)
Z oferty pomocy wnoszę, że szefowa nie ma zastrzeżeń?

@rassvet: Michaił to chyba po polsku Michał, nie? https://lubimyczytac.pl/autor/22701/michail-bulhakow
George_Stark - @kizimajaro: Ja i tak za stare wpisy zabiorę się nie wcześniej niż po ...

źródło: comment_16304328315GX4V0cUpR9LEMmsj5jeRR.jpg

Pobierz
  • Odpowiedz
@rassvet: Skupiony odparciem zarzutów związanych z drugim problemem - spolszczaniem Rosjan, nie zauważyłem, że już trzeci problem się pojawił.

Myślę, że oba człony, jeśli tak jest na lubimyczytac. Zwyczajnie, traktowałbym to jako wyrocznię w sprawach niejasnych.
Problem pojawia się, kiedy są dostępne dwa różne tłumaczenia tytułu, jak choćby Drużyna Pierścienia i Bractwo pierścienia. Zakładam jednak, że dodający wpis przepisze z okładki to, co czytał i przez to będzie wiadomo,
  • Odpowiedz
@rassvet: Teraz odpowiedź z gatunku "nie znam się, ale się wypowiem", bo ja programowaniem generalnie nie zajmuję się wcale.
Na logikę chyba tak, bo to są dwa różne ciągi znaków. Ale to musiałby się ktoś mądrzejszy wypowiedzieć, a może nawet sam autor. Sprawdzę to przeglądając statystki i poprawiając, jeśli taki przypadek się trafi.
  • Odpowiedz
@Tszmiel: Ja nie mam, mnie w zupełności wystarczy to co jest.
A wziąłem się za to tylko i wyłącznie z ciekawości, które książki są najpopularniejsze, bo takiego zestawienia brakowało.
  • Odpowiedz
@George_Stark: Jasne, myśle ze to świetny pomysł. Przy każdym dotychczasowym podsumowaniu ręcznie starałam się przypasować autorów i tytuły, inaczej wyniki byłyby zakłamane. Na pewno nie wszystko udawało mi się wypalać, ale generalnie podsumowania zawsze starałam się opracować żeby były jak najbardziej dokładne :)
  • Odpowiedz
@George_Stark: @szokiniedowierzanie wdróżcie ElasticSearch do matchowania książek. Rozwiązałem problem literówek i podobnych fraz w ten sposób w swoim bocie na dość dobrym poziomie. Mogę dać Wam baze.


@Tszmiel: raczej takiej kobyły jak ES nie będę dodawał, ale mam kilka innych pomysłów na rozwiązanie problemu literówek i różnić znaków innych niż litery i cyfry.

A co masz w tej bazie danych którą mógłbyś nam dać? Masz dostępne książki
  • Odpowiedz