Wpis z mikrobloga

Dzisiaj pod tagiem #401ok opowiem ciekawostkę, która przyda się każdemu z #programowanie #security, a nie każdy o niej wie. Mam już materiał pod następny wpis opisujący jak wiele dzięki takim informacjom można wyciągnąć, ale muszę poczekać na reakcję drugiej strony.

No więc dzisiaj opowiem Wam o sławetnym pliku robots.txt, który jest skarbnicą wiedzy na temat ukrytych treści w serwisie internetowym. Wiele osób myśli, że to właśnie plik robots.txt z Disallow: / pozwoli na zablokowanie całej zawartości strony internetowej przed zindeksowaniem, ale jest to błędne myślenie. NIe powinniśmy wykorzystywać pliku robots.txt do blokowania indeksowania prywatnych zasobów strony internetowej. Pierwszy z powodów jest banalnie prosty bo atakujący sprawdzi jakich zasobów nie chcemy pokazywać publicznie i właśnie dokładnie w ich kierunku będzie kierowany atak. Drugi powód nie jest dla Wszystkich jasny, ale Google nie blokuje w pełni takich zasobów przed indeksowaniem. Jeśli gdzieś będzie do nich prowadził link z opisem Google może taką stronę zindeksować bez odwiedzania witryny!

Dobra, dobra to jak bronić się przed indeksowaniem prywatnych zasobów?! Dostęp z hasłem lub dyrektywa noindex.

Zgadzam się w 100% z tym, żeby nie umieszczać informacji o prywatnych zasobach w plikach robots.txt, przecież nie zostawiamy złodziejowi kartki z listą potencjalnych miejsc gdzie mogą być klucze do naszego mieszkania!
  • 1