Jak znaleźć ukryte strony na stronach internetowych

W 2016 r. Google obsłużyło ponad 3200 miliardów zapytań, jednak wyniki udostępnione przez wyszukiwarkę stanowiły tylko ułamek treści dostępnych online. Większość informacji dostępnych w Internecie nie jest dostępna za pośrednictwem wyszukiwarek, dlatego konieczne jest użycie specjalnych narzędzi lub witryn badawczych w celu znalezienia tych ukrytych stron. Ta ukryta informacja, znana jako deep web, reprezentuje do 5000 razy więcej niż to, co jest dostępne przy użyciu typowych technik wyszukiwania.

Rodzaje ukrytej treści

Ukryte strony stron internetowych są podzielone na kategorie, które opisują, dlaczego pozostają niewidoczne dla wyszukiwarek.

Niektóre stanowią treść dynamiczną, która jest prezentowana tylko wtedy, gdy użytkownik publikuje konkretne żądanie na stronie internetowej, która używa kodu opartego na bazie danych do przedstawienia konkretnych wyników. Na przykład strony te mogą zawierać wyniki zakupów w oparciu o określone kombinacje kryteriów produktów. Wyszukiwarki nie są zaprojektowane do śledzenia i przechowywania informacji w tych bazach danych. Aby znaleźć te strony, należy przejść do witryny i wyszukać konkretne informacje, których szukasz, lub skorzystać z usług wyszukiwania zorientowanych na bazę danych, takich jak Bright Planet .

Niektóre strony nie zawierają linków, które łączą je ze źródłami wyszukiwania. W tej kategorii można uwzględnić zasoby tymczasowe, takie jak różne wersje niedorozwiniętych stron internetowych, podobnie jak źle zaprojektowane witryny internetowe. Na przykład, jeśli ktoś stworzył stronę internetową i przesłał ją na serwer strony internetowej, ale nie dodał do niej linku na bieżących stronach witryny, nikt nie wiedział, że tam jest, w tym także wyszukiwarki.

Jeszcze więcej stron wymaga poświadczeń logowania, aby wyświetlić lub uzyskać dostęp, takich jak witryny subskrypcji. Projektanci stron internetowych wyznaczają strony i sekcje stron, które znajdują się poza zasięgiem wyszukiwarek, skutecznie eliminując ich lokalizację w konwencjonalny sposób. Aby uzyskać dostęp do tych stron, zwykle musisz utworzyć konto, zanim uzyskasz uprawnienia dostępu do nich.

Korzystanie z plików robots.txt

Wyszukiwarki indeksują strony witryny i indeksują ich zawartość, dzięki czemu mogą pojawiać się w odpowiedzi na zapytania. Gdy właściciel witryny chce wyłączyć niektóre części swojej domeny z tych procedur indeksowania, dodaje adresy tych katalogów lub stron do specjalnego pliku tekstowego o nazwie robots.txt, przechowywanego w katalogu głównym swojej witryny. Ponieważ większość stron internetowych zawiera plik robota niezależnie od tego, czy dodają wykluczenia, można użyć przewidywalnej nazwy dokumentu, aby wyświetlić jego zawartość.

Jeśli wpiszesz "[nazwa domeny] /robots.txt" bez cudzysłowów w pasku adresu przeglądarki, zastępując "[nazwa domeny]" adresu witryny, zawartość pliku robota będzie często wyświetlana okno przeglądarki po naciśnięciu klawisza "Enter". Wpisy poprzedzone słowem "disallow" lub "nofollow" reprezentują części strony, które pozostają niedostępne przez wyszukiwarkę.

Zrób to sam: hakowanie witryn

Oprócz plików robot.txt często można znaleźć ukrytą zawartość, wpisując adresy internetowe konkretnych stron i folderów w przeglądarce. Na przykład, jeśli patrzysz na stronę artysty i zauważyłeś, że każda strona używa tej samej konwencji nazewnictwa - jak galeria1.html, galeria2.html, galeria4.html - wtedy możesz znaleźć ukrytą galerię, wpisując stronę "gallery3.html "w Twojej przeglądarce internetowej.

Podobnie, jeśli zauważysz, że strona internetowa używa folderów do porządkowania stron - takich jak example.com/content/page1.html, z "/ content" jako folderem - możesz zobaczyć folder samodzielnie, wpisując w witrynie i folder, bez strony, np. "example.com/content/" w Twojej przeglądarce. Jeśli dostęp do folderu nie został wyłączony, możesz poruszać się po stronach, które zawiera, a także poprzez strony dowolnego podfolderu, aby znaleźć ukrytą zawartość.

Artykuł powstał przy pomocy itstillworks.com