In 2016 verwerkte Google meer dan 3,2 biljoen zoekopdrachten, maar de resultaten die de zoekmachine opleverde, vertegenwoordigden slechts een fractie van de online beschikbare inhoud. Veel van de online beschikbare informatie is niet toegankelijk voor zoekmachines, dus u moet speciale tools gebruiken of zelf websites onderzoeken om deze verborgen pagina's te vinden. Deze verborgen informatie, ook wel bekend als het deep web, is goed voor tot 5000 keer wat er beschikbaar is met behulp van typische zoektechnieken.
Soorten verborgen inhoud
De verborgen pagina's van websites vallen in categorieën die beschrijven waarom ze onzichtbaar blijven voor zoekmachines.
Sommige vormen dynamische inhoud, die alleen wordt weergegeven wanneer een bezoeker een specifiek verzoek doet op een website die databasegestuurde code gebruikt om gerichte resultaten te presenteren. Deze pagina's kunnen bijvoorbeeld winkelresultaten bevatten op basis van specifieke combinaties van productcriteria. Zoekmachines zijn niet ontworpen om informatie die in deze databases is opgeslagen bij te houden en op te slaan. Om deze pagina's te vinden, moet u naar de website gaan en zoeken naar de specifieke informatie die u zoekt, of een databasegerichte zoekservice zoals Bright Planet gebruiken.
Sommige pagina's hebben geen links die ze verbinden met doorzoekbare bronnen. Tijdelijke bronnen, zoals meerdere versies van onderontwikkelde websites, kunnen in deze categorie vallen, evenals slecht ontworpen websites. Als iemand bijvoorbeeld een webpagina heeft gemaakt en deze naar de server van de website heeft geüpload, maar er geen link naar heeft toegevoegd op de huidige pagina's van de website, zou niemand weten dat deze er was, inclusief de zoekmachines.
Nog meer pagina's vereisen inloggegevens om ze te bekijken of te bereiken, zoals abonnementssites. Webontwerpers wijzen pagina's en secties van sites aan als verboden terrein voor zoekmachines, waardoor ze effectief worden voorkomen dat ze via conventionele middelen worden gevonden. Om toegang te krijgen tot deze pagina's, moet u doorgaans een account aanmaken voordat u toestemming krijgt om ze te openen.
Robots.txt-bestanden gebruiken
Zoekmachines kruipen door de pagina's van een website en indexeren de inhoud ervan, zodat deze kan worden weergegeven als reactie op vragen. Wanneer een website-eigenaar bepaalde delen van haar domein wil uitsluiten van deze indexeringsprocedures, voegt ze de adressen van deze mappen of pagina's toe aan een speciaal tekstbestand met de naam robots.txt, dat is opgeslagen in de hoofdmap van haar site. Omdat de meeste websites een robotsbestand bevatten, ongeacht of ze er uitsluitingen aan toevoegen, kunt u de voorspelbare naam van het document gebruiken om de inhoud ervan weer te geven.
Als u "[domeinnaam]/robots.txt" typt zonder de aanhalingstekens in de locatieregel van uw browser en "[domeinnaam]" vervangt door het siteadres, verschijnt de inhoud van het robots-bestand vaak in het browservenster na u drukt op de "Enter"-toets. Vermeldingen voorafgegaan door "disallow" of "nofollow" vertegenwoordigen delen van de site die ontoegankelijk blijven via een zoekmachine.
Doe-het-zelf website hacken
Naast robot.txt-bestanden kunt u vaak verborgen inhoud vinden door webadressen voor specifieke pagina's en mappen in uw webbrowser te typen. Als u bijvoorbeeld naar de website van een artiest kijkt en merkt dat elke pagina dezelfde naamgevingsconventie gebruikt, zoals galerij1.html, galerij2.html, galerij4.html, kunt u mogelijk een verborgen galerij vinden door de pagina te typen " galerij3.html." in uw webbrowser.
Evenzo, als u ziet dat de website mappen gebruikt om pagina's te ordenen - zoals example.com/content/page1.html, waarbij "/content" de map is - dan kunt u mogelijk de map zelf bekijken door de website en map te typen , zonder een pagina, zoals "example.com/content/" in uw webbrowser. Als de toegang tot de map niet is uitgeschakeld, kunt u mogelijk door de pagina's die deze bevat en door pagina's in eventuele submappen navigeren om verborgen inhoud te vinden.