Wat is het deep web?
Het deep web is het gedeelte van het internet dat buiten de standaardzoekmethoden valt. Een standaardzoekmachine vindt webpagina's door een enkele pagina te openen en op alle links te klikken. Hiermee kunnen ze zich als een gigantisch spinnenweb uitbreiden van pagina tot pagina, pagina na pagina vinden door te linken. Dit proces legt slechts een fractie van de pagina's vast die op internet bestaan; enorme hoeveelheden gegevens zijn om een van de vele redenen volledig niet geclassificeerd. Deze pagina's verschijnen nooit in een standaardzoekmachine en zijn daarom onzichtbaar voor de meeste internetgebruikers.
Het oppervlakte-web is het deel van het internet waarmee de meeste gebruikers vertrouwd zijn. Dit gedeelte bevat de standaard webpagina's en webservices die de meeste gebruikers kennen. Het deep web bestaat uit informatie die alleen specifieke delen van internetgebruikers kennen of waar ook toegang toe is. Het diepe web is enorm in vergelijking met het oppervlakweb; in het jaar 2000 was het bijna 50 keer groter dan het oppervlakweb.
De reden dat het deep web bestaat, is voornamelijk te wijten aan beperkingen op zoekmachines. Terwijl zoekmachines door links kijken, hebben ze geen toegang tot bepaalde soorten webpagina's. Deze pagina's komen nooit in het systeem en worden daarom nooit geïndexeerd. Wanneer een gebruiker naar een van deze pagina's zoekt, zal hij of zij deze nooit vinden, omdat de zoekmachine het bestaan ervan niet registreert of er geen toegang toe heeft.
Er zijn een aantal verschillende paginatypen die voor een zoekmachine moeilijk of onmogelijk te indexeren zijn. Dynamische en op databases gebaseerde webpagina's zijn praktisch onmogelijk, omdat ze specifieke invoer vereisen. Deze webpagina's worden ter plekke samengesteld, vaak via gebruikersinvoer. Aangezien een dynamische pagina niet bestaat totdat deze nodig is, slaan zoekmachines deze over omdat ze niet weten waar ze om moeten vragen.
Private of gated webpagina's vormen nog een groot deel van het deep web. Aangezien deze pagina's inloggegevens of inloggegevens vereisen en de zoekmachine geen van beide heeft, heeft deze geen toegang tot informatie aan de andere kant van de inlog. Zelfs met dit probleem maken sommige op login gebaseerde sites deel uit van het oppervlakteweb. De website bevat speciale bepalingen om zoekmachines in staat te stellen om op zijn pagina's te zoeken. Dit is gebruikelijk bij pagina's die een open registratie hebben en extra verkeer willen genereren.
Een ander groot deel van het deep web bestaat uit niet-gekoppelde of beperkte websites. Deze pagina's bevatten geen links naar externe bronnen of blokkeren bestaande links actief. Dit voorkomt dat de zoekmachines de pagina ooit tegenkomen en wordt dus nooit aan een lijst toegevoegd. Vroeger was dit gebruikelijk bij persoonlijke webpagina's, maar door veranderingen in modern internetgebruik zijn de meeste persoonlijke pagina's gekoppeld en geïndexeerd.