Wat is een schermschraper?
Een schermschraper is een computerprogramma dat op tekens gebaseerde gegevens van de weergave-uitvoer van een ander programma verzamelt. Schermschrapers kunnen de gezochte gegevens extraheren en in een rijker formaat presenteren, zoals met grafieken of tabellen, of eenvoudig de gegevens voor opslag indexeren. Er zijn veel andere namen voor een schermschraper, waaronder websiteschraper, contentminer, websiteripper, webextractor, geautomatiseerde gegevensverzamelaar en HTML-scraper.
Een schermschraper doorzoekt de code van een website en filtert de externe code die aanwezig is om de eindbrowser een mooie presentatie te bieden. Een dergelijke code is nodig om de hele pagina in de beoogde lay-out te bekijken, maar een krabber zoekt eenvoudig naar nuttige gegevens. Deze gegevens worden verzameld en gepresenteerd als een eenvoudige database, zonder de toeters en bellen van de originele HTML-code.
Een goed voorbeeld van een schermschraper in actie is met spiders van zoekmachines. Deze spinnen openen honderdduizenden websites, die elk talloze pagina's bevatten. De zoekwoordgegevens van deze sites worden verzameld en geïndexeerd en vervolgens aan de eindgebruiker gepresenteerd als zoekresultaten van zoekmachines.
De meeste schermschrapers doorzoeken de HTML-codering van een website om hun informatie te krijgen, maar ze kunnen ook zoeken in andere scripttalen zoals JavaScript of PHP. De gegevens die worden gedolven, kunnen vervolgens worden gepresenteerd als HTML zelf, zodat de gebruiker er toegang toe heeft met hun webbrowser, of opgeslagen als tekstgegevens die offline toegankelijk zijn voor de gebruiker.
Bedrijven gebruiken schermschrapers om de gegevens van verschillende trefwoordgerelateerde websites te minen om grafieken, grafieken, spreadsheets en vergelijkingsgegevens te genereren voor gebruik in rapporten en presentaties. De schermschraper bespaart een buitengewone hoeveelheid tijd, omdat een werknemer die dezelfde taak uitvoert, naar relevante sites moet zoeken, op links moet klikken en elke site afzonderlijk moet doorzoeken om de benodigde gegevens te vinden en vast te leggen. Een schermschraper kan ook worden gebruikt wanneer informatie wordt opgeslagen op een systeem dat niet langer toegankelijk is vanwege compatibiliteitsproblemen met nieuwere hardware of software.
Schermschrapers kunnen zowel een zegen als een vloek zijn voor site-eigenaren en websurfers. Hoewel ze absoluut een functionele service bieden voor bedrijven, zoekmachines en anderen, kan een schermschraper ook worden gebruikt voor minder dan altruïstische doeleinden. Bedrijven of personen die bijvoorbeeld spam gebruiken als advertentiemethode, kunnen een schermschraper gebruiken om e-mailadressen van websites te minen.
Hoewel een schermschraper een handig hulpmiddel kan zijn, is er enige discussie onder de webgemeenschap over legaliteit en ethiek bij het gebruik ervan. Auteursrechtkwesties worden wazig wanneer een schermschraper iemands harde werk extraheert en het in een ander formaat voor een andere website presenteert, en die sites die afhankelijk zijn van advertenties om inkomsten te genereren, problemen hebben wanneer hun advertenties door de schermschraper worden verwijderd. Als gevolg hiervan zijn sommige website-eigenaren begonnen met het implementeren van tools die voorkomen dat hun sites worden geschraapt.