Was ist Web Harvesting?
Web Harvesting ist der Prozess, mit dem spezialisierte Software Daten aus dem Internet sammelt und diese für einen Endbenutzer in Dateien ablegt. Es hat eine ähnliche Funktion wie eine Suchmaschine, ist jedoch weiter fortgeschritten als diese. Web Harvesting, auch als Web Scraping bezeichnet, ermöglicht dem Benutzer den automatisierten Zugriff auf Informationen im Internet, die Suchmaschinen nicht verarbeiten können, da sie HTML-Code umgehen können. Die drei Haupttypen des Web Harvesting betreffen den Webinhalt, die Struktur und die Verwendung.
Bei der Erfassung von Webinhalten werden Informationen extrahiert, indem Daten sowohl aus Suchseitenergebnissen als auch aus einer tieferen Suche nach Inhalten, die in Webseiten verborgen sind, abgerufen werden. Diese zusätzlichen Informationen werden häufig von Suchmaschinen verdeckt, da sie durch HTML-Code verdeckt werden. Der Prozess scannt Informationen ähnlich wie das menschliche Auge und verwirft Zeichen, die keine aussagekräftigen Phrasen bilden, um nützliche Elemente zu extrahieren.
Anstatt nach Inhalten zu suchen, werden beim Ernten von Webstrukturen Daten darüber gesammelt, wie Informationen in bestimmten Bereichen des Internets organisiert sind. Die gesammelten Daten liefern wertvolle Rückmeldungen, anhand derer Verbesserungen in Bereichen wie Informationsorganisation und -abruf vorgenommen werden können. Es ist eine Möglichkeit, die Struktur des Webs zu verfeinern.
Durch das Web Usage Harvesting werden allgemeine Zugriffsmuster und die benutzerdefinierte Verwendung durch Webbenutzer nachverfolgt. Durch die Analyse der Webnutzung kann durch das Ernten Klarheit darüber geschaffen werden, wie sich Benutzer verhalten. Dies ist eine weitere Möglichkeit, die Funktion des Webs zu verbessern, jedoch auf Endbenutzerebene. Es kann Designern helfen, die Benutzeroberflächen ihrer Websites für maximale Effizienz zu verbessern. Der Prozess gibt auch Aufschluss darüber, nach welchen Arten von Informationen die Benutzer suchen und wie sie diese finden. Auf diese Weise erhalten Sie eine Vorstellung davon, wie Inhalte in Zukunft entwickelt werden sollten.
Durch das Sammeln von Text- und Bilddaten aus HTML-Dateien und Bildern kann Web Harvesting komplexere Web-Crawls durchführen, die sich eingehender mit den einzelnen Dokumenten befassen. Außerdem werden die Links analysiert, die auf diesen Inhalt verweisen, um festzustellen, ob die Informationen im Internet von Bedeutung und Relevanz sind. Dies liefert ein vollständigeres Bild davon, wie sich die Informationen auf den Rest des Webs beziehen und diesen beeinflussen.
Unternehmen setzen Web Harvesting für eine Vielzahl von Zwecken ein. Es kann eine effektive Möglichkeit sein, zu analysierende Daten zu sammeln. Einige der am häufigsten zusammengestellten Datensätze sind Informationen über Wettbewerber, Listen mit unterschiedlichen Produktpreisen und Finanzdaten. Es können auch Daten gesammelt werden, um das Kundenverhalten zu analysieren.