automatisches Web-Monitoring

Das sogenannte "Deep Web" ist 1000 mal gräßer als das allgemeinbekannte, vor allem HTML-basierte Internet. Sie enthält mehr als 8 Petabytes an Informationen, das als Wissen von den meisten Unternehmen kaum genutzt wird. Unter "Deep Web" ist das Web zu verstehen, das meist passwortgeschützt ist und daher von Suchmaschinen nicht aufgenommen wird.

Zudem kommt hinzu, dass sich Suchmaschinen schwer tun News-Boards, Chatforen, Peer-2-Peer Netzwerke sowie Informationen, die auf FTP-Servern liegen und weitere Quellen zu indexieren. Somit ist der Weg zu einem effizienten und wirtschaftlichen Webmonitoring nur durch eine Automatisierung der Informationserhebung zu erreichen. Die Automatisierung gliedert sich dabei in verschieden Bereiche auf. So kann mit Automatisierung sowohl die Suche nach Quellen gemeint sein als auch die qualitative Analyse der gefunden Quellen durch Mining-Instrumente. Beide Formen werden hier behandelt und erörtert.

Als das Gerücht herumging, dass ein weltgroßer Kosmetikhersteller seine Düfte mit Moschus streckt, war der Aufschrei im Unternehmen groß. Die Falschmeldung wurde in einem Forum geschrieben und schaukelte sich hoch, bis einige Fondsgesellschaften sogar die Aktie des Herstellers aus ihrem Portfolio nahmen.


Das ist ein Szenario, das für viele Unternehmen alltägliche Realität sein kann. Anhand solcher Szenarien müssen sich daher auch die Anforderungen an automatische Web-Monitoring Systeme messen. Doch die möglichen Szenarien können sehr vielfältig sein. Daher muss das automatische Web-Monitoring auch ein sehr breites Spektrum an Lösungen anbieten. Dabei sollten automatische Web-Monitoring Systeme vor allem zwei grundlegende Aufgaben erfüllen.

1. Erhebung von Informationsquellen
Die wohl wichtigste Aufgabe beim Webmonitoring ist es, die Quellen im Internet zu finden, die für den jeweiligen Untersuchungsgegenstand relevant sind. Im Bereich des manuellen Web-Monitoring wird dies überwiegend mit Suchmaschinen realisiert. Doch dabei stößt man schnell an die Grenzen der Quellenerhebung. Das Internet ist zu undurchsichtig und schnelllebig um mit Hilfe des manuellen Web-Monitoring effiziente Ergebnisse zu erhalten. Daher muss eine Automatisierung der Quellensuche erfolgen. Diese Automatisierung erfolgt in Anlehnung an die Methoden der Suchmaschinen. Sogenannte Crawler oder Web-Spider sollen dabei helfen, die richtigen Informationen aus dem Internet zu filtern.

2. Analyse der Informationsquellen
Sind die Quellen zu einem Untersuchungsgegenstand erhoben, steht die quantitative oder qualitative Auswertung der Informationen an. Im Bezug auf die Imageanalyse durch ein Web-Monitoring ist eine qualitative Auswertung der Informationen unabdingbar. Doch die qualitative Auswertung im automatischen Web-Monitoring stellt eine große Herausforderung dar. War es beim manuellen Web-Monitoring noch möglich die vergleichsweise geringe Anzahl von Quellen intellektuell durch Menschen zu analysieren, so ist es beim automatischen Verfahren schwer eine Automatisierung der intellektuellen Analyse zu realisieren. Die Automatisierung der Analyse wird vor allem durch die große Anzahl von unstrukturierten Daten erschwert.

Zum Einsatz kommen hier Text-Mining-Techniken die es erlauben, mit statistischen und linguistischen Mitteln relevante Informationen aus Textdaten zu beziehen. Dabei darf Text-Mining nicht mit Data-Mining verwechselt werden. Data-Mining arbeitet auf strukturierten Daten, die in relationalen Datenbanken gespeichert liegen. Text-Mining Verfahren dagegen müssen sich mit nicht-intellektuellen und unstrukturierten Daten auseinandersetzen, die dazu noch in verschiedenen Datenbanken liegen können.