Die so durchgeführten Teilschritte führen zu einem kleinen Thesaurus, der einen Untersuchungsgegenstand durch verschiedene Terme und deren Derivate
charakterisiert. Dieser Thesaurus bildet den Grundstock für den zweiten Schritt, der aus dem Start des des Spiders auf Grundlage der aus der Basis extrahierten Informationen besteht. Zu beachten ist hier, dass der Merkmalpool keine
Bewertung der gefundenen Websites zulässt. Es geht hierbei nur darum den Untersuchungsgegenstand zu charakterisieren, um auf dieser Grundlage die Suche nach Websites die den Untersuchungsgegenstand beinhalten durchzuführen. Hierbei
lassen sich noch keine Aussagen über das Image eines Produkts, einer Dienstleistung oder eines Unternehmens erkennen. Dies ist Aufgabe der Automatischen Analyse von Informationsquellen.
Der zweite Schritt dient zur eigentlichen
Steuerung des Spiders. Dabei unterteilt sich diese Phase ebenfalls in zwei Teilschritte. Der erste Schritt beschäftigt sich mit den Hyperlinks, die in der Basis enthalten sind. Sie bilden den Startpunkt des Spiders und sind somit die
Wurzeln des Suchbaums. Bevor nun der Spider aber die Hyperlinks der Basis verfolgt muss geprüft werden, ob die Hyperlinks eine ausreichende Relevanz für den Untersuchungsgegenstand darstellen. Hierzu wird der Hyperlink auf enthaltene
Terme untersucht, die durch einen Abgleich mit dem Thesaurus auf Relevanz überprüft werden.
Ist eine (vordefinierte) Relevanz gegeben, so wird der Spider aufgefordert diesen Hyperlink zu verfolgen. Diese Relevanzanalyse wird
für alle Hyperlinks der jeweiligen Basiswebseite durchgeführt. Aus dieser Analyse heraus ergibt sich eine Relevanzkennzahl für die Website. Diese Relevanzkennzahl hilft dem Spider bei Hyperlinks deren Analyse keine Bewertung zulässt.
Keine Bewertung ist beispielsweise bei Hyperlinks ohne Ankertext möglich. Die Entscheidung, ob diese Hyperlinks trotzdem verfolgt werden hängt von der Relevanz der übrigen Hyperlinks und damit von der Relevanzkennzahl ab. Ist eine
hohe Anzahl von Hyperlinks einer Website relevant, so kann man davon ausgehen, dass auch der Hyperlink ohne Aussage relevant ist.
Der zweite Teilschritt beschäftigt sich mit der Analyse der Webseiten die über die Hyperlinks
angesteuert wurden. Dabei wird davon ausgegangen, dass durch einen Hyperlink miteinander verbundene Sites viel wahrscheinlicher das gleiche Thema behandeln als zwei zufällig gewählte Seiten. Allein auf dieser Theorie kann sich ein
effektives Web-Monitoring allerdings nicht aufbauen. Daher ist eine Analyse der Texte auf der jeweiligen Webseite notwendig. Dazu werden die vorhandenen Terme der Webseite extrahiert und mit den Termen des Thesaurus verglichen. Durch
diesen Abgleich wird eine Relevanz ermittelt die dem Spider signalisiert, ob die Hyperlinks auf der Webseite für ihn interessant sind oder nicht. Ist eine Relevanz gegeben wird Teilschritt 1 wieder aktiviert. Somit werden wieder die
Hyperlinks analysiert und aus dieser Analyse heraus wird der weitere Weg des Spiders bestimmt.
Im zweiten Schritt arbeitet der Spider also eine Schleife ab, die sich so lange wiederholt bis der Spider keine relevanten Websites
bzw. Hyperlinks mehr findet. Damit ist dann der Suchbaum abgeschlossen. Der Suchbaum ist durch diesen Algorithmus nicht vorhersehbar. Dennoch lassen zwei Faktoren eine Beeinflussung des Suchbaums zu:
- Basis
Der erste Faktor ist die Basis. Je genauer sie einen Untersuchungsgegenstand anhand von WebsiteS beschreibt desto wahrscheinlicher ist der Aufbau eines effektiven Suchbaums. Der Spider wird mit hoher
Wahrscheinlichkeit Hyperlinks finden, die eine hohe Affinität zum Untersuchungsgegenstand aufweisen. Damit geht die Wahrscheinlichkeit von relevanten Websites einher , die der Spider durch die Verfolgung der Hyperlinks erreicht.
Hier wird nochmal die hohe Bedeutsamkeit der Basis und die intellektuelle Erstellung der Basis für ein effektives Web-Monitoring hervorgehoben.
- Steuerung
Der zweite Faktor lässt eine Steuerung der Komplexität des Suchbaums zu. Dazu werden dem Spider Relevanzwerte vorgegeben die eine Entscheidung zulassen ob eine Website bzw. ein Hyperlink relevant ist oder nicht.
Die Relevanz kann dabei abgestuft in einer Skala von 0 bis 10 beschrieben werden. Dabei gilt 0 als nicht relevant und 10 als sehr relevant. Die Relevanzeinstellung für die Hyperlinks und Websites werden getrennt voneinander
definiert.
Beispielsweise könnte die Relevanz für Hyperlinks mit 3 definiert werden und die Relevanz der Webseiten mit 8. Damit erreicht man eine hohe Verfolgung von Hyperlinks. Damit die Qualität der Informationsquellen nicht leidet
werden aber nur Websites verfolgt die eine Relevanz von mindestens 8 aufweisen. Diese Einstellung verringert die Wahrscheinlichkeit eines vorzeitigen Stopps des Spiders und damit auch einen hohen Informationsgewinn für das
Web-Monitoring-System. |