|
>> Startseite
| automatisches Web-Monitoring | Algorithmus der Erhebung |
Algorithmus zur Erhebung von Quellen
|
|
Neben der Erhebung der Quellen, liegt die Herausforderungen in der Analyse der im Internet gefundenen Quellen. Problematisch ist hier die
Strukturierung der Quellen, die analysiert werden sollen. Websites sind zwar in der Regel durch den HTML-Code strukturiert, allerdings ist dies keine Garantie für eine konsistente Struktur. Websites enthalten häufig keinen reinen
Text, sondern bestehen aus Tabellen, Textfragmenten, Listen, einzelnen Überschriften/Wörtern. Somit können HTML-Dokumente nicht ohne weitere, technische Spezifikationen verarbeitet werden. Geht man davon aus, dass die Quellen für das
Web-Monitoring bereits durch die Automatische Erhebung von Informationsquellen vorhanden sind, so muss dieser Pool von Quellen (Websites) für eine Weiterverarbeitung vorbereitet werden. |
|
Diese Vorbereitung der gefundenen Quellen wird durch Wrapper erreicht. Der Wrapper dient dazu, unstrukturierte, zumeist in HTML vorliegende
Daten automatisch zu extrahieren und in strukturierte Datenformate auf Basis von XML umzuwandeln. Der Fokus liegt hierbei auf der Syntaxanalyse der von dem Spider gefundenen Quellen. Es handelt sich somit um eine Vorextraktion
von Informationen, die notwendig ist, damit andere Schichten des Web-Monitoring-Systems die weitere Informationsextraktion durchführen können. Das Format XML bietet dabei wesentliche Vorteile bei der Weiterverarbeitung der
Dokumente.Im Vordergrund steht dabei die Möglichkeit eines flexiblen Datenaustauschs. Sind die Daten erstmal in XML umgewandelt, wird ein flexibler Datenaustausch gewährleistet. Der Content kann dann in meist zwei verschiedenen
Formaten zur Verfügung gestellt werden. Das Problem besteht jedoch darin, dass sich XML im Web noch nicht als Standard auf breiter Ebene durchgesetzt hatt. Somit ist die Anwendung des Wrapper auch in Zukunft für ein Web-Monitoring
unvermeidbar. Da der Einsatz des Wrapper einen hohen Aufwand an Rechenleistung darstellt, ist es sehr wichtig den vorangegangenen Schritt der automatischen Informationsgewinnung so effektiv wie möglich zu gestalten, damit der
Wrapper möglichst wenig Ballast bearbeiten muss. Als Ballast werden dabei Informationsquellen bezeichnet, die keine dem Untersuchungsgegenstand entsprechende Informationen enthalten. Nach dem Einsatz des Wrapper erhält man eine
Ansammlung von annähernd strukturierten Informationsquellen, die für eine automatische Analyse zur Verfügung stehen.
Die automatische Analyse der Informationsquellen verlangt den Einsatz von Verfahren, die Informationen
möglichst selbstständig sammeln und die Informationen erweiterbar und übertragbar werden. Das Verfahren muss demnach eine Eigendynamik entwickeln, die eine umfassende Analyse des Untersuchungsgegenstands im Hinblick auf die Stellung
im System erlaubt. Beispielsweise sollten Aussagen über das Image eines Produkts auf einem definierten Marktsegment analysierbar sein. Zur Erreichung dieser Funktionalität ist der Einsatz von Instrumenten des Text-Mining erforderlich.
Dabei wird Text-Mining als Oberbegriff für sämtliche Methoden gesehen, mit denen sich zwar bisher unbekannte aber potentielle und nützliche Informationen finden lassen, . Diese lassen sich oftmals in großen Textsammlungen finden.
Wichtiger Schritt für die Vorbereitung auf eine Bearbeitung mit Text-Mining Instrumenten ist die einheitliche Strukturierung der Informationsquellen. Diese Strukturierung wird von den Instrumenten des Text-Mining abgegrenzt da der
Wrapper nur eine Strukturierung von Daten vornimmt, nicht aber Informationen aus diesen Daten extrahiert.
Der durch den Wrapper strukturierte Pool von Informationsquellen im XML-Format dient als Ausgangspunkt für die
automatische Analyse mittels der Text-Mining Instrumente. In dem thematischen Bereich des Web-Monitorings, werden zwei grundlegende Instrumente zur Verarbeitung freier Texte zum Zwecke der Filterung von Informationen genannt. |
|
|
Anzeigen |
Anbieter |
|
Ihr Partner für Web-Monitoring |

|
Das Buch zum Thema |
Marco Güldenring Webmonitoring |
|
EUR 49,00
 |

|
Anbieter |
|
Beobachtung on Foren, Communitys, Blogs mit Webmonitoring
www.infospeed.de a webknowledge company |
|
|
|
|