| SciPort RLP

Content Extraction : Bestimmung des Hauptinhaltes in HTML Dokumenten

Ausgezeichnete Informatikdissertationen 2008. Bonn: Ges. für Informatik 2009 S. 101 - 110

Erscheinungsjahr: 2009

ISBN/ISSN: 978-3-88579-413-4

Publikationstyp: Buchbeitrag

Sprache: Deutsch

Geprüft

Bibliothek

Inhaltszusammenfassung

Außer dem Artikel der den eigentlichen Hauptinhalt darstellt enthalten die meisten HTML Dokumente im WWW zusätzliche Inhalte, wie beispielsweise Navigationsmenüs, gestalterische Elemente oder Werbung. Für verschiedene Anwendungen ist es nötig die Unterscheidung zwischen Haupt- und zusätzlichen Inhalten automatisch vorzunehmen. Content Extraction und Template Detection sind Verfahren, die diese Aufgabe lösen. Während der Forschungsarbeit auf diesem Gebiet sind einige inter...Außer dem Artikel der den eigentlichen Hauptinhalt darstellt enthalten die meisten HTML Dokumente im WWW zusätzliche Inhalte, wie beispielsweise Navigationsmenüs, gestalterische Elemente oder Werbung. Für verschiedene Anwendungen ist es nötig die Unterscheidung zwischen Haupt- und zusätzlichen Inhalten automatisch vorzunehmen. Content Extraction und Template Detection sind Verfahren, die diese Aufgabe lösen. Während der Forschungsarbeit auf diesem Gebiet sind einige interessante Beiträge entstanden. Drei davon sollen hier kurz vorgestellt werden. Dazu gehört der neu eingeführte Content Code Blurring Algorithmus, derzeit der leistungsfähigste Ansatz zur Inhaltsextraktion. Der zweite Beitrag liegt in der Entwicklung objektiver Maße zur Bewertung der Leistung von Algorithmen zur Inhaltsextraktion. Dadurch ließen sich bestehende Verfahren erstmals überhaupt miteinander vergleichen. Eine Analyse verschiedener Methoden zur Gruppierung von Webdokumenten bezüglich der ihnen unterliegenden Templates stellt den dritten größeren Beitrag dieser Arbeit dar. In Kombination mit einer lokalen Websuche kann dieses Templateclustering für die automatische Erstellung von Trainingsdatensätzen zur Templateerkennung eingesetzt werden. Da das Verfahren vollautomatisch ablaufen kann, ermöglicht es im Prinzip Template Detection auf einzelne Dokumente anzuwenden. Damit lassen sich die Vorteile aus Content Extraction und Template Detection verknüpfen. » weiterlesen » einklappen

Autoren

Gottron, Thomas (Autor)

Klassifikation

DFG Fachgebiet:
Informatik

DDC Sachgruppe:
Informatik

Verknüpfte Personen

Thomas Gottron
Administrator Forschungsdatenbank
(FB 4: Informatik)

Starten Sie Ihre Suche...

Content Extraction : Bestimmung des Hauptinhaltes in HTML Dokumenten

Inhaltszusammenfassung

Autoren

Klassifikation

Verknüpfte Personen

Beteiligte Einrichtungen