|
ADT
ADT bietet die Möglichkeit anhand von Formatierungmerkmalen wie z. B.
Schriftgrszlig;e oder Schriftschnitt eine semantische Auszeichnung eines
Dokumentesvorzunehmen. So kann dem System beispielsweise eine Überschrift als
solche erkennbar gemacht werden. Dadurch ergeben sich eine Reihe an
Vorteilen:
- Automatische Erstellung von Inhalts- und Stichwortverzeichnissen:
Wurden Überschriften im Dokument als solche ausgezeichnet, können diese verwendet
werden um ein Inhaltsverzeichnis
automatisch zu erstellen. Stichwortverzeichnisse werden auf dieselbe Art
generiert. Voraussetzung ist auch hier, dass alle Stichwörter im Dokument
gekennzeichnet wurden.
- Einheitliche Formatierungsänderung:
Alle gleichen Strukturen werden einheitlich formatiert. Die Formatierung
für das gesamte Dokument kann so nachträglich ohne großen Aufwand
einheitlich geändert werden. Soll beispielsweise die Schriftgröße der
Überschriften von 20 Punkte auf 24 Punkte erhöht werden, muss die
Änderung nur an einer Stelle durchgeführt werden. Die Modifikation wirkt
sich jedoch auf alle Überschriften gleich aus.
- Sinnvolle Hypertext-Aufbereitung:
Eine sinnvolle Aufbereitung als Hypertext ist maschinell ohne semantische
Auszeichnung nicht möglich. Verwendet man die Exportfunktionen moderner
Textverarbeitungsprogramme, um ein Dokument in ein Hypertext-Dokument zu
konvertieren, entstehen meist Dokumente, die nur optisch dem ursprünglichen
Dokument ähneln. Beispielsweise werden Überschriften oft nicht als
Überschriften markiert, wie es in Hypertexten möglich ist, es wird ihnen
lediglich eine bestimmte Schriftart und -größe zugeordnet.
Bei älteren Texten war solch eine semantische Textauszeichnung - abhängig
vom Programm - oft nicht möglich, oder bei neueren Texten war dem Autor eine
semantische Auszeichnung zu kompliziert. In vielen Fällen wird aber eine
solche Annotation nachträglich gewünscht, z.B. wenn diese Texte
überarbeitet, weiterverwendet oder ins WWW gestellt werden sollen. Sicher ist
es möglich, Texte manuell nachträglich semantisch auszuzeichnen. Viele
dieser Texte besitzen jedoch eine starke implizite Strukturierung, bei der
sich aus den verwendeten Schriftgrößen und weiteren Textattributen eine
explizite semantische Strukturierung erstellen lässt.
ADT verwendet verschiedene Algorithmen aus dem Bereich des Maschinellen Lernens
um Dokument-Absätze zu klassifizieren. Dadurch ist es möglich, dass beliebige
Dokumente bearbeitet werden können. Die Eigenschaften der einzelnen Abschnitte
wird bei jedem Dokument anhand von Beispielen neu erlernt. D.h. der Anwender
klassifiziert zu Beginn der Bearbeitung eines Dokumentes einige Absätze manuell. Diese Beispielklassifikationen werden
vom System genutzt um einen Entscheidungsbaum zu erstellen, mit dem anschließend alle Absätze des Dokumentes automatisch
klassifiziert werden.
Als Eingabeformat dient das Rich Text Format (RTF). Dokumente die im Word-Format vorliegen können leicht
in das RTF-Format konvertiert werden, indem das Dokument einfach mit Word im RTF-Format gespeichert wird.
Als Ausgabeformat kann zur Zeit XML gewählt werden.
Die in ADT verwendeten Algorithmen J4.8, IBk und KStar stammen aus dem
WEKA-Paket der Universiät Waikato.
Download:
Installation:
Um ADT starten zu können, muss eine lauffähige Version des JAVA JRE 1.4.X auf Ihrem System installiert sein. Sollte dies
nicht der Fall sein, können Sie hier eine aktuelle Version
des JRE herunterladen.
UNIX:
- xterm öffnen
- java -jar ADT_0_1.jar
Windows:
- Eingabeaufforderung öffnen
- java -jar ADT_0_1.jar
Macintosh (Mac OS X):
- xterm öffnen
- java -jar ADT_0_1.jar
Dokumentation:
- Benutzergeführtes Lernen von Dokument-Strukturauszeichnungen
aus Formatierungsmerkmalen (Diplomarbeit)
(html /
pdf)
Screenshots:
|
Die ADT-GUI nach dem öffnen eines Dokuments |
|
Manuell erstellte Bespielklassifikationen |
|
Automatisch klassifizierte Absätze unter Verwendung des J4.8 Algorithmus |
|
Gelernter Entscheidungsbaum |
Known Bugs
| |