Title | Deep Learning von Domänen-spezifischen Repräsentationen von natürlichsprachlichen Dokumenten |
---|---|
Description |
Klassifikation bezeichnet das Einteilen von Dokumenten in disjunkte Klassen (z.B. Spam/kein Spam). Verfahren basierend auf Maschinellem Lernen trainieren eine Entscheidungsregel auf Basis von annotierten Beispielen. Numerische Klassifikationsverfahren benötigen dabei Dokumente als d-dimensionale reellwertige Vektoren. Häufig werden die Dokumente in eine sogenannte Bag-of-Words Repräsentation überführt, in der jede der d Komponenten des Vektors für ein mögliches Wort steht und der Wert im Vektor die Anzahl der Vorkommen des Wortes im Dokument beschreibt. Bag-of-Word Vektoren sind sehr hoch-dimensional, allerdings sehr dünn besetzt. Die Vektoren können mit Lernverfahren wie den Support Vector Machines klassifiziert werden [1]. Natürlich können auch andere numerische Repräsentationen gewählt werden [3]. Eine aktuelle Idee ist es, mithilfe von einfachen neuronalen Netzen eine Vektorrepräsentation zu lernen, die niedrig-dimensional, aber dicht besetzt ist. Dazu können große Mengen von ungelabelte Daten einer speziellen Domäne, beispielsweise Filmrezensionen oder religiöse Onlinediskussionen, als Trainingskorpus verwendet werden. Ungelabelte Daten sind häufig in größeren Mengen verfügbar, da der manuelle Annotationsschritt entfällt. So könnte von großen Mengen von Daten profitiert werden und trotzdem mit wenig gelabelten Beispielen gute Klassifikatoren für spezielle Domänen gelernt werden. Von besonderer Relevanz sind die Arbeiten von Mikolov et. al zu Word Embeddings [4] bzw. Document Embeddings [2]. Im Rahmen einer Bachelorarbeit könnte verschiedenen Fragen nachgegangen werden:
Hier ist es sicherlich möglich, den Schwerpunkt den eigenen Interessen nach zu setzen. Literatur:
|
Qualification |
|
Thesistype | Bachelorthesis |
Second Tutor | Pfahler, Lukas |