Hauptnavigation

Pages about teaching are available in German only Zurück zu der Liste der Abschlussarbeiten

Deep Learning von Domänen-spezifischen Repräsentationen von natürlichsprachlichen Dokumenten

Title Deep Learning von Domänen-spezifischen Repräsentationen von natürlichsprachlichen Dokumenten
Description

Klassifikation bezeichnet das Einteilen von Dokumenten in disjunkte Klassen (z.B. Spam/kein Spam). Verfahren basierend auf Maschinellem Lernen trainieren eine Entscheidungsregel auf Basis von annotierten Beispielen. Numerische Klassifikationsverfahren benötigen dabei Dokumente als d-dimensionale reellwertige Vektoren. Häufig werden die Dokumente in eine sogenannte Bag-of-Words Repräsentation überführt, in der jede der d Komponenten des Vektors für ein mögliches Wort steht und der Wert im Vektor die Anzahl der Vorkommen des Wortes im Dokument beschreibt. Bag-of-Word Vektoren sind sehr hoch-dimensional, allerdings sehr dünn besetzt. Die Vektoren können mit Lernverfahren wie den Support Vector Machines klassifiziert werden [1].

Natürlich können auch andere numerische Repräsentationen gewählt werden [3]. Eine aktuelle Idee ist es, mithilfe von einfachen neuronalen Netzen eine Vektorrepräsentation zu lernen, die niedrig-dimensional, aber dicht besetzt ist. Dazu können große Mengen von ungelabelte Daten einer speziellen Domäne, beispielsweise Filmrezensionen oder religiöse Onlinediskussionen, als Trainingskorpus verwendet werden. Ungelabelte Daten sind häufig in größeren Mengen verfügbar, da der manuelle Annotationsschritt entfällt. So könnte von großen Mengen von Daten profitiert werden und trotzdem mit wenig gelabelten Beispielen gute Klassifikatoren für spezielle Domänen gelernt werden. Von besonderer Relevanz sind die Arbeiten von Mikolov et. al zu Word Embeddings [4] bzw. Document Embeddings [2].

Im Rahmen einer Bachelorarbeit könnte verschiedenen Fragen nachgegangen werden:

  • Lassen sich die berechneten Embeddings inhaltlich interpretieren? Werden Themen sichtbar, die im Trainingskorpus bedeutsam sind? Ist die inhaltliche Interpretierbarkeit vergleichbar mit anderen Verfahren des Topic Modellings wie z.b. der Latent Dirichlet Allocation [5]?
  • Ermöglicht das Berechnen der Repräsentationen eine präzisere Klassifikation als das naive Verwenden von Bag-of-Words? Welchen Einfluss haben dabei einzelne Dimensionen der Embeddings?

Hier ist es sicherlich möglich, den Schwerpunkt den eigenen Interessen nach zu setzen.

Literatur:

  • [1] T. Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Proceedings of the European Conference on Machine Learning (ECML), Springer, 1998.
  • [2] Le, Q., Mikolov, T., Com, T. G., Distributed Representations of Sentences and Documents, Retrieved from https://cs.stanford.edu/~quocle/paragraph_vector.pdf, 2014.
  • [3] Bengio, Y., Courville, A., Vincent, P., Representation learning: A review and new perspectives. http://doi.org/10.1109/TPAMI.2013.50, 2013.
  • [4] Mikolov, T., Yih, W., Zweig, G., Linguistic Regularities in Continuous Space Word Representations. In Human Language Technologies: Conference of the North American Chapter of the Association of Computational Linguistics, Proceedings, June 9-14, 2013, , Georgia, {USA} (pp. 746–751), 2013
  • [5] Blei, D. M., Ng, A. Y., Jordan, M. I., Latent Dirichlet Allocation. Journal of Machine Learning Research, 3(4-5), 993–1022, 2003
Qualification
  • Spaß und Interesse am Forschungsfeld 'Maschinelles Lernen' sind Grundvorraussetzung, Vorkenntnisse (bspw. aus Fachprojekt) sind auf jeden Fall hilfreich
  • mit RapidMiner (www.rapidminer.com) steht ein mächtiges Tool zur Verfügung, dass viel Arbeit abnimmt, aber auch Einarbeitung erfordert
  • sehr gute Mathematikkenntnisse und gute Programmierkenntnisse erforderlich
  • wir bearbeiten große Datenmengen, haben aber auch große Maschinen zur Verfügung (42 Kerne, >400GB RAM)
  • die Arbeit kann auf Deutsch oder Englisch (bei entsprechenden sehr guten Sprachkenntnissen) verfasst werden.
Thesistype Bachelorthesis
Second Tutor Pfahler, Lukas