Hauptnavigation

Fachprojekt: Datenanalyse und Data-Mining - Operating a Machine-Learning-powered Search Engine

Lukas Pfahler (M.Sc.)


Inhalt

Suchmaschinen ohne künstliche Intelligenz sind heutzutage undenkbar. Welche Suchergebnisse für welchen Benutzer angezeigt werden entscheiden heutzutage Algorithmen auf Basis von Modellen des Maschinellen Lernens. Dabei wird z.B. aus Terrabytes von Log-Daten abgeleitet, welche Suchanfragen zu welchen Suchergebnissen passen und welche Websites ähnliche Inhalte haben. Im Rahmen dieses Fachprojekts soll eine kleine Suchmaschine für mathematische Ausdrücke implementiert werden. Hierbei stehen verschiedene Aspekte im Vordergrund:

  • Der Aufbau eines Server-Backends, das einerseits neue Inhalte sammelt, verarbeitet und indexiert und andererseits ständig den Zugriff auf alle gesammelten Daten ermöglicht.
  • Die Implementierung eines Frontends, das Nutzern ermöglicht, Suchanfragen zu stellen und die es dem Backend ermöglicht, auch aus Nutzer-Verhalten zu lernen.
  • Die Anwendung von maschinellem Lernen zur Beurteilung von Ähnlichkeiten von Inhalten, sei es auf Basis von Nutzerverhalten oder auf Basis von anderen Merkmalen der Daten

Ablauf

Im Fachprojekt erproben die Studierenden, in einer Gruppe ein größeres Software-Projekt umzusetzen. Dabei lernen Sie verschiedene hoch-aktuelle Software-Pakete kennen, unter anderem Docker, Python, pyTorch, Git, Django, etc. Weiterhin werden Grundlagen von Data Mining, künstlicher Intelligenz, maschinellen Lernen und Information Retrieval vermittelt.
Die Studierenden arbeiten selbstständig in Kleingruppen an einem Problem, das mithilfe von maschinellem Lernen gelöst werden soll. Dabei findet zunächst eine Seminarphase statt, um den Studierenden einen Überblick über aktuelle Methoden des maschinellen Lernens und Data Mining zu geben. Anschließend wird in Gruppen an Aspekten des Problems praktisch, unter Verwendung aktueller Techniken und Tools, gearbeitet, um am Ende ein gemeinsames System zu erstellen und zu evaluieren. Die Ergebnisse der Gruppen sollen in einer kurzen Abschlusspräsentation und individuellen Ausarbeitungen vorgestellt werden.

Literatur

[1] Lukas Pfahler, Jonathan Schill, Katharina Morik, "The Search for Equations -- Learning to Identify Similarities between Mathematical Expressions", Machine Learning and Knowledge Discovery in Databases - European Conference, ECML PKDD 2019, 2019

Aktuelles