LS8 News - Teaching - Research - Projects - Software - Staff - General - Internal

Wissensentdeckung in Datenbanken (Spezialvorlesung, 4 SWS)

Veranstaltung Wochentag TerminOrt
042331 Dienstag 10.15 - 12.00 HG1/HS1 (Campus Süd)
042331 Donnerstag 14.15 - 16.00 HG1/HS2 (Campus Süd)
042332
(Übung)
Freitag 14.15 - 16.00
16.15 - 18.00
R. 113, GB IV (Campus Süd)

Lehrverantwortliche

Prof. Dr. Katharina Morik

Inhalt

Die Vorlesung gibt einen Überblick über das Zusammenspiel von Datenmanagement und Datenanalyse in großen Datenbanken. Der Prozess der Datenanalyse wird anhand des CRISP-Modells vorgestellt, eine Unterstützung der Vorverarbeitungs- und Lernschritte bietet das System Yale.
Für die einzelnen Schritte des Datenanalyseprozesses werden jeweils typische Verfahren vermittelt. Die Verfahren reichen von einfachen Datenbankoperationen, wie z.B. SQL-Anfragen an die Datenbank, bis zu komplexen Datenanalyseverfahren aus Statistik oder Maschinellem Lernen. Als besonders wichtige Data Mining Methoden werden Klassifikations- und Clustering-Verfahren eingeführt, darunter die k-means-Methode, das Bestimmen von Entscheidungsbäumen, Assoziationsregeln und die Stützvektormethode. Einen Schwerpunkt bildet auch die Abschätzung der Glaubwürdigkeit der Ergebnisse mit Hilfe von geeigneten Testdesigns wie z.B. Kreuzvalidierung oder Bootstrapping.
In den Übungen wird Datenmanagement und Datenanalyse anhand von Daten aus der Praxis eingeübt.

Interdisziplinäre Veranstaltung

Diese Veranstaltung findet im interdisziplinären Rahmen zusammen mit dem Fachbereich Statistik statt.

Bemerkung

Erwünschte Mitarbeit der Studierenden:
  • Zu jeder Vorlesungsstunde kommen und zuhören!
  • Nachbereiten, indem Materialien gelesen und Fragen in der Gruppe diskutiert werden.
Lernziele:
  • Verstehen der verschiedenen Fachsprachen
  • Kennen der wichtigsten Verfahren
  • Überblick über den gesamten Prozess der Wissensentdeckung
  • Handhabung verschiedener Werkzeuge
Studiengänge:
  • Diplom (Element X, XI), Bachelor, Master (Modul Wissensentdeckung)
Gemeinsame Veranstaltung mit dem Fachbereich Statistik

Vorraussetzungen:

Erforderliche Kenntnisse: Vordiplom Informatik

Leistungsnachweis:

  • Aktive Teilnahme an der Übung
  • Erreichen von mind. 50% aller Punkte der Übungsaufgaben
  • Regelmäßige Teilnahme an den Übungen (höchstens dreimaliges Fehlen)
  • Regelmäßige Abgabe der Übungszettel (höchstens drei Nicht-Abgaben oder Abgaben mit mehr als 50% Fehlerquote)

Folien:

Hier können Sie die aktuellen Folien herunterladen.
Data Cube, Assoziationsregeln, etc.
SVM 1
SVM 2
Textklassifikation
Ensemble- und Subspace-Clustering
Vorverarbeitung

Übungszettel:

Hier können Sie die Übungszettel herunterladen.
Blatt 01
Blatt 02
Blatt 02 (in (bad :-)) English)
Blatt 03
Blatt 03 (in (better ?) English)
Folien zu Blatt 03 aus der Uebung
Blatt 04 Der Abgabetermin ist einen Tag spaeter - also am 09.05.2007!
Blatt 04 (in English)
Blatt 09 Abgabe am 12.06.2007 23.59 Uhr
Blatt 10 Abgabe am 19.06.2007 23.59 Uhr

Werkzeug:

Hier können Sie die in der Vorlesung benutzte Yale-Version herunterladen.
YALE 3.4.1 (for windows)
YALE 3.4.1 (for linux)

Datensätze:

Hier können Sie die für die Übung benötigten Datensätze herunterladen.
mushrooms.xrff
iris.xrff
irisTest.xrff

Literatur

Empfohlene Literatur:
Wird in der Vorlesung bekannt gegeben.
U.a.:
Hastie, T., Tibshirani, R., Friedman, J. (2001). The Elements of Statistical Learning. Springer.
Hand, D., Mannila, H., Smyth, P. (2001). Principles of Data Mining. MIT Press.
Witten, I.H., Frank, E. (2001): Data Mining ? Praktische Werkzeuge und Techniken für das maschinelle Lernen.
Mitchell, Tom (1997): Machine Learning, McGraw Hill, 1997
Skript: Ja (teilweise als Folien)







































   LS8 News - Teaching - Research - Projects - Software - Staff - General - Internal Imprint