Hauptnavigation

Wissensentdeckung in Datenbanken

Die Vorlesung Wissenentdeckung in Datenbanken ist eine Einführung in die Datenanalyse sowohl aus Sicht der Statistik als auch der Informatik. Sie wird in diesem Jahr von Herrn JProf. Dr. Uwe Ligges (Statistik) und Frau Prof. Dr. Katharina Morik (Informatik) gehalten.

Alle Informationen zur Vorlesung und zum Übungsbetrieb findet ihr grundsätzlich auf der Seite der Statistiker:

Für den Zugang benötigt ihr einen Benutzernamen und ein Kennwort, welche in der Vorlesung bzw. den Übungen bekannt gegeben werden. Auf der Seite, auf der ihr euch gerade befindet, stellen wir den Informatik-Teil der Vorlesung ohne Zugangsbeschränkung zur Verfügung.

Aktuelles

ACHTUNG: die Vorlesung findet nicht mehr in Hörsaal 2 in HG 1 sondern in Raum 21 in Pavillon 8 statt!

Aktuelle Termine für diese Veranstaltung sind:

  • 15. Juli, 14-16 Uhr, Pav. 8/ Raum 21 (Campus Süd):
    Verteiltes Clustering (Morik).
  • 16. Juli, 12.30-15.30 Uhr, Mathetower Raum M/E 27 (Campus Nord):
    Übungsblatt 12 (Julia).
  • 20. Juli, 10-12 Uhr, Pav. 8/ Raum 21 (Campus Süd):
    Merkmalsextraktion (Morik).

Übungen

Allgemeine Informationen

Die Anmeldung zu den Übungen erfolgte in der ersten Vorlesung. Die Aufteilung der Teilnehmer auf die Gruppen kann hier eingesehen werden:

Die genauen Uhrzeiten und Modalitäten zu den Abgaben, dem Scheinerwerb und den Pool-Accounts könnt ihr dem folgenden Info-Blatt entnehmen:

Bei Fragen zur Vorlesung oder den Übungen helfen euch - je nach Schwerpunkt - gerne die Übungsgruppenleiter weiter:

  • Dipl.-Stat. Julia Schiffner
    Campus Nord, Mathe-Tower, Raum M/740
    Sprechstunde: Montags von 15 - 16 Uhr
    schiffner(at)statistik.uni-dortmund.de
  • Dipl.-Inform. Felix Jungermann
    Campus Süd, GB IV, Raum 118
    Sprechstunde: Mittwochs von 14 - 16 Uhr
    felix.jungermann(at)tu-dortmund.de

Software

Die Übungsaufgaben erfordern teilweise den Einsatz der in der ersten Übung vorgestellten Softwarepakete R und RapidMiner.

Übungsblätter und Begleitmaterialien

Hier findet Ihr die Übungsblätter und dazugehörige Begleitmaterialien (z. B. Datensätze).

  • Blatt 1 - Abgabe bis zum 27.04., 10:00 Uhr per E-Mail an Julia, Daten für Aufgabe 1.3
  • Blatt 2 - Abgabe bis zum 04.05., 10:00 Uhr per E-Mail an Felix
  • Blatt 3 - Abgabe bis zum 11.05., 10:00 Uhr per E-Mail an Felix, RMP-Datei für RapidMiner.
  • Blatt 4 - Abgabe bis zum 18.05., 10:00 Uhr per E-Mail an Felix.
  • Blatt 5 - Abgabe bis zum 25.05., 10:00 Uhr per E-Mail an Julia.
  • Blatt 6 - Abgabe bis zum 01.06., 10:00 Uhr per E-Mail an Felix.
  • Blatt 7 - Abgabe bis zum 08.06., 10:00 Uhr per E-Mail an Julia, Daten für Blatt 7.
  • Blatt 8 - Abgabe bis zum 15.06., 10:00 Uhr per E-Mail an Julia, Daten für Blatt 8.
  • Blatt 9 - Abgabe bis zum 22.06., 10:00 Uhr per E-Mail an Felix.
  • Blatt 10 - Abgabe bis zum 29.06., 10:00 Uhr per E-Mail an Felix.
  • Blatt 11 - Abgabe bis zum 06.07., 10:00 Uhr per E-Mail an Julia, Daten für Blatt 11.
  • Blatt 12 - Abgabe bis zum 13.07., 10:00 Uhr per E-Mail an Julia, Daten für Blatt 12.
  • Blatt 13 - Abgabe bis zum 20.07., 10:00 Uhr per E-Mail an Felix.

Vorlesungsinhalte

Nachfolgend findet ihr während der Vorlesung eine laufend aktualisierte Liste der Vorlesungsinhalte für den Informatik-Teil. Die Auflistung garantiert keine Vollständigkeit und ist nicht als Grundlage für Prüfungsvorbereitungen, sondern lediglich als Erinnerung/Überblick zu verstehen.

13.04.2010 Motivation zum Thema Wissenentdeckung in Datenbanken
Überblick über Einsatzfelder von Data Mining und Statistik
Statistik-Grundlagen
Inhalte und Zeitplan der Vorlesung
Folien:
1DMVintro.pdf
22.04.2010 DataCube,
Apriori und FPgrowth
Folien:
DataCube Folien
Apriori und FPgrowth Folien
27.04.2010 MinEx
LTree
Folien:
MinEx Folien
LTree Folien
29.04.2010 Frequent Itemsets über Datenströmen
Online-Algorithmen
Folien:
Hierarchical Heavy Hitters Folien
06.05.2010 Lineare Modelle
Bias Variance
Folien:
Folien zu linearen Modellen und bias/variance
11.05.2010 kNN
Folien:
Folien zu kNN
25.05.2010 Additive Modelle
Folien:
Folien zu additiven Modellen
10.06.2010 Support Vector Machine
Folien:
Folien zur SVM 1/2
15.06.2010 Support Vector Machine, SMO
Folien:
Folien zur SVM 2/2
22.06.2010 Structural Support Vector Machine
Folien:
Folien zur SVMstruct
2010 Text-Mining (wurde in der Vorlesung nicht behandelt)
Folien:
Folien zu Textmining
13.07.2010 Cluster-Analyse
Folien:
Folien zu Clustering
15.07.2010 Verteiltes Clustering
Folien:
Folien zu verteiltem Clustering

Seitenentwurf und Grafik von Christian Bockermann