Hauptnavigation

Pages about teaching are available in German only Zurück zu der Liste der Abschlussarbeiten

Effiziente Entdeckung unabhängiger Subgruppen in großen Datenbanken

Title Effiziente Entdeckung unabhängiger Subgruppen in großen Datenbanken
Registered On Jun 2, 2006 12:00:00 PM
Finished On Aug 2, 2006 12:00:00 PM
Description Die meisten maschinellen Lernverfahren skalieren super-linear, so dass für praktische Anwendungen das Datenvolumen bestenfalls auf Hauptspeichergröße beschränkt ist. Andererseits sind in vielen Domänen, beispielsweise der Medizin oder Telekommunikation, die erhobenen Datenmengen oft derartig umfangreich, dass nur auf verhältnismäßig kleinen Stichproben gelernt wird. Im einfachsten Fall werden die Beispiele (Tupel) für Lernläufe gleichverteilt aus der Datenbank gezogen.
Die Diplomarbeit beschäftigt sich mit komplexeren Samplingansätzen, speziell für die Entdeckung von Subgruppen aus Datenbanken. Subgruppen sind Untermengen der Population, für die die Verteilung eines Zielattributes deutlich von der Verteilung in der gesamten Population abweicht. Progressive Vefahren erlauben eine Beschleunigung des Lernverfahrens, indem die Stichprobengröße fortlaufend adaptiv an bereits gelesenene Daten und die vom Benutzer gewählte Qualitätsfunktion angepasst werden. Wissensbasiertes Sampling stellt ein weiteres Verfahren dar, dass sich gut auf Subgruppenentdeckung anwenden lässt. Dieser Schritt führt bei iterativer Anwendng zu Mengen annähernd unabhängiger Regeln, die, jede für sich, einen eigenen Aspekt der Daten widerspiegeln. Eine Kombination der beiden Samplingverfahren verspricht eine sehr zügige Charakterisierung großer Datensätze, die sich sowohl im Rahmen deskriptiver Lernaufgaben, als auch zur probabilistischen Klassifikation (Vorhersage) gut einsetzen lässt.
Ziel der Diplomarbeit ist eine systematische Untersuchung der Kombination beider Samplingverfahren. Zu den zu untersuchenden Eigenschaften gehören Laufzeit- und Stichprobenkomplexität in Abhängigkeit von den gewählten Qualitätsfunktionen, sowie die zu erwartende Qualität der Lernergebnisse. Idealerweise sollten zumindest qualitativ Zusammenhänge identifiziert werden, die es Anwendern erleichtern, geeignete Parameter zu wählen. Beide Verfahren sind zu diesem Zweck in geeigneter Weise in die am Lehrstuhl entwickelten Lernumgebung Yale zu integrieren.
Status Abgeschlossen
Topic Sampling Techniques
Publication
Dach/2006a Dirk Dach. Effiziente Entdeckung unabhangiger Subgruppen in gro?en Datenbanken. Universitat Dortmund, Lehrstuhl Informatik VIII, 2006.
dach_2006a.ps.gz [1318 KB]
dach_2006a.pdf [890 KB]


Assigned To Dach, Dirk
Second Tutor Scholz, Martin