Hauptnavigation

Lernen in Datawarehouses (Seminar)

Veranstalter: Prof. Katharina Morik (morik@ls8.cs.uni-dortmund.de)
Vorkenntnisse: Die Vorlesungen Künstliche Intelligenz, Informationssysteme oder Maschinelles Lernen gehört zu haben, erleichtert das Verständnis, ist aber nicht notwendig
Zeit: Do, 10:00 - 12:00
Ort: GB IV, SR318
Vorbesprechung: 16.4.1998
Inhalt: Bereits vor diesem Termin sollten zumindest die ersten beiden Referate (2. Kapitel aus [Kimball, 1996] und [Agrawal etal., 1996]) vergeben werden. Dazu können Interessenten sich per e-mail anmelden, im Sekretariat des LS8 die Literatur abholen und sie dann mit mir besprechen.


Bei Datawarehouses kommt es auf die schnelle Verfügbarkeit von Daten an. Das Ziel ist aber noch weitergehend, daß Zusammenfassungen von Daten für die Entscheidungsfindung genutzt werden sollen. Wie kann man nun zu solchen Zusammenfassungen gelangen? Einerseits kann für bekannte Fragestellungen eine Datenauswertung vorprogrammiert werden. Andererseits kann aber auch nach dem Wissen gesucht werden, das in den Daten versteckt ist. Diese Wissensentdeckung in Datenbanken wird zum Beispiel eingesetzt, um Warenkörbe zu analysieren. Der bekannte APRIORI-Algorithmus findet diejenigen Waren, die meist gemeinsam eingekauft werden. Das Lernergebnis wird genutzt, um die Waren in den Läden geeignet zu plazieren.

In dem Seminar soll kurz in Datawarehouses eingeführt werden (1. Kapitel von [Kimball, 1996]). Ein Beispiel aus dem Anwendungsfeld von Läden bzw. Ladenketten vertieft die Grundlagen ((2. Kapitel von [Kimball, 1996]). Der Apriori-Algorithmus wird in [Agrawal etal., 1996] dargestellt. Weitere Arbeiten zur Warenkorbanalyse sind [Brin etal., 1997], [Toivonen, 1996] und [Brin etal., 1997]. Auch [Chen et al., 1996] geht auf die Entdeckung von Assoziationsregeln ein, stellt aber zusätzlich noch noch andere Ansätze vor. Der Datenkubus wird in [Gray etal., 1997] dargestellt. Damit wir uns nicht einseitig auf Assoziationsregeln festlegen, sollen auch die folgenden Arbeiten behandelt werden: [Bell and Brockhausen, 1995] entdecken funktionale Abhängigkeiten, [Morik and Brockhausen, 1997] entdecken alle in einer eingeschränkten Sprache gültigen Regeln, [Chen and McNamee, 1991] nutzen Hintergrundwissen für die Regelentdeckung, [Ketterlin etal., 1995] verwenden conceptual clustering zur Datenübersicht. Weitere Artikel aus [Fayyad etal., 1996] stehen bei Bedarf zur Verfügung.



Literatur:

Agrawal et al., 1996
Agrawal, R., Mannila, H., Srikant, R., Toivonen, H., and Verkamo, A. I. (1996).
Fast discovery of association rules.
In Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., and Uthurusamy, R., editors, Advances in Knowledge Discovery and Data Mining, AAAI Press Series in Computer Science, chapter 12, pages 277-296. A Bradford Book, The MIT Press, Cambridge Massachusetts, London England.

Bell and Brockhausen, 1995
Bell, S. and Brockhausen, P. (1995).
Discovery of data dependencies in relational databases. (Postscript 153KB)
Forschungsbericht 14, Universität Dortmund, Lehrstuhl Informatik VIII.

Brin et al., 1997
Brin, S., Motwani, R., Ullman, J., and Tsur, S. (1997).
Dynamic itemset counting and implication rules for market basket data. (Postscript 66KB)

Chen and McNamee, 1991
Chen, M. C. and McNamee, L. (1991).
Summary data estimation using decision trees.
In Piatetsky-Shapiro, G. and Frawley, W. J., editors, Knowledge Discovery in Databases, pages 309-325. AAAI / MIT Press, Cambridge, Mass.

Chen et al., 1996
Ming-Syan Chen and Jiawei Han and Philip Yu (1996).
Data Mining: An Overview from a Database Perspective
IEEE Transactions on Knowledge and Data EngineeringVolume 8, No.6,December 1996.

Fayyad et al., 1996
Fayyad, U. M., Piatetsky-Shapiro, G., and Smyth, P. (1996).
From data mining to knowledge discovery: An overview.
In Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., and Uthurusamy, R., editors, Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press.

Gray et al., 1997
Gray, J., Chaudhuri, S., Bosworth, A., Layman, A., Reichart, D., and Venkatrao, M. (1997).
Data cube: A relational aggregation operator generalizing group-by, cross-tab, and sub-totals.
Data Mining and Knowledge Discovery, 1(1):29 - 54.

Ketterlin et al., 1995
Ketterlin, A., Gancarski, P., and Korczak, J. J. (1995).
Conceptual clustering in structured databases: a practical approach.
In Fayyad, U. M. and Uthurusamy, R., editors, The First International Conference on Knowledge Discovery and Data Mining, pages 180-185. AAAI Press.

Kimball, 1996
Kimball, R. (1996).
The Data Warehouse Toolkit.
John Wiley and Sons.

Morik and Brockhausen, 1997
Morik, K. and Brockhausen, P. (1997).
A multistrategy approach to relational knowledge discovery in databases. (Postscript 92KB)
Machine Learning Journal, 27(3):287-312.

Toivonen, 1996
Toivonen, H. (1996).
Sampling large databases for association rules. (Postscript 71KB)
In Buchmann, A. P., Mohan, C., and Sarda, N. L., editors, Proceedings of the 22nd VLDB Conference, pages 134-145. Morgan Kaufmann.