Hauptnavigation

Pages about teaching are available in German only Zurück zu der Liste der Abschlussarbeiten

Gamma-Hadron-Separation im MAGIC-Experiment durch verteilungsgestütztes Sampling

Title Gamma-Hadron-Separation im MAGIC-Experiment durch verteilungsgestütztes Sampling
Registered On Oct 28, 2010 12:00:00 PM
Finished On Apr 28, 2011 12:00:00 PM
Description Im MAGIC-Experiment werden zwei Cherenkov-Teleskope betrieben, deren Beobachtungen eine sehr große Datenmenge erzeugen. Dabei macht jedoch der Anteil der für weitere Analysen interessanten Gamma-Teilchen nur etwa ein Tausendstel aller Ereignisse aus. Diese müssen durch geeignete Verfahren von den übrigen Ereignissen separiert werden. Es liegt also ein Klassifikationsproblem vor, für dessen Lösung zur Zeit ein Random Forest verwendet wird. Die sehr großen Datenmengen, die für das Training des Klassifikators zur Verfügung stehen, lassen jedoch Klassifikationsverfahren attraktiv erscheinen, die nicht nur eine begrenzte, statische Trainingsmenge nutzen, sondern durch Resampling während des Lernens einen beliebig großen Teil der zur Verfügung stehenden Daten verwenden. Dazu wird eine Erweiterung des Boosting- Verfahrens Ada2Boost entwickelt, die in einigen Iterationen die Trainingsmenge durch neu gezogene Daten ersetzt.Weiterhin wird Ada2Boost so modifiziert, dass weiche Basisklassifikatoren verwendet werden können. Neben des großen Umfangs der Trainingsdaten besteht die Schwierigkeit, dass sich die Verteilungen einiger Merkmale in Abhängigkeit von Umgebungsparametern ändern. Diese Eigenschaft wird derzeit nicht oder nur schwach berücksichtigt. In dieser Arbeit wird ein Verfahren entwickelt, das die Daten so partitioniert, dass die Verteilung innerhalb der Partitionen möglichst homogen ist, um dann auf jeder Partition ein auf die jeweilige Verteilung spezialisiertes Modell zu trainieren. Das Problem nach der Suche einer optimalen Partitionierung wird in eine Merkmalsselektion transformiert, so dass vorhandene Verfahren zur Merkmalsselektion angewendet werden können. Die entwickelten Verfahren werden zur Evaluierung für die Data Mining-Umgebung RapidMiner implementiert. Weiterhin wird ein Framework vorgestellt, mit dem sich RapidMiner-Prozesse auf ein Rechencluster verteilen lassen. Teil I beschreibt die physikalischen Grundlagen und die Vorarbeiten, auf denen die neu entwickelten Verfahren aufbauen. Kapitel 3 gibt einen Einblick in die Herkunft kosmischer Teilchen und den Hintergrund des MAGIC-Experiments. Das derzeit etablierte Klassifikationsverfahren wird beschrieben. Kapitel 4 definiert ein formales Gerüst für die Klassifikation und erläutert wichtige Verfahren zur Bewertung von Klassifikationsmodellen. In Kapitel 5 werden einige konkrete Lernverfahren vorgestellt. Darauf aufsetzende Meta-Verfahren werden in Kapitel 6 beschrieben. Dazu gehören insbesondere Ada2Boost und der Random Forest. Schließlich werden Methoden zur Vorverarbeitung und Merkmalsselektion in Kapitel 7.1 beschrieben. In Teil II werden die neuen Verfahren entwickelt und evaluiert. Kapitel 8 gibt einen kurzen Überblick über diese Verfahren. Das folgende Kapitel beschreibt die Testumgebung, die zur Evaluierung genutzt wird. Eine statistische Voruntersuchung der MAGIC- Daten findet in Kapitel 10 statt und Kapitel 11 stellt den Recall-Chooser vor, ein Hilfsverfahren, das auf der ROC-Analyse basiert. Kapitel 12 erweitert Ada2Boost um die Nutzung weicher Basisklassifikatoren. Dieses Verfahren wiederum wird in Kapitel 13 um ein Resampling während des Lernprozesses erweitert, so dass große Datenmengen verarbeitet werden können. Das Binningverfahren zum Partitionieren der Trainingsmenge wird in Kapitel 14 beschrieben. Zum Vergleich mit dem etablierten Verfahren bewertet Kapitel 15 die neuen Verfahren in Bezug auf den Random Forest. Das letzte Kapitel 16 fasst die Ergebnisse zusammen und gibt einen Ausblick auf möglicheWeiterentwicklungen.
Proposal Im MAGIC-Experiment werden zwei Cherenkov-Teleskope betrieben, deren Beobachtungen eine sehr große Datenmenge erzeugen. Dabei macht jedoch der Anteil der für weitere Analysen interessanten Gamma-Teilchen nur etwa ein Tausendstel aller Ereignisse aus. Diese müssen durch geeignete Verfahren von den übrigen Ereignissen separiert werden. Es liegt also ein Klassifikationsproblem vor, für dessen Lösung zur Zeit ein Random Forest verwendet wird. Die sehr großen Datenmengen, die für das Training des Klassifikators zur Verfügung stehen, lassen jedoch Klassifikationsverfahren attraktiv erscheinen, die nicht nur eine begrenzte, statische Trainingsmenge nutzen, sondern durch Resampling während des Lernens einen beliebig großen Teil der zur Verfügung stehenden Daten verwenden. Dazu wird eine Erweiterung des Boosting- Verfahrens Ada2Boost entwickelt, die in einigen Iterationen die Trainingsmenge durch neu gezogene Daten ersetzt.Weiterhin wird Ada2Boost so modifiziert, dass weiche Basisklassifikatoren verwendet werden können. Neben des großen Umfangs der Trainingsdaten besteht die Schwierigkeit, dass sich die Verteilungen einiger Merkmale in Abhängigkeit von Umgebungsparametern ändern. Diese Eigenschaft wird derzeit nicht oder nur schwach berücksichtigt. In dieser Arbeit wird ein Verfahren entwickelt, das die Daten so partitioniert, dass die Verteilung innerhalb der Partitionen möglichst homogen ist, um dann auf jeder Partition ein auf die jeweilige Verteilung spezialisiertes Modell zu trainieren. Das Problem nach der Suche einer optimalen Partitionierung wird in eine Merkmalsselektion transformiert, so dass vorhandene Verfahren zur Merkmalsselektion angewendet werden können. Die entwickelten Verfahren werden zur Evaluierung für die Data Mining-Umgebung RapidMiner implementiert. Weiterhin wird ein Framework vorgestellt, mit dem sich RapidMiner-Prozesse auf ein Rechencluster verteilen lassen. Teil I beschreibt die physikalischen Grundlagen und die Vorarbeiten, auf denen die neu entwickelten Verfahren aufbauen. Kapitel 3 gibt einen Einblick in die Herkunft kosmischer Teilchen und den Hintergrund des MAGIC-Experiments. Das derzeit etablierte Klassifikationsverfahren wird beschrieben. Kapitel 4 definiert ein formales Gerüst für die Klassifikation und erläutert wichtige Verfahren zur Bewertung von Klassifikationsmodellen. In Kapitel 5 werden einige konkrete Lernverfahren vorgestellt. Darauf aufsetzende Meta-Verfahren werden in Kapitel 6 beschrieben. Dazu gehören insbesondere Ada2Boost und der Random Forest. Schließlich werden Methoden zur Vorverarbeitung und Merkmalsselektion in Kapitel 7.1 beschrieben. In Teil II werden die neuen Verfahren entwickelt und evaluiert. Kapitel 8 gibt einen kurzen Überblick über diese Verfahren. Das folgende Kapitel beschreibt die Testumgebung, die zur Evaluierung genutzt wird. Eine statistische Voruntersuchung der MAGIC- Daten findet in Kapitel 10 statt und Kapitel 11 stellt den Recall-Chooser vor, ein Hilfsverfahren, das auf der ROC-Analyse basiert. Kapitel 12 erweitert Ada2Boost um die Nutzung weicher Basisklassifikatoren. Dieses Verfahren wiederum wird in Kapitel 13 um ein Resampling während des Lernprozesses erweitert, so dass große Datenmengen verarbeitet werden können. Das Binningverfahren zum Partitionieren der Trainingsmenge wird in Kapitel 14 beschrieben. Zum Vergleich mit dem etablierten Verfahren bewertet Kapitel 15 die neuen Verfahren in Bezug auf den Random Forest. Das letzte Kapitel 16 fasst die Ergebnisse zusammen und gibt einen Ausblick auf möglicheWeiterentwicklungen.
Status Abgeschlossen
Topic Sampling Techniques
Publication
Helf/2011a Helf, Marius. Gamma-Hadron-Separation im MAGIC-Experiment durch verteilungsgestütztes Sampling. TU Dortmund, 2011.
helf_2011a.pdf [8093 KB]


Assigned To Helf, Marius
Second Tutor Morik, Katharina