Hauptnavigation

Go to the list of all software

Rapidminer Phido-Adapter - RapidMiner-Prozesse auf ein Rechencluster verteilen lassen

Description:

Das Potenzial eines Rechenclusters wie des PhiDo, das sich durch eine große Menge von Knoten auszeichnet, die jeweils nicht überdurchschnittlich schnell sind, wird am besten dann genutzt, wenn die durchgeführten Berechnungen möglichst stark in unabhängige, parallel ausführbare Prozesse aufgeteilt werden können. Ein häufiger Anwendungsfall in RapidMiner ist eine sogenannte Parametervariation. Dabei wird ein Prozess für mehrere Kombinationen von Operator-Parametern ausgeführt. Dadurch können Performance-Kurven in Abhängigkeit der Parameter erzeugt oder einfach die beste Parameterkombination gefunden werden. Diese Funktionalität ist durch entsprechende Operatoren in RapidMiner integriert. Diese integrierte Variante ist jedoch nicht direkt für die effiziente Ausführung auf dem Cluster geeignet, da alle Parameterkombinationen seriell oder schwach parallelisiert innerhalb eines Prozesses ausgeführt werden.
Daher wurde ein Framework implementiert, welches ebenfalls Parameter variieren kann und für jede mögliche Kombination eine RapidMiner-Prozessdatei erzeugt. Außerdem können innerhalb einer Variation verschiedene Operatoren iteriert werden, die jeweils unterschiedliche Parameter oder auch Parameterkombinationen enthalten können. Da für jede Parameterkombination ein eigener Prozess erzeugt wird, können sie parallel im Cluster berechnet werden. Das Framework erzeugt dazu entsprechende Jobfiles sowie Skriptdateien, welche die Jobs in die Warteschlangen des Clusters einreihen. Durch Kommunikation mit dem Cluster kann jederzeit ein Überblick darüber erzeugt werden, welchen Status die Prozesse und Parameterkombinationen haben, d. h. ob sie bereits eingereiht sind, gerade in Ausführung befindlich oder erfolgreich oder
fehlerhaft beendet wurden.
Die Ergebnisse der Berechnungen werden in menschen- und maschinenlesbarer Form in das Dateisystem des Clusters geschrieben. Da das Ergebnis jeder Parameterkombination von einem eigenen Prozess erzeugt wurde, liegen die Ergebnisse jedoch nicht zentral in einer Datei, sondern sind nach einem bestimmten Schema an mehreren Orten des Dateisystems verteilt. Das Framework sammelt diese Ergebnisse und fasst sie in einem zentralen Objekt zusammen. Dieses ResultsObject kann nach bestimmten Parameterwerten gefiltert und sortiert werden. Außerdem können die Ergebnisse graphisch als Diagramme ausgegeben werden. Durch eine Gruppierungsfunktion kann der Benutzer bestimmen, welche Graphen in einem Diagramm zusammengefasst bzw. in unterschiedliche Diagramme gezeichnet werden.

Software File:

phido_adapter.zip (25 KB)

Authors:

Helf, Marius