Großes Update für die Jackhammer Extension

Wir freuen uns, das Release vieler spannender und nützlicher neuer Features für die Jackhammer Extension bekanntgeben zu können! Mit 17 neuen Operatoren macht die Extension das Leben aller Data Scientists jetzt noch leichter. Außerdem enthalten ist ein Kompatibilitätsfix für RapidMiner Server 9.6.

 

Die neuen Operatoren im Überblick:

Io:

Open Process – öffnet einen Prozess als Process Object, das auch ein File Object ist.
Der Operator ermöglicht die Analyse von Prozessen und damit die automatische Erstellung von Reports, Versionierungen etc.

Io/Compression:

Read and Write GZIP File – diese zwei Operatoren lesen bzw. schreiben eine GZIP-Datei.
Daten im GZIP-Format werden häufig bei Webservices verwendet. Diese Operatoren ermöglichen die Verarbeitung.

 

Blending:

Rename (Advanced) – vereinfacht die Umbenennung von Attributen. Möglichkeit zur Nutzung einer Tabelle für die bequeme Umbenennung mehrerer Attribute auf einmal.

Blending/Generation:

Generate Hash – berechnet in einem Datensatz zeilenweise den Hashwert aus einer Menge von Attributen und fügt ihn als neues Attribut hinzu.

 

Process Control:

Synchronize – verhindert, dass Operatoren im Innern des Subprozesses parallel ausgeführt werden. Damit kann eine sequenzielle Ausführung einzelner Bereiche in an sich parallel laufenden Prozessen erzwungen werden. Das kann sinnvoll sein, wenn sonst Flaschenhälse auftreten, wie z. B. mehrfach paralleles Lesen von Festplatten.

Extract Macro from Collection – stellt die Größe einer Collection als Macro bereit.

Extract Macro from Performance – stellt einen Performancewert eines Performancevektors als Macro bereit.

 

Generation:

Generate Description Data – erstellt eine Tabelle mit Metadaten zu einem gewählten ExampleSet.

Generate Data from Expressions – erstellt ein neues, einzeiliges ExampleSet, dessen Daten durch Auswerten der Expressions bestimmt sind.

 

Transformation:

Lag (Advanced) – verschiebt auswählbare Attribute relativ zum Rest der Tabelle nach oben oder unten. Damit lassen sich in Zeitreihen, die als äquidistante Zeilen vorliegen, Lags erstellen.

 

Series:

Aggregate Windows – deutlich verbesserte Version des Moving Average Operators. Unterstützt mehrere Fenster, die sich flexibel über den Datensatz definieren lassen und ist bedeutend schneller.

Aggregate Time Windows – wie Aggregate Windows, nutzt zur Fensterdefinition aber Zeitindizes, so dass er auf nicht-äquidistanten Datensätzen angewendet werden kann.

Define Windows – Operator zur einfachen Definition von Fenstern für die beiden obigen Operatoren. Dadurch lassen sich auch komplexe Fensterdefinitionen mittels der Parameter optimieren.

 

Validation:

Split Validation (Advanced) – wie der Core-Operator, nutzt aber Multithreading.

Sliding Window Validation (Advanced) – wie der Core-Operator, aber nutzt Multithreading und Zeitindizes anstatt Zeilen zur Teilung, sodass eine realistische Validierung für regelmäßiges Neutrainieren im Deployment möglich ist.

Cleansing/Validity:
Declare Valid Values – ermöglicht es, ungültige Werte zu als solche zu kennzeichnen, indem alle gültigen Werte angegeben werden. Vereinfacht die Bereinigung in Fällen, in denen es viele ungültige, aber nur wenige gültige Werte gibt.