Statistics Extension

RapidMiner gehört zu den besten Werkzeugen für Predictive Modelling und die automatisierte Datenverarbeitung. Die vielseitige Plattform besitzt Funktionalitäten für jede Phase eines typischen Data Science Projekts: Sie ermöglicht das Sammeln von Daten aus unterschiedlichsten Quellen, die Verarbeitung und das Speichern in anderen Zielsystemen. Die Möglichkeit, Vorhersagemodelle während der Datenverarbeitung zu erzeugen und anzuwenden, ermöglicht es, Entscheidungen vollautomatisiert zu treffen und daraus folgende Prozesse einzuleiten, ohne das menschliche Interaktion notwendig ist. Ist eine Interaktion allerdings gewünscht, oder aus regulatorischen Gründen notwendig, kann das in RapidMiner Server integrierte Framework zur Erstellung von Webanwendungen genutzt werden, um spezialisierte Anwendungen für Endbenutzer zu erstellen. So können Endbenutzer mit den Prozessen interagieren und die volle Komplexität der Predictive Analytics nutzen, ohne sich selbst in die Thematik einarbeiten zu müssen. In vielen Szenarios können auf diese Weise die manuelle Arbeit verringert, die Reaktionszeit verkürzt und die Fehlerraten reduziert werden.

Diese moderne und fortschrittliche Technik muss dennoch oft durch bekannte und bewährte Methoden ergänzt werden. Deswegen integriert unsere Statistics Extension klassische, statistische Basisfunktionen, wie etwa Tests für Verteilungen oder Operatoren, welche die Berechnung von Korrelationsmatritzen ermöglichen in die Data Science Plattform RapidMiner. So wird ein fließender Übergang zwischen vertrauten und bewährten, statistischen Methoden und Predictive Analytics als moderner, auf Machine Learning aufbauender Technologie möglich.

Die Extension

Die Statistics Extension für RapidMiner stellt einen ganzen Satz neuer Operatoren zur Verfügung, die einfach in jeden beliebigen RapidMiner Prozess integriert werden können. So können statistische Tests und Korrelationen, ebenso wie Quantile, Histogramme oder Kontingenztabellen in Webanwendungen genutzt werden, ohne auf externe Statistikprogramme ausweichen zu müssen. Dadurch wird eine einfache Wartbarkeit der Prozesse und eine hohe Performanz gewährleistet.

Die Funktionalität der Extension umfasst alle Schritte von der Vorverarbeitung von Daten für typische statistische Analysealgorithmen bis hin zu Operatoren, welche die Ergebnisse so aufbereiten, dass sie in Webanwendungen angezeigt werden können.

Natürlich können alle Operatoren zusammen mit den Standardoperatoren von RapidMiner verwendet werden, da sie die normalen ExampleSets nutzen und über die gewohnten In- und Output Ports verfügen – so können Sie einfach in bereits vorhandene Prozesse integriert werden. Einige Operatoren, wie beispielsweise der „Split Data (by groups)“ Operator, erweisen sich auch außerhalb des statistischen Anwendungszweckes als nützlich.

Anwendungsbereiche

Wie Sie in der untenstehenden Liste der Operatoren sehen können, sind die Operatoren in drei Kategorien eingeteilt: die erste ist für deskriptive Zwecke vorgesehen, die nächste für das Testen von Hypothesen auf den Daten und die letzte dient der Datenvorverarbeitung.

Die deskriptiven Operatoren dieser Extension können verwendet werden, um auf einfache Weise eine Beschreibung eines bestimmten Datensatzes zu erstellen und so eine Brücke zwischen Rohdaten und Endbenutzer zu bauen, der eventuell eine Webanwendung benutzt, um sich eine Übersicht über die Daten zu verschaffen. Es war niemals so einfach, eine Kontingenztafel zu erzeugen und dank der interaktiven Komponenten der RapidMiner Webanwendung kann der Endbenutzer auswählen, welche Kombination von Merkmalsausprägungen für ihn interessant ist und so seine eigene Kontingenztabelle erstellen. Auf die gleiche Weise lassen sich Histogramme und Quantile hinzufügen, wo sie gewünscht werden.

Aber Kontingenztafeln, Quantile und Histogramme sind nicht nur nützlich, um dem Endbenutzer Ergebnisse zu präsentieren. Zusammen mit den statistischen Tests können sie sehr gut in automatisierten Szenarien verwendet werden, wie beispielsweise beim Datenimport. Besonders in Bereichen, wo manuelle Schritte für den Datenimport notwendig sind, zahlt es sich aus, die Qualität der Daten vor dem eigentlichen Import zu überprüfen. Alle Operatoren zum Erstellen von Kontingenztafeln, Quantilen und Histogrammen liefern Standarddatensätze, sodass Sie eine beliebige Überprüfung zum Vergleichen der Daten vornehmen können. Zum Beispiel können Sie die Quantile jedes Attributs eines Referenzdatensatzes eines Sensors berechnen. Jeden Tag werden durch einen zu einem festgelegten Zeitpunkt stattfindenden Prozess die neuesten Daten importiert, aber nur, wenn die Qualität der Daten den vorgegebenen Anforderungen entspricht. Sollte ein Sensor kaputtgehen und Daten von schlechter Qualität liefern, würden die Quantile stark von den Referenzdaten abweichen. Der Prozess kann dann den Import abbrechen und, anstatt defekte Daten zu importieren, per E-Mail über den ausgefallenen Sensor informieren.

Eine andere interessante Anwendung der Statistik Extension ist die Evaluierung der Ergebnisse aus Predictive Modelling Projekten. In vielen Situationen ist es sehr kompliziert, das richtige Gütekriterium zu wählen, das den echten Business Wert widerspiegelt. Fast immer ist eine Schätzung notwendig, da der Business Wert nicht exakt berechnet werden kann. Sobald ein prediktives Modell angewendet wird und Sie auf seine Vorschläge hin handeln, hat dies einen Einfluss auf die Realität und sie werden das Problem haben, dass Ihre Originaltrainingsdaten nicht mehr repräsentativ sind.

Deshalb werden Sie in den meisten Fällen ein A-B-Testszenario wählen, in dem Kunden unterschiedlich behandelt werden, um zu beobachten, wie das Modell in der Realität und Ex-Post funktioniert. Hierbei können die Survival und Hazard Curves unglaublich nützlich werden, um die zwei Gruppen über die Zeit zu beschreiben.

Liste der Operatoren

Tests

  • T-Test (against expectation)
  • T-Test
  • Mann Whitney U-Test
  • Wilcoxon Signed Rank Test
  • One Way ANOVA Test
  • One Way ANOVA Test (Grouping)
  • G-Test
  • Chi Square Test
  • Kolmogorov Smirnov Test

Tools

  • Matrix to ExampleSet
  • Split Data (by groups)

 

Descriptive Statistics

  • Extract Cross Table
  • Discretize by Quantiles
  • Extract Quantiles
  • Extract Histogram
  • Correlation Matrix (Pearson)
  • Correlation Matrix (Kendalls tau-b)
  • Correlation Matrix (Spearman)
  • Covariance Matrix
  • Extract Odds Ratios
  • Extract Risk Ratios
  • Extract and Visualize Survival Curves (Kaplan-Meier, Flemming-Harrington)
  • Extract and Visualize Hazard Curves (Nelson-Aalen)

 

Lizenzkosten

Anzahl Nutzer1-Jahresabo2-Jahresabounbefristete Lizenz
1 benannter Benutzer79 €139 €179 €
5 benannte Benutzer329 €569 €749 €
Firmenlizenz750 €1300 €1700 €

Haben Sie Fragen, Kritik oder Anmerkungen zu unserer Extension?

Nehmen Sie gern Kontakt mit uns auf.


Mit dem Klicken auf "Senden" bestätigen Sie, dass Sie unsere Datenschutzerklärung gelesen haben und akzeptieren.