Collaborative CRISP

Mit Collaborative CRISP wird der Cross Industry Standard für Data Mining (CRISP-DM) erweitert, um den gesamten Prozess der Einführung von Data Science als strategische Fähigkeit in Organisationen abzubilden.

CRISP-DM sieht ein Data Science Projekt aus den Augen eines Data Scientist. Bei der Einführung in eine Organisations sollte allerdings ein Blick auf das große Gesamtbild geworfen werden, um neben den technischen Aspekten auch die Unternehmensstruktur und die sozialen Aspekte miteinzubeziehen. Daher erweitert Collaborative CRISP den Data Science Loop um Bereiche für Projektmanagement und soziale Integration.

image/svg+xmlUse CaseIdentification DataProviding InfrastructureIdentification BusinessUnderstanding DataUnderstanding DataPreparation Modeling Deployment Evaluation Gain Acceptance MonitorAcceptance

Klicken Sie auf die einzelnen Phasen, um detaillierte Informationen zu der jeweiligen Phase zu bekommen.

Project Management – Use Case Identification

Die Identifikation und Bewertung von Use Cases im Unternehmen stellen eine Schlüsselrolle für den Erfolg der Etablierung von Data Science im Unternehmen dar. Hier ist die Herausforderung zunächst, dass Predictive Mindset im Unternehmen weit genug zu verbreiten, damit die mit der Einführung von Data Science einhergehenden neuen Möglichkeiten überhaupt erkannt werden. Dann gilt es, die vielversprechendsten Projekte auszuwählen, also Projekte mit hohem Nutzen bei geringst möglichem Aufwand, einfacher Infrastruktur und höchster Erfolgswahrscheinlichkeit.

Bei der Etablierung sollten mehrere Use Cases behandelt werden, denn aus einem Beispiel kann man nicht lernen und keine Entscheidung über den weiteren Einsatz der Technik treffen. Mit mehreren Use Cases kann eine Lernkuve entstehen, bei der man aus Misserfolgen lernt und Erfolge als positive Verstärkung erfährt.

Project Management – Data Providing

Sobald ein Use Case ausgewählt wurde, erfolgt ein kollaborativer Prozess zwischen Data Scientists und Fachexperten, um Datensätze auszuwählen, die für die Lösung hilfreich sein können. Daraus entsteht das Gesamtbild, welche Informationen zur Verfügung stehen, die für die Probleme des Use Cases relevant sein könnten. Die Datensätze werden nach vermuteter Relevanz, Zugänglichkeit und Analysekomplexität bewertet. Es ist Aufgabe des Managements, dafür zu sorgen, dass andere Abteilungen beim Herstellen des praktischen und technischen Zugangs zu den Daten behilflich sein können und sind.

Project Management – Infrastructure Identification

Je nach Größe und Art des Problems sowie der identifizierten Datenbestände wird die Infrastruktur identifiziert, die eine effiziente Analyse mit minimalem Aufwand ermöglicht. Dies betrifft sowohl die Infrastruktur für die Datenhaltung als auch für die Berechnung der Analyse.

Bei komplexen Problemen mit unabsehbarer Analysequalität kann die Analyse in mehrere Phasen unterteilt werden, in denen jeweils unterschiedliche Infrastrukturen verwendet werden. Die Phasen sind so unterteilt, dass zunächst mit minimalem Aufwand der maximale Nutzen erzeugt werden kann und die Ergebnisse beim Umzug auf die nächst aufwändigere Infrastruktur weiter verwendet werden können.

Data Science Loop – Business Understanding

Während dieser ersten Phase des Data Science Loops lernt der Data Scientist in einem kollaborativen Prozess, die Projektziele und -anforderungen aus wirtschaftlicher Sicht zu verstehen. Was ist das wirtschaftliche Problem und was gilt es bei der Lösung zu berücksichtigen? Welche Anforderungen gibt es, damit die Lösung in Geschäftsprozesse integriert werden kann?

Daraus leitet er einen ersten Plan zum Erreichen der Projektziele ab. In Absprache mit Vertretern des Managements werden in dieser Phase auch die wesentlichen Gütekriterien für den Projekterfolg festgelegt und die Deploymentperspektive der Projektergebnisse geklärt.

Data Science Loop – Data Understanding

Diese Phase dient dem Data Scientist dazu, sich mit den bereitgestellten Daten vertraut zu machen und gegebenenfalls Qualtitätsprobleme der Daten aufzudecken. Gleichzeitig testet der Data Scientist sein Verständnis der Businessprobleme, indem er diese anhand der erhaltenen Daten untersucht. Durch die Interpretation der Daten kommt es häufig zu einer nachträglichen Verbesserung des Verständnisses für die Prozessabläufe auf Seiten des Data Scientists und oft auch bei allen anderen Beteiligten.

Data Science Loop – Data Preparation

In dieser Phase führt der Data Scientist alle Verarbeitungsschritte durch, die notwendig sind, um für das Training von prädiktiven Modellen geeignete Situationsprofile aus den Rohdaten zu generieren. Die Datenaufbereitung wird abhängig vom verwendeten Modell angepasst, sodass sie wiederholt ausgeführt wird. Sie umfasst zum Beispiel Schritte zur Auswahl der Daten und Feature Selection, aber auch die Transformation, Aggregierung und Aufbereitung der Daten.

Data Science Loop – Modeling

In dieser Phase werden unterschiedliche Algorithmen zur Modellierung des Problems angewendet, validiert und optimiert, um den Besten auszuwählen. Unterschiedliche Algorithmen haben unterschiedliche Anforderungen an die Datenrepräsentation, weshalb die Data Preparation Phase häufig angepasst und erneut durchlaufen werden muss.

Data Science Loop – Evaluation

In dieser Phase wird ein Modell geprüft, dass während der Modeling Phase eine hohe Güte erreicht hat. Bevor ein Modell in den produktiven Einsatz kommt, ist es notwendig, die Erstellung des Modells gründlich zu evaluieren und die Modelle unabhängig zu testen, um sicherzustellen, dass es im Deployment die erwartete Güte erreichen wird und die ursprünglichen Businessprobleme tatsächlich löst.

Data Science Loop – Deployment

Im Deployment werden die Projektergebnisse in bestehende Unternehmensabläufe integriert. Ein Projekt ohne diese Integration bringt keinen Nutzen. Das Deployment kann technisch zum Beispiel über Webservices oder mit einer komplexeren Big Data Lösung umgesetzt werden. Ein Deployment sollte auch die Bereitstellung möglicher Endbenutzerschnittstellen für die Kontrolle der im Hintergrund ablaufenden Data Science Algorithmen beinhalten.

Social Integration – Gain Acceptance

Eine Lösung bringt nur dann Nutzen, wenn sie auch genutzt wird. Da die Verwendung von Data Science Techniken das im Predictive Mindset beschriebene Umdenken erfordert, stoßen sie vielfach auf Ablehnung. Während dieser Projektphase werden die Endbenutzer mit Schulungen in die Lage versetzt, aktiv am Projekt teilzuhaben, eigene Impulse zu setzen und Vertrauen in die verwendeten Data Science Techniken zu gewinnen. Dies umfasst vor allem die praktische Integration in die Arbeitsabläufe der Endanwender. Wichtig ist, dem Endanwender die Kontrolle zu überlassen, um Abstoßungsreaktionen zu verhindern.

Social Integration – Monitor Acceptance

Ein Data Science Projekt ist nach dem ersten Deployment noch nicht beendet. Zum einen können die Prädiktionen vielfach noch verbessert werden, was im Data Science Loop zum Ausdruck kommt, zum anderen gewinnen die Endanwender Erfahrung mit der Technik und können die ursprünglichen Use Cases nachschärfen. Dies führt häufig dazu, dass Spezifikationen angepasst werden müssen, was sowohl die Integration in die Arbeitsabläufe als auch die für die Prädiktion notwendigen Gütekriterien betrifft. Entsprechend müssen die Anwender weiterhin von einem Data Scientist begleitet werden, was in dieser Phase zum Ausdruck kommt.