Was ist Data Science?

Künstliche Intelligenz, Big Data Analytics, Data Mining, Industrie 4.0... all diese Buzzwords können sehr verwirrend sein. Allerdings haben diese Begriffe eine Sache gemeinsam:

Sie beschreiben in der Regel Methoden, um einen Wert aus Daten zu schöpfen.

Der Wert von Daten kann zunächst ein reiner Erkenntnisgewinn oder eine interaktive Hilfe für Entscheidungsträger sein. Gegebenenfalls können Industrie- oder Businessprozesse durch eine Feedbackschleife mit Experten teilweise automatisiert werden. Nachdem mögliche Lösungen evaluiert wurden und eine von ihnen für gut befunden wurde, kann auch eine vollständige Automatisierung dieser Prozesse angestrebt werden.

Um diese Ziele zu erreichen, werden im interdisziplinären Feld Data Science verschiedene Methoden aus der Informatik, Mathematik und Statistik angewandt. Hierzu zählen speziell im Bereich Machine Learning unter anderem Entscheidungsbäume oder Deep Learning für Klassifikations- und Regressionsprobleme, oder unüberwachte Lernverfahren wie der k-Means-Algorithmus zur Clusteranalyse.

Zusätzlich wird dazu in den meisten Anwendungsfällen bestehendes Fachwissen aus dem jeweiligen Feld des Unternehmens oder der Organisation in die Methoden mit eingebunden. Hierbei fungiert der Data Scientist als Bindeglied zwischen Fachexperten und den datengestützten Algorithmen.

Dieses Mengendiagramm setzt vier der am weitesten verbreiteten Begriffe in Relation: Deep Learning ist eine spezielle Form des maschinellen Lernens (Machine Learning), welches ein wichtiger Bestandteil von Data Science ist und zudem als eine Form von künstlicher Intelligenz (Artificial Intelligence – AI) aufgefasst werden kann. Diese und weitere Begriffe wie Big Data, Business Analytics und Industrie 4.0 werden in den folgenden Begriffserklärungen genauer erläutert.

Data Science und andere Begriffe: Ein kleines Wörterbuch.

Data Science

“The job of the data scientist is to ask the right questions. If I ask a question like ‘how many clicks did this link get?’ which is something we look at all the time, that’s not a data science question. It’s an analytics question. If I ask a question like, ‘based on the previous history of links on this publisher’s site, can I predict how many people from France will read this in the next three hours?’ that’s more of a data science question.”

―Hilary Mason, Founder Fast Forward Labs

Data Science steht im engen Zusammenhang mit künstlicher Intelligenz, Big Data und dem Thema Industrie 4.0 und bezeichnet allgemein das Arbeiten mit Daten, um daraus einen Wert zu schöpfen. Damit ist es ein Oberbegriff für die meisten der hier erklärten Begriffen wie maschinelles Lernen, Text Mining, Business Analytics und andere.

Künstliche Intelligenz

Künstliche Intelligenz (KI) ist der wahrscheinlich am stärksten überladene und mit falschen Vorstellungen assoziierte Begriff, den wir hier vorstellen. KI meint computergestützte Verfahren, die eigenständig Probleme lösen können. Im weitesten Sinne könnte man also bereits Taschenrechner als künstliche Intelligenzen bezeichnen. Als entgegengesetztes Extrem wird häufig – durch Filme und Serien angeregt – mit dem Begriff KI die Vorstellung assoziiert, Maschinen würden ein eigenes Bewusstsein und eine übermenschliche Intelligenz entwickeln. Hiervon sind wir derzeit allerdings noch weit entfernt.

In den Medien wird KI meist im Zusammenhang mit Zukunftstechnologien genannt, wie zum Beispiel selbstfahrende Autos oder Chatbots, die versuchen, den Turing-Test zu bestehen, d. h. so menschenähnlich zu antworten, dass ein menschlicher Gesprächspartner nicht sagen kann, ob er nun mit einem Menschen oder einer Maschine kommuniziert. Dabei hat sicher schon jeder bereits Kontakt mit einigen etablierten modernen KI-Technologien wie beispielsweise automatischer Spracherkennung, Suchmaschinen oder maschinellen Übersetzungen gehabt.

 

Maschinelles Lernen (Machine Learning) und menschliches Lernen

Mit Data Science ist es zum einen möglich, Daten so aufzubereiten, dass sie menschliches Lernen unterstützen und dem Menschen dabei helfen, auf Grundlage von Daten Entscheidungen zu treffen.

Beim maschinellen Lernen hingegen findet der Computer mithilfe von Algorithmen selbst Muster innerhalb von Daten, die ihn dazu befähigen, in einem definierten Kontext Aussagen über einen Zustand oder die Zukunft zu treffen, sodass Entscheidungen automatisiert werden können. Beispiele dafür gibt es zahlreiche, angefangen bei Spamfiltern oder persönlichen Empfehlungen von Netflix, über Sprach- und Texterkennung für digitale Assistenten bis hin zu Predictive Maintenance (s. u.), automatisierte Qualitätskontrolle und -überwachung oder autonome Fahrzeuge. Noch liegt die Funktionsweise der meisten Machine-Learning-Verfahren allerdings nur als Black Box vor, d. h. die automatisch getroffenen Entscheidungen sind für Menschen nicht nachvollziehbar.

Deep Learning

Deep Learning ist eine spezielle Form des maschinellen Lernens. Hierbei werden neuronale Netzwerke, also dem menschlichen Gehirn nachempfundene Zellsysteme, verwendet, um Vorhersagemodelle zu entwickeln. Diese (künstlichen) neuronalen Netzwerke besitzen viele Schichten innerer Neuronebenen (deswegen “Deep” Learning). Deep Learning ist derzeit relativ populär. Gleichzeitig gibt es aber auch viele weitere Maschinelle Lernverfahren, die je nach Anwendungsfall bessere Ergebnisse erzielen können.

Text Mining

Text Mining ist eine Anwendungsform linguistischer (sprachwissenschaftlicher) Datenverarbeitung – die Texte sind hier die Daten, aus denen ein Wert geschöpft werden soll. Ziel des Text Mining ist es, Informationen zu gewinnen, die anschließend zur Weiterverwendung aufbereitet werden können. So können Machine Learning-Algorithmen trainiert werden, um beispielsweise neue Texte zu klassifizieren. Eine besondere Form hier von ist das Web Mining, bei dem Inhalte von Internetdokumenten, also von Webseiten wie Twitter und Facebook oder Newsportalen, analysiert werden.

Business Analytics

Business Analytics ist angewandte Data Science im Unternehmensumfeld. Konkret können hier Geschäftsprozesse verbessert werden, indem – aus dem spezifischen Unternehmensumfeld – vorhandene Daten verwendet werden, um daraus Erkenntnisse und Vorhersagen abzuleiten.

Predictive Maintenance

Predictive Maintenance (auf Deutsch: vorausschauende Instandhaltung) ist ein spezieller Anwendungsfall von Machine Learning und eine der Kernkomponenten von Industrie 4.0. Ziel dabei ist es, den optimalen Wartungszeitpunkt für Maschinen und Anlagen vorherzusagen, sodass Störungen und deren negative Auswirkungen, wie ungeplante Stillstände oder Qualitätsmängel, verhindert werden können.

Anders als die vorbeugende Instandhaltung mit routinemäßigen Wartungen oder Inspektionen, stützt sie sich dabei auf periodisch oder kontinuierlich durch Sensoren erfasste Maschinen- und Produktionsdaten und nicht auf Statistiken über die durchschnittliche oder erwartete Lebensdauer. Da Wartungsaufgaben bei Predictive Maintenance nur dann ausgeführt werden, wenn sie wirklich notwendig sind, können sowohl die Stillstandszeiten als auch die Instandhaltungskosten gesenkt werden. Gleichzeitig bleiben aber auch die Vorteile der vorbeugenden Instandhaltung gegenüber der ungeplanten, ausfallbedingten Instandhaltung erhalten, wie beispielsweise eine längere Lebensdauer der Anlagen, eine erhöhte Anlagensicherheit mit weniger Unfällen und negativen Auswirkungen auf Mensch und Umwelt oder ein optimiertes Ersatzteilhandling.

Industrie 4.0

Industrie 4.0. ist ein Begriff, der vorrangig im deutschsprachigen Raum verwendet wird, um die (vor allem wirtschaftlichen) Veränderungen durch die Digitalisierung zu beschreiben. Bezeichnend hierbei ist das Zusammenspiel digitaler Technologien, wie den hier beschriebenen Begriffen und klassischen Buisnessprozessen, von denen angenommen wird, dass sie sich erheblich verändern werden. Hierbei wird immer deutlicher, dass digitale Wirtschaftsprozesse sich stark von klassischen unterscheiden. 

An die Digitalisierung und Industrie 4.0. werden hohe Erwartungen, z. B. durch Einsparungspotenzial, gestellt, es werden aber auch neue Risiken erwartet.

Big Data

Big Data beschreibt eine Systemarchitektur und gleichzeitig ein neues Programmierparadigma. Eine anschauliche Erklärung ist, dass heutzutage so große Datenmengen anfallen können, dass diese nicht mehr mit den bisherigen Systemarchitekturen verarbeitet werden können. Aus diesem Grund werden die Daten auf mehreren Systemen verteilt. Um mit diesen enormen und verteilten Datenmengen umzugehen, braucht es neue Programmierkonzepte, da es ansonsten nicht mehr möglich ist, in dafür zu rechtfertigender Zeit auf alle Daten zuzugreifen. Stattdessen müssen Prozesse parallel ausgeführt werden. Verwendete Technologien sind hier z. B. Apache Hadoop oder Apache Spark.

Wollen Sie selbst die Grundlagen zur Durchführung eines Data-Science-Projektes lernen?

Fragen Sie sich, welche Data-Science-Anwendungsfälle es bei Ihnen geben könnte?

Oder haben Sie vielleicht schon eine genauere Vorstellung und brauchen Hilfe bei der Umsetzung Ihres Data-Science-Projektes?