Advanced Analytics und Predictive Analytics
Potenziale und Prozesse moderner Analyseverfahren
Advanced Analytics ist die autonome oder teilautonome Untersuchung von Daten oder Inhalten mit ausgefeilten Techniken und Tools. Typischerweise geschieht dies jenseits der traditionellen Business Intelligence (BI), um tiefere Einblicke zu gewinnen, Vorhersagen zu treffen oder Empfehlungen zu generieren. Zu diesem fortschrittlichen Analyseverfahren gehören unter anderem Data-Mining-Verfahren, Machine-Learning-Prozesse, neuronale Netze und Predictive Analytics.
Anwendungsgebiete von Advanced Analytics und Predictive Analytics
Advanced Analytics beschreibt Datenanalysen, die über einfache mathematische Berechnungen wie Summen und Durchschnittswerte oder Filtern und Sortieren hinausgehen. Diese fortgeschrittenen Analysen verwenden mathematische und statistische Formeln und Algorithmen, um neue Informationen zu generieren, Muster zu erkennen und Trends festzustellen. Ebenfalls spielt das Thema Machine Learning eine zentrale Rolle innerhalb der Advanced Analytics. Typische Anwendungsgebiete von Advanced Analytics sind:
- Segmentierung (Erstellung von Gruppen basierend auf Ähnlichkeiten)
- Assoziation (Feststellung der Häufigkeit gemeinsamer Vorkommnisse)
- Klassifikation (zum Beispiel von bisher nicht eingeordneten Elementen)
- Korrelationsanalyse (Identifizierung von Beziehungen)
Predictive Analytics konzentriert sich auf die Identifizierung zukünftiger Ereignisse mit ihren jeweiligen Wahrscheinlichkeiten. Dabei werden vor allem historische Daten verwendet, um ein mathematisches Modell zu erstellen und Trends zu erfassen. Dieses Modell wird anschließend auf aktuelle Daten angewendet, um Aussagen über zukünftige Ereignisse zu treffen. Es gibt eine Vielzahl an möglichen Anwendungsfällen für Predictive Analytics:
- Luft-/Raumfahrt: Zustandsüberwachung von Triebwerken und anderen wichtigen Maschinenteilen
- Energieproduktion: Vorhersage von Strombedarf und -preis
- Finanzdienstleistung: Vorhersage von Kreditrisiken
- Maschinenbau und Automatisierung: Vorhersage von Ausfällen
- Medizin: Mustererkennungsalgorithmen zur Erkennung von Krankheiten
- Automobilbranche: Entwicklung von Fahrerassistenz-Algorithmen
Weitere allgemeine Beispiele sind die Erstellung von Prognosen zu Einkommen, Preisen oder Umsatz, aber auch Anforderungen oder Kundennutzen, um beispielsweise Quoten von Vertragsstornierungen und Kündigungen zu minimieren. Auch in Predictive-Analytics-Prozessen kommen Big Data und Machine Learning zum Tragen.
Workflow von Predictive Analytics
Innerhalb von Predictive Analytics Prozessen werden mathematische Modelle (prädiktive Modelle) aufgestellt, um aktuelle Trends festzustellen und daraufhin Vorhersagen über zukünftige Ereignisse zu treffen. Um solche Modelle zu erstellen, verwenden diese Prozesse Daten (auch Big Data), in Kombination mit Analysen, Statistiken und Machine-Learning-Verfahren.
Solche Vorhersagen dienen dazu, die Ressourcennutzung zu optimieren, Zeit zu sparen und Kosten zu senken. Auch lassen sich optimierte Timelines für die Einführung neuer Produkte oder Dienstleistungen erstellen. Die im Prozess entwickelten Modelle sollen dazu beitragen, die gesetzten Ziele zu erreichen, beziehungsweise zu unterstützen.
Die Datengrundlage
Schritt 1: Datenimport
Zunächst werden alle relevanten Daten importiert, die für die Vorhersage von Bedeutung sind. Dies geschieht aus verschiedenen Datenquellen wie beispielsweise Datenbanken, Web-Archiven, Kalkulationstabellen oder anderen Arten von Dateien.
Schritt 2: Datenaufbereitung
Damit die Analyse auch zu wertvollen Ergebnissen führt, werden die importierten Daten zunächst aufbereitet. Dazu zählt das Bereinigen von Ausreißern, die Identifizierung fehlender Daten und das Kombinieren verschiedener Datenquellen.
Das Modell
Schritt 3: Entwicklung des prädiktiven Modells
Bei der Entwicklung des prädiktiven Modells kommen oftmals Methoden des überwachten Machine Learning zum Einsatz. Überwachtes Lernen ist eine von zwei Arten des Machine Learning. Hier wird ein Algorithmus auf einen Datensatz angewendet, um Hypothesen zu finden und Vorhersagen zu treffen. Dieser sogenannte Trainingsdatensatz enthält Eingabedaten und entsprechende Reaktionswerte. Daraus soll der überwachte Lernalgorithmus ein Modell aufbauen, das Vorhersagen über die Reaktionswerte bei einem neuen Datensatz treffen kann. Entsprechend führt die Verwendung größerer Trainingsdatensätze oft zu Modellen mit höherer Vorhersagekraft, die sich gut für neue Datensätze eignen.
Schritt 4: Integration des Modells in das System
Wurde mit Hilfe der Machine-Learning-Techniken ein geeignetes Modell entwickelt, wird dies nun in die Unternehmensumgebung beziehungsweise in ein Produktionssystem implementiert. Dadurch sind Analysen für weitere Software-Programme und Geräte verfügbar, wie zum Beispiel Server-Anwendungen, mobile Geräte, Web-Anwendungen und Enterprise-Systeme.
Dieser Workflow ähnelt dem iterativen Ablauf des CRISP-DM Modells – dem CRoss-Industry Standard Process for Data Mining. Dieses branchenübergreifende Modell beschreibt den zugrunde liegenden Prozess hinter jedem Datenanalyseprojekt in sechs Phasen. Die sechs Phasen sind:
- Business Understanding (Geschäftsverständnis)
- Data Understanding (Datenverständnis)
- Data Preparation (Datenvorbereitung)
- Modeling (Modellierung)
- Evaluation (Evaluierung)
- Deployment (Bereitstellung)
Innerhalb des Modelles laufen die Phasen nicht strikt nacheinander ab, sondern wechseln und wiederholen sich oftmals.
Der nächste Schritt: Prescriptive Analytics
Für Unternehmen ist nach der erfolgreichen Implementierung von Predictive Analytics oftmals die Einführung von Prescriptive Analytics das Ziel. Ergänzend zur Vorhersage-Funktion der prädiktiven Modelle geben Prescriptive Analytics darüber hinaus eine Handlungsempfehlung, wie auf bestimmte zukünftige Ereignisse am besten reagiert wird.
Ein Beispiel für eine präskriptive Analyse ist die Festlegung von Produktions- und Lagerbeständen, die sich mit einer vorhergesagten Nachfrage deckt. Prescriptive-Analytics-Verfahren ermöglichen es dabei, Handlungsempfehlungen zu geben, zum Beispiel wie viel Ware einzelne Verkaufsstandorten lagern sollten, um auf die entsprechende Prognose effizient zu reagieren.
Die prädiktiven Modelle lassen sich also dahingehend erweitern, dass sie nicht nur Ereignisse vorhersagen. Somit können sie zusätzlich Aktionen abstrahieren, damit diese Ereignisse zu optimalen Ergebnissen führen.
Herausforderungen von Advanced Analytics
Die herkömmlichen BI-Reportings bilden oftmals Daten lediglich ab und visualisieren somit nur einen Ist-Zustand. Wenn der Datensatz qualitativ hochwertig ist, dann sind auch die Berichte höchstwahrscheinlich zuverlässig. Insbesondere, da die meisten modernen BI-Umgebungen inzwischen recht ausgereift sind und ihre Reporting-Methoden und Reporting-Konzepte einen hohen Entwicklungsstand erreicht haben. Es gibt jedoch keine 100-Prozent-Garantie dafür, dass Advanced Analytics immer die gewünschten Ergebnisse liefern.
Heute stehen eine Vielzahl von Standardalgorithmen und Standardmethoden für spezifische Anwendungsfälle, wie zum Beispiel Kundenklassifizierung, zur Verfügung. Die Suche nach der für einen Datensatz am besten geeigneten Lösung hängt stark von den Fähigkeiten des Benutzenden und der verwendeten Software ab. Es ist jedoch auch möglich, dass Algorithmen aufgrund fehlender oder fehlerhafter Daten ausfallen. Wenn ein Advanced-Analytics-Prozess zeigt, dass keine Ergebnisse gefunden werden können, sollte der Prozess abgebrochen und die Daten neu aufgearbeitet werden.
Darüber hinaus sollten Anwendende von Advanced Analytics Kenntnisse über Methoden in der Arbeit mit Wahrscheinlichkeiten verfügen. Während klassische BI-Reportings fast immer die richtigen Zahlen liefern, müssen Fachanwendende die durch Advanced Analytics generierten Wahrscheinlichkeiten interpretieren. Beispielsweise gilt es, die Qualität einer Umsatzprognose oder Kundenklassifizierung daher nicht nur für jede einzelne Analyse zu notieren und kommunizieren, sondern auch kontinuierlich zu überwachen und zu optimieren.