Smart Predict

Im ersten Teil unserer HowTo-Blogreihe haben wir bereits gezeigt, wie Sie mit Hilfe der Smart Predict Funktion eine Künstliche Intelligenz anhand von Daten trainieren können. Wir haben dies anhand von Daten eines fiktiven Stores demonstriert. ​

Nachdem wir unser Predictive Model erstellt haben, ist es erst einmal sinnvoll sich die Ergebnisse des Trainings anzuschauen, um die Treiber und Trends zu identifizieren, die zu diesen Ergebnissen geführt haben. SAP Analytics Cloud Smart Predict bietet uns umfangreiche Werkzeuge, mit denen wir alle notwendigen Details des zugrunde liegenden Modells untersuchen können. Diese Werkzeuge sind für die jeweiligen Modelltypen (Klassifizierung, Regression und Zeitreihen) angepasst und unterscheiden sich somit leicht zwischen den verschiedenen Szenarien. In diesem Teil des Beitrags werden wir lediglich auf die Analyse eines Regressionsmodells eingehen.

Root Mean Square Error zur Messung der Qualität

Die Qualität eines Regressionsmodells lässt sich am sog. Root Mean Square Error (RMSE) messen. Dieser Indikator, der die mittlere quadratische Abweichung aufzeigt, ist ein Werkzeug aus der Statistik. Er wird für die Beurteilung der Qualität einer Schätzung herangezogen. Der RMSE gibt somit Aufschluss über die Robustheit des Models. Durch ihn lassen sich ähnliche Aussagen für neue Datensätze mit einer hohen Konfidenz treffen.

Untersuchung des Modells mit SAC Smart Predict

SAC Smart Predict teilt unseren Trainingsdatensatz in zwei Teile ein. Ein Teil wird dazu verwendet, um das Regressionsmodell zu trainieren. Mit dem anderen Teil wird das trainierte Modell validiert. Der in diesem Beispiel angegebene Root Mean Square Error berechnet sich aus diesen beiden Datensätzen. Bei Target Statistics sehen wir dann noch zusätzliche Informationen wie den Mittelwert und die Standardabweichung zu den einzelnen Partitionen des Trainingsdatensatzes.

In unserem Fall haben wir mit diesem Modell eine Konfidenz von 95.21% erreicht. Diese liegt knapp über dem empfohlenen Konfidenzlevel von 95%. Idealerweise wird ein Konfidenzlevel von über 99% angestrebt. Wir haben einen Fehler von 127.47. Das heißt das der echte Wert eine Differenz von +/- 127.47 zu unserer Vorhersage aufweist. Idealerweise sollte dieser Wert kleiner sein als die Standardabweichung, und somit besser als ein sehr naives Modell, das aus einem Mittelwert +/- Standardabweichung besteht.

Influencer Contributions

Die Influencer Contributions sind an sich ziemlich selbsterklärend. Vollständigkeitshalber möchten wir dennoch noch einmal genauer auf diese eingehen. Influencer sind Variablen, die einen Einfluss auf das Ziel haben. Standardmäßig werden alle Spalten und Dimensionen als Influencer in Betracht gezogen. Nach dem Training werden diese auf die nötigsten Spalten und Dimensionen reduziert. In unserem Fall können wir sehen, dass die Absätze und die Rabatte den größten Einfluss auf den Gewinn haben. In der View Influencer Conctributions gibt es dann noch einmal eine etwas detailliertere Ansicht über die sogenannten Influencer.

Predicted vs. Acutal Graph

Der Predicted vs. Actual Graph ermöglicht es uns, die Genauigkeit unseres Modells auf einen Blick festzustellen. Der Graph besteht aus drei verschiedenen Kurven.

  • Grün – Perfect Model:Die Kurve stellt ein hypothetisch perfektes Modell dar.
  • Blau – Validation Actual: Diese Kurve zeigt den tatsächlichen Zielwert in Abhängigkeit von der Vorhersage.
  • Blau gestrichelt – Validation Error Min/Max: Diese beiden Kurven bilden die erwartete Minimal- bzw. Maximalabweichung des Validierung-Datensatzes ab. Der Bereich zwischen den beiden Kurven ist das Konfidenzintervall.

Wie lassen sich diese Graphen nun interpretieren?

Idealerweise haben wir ein Modell, in der die grüne und die blaue Kurve eng beieinander liegen und eine ähnliche Form haben. In diesem Fall können wir darauf vertrauen, dass unser Modell gescheite Vorhersagen über unbekannte Werte treffen kann.
Wenn dies nicht der Fall ist, bedeutet es im Umkehrschluss, dass die Qualität und die Robustheit unseres Modells nicht besonders gut sind. Dann sollte das Modell mit größeren bzw. neuen Datensätzen trainiert werden. Auch sollten eventuell neue Influencer in Betracht gezogen werden.

Wenn die Kurven größten Teils gleich sein und nur in bestimmten Segmenten voneinander abweichen, so deutet dies daraufhin, dass das Modell an sich gut ist, jedoch noch Verbesserungen möglich sind. Es ist wahrscheinlich, dass für die Segmente mit großen Abweichungen nicht genügend Trainingsdaten vorhanden waren. Auch hier sollte man eventuell den Trainingsdatensatz erweitern oder neue Influencer hinzuziehen.

In unserem Fall sind wir vorerst zufrieden mit unserem Modell. Im nächsten Teil unserer How To-Blogreihe wenden wir unser Predictive Modell auf einen neuen Datensatz an, um Gewinnvorhersagen zu ziehen.

Kategorien:

Tags:

WordPress Cookie Plugin by Real Cookie Banner