Von der Idee zur Produktion eines Datenprodukts
Von Nadine Julien, September 21, 2022
Von Nadine Julien, September 21, 2022
KI (Künstliche Intelligenz) ist in aller Munde und Firmen möchten gerne auf diese Technologien setzen, um sich weiter im Wettbewerb zu behaupten. Jedoch sind auf dem Weg zu einer KI-Lösung, welche im täglichen Business eingesetzt werden kann, viele Stolpersteine anzutreffen. In diesem Fachbeitrag wird näher auf die Schritte eingegangen, wie ein Datenprodukt entsteht von der Idee bis zum finalen Produkt anhand des Prozesses (vgl. Abbildung 1) von Rowan (2022).
Bereits zu Beginn eines neuen Projektes sind wichtige Fragen zu klären (vgl. Abbildung 2), damit das Projekt korrekt geplant werden kann. Zudem wird verhindert, dass zu einem späteren Zeitpunkt bemerkt wird, dass aufgrund fehlender Informationen das Projekt nicht umsetzbar ist oder die verschiedenen Stakeholder unterschiedliche Ansprüche an das Projekt haben.
Die Projektleitung klärt in diesem Schritt, ob das Projekt technisch umgesetzt werden kann, Daten vorhanden sind sowie auch der Business Case aus dem vorherigen Schritt potential hat. Weiter wird auch abgeklärt, ob ein ähnliches Projekt bereits zuvor umgesetzt wurde.
Hier wird geklärt, ob die Qualität der Daten ausreicht, um das Projektziel zu erreichen. Bereits im Business Case wurden Annahmen zu der Performance und den Vorteilen dieses Datenprodukts getroffen. Dieser Schritt zeigt, ob das Produkt den gewünschten Effekt bringt oder nicht. Um diese Fragen zu klären, wird viel experimentiert und es werden erste Modelle trainiert. Da hier einige Herausforderung auftreten können, ist es wichtig, mit allen Stakeholdern die Probleme zu besprechen, zu lösen und gemeinsam zu entscheiden, wann und ob man zur Pilotphase übergeht. Mögliche Herausforderungen sind:
Over-fitting
Die Performance des Modells ist gut, aber funktioniert nur mit den Trainingsdaten. Dieses Problem ist nicht einfach zu erkennen, da es scheint, als würde das Modell mit einer höheren als erwarteten Accuracy laufen und die Erwartungen übertreffen. Sobald aber die Test-Daten eingesetzt werden, sinkt die Accuracy dramatisch. Daraus lässt sich schliessen, dass ein guter Accuracy-Wert keine Indikation für ein gutes Modell ist. Als finale Prüfung werden die Held-out Daten in das Modell eingespeist. Diese Daten wurden zu Beginn vom Projekt zur Seite gelegt und sind weder in den Trainings- noch in den Testdaten enthalten.
Trainiertes Modell kann nicht reproduziert werden
Falls dieses Problem auftritt, hängt dies meistens mit der Organisation und der Arbeitsweise zusammen. Es werden unterschiedliche Notebooks genutzt oder die Dateinamen der Experimente sind nicht eindeutig. Als Lösung können hier Machine Learning Best Practices eingeführt werden.
Ungenügende Daten
Dies begrenzt die Trainingsmöglichkeiten des Modells. Hier ist wichtig, dass mehr Daten über einen längeren Zeitraum gesammelt werden, eingekauft werden oder via Transfer Learning von einem ähnlichen Problem übernommen werden.
Ungenügende Labels
Dieses Problem schränkt die Menge der verfügbaren Daten für das Modelltraining ein. Falls die Labels den Anforderungen nicht genügen, kann zum Beispiel Labeling durch Kunden eingeführt, mit semi-supervised Learning die Labels schneller erstellt oder via Transfer Learning von anderen Datensets genutzt werden.
Model Performance ist tiefer als im Business Case angegeben
Sind die ursprünglich definierten Metriken weiterhin relevant? Allenfalls müssen hier andere Metriken angeschaut werden basierend auf was für das Business Modell wichtig ist.
Notebook Modell kann nicht in Produktion genutzt werden
Beim Erstellen des PoC sollte bereits die Produktion beachtet werden. Zudem werden Notebooks nur für Experimente genutzt und Code soll als Anwendung gebaut werden.
Ein Pilot ist die erste Live-Version vom Produkt und wird MVP (Minimum viable product) genannt. Gemeinsam mit dem Kunden wird hier das Produkt weiter ausgebaut basierend auf dem PoC. Weiter werden Integrationen in die Systeme erstellt (z.B. CRM), weitere Daten und Labels werden gesammelt. Der Pilot gibt Feedback an das trainierte Modell, um dieses zu verbessern. In diesem Schritt werden auch Front-end und Integration Features erstellt. Die Performance wird hier mit dem Business Case verglichen und es wird entschieden, ob der Pilot auf alle Kunden ausgerollt werden soll oder nicht.
Falls die Performance mit demjenigen vom Business Case übersteinstimmt, kann entschieden werden, das Produkt auf weitere Kunden auszurollen.
Dieser Beitrag basiert auf einer Vorlesung von Mark Rowan vom 23. April 2022 zum Thema «From Idea to Production: How not to get stuck doing Production in Powerpoint» an der Hochschule für Wirtschaft Zürich.
Quellen- und Abbildungsverzeichnis
Rowan, M. (23. April 2022). From Idea to Production: How not to get stuck doing «Production in PowerPoint». Zürich: HWZ – Hochschule für Wirtschaft, CAS in AI Management, Vorlesung.
Dieser Fachbeitrag wurde im Rahmen eines Leistungsnachweises für das CAS AI Management verfasst und wurde redaktionell aufgearbeitet.
Unser Newsletter liefert dir brandaktuelle News, Insights aus unseren Studiengängen, inspirierende Tech- & Business-Events und spannende Job- und Projektausschreibungen, die die digitale Welt bewegen.