Wie Sie Ihr Data-Science-Projekt erfolgreich in ein KI-Produkt transformieren (2/2)

Digitialisierung
Data Science
Data Engineering
Data Analytics
Teil 2: Leitlinien für die Umwandlung eines PoC in ein KI-Produkt
Im ersten Teil dieses Artikels haben wir die verschiedenen Arten von Data-Science-Projekten kennengelernt, die es gibt, und wie sie sich grundlegend unterscheiden. In diesem Teil konzentrieren wir uns auf die interessanteste Art von Data-Science-Projekten, nämlich die, die zu einer KI-Lösung oder einem KI-Produkt führen. Aber wie lässt sich der Aufwand für die Entwicklung eines KI-Produkts erklären? Ist es nicht doch mehr oder weniger dasselbe wie ein PoC?
Das Konzeptfahrzeug auf einer internationalen Automobilausstellung
Ich stelle mir Data Science PoCs gerne ähnlich vor wie Autos, die auf einer internationalen Autoshow ausgestellt werden. Das Auto steht auf der Drehscheibe. Es ist schön, es glänzt, es weckt Interesse, es gibt einen Einblick in das, was machbar ist, und ist dazu da, potenzielle Kunden zu verblüffen. Aber das Auto ist auch speziell für die Ausstellung gebaut worden. Es könnte zu schwer sein, es ist sicherlich zu teuer, um es auf die gleiche Weise zu produzieren, einige Teile sind 3D-Sonderanfertigungen, es könnte zu klobig sein und nicht alle erforderlichen Sicherheitsstandards erfüllen. Vielleicht geht er alle 300 km kaputt.

Die Herausforderung, "das ausgestellte Auto in ein Produkt zu verwandeln", bedeutet, sich mit diesen Fragen zu befassen. Wie können wir Fabriken für den Bau solcher Autos einrichten, wie produzieren wir die Teile auf robuste und dennoch effiziente Weise, gibt es eine modulare Plattformstrategie, auf die dieses Auto zugeschnitten werden kann? Wie sieht die Ersatzteilversorgung aus und welche Ausbildung brauchen die Mechaniker, um dieses Auto warten zu können. Schließlich will der Kunde ein Auto mit "null Ausfallzeiten" und "geringem Wartungsaufwand". Ähnliche Überlegungen gelten für Data-Science-Projekte.
Vom PoC zum KI-Produkt
Um aus einem Proof of Concept ein vollwertiges KI-Produkt zu machen, ist eine Menge Arbeit nötig. Im Folgenden habe ich eine nicht umfassende Liste von Aspekten zusammengestellt, die Sie auf dem Radar haben müssen. Diese Liste ist zwar nicht vollständig, aber alle Elemente sind Schlüsselfaktoren für den erfolgreichen Brückenschlag vom PoC zum Produkt.
Bauen Sie mit der Produktionsumgebung im Hinterkopf - nicht mit Ihrem Laptop
In der irrigen Annahme, keine Zeit zu verlieren und weil "es einfacher ist", beginnen Datenwissenschaftler mit der Erstellung von Modellen auf ihren Laptops. Wir stimmen zwar zu, dass dies der logische Ausgangspunkt ist, aber es ist wichtig, über die lokalen Umgebungen hinauszugehen und von Anfang an die Zielumgebung im Blick zu haben. Dadurch werden spätere Überraschungen vermieden und die Skalierung erleichtert.
Robuste Datenpipelines
Es heißt ja schließlich "Datenwissenschaft". Daten sind das neue Öl, und Daten müssen genau sein und richtig einfließen. Deshalb ist es von größter Bedeutung, dass das Data-Science-Team von Anfang an Zugang zu den richtigen Daten (und genügend davon) hat. Für die Automatisierung ist es wichtig, dass Data-Engineering-Pipelines entsprechend eingerichtet sind. Aber die Daten sollten nicht nur kontinuierlich einfließen, sondern auch dort gesammelt werden, wo es sinnvoll ist.
Feedback-Daten sammeln
Von Anfang an sollte die Sammlung von Feedback-Daten in Angriff genommen werden. Das kann so einfach sein wie ein "Daumen hoch" oder "Daumen runter" vom Nutzer, wenn die Vorhersage gut war. Durch die kontinuierliche Erstellung neuer markierter Daten stellen wir sicher, dass die Rückmeldung von Daten möglich ist und die Modelle neu trainiert werden können. Dieser Ratschlag ist für jedes Unternehmen, das sich ernsthaft um eine vollständige Digitalisierung bemüht, von entscheidender Bedeutung.
Die Modellpflege muss kontinuierlich erfolgen
MLOps (Machine Learning Operations) zielt darauf ab, den Lebenszyklus der Analyseentwicklung zu verkürzen und die Modellstabilität zu erhöhen, indem wiederholbare Schritte in den Arbeitsabläufen automatisiert werden. Ein Modell ist normalerweise für den Moment optimiert, in dem es in Betrieb geht. Von diesem Moment an ändert sich die Welt um es herum und die Daten weichen von dem ab, wovon das Modell ursprünglich erstellt wurde. Wenn das Modell nicht mit neuen Roh- oder Feedbackdaten versorgt wird, nimmt seine Leistung mit der Zeit ab. Deshalb ist es wichtig, Metriken über die Modellleistung zu sammeln und die Umschulung des Modells zum Bestandteil der Wartungsaktivitäten zu machen.
Skalierter Einsatz von KI
Der Einsatz von KI in großem Maßstab ist eine der wichtigsten Herausforderungen bei der Entwicklung eines KI-Produkts. Auf der einen Seite stehen die technischen Herausforderungen, die sich aus dem Training der Modelle auf einem sich ständig ändernden und größeren Datenkorpus ergeben. Hier kann Cloud Computing helfen, die Engpässe bei der Rechenleistung zu überwinden, indem es die erforderliche Elastizität schafft. Dies hat aber natürlich seinen Preis, so dass es wichtig ist, das richtige Gleichgewicht zwischen Kosten und Häufigkeit des Trainings zu finden. Auf der anderen Seite gibt es auch organisatorische Herausforderungen: Sobald die Einsätze größer werden, sind mehr Mitarbeiter in der Organisation damit beschäftigt, die Komponenten und Kennzahlen im Auge zu behalten, da mehr schief gehen kann. Verschiedene Modelle müssen verpackt werden und können in der Produktion nebeneinander bestehen. Fallback-Szenarien müssen geplant werden, da mehr schief gehen kann - und das hat größere Auswirkungen. Hier ist die Automatisierung der Schlüssel zur Gewährleistung der Wiederholbarkeit der Einsätze sowie der Stabilität des Systems und der Modelle.
Dokumentation
Die meisten Entwickler schreiben nicht gerne Dokumentationen - aber sie lesen sie alle gerne. Es liegt auf der Hand, dass die Dokumentation ein wesentlicher Aspekt eines jeden (KI-)Produkts ist und auf dem neuesten Stand gehalten werden muss. Die Dokumentation sollte Informationen über APIs für den Zugriff auf das Modell enthalten, aber auch eine interne Dokumentation darüber, wie bestimmte Aspekte des Modells funktionieren. Nicht zuletzt sollte sie auch als eine Art Benutzerhandbuch erklären, wie das KI-Produkt von nicht-technischen Personen zu verwenden ist.
KI-Ethik und Vorurteile
KI-Systeme sind nicht davor gefeit, unfaire Entscheidungen zu treffen, und manchmal hat dies schwerwiegende Folgen. Heutzutage entscheiden KI-Modelle darüber, ob wir einen Kredit erhalten, ein Stipendium bekommen, einen Job bekommen, reisen oder verhaftet werden. Während sich die Forschung stark auf den beabsichtigten Missbrauch von KI konzentriert, können die Folgen einer unbeabsichtigten KI-Nutzung ebenso schädlich sein. Auch wenn es unmöglich ist, KI-Systeme von menschlicher Voreingenommenheit zu befreien, ist es wichtig, die Auswirkungen zu minimieren. Dies kann durch eine sorgfältige Auswahl von Trainingsdaten, eine genaue Überwachung, eine kontinuierliche Datenverwaltung und eine vielfältige Population erreicht werden, die ein breites Spektrum an Inputs abdeckt und ein faires Abbild unserer sozialen Strukturen bietet. Aus diesem Grund ist es wichtig, die Fairness Ihrer Modelle zu verstehen und die Verzerrungen in Ihren KI-Produkten im Laufe der Zeit genau zu überwachen.
Fazit
In diesem Beitrag habe ich Ihnen meine Sichtweise dargelegt, wie ich zwischen drei Haupttypen von Data-Science-Projekten unterscheide. Dann habe ich mich auf den Typus des KI-Produkts und der KI-Lösung konzentriert und bin näher darauf eingegangen, wie man Führungskräften und Entscheidungsträgern erklären kann, was nötig ist, um von einem einfachen PoC zu einer produktiven KI-Lösung oder einem Produkt zu gelangen. Als wichtigste Erkenntnis möchte ich betonen, dass mit guten Prozessen und dem richtigen Technologie-Stack im Hinterkopf die Brücke zwischen PoC und produktiven KI-Produkten vorhersehbar und robust geschlagen werden kann. Es versteht sich von selbst, dass die richtigen Fähigkeiten entscheidend sind. Die frühzeitige Einbindung von Daten- und Softwareingenieuren in den Prozess kann dazu beitragen, die Data-Science-Modelle in verwaltete und einsatzfähige Artefakte zu überführen, die in großem Maßstab funktionieren.



