8 min read

KI-Modelle bauen oder kaufen?

Published on

April 26, 2022

Author

Gergely Schmidt

Chief Product Officer

Subscribe to our newsletter

Subscribe

KI ist mehr als nur ein Hype. Frühzeitige Anwender profitieren erheblich von ihren Konkurrenten. Laut Gartnerwerden „bis 2025 die 10 % der Unternehmen, die Best Practices für das KI-Engineering einführen, mindestens dreimal mehr Wert aus ihren KI-Bemühungen schöpfen als die 90 % der Unternehmen, die dies nicht tun.” Jedes Unternehmen wird sich anpassen müssen, aber der Weg ist weniger offensichtlich als das Ziel.

Wie soll man anfangen?

KI-Modelle sind auf Daten angewiesen. Einfach ausgedrückt: Unternehmen müssen über genügend Daten in der richtigen Qualität verfügen, um diese Modelle erstellen zu können. Wenn ein Unternehmen in den letzten Jahren ein Data Warehouse oder einen Data Lake aufgebaut hat, ist das ein guter Ausgangspunkt. Wenn nicht, sind die Dinge ein wenig komplizierter. Unabhängig von den Grundlagen empfiehlt es sich, mit einfachen regelbasierten Prozessen auf der Grundlage der verfügbaren Daten zu beginnen. Auf diese Weise lässt sich feststellen, wo die größten Lücken bei den Daten und dem Prozess bestehen. In den Best Practices von Google heißt es: „Sie können Daten von einem anderen Problem nehmen und dann das Modell für ein neues Produkt optimieren, aber das wird wahrscheinlich weniger gut funktionieren als einfache Heuristiken. Wenn Sie glauben, dass maschinelles Lernen Sie zu 100 % weiterbringt, dann bringt Sie eine Heuristik nur zu 50 % ans Ziel.” Das Fazit ist, dass es nicht nur in Ordnung ist, sondern dringend empfohlen wird, mit einem heuristischen Ansatz zu beginnen und nicht gleich mit ML.

Aus strategischer Sicht

Es ist wichtig, sich darüber im Klaren zu sein, wie die KI-Modelle eingesetzt werden sollen und in welchem Verhältnis sie zum Gesamtgeschäft des Unternehmens stehen. Wenn es sich um ein strategisches und einzigartiges Unterscheidungsmerkmal handelt, ist es naheliegend, es intern zu entwickeln, um die volle Kontrolle und die Möglichkeit zur Anpassung zu behalten.

Netflix zum Beispiel könnte jedes Jahr 1 Milliarde Dollar oder mehr durch Abonnenten verlieren, die den Dienst verlassen, wenn es seine personalisierte Empfehlungsmaschine nicht gäbe. Zu Beginn versuchte das Unternehmen, das Empfehlungsmodell auszulagern, indem es einen Wettbewerb um eine Million Dollarausschrieb. Der Gewinner wurde zwar bekannt gegeben, aber das Modell wurde nie in der Produktion eingesetzt. Es war klar, dass dieses Modell nicht von Außenstehenden entwickelt werden konnte. Das Empfehlungsmodell ist der strategische Vorteil von Netflix gegenüber den Konkurrenten und erforderte mehrere Ingenieurteams, die an der Analyse der Gewohnheiten seiner über 200 Millionen Abonnenten arbeiteten..

Zum Vergleich: Wenn eine Fluggesellschaft ML-Modelle verwenden würde, um ihre Nutzer im Buchungsprozess zu segmentieren, würde dies auf der Grundlage von Empfehlungen zu mehr Beinfreiheit oder besserem Essen während des Fluges anstelle von Sandwiches passieren - als etwas, das den Umsatz erhöht. Diese beiden zusätzlichen Optionen sind jedoch nicht das Kerngeschäft einer Fluggesellschaft. Es handelt sich also nicht um ein strategisches und einzigartiges Unterscheidungsmerkmal für das Unternehmen, sondern lediglich um eine Optimierung des Prozesses.

Risiken bei der Erstellung von KI-Modellen in Eigenregie

Nehmen wir an, Sie entscheiden sich dafür, KI-Modelle von Grund auf selbst zu entwickeln. Mit welchen Risiken und Herausforderungen sehen Sie sich konfrontiert?

Mangel an talentierten Datenwissenschaftlern

Zunächst einmal müssen Sie talentierte Ingenieure und Datenwissenschaftler einstellen, was eine große Vorabinvestition darstellt. Das Harvard Business Review kürte 2012 den Datenwissenschaftler aus gutem Grund zum attraktivsten Beruf des 21. Jahrhunderts. Als Datenwissenschaftler hat man viele verschiedene Aufgaben, die für einen bestimmten anderen Job vielleicht nicht relevant sind: von der Erstellung komplexer Tabellen bis hin zur Entwicklung und Bereitstellung tiefer neuronaler Netze in der Produktion. Es ist nach wie vor schwierig, Datenwissenschaftler zu finden, die mit den neuesten Technologien vertraut sind und gleichzeitig über praktische Erfahrung verfügen. Einerseits hat die rasante Entwicklung der KI-Technologien in den letzten Jahren dazu geführt, dass es für den Einzelnen schwer ist mitzuhalten. Andererseits hat die steigende Nachfrage nach diesen Fachkräften zu einem extrem wettbewerbsintensiven Arbeitsmarkt geführt, was die Mitarbeiterbindung noch schwieriger macht.

Mangel an guten Daten

Nach Angaben von Gartner werden nur 53 % der ML-Prototypen auch in der Produktion eingesetzt. Unter den verschiedenen Gründen dafür stechen zwei große Herausforderungen hervor: die unzureichende Qualität und die Menge der Daten. Daten sollten im Allgemeinen heterogen und frei von Diskrepanzen sein. Die Daten sollten auch reichlich genug vorhanden sein, um sie statistisch analysieren zu können. ML-Modelle sind nur so gut wie die ihnen zugrundeliegenden Daten, wie das Sprichwort besagt, “Garbage in, garbage out.”

Es kann vorkommen, dass Qualität und Quantität der Daten nicht ausreichen, um ein ML-Modell mit dem richtigen, zu erwartendem Ergebnis zu erstellen; beispielsweise wenn Sie sich dafür entscheiden ein Modell zu kaufen, anstatt es zu erstellen. Dies werden Sie jedoch viel früher und zu geringeren Kosten erfahren, möglicherweise sogar kostenlos während der Testphase.

Die Einführung eines Modells in die Produktion ist schwierig

Schauen wir uns diese Statistik noch einmal an: Fast die Hälfte aller Modelle erreicht nie das tatsächliche Produktionsstadium. Das ist kritisch, denn es ist einer der Hauptgründe, warum viele Unternehmen immer noch Schwierigkeiten haben, ML zu nutzen. Aus der Sicht des Managements bedeutet dies, dass die Hälfte der (kostenintensiven) Bemühungen vergeblich ist.

Wenn Sie verstehen, warum dies so ist, können Sie besser entscheiden, ob der Aufbau oder der Kauf von Modellen die richtige Entscheidung für Ihr Unternehmen ist.

Diese Grafik bezieht sich auf ein Paper von Google mit dem Titel "Hidden Technical Debt in Machine Learning Systems". Es zeichnet ein sehr gutes Bild davon ab, wie viele zusätzliche Bereiche neben der einfachen Erstellung eines Modells verwaltet werden müssen. Tatsächlich ist die Kodierung oft der einfachste Teil. Eine MLOps-Lösung könnte diesen komplexen Prozess in der Regel verwalten, aber diese Lösungen sind oft teuer und kompliziert zu verwenden, wenn sie für benutzerdefinierte Modelle implementiert werden sollen.

Um die Dinge nicht noch komplizierter zu machen, ist in den meisten Fällen zusätzliches Wissen erforderlich, um Modelle in Produktion zu bringen. Data Scientists erstellen die Modelle selbst, aber wenn sie fertig sind, kümmert sich ein ML-Ingenieur (jemand mit starken technischen Fähigkeiten und statistischem Wissen) um alle anderen Bereiche. Unterm Strich ist der Prozess des Zur-Produktion-Bringens eines ML-Modells weitaus komplexer, als die meisten Unternehmen zu Beginn der Reise ahnen.

Die Betriebskosten sind hoch

„In dem Moment, in dem man ein Modell in Produktion gibt, beginnt es zu zerfallen.” Dies fasst das Problem sehr gut zusammen. Die Modelle müssen ständig überwacht und automatisch neu trainiert werden, was die Kosten erhöht, nachdem das Modell schon in der Produktion läuft. In den meisten Fällen ist dies nicht in den ursprünglichen Gesamtbetriebskosten (TCO) für den Bau eines Modells im eigenen Haus enthalten. Wenn die Lösung auf dem Markt fertig gekauft wird, ist dies normalerweise im Preis vom Dienstleister enthalten. Bei einem Vergleich zwischen den beiden Ansätzen ist es daher wichtig, die End-to-End-Kosten für beide zu verstehen.

Geschäftswert entsteht langsamer

Die Einstellung von Talenten, die Analyse von Daten, die Erstellung von Modellen sowie deren Einsatz und die anschließende Pflege erfordern viel Zeit und Mühe. Das bedeutet, dass der geschäftliche Nutzen möglicherweise viel später eintritt als ursprünglich erwartet, wenn er überhaupt eintritt. Die Budgets und Zeitpläne könnten überzogen sein oder auslaufen, und es wird schwierig sein, die verlorenen Kosten zu erklären. Denken Sie daran, dass fast die Hälfte aller Modelle nie in Produktion geht.

Risiken beim Kauf von KI-Modellen

Mangelnde Anpassungsfähigkeit

Fertige Software-as-a-Service-Lösungen lassen sich nur selten an spezifische Kundenbedürfnisse anpassen und müssen daher im Vorfeld genau geprüft werden. Diese Modelle dienen einem allgemeinen Zweck und arbeiten gut mit Standardeingabedaten wie GA360, um die Integrationszeit zu minimieren und einen schnelleren Geschäftswert zu liefern.

Mangelnde Transparenz, Blackboxes

ML-Modelle gelten als Blackboxes, weil Entscheidungsbäume mit Computern erstellt werden: Man gibt nützliche Daten ein und erhält dann nützliche Daten zurück. Aber woher weiß man, dass es sich nicht um einen mechanischen Türken handelt? Das geistige Eigentum von Unternehmen, die Models as a Service anbieten, liegt in den Modellen und den Abläufen um sie herum; sie werden ihr wertvollstes Gut mit niemandem teilen.

Sie möchten vielleicht wissen, wie ein Empfehlungssystem Ihre Nutzer segmentiert, bevor Sie ihnen etwas empfehlen, damit Sie neue Aspekte Ihrer Nutzer aufdecken können; doch bei einem geschlossenen System ist das nicht möglich.

Ehrenvolle Erwähnungen sowohl für den Bau als auch für den Kauf: Ein Anliegen der Informationssicherheit

Wenn Sie Daten, insbesondere personenbezogene Daten, auf die Server oder in die Cloud eines anderen Anbieters hochladen und dort verarbeiten lassen, verlassen Sie sich voll und ganz auf die Sicherheitsprotokolle des Anbieters. Es ist ein enormer Aufwand, Daten zu anonymisieren oder zu verschlüsseln, bevor man sie bei einem anderen Dienst hochlädt, und ebenso, diese dann wieder zu entschlüsseln, wenn sie zurückkommen. Die Anonymisierung von Daten ist auch deshalb mühsam, weil es sehr schwierig ist, verdächtige Aktivitäten zu analysieren oder Datenproblemen auf den Grund zu gehen, die bei normalen Geschäftsprozessen auftreten. Dies ist ein weiterer Aspekt, der bei der Entscheidung über den Ansatz berücksichtigt werden muss.

Zusammenfassung

Die Entscheidung für den Bau oder den Kauf einer ML-Lösung ist nicht leicht zu treffen. Wenn wir mit unseren Kunden zusammenarbeiten, um zu entscheiden, welchen Weg sie einschlagen sollen, prüfen wir regelmäßig die Risiken und Vorteile und erstellen eine Scorecard, die bei der richtigen Entscheidung hilft.

In vielen Fällen wird die Lösung zu einer Mischform. Unternehmen beginnen mit einem relativ risikoarmen Model as a Service und verstehen die geschäftlichen Vorteile, die ML ihnen bringen kann. Wenn sich später ein eindeutiger Bedarf an mehr Anpassungen ergibt, ist es einfacher, die Lösung zu erweitern, als sie nach all den schmerzhaften und teuren Vorabinvestitionen, die wir hervorgehoben haben, zu reduzieren.

Wir sprechen gerne über alles, was mit KI zu tun hat. Teilen Sie uns mit, wo Ihr Unternehmen sich auf dem Weg zur KI befindet. Wir erstellen kostenlos eine personalisierte Scorecard. So erhalten Sie eine bessere Vorstellung davon, ob Sie Ihr Budget an der richtigen Stelle ausgeben.

Author

Gergely Schmidt

Chief Product Officer

Subscribe to our newsletter

Subscribe

New opportunities with cloud solutions!

‍Aliz is a proud Google Cloud Partner with specializations in Infrastructure, Data Analytics, Cloud Migration and Machine Learning. We deliver data analytics, machine learning, and infrastructure solutions, off the shelf, or custom-built on GCP using an agile, holistic approach.

Let's talk!