Handelt es sich bei Artificial Intelligence und Data Science nur um einen Hype oder um die quantitative Problemlösungsmethode, auf die wir alle gewartet haben? Der Durchbruch im Finanzbereich ist jedenfalls noch nicht in Sicht.
Es gibt ein breites Spektrum an Literatur über sogenannte „Hype-Cycles”. Kurz gesagt, schalten dabei Menschen, die es eigentlich besser wissen könnten und sollten, ihr Hirn komplett aus und verfallen dem Wahn des kurzfristigen Ertrags bzw. Erfolgs, sei es monetär oder anderwärtig. Aber wie man weiß: Es war ja doch alles am Ende nur „too good to be true” – besonders in Retrospektive.
Gleich zwei solcher Hypes konnten insbesondere im Finanzbereich in den letzten Jahren beobachtet werden. Der eine ist der Blockchain-Hype, wo sich zwei Stränge vermengt haben – einerseits das Zusammenfassen von verschiedenen Technologien – verteilte Datenbanken und Verschlüsslung/Kryptographie – in die sogenannte Blockchain Technologiewelt sowie andererseits das Aufkommen von Kryptowährungen, die den Wahn erst vollends komplettierten.
Der Artificial Intelligence Hype
Beim zweiten Hype geht es um Artificial Intelligence (AI). AI ist bekanntlich kein neues Thema, sondern wie in der zweiten Hälfte des zwanzigsten Jahrhunderts schon mehrfach zu beobachten war, ein stets wiederkehrendes Phänomen. Dies war Anfang der 1970er Jahre mit maschinellen Translationssystemen sowie Mitte der 1980er Jahre mit Expertensystemen der Fall.
Das kompromisslose „Overpromising and Underdelivering“ führte dazu das der massive Geldschwall nach einigen Jahren rasch wieder versiegte. Seit ungefähr 2015 ist nun der nächste Schwall an Geldern zu vernehmen – diesmal zumeist in die Richtung Deep Learning, welches manchmal stellvertretend für AI steht. Deep Learning ist am Ende des Tages lediglich eine kleine Unterkategorie des Machine Learnings, Artificial Neural Networks mit mehr als einen Zwischenlayer.
Deep Learning als wichtige Methode
Das Besondere des Deep Learnings ist weniger die Architektur des zugrundeliegenden Machine Learning Modells, sondern die Möglichkeit der Automatic Feature Extraction. Damit ist gemeint, dass man im Gegensatz zum klassischen Machine Learning keine Design Matrix erstellen muss. In einer Designmatrix wird jede zu untersuchende Einheit durch entsprechende Attribute (Features) beschrieben. Die Auswahl, Beschreibung und auch Implementierung (auf Datenbankebene) dieser Features ist mitunter die wichtigste Tätigkeit, um Machine Learning Methoden erfolgreich in Unternehmen einzusetzen. Das Ziel ist eben nicht, einen hohen internen Messwert der Passgenauigkeit der Modelle zu errechnen, sondern das eigentliche, dem Business Prozess zu Grunde liegende Problem so gut wie möglich in einen quantitativen Rahmen zu bringen.
Deep Learning verspricht nun, diesen zugebenermaßen oftmals mühsamen – aber eben zielführenden – Prozess der Feature Extraction, also der Definition, Berechnung und Verarbeitung von Features des zugrunde liegenden Problems zu verüberflüssigen.
Bildanalyse als spezifisches Anwendungsgebiet
Dies wird bei Audiodateien, Bildern, Videos und neuerdings auch Zeitreihen zumeist durch sogenannte Convolutional Neural Network Layers ermöglicht. Dabei muss z.B. bei der Bildanalyse der entsprechende Bildinhalt nicht weiter quantitativ beschrieben werden, sondern einfach dem Modell in Bildform zugeführt werden – in Form eines vierdimensionalen Tensors werden dann die entsprechenden RGB-Bilder als Input entsprechend verarbeitet.
Das ist natürlich ein USP, den viele Unternehmen verständlicherweise gerne aufgreifen möchten. Leider wird viel zu oft darauf vergessen, dass die Feature Extraction zwar nicht in Form einer Design Matrix stattfinden muss, aber sehr wohl auf der Ebene der Inputs, d.h. z.B. die genaue Struktur der Input-Bilder ist besonders in Hinblick auf die zu treffende Klassifikation zu beachten. In den letzten Monaten häuften sich die Meldungen über Fehlklassifikationen, bei denen schon eine leichte Perturbierung des Inputbilds zu absurden Klassifikationen führen kann.
Grenzen der Anwendung von Deep Learning
Ganz allgemein ist zu beobachten, dass die Genauigkeit von derzeitigen Deep Learning Modellen (z.B. durch die Maßzahl Accuracy gemessen) nicht allzu faszinierend ist und bei normalen Machine Learning nie akzeptiert werden würde. Aber der Mensch lässt sich durch die optisch recht interessanten Erfolge bei der Klassifikation von Bildern (z.B. ein automatisches Auseinandererkennen von Katzen- und Hundefotos) blenden und verwirft den vernunftvollen Blick auf Ergebnisse, die auch in einem echten Business-Prozess, also abseits des wissenschaftlichen Interesses an der entsprechenden Algorithmik, erfolgreich sein müssen.
Überhaupt wird im gesamten Bereich des Deep Learnings das Rad des Öfteren neu erfunden bzw. alte Technologien, die schon am Abstellgleis standen, wieder komplett neu entdeckt. Dabei werden ab und zu anscheinend schon gewonnene Erkenntnisse vergessen. Jedenfalls betrifft dies einerseits die PCA (Hauptkomponentenanalyse), die nun in Form von Embeddings auftaucht, da Deep Learning im Eigentlichen große Schwierigkeiten mit der Verarbeitung von kategoriellen Attributen aufweist, welches besonders für Anwendungen im Bereich CRM zu Problemen führt, da Kunden und/oder Produkte oftmals durch viele Kategorien beschrieben werden bzw. Kategorien oft ein zentrales Element in der Kategorisierung und Klassifikation darstellen.
Die klassische Variante der Dummy-Variablen – im Deep Learning One-Hot Encodings genannt – hat sich bei den enormen Datenmengen als problematisch herausgestellt. Eine weitere wieder aufkeimende Technologie ist die der Genetischen Algorithmen sowie anderer Populations-basierter Optimierungsheuristiken, die vor allem zur sogenannten Hyperparameter-Optimierung verwendet werden, da das Finetuning der vielen (Hyper-)Parameter, die notwendigerweise bei einem Real-World Deep Learning Modell zu kalibrieren sind, um dieses zum Optimum zu führen, einen sehr aufwendigen Prozess darstellt, der mittels normalen Brute-Forcing auf Grund der hohen Dimensionalität zu viel Zeit in Anspruch nehmen würde.
Es kommt auf die Entscheidungsunterstützung an
Um den Bogen noch etwas weiter zu spannen ist es nahezu natürlich, dass neue Technologien oft dazu führen, dass man alte, aber bewährte Technologien oder auch Prozesse einfach „vergisst” und sich nur noch auf die modernste und komplexeste Ausprägung konzentriert. Im Fall Data Science ist es so, dass nur noch Machine Learning und Deep Learning Beachtung findet. Langsam aber sicher verstehen Firmen, dass man vor einigen Jahren im Bereich Decision Science – landläufig besser bekannt unter den Bezeichnungen Operations Research bzw. Management Science – viele der Fehler, die man heute macht, vermieden wurden sowie die Probleme, die daraus entstehen, schon längst gelöst hatte.
Betrachtet man das in seiner einfachsten (Meta-)Form sehr trivial erscheinende Ablaufdiagramm der Quantitativen Managementforschung “Daten -> Modell -> Entscheidung”, dann ist aus Decision Science Sicht stets klar gewesen, dass die Entscheidung im Mittelpunkt steht. Dabei wurde die zu treffende Entscheidung quantifiziert und danach wurde ein Modell gesucht, mit dem diese Entscheidung in einer optimalen Art und Weise berechnenbar gemacht werden kann. Danach wurden die entsprechenden Daten gesucht bzw. die entsprechenden Vorhersagemodelle für die Daten unter Unsicherheit gewählt, geschätzt und angewendet.
Rückbesinnung auf Problemlösung
Heute sind Unternehmen leider dazu geneigt, das Prozesspferd von vorne aufzuzäumen. Im Bereich “Daten” bleiben Unternehmen in der Data Governance Misere stecken. Zu viele Stakeholder sprechen bei der Zu- und Verteilung von Daten mit und am Ende existieren noch immer grobe Kommunikationsprobleme zwischen IT und Business besonders beim Zugriff auf Datenbanken.
Im Bereich der Modelle wird ganz gemäß eines Hype-Cycles auch nur auf das modernste Modell hingearbeitet – es muss einfach ein Deep Learning Modell sein, denn nur dieses löst all unsere Probleme… am besten natürlich gleich mit einer kleinen Blockchain. Man muss uns Menschen zwar generell entschuldigen, denn wer kennt die Situation nicht – man öffnet die Business Social Media Seite seines Vertrauens (z.B. LinkedIn, Xing et al.) und ist überwältigt von der Anzahl an Artikel, Links und Beiträgen, die uns erzählen, was mit Artificial Intelligence (AI) und Data Science nicht alles möglich wäre.
Sowohl das FOMO (Fear of Missing Out) als auch die Aussagen von diversen Data Science Gurus (die sich mitunter als Scharlatane entpuppen) bestärken den Wunsch, einfach auf der Welle mit zu schwimmen, anstatt die zu lösenden Entscheidungsprobleme aus reiner Business-Sicht zu besprechen, zu analysieren und vor allem zu vereinfachen. Eine Rückbesinnung auf die Tatsache, dass der Hauptfokus auf der entsprechenden Quantifizierung des Business-Problems liegt und dieses durch Simplifizierungen erst tatsächlich lösbar wird – abseits des Gedankens an entsprechende Lösungsmodelle – führt zumeist auf schnellstem Wege zu einer Lösung, die tatsächlich zum wirtschaftlichen Erfolg verhelfen kann.