Künstliche Intelligenz ist eines der großen Trendthemen der Finanzbranche. Vor allem für die Risikosteuerung in Banken werden mitunter neue Wunder erwartet. Die Realität des Möglichen ist indes weitaus nüchterner, wie ein Blick auf die Leistungsfähigkeit statistischer Modelle zeigt.
Im ersten Teil des Beitrags zur Rolle von Künstlicher Intelligenz im Risikomanagement der Banken ging es bereits um das Thema Vertrauenenswürdigkeit von KI. KI soll „erklärbar“sein, was allerdings bedeuten müsste, dass sie streng kausale Zusammenhänge abbildet. De facto beruhen KI-Anwendungen jedoch so gut wie immer auf statistischen Modellen, die Wahrscheinlichkeitsaussagen machen. .
Im heutigen zweiten Teil geht es um die Frage, wie man auf der Grundlage dieser Tatsache einen vernünftigen Weg zur Nutzung von KI einschlagen kann, der ihrer statischen Natur gerecht wird und falsche Analogien zu logischen Schlussfolgerungen vermeidet – und welche Erfahrungen Risikomanager hierbei einbringen können.
Wahrscheinlichkeiten sind zentral, auch für die Vertrauenswürdigkeit
Nehmen wir den zentralen Kernbegriff der „Explainable-AI“-Debatte noch einmal unter die Lupe, den der Entscheidung selbst. Ein KI-System, bzw. das darin implementierte Modell, fällt nämlich in der Regel gar keine Entscheidungen, sondern liefert zunächst nur Wahrscheinlichkeiten für unterschiedliche mögliche zukünftige Ereignisse. Entscheidungen entstehen durch die Anwendung von festgelegten Regeln auf diese Ergebnisse, etwa das Überschreiten gewisser Mindestwahrscheinlichkeiten.
Damit wird offenbar, warum bei der Bewertung der Vertrauenswürdigkeit von KI-Systemen der „KI-Aspekt“ nur eine wichtige Nebenrolle, das Verständnis für die zugrundeliegende statistische Modellierung dagegen zentral ist. In den „Richtlinien“ ist die probabilistische Natur von KI-Systemen nicht tiefgehend erörtert. Will man die „Richtlinien“ umsetzen, bedarf es folglich einer Übersetzung der dort beschriebenen Gefahren im Kontext der Ersetzung menschlichen Handels (KI-Aspekt), etwa dem gerade beispielhaft diskutierten Konzept der Erklärbarkeit, in die technische Dimension mathematischer Modellierung mithilfe maschineller Lernverfahren.
Auf den Punkt gebracht: Will man den Menschen z.B. vor unfairen Kreditentscheidungen eines KI-Systems schützen, ist nicht die Tatsache entscheidend, dass die Bewertung der Kreditwürdigkeit sich als Intelligenzleistung qualifiziert, sondern welche objektiv messbare statistischen Verzerrungen das verwendete System möglicherweise besitzt. Man könnte allenfalls einwenden, dass auch das menschliche Bauchgefühl Fehler macht und dass die Akzeptanz für menschliche Fehler höher liegen sollte als für maschinelle Fehler. Die objektive Bewertung von KI-Systemen sollte das aber nicht beeinflussen.
Künstliche Intelligenz und Modellrisiken
In dieser Betrachtungsweise wird der Zusammenhang zu den klassischen Modellrisiken erkennbar – und auch der Grund, warum dieser nicht erkannt wird: KI wird schlicht nicht unter dem Aspekt Ihrer technischen Realisierung, sondern unter dem Aspekt ihrer Anwendungsfälle und ihrer gesellschaftlichen Auswirkungen wahrgenommen und problematisiert. Modellierbarkeit wird als gegeben angenommen, Modellrisiken werden weit weniger thematisiert als die diffuse Angst vor der „Kontrollübernahme“ durch denkende Maschinen. „This time is different“, muss man unbewusst denken. Aber ist diesmal wirklich alles anders? Wie würde wohl die öffentliche Meinung zu KI aussehen, wenn sich herumspräche, dass darin oft nichts wesentlich anderes (wenn auch technologisch höher entwickelt) steckt als die Modelle, deren falsche Verwendung 2008 zum Zusammenbruch des Finanzsystems beitrug?
„This time is not different“
Das ist provokant formuliert, und man wird zugeben müssen, dass man in mindestens einem Punkt heute wesentlich weiter ist: Die Notwendigkeit ausreichend großer Beobachtungsdatensätze ist allgemein bekannt. Doch die Problematik von Ausreißern oder Extremsituationen abseits der Normalverteilung wird immer noch selten in den Blick genommen. Bei der Nutzung von Maschinellem Lernen etwa für automatische Übersetzungen, deren Unzulänglichkeiten beim Korrekturlesen leicht korrigiert werden können, ist das unkritisch. Geht es aber um das Wohlergehen der Anwender oder Nutzer, sieht das anders aus. Und hier muss es naturgemäß genau auch um die möglicherweise wenigen Fälle gehen, in denen die Anwendung Fehler macht, die für den Einzelnen oder auch mehrere verehrende Auswirkungen haben können – ganz ähnlich wie im Risikomanagement.
Diese Herausforderung besteht prinzipiell auch bei komplett regelbasierten oder menschlichen Entscheidungen. Allerdings wird sie hier implizit akzeptiert. Bei statistischen KI-Verfahren ist explizit, dass diese Fehler machen müssen – und dies ganz unabhängig davon, ob sie „transparent“, „erklärbar“, „interpretierbar“ oder von der gefürchteten „Black-Box-Sorte“ sind. Die Problematik, dass jedes statistische Verfahren in dem Maße, in dem es nicht-kausal ist, im Einzelfall Fehler machen wird, ist davon nicht berührt. Selbst in dem Fall, dass das Verfahren eine hohe Vorhersagegüte aufweist, ist nicht auszuschließen, dass es bei bestimmten Gruppen besonders ungenau ist. Will man den „Richtlinien für Vertrauenswürdige KI“ gerecht werden, so führt in kritischen Kontexten kein Weg daran vorbei, das Aufstellen maschinell gelernter Modelle in zwei Richtungen zu erweitern. Erstens muss eine echte kausale Modellierung angestrebt werden. Dies wird, nach den derzeit verfolgten Ansätzen, automatisch eine gewisse Robustheit gegenüber sich ändernden Rahmenbedingungen sicherstellen. Zweitens sollte die Unsicherheit der Prognosen explizit in die Entscheidungsfindung mit einbezogen werden, wie dies im klassischen Risikomanagement geschieht, nicht erst seit 2008.
Dass die Problematik der „Erklärbarkeit“ heute schon im Fokus steht, ist sehr zu begrüßen, wenn sie, wie erläutert, mit dem Ideal der kausalen Modellierung identifiziert wird und klar ist, dass dies heute noch nicht erreicht werden kann und Ansätze wie „Interpretierbarkeit“ als temporärer Ersatz dienen müssen. Ein weiteres Beispiel für die Wichtigkeit eines tiefen Verständnisses für die Funktion eines KI-Systems sei noch erwähnt: Ihre Angreifbarkeit wächst in dem Maße, in dem ihr Verhalten nicht kausal ist. Bekannt sind die sogenannten Ein-Pixel-Attacken auf Bilderkennungssysteme z.B. im Kontext des autonomen Fahrens. Es ist offensichtlich, dass ein KI-System, dass sich von minimalen, für Menschen unbeobachtbaren Veränderungen in den Eingangsdaten verwirren lässt, ein „Erklärbarkeits-“ bzw. in unserer Terminologie ein Kausalitätsproblem hat. Derartige Schwachstellen sollten bei vollkommen kausalen Modellen naturgemäß nicht mehr auftreten. Dies ist ein neuer Aspekt gegenüber dem klassischen Risikomanagement, der die Statistik ein Stück weit aushebelt, weil die kriminelle natürliche Intelligenz dem dummen Zufall nachhilft.
KI im Risikomanagement der Banken
Man muss klar aussprechen, dass wir von einer kausalen Modellierung trotz aller Anstrengungen der letzten zehn Jahre noch ein gutes Stück weit entfernt sind. Lässt man ökonomische Interessen außen vor, legt diese nüchterne Erkenntnis nahe, auf den Einsatz von aus Daten maschinell gelernten Modellen in extrem kritischen Bereichen sogar zu verzichten, sofern eine Kausalität hier notwendige Voraussetzung für eine Entscheidung ist. Es ist aber problemlos möglich, die im Management finanzieller Risiken bewährten Grundsätze anzuwenden:
- Nutze nur die Instrumente, die Du verstehst. Mit anderen Worten: Die Anwendung von KI, wie die komplexer Derivate, muss von professionellen, originär mathematisch oder statistisch ausgebildeten Modellspezialisten in Zusammenarbeit mit anderen Fachleuten gesteuert werden.
- Lege nicht alle Eier in einen Korb und vergleiche die Meinungen unterschiedlicher Modelle. Dies wird von vielen Anwendungen bereits getan, allerdings mit dem Fokus auf den maximal erwarteten Nutzen, nicht mit dem Fokus auf eine Begrenzung des maximal möglichen Schadens für eine akzeptierbare Eintrittswahrscheinlichkeit („Harm-at-Risk“). Für ersteres ist nur wichtig, ob sich die Modellprognosen im Mittel unterscheiden (eher seltener), für letzteres spielt auch eine Rolle, ob sich die Modellprognosen im Einzelfall unterscheiden (eher häufiger).
- Schaue auf Dein Gesamtportfolio aus KI-Anwendungen und beachte, dass sich Fehler nichtlinear überlagern können. Auch hierbei gilt es, die Gesamtverteilung von möglichen Kosten von Fehlentscheidungen zu betrachten und eine Obergrenze festzulegen, anstatt nur auf maximalen durchschnittlichen Vorteil hin zu optimieren.
- Analysiere Risiken basierend auf Materialität und Vernetzungsgrad des Systems, konzentriere Dich auf die kritischen, komplexen Anwendungen.
Die Reihe ließe sich fortsetzen.
Der Triumphzug der modernen Datenanalyse wird umso nachhaltiger sein, je mehr wir es verstehen, die Erfahrungen nicht nur von 2008 nutzbar zu machen. Die kritische Verwendung von klar umrissenen Begriffen ist dafür grundlegend.