Der Einsatz von Natural Language Processing bietet enorme Potenziale, um textbasierte Kontrollen deutlich zu optimieren. Durch Automatisierung und Standardisierung von Prüfprozessen können Effizienz, Genauigkeit und die Einhaltung erheblich gesteigert werden.
Spätestens mit DORA wird das 3-Lines-of-Defense-Modell, das schon längere Zeit implizit durch die Aufsicht gefordert wird, auch explizit in den regulatorischen Vorgaben verankert. Der zweiten Verteidigungslinie obliegen in diesem Kontext insbesondere die folgenden drei Aufgaben:
- Die Erstellung von Vorgaben,
- die Kontrolle der Einhaltung dieser Vorgaben und
- die Beratung der ersten Verteidigungslinie bei deren Umsetzung.
Gerade im Bereich Nonfinancial Risk wurden in letzter Zeit in Finanzinstituten neue Strukturen geschaffen, um diese Aufgaben systematisch anzugehen. Typische Funktionen sind hier Compliance, Geldwäsche, Datenschutz, IT-Security, Notfallmanagement, Auslagerungsmanagement oder eine zentrale IKS-Funktion.
Hat man auf der Vorgabenseite einen stabilen Status erreicht, rücken Kontrollen und Beratung in den Vordergrund, wobei die Aufsicht insbesondere auf die Wirksamkeit der Kontrollen achtet. Vor diesem Hintergrund ist ein effizientes und effektives Kontrollframework aus wirtschaftlicher, ökonomischer und Sicherheitsperspektive von hoher Bedeutung.
Typische 2nd-Line Kontrollen sind heterogen
Idealerweise sollten diese Kontrollen standardisiert und automatisiert werden. In der Praxis handelt es sich bei den Kontrollen allerdings leider oft um
- eine Vielzahl von heterogenen, prozessunabhängige Kontrollen mit relativ kleiner Stückzahl,
- deren Datengrundlage Text ist und
- deren Datengrundlage in verschiedenen Systemen oder Verzeichnissen liegt und nicht einheitlich strukturiert ist.
Ein paar Beispiele und ein Lösungsansatz für die oben genannten Herausforderungen sind in folgender Abbildung zu sehen:
Zentral ist zunächst ein gutes Verständnis der jeweiligen Kontrollen und der zugrundeliegenden Daten. Eine sehr gute Möglichkeit, das zu erreichen, ist die Implementierung eines Data Analytics-Team in der 2nd-Line. Hat man das Data Analytics-Team, so ist der erste Schritt, der die dritte oben genannte Herausforderung adressiert, das „Data Wrangling“. D.h. das Zusammensuchen der Daten und die einheitliche Formatierung. Das kann z.B. das Auslesen von pdf- oder html-Seiten sein und die Umformatierung in eine Textdatei mit standardisierter Formatierung von Absätzen und Sonderzeichen. In der Praxis ist dieser Prozess oft aufwendig und mühsam, kann aber bei einer guten Data Governance und Verwendung einer einheitlichen Plattform deutlich erleichtert werden. Je einheitlicher die Daten gespeichert sind, je besser die Datenqualität und die Berechtigungsstrukturen, desto einfacher gestaltet sich das Data Wrangling. Typischerweise wird ein Großteil (rund drei Viertel) der Zeit für diesen Prozess verwendet.
Zwei Arten von Natural Language Processing-Methoden
Danach stehen einem verschiedene Natural Language Processing-Methoden (NLP) offen. Diese sind z. B. in Python so gut implementiert, dass die eigentliche Auswertung – bei vorhandenen Daten in guter Form – relativ schnell durchgeführt werden kann. Bei der Auswertung kann man grob zwischen zwei Arten unterscheiden:
- (Vor-)Trainierte Modelle („indeterministisch“) wie z.B. LLM
- Deterministische NLP-Methoden
(Vor-)Trainierte Modelle vs. deterministische NLP-Methoden
Trainierte Modelle sind z.B. einfache Wortrepräsentationen wie Word2Vec, statistische Klassifikationsverfahren wie die Latent Dirichlet Allocation (LDA), in der aktuellen Praxis aber vor allem Large Language Models wie GPT, Gemini oder Llama. Bei diesen Modellen wird, vereinfacht gesprochen, von den Entwicklern nur die Grundstruktur vorgegeben, danach wird das Modell auf Basis großer Textmengen trainiert. Solche Modelle enthalten typischerweise eine gewisse Zufallskomponente (Temperatur), sodass die Ergebnisse nicht 1:1 reproduzierbar sind. Auch wenn diese ausgeschaltet wird, ist es möglich, dass formal verschiedene, aber inhaltsgleiche Eingaben zu deutlichen unterschiedlichen Ergebnissen führen.
Diese Methoden sind äußerst leistungsfähig, haben jedoch Schwächen in Bezug auf die Erklärbarkeit der Ergebnisse. Die BaFin stellt in ihrer Leitlinie: „Big Data und künstliche Intelligenz: Prinzipien für den Einsatz von Algorithmen in Entscheidungsprozessen“ die folgenden Bedingungen hierzu auf:
- „Korrekte, robuste und reproduzierbare Ergebnisse sicherstellen“
- „Angemessene Validierungsprozesse“
- „Putting the human in the loop“
In diesem hochregulierten Umfeld erscheint der Aufwand für eine notwendige Validierung des Verfahrens, gerade bei geringen Stückzahlen der Kontrollen, extrem hoch. Vor diesem Hintergrund erscheinen solche Verfahren in dem Kontext vor allem für eine risikoorientierte Auswahl einer Stichprobe interessant, da hierdurch weiterhin der Mensch die zentrale Entscheidungsstelle der Kontrolle ist. Außerdem muss eine Stichprobe nicht notwendigerweise reproduzierbare Ergebnisse sicherstellen, da Zufallsstichproben das offensichtlich auch nicht tun.
Eine Möglichkeit besteht auch darin, die Stichprobe in einen risikoorientierten und einen zufallsbasierten Teil zu unterteilen. Hierdurch erhält man erste Erkenntnisse, die man für die Validierung verwenden kann, schon im Rahmen der eigentlichen Kontrolle. Anbei eine beispielhafte Darstellung.
Deterministische NLP-Methoden
Deterministische NLP sind dagegen spezifischer und müssen für jeden Anwendungsfall individuell programmiert werden. Sowohl für die Programmierung als auch für die Datenaufbereitung, die in diesem Fall noch akribischer sein muss, sind hohe Aufwände erforderlich. Aber die Ergebnisse sind dann eindeutig erklärbar und gut auch für Vollprüfungen verwendbar. Anbei noch ein paar Vor- und Nachteile der jeweiligen Methode mit einigen Anwendungsbeispielen für deterministische NLP:
Ein Beispiel für eine LLM-Verwendung
In einem Beispielcase haben wir getestet, wie einfach man ein LLM als Qualitätskontrolle von Texten verwenden kann. Hierzu wurden gute Wikipedia-Artikel verwendet, die unter kaggle bereitgestellt wurden. Gut heißt ein Wikipedia-Artikel „that meets a core set of editorial standards, the good article criteria, passing through the good article nomination process successfully.“ Es wurde ein gpt-3.5 turbo-Modell von OpenAI verwendet, um die Qualität der Artikel zu bewerten. Im Prompt wurden spezifisch die „good article criteria“ als Input gegeben. Weiterhin wurden im Prompting explizit Begründungen vom Modell verlangt.
Als Ergebnis lässt sich festhalten:
- Die Ergebnisse streuen bei mehrmaligem Durchlauf deutlich. Die Variabilität wird allerdings durch Reduktion der Temperatur geringer
- Die Begründungen sind nicht immer nachvollziehbar
- Je homogener die Dokumente sind und je spezifischer der Prompt/ die Kriterien dort, desto besser sind die Ergebnisse
Insgesamt zeigt sich, dass die Ergebnisse einer so allgemeinen Aufgabe auch abgesehen von Validierungsanforderungen noch mit Vorsicht zu betrachten sind. Dennoch können schon sinnvolle Ergebnisse erzeugt werden und eine frühzeitige Beschäftigung mit diesem Thema ist in jedem Fall sinnvoll.
NLP bietet Potentiale und Chancen
Die Potenziale durch NLP sind vielseitig und bieten bedeutende Chancen zur Verbesserung von 2nd-Line-Kontrollen. Während LLMs wie GPT für spezifische Anwendungen hilfreich sein können, sind sie aufgrund ihrer Zufallskomponente und der geringeren Erklärbarkeit in hochregulierten Umfeldern nur eingeschränkt anwendbar. Unabhängig von der genauen Methode sind eine leistungsfähige Plattform und hohe Datenqualität entscheidend für den Erfolg. Die Effizienz und Effektivität der Kontrollen sollte zudem laufend über ein übergreifende Reporting gesteuert werden, in dem auch die Datenqualität thematisiert werden sollte.
Mit dem gezielten Einsatz von NLP können Banken ihre Kontrollprozesse nicht nur effizienter gestalten, sondern auch proaktiv auf regulatorische Anforderungen und sich wandelnde Risiken reagieren – ein entscheidender Schritt in Richtung Zukunftssicherheit.
Patrick Günther-Schmidt ist Koautor des Beitrags. Er ist Senior Referent für Data Governance & Data Analytics bei der L-Bank. Zuvor war er u.a. Analyse im Bereich Zahlungsverkehr und Treasury bei EnBW.