Nicht nur Finanzinstitute, auch Betrüger und Cyberkriminelle nutzen Künstliche Intelligenz. Betrugserkennung wird für immer schwieriger. Der Einsatz von Generativer KI und synthetischen Daten kann Banken und Sparkassen hier wirkungsvoll unterstützen.
Haben Sie schon einmal eine gefälschte Nachricht erhalten, die versucht, an Ihre Daten zu gelangen? Phishing ist eine der häufigsten Betrugsmethoden, die mit der Verfügbarkeit von KI immer qualitativ hochwertiger wird. Banken und Sparkassen in Deutschland versuchen ihre Kunden vor solchen Fällen mit KI-gestützten Betrugserkennung zu schützen.
Eine der Herausforderungen ist die Verfügbarkeit hochqualitativer Datensätze zum Anlernen der Modelle. Betrugsfälle sind im Vergleich zu legitimen Transaktionen eher selten. Zudem handelt es sich um personenbezogene Daten, die dem Datenschutz unterliegen und nur unter Wahrung der Privatsphäre verwendet werden können.
Generative KI optimiert maschinelle Betrugserkennung
Was wäre, wenn uns generative KI helfen könnte, schwer zugängliche Daten bereitzustellen, um die maschinelle Betrugserkennung zu optimieren? Mithilfe der synthetischen Datengenerierung (SDG) lassen sich Daten bereitstellen, die die Eigenschaften realer Daten nachahmen, ohne jedoch personenbezogene Informationen preiszugeben. Dies ermöglicht es Finanzinstituten, ihre Modelle zu trainieren, ohne den Datenschutz zu verletzen.
Generative KI Modelle, insbesondere große Sprachmodelle (LLMs), sind für SDG prädestiniert. Durch die Kombination von generierten Texten und tabellarischen Daten bietet die LLM-gestützte Datengenerierung eine skalierbare Versorgung mit essenziellen Daten. Gartner schätzt, dass bis 2030 synthetische Daten echte Daten in KI-Modellen völlig in den Schatten stellen werden.
Wells Fargo, eine führende Bank aus den USA, arbeitet mit Forschern des MIT-IBM Watson AI Labs zusammen, um realistische, synthetische Testdaten automatisch zu erzeugen. Auch in Deutschland bauen laut einer jüngsten Studie aus 2023 über 80 Prozent der Unternehmen in der Finanzbranche bereits auf generative KI. Die Zukunft der Betrugserkennung könnte durch die intelligente Nutzung synthetischer Daten revolutioniert werden.
Drei Anforderungen für Vertrauenswürdige, Synthetischen Daten
Die zentrale Fragestellung ist, ob synthetisch genierten Daten getraut werden kann? Wir beleuchten dazu drei Anforderungen:
- Qualität,
- Datenschutz und
- Bereitstellung.
Qualität synthetischer Daten
Die Qualität synthetischer Daten ist entscheidend für ihren erfolgreichen Einsatz in der Betrugserkennung. Sie kann in zwei Hauptkategorien unterteilt werden:
- Spaltenqualität und
- Zeilenqualität.
Die Spaltenqualität bezieht sich auf die Verteilungen und Korrelationen innerhalb der einzelnen Spalten. Metriken wie der Histogram Similarity Score und der Correlation Score geben Einblick in die Spaltenqualität.
Die Zeilenqualität betrachtet die Konsistenz und Logik der einzelnen Datensätze. Wenn ein Datensatz angibt, dass eine Person in Berlin lebt, sollte die Postleitzahl auch logisch korrekt sein (z.B. 10557).
Sicherstellen des Datenschutzes
Um den Datenschutz sicherzustellen, können verschiedene Maßnahmen ergriffen werden. Eine grundlegende Maßnahme ist die Pseudonymisierung, bei der Kundennamen durch Pseudonyme ersetzt werden. Eine weiterführende Methode ist die Anonymisierung, bei der personenbezogene Daten so verändert werden, dass sie nicht mehr auf einzelne Individuen zurückgeführt werden können.
Mit steigendem Datenschutz geht jedoch oft fallende Qualität einher. Eine Methode, die diesen Konflikt adressiert, ist die Differential Privacy. Diese Technik fügt gezielt Rauschen zu den Daten hinzu, um die Privatsphäre zu wahren, ohne die Nützlichkeit der Daten für Analysezwecke übermäßig zu beeinträchtigen.
Bereitstellung synthetischer Daten
Die Bereitstellung synthetischer Daten entscheidet oft über die Effizienz und Sicherheit von Datenprojekten. Unternehmen müssen sorgfältig abwägen, ob sie ihre Daten on-premises oder in der Cloud bereitstellen, und ob sie zentralisierte oder dezentralisierte Ansätze wählen.
On-premises-Bereitstellungen bieten eine hohe Kontrolle über die Daten und die Infrastruktur, können aber teurer und weniger skalierbar sein als Cloud-Lösungen.
Herausforderungen bei der Generierung Synthetischer Daten
Die Integration synthetischer Daten birgt auch Herausforderungen. So können etwa seltene und unvorhersehbare Ereignisse wie „Black Swan“-Marktereignisse schwer repliziert werden, was erhebliche Auswirkungen auf Finanzmodelle haben kann. Eine Lösung besteht darin, synthetische Daten mit realen Daten zu kombinieren, um ein umfassenderes Trainingsset zu schaffen und die Robustheit der Modelle zu gewährleisten.
Im Zusammenhang mit der Nutzung von generativer KI zur Erstellung synthetischer Daten ist es wichtig, mögliche Urheberrechtsverletzungen zu berücksichtigen. Absicherungs-Klauseln (Indemnification) von Anbietern von LLMs können hierbei helfen, indem sie Banken und Finanzinstitute vor möglichen rechtlichen Konsequenzen schützen, die aus der Nutzung von generativer KI entstehen könnten.
Banken und Finanzinstitute müssen sicherstellen, dass ihre KI-Systeme den strengen Qualitätskriterien des EU AI Act entsprechen, insbesondere bei der Nutzung synthetischer Daten zur Betrugsprävention (Artikel 10 des EU AI Acts: Data and Data Governance). Dies erfordert die Implementierung angemessener Data-Governance und Managementpraktiken sowie die Anwendung angemessener Schutzmaßnahmen für personenbezogene Daten.
Nutzung synthetischer Daten unterstützt Betrugserkennung im Finanzsektor
Zusammengefasst bietet die Nutzung synthetischer Daten eine vielversprechende Lösung für die Herausforderungen der Betrugserkennung im Finanzsektor. Sie ermöglicht es Finanzinstituten, ihre Modelle zu trainieren, ohne den Datenschutz zu verletzen, und trägt gleichzeitig zur Verbesserung der Betrugserkennungssysteme bei.
Können synthetischen Daten nun in der Praxis vertraut werden? Unter Berücksichtigung von Qualität, Datenschutz und Bereitstellung: Ja! Die Zukunft der Betrugserkennung liegt in der intelligenten Nutzung synthetischer Daten.