Europas Banken befinden sich in einem Dilemma: Die Nutzung von Daten ist von fundamentaler Bedeutung für die erfolgreiche digitale Transformation. Zugleich stellt der Datenschutz eine hohe Hürde dar. Synthetische Daten können hier ein Ausweg sein.
Die zentrale Rolle bei der digitalen Transformation der Finanzindustrie spielen Daten und der Umgang mit ihnen. Sie sind die Voraussetzung dafür, dass Banken ihre Angebote vom Kunden ausgehend denken und mit neuen, innovativen Produkten und Services auf das herausfordernde Marktumfeld reagieren können. Denn nur wenn ich als Finanzinstitut die mir zur Verfügung stehenden Daten richtig nutze, kann ich auch die Bedürfnisse meiner Kunden verstehen.
Zwar verfügen viele Banken über die notwendigen Daten – doch die Nutzung gestaltet sich oftmals schwierig. Der Datenschutz stellt eine erhebliche Hürde dar. Die hiesigen Finanzinstitute sind an die regulatorischen und rechtlichen Rahmenbedingungen in Europa allgemein und in Deutschland speziell gebunden. Der Gesetzgeber und die Aufsichtsbehörden ziehen klare Grenzen für die datengetriebenen Geschäftsmodelle in der Finanzindustrie. Es gibt allerdings Wege, sich innerhalb dieser Grenzen zu bewegen und dennoch datengetrieben zu arbeiten. Einer dieser Wege ist die Erzeugung und Nutzung synthetischer Daten.
Das Thema Daten nicht den Herausforderern überlassen
Der Bedarf ist groß. Denn neben der Regulatorik steht auch die fehlende Agilität und Zusammenarbeit der besseren Nutzung von Daten durch alle Unternehmensbereiche hinweg oftmals im Weg. Oder es fehlen die Voraussetzungen, damit sich Daten über unterschiedliche Unternehmensbereiche hinweg überhaupt nutzen lassen – ohne dass dabei komplizierte Compliance-Prozesse und -Regeln zum Datenschutz zum Einsatz kommen. Die im Mai 2018 in Kraft getretene Datenschutz-Grundverordnung (DSGVO) hat die Situation nochmals verschärft. Ein besonders prominenter Fall aus dem Finanzsektor war dabei mit N26 ausgerechnet eine Challenger-Bank. Die Berliner Datenschutzbeauftragte hatte im vergangenen Jahr eine Strafe in Höhe von 50.000 gegen die Onlinebank verhängt – und die Art und Weise der Bearbeitung personenbezogener Daten beanstandet.
Doch branchenfremde Akteure, die zunehmend aufs Spielfeld drängen, sind den etablierten Banken beim Thema Datennutzung eben voraus – sie verfolgen datengetriebene, spitze Geschäftsmodelle, mit denen sie ihre Leistungen vom Kunden her denken und für ihn maßgeschneiderte Lösungen anbieten. Damit die Banken es ihnen gleichtun und neue Produkte und flexible Lösungen bauen können, sind sie auf Technologien wie Künstliche Intelligenz angewiesen. Doch diese Technologien benötigen ihrerseits Trainingsdaten – und davon viele. Nur so lässt sich sicherstellen, dass die jeweiligen Methoden bei ihrem Einsatz auch verlässliche Ergebnisse liefern. Grundsätzlich gilt: Je mehr Trainingsdaten einer KI-Lösung zur Verfügung stehen, desto präziser sind ihre späteren Ergebnisse. Künstliche Intelligenz muss also erst einmal jede Menge Daten pauken.
Warum Verrauschung und Vergröberung wenig helfen
Der Finanzindustrie blieb bislang die Möglichkeit, personenbezogene Daten beispielsweise zu verrauschen – das heißt, Originalwerte durch Zufallswerte in einem definierten Rahmen zu verändern – oder Einzelwerte durch Vergröberung in Kategorien zu überführen. Nur führen solche Verfahren dazu, dass die Datenqualität leidet – und die Daten im schlimmsten Falle überhaupt nicht brauchbar sind.
Anders sieht es im Falle von synthetischen Daten aus. Ein datenschutzkonformer synthetischer Datensatz weist keine Verbindung mehr zu einem Satz mit natürlichen Ursprungsdaten auf. Die beschriebenen rechtlichen Hürden und Fallstricke existieren damit für ihn nicht, da er keine Re-Identifikation von Personen zulässt. Diese synthetischen Datensätze lassen sich also auch leicht intern mit anderen Abteilungen oder extern mit Partnern teilen, im Kontext von Cloud-Computing einsetzen und für die Entwicklung neuer Produkte nutzen.
Wie die Synthetisierung von Daten funktioniert
Bei der Synthetisierung von Daten werden zunächst die Eigenschaften eines bereits vorhandenen Datensatzes betrachtet. Auf dieser Grundlage wird ein Modell entwickelt, das die Eigenschaften bestmöglich beschreibt. In der Forschung wird bereits seit längerer Zeit in dieser Weise mit synthetischen Daten gearbeitet. So nutzt unter anderem auch das Institut für Arbeitsmarkt- und Berufsforschung (IAB) synthetische Datensätze für das IAB-Betriebspanel, eine repräsentative Arbeitgeberbefragung zu betrieblichen Bestimmungsgrößen der Beschäftigung. Die Idee dazu geht auf Donald Rubin zurück, der das Verfahren in seinen Grundzügen bereits Ende der 80er Jahre in einem Aufsatz beschrieb.
Rubin ging dafür von einem Sampling Frame X aus, aus dem eine Stichprobe gezogen wird. Für die Stichprobe sind dann bestimmte personenbezogene Daten bekannt – weil sie beispielsweise extra erfragt worden sind. Für jenen Teil, der sich nicht in der Stichprobe befindet, sollen die fehlenden Daten über Schätzungen ermittelt werden. Welches Verfahren dabei konkret zum Einsatz kommt, hängt letztlich von der Art der Daten ab. Das Ergebnis sind Datensätze, die strukturell und statistisch zwar den Originaldaten entsprechen, jedoch keinen inhaltlichen Bezug haben.
Automatisierte Synthetisierung für die Transformation
Bei Synthetisierung von Daten werden somit Eigenschaften von Daten ermittelt, um mit diesem Wissen neue Daten zu erzeugen. In der Forschung ist damit oftmals ein sehr aufwändiger Prozess verbunden. Doch die notwendigen Prozesse lassen sich auch automatisieren. Der Einsatz von Machine Learning wiederum hilft dabei, die relevanten Eigenschaften eines Datensatzes zu verstehen und optimale Modelle für die Erzeugung synthetischer Daten zu konstruieren. Dies ermöglicht dann auch Finanzinstituten den Einsatz von synthetischen Daten, da sie diese als Software-Lösung in ihren bestehenden Systemen zum Einsatz bringen können.
Häufig gestellte Fragen zum Einsatz
In einigen bereits durchgeführten Webinaren mit Ben Nolan von Statice und Co-Autor dieses Beitrags stellten Nutzer vier Fragen besonders häufig. Eine davon betrifft die Dauer der Herstellung synthetischer Daten aus einer Million Kundendatensätzen. Hierzu lässt sich sagen, dass dies immer von der Anzahl der Informationen bzw. Attribute zu jedem Kunden abhängt, die eine Bank in dem Datensatz erfasst – plus der Komplexität der gegenseitigen Abhängigkeiten dieser einzelnen Attribute. Dazu kommt die eingesetzte Rechenpower. Spezialsoftware wie die von Statice eignet sich beispielsweise für den Parallelbetrieb mehrerer Rechner.
Eine andere Frage betrifft den Datenschutz. Nutzer fragen immer wieder, welche Tests nötig sind, regelkonforme Datensätze zu produzieren. Zunächst: Die Verarbeitung synthetischer Daten erfordert nicht die gleiche Rechtsgrundlage wie die Originaldaten. Gute Lösungsanbieter bieten den CISOs allerdings in der Regel Möglichkeiten zur Bewertung des Datenschutzes der generierten Daten an, und sie bieten die Möglichkeit, Datenangriffe auf die erzeugten Daten zu simulieren, um auch beim Thema Sicherheit alle Anforderungen zu erfüllen.
Häufig interessieren sich Teilnehmer dafür, wie man sicherstellt, dass synthetische Daten und Originaldaten zumindest statistisch die gleichen Eigenschaften besitzen. Stark vereinfacht lässt sich das so erklären: Jeder Originaldatensatz kann als Ausprägung in einer zugrundliegenden Wahrscheinlichkeitsverteilung gesehen werden. Mithilfe von Deep-Learning-Algorithmen lässt sich diese Wahrscheinlichkeitsverteilung, welcher der Originaldatensatz entspringt, modellieren. Auf dieser Basis können nun synthetische Daten generiert werden, welche die statistischen Eigenschaften der Originaldaten bewahren.
Die vierte häufige Frage nach den Fallstricken lässt sich so beantworten: Es gibt verschiedene Ansätze und Modelle, um synthetische Daten herzustellen. Welche sich eignen, hängt immer von der Art der Informationen ab und somit von den Datentypen, welche verarbeitet werden sollen. Darüber hinaus ist eine möglichst große Datenmenge entscheidend, um keine Rückschlüsse auf Originaldaten zu ermöglichen und zudem ein Abbild der statistischen Eigenschaften von Realdaten zu erreichen.
Fazit: Chancen durch synthetische Daten
Der Einsatz synthetischer Daten bietet Banken eine gute Chance, mehr Erkenntnisse über Bedürfnisse, Lebenssituationen oder sich andeutende Veränderungen im Verhalten von Kunden zu gewinnen und sich darauf mit ihren Leistungen, Prozessen, Partnern und Mitarbeitern einzustellen. Die Finanzinstitute könnten somit sehr wohl von ihrem reichhaltigen Schatz an Kundendaten profitieren – und das vollkommen datenschutzkonform.
Ben Nolan ist Koautor des Beitrags und Head of Business Development von Statice, einer Software, die personenbezogene Daten durch die Erzeugung datenschutzkonformer synthetischer Daten nutzbar macht.. Er hat Betriebswirtschaft und Verhaltenswissenschaften studiert und verfügt über langjährige Erfahrungen im Bereich Datenanalyse.