So „sprachfähig“ sind Bots in Deutschland

Bank-Beratung mit Künstlicher Intelligenz

Abonnieren Sie den kostenlosen Bank Blog Newsletter

Verstehen, Interpretieren und Nutzen von natürlicher Sprache sind wichtige Teile Künstlicher Intelligenz. Doch sprachgesteuerte Robo Advisor und Service Bots sind bei deutschen Banken und Sparkassen eine Seltenheit. Das hat verschiedene Gründe.

Banking per Sprachbot

Künstliche Intelligenz ermöglicht einfaches Banking per Sprachbot.

Partner des Bank Blogs

Deloitte ist Partner des Bank Blogs

Eine Kerndisziplin künstlicher Intelligenz ist das Übersetzen und Nachahmen menschlicher Denkprozesse. Dabei spielt das Verstehen und Interpretieren von Sprache eine wesentliche Rolle. Seit der Einführung von Apples Smartphone-Stimme Siri 2011 ist die sprachgesteuerte Interaktion mit dem Handy zur Normalität geworden. Dialoge mit der Stimme auf dem Smartphone beschränken sich allerdings meist auf den gelegentlichen Wettercheck und die spontane Klärung einer Begriffsdefinition. Viele Schnittstellenfunktionen, die bereits heute über das Handy verfügbar sind, werden dagegen kaum genutzt.

Dabei gäbe es auch bei der Kommunikation mit der Hausbank oder dem Anlageberater zahlreiche Prozesse des täglichen Lebens, die sich mit dem Einsatz von Sprache sehr viel schneller und effizienter erledigen ließen. Offensichtlich herrscht noch immer eine gewisse Grundskepsis gegenüber der Technologie. Sie lässt die meisten Nutzer davor zurückschrecken, sich sprachgesteuert von einer Stimme im Handy in Finanzfragen beraten zu lassen.

Das Misstrauen in die Technik

Eine der größten Sorgen der Nutzer ist, dass die Maschine etwas falsch verstehen könnte. Sie könnte beispielsweise mehr Geld überweisen als gewünscht, oder die Technik geht Verträge ein und vereinbart von sich aus Termine, ohne dass der Kunde das explizit verlangt.

Diese Ängste stammen vor allem aus Erfahrungen im Umgang mit den sogenannten Smart-Home-Assistenten. Die auf Smalltalk getrimmten Bots versuchen, auf möglichst viele Fragen eine Antwort zu finden. Die Folge: Sie liegen häufiger mal daneben. Als jemand der sich tagtäglich mit der Entwicklung von Sprachassistenten beschäftigt, kann ich versichern: Professionelle Beratungs-Bots für Banken funktionieren nicht nach demselben Verfahren wie die weitläufig bekannten Smart-Home-Assistenten à la Alexa, Siri und Cortana. Während ein herkömmlicher digitaler Assistent versucht, zwischen tausenden Themen zu jonglieren und möglichst selten den Satz „Wie bitte?“ verlauten lassen soll, geht das sprachgesteuerte Pendent in einer Banking App weit über die reine Themenerkennung hinaus.

Für den Prozess „Überweisung tätigen“ oder „Karte sperren“ wird neben der Themenerkennung, die das Vorhaben identifiziert, eine Reihe obligatorischer Parameter abgefragt. Ohne die Informationen, was gesperrt werden soll, z.B. eine Girokarte, und zu welchem Zeitpunkt, z.B. sofort, wird keine Sperrung einer Karte ausgelöst.

Dazu kommen generelle Sicherheitsbedenken, wie sie bei IT-gestützten Abläufen immer auftreten. Je vernetzter die Welt wird, desto größer ist auch die Befürchtung, dass Daten ungewollt an Dritte gelangen. Kunden, die sich um Hacking-Angriffe und Datensicherheit sorgen, lässt sich versichern, dass Sprache lokal, das heißt auf dem Endgerät des Nutzers, transkribiert werden kann. Die Stimme gelangt also nicht als Audio-Datei in die Cloud. Es ist sogar möglich, die eigene Sprache als biometrischen Schlüssel zu verwenden, sodass der Service in den Händen einer fremd klingenden Person gänzlich unbrauchbar ist.

Interne Automatisierung als Eisbrecher

Banken haben somit bei Kunden noch ein Stück Überzeugungsarbeit vor sich. Das bedeutet nicht, dass die Technologie so lange brachliegt. Die technologischen Rahmenbedingungen haben sich in den letzten zwei Jahren insbesondere im deutschsprachigen Raum massiv verbessert. Heute können sehr viel mehr Schnittstellen bedenkenlos sprachgesteuert verwendet werden. Das kann nicht nur in Privathaushalten, sondern auch bei unternehmensinternen Prozessen zu großen Effizienzsteigerungen führen. In erster Linie sind dabei Prozesse betroffen, die klassischerweise über das Telefon bedient werden.

Praktische Anwendungsfälle gibt es reichlich: In Banken kommt es zuhauf vor, dass ein vergessenes Passwort zurückgesetzt werden muss, die Tastatur am Arbeitsplatz nicht mehr funktioniert, eine Software freigeschaltet werden muss oder der Status eines IT-Support-Tickets erfragt wird. Personalabteilungen erhalten zudem immer wieder die Frage, wie viele Urlaubstage im aktuellen Jahr noch zur Verfügung stehen.

Problemstellungen wie diese fallen in deutschen Finanzinstituten tausendfach an und werden meist an externe Callcenter oder interne First-Level IT-Support Center weitergeleitet. Bis zu 90 Prozent der eingehenden Anfragen fallen dabei täglich wiederholt an und werden durch simple Prozesse gelöst, die problemlos automatisiert werden können. Der Mitarbeiter muss dafür nicht einmal seine Gewohnheiten umstellen, da die Probleme zukünftig mit einem Anruf unter derselben Telefonnummer bearbeitet werden können – nur, dass dann ein Bot auf Basis von Robotic Process Automation (RPA) und Künstlicher Intelligenz (KI) den Anruf entgegennimmt und bearbeitet.

Es ist zu erwarten, dass in den kommenden zwei Jahren ein Großteil der deutschen Finanzinstitute den digitalen Umschwung zu automatisierten Systemen dieser Art in Angriff nimmt. Die vollständige Etablierung von sprachgesteuerten Banking Services für den Privatkunden wird sich dem mit leichter Verzögerung anschließen.

Sorgenkind Sprachsynthese

Um das Skillset des virtuellen Bankberaters zu vervollständigen, fehlt noch eine maßgebliche Komponente: eine menschlich wirkende Sprachausgabe. Auch wenn dieser Part oft als reines Marketing-Tool und Showeffekt abgetan wird, ist die sogenannte Sprachsynthese (Text-to-Speech) ein essentieller Bestandteil vieler Anwendungen. In dem genannten Beispiel des automatisierten Helpdesks ist eine klare Aussprache unabdingbar, da sonst das neue Passwort oder der Name des gesuchten Ansprechpartners nicht verstanden wird. In längeren Prozessen kommt hinzu, dass eine sehr monoton klingende Stimme oftmals zum vorzeitigen Abbruch des Prozesses führt. Exakt dieser Punkt ist es, der uns neidisch in die USA blicken lässt, wenn namenhafte Tech-Unternehmen wie Google ihre Sprachausgaben demonstrieren, die kaum noch von einer menschlichen Stimme zu unterscheiden sind.

Für die Klassifizierung von Texten nach Thema und Sprache haben sich seit einigen Jahren Deep-Learning-Ansätze als das beste Verfahren durchgesetzt. Somit wurde nahezu jede Sprache der Welt interpretierbar gemacht. Der Prozess der Sprachausgabe ist dagegen weiterhin stark von der regelbasierten Aneinanderreihung sogenannter Phoneme geprägt. Gemeint sind in großen Datenbanken hinterlegte Laute bestimmter Buchstabenreihungen und Übergängen von Silben. Die gesammelten Informationen dieser Audiodaten und die dahinterliegende Technik der Verkettung der einzelnen Segmente, die beim Vorlesen eines Textes verwendet werden, sind wertvolle Datenschätze der Unternehmen und von außen kaum zugänglich. Der deutsche Markt versucht hier seit Jahren aufzuholen, ist allerdings noch immer weit hinter dem englischsprachigen Stand der Technik.

Banking per Bot wird sich bald etablieren

Wenn sich die Technik im aktuellen Tempo weiter verbessert, werden wir dennoch bis 2020 deutsche Sprachausgaben vorfinden, die einen ausreichenden Grad an Realismus vermitteln, um den Anforderungen jeder sprachgesteuerten Banking App zu genügen. Auch wenn Sprachsynthese oft als Kenngröße für den aktuellen Entwicklungsstand der sogenannten Conversational AI verwendet wird, ist sie bei weitem nicht der ausschlaggebende Faktor für den Erfolg. Aktuell werden Bots meist für sehr spezifische Anwendungsfälle entwickelt.

Um den aus Nutzersicht attraktivsten Kanal bereitzustellen – einen gesamtheitlichen Banking Bot, der auf allen relevanten Themengebieten sprachfähig ist – benötigt es noch deutliche Verbesserungen in der Performance der Themenerkennung und der kontinuierlichen Verschmelzung mit verschiedenen Bereichen des Natural Language Processing (NLP). Von den Erfolgen auf diesem Forschungsgebiet werden Relevanz und Akzeptanz sprachgesteuerter Systeme maßgeblich abhängen.


E-Book Auswirkungen digitaler Technologietrends auf Finanzinstitute“

Der Beitrag ist Teil einer Serie über die Auswirkungen digitaler Technologietrends auf Finanzinstitute. Abonnenten von Der Bank Blog Premium können das 37-seitige E-Book „Auswirkungen digitaler Technologietrends auf Finanzinstitute“ mit allen Beiträgen der Serie direkt herunterladen.

Sie sind bereits Abonnent? Hier geht es zum Login
 

Wenn Sie noch kein Abonnent sind können Sie das E-Book für 9,95 Euro hier einzeln kaufen.

Noch kein Premium-Leser?
Premium Abonnenten des Bank Blogs haben direkten Zugriff auf alle kostenpflichtigen Inhalte des Bank Blogs (Studienquellen, E-Books etc.) und viele weitere Vorteile.

>>> Hier anmelden <<<

Über den Autor

Robert Gatzemann

Robert Gatzmenann ist Berater im Bereich Banking bei Sopra Steria. Er ist Experte für Künstliche Intelligenz und beschäftigt sich speziell mit den Einsatzmöglichkeiten digitaler Assistenten.

Vielen Dank fürs Teilen und Weiterempfehlen


Mit dem kostenlosen Bank Blog Newsletter immer informiert bleiben:

Anzeige

Get Abstract: Zusammenfassungen interessanter Businessbücher

Kommentare sind geschlossen

Bank Blog Newsletter abonnieren

Bank Blog Newsletter abonnieren