Der Trend zu cloudbasierten digitalen Sprachassistenten scheint unaufhaltsam. Mit ihrer schnellen Verbreitung eröffnet sich auch für Banken und Sparkassen ein neuer Kommunikations- und Vertriebskanal zum Kunden. Doch die Entwicklung hat einen Haken.
Die Vorstellung von einem Computer, der über das gesprochene Wort bedient wird, war lange Zeit Science-Fiction, wie bei „Star Trek“ (Raumschiff Enterprise). Captain Kirk, Mr. Spock oder Scotty mussten Fragen einfach nur an den Computer stellen und erhielten umgehend die gewünschte Auskunft.
Heute, ein halbes Jahrhundert später, ist diese Vision Wirklichkeit geworden. Viele technische Geräte reagieren auf Sprache bereits fast ebenso zuverlässig wie auf die Eingabe über Maus, Tastatur oder Bildschirm. Und das überall, wo es einen Internetzugang gibt: im Wohnzimmer, im Auto, beim Einkaufen oder beim Joggen.
Das ist für Konsumenten ausgesprochen praktisch – nichts muss bei einem digitalen Sprachassistenten eingeschaltet, keine App geöffnet und keine Funktion darin gesucht oder angeklickt werden. Sprachsteuerung funktioniert viel einfacher. Man muss nur das Aktivierungswort aussprechen (bei Star Trek war es „Computer“, was übrigens bei Alexa auch funktioniert) und schon erfahren wir zum Beispiel, in welchem Geschäft in der Nähe wir einen von uns gesuchten Artikel finden können. Und wenn gewünscht, aktiviert sich automatisch der Bestellvorgang in einem Online-Shop.
Künstlicher Intelligenz als Grundlage sprachgesteuerter digitaler Assistenten
Tatsächlich griffen die Macher von „Star Trek“ Ende der 60er Jahre eine technologische Entwicklung auf, an der bereits ein Jahrzehnt früher geforscht wurde. Zunächst beschränkte sich die Fähigkeit zur maschinellen Spracherkennung darauf, eine einzige Stimme und ein knappes Dutzend Wörter zu identifizieren. In der Folge entwickelten IBM und das US-Verteidigungsministerium die Systeme weiter, so dass in den 80er-Jahren bereits etwa 20.000 Wörter erkannt wurden und im folgenden Jahrzehnt die erste kommerzielle Anwendung einer Spracherkennungssoftware möglich war.
Der inzwischen erreichte technologische Fortschritt der zugrundeliegenden Technologien aus dem Bereich der künstlichen Intelligenz ermöglicht heute eine effektive Spracherkennung. Diese basiert auf dem Zusammenspiel von vier Kerntechnologien:
- Automated Speech Recognition (ASR) sorgt für die Umwandlung der Spracheingabe in Textform.
- Natural Language Processing (NLP) ermöglicht die Zuordnung einer Bedeutung zu einzelnen Textfragmenten.
- Dialog Manager (DM) veranlasst die Entscheidung und Durchführung notwendiger Schritte zur Beantwortung der Anfrage.
- Text-to-Speech (TTS) übernimmt die Text- oder Sprachausgabe einer Antwort zur Anfrage.
Gleichzeitig sind leistungsstarke, moderne Prozessoren in der Lage, statistische Modelle künstlicher Intelligenz so zu verarbeiten, dass zusammen mit großen Mengen strukturierter Daten fortgeschrittene Analytics machbar wird. Zudem werden kontextbezogene Dialoge möglich. Dies führt zu einer nahezu natürlichen Interaktion mit Maschinen und beschleunigt die Verbreitung von Geräten mit Sprachsteuerung exponentiell.
Neuer Kommunikations- und Vertriebskanal zum Kunden
Für viele Unternehmen – und auch für Banken und Sparkassen – bietet sich damit ein zukunftsträchtiger neuer Kommunikations- und Vertriebskanal zum Kunden. Voice Banking ist der neue Trend.
Doch es gibt einen Haken: Fast alle Systeme basieren auf Technologien der großen Tech-Firmen. Amazons Alexa, Googles Assistant, Apples Siri oder Microsofts Cortana beherrschen derzeit den Markt. Eigenentwicklungen sucht man vergebens. Zu teuer und zu komplex erscheinen die dahinter stehenden Technologien aus dem Bereich Künstliche Intelligenz. So können die BigTechs zentrale Kontaktpunkte zu den Kunden besetzen.
Vier Szenarien zum Einfluss digitaler Sprachassistenten auf das Einkaufen
Die Unternehmensberatung Deloitte hat untersucht, was dies für die Zukunft des Verkaufskanals Voice in Unternehmen bedeutet. Dazu wurden vier Szenarien entworfen, die von großer strategischer Bedeutung sind:
- Das neue Internet
- Das Zeitalter heterogener Allianzen
- Altes Europa
- Die Welt der Aggregatoren
1. Das neue Internet
Sprachgestützte Schnittstellen haben einen maßgeblichen Einfluss auf das Einkaufsverhalten und die Marktdynamik. Die Marktteilnehmer kollaborieren in einem offenen System. Spracherkennung ist nicht nur auf dem Smartphone vollständig mit anderen Technologien wie Bilderkennung und Sensorik verbunden. Die Art des Einkaufens hat sich dadurch komplett verändert. Datengesteuerte Analysen und die Verbindung von intelligenten Geräten ermöglichen vorhersagbares und automatisiertes Einkaufen. Die Relevanz des Handels hat abgenommen, und großvolumige Einkäufe werden über Direktverkäufe getätigt. Neue Logistikdienstleister kümmern sich 24/7 um die Lieferung direkt nach Hause.
2. Das Zeitalter heterogener Allianzen
Die Marktteilnehmer – Händler und Hersteller – schließen sich zusammen, um gegen die großen Technologieunternehmen zu bestehen. Sie nutzen eigens entwickelte Sprachassistenz-Technologien, die auf verschiedenen Standards beruhen. Daten werden in einem offenen System innerhalb einer Allianz ausgetauscht, aber technologische Hürden erlauben keinen aktiven Austausch über Allianzgrenzen hinweg.
3. Altes Europa
Die Verschärfung des Kartellrechts zur Vermeidung von Monopolen und strenge Datenschutzrichtlinien verhindern, dass sich übergreifende Lösungen für sprachgestützte Schnittstellen zwischen den Marktteilnehmern durchsetzen. Der Markt für den Kanal Voice besteht aus nicht integrierten Silo-Lösungen einzelner Marktteilnehmer und liefert Verbrauchern nur marginalen Mehrwert.
4. Die Welt der Aggregatoren
Die Provider von Sprachassistenten kontrollieren den Marktzugang für Anbieter und Verbraucher. Es bestehen geschlossene, technologisch integrierte Systeme, die als Oligopole von den großen Technologiefirmen kontrolliert werden. Diese können als Gatekeeper Angebot und Nachfrage maßgeblich beeinflussen. In dieser Welt haben sich die großen Technologie-Provider durchgesetzt und das Einkaufen durch ihre geschlossenen Systeme von sprachgestützten Schnittstellen neu definiert. Der Kanal Voice ist zwar stark integriert, die Zusammenarbeit zwischen den Marktteilnehmern bleibt jedoch schwach. Big Data Analytics bietet den Tech-Firmen vollständige Kundentransparenz, die genutzt wird, um über datenbasiertes Marketing und prädiktive Serviceangebote eine größere Kundenbasis zu gewinnen.
Premium Abonnenten des Bank Blogs haben direkten kostenfreien Zugriff auf die Bezugsinformationen zu Studien und Whitepapern.
Noch kein Premium-Leser?
Premium Abonnenten des Bank Blogs haben direkten Zugriff auf alle kostenpflichtigen Inhalte des Bank Blogs (Studienquellen, E-Books etc.) und viele weitere Vorteile.
>>> Hier anmelden <<<
Neu: Tagespass Studien
Sie wollen direkten Zugriff auf einzelne Studien, aber nicht gleich ein Premium-Abonnement abschließen? Dann ist der neue Tagespass Studien genau das richtige für Sie. Mit ihm erhalten Sie für 24 Stunden direkten Zugriff auf sämtliche Studienquellen.
>>> Tagespass Studien kaufen <<<
Ein Service des Bank Blogs
Der Bank Blog prüft für Sie regelmäßig eine Vielzahl von Studien/Whitepapern und stellt die relevanten hier vor. Als besonderer Service wird Ihnen die Suche nach Bezugs- und Downloadmöglichkeiten abgenommen und Sie werden direkt zur Anbieterseite weitergeleitet. Als Premium Abonnent unterstützen Sie diesen Service und die Berichterstattung im Bank Blog.