10 Dos und Don’ts für die Entwicklung digitaler Sprachassistenten

Sprache als natürlichste Form der Kommunikation wird als Kundenzugangskanal immer bedeutender – auch für Banken. Ein Leitfaden zeigt, worauf es bei der Entwicklung einer sprachbasierten Nutzerschnittstelle ankommt.

Digitale Sprachassistenten bei Banken und Sparkassen

Immer mehr Banken und Sparkassen unterstützen den Einsatz digitaler Sprachassistenten.

Digitale Sprachassistenten erfreuen sich bei Verbrauchern zunehmender Beliebtheit und dringen in immer mehr Lebensbereiche vor, auch ins Banking. Die comdirect bietet beispielsweise die Kursabfrage über Alexa und Google Home an. Über Googles Sprachassistenten können zudem der Kontostand abgefragt und Überweisungen vorbereitet werden.

Doch was sind die wichtigsten Regeln bei der Entwicklung einer sprachbasierten Nutzerschnittstelle? Im Rahmen des Seminars „Voice Based Apps – Sprachassistenten und ihre Auswirkungen auf das Interfacedesign“ im Studiengang Interfacedesign haben Studenten an der Fachhochschule Potsdam einen Leitfaden entwickelt.

Die wichtigsten Dos bei der Gestaltung von Sprachassistenten

Im Folgenden finden Sie die fünf wichtigsten Dinge, auf die bei der Gestaltung von Sprachassistenten geachtet werden sollte:

Das Wichtigste zuerst
Fokus behalten
Schnelle Reaktionszeit
Visuelles Signal als Zeichen der Aktivität
Sprachliches User Interface anders gestalten als grafisches

1. Das Wichtigste zuerst

Diese Gestaltungsgrundlage gilt nicht nur bei sprachbasierten Kundenschnittstellen, doch hier ist sie von elementarer Bedeutung. Voice-Output kann im gesprochenen Satz immer nur eine Information gleichzeitig preisgeben.

Beispiel: Bei einer normalen Bestätigungsmail liefert die Headline mit „Reservierung erfolgreich!“ und fett gedruckten Spezifikationen, wie beispielsweise den reservierten Sitznummern, dem Nutzer innerhalb von wenigen Augenblicken alle benötigten Informationen. Ist ein Sprachassistent zur Reservierung genutzt worden, so müssen diese Informationen ebenso schnell vermittelt werden.

Ein langer Bestätigungssatz, bei dem die reine Bestätigung und die Sitznummern erst nach mehreren Sekunden genannt werden, verunsichert die Nutzer. Unserer Erfahrung nach ist eine prägnante und hierarchisch sortierte Aussage am sinnvollsten: „Die Plätze 44 bis 46 im Hans-Otto-Theater wurden erfolgreich reserviert. Die Vorstellung findet am 24. April um 20 Uhr statt…”.

2. Fokus behalten

Einfache Sprache ist im sprachbasierten User Interface noch wichtiger als bei einer grafischen Kundenschnittstelle. Oftmals wird Sprache als alternativer Interaktionsstrang neben der primären Handlung genutzt. Beispielhaft dafür: das Lesen des Rezepts beim Kochen oder die Navigationseingabe beim Autofahren. Sind die Anweisungen per Sprache allerdings zu komplex, so ist das Gleichgewicht zwischen primärer (Autofahren) und sekundärer (Navigationseingabe) Handlung nicht mehr gegeben; der Fahrer muss sich stärker auf den Sprachassistenten konzentrieren als auf seine eigentliche Handlung.

Navigationsgeräte versuchen dieses Problem schon seit Beginn mit einfacherer Sprache zu umgehen: “In 300m links abbiegen.” Diese Methodik funktioniert aber auch in allen anderen Anwendungsbereichen von Sprachassistenten. Sprachbefehle werden benutzt, wenn die Hände mit anderen Dingen beschäftigt sind. Die Konzentration darf dann nicht durch komplizierte Satzgefüge gestört werden. Klare, kurze Sprachbefehle müssen durch die Assistenten unmittelbar interpretiert und umgesetzt werden.

3. Schnelle Reaktionszeit

Bei einem sprachbasierten User Interface sollten möglichst keine Pausen in der Kommunikation entstehen, denn dies würde Nutzer frustrieren. Grafische Nutzerschnittstellen haben hier den Vorteil, dass Verarbeitungsprozesse durch Symbole, wie Ladekreis oder Sanduhr, angezeigt werden können. Bei Voice funktioniert dies nicht. Anfragen sollten daher schnellstmöglich bearbeitet werden, denn auch in der sprachlichen Interaktion zwischen Mensch und Maschine wird eine flüssige Kommunikation erwartet.

4. Visuelles Signal als Zeichen der Aktivität

Sprachassistenten werden durch ein Signalwort wie „Alexa“ oder „OK Google“ zum Leben erweckt. Nutzertests haben gezeigt, dass viele Anwender dieser Ansprache allein noch nicht vertrauen und ein visuelles Signal wünschen, wenn der Sprachassistent zuhört. Das kann beispielsweise ein Aufleuchten sein.

5. Sprachliches User Interface anders gestalten als grafisches

Auch wenn beides Formen der Kommunikation zwischen Mensch und Maschine sind, so gelten für sie unterschiedliche Regeln. In unseren Tests hat sich gezeigt: Grafische Gestaltungsmuster, an die die meisten Nutzer gewöhnt sind, können nicht einfach auf ein sprachbasiertes User Interface übertragen werden.

Beispielhaft ist ein typisches Navigationsmenü auf Websites. Hier hat der Nutzer sofort einen Überblick, welche Funktionen verfügbar sind. Rechtlich bindende Anforderungen (wie Impressum und Datenschutzerklärung) können einfach hierarchisch untergeordnet angezeigt werden.

Bei einem Voice Interface ist das problematisch: Ein Nutzer möchte sich keine lange Liste mit Navigationsoptionen ansagen lassen, sondern eine Funktion direkt aufrufen. Im grafischen User Interface können Lösungswege abgebildet werden und der Nutzer kann die einzelnen Schritte wählen. Bei einer sprachbasierten Schnittstelle erwartet er, dass das System den Lösungsweg selbstständig erkennt und die passende Information als Reaktion liefert.

Die wichtigsten Don’ts bei der Gestaltung von Sprachassistenten

Im Folgenden finden Sie die fünf wichtigsten Dinge, die bei der Gestaltung von Sprachassistenten vermieden werden sollten:

Unbekannte Sprachbausteine
Lange Antworten
Sprachassistenten als Ersatz für andere Interfaces betrachten
Barsch antworten
Selbstständige Unterbrechungen

1. Unbekannte Sprachbausteine

Bei einer grafischen Kundenschnittstelle können sich Nutzer „weiterklicken“, von Bearbeitungspunkt zu Bearbeitungspunkt. Diese Möglichkeit, sich den Weg zu erschließen, entfällt beim Voice Interface. Hier muss ganzheitlich integrativ im Sinne der Sprache gedacht und gestaltet werden: Neben „Siri, weiter“ muss auch „Siri, nächster Schritt”, „Siri, next” und Ähnliches vom System verstanden werden. Intelligente und selbstlernende Assistenten stellen sich auf die Anforderungen des individuellen Nutzers ein. Manuelle Systeme werden die Nutzererwartung hier vermutlich nie erfüllen.

Apps, die permanent mit „Entschuldigung, das habe ich nicht verstanden.” antworten, stören den Workflow ungemein und zwingen den Nutzer, sich dem System anzupassen. Solange Sprachassistenten auf technischer Ebene den Nutzer aber nicht unmittelbar verstehen, werden Interaktionsabbrüche bei Sprachinteraktionen in Akzeptanzschwierigkeiten von Sprachassistenten resultieren.

2. Lange Antworten

Während Nutzer bei einer grafischen Schnittstelle selbst entscheiden können, was sie lesen oder wohin sie navigieren möchten, sind sie im Voice Interface dem Verständnis des Sprachassistenten ausgeliefert. Wird eine Information oder Antwort vorgelesen und der Nutzer wurde falsch verstanden, ist unaufmerksam oder kennt die Antwort schon, so muss er entweder redundante Informationen hören oder den Assistenten unterbrechen.

Beides sind keine guten Optionen. Vermeiden lässt sich das mit kurzen, sprachlichen Interaktionen. Bei längerer Kommunikation (z.B. Web-Such-Ergebnissen) kann der Sprachassistent visuell unterstützt werden. Künftig sind Features denkbar, welche dem Nutzer die Möglichkeit bieten, den Output zu kürzen oder nur relevante Teile wiederholen zu lassen.

3. Sprachassistenten als Ersatz für andere Interfaces betrachten

Sprachbasierte User Interfaces bieten Möglichkeiten, die mit grafischen Kundenschnittstellen — oder anderen Kommunikationsmitteln wie z.B. Gestensteuerung — nicht möglich sind. Die beiden schließen sich aber nicht aus. Das zeigt sich bei den „Großen” der Sprachassistenten-Industrie: Siri, Google Assistant und Cortana lassen sich alle auch mit händischer Eingabe steuern. Unter einigen Umständen ist das praktischer als die Sprachvariante, beispielsweise in einer lauten Umgebung oder bei vertraulichen Inhalten.

Wird der Nutzer zur Interaktion via Voice in jeder möglichen Situation gezwungen, so schränkt ihn das in seinen Nutzungsmöglichkeiten ein. Die Gestaltung von Sprachdialogen muss daher kontextbezogen geprüft und optimiert werden. Allgemein kann aber davon ausgegangen werden, dass Sprache den Weg zu relevanten Informationen beschleunigt, die Information selbst jedoch durch grafische Mittel leichter vermittelt wird.

4. Barsch antworten

Im Idealfall gestaltet sich die Interaktion mit einem Sprachassistenten so wie eine Kommunikation zwischen Menschen. Eine optimale Nutzererfahrung wäre es, mit Alexa und Co. zu sprechen, als spräche man mit seinem persönlichen Assistenten. Hier gelten soziale Regeln, die auch für Sprachassistenten Anwendung finden sollten.

Beispiel: Der Anruf an der Hotel-Rezeption mit der Bitte zum Weck-Anruf am Morgen wird nicht mit einem einfachen „Okay.” beantwortet; darüber würde sich vermutlich jeder Hotel-Gast — zu Recht — aufregen. Auch der Sprachassistent sollte, obwohl die an ihn gerichteten „Befehle“ eher kurz sind, höflich antworten. Es muss stets abgewogen werden, ob ein knappes, vielleicht auch audiovisuelles Signal ausreicht oder ob es einer ausführlichen Antwort bedarf.

5. Selbstständige Unterbrechungen

Sprachassistenten haben die Möglichkeit, selbstständig aktiv zu werden. Manchmal ist das sicher angebracht. Derzeit sind zum Beispiel die Alarme von Weckern und Timern sinnvolle selbstständige Interaktionen — hier sind sie aber ausdrücklich vom Nutzer gewünscht und im Vorfeld eingerichtet.

Unsere Tests waren bei ausführlicheren Unterbrechungen aber ziemlich eindeutig. Wenn es nicht mehr um mehr Warntöne, sondern um gesprochenen Text geht, wird eine solche Unterbrechung als störend und unhöflich betrachtet.

Verständlich: Niemand wird gerne mitten im Satz unterbrochen, vor allem nicht, wenn die Unterbrechung keinen Bezug zum aktuellen Gesprächsthema hat. Wenn die eigenständige Unterbrechung also nicht durch den Nutzer gewünscht worden ist, muss die unterbrechungsfreie Nutzung des Sprachassistenten sichergestellt werden.

Fazit: Leitplanken für gute Gestaltung von Sprachassistenten

Die Kombination von Visual und Voice Interaction Design, d.h. von Sprache und Grafik in der Nutzerinteraktion, wird übergreifend Einzug halten. Der gesteigerte Komfort durch die leichte Bedienung wird die Integration von Sprachassistenten in sämtlichen Lebensbereichen – egal ob im Auto, zu Hause oder in öffentlichen Räumen – beschleunigen.

Die detaillierte Auseinandersetzung mit den qualitativen Gestaltungsaspekten gewinnt damit zunehmend an Bedeutung. Gute Gestaltung, gute Nutzerführung wird zum Wettbewerbsvorteil auch aufgrund der verbesserten Zugänglichkeit zu den geforderten Funktionalitäten und Services – und führt zu besseren, intuitiv bedienbaren, schnelleren und letztlich auch sympathischeren User Interfaces.

Ein gut gestalteter Sprachassistent bildet einen neuen Eckpfeiler für sprachlich gestützte und damit weiter optimierte User Interfaces. Die definierten „Dos and Don’ts“ sind erste Leitplanken, die den Einstieg in die Auseinandersetzung mit und gute Gestaltung von Sprachassistenten erleichtern sollen.

10 Dos und Don’ts für digitale Sprachassistenten

Leitfaden für die richtige Gestaltung von Voice Interfaces