#Trends & Technologien
Veröffentlich in den Insights
20.07.2018 10:00

Quo vadis, Voice-Assistenz?

Voice-Assistenten erreichen zunehmend ein Level, auf dem wir mit ihnen zuverlässig und bequem interagieren können. In einer Welt, in der wir immer mehr digitale Services nutzen und uns bereits jetzt die Datenmengen oft überfordern, werden Alexa, Siri und Co. in Zukunft aber noch eine andere Rolle einnehmen. Die Sprachassistenten werden Filter und Übersetzer von für uns Menschen kaum mehr zu verarbeitender Massen von Informationen sein. Und damit sind sie nicht mehr wegzudenken.

Nicht einmal das Internet verzeichnete nach seiner Erfindung einen so starken Zuwachs an Nutzern, wie digitale Sprachassistenten in den vergangenen zwei Jahren. In den USA ist die Nutzung in dieser kurzen Zeit von einem auf rund 20% gestiegen und das nur für Smart Home Speaker wie Amazon Alexa und Google Home. Der noch größere Türöffner für Voice-Banking ist die Sprachsteuerung am Smartphone, die von 52% der US-Nutzer verwendet wird. Beide Studien stammen aus dem Jahre 2018, für den deutschsprachigen Raum gibt es leider keine so aktuellen Zahlen. Der nächste Schritt bei der Verwendung von Voice-Assistenten ist dennoch auch hierzulande logisch: Es wird nicht beim Erstellen von Erinnerungen, Einkaufslisten, Wecker stellen und Steuerung der Smart Home Geräte bleiben. Wir werden den Voice-Assistenten komplexere Aufgaben anvertrauen.

Aktuell läuft im Ideenlabor eine Umfrage zum Thema Voice-Banking. Teilen Sie uns Ihre Einstellung zum Thema mit – wir sind gespannt auf Ihre Sichtweise!

Prinzipiell stellen Voice-Lösungen nur einen alternativen Weg, ein anderes Interface, zwischen Nutzer und Service dar. Das bringt jedoch auch neue Herausforderungen in Sachen Sicherheit mit sich. Während Sie recht zuverlässig ihr Smartphone-Display vor fremden Blicken schützen können, ist es schon schwieriger, ihr gesprochenes Wort geheim zu halten, vor allem an öffentlichen Orten. Auch deshalb gehören Sicherheitsbedenken zu den größten Sorgen der Nutzer, wenn es konkret um Voice-Banking geht. Doch wir wären ja nicht dort, wo wir jetzt sind, wenn sich findige Entwickler nicht auch hierfür Wege einfallen ließen, um sichere Authentifizierung zu gewährleisten. Zwei-Faktor-Authentifizierung, bei der neben Stimme auch weitere biometrische Faktoren oder ganz klassisch Passwörter zum Einsatz kommen, sind hier auf dem Weg.

Der Australier Brett King, Mitgründer von Moven, Autor und einer der einflussreichsten Vordenker der Finanzbranche, sieht ein enormes Potenzial hinter Voice-Lösungen – nicht nur fürs Banking:

“Die Kräfte, die uns in Richtung persönlicher KI und Voice-Interfaces treiben, werden immer deutlicher. Wir haben viele Geräte, viele Bildschirme und bald auch mehr Daten, als wir persönlich oder kollektiv logisch verarbeiten können. Diese Daten werden also von Algorithmen kuratiert werden, die konversationeller Natur sind. Welche Lösung auch immer all diese Daten strukturiert und es uns ermöglicht mit ihnen zu interagieren, sie wird unsere persönliche Schnittstelle zu diesen Systemen sein. Wer dieses Problem knackt, wird in weniger als zehn Jahren ein größeres Business haben, als Facebook.”

Dem Menschen verstehen helfen

Es ist nicht schwierig sich vorzustellen, dass dieser von King beschriebene Zustand tatsächlich eintreten könnte. Das Smartphone hat bereits die Natur der Interaktion mit dem Internet und zahllosen vernetzten Geräten revolutioniert. Unsere natürlichste Art der Kommunikation, die gesprochene Sprache, ist noch einmal unmittelbarer, schneller und bequemer. Für viele fühlt es sich nicht nur wegen manchmal noch hakeliger Verständigung mit der KI eigenartig an, mit einem Computer zu sprechen. Und doch wird es Normalität werden richtige Konversationen mit diesen zu führen, statt nur Befehle und Fragen in das Mikrofon zu bellen. Die Gewöhnung daran wird ganz schnell passieren, dennoch bleibt ein Problem. Und das sind wir selber:

Während man auf einem Bildschirm beliebig lange Zeit hat, um eine Reihe von Informationen zu verarbeiten, bis sie ins Gedächtnis gelangt sind, ist der auditive Kanal hierbei zwar schneller, dadurch jedoch auch in seiner Kapazität limitiert: Etwa sieben Informationselemente kann ein Mensch durchschnittlich im Kurzzeitgedächtnis behalten. Komplexe Informationen per Stimme durchzugeben erfordert also clevere, individualisierte Strukturierung derselben.

Mit dem Fortschreiten bei der Entwicklung künstlicher Intelligenzen mag es technisch in einigen Jahren bereits realisierbar sein, dass Sprachassistenten dynamisch große Mengen an Informationen so interpretieren, dass wir als Menschen sie verarbeiten können. So werden konversationelle User Interfaces immer weiter in unser Leben vordringen und uns wie selbstverständlich begleiten – so wie es mittlerweile auch normal ist, für jeden noch so kleinen Task das Smartphone zu zücken. Vielleicht befinden wir uns also auf dem Weg zu einer redseligeren Gesellschaft, als wir sie zurzeit haben.