Voice User Interface – The Next Big Thing?!
Juli 16, 2020
Anders als in den vorangegangenen Lehrgängen des CAS Digital Finance sind wir diesmal nicht vor Ort bei der Farner Consulting AG. Ein Teil der Studierenden befindet sich im HWZ Gebäude, der andere Teil nimmt per Video-Konferenz teil – eine dem Covid-19 Virus geschuldete «Hybrid-Veranstaltung».
Markus Maurer demonstriert uns, welchen Einfluss Voice User Interface (VUI) auf die Gesellschaft und die zukünftige Evolution hin zum «Voice Everywhere» und dem strategischen Einsatz im Customer Experience Management hat und haben wird. Ist VUI sowohl im privaten wie auch im beruflichen Umfeld «The Next Big Thing»? Und wie sieht die Umsetzungsstrategie dazu aus?
Voice User Interfaces oder digitale Sprachassistenten sind Schnittstellen, die es den Benutzern ermöglichen, eine Aktion einfach durch gesprochene Befehle auszuführen oder auch Fragestellungen beantworten zu lassen. Es sind auditive Dialogsysteme und als solche natürlicher und intuitiver als beispielsweise schriftliche Texteingaben. Hinzu kommt, dass unser Hirn gesprochene Sprache deutlich schneller verarbeitet, als Texte oder Videos. Die mündliche Spracheingabe erfolgt 3x schneller als die Eingabe über eine Tastatur. Unser Hirn wird dabei entlastet, wie dieses Schaubild eindrücklich zeigt:
Source: https://twitter.com/brianroemmele/status/853610414587887616
Momentan stehen digitale Sprachassistenten aber noch in den Startlöchern, zumindest hier in der Schweiz. VUIs haben aber das Potential, das primäre Interface zu sein, mit dem wir in absehbarer Zeit mit der digitalen Umwelt interagieren werden. Heute fragen wir Siri nur nach dem Wetter, üben uns als “DJ in da house”, lassen uns News vorlesen oder steuern das Lichtsystem der Wohnung vielleicht sogar schon via Google Nest. Alles kleine, alltägliche Aufgaben, die in Zukunft kaum der Rede wert sein werden – denn der technisch mögliche Einsatzbereich ist heute schon viel grösser.
Ein Voice Assistant könnte bereits jetzt völlig autonom alle Bankgeschäfte erledigen, uns beim Joggen anfeuern, unsere Gesundheitsdaten überwachen, uns Vorschläge für die nächste Ferienreise machen, Buchungen, Ticketkäufe, Einkäufe erledigen, uns an Termine erinnern, mit uns einen Vortrag üben oder Gesagtes simultan in jede gewünschte Sprache übersetzen, um nur einige Beispiele zu nennen. Auch wenn uns solche Szenarien (noch) futuristisch erscheinen , ist Markus Maurer überzeugt, dass VUIs in spätestens 5–10 Jahren aus unserem Alltag nicht mehr wegzudenken sind. Voice Assistants werden für uns Teil unseres Lebens, weil Convenience (Prinzip des geringsten Aufwands), also ganz einfach Bequemlichkeit, die Entwicklung vorantreibt. Wie heutzutage Smartphones – zu Beginn «nur» ein mobiles Telefon – werden auch Voice Assistants in wenigen Jahren unverzichtbar sein.
In Zukunft werden digitale Assistenten nicht nur Menschen entlasten, sondern auch Firmendienstleistungen übernehmen. Zum Beispiel wird ein Voice Assistant von Banken, Versicherungen und Spitälern für Beratungsgespräche und im Kundendienst eingesetzt.
Jede digitale Welle hat ein neues Paradigma initiiert: mit der Verbreitung des Internets galt «online first», seit den Smartphones und Apps «mobile first». Jetzt stehen wir vor dem nächsten grossen Wandel: «Voice First».
Gemäss Voice First Barometer 2019, der jährlichen repräsentativen Befragung zur Verbreitung und Nutzung von Voice User Interfaces (VUIs) in der Schweiz, nutzen aktuell bereits 51% der Schweizer Bevölkerung Voice Assistants – vor 2 Jahren waren es erst 37%. Schon bis Jahresende soll der Anteil der Voice User in der Bevölkerung gemäss Selbstauskunft auf 68% ansteigen.
Die beliebtesten Funktionen sind dabei:
Die meisten nutzen Sprachassistenten über das Smartphone (42%). Auf dem zweiten Platz ist neu das Auto (16%), das damit den Desktop-Computer überholt hat (12%). Mit 2.63% werden Smart Speakers im Vergleich zu anderen Devices zwar noch selten genutzt, jedoch sind sie auch erst seit Oktober 2019 offiziell in der Schweiz erhältlich. Trotzdem hat sich ihre Nutzung im Vergleich zum Vorjahr bereits mehr als verdoppelt.
Der Blick in andere Länder zeigt, wie schnell das Wachstum dieser Technologie ist. Es ist nur eine Frage der Zeit, bis das grosse Potential auch in der Schweiz genutzt wird.
Der aktuelle Trend liegt klar auf Spracherkennung und -steuerung. Dabei dient die Sprache nicht nur der Eingabe (Input), sondern auch der Output erfolgt immer öfter in gesprochener Form. Zwischen Nutzer und Endgerät werden dadurch Dialoge möglich – komplett ohne Bildschirm. Voice First heisst auch, dass man sich in der Online Strategie zuerst der Stimme als Steuermedium widmet und erst in zweiter Instanz der graphischen, schriftlichen oder bildlichen Ein- und Ausgabe. Dennoch kann bei Voice First die Ein- und Ausgabe immer auch durch visuelle und physische Elemente oder ein Display unterstützt werden (multimodal).
Die wichtigsten AI Voice Assistants werden durch Google, Amazon und Apple angeboten. Google Assistant bietet die zurzeit einzige Möglichkeit, in der Schweiz einen Smart Speaker über die ordentlichen Vertriebskanäle zu erwerben und ohne “Hacks” zu installieren.
Die AI Voice Assistants sind weiter auf dem Vormarsch. Bereits heute sind in jedem Smartphone der neueren Generationen Voice Chips verbaut. Immer mehr Haushalte besitzen einen Smart Speaker. In den USA besitzen bereits 87.7 Millionen Personen (35% der erwachsenen Bevölkerung) einen Smart Speaker und dies bei Zuwachsraten von über 30% pro Jahr (Stand Januar 2020). Wie viele dieser Geräte im Einsatz sind, geht aus diesen Zahlen jedoch nicht hervor.
Voice Assistants werden nicht nur in Smartphones und Smart Speakern eingesetzt. Heute sind in einer Vielzahl von Gadgets Voice Chips integriert. Ein kleines Spektrum ist in der folgenden Abbildung ersichtlich. Wer zum Beispiel eine Swisscom TV-Box hat, kann mit dem Wake Word «Hey Swisscom» die neuesten Sendungen im Fernsehen anschauen oder das Smart Home bedienen.
Die Voice Map Switzerland bietet eine Übersicht der Organisationen in der Schweiz, die Voice Services oder Technologien in den einzelnen Anwendungsbereichen anbieten oder entwickeln.
Auf der Gartner Heat Map sind die unterschiedlichen Status von Virtual Assistants und Speech Recognition ersichtlich. Der aktuelle Entwicklungsstand der Voice Technologie entspricht derjenigen der Websites aus dem Jahr 1998. Dies zeigt, wie viel Potential in der Weiterentwicklung dieser Technologie noch steckt.
Innovation entsteht nicht durch den Einsatz einer neuen Technologie, sondern durch eine technologieunterstützte Prozessverbesserung. Dies gilt auch für die strategiebasierte Implementation des VUIs in der Customer Journey. Die Strategie wird durch die für den Prozess relevanten Fragestellungen erarbeitet. Integraler Bestandteil ist die Erfassung der Gain / Pain Points entlang des bestehenden Prozesses.
Die Erstellung eines einfachen Prototyps in einer frühen Phase des Projekts zeigt erste Lösungsansätze auf und ermöglicht die Einbindung von Testpersonen. Dadurch können sowohl der Prozess wie auch die User Experience überprüft und Verbesserungspotential identifiziert werden. Im Entwicklungsprozess ist die Bereitschaft der Anwendenden zu berücksichtigen, die Technologie auch einzusetzen. Nicht alles was technisch möglich ist und umgesetzt werden kann, wird von den Usern akzeptiert. Sobald beim User das Gefühl aufkommt, überwacht zu werden oder das Umfeld nicht dem Privacy-Bedürfnis entspricht, kann die Akzeptanz leiden.
Voice Commerce ist ein neuer – durch die steigende Verbreitung von Sprachassistenten entstandener – Marketing- und Vertriebskanal. Für Unternehmen eröffnet sich ein weiterer Touchpoint in der Customer Journey für Branding, Service und Marketing. Dabei werden Bestellungen nicht mehr über einen Bestell-Button getätigt, sondern direkt dem Sprachassistenten mitgeteilt. Voice Commerce ist zumindest zum jetzigen Zeitpunkt noch nicht massentauglich. Es erfordert einige Vorarbeit, bis das Gerät den Kaufprozess ohne grosse Nachfragen prozessieren kann.
Voice Commerce wird die Zukunft prägen, da es den Kunden aber auch den Unternehmen viele Vorteile bietet:
Die Wiedererkennung der Marken (Brands) erfolgt heute vorwiegend über visuelle Merkmale, die mit der Einführung eines VUIs nicht mehr aktiviert werden können. Im Voice Bereich müssen deshalb akustische Identifikationsmerkmale wie Stimmen und Tonfolgen die visuellen ersetzen (Sonic Branding). Bereits vor der Einführung von VUIs ergänzten diverse Firmen ihren visuellen Auftritt mit akustischen Elementen (Bsp. Swisscom, SBB etc.), die nun bei VUIs als Wiedererkennungsmerkmal genützt werden können.
Zur Veranschaulichung der Thematik erarbeiten wir in einem Workshop den möglichen Gesprächsverlauf mit einem Chatbot. Es gilt, den aktuellen Kontostand sowie die letzten Transaktionen abzufragen. Das vorbereitete Online Template hält dem Ansturm der Studierenden leider nicht stand. Wir lösen deshalb die Aufgabe schliesslich «Old School» mit Post-Its….
Die Varianz der Lösungen der verschiedenen Gruppen bei einer scheinbar simplen Aufgabe zeigt, wie wichtig die Erstellung eines Prototyps in einer frühen Phase des Projekts ist, damit die verschiedenen Dialoge auf ihre Aussagekraft und Akzeptanz überprüft werden können.
Der Gebrauch von Voice User Interfaces (VUI) ist in der Schweiz zwar zum heutigen Zeitpunkt noch nicht sehr hoch, der Anteil der Voice Users steigt aber rasant an.
Bereits heute entlasten uns die Voice Assistenten bei der täglichen Routine. Insbesondere dort, wo keine Touch Interfaces benützt werden können oder aufgrund von Hygieneanforderungen (Covid-19) sollen, wird sich die Akzeptanz der Technologie rasch steigern, weshalb VUIs für die Zukunft (noch) relevanter sein werden. Sinnvoll wäre vor allem Sprachsteuerung in öffentlichen Räumen, wie beispielsweise Türen, die mit Sprache geöffnet werden; Pakete, die mit Sprache signiert werden können; Essensbestellungen bei McDonalds.
Bei der Einführung von Voice Technologien muss zwingend darauf geachtet werden, dass das Individuum nicht überfordert wird, sondern die Unterstützung der Systeme positiv wahrnimmt. Nicht alle fühlen sich wohl, in der Öffentlichkeit mit einer Maschine zu reden oder Informationen bekanntzugeben (z.B. PIN-Eingabe beim Geldabheben in den Automaten rufen).
Eine frühe theoretische Auseinandersetzung mit Chancen, Risiken und strukturellen Voraussetzungen ist wichtig. Zu Beginn eines VUI Projektes ist zwingend eine Strategie zu entwickeln. Bei der Integration von VUIs entlang der Customer Journey ist es deshalb unabdingbar, dies von Anfang an und kontinuierlich durch Prototypen und den Einbezug von Testusern zu überprüfen und durch geschulte Testbeobachter zu verifizieren. Es gilt, zuerst die Einsatzmöglichkeiten von VUI systematisch durchzudenken (Nutzerevaluation).
Wir sind der festen Überzeugung, dass die Voice Technologie auch bei uns “The Next Big Thing” ist und unser Leben – ob wir wollen oder nicht – in naher bis mittlerer Zukunft stark verändern wird.
Unser Newsletter liefert dir brandaktuelle News, Insights aus unseren Studiengängen, inspirierende Tech- & Business-Events und spannende Job- und Projektausschreibungen, die die digitale Welt bewegen.