Voice User Interface – Was ist das?
August 26, 2020
Sprechen statt tippen! So kann das Thema im Allgemeinen zusammengefasst werden. «Voice User Interface (VUI)» bezieht sich auf ein System, das hauptsächlich Benutzereingaben über Sprachbefehle entgegennimmt und mit dem User via Sprachausgabe kommuniziert. Doch was braucht es, damit ein solches VUI funktioniert? Der Unterricht soll uns die Grundlagen für das Thema «Voice» vermitteln. Er zielt darauf ab, ein Gespür für den Einsatz rund um Voice Assistants zu entwickeln, um so potenzielle Anwendungsfälle ableiten zu können.
Grundsätzlich gibt es das Thema «Voice» schon seit mehreren Jahrzehnten. So kam die Speech Recognition erstmals im Jahr 1950, in Form einer sprachgesteuerten Maschine namens Audrey, auf den Markt. Es konnte gesprochene Zahlen von 0 bis 9 verstehen und hatte eine Genauigkeit von 90 Prozent. Dann kam im Jahr 1962 die IBM Shoebox hinzu, welche bereits fähig war 16 gesprochene Wörter zu verstehen. Die Entwicklung ging seither stetig weiter und ist wohl noch lange nicht am Ende. Darüber hinaus wird sie durch die immer weiterwachsenden Technologien unterstützt und es entstehen neue Chancen mit dem Einsatz von Voice Assistants.
Ausserdem wurde die Sprachsteuerung in der jüngsten Vergangenheit immer relevanter und es entstanden bereits einige Beispiele mit riesigem Wachstumspotential. Zum Beispiel kennen wir alle die Sprachsteuerungs-Assistenten Siri, Google Assistant, Alexa und wie sie alle heissen. Jedoch sind dies nur die bekanntesten aller Beispiele. Mit anderen Worten, es gibt noch viele andere und heute noch nicht erforschte Anwendungsmöglichkeiten rund um «Voice». Das Hauptargument für den Nutzer ist die Bequemlichkeit. Dieser muss nämlich ausser seine Gedanken und Anliegen auszusprechen nichts mehr selber machen! Nicht zuletzt deswegen, wird das Thema «Voice» in der Zukunft an Bedeutung gewinnen.
“Der Mensch ist ein sehr bequemes Wesen und geniesst die Bequemlichkeiten welche Voice Assistants bieten immer wie mehr.” – Markus Maurer
Zusammenfassend erlauben Voice User Interfaces eine freihändige und augenfreie Interaktion mit einem System, währenddessen die Aufmerksamkeit auf andere Bereiche gelenkt werden kann. Trotzdem sind VUIs letztlich lediglich die Schnittstellen zum Kunden. Der Kunde «weckt» den Assistenten mittels eines vorbestimmten Wortes wie z.B. «Google», spricht sein Anliegen aus und erhält eine entsprechende Antwort. Es klingt im ersten Moment sehr einfach, doch es verbirgt sich einiges mehr hinter diesen Stimmen. Das Bild verdeutlicht, dass einiges an Daten und Informationen ausgetauscht werden muss, bis der Nutzer schliesslich das Ergebnis erhält.
Gemeint ist damit die automatische Spracherkennung. Zum Beispiel beinhaltet es das Wissen und die Forschungen in den Bereichen Informatik, Linguistik oder Computertechnik. Deshalb bezieht diese sich im Normalfall auf eine eigenständige Software.
Bezeichnet die Fähigkeit eines Programms, die menschlichen Sprachen zu verarbeiten und zu verstehen. Dazu gehört sowohl die Übersetzung einer Sprache in eine andere, aber auch das Erkennen um die Bedeutung. NLP ist zudem Bestandteil der künstlichen Intelligenz.
Beschreibt das Verständnis durch den Computer, die Struktur und Bedeutung der menschlichen Sprache zu verstehen. NLU ermöglicht eine direkte Interaktion zwischen Menschen und Computer.
Damit sind die Plattformen gemeint, die ein Gespräch mit einem echten Menschen nachahmen können. Sie bieten dem Benutzer die Möglichkeit, mit dem Computer in seiner natürlichen Sprache zu kommunizieren. CUIs sind in zwei Untergruppen eingeteilt, zum einen in (textbasierte) Chatbots und zum anderen in (sprachbasierte) Voice User Interfaces.
Die Ausgabe eines Voice Assistent in Verbindung mit einem physischen Element (z.B. Tastatur) wird Multimodal genannt. Diese Elemente können die Spracherfahrung noch angenehmer und benutzerfreundlicher – unterstützt durch Visualisierungen – gestalten.
Zurzeit ist es noch nicht möglich, ohne Installation und Aktivierung einer Voice-App auf einem Smart Speaker etwas zu erledigen. Damit eine Interaktion vorgenommen werden kann, benötigt es eine Voice-App.
Die Aufzählung ist nicht abschliessend und es gibt noch einiges an Technologie und Wissenschaft, welche die Voice User Interfaces unterstützen resp. beliefern. In diesem Kontext ist es wichtig festzuhalten, dass Voice User Interfaces primär die Schnittstelle zum Kunden auf sprachlicher Basis bildet. Die einzelnen Elemente, welche die «Voice» beliefern, entwickeln sich stetig weiter und werden immer zuverlässiger und genauer.
“Bereits heute ist in Bezug auf Voice Assistants sehr vieles möglich. Mit Blick in die Zukunft wird jede App ein VUI integriert haben und den Alltag des Nutzers spürbar erleichtern.” – Markus Maurer
Voice User Interfaces erfüllen ein wichtiges Kriterium; Sie erleichtern den Alltag von Menschen. Der Mensch ist ein sehr bequemes Wesen und geniesst die effiziente Unterstützung, welche VUIs bieten. Es gibt einige Gründe und Hinweise, die darauf hindeuten, dass diese Form von Kommunikation zwischen Mensch und Computer in den nächsten Jahren steigen wird.
Voice User Interfaces bereichern die digitale Transformation um ein weiteres Element und lassen bestehende Prozessschritte teilweise komplett überflüssig werden. So ist es zu erwarten, dass in naher Zukunft vor allem einzelne Teile mittels Voice Assistants ergänzt werden. Geeignete Eintrittspunkte liegen beispielsweise im Kundenservice oder in Call Centers, hier können optimale Use Cases gefunden und weiterentwickelt werden. Ein nicht zu unterschätzender Vorteil ist zudem die Inclusion, es erhalten alle Zugang – auch ältere Menschen und Kinder sowie Menschen, welchen technisch nicht so bewandt sind.
Unser Newsletter liefert dir brandaktuelle News, Insights aus unseren Studiengängen, inspirierende Tech- & Business-Events und spannende Job- und Projektausschreibungen, die die digitale Welt bewegen.