Zum Hauptinhalt springen

Sprachassistenten im „Uncanny Valley“

Sprachassistenten im „Uncanny Valley“

Mit einer bemerkenswerten Regelmäßigkeit stoße ich in Gesprächen mit Kolleg*innen und Kund*innen auf die Frage: „Wie menschlich darf eine synthetische Stimme klingen?“ Hierbei stehen sich meist zwei Aussagen gegenüber: „Nein, das klingt ja schrecklich, blechern und unnatürlich.“ Vs. „Das ist ja gruselig, wenn man gar nicht mehr hört, dass dort eigentlich eine Maschine spricht.“ Diese Diskussionen zeigen wunderbar, dass es nicht reicht, die Technologien so schnell wie möglich in Richtung einer menschlichen Intelligenz und Natürlichkeit zu entwickeln.  Designer*innen und Entwickler*innen von Sprachassistenten müssen auch auf die Hürden des „Uncanny Valley“ achten.

Ein Voice Assistent wird umgeben von einem magischen Leuchten in einer abstarkten Szenerie (Ausschnitt von der nachfolgenden Illustration).
Illustration von Anne Lindner / Voice User Interface Architect bei VUI.agency

Sprachassistenten – Erfahrungen aus der sozialen Robotik

Sprachassistenten sind die ersten sozialen Roboter, die es richtig in unseren Alltag geschafft haben. Doch es gibt immer noch Schwierigkeiten und nicht selten hört man von frustrierten Nutzer*innen. Die soziale Robotik hat hierzu eine Theorie.

Die Interaktion zwischen Menschen und Maschinen ist zu einem großen Teil dadurch geprägt, dass wir als Menschen die Eigenart besitzen, Maschinen oder Computersystemen menschliche Eigenschaften zuzuweisen. Das Auto bekommt einen Namen, das Schreibprogramm hat einen schlechten Tag oder der Kaffeeautomat muss mal wieder gefüttert werden. Bei diesen Beispielen handelt es sich um Maschinen und Systeme, die nicht den Anspruch haben, menschlich zu wirken und dennoch kommt es schon hier zur Anthropomorphisierung, Vermenschlichung, dieser Dinge.

Wie sieht es also mit Robotern und Assistenzsystemen aus, die menschenähnlich designt werden

Roboter mit Armen und Beinen, Avatare von Chatbots mit menschlichen Gesichtern oder Sprachassistenten mit menschenähnlichen Stimmen – solche Maschinen heben die Mensch-Maschine-Interaktion im Punkt Nutzer*innen-Akzeptanz auf eine ganz andere Ebene.

Zum einen besitzt ein menschenähnliches Erscheinungsbild den Vorteil der Vertrautheit und erleichtert somit die Kommunikation. Zum anderen besteht die Problematik, dass menschliches Aussehen oder Verhalten von Maschinen bei Nutzer*innen die Erwartung menschlicher Fähigkeiten auslösen, die nicht immer erfüllt werden kann. Die Herstellung einer Balance zwischen “Menschlich verhalten” und “Nichtmenschlich sein” stellt eine besondere Herausforderung dar.

Das „Uncanny Valley"

Die in den 70er Jahren aufgestellte Theorie zum Uncanny Valley“ befasst sich genau mit dieser Balance-Problematik. Sie betrachtet vorrangig Roboter mit menschenähnlichem Aussehen und menschenähnlicher Motorik.

In einem Gedankenexperiment stellte Masahiro Mori die These auf, dass die Zuneigung zu einem Roboter bis zu einem gewissen Grad an Menschenähnlichkeit stetig steigt. Wird dieser kritische Grad überschritten, so löst die starke Menschenähnlichkeit ein Gefühl des Unbehagens aus. Hierbei kommt es zu einem abrupten Abfall der Zuneigung und Akzeptanz. Erst wenn das Design des Roboters dahingehend perfektioniert würde, dass dieser täuschend echt einem Menschen entspräche, wäre wieder eine positive Reaktion beim Menschen zu erwarten.

Heute interagieren noch nicht viele Menschen mit solchen anthropomorphen Robotern, wohl aber mit Sprachassistenten. Diese imitieren zwar kein menschliches Aussehen und keine menschliche Bewegung, dafür aber andere Eigenschaften und Fähigkeiten wie Stimme, Sprache, Emotion, Charakter und intelligentes Handeln. Auch diese menschlichen Eigenschaften lassen sich in das Uncanny Valley-Paradigma einordnen.

Ein Voice Assistent wird umgeben von einem magischen Leuchten in einer abstarkten Szenerie. Ein Mädchen beobachtet die Szenerie. Ihr Blick auf den Voice Assistent wirkt unsicher und skeptisch.
Illustration von Anne Lindner / Voice User Interface Architect at VUI.agency.

Eine entscheidende Erklärung für den abrupten Abfall der Nutzer*innen-Akzeptanz lässt sich nämlich nicht nur auf Bewegung und Aussehen beziehen: Charaktere mit inkonsistent künstlichen und menschlichen Merkmalen werden negativer wahrgenommen als Charaktere, die konsistent künstlich oder menschlich sind. Man stelle sich hierzu einen Sprachassistenten vor, der die beste KI in sich birgt, auf jede Frage eine Antwort hat, aber mit einer Stimme spricht, die nicht gut synthetisiert ist und bei der die Satzmelodie unnatürlich und abgehackt klingt.

Würde dieser Assistent vollkommen akzeptiert werden? Sehr wahrscheinlich nicht

Genauso würde es aussehen, wenn man die Faktoren umdreht. Ein Sprachassistent mit einer perfekt synthetisierten Stimme, dessen Spracherkennung jedoch mäßig ist und von dem häufig nur „Das habe ich leider nicht verstanden“ zu hören ist, würde vermutlich noch negativer auffallen. Schließlich hat er einige Nutzer*innen kurz glauben lassen, dass sie es mit einem Menschen zu tun hätten.

"Inkonsistenz, das Abweichen von Erwartungen in bestimmten Punkten, führt dazu, dass Nutzer*innen nicht wissen, woran sie sind – es entsteht ein Gefühl von Unsicherheit oder Unbehagen. Der Sprachassistent befindet sich im Uncanny Valley."
Marie Kleinert / Senior Voice User Interface
Architect bei VUI.agency

Besonders spannend und auch schwierig ist es eben dann, wenn mehrere menschliche Aspekte, z.B. Aussehen und Stimme aufeinandertreffen. Wie beeinflussen sich die verschiedenen Aspekte in ihren eigenen Ausprägungen von Anthropomorphismus? Hier scheint es von besonderer Bedeutung zu sein, dass die einzelnen Aspekte möglichst die gleiche Ausprägung von Menschlichkeit besitzen, damit ein stimmiger Roboter oder ein stimmiges Assistenzsystem entsteht, welches Nutzer*innen akzeptieren.

Inkonsistenzen vermeiden – eine Herausforderung

Als gutes Beispiel hierfür dienen einige Filme, die mit CGI-Technik arbeiten, bei denen die Figuren echten Schauspieler*innen nachempfunden sind. Die Figuren bewegen sich sehr menschlich, sie erhalten die Synchronstimme des echten Schauspielers oder der echten Schauspielerin. Das Aussehen und die Mimik können zwar sehr künstlich wirken, aber trotzdem dem echten Menschen ähneln, der dem Publikum vielleicht sogar bekannt ist. Für den Zuschauer wirkt dies mitunter merkwürdig – handelt es sich um den Schauspieler oder nicht?

Diese Inkonsistenzen können nicht nur zwischen den verschiedenen menschlichen Eigenschaften und Fähigkeiten auftreten, sondern auch innerhalb eines Merkmals.

Die menschliche Stimme und Sprache weisen hier besondere Komplexität auf

  1. Passt der Tonfall zur Situation?
  2. Passt die Stimmlage zum Alter der Person?
  3. Passt die Betonung zur Kernaussage eines Satzes?

Es gibt allein in der Stimme so viele Faktoren, die zusammenpassen sollten, um Hörer*innen eine natürliche Stimme zu präsentieren. Die Schwierigkeit, menschenähnliche Maschinen zu entwickeln, die wir unter uns akzeptieren, kann man mitunter mit etwas Stolz betrachten – wir sind besonders und nicht einfach zu kopieren.

Dennoch möchten wir von Maschinen auf möglichst menschliche und natürliche Weise unterstützt werden. Dafür sollten wir entscheiden, welchen Grad an Menschlichkeit wir anstreben. Diesen müssen wir über alle Aspekte hinweg konsistent vermitteln und somit die Erwartungen der Nutzer*innen treffen.

Next Steps für das Conversational Design 

Im Conversational Design beachten wir genau diese Fallstricke. Vor allem können wir mit unserer Arbeit die Aspekte Persönlichkeit, Sprache und auch Intelligenz in sich konsistent halten und aufeinander abstimmen. Nicht zuletzt sollten wir diese Aspekte aber natürlich auch in Zusammenhang mit den Stimmen setzen, die uns je nach Plattform zur Verfügung stehen. Eine Balance, die nicht einfach herzustellen ist – dafür unseren Job aber umso spannender macht.

Am Ende ist es das Ziel, dass sich die Nutzer*innen allein auf die Interaktion einlassen können und wissen, was sie erwarten können und was nicht.

Was sind eure Erfahrungen?

Autor*innen

Related articles

Die Conversational-Design-Herangehensweise an Empathie

  • #VUI Design
Sara Oliver G.V.

Was meinen Sie, könnte ein Sprachassistent dabei helfen, das Einsamkeitsgefühl bei den älteren Menschen zu lindern? Einsamkeit und ältere Menschen sind sehr vertraute Begriffe, die leider meistens Hand in Hand gehen. Um darauf zu antworten, müssen wir zunächst unser Einfühlungsvermögen einsetzen, um die Gründe und Nuancen dieses Gefühls zu verstehen.

Blogartikel lesen

Daten und KI in der Voice-Branche – Ein Interview mit Dr. Laura Dreessen

  • #Voice Branding
  • #VUI Design
Dr. Laura Dreessen

Wie nutzen wir Daten und KI in unseren Projekten? In erster Linie nutzen wir Daten, um die Spracherkennung zu trainieren, denn jede Sprachinteraktion beginnt mit dem Verstehen. Mithilfe von Sammlungen von Sprachdaten können wir nachvollziehen, wie unsere Voice User-Persona spricht. Eine Persona zu designen, bedeutet im UX-Design, ein abstraktes Profil der Nutzer*innengruppe auf Grundlage von User Research zu erstellen.

Blogartikel lesen