VUI Design

Sprachassistenten im „Uncanny Valley“

Marie

Mit einer bemerkenswerten Regelmäßigkeit stoße ich in Gesprächen mit Kolleg*innen und Kund*innen auf die Frage: „Wie menschlich darf eine synthetische Stimme klingen?“ Hierbei stehen sich meist zwei Aussagen gegenüber: „Nein, das klingt ja schrecklich, blechern und unnatürlich.“ Vs. „Das ist ja gruselig, wenn man gar nicht mehr hört, dass dort eigentlich eine Maschine spricht.“ Diese Diskussionen zeigen wunderbar, dass es nicht reicht, die Technologien so schnell wie möglich in Richtung einer menschlichen Intelligenz und Natürlichkeit zu entwickeln.  Designer*innen und Entwickler*innen von Sprachassistenten müssen auch auf die Hürden des „Uncanny Valley“ achten.

Thanks to Anne Lindner for sharing her work with us

Sprachassistenten – Erfahrungen aus der sozialen Robotik

Sprachassistenten sind die ersten sozialen Roboter, die es richtig in unseren Alltag geschafft haben. Doch es gibt immer noch Schwierigkeiten und nicht selten hört man von frustrierten Nutzer*innen. Die soziale Robotik hat hierzu eine Theorie.

Die Interaktion zwischen Menschen und Maschinen ist zu einem großen Teil dadurch geprägt, dass wir als Menschen die Eigenart besitzen, Maschinen oder Computersystemen menschliche Eigenschaften zuzuweisen. Das Auto bekommt einen Namen, das Schreibprogramm hat einen schlechten Tag oder der Kaffeeautomat muss mal wieder gefüttert werden. Bei diesen Beispielen handelt es sich um Maschinen und Systeme, die nicht den Anspruch haben, menschlich zu wirken und dennoch kommt es schon hier zur Anthropomorphisierung, Vermenschlichung, dieser Dinge.

Wie sieht es also mit Robotern und Assistenzsystemen aus, die menschenähnlich designt werden?

Roboter mit Armen und Beinen, Avatare von Chatbots mit menschlichen Gesichtern oder Sprachassistenten mit menschenähnlichen Stimmen – solche Maschinen heben die Mensch-Maschine-Interaktion im Punkt Nutzer*innen-Akzeptanz auf eine ganz andere Ebene.

Zum einen besitzt ein menschenähnliches Erscheinungsbild den Vorteil der Vertrautheit und erleichtert somit die Kommunikation. Zum anderen besteht die Problematik, dass menschliches Aussehen oder Verhalten von Maschinen bei Nutzer*innen die Erwartung menschlicher Fähigkeiten auslösen, die nicht immer erfüllt werden kann. Die Herstellung einer Balance zwischen “Menschlich verhalten” und “Nichtmenschlich sein” stellt eine besondere Herausforderung dar.

Das „Uncanny Valley“

Die in den 70er Jahren aufgestellte Theorie zum „Uncanny Valley“ befasst sich genau mit dieser Balance-Problematik. Sie betrachtet vorrangig Roboter mit menschenähnlichem Aussehen und menschenähnlicher Motorik.

In einem Gedankenexperiment stellte Masahiro Mori die These auf, dass die Zuneigung zu einem Roboter bis zu einem gewissen Grad an Menschenähnlichkeit stetig steigt. Wird dieser kritische Grad überschritten, so löst die starke Menschenähnlichkeit ein Gefühl des Unbehagens aus. Hierbei kommt es zu einem abrupten Abfall der Zuneigung und Akzeptanz. Erst wenn das Design des Roboters dahingehend perfektioniert würde, dass dieser täuschend echt einem Menschen entspräche, wäre wieder eine positive Reaktion beim Menschen zu erwarten.

Heute interagieren noch nicht viele Menschen mit solchen anthropomorphen Robotern, wohl aber mit Sprachassistenten. Diese imitieren zwar kein menschliches Aussehen und keine menschliche Bewegung, dafür aber andere Eigenschaften und Fähigkeiten wie Stimme, Sprache, Emotion, Charakter und intelligentes Handeln. Auch diese menschlichen Eigenschaften lassen sich in das Uncanny Valley-Paradigma einordnen.

Thanks to Anne Lindner for sharing her work with us

Eine entscheidende Erklärung für den abrupten Abfall der Nutzer*innen-Akzeptanz lässt sich nämlich nicht nur auf Bewegung und Aussehen beziehen: Charaktere mit inkonsistent künstlichen und menschlichen Merkmalen werden negativer wahrgenommen als Charaktere, die konsistent künstlich oder menschlich sind.

Man stelle sich hierzu einen Sprachassistenten vor, der die beste KI in sich birgt, auf jede Frage eine Antwort hat, aber mit einer Stimme spricht, die nicht gut synthetisiert ist und bei der die Satzmelodie unnatürlich und abgehackt klingt.

Würde dieser Assistent vollkommen akzeptiert werden? Sehr wahrscheinlich nicht.

Genauso würde es aussehen, wenn man die Faktoren umdreht. Ein Sprachassistent mit einer perfekt synthetisierten Stimme, dessen Spracherkennung jedoch mäßig ist und von dem häufig nur „Das habe ich leider nicht verstanden“ zu hören ist, würde vermutlich noch negativer auffallen. Schließlich hat er einige Nutzer*innen kurz glauben lassen, dass sie es mit einem Menschen zu tun hätten.

Inkonsistenz, das Abweichen von Erwartungen in bestimmten Punkten, führt dazu, dass Nutzer*innen nicht wissen, woran sie sind – es entsteht ein Gefühl von Unsicherheit oder Unbehagen. Der Sprachassistent befindet sich im Uncanny Valley.

Besonders spannend und auch schwierig ist es eben dann, wenn mehrere menschliche Aspekte, z.B. Aussehen und Stimme aufeinandertreffen. Wie beeinflussen sich die verschiedenen Aspekte in ihren eigenen Ausprägungen von Anthropomorphismus? Hier scheint es von besonderer Bedeutung zu sein, dass die einzelnen Aspekte möglichst die gleiche Ausprägung von Menschlichkeit besitzen, damit ein stimmiger Roboter oder ein stimmiges Assistenzsystem entsteht, welches Nutzer*innen akzeptieren.

Inkonsistenzen vermeiden – eine Herausforderung

Als gutes Beispiel hierfür dienen einige Filme, die mit CGI-Technik arbeiten, bei denen die Figuren echten Schauspieler*innen nachempfunden sind. Die Figuren bewegen sich sehr menschlich, sie erhalten die Synchronstimme des echten Schauspielers oder der echten Schauspielerin. Das Aussehen und die Mimik können zwar sehr künstlich wirken, aber trotzdem dem echten Menschen ähneln, der dem Publikum vielleicht sogar bekannt ist. Für den Zuschauer wirkt dies mitunter merkwürdig – handelt es sich um den Schauspieler oder nicht?

Diese Inkonsistenzen können nicht nur zwischen den verschiedenen menschlichen Eigenschaften und Fähigkeiten auftreten, sondern auch innerhalb eines Merkmals.

Die menschliche Stimme und Sprache weisen hier besondere Komplexität auf. Passt der Tonfall zur Situation? Passt die Stimmlage zum Alter der Person? Passt die Betonung zur Kernaussage eines Satzes?

Es gibt allein in der Stimme so viele Faktoren, die zusammenpassen sollten, um Hörer*innen eine natürliche Stimme zu präsentieren. Die Schwierigkeit, menschenähnliche Maschinen zu entwickeln, die wir unter uns akzeptieren, kann man mitunter mit etwas Stolz betrachten – wir sind besonders und nicht einfach zu kopieren. Dennoch möchten wir von Maschinen auf möglichst menschliche und natürliche Weise unterstützt werden. Dafür sollten wir entscheiden, welchen Grad an Menschlichkeit wir anstreben. Diesen müssen wir über alle Aspekte hinweg konsistent vermitteln und somit die Erwartungen der Nutzer*innen treffen.

Next Steps für das Conversational Design 

Im Conversational Design beachten wir genau diese Fallstricke. Vor allem können wir mit unserer Arbeit die Aspekte Persönlichkeit, Sprache und auch Intelligenz in sich konsistent halten und aufeinander abstimmen. Nicht zuletzt sollten wir diese Aspekte aber natürlich auch in Zusammenhang mit den Stimmen setzen, die uns je nach Plattform zur Verfügung stehen. Eine Balance, die nicht einfach herzustellen ist – dafür unseren Job aber umso spannender macht.

Am Ende ist es das Ziel, dass sich die Nutzer*innen allein auf die Interaktion einlassen können und wissen, was sie erwarten können und was nicht. Was sind eure Erfahrungen?

Share via