VUI Design

Daten und KI in der Voice-Branche – Ein Interview mit Dr. Laura Dreessen

laura-d.

Oana Ciobotea:

Wie nutzen wir Daten und KI in unseren Projekten?

Dr. Laura Dreessen:

„In erster Linie nutzen wir Daten, um die Spracherkennung zu trainieren, denn jede Sprachinteraktion beginnt mit dem Verstehen. Mithilfe von Sammlungen von Sprachdaten können wir nachvollziehen, wie unsere Voice User-Persona spricht. Eine Persona zu designen, bedeutet im UX-Design, ein abstraktes Profil der Nutzer*innengruppe auf Grundlage von User Research zu erstellen. Aus linguistischer Sicht versorgen diese Sprachdaten uns mit den Informationen darüber, wie die Nutzenden mit einem Sprachassistenten sprechen, um ihre Ziele zu erreichen.

Idealer Prozess

In einem idealen Prozess stellen wir den entsprechenden Konversationskontext her, in dem Nutzende auf natürliche Weise mit dem Assistenzsystem sprechen. So lernen wir, wie sie Anfragen an eine KI formulieren. Die Sammlung von User-Utterances und Audiodateien gibt uns Aufschluss darüber, welche Bedürfnisse die Nutzenden haben und wie sie diese individuell in Worte fassen, sodass wir ASR (Automatic Speech Recognition) und NLU (Natural Language Understanding) entsprechend trainieren können. In der Realität investieren die meisten Voice-Projekte jedoch nicht die Zeit und das Geld, die für diese Sammlungen erforderlich sind.

Entscheidungen für einen Spracherkennungstyp und die jeweiligen Intents, die benötigt werden, um ein Gespräch zu beginnen, fallen oft schon vorher. Wir nutzen unser linguistisches Wissen, um Trainingsutterances zu formulieren, die der Sprachassistent entsprechend der User-Persona und den geplanten Use Cases verstehen soll. Dabei müssen wir sicherstellen, dass wir die wahrscheinlichsten und natürlichsten Formulierungen in Bezug auf Lexikon, Syntax und Register trainieren und diese die Zielsprache und den jeweiligen Gesprächskontext repräsentieren.

Trainingsdaten und Spracherkennung

Wir wählen unsere Trainingsdaten unter Berücksichtigung der Art der Spracherkennung aus: Erkennung, die auf Maschinellem Lernen basiert, hängt meist von der Menge der Daten ab, wohingegen man der Maschine bei regelbasierten Ansätzen die prominentesten Strukturen in Form von Regelwerken beibringt.
Bei der Planung und Implementierung von unabhängigen, proprietären Assistenzsystemen (Custom-Built Voice Assistant), im Gegensatz zu plattformbasierten Applikationen, haben wir Auswahlmöglichkeiten, die nicht nur die Trainingsdaten betreffen, sondern auch die Art der Spracherkennung und sogar die Anbieter für die Erkennungssoftware.

Der VUI-Design-Prozess beginnt in den meisten Fällen damit, Trainingsutterances zu schreiben und sie mit Sprachdaten aus gezielten Nutzer*innenbefragungen zu ergänzen. 

VUI-Design-Prozess

Nicht nur unser Intent-Traning selbst, sondern auch unser Dialog-Design ist darauf ausgelegt, Nutzenden möglichst viel Spielraum zu lassen, ihre Sprachabsichten in eigene Worte zu fassen und somit neues Trainingsmaterial in jeder Konversation zu sammeln.
Hierbei geht es darum, die Qualität von Erkennung und Sprachinteraktion konstant zu verbessern. Dieses Ziel erreichen wir, indem wir, wo möglich, beispielsweise offene Fragen designen und es vermeiden, Nutzende zu primen, sodass sie nicht auf eine vorhersehbare Art und Weise antworten, wenn wir es nicht ausdrücklich möchten.

Durch meine Erfahrung als Senior Linguist und VUI Architect auf dem DACH-Markt ist mir klar geworden, dass wir nicht immer Maschinelles Lernen (ML) und Unmengen von Daten benötigen.

Maschinelles Lernen und Unmengen von Daten

Ich weiß, dass das eine gewagte Behauptung ist. Viele Meinungen im Bereich der KI gehen derzeit in eine andere Richtung. Weil ML so flexibel ist, kann es große Mengen an Daten analysieren und erlaubt dadurch vielseitigere Konversationen mit einem Assistenzsystem. Regelbasierte Systeme sind eher konzeptionell. Language Engineers formulieren mit unserem linguistischen Input Regeln, um sie zu trainieren.

ML erledigt das automatisch und in vielfacher Geschwindigkeit, sodass das Konversationserlebnis intuitiver ist – Nutzende können eine größere Vielfalt an Wörtern und Satzstrukturen verwenden, um eine Anfrage zu formulieren. In manchen Fällen allerdings brauchen Nutzende gar nicht so viele Möglichkeiten, um eine Anfrage an ein Assistenzsystem zu richten. Die Anzahl an Formulierungen, um zum Beispiel den Fernsehkanal um- oder das Licht einzuschalten, sind tatsächlich ziemlich begrenzt.

Meine Vision ist es, gezielt zu entscheiden, was wir in Bezug auf Spracherkennung und Datenerfassung brauchen – je nach Projekt und Gesprächssituation.

Maschinelles Lernen und Unmengen von Daten

Zweitens verwenden wir verschiedene Arten von Daten für die Analyse und Verbesserung des Dialog-Designs. Jedes Design basiert auf einer Hypothese darüber, wie die Interaktion zwischen der User-Persona und dem Sprachassistenten höchstwahrscheinlich abläuft und als gute Experience wahrgenommen wird. Um zu beweisen, dass eine solche Designhypothese richtig oder falsch ist, benötigen wir anonymisierte Daten über Interaktionen. Kombinieren wir u. a. Erkenntnisse aus Daten über Erfolgsquoten und Zielerfüllung, haben wir die Möglichkeit, Interaktionen anzupassen, zu optimieren oder zu personalisieren.

Wir können die Bedürfnisse der Menschen, die mit digitalen Assistenzsystemen interagieren, nur dann erfüllen, wenn wir die Interaktionsmuster und das Nutzer*innenverhalten beobachten. So entwerfen und implementieren wir wirklich nutzer*innenzentrierte Anwendungen für die Konversation zwischen Mensch und Maschine.

Entwicklung durch Analyse

Die Möglichkeit, Designhypothesen durch Analysen zu überprüfen, ist einer der größten Vorteile bei der Entwicklung von Custom-Built Assistants. Verlässt man sich ausschließlich auf Google Assistant und Alexa, ist das in dieser Form nicht möglich, da Spracherkennung und Interaktionsdesign ab einem bestimmten Detailgrad einer Blackbox gleichen, uns also nicht genügend Aufschluss über individuelle Nutzer*innenbedürfnisse geben.

Hier verlassen wir uns auf die datengestützten Erkenntnisse der jeweiligen Plattform, d.h. die häufigsten Muster, die gute Interaktion ausmachen. In beiden Fällen werden die besten Erkenntnisse über intuitive Gesprächsverläufe jedoch durch qualitative Maßnahmen gewonnen, also einfach in Gesprächen – eben in der Konversation mit den Menschen, die das Assistenzsystem benutzen.“

Oana Ciobotea:

Was müssen Unternehmen beachten, um die Datenanalyse und KI-Interaktion in Voice-Projekten auf eine unvoreingenommenere Art und Weise anzugehen?

Dr. Laura Dreessen:

„Ich bin Mikro-Linguistin. Die Mikro-Linguistik beschäftigt sich hauptsächlich mit Abstraktionen und deren Instanzen. Das bedeutet, dass mehrere konkrete Realisierungen oder Vorkommen von etwas unter derselben Abstraktion generalisiert werden können, um Sprache zu beschreiben. Beim ASR- und NLU-Training bringen wir Maschinen auf diese Weise bei, wie einzelne Varianten von gesprochener oder geschriebener Sprache zum selben abstrakten Muster oder zum selben Intent gehören.

Abstrahieren bedeutet, dass verschiedene Varianten individuelle Merkmale verlieren, um in dieselbe generalisierte Kategorie zu passen; je allgemeiner die Abstraktion ist, desto weniger Vielfalt deckt sie ab; je geringer die Menge des Inputs, desto größer ist die Wahrscheinlichkeit, eine Verzerrung durch Generalisierung herbeizuführen.

Bias in AI

Der Ausdruck ‚Bias in AI‘ (systematische Verzerrung von Daten in der KI) weist in diesem Kontext darauf hin, dass Algorithmen abstrakte Muster aus zu wenigen und unausgewogenen Daten ableiten und kategorisieren. Das erklärt wiederum die Notwendigkeit einer großen Bandbreite an unterschiedlichen Daten, um menschliches (Sprach-)Verhalten in all seinen Facetten auf unvoreingenommene und faire Weise zu erfassen. Wenn uns die Quantität fehlt, um die Vielfalt zu erfassen, sollten wir als Linguist*innen und Designer*innen die Qualität und Ausgewogenheit der Trainingsdaten für Maschinen sicherstellen, um falsche Abstraktionen und falsches Lernverhalten zu vermeiden.

Beim Training der Spracherkennung sollten wir das Ziel verfolgen, jedem*r Nutzer*in eine Stimme zu geben, ob Daten nun gesammelt oder von uns vorgegeben werden. Idealerweise sollten möglichst viele sozio-linguistische Parameter im Trainingsdatensatz abgedeckt sein: Altersgruppe, Geschlecht, Herkunft, Register, Dialekt, Gesprächssituation, Tonhöhe usw. Das gilt sowohl für Audiomaterial, das zum Training der ASR dient, als auch für Trainingsutterances, die als Grundlage für Intent-Design, Erkennung und NLU dienen, sowie für Interaktionsmuster, auf denen wir unser Design aufbauen.

Beim Dialogdesign sollten wir uns jederzeit darüber bewusst sein, dass wir nur Konzepte von Gesprächen entwerfen. Es handelt sich also eigentlich um abstrakte Gespräche zwischen einer abstrakten User-Persona, die so viele sprechende Individuen wie möglich repräsentieren soll, und einer abstrakten Persönlichkeit, die für das Assistenzsystem entworfen ist – Dialogdesign ist streng genommen also bereits eine Abstraktion in sich.

Mensch und Maschine

Um die voreingenommene Sichtweise zu vermeiden, dass wir tatsächlich in der Lage wären, Interaktionen zwischen Mensch und Maschine intuitiv zu gestalten und echte Gespräche widerzuspiegeln, erinnere ich mich gerne daran, dass mein Design niemals alle individuellen Bedürfnisse von Millionen von Nutzenden abdecken oder der Individualität eines menschlichen Gesprächs nahe kommen kann. Wenn es um die Gestaltung digitaler, dialogorientierter Assistenzsysteme geht, ist es meine ganz persönliche Vision, die Anzahl der Individuen zu reduzieren, die durch die User-Persona repräsentiert werden.

Wenn ich für eine kleine, ausgewählte Gruppe von Nutzenden designe, ist das Risiko der Verzerrung geringer: Ich kann mich auf eine viel geringere Anzahl individueller Bedürfnisse und Eigenschaften konzentrieren, benötige weniger Daten für das Training der Maschine und muss weniger Aufwand betreiben, um die Daten im Gleichgewicht zu halten. Ich kann mir vorstellen, dass dies letztlich dazu führt, Verzerrungen vermeiden zu können und stattdessen dem Ziel näher zu kommen, effiziente, kontextbasierte und personalisierte digitale Assistenzsysteme zu erschaffen.“

Oana Ciobotea:

Wie können wir Unternehmen und Projektmanager*innen dazu ausbilden, sich um Datensicherheit und Datengenauigkeit zu bemühen?

Dr. Laura Dreessen:

„Meiner Meinung nach stehen wir tatsächlich vor einem großen Dilemma. Jede Datenerhebung oder -beobachtung im gegenwärtigen Zeitalter der KI sollte auf dem beharrlichen Bemühen beruhen, Datengier zu vermeiden, also nur so viele Daten zu sammeln, wie im Hinblick auf Datensicherheit, Data Governance und Datenschutz erforderlich sind. Gleichzeitig sollten die Daten Diversität abbilden, was bedeutet, dass eine enorm große Datenmenge benötigt wird, um diese Vielfalt abzudecken.

Zusätzlich muss über die richtige Balance in den Daten entschieden werden, um daraus generalisierte Muster abzuleiten, die Verzerrungen vermeiden. Es liegt immer an uns, wie Maschinen lernen, menschliches Verhalten zu interpretieren und zu verallgemeinern.

Linguistische Grundlagen

Um mit diesem Dilemma umzugehen, möchte ich die Gelegenheit nutzen, Projektleiter*innen in einem ersten Schritt die linguistischen Grundlagen, also die Theorie hinter der Datenauswahl, zu vermitteln. Zu Beginn von Projekten sollten wir dazu Workshops veranstalten, denn, seien wir ehrlich, die meisten Menschen sind keine Linguist*innen, und das müssen sie ja auch nicht sein.

Ich möchte unsere Kund*innen über die Technologie aufklären, und darüber, wie wir Daten nutzen und wie sie das Verhalten der KI beeinflussen. Deshalb haben meine Linguistik-Kolleg*innen und ich einen Kurs mit dem Namen ‚Linguistics-Based Conversational Design‘ entwickelt. Er erklärt, wie die Gesprächspartner*innen und die eigentliche Konversation oder multimodale Interaktion bei der Gestaltung eines Voice-Projekts definiert werden können. Ziel ist es, Entscheidungsträger*innen und Projektmanager*innen die Notwendigkeit verantwortungsvoller Expert*innenentscheidungen und einer menschzentrierten Vision zu vermitteln.

Sprachinteraktion

Darüber hinaus schaffen die Persönlichkeit des Assistenzsystems und die Werte, die ihr zu Grunde liegen, die Voraussetzungen für eine verantwortungsvolle Sprachinteraktion, die auf mehr als nur einer Markenpersönlichkeit oder einer Markenstimme beruht.

Aus gestalterischer Sicht wissen wir, wie wir sicher mit Daten arbeiten. Wir wissen, wie wir mit Sprach- und Nutzer*innendaten ethisch korrekt umgehen und finden die richtigen Methoden, um die Geschäftsziele unserer Kund*innen zu erreichen und gleichzeitig eine hervorragende User Experience zu bieten.

Alles beginnt mit einer guten Vision und einer charismatischen Persönlichkeit hinter dem Assistenzsystem.“

Oana Ciobotea:

Wie können wir sicherstellen, dass KI auf eine sozial verantwortliche Weise eingesetzt wird?

Dr. Laura Dreessen:

„Aus meiner ganz persönlichen Sicht müssen wir einen Punkt erreichen, an dem die sprachgesteuerte KI ein funktionales Werkzeug ist. Als solches muss KI zweckgebunden und zielorientiert sein. Bezogen auf nutzer*innenzentrierte Sprachanwendungen bedeutet das, dass wir für jeden Sprachassistenten einen guten Charakter entwerfen sollten, der sozial bewusst und verantwortungsvoll ist und hoffentlich auch die Marken in dieser Hinsicht repräsentiert.

Verantwortungsbewusste Assitenzsysteme

Bei VUI.agency beraten wir Marken, um solche sozial verantwortungsbewussten Assistenzsysteme zu schaffen. Visionen für die Sprachinteraktion sollten danach streben, geschäftliche Ziele und Use Cases, die sich aus unserem täglichen Leben ableiten, zu kombinieren – und nicht nur eine KI nach der anderen zu entwerfen, die eventuell an den tatsächlichen Bedürfnissen der Nutzer*innen vorbeigeht. Nehmen wir an, mehr Unternehmen entscheiden sich für einen qualitativeren Ansatz von Anwendungsfällen und machen ihn für alle zugänglich. Warum sollte man nicht eine KI entwickeln, die nur dazu dient, Menschen mit bestimmten Bedürfnissen zu helfen oder einzelne Menschen im Alltag unterstützt? Wir sind noch nicht ganz da, aber wir machen Schritte in diese Richtung.“

Oana Ciobotea:

Wie sieht deine Vision für die Zukunft der Voice-Industrie aus?

Dr. Laura Dreessen:

„Meine Vision ist es, Technologie und Digitalisierung zu nutzen, um die Bedingungen für Natur und Menschen wieder zu verbessern. Dazu müssen wir unsere KI-Systeme beherrschen und sie erst einmal verstehen, um das Beste für uns aus ihnen herauszuholen. Das liegt in unserer Hand. Es ist wichtig, dass die Kund*innen diese Vision teilen oder zu dieser Vision tendieren.

Auftraggeber*innen brauchen immer eine Vision für Voice, um zu kontrollieren, wie sie mit Daten umgehen und um bewusst zu entscheiden, wie sie mit Nutzenden interagieren möchten. Diese Vision tendiert momentan verständlicherweise eher noch zu großen Teilen in die Richtung reiner Markenrepräsentanz.

Ich freue mich auf kommende Zeiten, in denen wir Technologie und digitale Assistenzsysteme für klar definierte, menschzentrierte Ziele einsetzen werden und hierzu in die bestmöglichen Tools und Partner*innen investieren. Ich freue mich auch darauf, unsere Arbeit durch interdisziplinäre Forschungsansätze aus dem technischen, aber auch vor allem dem geisteswissenschaftlichen Bereich, belegen und weiterentwickeln.“

Interviewt von Oana Ciobotea

Übersetzt von Carla Boos und Laura Dreessen

Share via