Wird die Sprachsteuerung in Zukunft eine weit verbreitete Funktion in Videospielen sein?

05.10.2021 5 Minuten

Die neuen Sport-Games 2021 kommen auf den Markt.

Stellt euch vor, eure absoluten Lieblingsspiele würden auf ein ganz neues Level gehoben. Stellt euch vor, ihr spielt FIFA und steht in den letzten Minuten auf dem Spielfeld, liegt 1:2 zurück und versucht, euren Gegner auszuspielen, aber es klappt einfach nicht.

Wäre es nicht viel komfortabler, sich auf den Ballbesitz zu konzentrieren, und einfach per Voice einen Spielerwechsel oder eine neue Aufstellung anzufordern, sodass man die Finger auf den wichtigen Tasten lassen kann?

VUI.agency – VUI.blog – Wird die Sprachsteuerung in Zukunft eine weit verbreitete Funktion in Videospielen sein? – Marian

Im folgenden Beitrag werden wir euch verschiedene Beispiele von Videospielen mit eingebauten Sprachfunktionen vorstellen, sowie über die Herausforderungen und Chancen, die die Voice-Nutzung im Gaming-Bereich mit sich bringt, und die damit verbundene Verbesserung des User-Engagements informieren.

Sollten wir nicht mal etwas experimentierfreudiger sein und neue Technologien wie die Sprachsteuerung, die dies ermöglichen, offener einsetzen?

FIFA 15 & 16 haben den ersten Schritt gewagt

Manche von euch werden sich vielleicht daran erinnern, dass Spielerwechsel per Sprachbefehl bereits in FIFA 15 und 16 möglich waren, später aber aus einem bestimmten Grund wieder entfernt wurden: Der Prozess dauerte einfach zu lange, war zu kompliziert, die Sprachbefehle waren mehr oder weniger vorgegeben und somit war das Feature für die Spieler*innen nicht so hilfreich wie es hätte sein können: FIFA 15, wie man einen Spielerwechsel mit Hilfe der Spracherkennung durchführt.

Was ist schief gelaufen

Zunächst einmal waren die ASR (Automatic Speech Recognition, d.h. Automatische Spracherkennung) und das NLU (Natural Language Understanding, d.h. Natürliches Sprachverstehen) noch nicht auf einem ausreichenden Niveau, um eine reibungslose User Experience zu ermöglichen.

Damals war es nicht möglich, auf natürliche Weise zu sprechen. Betrachten wir mal ein konkretes Beispiel: Wenn man FIFA spielt und einen Spielerwechsel durchführen möchte, würde man vielleicht sagen:

Nimm Sané raus und ersetze ihn durch Gnarby.
Sané raus, Gnarby rein.

Was für eine Odyssee das allerdings für Spieler*innen in FIFA 15 und 16 war, kann man auf den folgenden Bildern sehen.

VUI.blog – Will voice control become a widely-used feature in video games in the future? – Marian – FIFA 15 by EA SPORTS VUI Design

Zunächst musste man „Auswechseln“ sagen, dann musste man die Position des Spielers wählen, z. B. „Verteidiger“.

Dann zeigte FIFA die vier Verteidiger an, die sich gerade auf dem Spielfeld befanden, und gab ihnen Namen von SUB 1 bis SUB 4.

Danach konnte man aus den drei Verteidigern wählen, die als Auswechselspieler bereitstanden (SUB 1).

Das Gespräch zwischen dem oder der Spieler*in und FIFA verlief dann folgendermaßen:

Auswechseln (1-2 Sekunden Pause).
Verteidiger (1-2 Sekunden Pause).
SUB 1 (1-2 Sekunden Pause).
SUB 3 (1-2 Sekunden Pause).

Nicht besonders intuitiv, oder?

Aber nur weil die Technologie zum Zeitpunkt von FIFA 15 und 16 vielleicht noch nicht ausgereift oder die Implementierung nicht ideal war, heißt das nicht, dass wir in Zukunft keine Voice-Funktionen hinzufügen können, die die Interaktion im Spiel tatsächlich erleichtern.

Voice-Technologie und Voice-Trends in aktuellen Videospielen.

Bisher war die Sprachsteuerung bei den großen Publishern eher ein experimentelles Feature und nicht immer erfolgreich, wie das obige Beispiel von FIFA zeigt. Ein Schritt in Richtung In-Game-Interaktion per Voice war jedoch Ubisofts Star Trek: Bridge Crew aus dem Jahr 2017, das mit oder ohne Virtual-Reality-Headset (VR) gespielt werden kann und IBM Watson nutzt, um Einzelspieler*innen die Möglichkeit zu geben, eine virtuelle Crew per Voice zu steuern.

Voice-Technologie wird auch in dem Koop-Horrorspiel Phasmophobia auf sehr innovative Weise eingesetzt, bei dem traditionelles Bildschirm- oder VR-Gameplay mit einem Voice-Chat kombiniert wird, auf den nicht nur die anderen Spieler*innen, sondern auch die Geister im Spiel reagieren. Diese sehr immersive Erfahrung hat die Gaming-Community fasziniert: Im Oktober 2020 lag Phasmophobia auf Platz 8 der meistgesehenen Videospiele auf Twitch mit insgesamt 48,6 Millionen Sehstunden.

In vielen Mods (Modifikationen von Originalspielen) werden Games, die in Fantasiewelten angesiedelt sind, mit Spracherkennung und/oder VR erweitert, oft auch in Kombination. Solche Mods gibt es zum Beispiel für das weltraumbasierte Action-Rollenspiel (RPG) Star Wars: Squadrons und das Fantasy-RPG Skyrim, das zu den meistverkauften Videospielen aller Zeiten gehört. Auch GTA V mit Mods ist heute sogar noch beliebter als das 2013 erschienene Originalspiel.

Falls die Spracherkennung in Zukunft Bestandteil von immer mehr Spielen wird, könnten die Spieler*innen sogar mit nicht spielbaren Charakteren (NPCs) in einem natürlichen Dialog interagieren. Einige Videospiel-Welten würden sich auch generell sehr gut für die Sprachsteuerung eignen, so wäre zum Beispiel das Ausführen von Zaubersprüchen in Harry Potter-Spielen viel natürlicher, wenn man die Zaubersprüche einfach laut aussprechen könnte, anstatt ein Muster zu zeichnen oder sie aus einem Menü auszuwählen.

Ein von Fans entwickeltes Spiel ermöglicht den Potterheads unter uns genau das: Ravenclaw Common Room VR Gameplay. Die Interaktion per Voice würde es den Fans eines bestimmten Universums auch ermöglichen, viel tiefer in das Spiel einzutauchen.

Neben der In-Game-Einbindung von Voice wurde Voice teilweise auch als zusätzlicher Kanal für Spieler*innen genutzt, um mit Inhalten zu interagieren, die sie aus einem bereits existierenden Spiel kennen: Electronic Arts (EA) hat 2019 einen Alexa-Skill für Die Sims 4 veröffentlicht. Nutzer*innen können damit etwas über die Geschichte des Spiels erfahren, Musik aus allen Die Sims-Spielen abspielen oder ein Sims-Quiz spielen.

Gleichzeitig erhielten die Sims in Die Sims ihren eigenen Sprachassistenten Hein-Z im Spiel. Es bleibt abzuwarten, ob Spieler*innen in Zukunft auch Voice nutzen können, um die In-Game-Interaktion in Die Sims zu steuern.

Vor kurzem hat EA zudem ein Patent für sprachgesteuerte RPGs (Role Playing Games) angemeldet. Das Patent beschreibt ein System, das (maschinell) lernt, bestimmte Gruppen von benutzerdefinierten Äußerungen des Spielers oder der Spielerin mit einer bestimmten Aktion eines NPCs im Spiel zu verknüpfen. Mit einem solchen System könnte Voice-Technologie genutzt werden, um NPCs (Non-Player-Characters) Befehle zu erteilen und gleichzeitig den Charakter des Spielers oder der Spielerin auf andere Weise zu steuern.

Auch Gaming-Hardware wird immer sprachfähiger. So verfügt beispielsweise der neue PlayStation 5-Controller über ein eingebautes Mikrofon, das ein Headset überflüssig machen könnte, da es auch Hintergrundgeräusche filtert.

Da Voice-Technologie im Alltag immer präsenter wird (schon heute besitzen 25 % der Deutschen einen Smart Speaker, und diese Zahl wird voraussichtlich noch steigen), ist es vermutlich nur eine Frage der Zeit, bis die Sprachsteuerung auch in Videospielen zum Einsatz kommt.

Was denkt ihr darüber? Könntet ihr euch vorstellen, dass Voice in Zukunft ein fester Bestandteil eures Lieblingsspiels wird? Würdet ihr als Spieleentwickler*in oder Produktverantwortliche*r euer Videospielprojekt mit Voice-Funktionen ausstatten? Habt ihr eine Idee für ein völlig neues, gesprochenes Gaming-Erlebnis? Oder denkt ihr, dass Voice das traditionelle Gameplay niemals vollständig oder zumindest teilweise ersetzen wird? Teilt uns gerne eure Meinung auf unserem Twitter-Account mit.

Bleiben Sie dran für den zweiten Teil: The challenges for speech recognition in games

Share this article

Warum Multimodalität und Multidevice die großen Trends im Jahr 2021 sind

Sara Oliver G.V. 24.02.2021

Im Rückblick auf das letzte Jahr können wir sehen, wie Voice-Technologie immer weiter exponentiell wuchs. Die Zeit, die wir zuhause verbringen, der Mangel an Kommunikation mit der Außenwelt und unsere gestiegene Internetnutzung sind nur einige Faktoren, die die Adoptionsgeschwindigkeit beeinflussen. Brian Roemmele, Vorsitzender von Multiplex, vermutet jedoch, dass der Voice-First-Bereich weiterhin die Technologie mit der schnellsten Adoptionsgeschwindigkeit unserer Zeit bleiben wird.

Blogartikel lesen

Der 24. Dezember 2030 – Eine Reise in das Weihnachten der Zukunft

Carla Boos 17.12.2020

Erinnert ihr euch noch an den letzten Geist in Eine Weihnachtsgeschichte von Charles Dickens? Den Geist, der den kaltherzigen Protagonisten ohne ein Wort zu sprechen mit in die Zukunft nimmt, zu einem dunklen und düsteren Weihnachten? In diesem Blogpost wird es nicht um eine solch unheilvolle Stille gehen – ganz im Gegenteil. Wir wollen euch auf eine Reise in eine strahlende Zukunft mitnehmen, in das Jahr 2030, und eine Vision aufzeigen, in der die Technologie, die wir schon heute nutzen, uns die Weihnachtszeit versüßt.