Von Katharina Fuchs
Abstract
In Virtual-Reality-Filmen (VR-Filmen) ist die Verwendung einer Erzählerstimme nahezu obligatorisch. Sie ermöglicht es den Zuschauenden, mit der virtuellen Umgebung zu interagieren, ohne die Handlung zu verpassen. Aber was passiert, wenn die Zuschauenden selbst sprechen und durch ihre Stimme mit dem VR-Film interagieren? Werden sie dadurch Teil der Geschichte und des Geschehens? Können sie so leichter und fließender mit der virtuellen Umgebung interagieren? Anhand von zwei Fallbeispielen möchte ich die Hypothese untersuchen, dass die Zuschauerstimme zu einer flüssigeren und “natürlicheren” Interaktion führen kann, die die Zuschauenden emotional und körperlich in die virtuelle Umgebung einbezieht und so ein Gefühl der Immersion erzeugt. Muss die Stimme immer ein immersives Moment schaffen? Oder könnte sie im Gegenteil die unsichtbare Trennung zwischen den Zuschauenden und der virtuellen Umgebung betonen? Die beiden VR-Filme, die in diesem Artikel untersucht werden, setzen den physischen und den virtuellen Raum in Kontrast zueinander und nutzen diesen Kontrast, der durch die Zuschauerstimme hervorgehoben wird, um eine Geschichte von Diskrepanz und Ausgrenzung zu erzählen.
In Virtual Reality films (VR films), the use of a narrator’s voice is almost obligatory. It allows the viewers to interact with the virtual environment without missing the plot. But what happens when the viewers themselves speak and interact with the VR film through their voices? Does this make them a part of the story and the events? Can they interact more smoothly and seamlessly with the virtual environment as a result? Using two case studies, I want to explore the hypothesis that the viewers’ voice can lead to a smoother and more “natural” interaction, emotionally and physically involving the viewers in the virtual environment, thus creating a sense of immersion. Must the voice always create an immersive moment? Or, on the contrary, could it emphasize the invisible separation between the viewers and the virtual environment? The two VR films examined in this article juxtapose the physical and virtual spaces and use this contrast, highlighted by the viewers’ voice, to tell a story of disparity and exclusion.
1. Einleitung
Sie stehen auf dem Zionsplatz in Jerusalem, in einer kleinen Gruppe, die sich um einen Stand-up-Comedian gebildet hat. Plötzlich spricht der Comedian Sie persönlich an:
»Komm schon, erzähl mir was… Er ist ganz still. Wenn meine Frau still ist, dann weiß ich: Es gibt ein Problem! Komm mal, komm schon, komm, komm zu mir, mein Freund. Nicht so schüchtern. Hier, das ist dein Applaus! Woher kommst du? … Nichts… Was, sprichst du kein Deutsch? Komm schon, rede mit mir… Ich kanns nicht glauben, ich hätte jeden von euch tollen Leuten hier nehmen können, und ich nehme den einzigen, der stumm ist!«
Sie würden gerne antworten, doch das können Sie nicht. Sie sind stumm, oder besser: eine unsichtbare Barriere trennt Sie von dieser Szene, Sie sind dort und doch nicht da, Sie wollen antworten, vielleicht tun Sie dies auch, aber Ihre Stimme dringt nicht zu der Menschenmenge durch.
Diese Szene stammt aus dem Virtual-Reality-Film (VR-Film) Glaube von Dani Levy (2019), Teil der Serie Geschichten aus Jerusalem, die die angespannte politische Lage in Israel aus verschiedenen Perspektiven beleuchtet[1]. Levy platziert den Zuschauer oder die Zuschauerin in einer für VR-Filme ungewöhnlichen Position: Er oder sie wird direkt angesprochen, was man auf den ersten Blick als eine soziale Einbindung in den VR-Film verstehen könnte, eine Aufforderung, aktiv Teil zu haben an dem Geschehen, zu sprechen und das Medium somit mitzugestalten. Jedoch bleibt dieser Versuch der Einbeziehung vergebens: die Zuschauenden können nicht mit diesem 360° Video interagieren, sie bleiben stumm, und spüren umso mehr, dass sie nicht (wirklich) dort sind, auf dem Zionsplatz. Damit durchkreuzt Glaube den Versuch der meisten VR-Filme, die Zuschauenden aktiv mit einzubeziehen, oder ihnen zumindest die Illusion zu vermitteln, sie könnten mit dem VR-Film interagieren. VR-Filme imitieren eine stereoskopische Sicht und räumliches Hören und erschaffen dadurch einen phänomenalen Raum, der unsere Wahrnehmung des realen Raumes imitiert[2]. Deshalb bauen die meisten VR-Filme ihre Erzählung auf dem Prinzip der Immersion und der direkten Einbindung der Zuschauenden auf, indem sie ihnen das Gefühl vermitteln, Teil der Handlung und des virtuellen Raumes zu sein.
In diesem Zusammenhang spielt die verbale Kommunikation eine große Rolle, meist in Form eines Voice-Over, manchmal auch in Form einer Figur wie in Glaube, und in wenigen seltenen Beispielen auch in Form der Stimme der Zuschauenden, die mit dem VR-Film interagieren kann. Die Stimme erweist sich in VR-Filmen als nahezu allgegenwärtig und übernimmt in großen Teilen die Erzählung. Auch wenn es Ausnahmen gibt, die auf ein Voice-Over verzichten, oder seine Erzählerrolle einschränken[3], folgen die meisten VR-Filme diesem verbalen Erzählprinzip. Einerseits soll das Voice-Over die Erzählung erleichtern, da es das 360-Grad-Bild von dieser Rolle befreit und in einem interaktiven Medium eine sequenzielle Erzählung möglich macht[4]. Aber vor allem soll die Stimme einen emotionalen Bezug zu den Zuschauenden erstellen. Die Pädagogin Doriet Berkowitz stellt die Hypothese auf, dass mündliche Erzählungen die Kraft haben, Gemeinschaften zu formen und Spannungen durch erzählerische Darstellungen zu lösen oder zu besänftigen. Diese narrative Form habe die Fähigkeit, indirekte soziale Interaktionen zu fördern und Gemeinschaften zu schmieden (Berkowitz 2011).
In Bezug auf VR-Filme wird generell angenommen, dass die direkte Ansprache zu mehr Engagement mit dem Medium führt. Die Stimme ist neben dem Körper das wichtigste Mittel der direkten Kommunikation. Roland Barthes schreibt in Die Körnung der Stimme, ein wichtiger Aspekt der gesprochenen Sprache seien ihre vielen interpellierenden Funktionen:
„[W]hen we speak, we want our interlocutor to listen to us; we revive his attention with meaningless interpellations (of the type ‚Hello, hello, can you hear me?‘); unassuming as they are, these words and expressions are yet in some way discreetly dramatic: they are appeals, modulations […] through which a body seeksanother body.“ (BARTHES 1985: 4–5)
Somit versuchen diese Medien, durch die direkte Ansprache die transparente Barriere zwischen ihnen und ihren Empfängern zu durchbrechen und das gleiche Gefühl der Unmittelbarkeit zu erzeugen, das den (physisch anwesenden) Erzähler oder die Erzählerin mit seinem Publikum verbindet.
Diese Annahme besteht umso mehr, wenn es sich nicht um einen Erzähler oder eine Erzählerin handelt, die die Geschichte erzählt, sondern wenn die Zuschauenden selbst gebeten werden, das Wort zu ergreifen und durch ihre Stimme mit dem VR-Film zu interagieren. Es gibt bislang nur wenige Beispiele, in denen der Zuschauer oder die Zuschauerin sprechen und mit dem digitalen Inhalt interagieren kann, von denen ich zwei in diesem Artikel besprechen werde. Dabei könnte dies einen weiteren Schritt in Richtung größerer Fluidität, gesteigerter Realität, verstärkter emotionaler Bindung und tieferer Immersion bedeuten, denn das Sprechen kann das Gefühl vermitteln, in dem virtuellen Raum anwesend zu sein und seine Interaktion mit diesem erleichtern.
Doch dies ist nicht die Situation in Glaube, die ich zu Beginn beschrieben habe. Hier hatte die direkte Ansprache einen gegenteiligen Effekt, und sollten die Zuschauenden versucht haben, zu antworten, so wurden sie mit einer ‚Glaswand‘, einer unsichtbaren, aber undurchdringlichen Grenze konfrontiert, die sie daran hinderte, an dem VR-Film Teil zu haben. Glaube erzeugt bewusst eine Situation der Ohnmacht, um eine Diskrepanz zwischen dem ‚gelebten Raum‘ und einer unüberwindlichen Trennung von Zuschauerraum und medialem Raum zu schaffen. Auch wenn Sprachinteraktionen mit dem VR-Film a priori als perfektes immersives Werkzeug erscheinen, hat der Regisseur sich im Falle von Glaube dazu entschieden, sie als emersives und distanzierendes Moment zu verwenden. In diesem Artikel möchte ich deshalb den Gebrauch der Stimme als einbindendes und immersives Element hinterfragen, denn viele VR-Filme bauen ihre Erzählung auf einer ambivalenten Beziehung zwischen dieser Zuschauerstimme und einem Gefühl der Immersion auf. Anhand von zwei Fallbeispielen, Darkening von Ondrej Moravec (2022) und Passengers von Ziad Touma (2020) möchte ich untersuchen, wie diese VR-Filme mit der Annahme spielen, man könne durch die Stimme (der Zuschauenden) direkt mit dem Medium interagieren.
2. Zwischen Voice-Control und Sprachdetektion
Die Verwendung der Stimme breitet sich zunehmend in Videospielen aus, einschließlich VR-Spielen. Je nach verwendeter Spracherkennungstechnologie kann sie Interaktionen erleichtern, indem sie die Navigation durch Menüs ersetzt, oder sogar teilweise eine Kommunikation mit virtuellen Charakteren ermöglicht. Doch zuallererst müssen wir uns fragen, von welcher Art der Sprachinteraktion wir sprechen, da es hiervon verschiedene Arten gibt; einige Spiele und alle VR-Filme, die ich bisher gesehen habe, verwenden einfache Spracherkennung, die Bedeutung der Worte spielt keine Rolle: Jedes Seufzen, Husten oder Summen kann als Sprache interpretiert werden. Viele Horror-Videospiele wie zum Beispiel Escape the Ayuwoki (Deadlycrow Games) verwenden diese Spracherkennung. Jeder Ton, den der Spieler oder die Spielerin macht, kann von dem Monster gehört werden. Aber auch die beiden VR-Filme Darkening und Passengers verwenden diese einfache Spracherkennung. Im Fall von Passengers wurde diese Entscheidung getroffen, weil die Handlung zu komplex geworden wäre, wenn die ausgesprochenen Worte den Handlungsverlauf beeinflussen könnten – obwohl der Regisseur Ziad Touma mir in einem Interview sagte, dass er gerne eine komplexere Spracherkennung verwendet hätte[5]. Im Fall von Darkening spielt es eigentlich keine Rolle, was man sagt, solange man etwas sagt.
Doch warum benutzen Darkening und Passengers Sprachinteraktion, statt der üblichen Interaktion durch Joysticks, wenn man nicht einmal frei sprechen und interagieren kann? Beide Regisseure sagten mir in Interviews, dass sie sich von dieser Art der Interaktion eine bessere Einbeziehung in den VR-Film erhofften. Touma sagte:
„Die Stimme ist eine organische Nutzung unseres Körpers. Wir brauchen keine Gegenstände, sei es Sensoren oder Controller. Eines der Versprechen der VR ist echte Empathie, es geht wirklich darum, uns in einer möglichst realistische Welt zu verankern und uns in diese reliefartige Welt zu projizieren, in der wir fast existieren. Die Verwendung der Stimme trägt zur Menschlichkeit der Technologie bei, sie bringt auch unseren Körper mit ein. Unsere physische Präsenz in einer immateriellen Erfahrung, die unsere Sicht und unser Gehör anspricht. […] Wir tauchen wirklich in die Emotion und den Körper ein, denn die Stimme ist Teil des emotionalen Prozesses, nicht nur des physischen. Mit der Stimme ist es, als würde man einen Herzensschrei in eine technologische Erfahrung einbringen. Es geht darum, dieses Gefühl menschlicher Emotionen zurückzubringen.“ (persönliche Übersetzung)
Mark Ward schreibt in seinem Artikel Voice, videogames, and the technologies of immersion, dass die Möglichkeit, selbst zu sprechen zu einem größeren emotionellen Engagement und einem gesteigerten Gefühl der Immersion führen könnte (Ward 2010). Die Stimme bringt einerseits das Spiel voran und ist somit eine Form der Interaktion, sie erzeugt aber auch ein emotionales Engagement mit der Spielhandlung, den Figuren und der ‚Mission‘. „In this way, emotion, gameplay, and narrative are understood concurrently, thus sustaining immersion“ (ebd. : 270).
Andere Spiele arbeiten mit begrenzter Spracherkennung, wie zum Beispiel command and control-Befehlen, die als Erweiterung des Spielmenüs verwendet werden können, wie zum Beispiel in Blade and Sorcery (WarpFrog), wo man die Stimme verwenden kann, um die Waffen zu wechseln oder Gegenstände auszuwählen, die man bei sich trägt – Dinge, die man auch tun könnte, indem man im Menü navigiert. Durch die Verwendung der Stimme soll der Spielfluss gesteigert werden, da der Sprachbefehl langes Navigieren im Menü ersetzt und die Interaktion vereinfacht. Diese Annahme ist nicht nur auf VR-Spiele beschränkt, sondern trifft auch auf Bildschirmspiele oder Sprachassistenten vom Typ Siri zu: weniger Navigation im Menü, eine schnellere Auswahl und Kommunikation, freihändige und intuitivere Navigation… Die Verwendung der Stimme sei ergonomischer und einfacher. Gerade in VR-Spielen soll die Navigation dadurch auch der natürlichen Interaktion mit unserer Umgebung angepasst werden; durch die Stimme mit einem Spiel zu interagieren imitiert eine natürliche Interaktionsform, und kann somit die Akzeptanz der digitalen Umgebung erleichtern (vgl.: Dorozhkin/Vance 2002). Obwohl die Spieledesigner in Blade and Sorcery mehrere mögliche Sätze für einen einzigen Befehl überlegt haben, basiert diese Interaktion mit dem Spiel jedoch auf dem Wissen des Spielers über das Spiel und das Menü, und der intuitiven Interaktion geht ein mehr oder weniger langer Lernprozess voraus (vgl. Aegerter/Foissac 2019).
Andere Spiele ermöglichen tatsächlich eine echte Interaktion mit virtuellen Charakteren, wie The Elder Scrolls V: Skyrim (Bethesda Game Studios 2011). Dies als vollständig interaktive Sprache zu bezeichnen, würde jedoch zu weit gehen, da das Spiel mehrere Sätze anzeigt, aus denen der Spieler einen Befehl oder eine Anfrage auswählen kann, was die möglichen Ergebnisse der Szenen begrenzt. Laut Clifford Nass und Scott Brave sei diese sprachliche Interaktion natürlicher als Interaktionen über Controller und bilde die gleichen Mechanismen sozialer Interaktionen wie die mündliche Kommunikation zwischen zwei Individuen nach, da wir aufgrund von Gründen, die mit der menschlichen Evolution zusammenhängen, den Dialogsystemen menschliche Eigenschaften zuschreiben (Nass/ Brave 2005). Friederike Eyssel et. al. haben in einer Versuchsreihe einer Roboterstimme verschiedene menschliche Eigenschaften verliehen, um die Akzeptanz einer künstlichen Intelligenz zu testen. Sie fanden heraus, dass wir einer Roboterstimme menschliche Eigenschaften zusprechen, wenn diese auch ‚menschlich‘ klingt. Sie schreiben: „As predicted, participants showed greater […] acceptance and felt psychologically closer to the robot when robot and participants shared the same gender. Moreover, participants even anthropomorphized a system more strongly when it used a same-gender, but human-like voice“ (Eyssel et. al. 2012: 126). Die Psychologen kommen zu der Schlussfolgerung, dass eine sprachliche Interaktion mit einer künstlichen Intelligenz mit menschlichen Zügen zu einer Projektion führt. Wenn unser Gesprächspartner oder unsere Gesprächspartnerin wie wir klingt, muss er oder sie uns auch ähneln.
Zu dieser Spielende-Spiel-Interaktion können wir noch Spielende-Spielende-Interaktionen hinzufügen, die entweder über ein Mikrofon erfolgen oder in manchen Multiplayer-VR-Spielen auch einfach durch die gleichzeitige Anwesenheit im gleichen Raum. In Massively Multiplayer Online Games (MMOs) ist es mittlerweile üblich, dass die eigene Stimme eines Spielers oder einer Spielerin auf eine extradiegetische Weise verwendet wird. Während des Spieles kommunizieren die Spieler miteinander und kommentieren das Spielgeschehen. Mark Ward schreibt, dass dies einerseits das Gefühl von Immersion im Spiel reduzieren könne, aber gleichzeitig soziale Interaktionen zwischen den Spielern fördere und somit zu mehr Gruppenzusammenhalt führen könne (Ward 2010: 273). Während des New Images Festival 2023 (Paris)[6] spielte ich das VR-Spiel Ascenders von Jonathan Astruc (2022) für vier Spieler. Die Handlung spielt auf einer Insel, und das Ziel besteht darin, zusammenzuarbeiten, um den Gipfel eines Berges zu erklimmen, die einzige Möglichkeit, einer wachsenden Tsunamiwelle zu entkommen, die droht, die gesamte Insel zu überfluten. Die vier Spieler konnten im digitalen Umfeld mit Controllern und ihren Avataren zusammenarbeiten, mussten aber auch einfach miteinander kommunizieren, indem sie ihre Stimmen (ohne Mikrofone und Kopfhörer) nutzten. Ich hörte über den Kopfhörer die Umgebungsgeräusche der Insel und gleichzeitig, aus dem Ausstellungsraum des Festivals kommend, die anderen Spieler, die darüber diskutierten, welche Strategie die beste sei.
Somit sind mit der Sprachinteraktion, gerade in Videospielen, viele Versprechen verbunden: das Versprechen einer körperlichen Einbeziehung, einer emotionalen und sozialen Beziehung mit dem Spiel und seinen Figuren, einer reibungsfreieren und natürlicheren Interaktion, und eines Wir-Gefühls der Spieler. Diese Versprechen werden im Fall von VR-Filmen nur teilweise erfüllt, da die beiden Beispiele Darkening und Passengers lediglich eine einfache Spracherkennung verwenden. Zudem haben Ziad Touma und Ondrej Moravec die bewusste Entscheidung getroffen, mit diesen Annahmen zu spielen. Trotz der versprochenen Vorteile der sprachlichen Interaktion in Bezug auf Fluidität, Freiheit und möglicherweise gesteigerter Immersion in die digitale Umgebung durch Beseitigung unnatürlicher Interaktionsformen wie Controller oder Menüs, erzeugen beide VR-Filme Momente der Emersion, der Distanz und der Ausgrenzung. Genau wie Glaube nutzen sie diese Art der Interaktion, um die Unmöglichkeit der Kommunikation zu inszenieren, um die Ausgrenzung der Zuschauenden aus der digitalen Umgebung zu betonen und ihre Position innerhalb des Werkes in Frage zu stellen. Damit konfrontieren sie die Zuschauenden mit einer unsichtbaren, aber unüberwindbaren ‚Glaswand‘ zwischen ihnen und der digitalen Umgebung (vgl. Wagner 2019) und spielen kreativ mit ihren Erwartungen an das Medium, uns in eine Umgebung einzutauchen, in der wir wie im ‚echten Leben‘ mit virtuellen Gegenständen interagieren können. Dies eröffnet den Weg für eine Erzählung, die gezielt auf einer unnatürlichen Passivität und einer Infragestellung der eigenen Zuschauerposition basiert.
3. Darkening: Das omnipotente Voice-Over und
die ohnmächtige Zuschauerstimme
Darkening von Ondrej Moravec[7], erstmals 2022 in Venedig gezeigt, ist ein autobiografisches Werk, das den Kampf gegen Depressionen thematisiert. Der Regisseur/Protagonist Ondrej führt uns als Voice-Over durch verschiedene Landschaften, die mit seiner Erfahrung im Kampf gegen Depressionen seit seiner Jugend verbunden sind. Die meisten Interaktionen im Film werden von der Stimme gesteuert: Der Protagonist, Ondrej, erkennt, dass seine Stimme sein Werkzeug ist, um mit der Depression umzugehen. Er verwendet Techniken wie Pfeifen, Singen und sogar Schreien als beruhigende und befreiende Mittel und ermutigt die Zuschauenden, dasselbe zu tun, zu pfeifen, zu singen und zu schreien, um gegen die Depression anzukämpfen. In unserem Interview[8] teilte mir Ondrej Moravec mit, dass er als Kind Pferderennen liebte, weil er mitten in der Menge laut schreien konnte, ohne verurteilt zu werden. Er wollte dieses Gefühl der Befreiung durch den VR-Film vermitteln:
„Dies ist eine Möglichkeit, mit der inneren Welt zu arbeiten, mit der inneren Landschaft der Seele, um nicht in einem großen Durcheinander zu enden. […] Ein Voice-Over wird Sie anleiten, Ihre Stimme kreativ zu nutzen. Es wird von Ihnen verlangt werden zu pfeifen, zu singen, zu grunzen, einfach alle Arten von Geräuschen zu machen. Dann beginnt die Landschaft, in der Sie gefangen sind, sich in etwas Positiveres zu verwandeln.“ (Persönliche Übersetzung)
Mit der Verschlechterung der Depression beginnt sich die digitale Landschaft zu verschlechtern und zu verdunkeln. Durch die Nutzung ihrer Stimme können die Zuschauenden die Landschaft ‚stabilisieren‘ und die Kontrolle über sie zurückgewinnen.
Abbildung. 1: Darkening von Ondřej Moravec. Die Zuschauenden folgen Ondřejs Stimme in seine inneren Gemütslandschaften. © Frame Films, NowHere Media, Brainz Immersive.
„Ich dachte, ich hätte den Tiefpunkt erreicht und dass es nicht zurückkommen würde. Aber nein, das gleiche Gefühl kehrt immer wieder zurück, dass ich nicht gut genug bin, um das Recht zu haben, zu leben.“[9] Der Monolog des Regisseurs/Protagonisten führt die Zuschauenden immer weiter in die innere Welt seiner Depression. So entsteht eine intime Beziehung zwischen Erzähler und Zuhörenden, ohne jedoch diese Rollenverteilung in Frage zu stellen: Was wir sehen, ist die innere Gedankenwelt von Ondrej, nicht die der Zuschauenden, die eingeladen werden, Zeugen und Zeuginnen ihrer Verwandlung zu werden. Auch wenn die Virtual Reality sich um den Körper des Zuschauers oder der Zuschauerin konstruiert, und er oder sie durch Bewegungen und Joystick mit dieser virtuellen Umgebung interagieren kann, so wird er oder sie hier in die Position von Zuschauenden – und Zuhörenden – versetzt. Ondrejs Stimme, die sie immer weiter in seine Gedankenwelt hineinführt, wird zum Protagonisten und Akteur des VR-Filmes.
Diese Dialektik zwischen (visueller) Abwesenheit und Omnipräsenz einer kommentierenden Stimme ist der Filmgeschichte gut bekannt. Vor dem Voice-Over gab es im Stummfilm den Kommentator, eine im Kinosaal anwesende Person, die den Film kommentierte oder die Dialoge nachsprach. In seinem Artikel Où est off? Et qui? (Wo ist off? Und wer?), betont Germain Lacasse, dass man ihn keineswegs als off bezeichnen kann, da er physisch im Raum präsent war, auch wenn er von der Leinwand abwesend war. „Er präsentierte den Film, aber er sagte auch den Film, er sprach den Film, er hatte die Macht zur Intervention und Vermittlung, die keine auf Band aufgezeichnete Stimme jemals haben wird“ (Lacasse 2000: 41. Persönliche Übersetzung). Paradoxerweise gelang es dem Kommentator, obwohl er nicht visuell auf der Leinwand präsent war, eine Nähe zu seinem Publikum herzustellen, denn er war ein integraler Bestandteil einer Gemeinschaft und hatte daher eine direkte Beziehung zum Publikum, im Gegensatz zu den ersten aufgezeichneten Voice-Overs, die kulturell oder sozial von den Zuschauenden entfernt sein konnten und manchmal die Stimme der Autorität übermittelten. Der Filmwissenschaftler Mathias Lavin schreibt, dass der Kommentator die Bedeutung der Oralität, aber auch der Performance im Kino der Frühzeit herausstellte: „Weniger als der Film ist es hier die Vorführung, jedes Mal einzigartig, die den Vorrang hat“ (Lavin 2021: 63. Persönliche Übersetzung). Der Kommentator hätte eine starke Interaktion mit dem Publikum und wäre weit entfernt von einem Voice-Over, präsent und mit lebhafter Stimme sprechend. Seine Anwesenheit hätte einen erheblichen Einfluss auf die filmische Erfahrung des Publikums, denn: „Die Präsenz eines Kommentators, der live in den projizierten Film eingreift, sichert die volkstümliche Essenz der kinematographischen Vorführung und dient als wesentlicher Anreiz, um ein Publikum zu berühren, das nur auf eine Aufforderung wartet, sich empathisch oder kontrovers zu äußern“ (ebd.: 64)[10].
Auch in VR-Filmen sind die imposanten und allwissenden Präsenzen, die oft mit ‚Gottesstimmen‘ verbunden sind, selten. Die meisten VR-Filme bevorzugen eine Stimme, die eine soziale, kulturelle und emotionale Nähe herstellen kann. Ähnlich wie der Kommentator soll sie die Zuschauenden ‚ansprechen‘, und somit eine Identifikation und ein Gefühl der Teilhabe erzeugen. Gerade in einem individuellen Medium, das sich immer nur an einen einzelnen Zuschauer oder eine einzelne Zuschauerin richtet, entfaltet diese persönliche Ansprache eine starke Wirkung, da sie eine Art intimer Verbindung herstellen kann[11]. Jedoch können wir uns in Bezug auf Darkening fragen, ob dies auch immer gelingt. Der VR-Film präsentiert die virtuelle Umgebung als eine innere Welt des Regisseurs, in der die Zuschauenden eingeladen sind, seine Erfahrungen zu teilen. Sie bleiben am Rande der Geschichte und spielen die Rolle abwesender, unbekannter Empfänger und Empfängerinnen, die nicht aktiv an der Erzählung teilnehmen. So bleibt die Einladung zur Interaktion mit der digitalen Umgebung oberflächlich. „Schau einfach auf deine Hände. Benutze deine Stimme. Dann ist es an der Zeit, alles zu reparieren[12].“ Ondrejs Stimme lädt sie dazu ein, selbst zu sprechen und aktiv zu werden. Jedoch kann diese Stimme sich den VR-Film nicht zu eigen machen, sondern bleibt immer von Ondrejs Aufforderungen und Anweisungen abhängig. Der Regisseur sagte mir:
„[D]er Erzähler erzählt die Geschichte und bittet Sie um diese Sprachinteraktion, sodass Sie seinen Handlungsanweisungen folgen, sozusagen. Aber wenn Sie sich dafür entscheiden, das nicht zu tun, gibt der Erzähler Ihnen keine schlechten Punkte oder Ähnliches, weil wir wollten, dass die Erfahrung inklusiv ist, damit sich jeder sicher fühlen kann, selbst wenn er sich entscheidet, die Stimme nicht zu verwenden.“ (persönliche Übersetzung)
Denn diese Interaktionen haben kaum Einfluss auf den Verlauf der Handlung, der allein durch die Erzählerstimme vorangebracht wird. Trotz der Möglichkeit, zu sprechen, bleiben die Zuschauenden abwesend. Während das Voice-Over präsent wird, befinden sie sich draußen, ausgeschlossen aus der virtuellen Welt. Der Begriff Over erscheint unangebracht angesichts dieser Präsenz der Stimme des Regisseurs. Es handelt sich um weit mehr als nur eine isolierte Stimme, es ist eine vollständige Figur, gleichzeitig abwesend und präsent[13]. Trotz des empfundenen Nahverhältnisses und der Möglichkeit zur Interaktion befindet sich der Zuschauer oder die Zuschauerin in einer machtlosen Position gegenüber dieser übermächtigen Stimme.
Abbildugen 2 und 3: Darkening von Ondřej Moravec. Durch die Stimme senden die Zuschauenden Lichter aus, die die zerstörte Umgebung wieder aufbauen. © Frame Films, NowHere Media, Brainz Immersive.
4. Die Glaswand überwinden?
Sich der Depression zu stellen und seine Stimme zu erheben erfordert Mut. Diesen Mut braucht es auch in Darkening, wenn man mit dem VR-Film interagieren möchte. Die Erzählung wird um eine Diskrepanz zwischen der digitalen Umgebung und den Zuschauenden herum strukturiert, die sich in einer Position befinden, die ich als ‚hinter einer Glaswand‘ bezeichnet habe. Die Barriere, die zwischen ihnen und der digitalen Umgebung besteht, zwingt sie, allen Mut aufzubringen, um laut zu sprechen. Die Zuschauenden erleben allmählich den Verfall verschiedener Landschaften, die als Ondrejs innere Gemütslandschaften dargestellt werden. Der Regisseur erklärte mir in unserem Interview, dass dieser Zustand der Zuschauenden dem Zustand eines ‚Zuschauers seines eigenen Lebens‘ entspricht, den man in Zeiten der Depression erleben kann. In einer solchen Situation erfordert es viel Mut, laut zu sprechen und sich zu äußern. Diesen brauchen auch die Zuschauenden, die aufgefordert werden, zu schreien oder eine Melodie zu singen, während sie sich anfangs hauptsächlich als Beobachter und Beobachterinnen der Geschichte eines anderen identifizieren. Moravec sagte:
„[W]ie Sie in der Geschichte sehen können, war die Verwendung der Stimme ein wichtiger Teil meiner Therapie. Und ich wollte auch – und ich dachte, dass das VR-Medium sehr gut geeignet wäre, dies darzustellen, was in einem klassischen flachen Film nicht möglich wäre – ich wollte, dass das Publikum die Kraft der Stimme erlebt. Deshalb sind einige Teile so gestaltet, dass Sie Ihre Stimme verwenden müssen, um die Geschichte voranzutreiben. Und Sie können die Kraft Ihrer Stimme erleben. Natürlich ist das ein bisschen heikel. Einigen Menschen gefällt das nicht so sehr, sie sind sehr schüchtern und zögern, laut zu sprechen.“
Diese Zögerlichkeit beruht auf der Tatsache, dass die Zuschauenden sich der Anwesenheit anderer Personen bewusst sind. Als ich den VR-Film auf dem Geneva International Film Festival (GIFF) von 2022 sah, befand er sich in einem gemeinsamen Raum mit anderen Werken. Das Bewusstsein, sich in einer geteilten Umgebung mit anderen Menschen zu befinden, ohne genau zu wissen, wo sie sind und ob sie mich beobachten, hat meine Bereitschaft, laut zu singen, eingeschränkt. Der Regisseur erklärte mir, dass er und sein Team derzeit in Betracht ziehen würden, bewegliche Trennwände um den VR-Film zu bauen, um so ein Gefühl von Intimität zu schaffen: „Für die Veröffentlichung in der Tschechischen Republik und für große Festivals haben wir unsere eigene physische Installation mit vier großen Ständen, in der Sie irgendwie versteckt sind und mehr Privatsphäre haben, was wichtig ist.“ Moravec sagte, dass die Tatsache, dass der VR-Film leicht abseits der anderen Werke im Festivalraum positioniert ist, es den Zuschauenden ermöglichen würde, sich freier auszudrücken, in dem Wissen, dass sie niemanden stören und nicht gestört werden[14]. Einerseits würde diese physische Trennung durch umsetzbare Wände die Zuschauenden sicherlich dazu motivieren, freier und lauter zu sprechen. Andererseits nutzt Darkening diese innere Barriere des öffentlichen Raumes aber auch als narratives Mittel. Ich betrachte diese Zögerlichkeit teilweise als eine Reaktion auf diese ‚Glaswand‘, eine Barriere, die auch eine soziale Dimension hat und den Zuschauer oder die Zuschauerin bestimmten sozialen Regeln unterwirft (denn man schreit nicht an einem öffentlichen Ort!). Sprechen und Singen werden somit therapeutische und befreiende Akte und ermöglichen das Überwinden der Glaswand. Dies wird umso deutlicher in einem vollen Saal während eines Festivals, wo der Zuschauer oder die Zuschauerin sich der Anwesenheit der anderen bewusst ist. Er oder sie muss viel Mut aufbringen, um die Glaswand zu durchbrechen, was der Regisseur mit der Situation einer depressiven Person verglichen hat, die ebenfalls viel Mut aufbringen müsse, um sich zu äußern.
Außerdem wird durch die Stimme die Projektion des gesamten Körpers möglich. Die visuellen und akustischen Rückmeldungen der Stimme ermutigen die Zuschauenden, mit der Umgebung zu interagieren und sie zu transformieren. Auch, wenn diese Interaktion sie nicht zu einem aktiven Bestandteil der Handlung macht, so erlaubt sie ihnen doch, sich in die virtuelle Umgebung zu projizieren. Während sie zu Beginn des VR-Films in einer zurückhaltenden Position waren, projizieren sie sich jetzt mit ihrem ganzen Körper in diesen Raum. Roland Barthes schreibt, dass die Stimme die Körperlichkeit ihres Sprechers oder ihrer Sprecherin in sich trage:
“Listen to a Russian bass […] : something is there, manifest and stubborn […] : something which is directly the cantor’s body, brought to your ears in one and the same movement from deep down in the cavities, the muscles, the membranes, the cartilages, and from deep down in the Slavonic language, as though a single skin lined the inner flesh of the performer and the music he sings. […] The ‚grain‘ is that: the materiality of the body speaking its mother tongue; perhaps the letter, almost certainly significance.“ (Barthes 1977: 181-182)
Barthes spricht hier von einem abwesenden Körper, der durch die Stimme präsent gemacht werde. Doch dies gilt auch für den im VR-Film abwesenden Körper des Zuschauers oder der Zuschauerin, der durch den Gebrauch der Stimme präsent wird. Summen, atmen, nach Luft schnappen: Sprechen beansprucht unseren gesamten Körper, und verankert uns physisch in einer gegebenen Situation. Somit liegt die Annahme nahe, dass die Zuschauenden sich physisch anwesend fühlen, wenn sie mit den virtuellen Charakteren sprechen und mit dem VR-Film interagieren können. Indem sie ihre Stimme als Mittel der Kommunikation und Interaktion verwenden, sind die Zuschauenden aktiv in die digitale Umgebung involviert. Sie projizieren sich jedoch nicht (nur) durch Worte in den VR-Film, sondern durch Summen, Schreien, Pfeifen – Klänge, die die Anwesenheit des Körpers direkter als ‚bloße Worte‘ ausdrücken. Durch die Verwendung ihrer Stimme verankern sie sich im depressiven Landschaftsbild durch ihre physische Präsenz und verwandeln den Film in eine erlebte Erfahrung anstatt einer einfachen äußeren Vorstellung. Die Zuschauenden werden während des gesamten VR-Films vor diese Herausforderung gestellt: Sie werden gezwungen sein, ihre Schüchternheit sowie soziale Tabus zu überwinden, um die digitale Umgebung in Ruinen zu transformieren und wieder aufzubauen.
5. Passengers: Ins Leere schreien?
Der zweite VR-Film, den ich vorstellen möchte, ist Passengers von Ziad Touma, der vier Zuschauende mit auf eine Zugreise nimmt und sie in die Rolle von vier Passagieren versetzt. Der VR-Film beinhaltet eine Rekonstruktion eines Zugabteils für vier Passagiere, die sich gegenübersitzen. Jeder Platz gehört zu einer der vier Figuren, und die Zuschauenden setzen sich eine der vier VR-Brillen auf und tauchen in die Gedanken einer der vier Personen ein. Sie können zwischen einer alten Dame, einem Kind, einem 30- bis 40-jährigen Mann namens ‚ER‘ oder einer 40-jährigen Frau namens ‚SIE‘ wählen. Der VR-Film bietet ihnen Einblicke in die Sorgen, Überlegungen und Ängste der Person. Schließlich haben sie am Ende des Erlebnisses die Möglichkeit, den Platz und damit die Person zu wechseln. Ziad Touma erklärte mir in einem Interview, dass diese Idee 2015 während einer Zugreise entstanden sei:
„Die Idee für Passengers entstand ganz am Anfang der VR. Es war beim GIFF in Genf, wo vier Mitglieder der Jury gemeinsam Zug fuhren und diese Idee entwickelten. Unter anderem waren Jean-Christophe Yacono, auch bekannt als Yaco, und Camille Duvelleroy, die damals Teil der Jury für interaktive Werke war, dabei. Das war 2015, also ganz zu Beginn der VR. Sie hatten gerade Doghouse[15] gesehen, glaube ich, und sie haben sich diese Reise von vier Personen vorgestellt, die sich nicht kennen und zusammen in einem Zugabteil reisen. Anfangs war die Erfahrung nur für eine dieser Personen gedacht, aber dann entschieden sie sich, die Perspektiven zu vervielfachen und alle vier Sichtweisen einzubeziehen, um ein szenisches Werk zu schaffen, in dem es vier Stühle und vier VR-Brillen gibt. Jeder Nutzer muss seinen Stuhl wechseln, um seine Perspektive zu ändern. Also bewegt man sich physisch im Raum, um in den Kopf von ‚SIE‘, ‚ER‘, der Dame oder dem Kind zu gelangen.“
Der VR-Film wurde in zwei Teilen veröffentlicht: Die Teile SIE und ER wurden erstmals 2020 gezeigt, und im folgenden Jahr wurde eine Version vorgestellt, die für vier Zuschauer konzipiert war. Über die Handlung hinaus ist es die Art der angebotenen Interaktion, die überrascht: Mit ihrer Stimme und ihrem Blick können die Zuschauenden den Verlauf der Geschichte beeinflussen, auch wenn das Interaktionssystem auf einfacher Spracherkennung basiert. Das Ziel des VR-Filmes ist es, den Charakteren dabei zu helfen, ihre Stimme wiederzufinden. Ziad Touma sagte diesbezüglich:
„SIE kehrt von einem Bootspicknick auf einem See mit ihrem Freund zurück, der sie gerade gefragt hat, ob sie ein Kind mit ihm haben möchte, obwohl sie nie Mutter sein wollte. Die Zugfahrt konfrontiert sie mit all diesen Gefühlen der Mutterschaft. Und sie muss den Mut finden, ihrem Partner zu sagen, warum sie kein Kind möchte. Alles, was er verlangt, ist, dass sie ihm antwortet. Aber sie kann keine Antwort finden. Daher muss der Zuschauer SIE, die er verkörpert, helfen. Er übernimmt die Kontrolle über ihr Leben, indem er ihrem Partner laut antwortet. Auf der anderen Seite, um die Erfahrung von ER zusammenzufassen, sieht er die Passagierin ihm gegenüber und hat irgendwie Interesse an ihr. Er möchte sie ansprechen. Einfach nur ‚Hallo‘ sagen oder verbalen Kontakt mit ihr aufnehmen. Dann erinnert er sich an alle Begegnungen mit Mädchen oder Frauen in seiner Jugend und seinem Leben, bei denen er nicht gewagt hat zu sprechen. Das sind alles verpasste Begegnungen in seinem Leben. Und jetzt ist er im Zug und sieht diese Frau. Der Zuschauer muss ihm helfen, sich auszudrücken, um Kontakt mit ihr aufzunehmen, und die Erfahrung ändert sich, je nachdem, ob man spricht oder nicht, auf der einen oder anderen Seite.“
Abbildung 4: Passengers von Ziad Touma. Die Möglichkeit zu sprechen wird durch einen Kreis im Bild signalisiert. Jedoch reagieren die anderen Passagiere meist nicht auf das gesprochene. © Couzin Films.
Jedoch erweist sich diese Hilfestellung als schwieriger, als man meinen könnte, denn in Passengers gibt es nicht nur eine einzelne Stimme, sondern mehrere, was die Frage aufwerfen kann: Wer bin ich, wenn ich spreche? Woher kommt meine Stimme? Gehört sie zum VR-Film oder zu einem extramedialen off? Die Stimme der Zuschauenden ist nicht über den Kopfhörer hörbar und wird teilweise durch ihn gedämpft. Daher können sie sich selbst kaum hören. Diese gedämpfte Stimme scheint aus dem Nichts zu kommen und scheint nicht in die virtuelle Umgebung integriert zu sein. Außerdem sind die Auswirkungen dieser Stimme nur teilweise wahrnehmbar. In Darkening breiten sich vom Mund ausgesendete Schallwellen in der virtuellen Welt aus, ein visuelles Feedback, das den Zuschauenden das Gefühl gibt ‚gehört zu werden‘. In Passengers dienen jedoch nur die Reaktionen der anderen Charaktere als Feedback, Reaktionen, die mal mehr, mal weniger wahrnehmbar sind. Oft gibt es eine zeitliche Diskrepanz zwischen der Sprachinteraktion und der Reaktion der anderen Reisenden, oder es gibt überhaupt keine Reaktionen. So können die Zuschauenden das Gefühl haben, ins Leere zu sprechen. Der VR-Film nutzt dieses Fehlen einer hörbaren Stimme, um die Unfähigkeit der Charaktere zur Kommunikation zu hinterfragen. SIE findet nicht den Mut, ihrem Partner die Wahrheit zu sagen. Andererseits ist ER in SIE verliebt und traut sich nicht, mit ihr zu sprechen. Die alte Dame verliert ihre Erinnerungen, und die Worte entgleiten ihr, während das Kind es nicht schafft, sich den Erwachsenen verständlich zu machen oder sie im Gegenzug zu verstehen. So erforscht der VR-Film die vielen Missverständnisse und die Unfähigkeit zur Selbstäußerung der vier Charaktere, parallel zur Situation der Zuschauenden, die gewissermaßen ‚ins Leere‘ sprechen. Im Gegensatz zu Darkening, das in Aussicht stellt, dass die Glaswand durch die Stimme überwunden werden kann, ermöglicht Passengers diese Überwindung nicht; die Stimme der Zuschauenden kann nicht in die digitale Umgebung des Zuges eindringen und bleibt teilweise stumm.
6. Eine Position dazwischen
Der Zuschauer oder die Zuschauerin selbst hört nicht die Stimme seiner bzw. ihrer Figur, während er oder sie spricht, aber die drei anderen Zuschauenden hören die Stimmen von SIE, ER, der alten Dame oder dem Kind, anstelle der Stimme des Zuschauers oder der Zuschauerin. Ziad Touma wollte somit zeitliche Verzögerungen und Diskrepanzen zwischen der Stimme der Zuschauenden und der der Figuren vermeiden. Er sagte:
„Wir haben beschlossen, die echte Stimme nicht zu projizieren, weil sie die Immersion stören könnte. Wenn ich zum Beispiel einen Mann vor mir habe und plötzlich die Stimme einer Frau höre, die mir ‚Hallo‘ sagt, während ich einen männlichen Charakter vor mir habe, gibt es in der VR eine Art Dissonanz, und das nimmt uns aus der Immersion. Um die Immersion aufrechtzuerhalten, wird die Stimme der Frau also nicht von den Zuschauenden gehört, sondern sie wird die Stimme des Charakters auslösen.“
Jedoch können die anderen Zuschauenden kurz bevor der Charakter spricht in der Ferne die echte Stimme hören, trotz der teilweisen Geräuschdämpfung der Kopfhörer. Diese Stimme erinnert uns an die Anwesenheit der anderen Zuschauenden um uns herum. In der Tat gibt es eine Szene, in der ein Geschäftsmann, der nicht weit von den vier Reisenden entfernt sitzt, sehr laut am Telefon spricht. Sowohl SIE als auch ER fühlen sich gestört. Ich erinnere mich, dass, als ich die Rolle von ER spielte, ich SIE zu dem Geschäftsmann sagen hörte, er solle ruhig sein. Gleichzeitig hörte ich den Zuschauer vor mir, einen Mann mit einer tiefen Stimme, rufen: „Halt den Mund“, und SIE „Pst!“ sagen. Es lag etwas Komisches in diesem Unterschied zwischen den Stimmen und den Worten, aber ich fühlte auch, dass mein Bewusstsein und meine Gedanken in den Festivalraum zurückkehrten. Dieses Wechselspiel zwischen den Interaktionen mit den virtuellen Charakteren im Zug und dem Bewusstsein, dass drei andere Zuschauende um mich herum saßen, setzte sich während des gesamten VR-Films fort; ich hörte sowohl die Stimme des Charakters im VR-Film als auch, aus der Ferne, die Stimme der Personen vor und neben mir.
Somit entstand ein Gefühl der Diskrepanz durch den Eindruck, dass Bild und Stimme nicht zusammenpassen, dass es eine Dissonanz zwischen dem Gesehenen und dem Gehörten gibt. Emmanuelle André und Dork Zabunyan beschreiben in Der Reiz des Telefons eine Szene aus dem Film Hallo, hallo! Hier spricht Berlin! von Julien Duvivier (1931). Die Protagonisten, eine Pariser Telefonistin namens Lily und ein Berliner Telefonist namens Erich, müssen Anrufe zwischen den beiden Hauptstädten an die Empfänger weiterleiten und verlieben sich schließlich ineinander. Erich entscheidet sich, nach Paris zu reisen, um die Person hinter der Stimme zu treffen. Aber ein Missverständnis führt dazu, dass er später ankommt als vereinbart, und sein Freund Max, der sich entschließt, nach Paris zu reisen und einen früheren Zug genommen hat, Lily am Bahnhof trifft. Aber Lily ist enttäuscht von diesem Mann, den sie sich anders vorgestellt hatte. Als Erich in Paris ankommt, trifft er anstelle von Lily ihre Freundin Annette, die ihn am Bahnhof abholt. Erich ist enttäuscht von dieser Person, die anscheinend nicht dem entspricht, was er sich vorgestellt hatte. André und Zabunyan schreiben: „Während Lily und Erich in jeder Hinsicht zueinander zu passen scheinen, führt ihre gemeinsame Enttäuschung bei der Entdeckung des anderen zu dieser sehr spezifischen Form der Diskrepanz, wenn das Aussehen nicht mehr mit der Vorstellung ihres stimmlichen Doppelgängers übereinstimmt“ (André/Zabunyan 2013: 17-18. Persönliche Übersetzung). Es besteht zweifellos eine Diskrepanz zwischen der Stimme und dem ‚Bild‘, der physischen Person, die sich die beiden Romantiker lange vorher vorgestellt und ausgemalt hatten, noch bevor sie sich sahen. Diese Szene beschreibt gut die Ambivalenz der Stimme im Kino, die nicht den Assoziationen zwischen dem Klanglichen und dem Visuellen entkommen kann, während ein Zweifel an ihrer Übereinstimmung fortbesteht.
Auf der einen Seite schafft die Stimme der Zuschauenden in Passengers und Darkening diese Diskrepanz zwischen einem Bild, das nur in der digitalen Umgebung existiert, und einer Stimme, die an zwei Orten gleichzeitig klingt. Aber der Zweifel betrifft auch eine Widersprüchlichkeit zwischen Stimme und Bild. Dies kann eine Abweichung sein, wie in der zuvor beschriebenen Szene, in der ein Mann mit tiefer Stimme eine weibliche Figur verkörpert. Aber die Diskrepanz hat auch eine ontologische Natur, eine Diskrepanz zwischen einer in einem (physischen) Körper verankerten Stimme, meinem Körper, und einem offensichtlich digitalen, künstlichen Bild. In Bezug auf Passengers lag dieses Dazwischen nicht einfach in einem Filmfehler, sondern spiegelte ein Hin und Her der Charaktere wider, die gleichzeitig in ihre Erinnerungen in Form von Rückblenden eingetaucht waren, sowie in ihre Interaktionen mit den anderen Reisenden im Zug und ihren Gedanken über sie. Die Verwendung der Stimme, kombiniert mit den erfolglosen Versuchen der Kommunikation mit den virtuellen Charakteren und den anderen Zuschauenden, beleuchtet diese Zwischenposition, in der die Zuschauenden sowohl nur teilweise in die digitale Welt integriert als auch im Festivalraum wenig präsent sind. Germain Lacasse hat eine ähnliche Zwischenposition in Bezug auf die Verwendung der Voice-Over-Stimme beschrieben. Er schreibt:
„Der Begriff ‚Voice-Over‘ impliziert bereits eine Entterritorialisierung. Er weist in einer anderen Sprache auf einen anderen Ort hin, oder vielleicht auf einen Nicht-Ort: Wo befindet sich der Ort dieser Stimme, was ist ihr Verankerungspunkt, der Körper, der sie möglich macht, die Identität dieses Körpers, die Markierungen oder Referenzpunkte ihrer Präsenz und Lokalisierung? Im Namen wessen sprechen diese Stimme und dieser Körper, und wen vertreten sie? Und wann? ‚Over‘ steht für die Distanz oder ebenso für die Abwesenheit, den Nicht-Ort und vielleicht auch für die Nicht-Zeit, den unauffindbaren Ort und die unbestimmbare Zeit.“ (Lacasse 2004: 41. Persönliche Übersetzung)
Genau wie das Voice-Over gehört die Stimme des Zuschauenden nicht mehr vollständig zur digitalen Umgebung oder zum Festivalort. Sie schwankt in diesem nicht lokalisierbaren Nicht-Ort, wie ihn Lacasse beschreibt, der weder der physische Raum, noch die digitale Umgebung, noch der Raum des Kinos ist. Aber es gibt auch einen nicht lokalisierbaren Ort zwischen der Stimme und dem Bild (oder der digitalen Umgebung), eine Diskrepanz, bei der beide nicht zusammenpassen wollen. Die Zuschauenden befinden sich in einem Zwischenraum, der sich in der Projektion zwischen diesen Orten aufbaut, zwischen einer Position als Teil des VR-Films und vielen offs, einem off des physischen Raums, in dem sie durch ihre Körper verankert bleiben, aber auch durch Geräusche und Stimmen, die die Grenze des Kopfhörers überwinden. Zusätzlich das off eines dunklen Kinosaals, eine kinematografische Zuschauerposition, die sie von der Handlung entfernt. Diese Zwischenpositionen schaffen hybride Räumlichkeiten, in denen der physische Raum virtualisiert und die digitale Umgebung ent-virtualisiert wird. Die Zuschauenden müssen ständig ihre Position hinterfragen: Wo bin ich? Wer bin ich in diesem VR-Film?
7. Fazit
Auch wenn die Zuschauerstimme oft als das ideale Mittel zur Immersion und der physischen Integration der Zuschauenden in die virtuelle Umgebung betrachtet wird, nutzen die VR-Filme, die in diesem Artikel untersucht wurden, sie, um mit dieser Annahme zu spielen. In Darkening und Passengers (aber auch Glaube) wird deutlich eine Distanz zwischen den Zuschauenden und den virtuellen Elementen betont, die normalerweise in der Virtual Reality überspielt wird. Die Erzählung dieser VR-Filme, die Missverständnisse und Kommunikationsschwierigkeiten thematisieren, wird durch die scheinbar ins Leere schreienden Zuschauenden verstärkt. Diese finden sich hinter einer unsichtbaren Glaswand wieder, scheinbar ein Teil der virtuellen Welt, aber dennoch unweigerlich von ihr getrennt. Die Stimme erweist sich in diesem Spannungsfeld zwischen Immersion und sozialer Integration auf der einen Seite und Ausgrenzung und Distanz auf der anderen Seite als ein äußerst wirksames narratives Mittel. Sie bindet die Zuschauenden auf physische Weise ein, ahmt natürliche Interaktionsformen nach und kann somit die VR-Filme unserer Interaktion mit der physischen Welt näherbringen. Gleichzeitig betont jedoch eine Stimme, die nicht in das virtuelle Bild ‚eindringt‘, ihre Andersartigkeit und hebt die Differenz zwischen dem Medium und den Zuschauenden hervor.
VR-Filme streben häufig danach, die Kluft zwischen der physischen Realität und dem immersiven 360°-Bild der virtuellen Welt zu überbrücken. Laut Andrea Pinotti und Antonio Somaini basiert das Gefühl der Immersion in der virtuellen Realität auf einer Wirkung der Unmittelbarkeit und Transparenz des Mediums. Sie definieren Medialität als „die Möglichkeit für den Betrachter, seine Aufmerksamkeit auf das materielle Trägermedium des Bildes zu konzentrieren und dann auf das Bild, das auf dem Träger erscheint“ (Pinotti/Somaini 2022: 16. Persönliche Übersetzung). Die 360°-Bilder würden eine Analogie zur realen Welt simulieren, als wären sie keine Bilder, sondern „die Realität in Fleisch und Blut“ (ebd.). Sie wären also An-Icons, Bilder, die sich selbst verleugnen. VR-Filme bauen ihre gesamte Erzählung auf diesem an-ikonischen Prinzip auf, auf einer Verneinung ihrer Vermittlung, indem sie phänomenologisch simulierte Räume konstruieren, die unserer Erfahrung des realen Raums nahekommen. Jedoch ist der von der Virtual Reality erzeugte Raum nicht nur phänomenal, sondern auch medial. Er entsteht in diesem Paradoxon zwischen räumlicher Konstruktion und der Illusion von Realität, als ob der visuelle und akustische Raum analog zu unserer Wahrnehmung der physischen Welt stehen würde. In ihrem Werk Cultura visuale (visuelle Kultur) plädieren Pinotti und Somaini für einen neuen Umgang und ein neues kritisches Bewusstsein für die Möglichkeiten und Grenzen immersiver Technologien (ebd. : 322-329) und analysieren die neuen Spannungen zwischen Ontologie (der medialen Natur der Virtual Reality) und Phänomenologie (ihrer Wahrnehmung ‚als ob‘ es sich um einen reellen Raum handele). Darkening und Passengers bauen ihre Erzählung um diese Spannung zwischen Ontologie und Phänomenologie auf, indem sie einerseits dazu auffordern, mit der virtuellen Umgebung zu interagieren, als ob es sich um eine physische Umgebung handele, aber gleichzeitig diese Versuche immer wieder durchkreuzen. Die Stimme, Ausdruck unserer Körperlichkeit und gleichzeitig immateriell und fließend wie das virtuelle Bild, macht diese Spannung sehr deutlich. Vielleicht liegt nicht im immersiven Potenzial, sondern hier, in diesem Dazwischen, diesem Spannungsfeld, das narrative Potenzial von VR-Filmen.
Literaturverzeichnis
Aegerter, Zoé; Foissac, Guillaume: L’art de converser avec une machine: quand le designer devient dialoguiste. In: Sciences du Design, vol. 2, n° 10, 2019, S. 34–41
André, Emmanuelle; Zabunyan, Dork: L’Attrait du téléphone. Crisnée [Yellow Now] 2013
Barthes, Roland: Image, Music, Text. London [Fontana Press] 1977
Barthes, Roland: The Grain of the Voice. Interviews 1962-1980. USA [Northwestern University Press] 1985
Berkowitz, Doriet: Oral Storytelling: Building Community through Dialogue, Engagement, and Problem Solving. In: YC Young Children, vol. 66, n° 2, 2011, S. 36–40
Böhme, Gernot: Leib. Die Natur, die Wir Selber Sind. Berlin [Suhrkamp] 2020 [2019]
Breschand, Jean: La Voix Là. In: Vertigo, vol. 2, n° 26, 2004, S. 12–18
Dorozhkin, Denis; Vance, Judy: Implementing Speech Recognition in Virtual Reality. In: Mechanical Engineering Conference, Paper n° 30, 2002. URL: https://dr.lib.iastate.edu/entities/publication/0a939ebe-9d33-4dbe-a1e1-d038f36114c1 [30/10/2023]
Eyssel, Friederike; Kuchenbrandt, Dieta; Bobinger, Simon; De Ruiter, Laura; Hegel, Frank: ‘If You Sound Like Me, You Must Be More Human’. On the Interplay of Robot and User Features on Human-Robot Acceptance and Anthropomorphism. In: 2012 7th ACM/IEEE International Conference on Human-Robot Interaction (HRI), 2012. URL: https://ieeexplore.ieee.org/document/6249487 [30/10/2023]
Fuchs, Katharina: Enjeux sonores paradoxaux. La narration sonore dans les films en Réalité Virtuelle, entre effet d’immédiateté et espaces altérés. Paris [Université Paris 8], 2023
Lacasse, Germain: Où est off ? Et qui ? In: Vertigo, vol. 2, n° 26, 2000, S. 41–44
Lavin, Mathias: Puissances de la Parole. À l’Écoute des Films. Italien [Éd. Mimesis, Kollektion « Images, Médiums »] 2021
Nass, Clifford; Brave, Scott: Wired for Speech. How Voice Activates and Advances the Human-Computer Relationship. Cambridge [MIT Press] 2005
Pinotti, Andrea; Somaini, Antonio: Culture Visuelle. Images, Regards, Médias, Dispositifs. Dijon [Les Presses du Réel] 2022
Robson, Ainslee: Myth, Legend, Superstition. In: University of Johannesburg, Graduate School of Architecture (GSA). U12 Seeing South Seminar. 2020. URL: https://www.youtube.com/watch?v=mWMQwcYrVFk [07/11/2023]
Wagner, Franziska: Zum Greifen nah? Annäherung an das Verhältnis von Nähe und Distanz in VR-Filmen. In: Montage AV: Nähe und Distanz. Marburg [Schüren Verlag] 2019, S. 121–142
Ward, Mark: Voice, videogames, and the technologies of immersion. In: Neumark, N.; Gibson, R.; Leeuwen T.V. (Hrsg.): Voice. Vocal Aesthetics in Digital Arts and Media. Cambridge [MIT Press] 2010, S. 267-279
Fussnoten
1 Mehr zu dieser Serie finden Sie auf der Internetseite von ARTE: https://www.arte.tv/digitalproductions/de/geschichten-aus-jerusalem/
2 Ein phänomenaler Raum ist ein gelebter Raum, durch unsere fünf Sinne wahrgenommen (cf.: Böhme 2019). Indem die Virtual Reality mindestens zwei Sinneswahrnehmungen simuliert, versucht sie, einen virtuellen Raum zu erstellen, der auf dem gleichen Prinzip eines gelebten Raumes besteht: Gegenstände werden als nah oder fern von mir wahrgenommen, sensori-motorische Interaktionen definieren den Blickwinkel (den sichtbaren Bildausschnitt) und manche VR-Filme erlauben es auch, virtuelle Gegenstände zu bewegen.
3 Zwei Beispiele sind From The Main Square von Pedro Harres (2022), ein VR-Film, der ganz auf ein Voice-Over verzichtet, oder Bodyless von Hsin-Chien Huang (2019), der mündliche Anweisungen und Orientierung auf ein Voice-In in vereinzelten Szenen beschränkt.
4 Der starke Einsatz des Voice-Over hat ursprünglich aus der Not heraus begonnen, Geschichten zu erzählen, während die 360-Grad-Bilder von schlechter Qulität waren/ eine schlechte Qualität hatten und kaum Erzählungen im Bild zuließen: Die ersten 360-Grad-Kameras für Direktaufnahmen mangelten an visueller Tiefe; außerdem war es nicht möglich, Personen oder Gegenstände in großer Nähe des Bildes abzubilden, da es eines Minimalabstandes zur Kameralinse bedarf. All dies führte zu (auf bildlicher Ebene) wenig ausdrucksstarken VR-Filmen. Nicht zu vergessen sind auch die erheblichen Einschränkungen hinsichtlich der Blickrichtung, die die Inszenierungsmöglichkeiten begrenzten und die Darstellung von Handlungen im Bild erschwerten: Wenn die Zuschauenden nach rechts schauen, und links eine Handlung stattfindet, haben sie einen Teil des VR-Filmes verpasst. Heute gelten diese Einschränkungen nur noch bedingt, und es gibt immer mehr VR-Filme, die ihre Geschichten ohne Voice-Over erzählen. Jedoch bleibt es weiterhin die beliebteste Erzählform dieses Mediums.
5 „In der aktuellen Version, die wir haben, handelt es sich wirklich nur um eine Spracherkennung […]. Es spielt keine Rolle, was man sagt. Wir haben versucht, eine Texterkennung zu implementieren, aber die narrativen Verzweigungen waren wirklich sehr, sehr komplex, da die Sprache erkannt werden musste. Es ist ein zweisprachiges Projekt, auf Französisch und Englisch. Als wir 2020 an dem Projekt arbeiteten, war die Spracherkennung von Siri bereits verfügbar und so weiter, aber sie war nicht sehr erschwinglich, vor allem, weil sie in Echtzeit erfolgen musste und mit anderen synchronisiert und andere narrative Verzweigungen eröffnet werden mussten. Und was passiert, wenn man sich sagt, ‚Ich kann viele Dinge sagen!‘ oder wenn man die andere Person beleidigt, über das Wetter spricht… Also, was passiert, wenn man abschweift? Wir haben uns also wirklich auf einfache Antworten beschränkt.“ (persönliche Übersetzung aus dem Französischen)
Dieses Interview haben wir am 9. März 2023 via Zoom geführt. Eine Transkription dieses Interviews ist im Anhang meiner Doktorarbeit einsehbar (Fuchs 2023).
6 Das New Images Festival ist ein XR_Festival, das jedes Jahr vom Forum des Images, einem experimentellen Kino in Paris, organisiert wird. Auch wenn es sich ursprünglich für neue filmische Erzählformen interessiert, wie zum Beispiel VR-Filme, öffnet sich das Festival inzwischen mehr und mehr dem Feld der Videospiele.
7 Der VR-Film ist weder auf einer VR-Streaming-Plattform, noch in Form eines 360°-Videos im Internet zugänglich, aber ein Trailer ist auf YouTube zugänglich: https://www.youtube.com/watch?v=Q_51MjYyiME
8 Dieses Interview haben wir am 28. April 2023 via Zoom geführt. Eine Transkription ist im Anhang meiner Doktorarbeit einsehbar (Fuchs 2023).
9 Zitat des Voice-Over aus Darkening. Persönliche Übersetzung aus dem Englischen.
10 Das Voice-Over suchte ebenfalls diese emotionale und gesellschaftliche Nähe zu seinem Publikum. Auch wenn die ersten Voice-Over-Stimmen von Emotionen und der Gemeinschaft der Zuschauenden losgelöst erschienen, gewannen diese mit der Zeit an künstlerischer Freiheit. Vor allem nach dem Zweiten Weltkrieg drückten die Voice-Over verstärkt einen subjektiven Standpunkt aus und sprachen das Publikum (wieder) direkt an. Wie Jean Breschand betont, begann die Befreiung der Voice-Over zuerst im Radio mit engagierten Kommentaren während des Zweiten Weltkriegs und ermutigte die Regisseure später dazu, die Sprache von der einfachen Kommentierung der Bilder zu befreien (Breschand 2014: 16).
11 Die Regisseurin Ainslee Robson erklärte 2020 in einem Interview mit der Universität Johannesburg, dass sie in ihrem VR-Film Ferenj bewusst eine sehr persönliche Ansprache an das Publikum gewählt habe. Dadurch wolle sie einerseits eine Atmosphäre der Intimität schaffen und gleichzeitig ein Machtverhältnis zwischen der Sprecherin und den Zuhörenden etablieren. Diese Situation, in der die Zuschauenden keine andere Wahl haben, als zuzuhören und dabei ihren Blickwinkel auf Geschlechterverhältnisse und Rassenkonflikte zu reflektieren, habe eine emanzipatorische Funktion, insbesondere als Frau mit farbiger Haut (Robson 2020).
12 Zitat des Voice-Over in Darkening.
13 Dieses Beispiel einer inkarnierten Stimme, die dennoch im Bild abwesend ist, repräsentiert auch das Prinzip des Akusmaten. In seinem Werk Audio-Vision definiert Michel Chion den Akusmaten als eine Innenstimme, die im Bild abwesend ist und dennoch durch ihren Schatten oder ihren Einfluss darauf präsent ist.
14 Der Regisseur Ziad Touma erwähnte ebenfalls eine ähnliche Zögerlichkeit in Bezug auf die Anwesenheit anderer Personen in Bezug auf seinen VR-Film Passengers.
15 Doghouse ist eine Zombie-Komödie von Jake West aus dem Jahr 2009, in der eine Gruppe von Freunden einen Roadtrip in einem Minibus macht.
About this article
Copyright
This article is distributed under Creative Commons Atrribution 4.0 International (CC BY 4.0). You are free to share and redistribute the material in any medium or format. The licensor cannot revoke these freedoms as long as you follow the license terms. You must however give appropriate credit, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but not in any way that suggests the licensor endorses you or your use. You may not apply legal terms or technological measures that legally restrict others from doing anything the license permits. More Information under https://creativecommons.org/licenses/by/4.0/deed.en.
Citation
Katharina Fuchs: Gegen die Glaswand schreien: Der Gebrauch der Zuschauerstimme in VR-Filmen zwischen in und off. In: IMAGE. Zeitschrift für interdisziplinäre Bildwissenschaft, Band 39, 20. Jg., (1)2024, S. 150-170
ISSN
1614-0885
DOI
10.1453/1614-0885-1-2024-16225
First published online
März/2024