Entwicklung und Anwendung einer stereofonen Mehrkanal-Mikrofontechnik für 3D-Audio und VR
Helmut Wittek, 2016
Bild oben: Blick auf den geöffneten ORTF-3D Windkorb.
Artikel als pdf (English)
Toningenieure, die in 3D arbeiten, sehen sich bei der Wahl der passenden Aufnahmetechnik einer schwierigen Aufgabenstellung gegenüber.
Bei 3D steigt - im Vergleich zu Wiedergabeverfahren, die nur in der Horizontalebene arbeiten - die nötige Anzahl der Kanäle und damit die Komplexität deutlich. Es ist verlockend, aber keine gute Idee, allzu einfache Lösungen anzuwenden, denn der Kunde fordert einen Mehrwert von 3D-Audio gegenüber konventionellem 5.1 Surround. Bei einer guten 3D-Aufnahme, die mithilfe der passenden Aufnahmetechnik gemacht wurde, ist dieser Mehrwert in beeindruckender Weise hörbar.
Eine Aufnahmetechnik für alle 3D-Formate?
Natürlich unterscheiden sich generell die Aufnahmetechniken für die verschiedenen 3D-Audio Wiedergabeverfahren. Bei Schallfeldsyntheseverfahren können vielkanalige Mikrofon-Arrays eine Lösung sein, bei 3D-Stereo sind stereofone Techniken üblich und für binaurale Wiedergabe kann im einfachsten Fall ein Kunstkopf verwendet werden.
Jedoch eint alle Verfahren eine Notwendigkeit: Für eine Aufnahme komplexer, ausgedehnter Schallquellen wie z.B. Atmo müssen stereofone Techniken verwendet werden, da nur die Stereofonie so eine hohe Kanaleffizienz bei gleichzeitig hoher klanglicher Qualität bietet. Es ist z.B. schlicht unmöglich, einen großen Chor oder eine komplexe Straßenatmo in hoher Qualität mit Einzelmikrofonie abzubilden.
Genauso scheitern die vielkanaligen Arrays für Schallfeldsyntheseverfahren wie Higher Order Ambisonics (HOA) oder Wellendfeldsynthese in der Praxis, denn ihre Kanaleffizienz und klangliche Qualität ist zu gering. Reduziert man die Anzahl der Kanäle, wie z.B. bei Ambisonics 1.Ordnung, ist man nicht mehr in der Lage, alle (virtuellen) Lautsprecher durch unabhängige Signale zu beschicken und das Ergebnis wird kompromissbehaftet.
Und für binaurale Wiedergabe ist die Kunstkopftechnik zwar die einfachste, aber nicht die beste Lösung. Denn binaural soll heutzutage "VR" heißen, also kompatibel mit einer VR-Brille, die je nach Kopfrichtung unterschiedliche binaurale Signale benötigt. Dies ist nur mit einer dynamischen Binauralisierung eines stereofonen Arrays möglich, eine Technik, die im Games-Bereich bereits gang und gäbe ist.
Reicht Ambisonics erster Ordnung für 3D?
Oft herrscht das Vorurteil vor, dass "Ambisonics" das Mittel der Wahl für 3D und VR sei. Dabei lohnt es sich für den professionellen Toningenieur, genauer hinzusehen.
Ambisonics ist eine seit langem bestehende Techno-logie der Schallfeldbeschreibung/-reproduktion an einem Ort. Sie funktioniert aber - genauso wie Wel-lenfeldsynthese - nur ab einer gewissen räumlichen Auflösung oder "Ordnung". Deshalb unterscheidet man heute generell zwischen Ambisonics erster Ord-nung und Ambisonics höherer Ordnung (HOA).
Mit Ambisonics erster Ordnung kann keine fehlerfeie Reproduktion erreicht werden, denn die Mathematik dahinter stimmt nur für eine Tennisball-große Hör-zone. Deshalb gelten eher die Gesetze der Stereofo-nie - das heißt, ein Ambisonics-Mikrofon erster Ord-nung ist nichts anderes als ein koinzidentes Mikrofon mit den bekannten Vorteilen (einfach, wenige Kanäle, flexibel) und Nachteilen (sehr breite, unpräzise Phan-tomschallquellen, mangelhafte räumliche Qualität).
Es besteht das ungelöste Problem, dass kein Ambi-sonics-Studiomikrofon mit hoher räumlicher Auflö-sung existiert. Die bestehenden Ambisonics-Studiomikrofone sind allesamt "erster Ordnung" und haben damit eine für 5.1 Surround knapp aus-reichende, aber für 3D-Audio zu geringe Auflösung. Dies macht sich dann in geringer Signaltrennung sowie mäßiger räumlicher Qualität bemerkbar.
Das erste Ambisonics-Mikrofon erster Ordnung war das Soundfield-Mikrofon, genauso gebaut sind z.B. das Tetramic oder das neue Sennheiser VR-Mikrofon. Genauso, nur ohne Höhenkanal, funktioniert das Schoeps Doppel-MS System.
Als Speicherformat für beliebige räumliche Signale ist Ambisonics sehr gut geeignet, aber wiederum nur, wenn die Ordnung groß genug ist. Ein Speicherfor-mat mit nur vier Kanälen (bei Ambisonics heißen diese 4 Kanäle erster Ordnung W, X, Y, Z) erzeugt aus jeder 3D-Aufnahme einen Brei, denn die vormals gute Signaltrennung im 3D-Setup wird durch die Mischung auf 4 Kanäle zerstört.
Ambisonics wird als einfaches und flexibles Speicher- und Aufnahmeformat für interaktive 360°-Videos eingesetzt, z.B. in YouTube. Beim Drehen der Per-spektive müssen nur die Werte der Ambisonics-Variablen geändert werden. In Verbindung mit den oben besprochenen, kleinen Ambisonics Mikrofonen erster Ordnung können sehr leicht 360°-Videos mit kleinen, portablen Kameras erzeugt werden.
In einer VR-Umgebung sieht das anders aus: Hier wird die Atmo ("akustisches Hintergrundsignal einer Szene") erzeugt, indem ein virtuelles Lautsprecher-Setup binauralisiert wird, z.B. ein Kubus aus 8 Laut-sprechern. Die Signale für das Lautsprecher-Setup sind statisch: bei einer Drehung des Kopfes im Raum bleibt der Raum stehen - das heißt, beim Headtra-cking werden die entsprechenden HRTFs dynamisch getauscht, genauso wie bei jedem anderen Audioob-jekt in der VR-Szene.
Somit entfallen die meisten Vorteile von Ambisonics in VR. Im Gegenteil, dessen Nachteile (schwache Räumlichkeit, hoher Crosstalk zwischen Lautspreche-signalen) fallen noch mehr Ins Gewicht.
Falls die praktischen Gegebenheiten ein etwas größe-res Mikrofon-Setup erlauben, wäre das ORTF-3D stattdessen eine optimale Wahl als Atmomikrofon.
Strenge Qualitätskriterien für Stereofone Arrays
Das stereofone Array ist also für alle 3D-Formate das Mittel der Wahl. Die Forderungen an das stereofone Array sind dieselben wie schon bei Zweikanal- und Fünfkanal-Stereofonie:
- Signaltrennung zwischen allen Kanälen, um Kammfilter zu vermeiden. Kein Signal ist mit signifikantem Pegel auf mehr als zwei Kanälen.
- Pegel- und/oder Laufzeitdifferenzen zwischen benachbarten Kanälen, um die gewünschten Abbildungseigenschaften zu erreichen
- Dekorrelation im Diffusfeld für optimale Umhüllung und Klangqualität
2ch
Diese Forderungen sind bei Zweikanal-Stereo noch leicht zu erfüllen. Mit Leichtigkeit können zwei unabhängige Kanäle mit der gewünschten Abbildungskurve durch eine geeignete Anordnung zweier Mikrofone erzielt werden. Dafür wurden Hilfsmittel wie der APP "Image Assistant 3" Beta entwickelt, die nicht nur die Phantomschallquellen-Abbildung, sondern auch die so wichtige Kanal-Dekorrelation überwachen. Ein klassisches, gutes Beispiel ist die ORTF-Technik, die mit 100° Aufnahmewinkel und guter Kanaldekorrelation ein immer gutes Stereosignal liefert.
Bild: 2ch ORTF-Verfahren in einer Windkorb-Aufhängung. 2 Nieren, 17cm, 110°
5ch
Bei fünf Kanälen ist die Erfüllung der obigen Forderungen schon deutlich schwieriger, und es gibt auch zahlreiche Beispiele mangelhafter Arraygeometrien, z.B. ein Mikrofon, das aussieht wie ein kleines Ei mit fünf Kugelmikrofonen, das gerade bei tieferen Frequenzen eigentlich nur ein Monosignal liefert. Fünf unabhängige Kanäle lassen sich koinzident gar nicht mehr mit Mikrofonen erster Ordnung erreichen. Eine koinzidente Anordnung wie ein Ambisonics-Mikrofon erster Ordnung ist also bereits bei 5.1 ein Kompromiss, allerdings einer, mit dem man gut arbeiten kann, denn auf der anderen Seite bietet die Koinzidenz unschlagbare Vorteile in Kompaktheit und Flexibilität bei der Postproduktion.
Eine optimale Lösung für Atmoaufnahme in Mehrkanalstereofonie ist das "ORTF Surround"-Verfahren, bei dem vier Supernieren in einem Rechteck mit 10*20cm Seitenlängen angeordnet sind. Hier helfen die Mikrofonabstände bei der Dekorrelation und verleihen dem Klangbild dadurch eine räumliche Offenheit. Die Mikrofonsignale werden diskret auf die Kanäle L, R, LS, RS geroutet. Die pegelmäßige Signaltrennung liegt bei 10dB, damit ist das Klangbild auch bei Off-Axis Sitzpositionen im Wiedergaberaum stabil.
Bild: 4ch "ORTF Surround"-Verfahren. 4 Supernieren, 10/20cm, 80°/100°
8ch oder mehr
Bei 8 oder 9 Kanälen wird die Anordnung der Mikrofone sehr schwierig, will man die obigen Forderungen einhalten. Die einfachste Methode, Signaltrennung zu erhalten, ist das weit voneinander entfernte Aufstellen der 8-9 Mikrofone. So eine große 9-Kanal Decca-Tree Anordnung ist für bestimmte Anwendungen sehr gut geeignet, aber sie hat gravierende Nachteile, die sie in ihrer Anwendbarkeit einschränken. Zum einen die schiere Größe der Anordnung in Breite und Höhe (> 2m!). Zum anderen ist die pegelmäßige Signaltrennung quasi 0, also ist jedes Signal quasi auf allen Lautsprechern vorhanden. Dies führt dazu, das dieses Array zwar eine schöne, diffuse Räumlichkeit gut darstellen kann, aber keine stabile Richtungswiedergabe außerhalb des Sweet Spots erreicht. Dies kann durch Hinzunahme von Stützmikrofonen kompensiert werden.
ORTF-3D Verfahren
Eine optimale Atmoanordnung für 8 Kanäle bietet das neue "ORTF-3D"-Verfahren (Entwicklung: Helmut Wittek, Günther Theile). Es ist quasi eine Doppelung des "ORTF Surround"-Verfahrens auf zwei Ebenen. Das heißt, es werden je vier Supernieren für die untere und die obere Ebene in einem Rechteck mit 10*20 cm Kantenlänge angeordnet. Die beiden "ORTF-Surround"-Anordnung sind direkt übereinander ohne Abstand angeordnet.
Bild: Vorstellung des Prototyps des ORTF-3D Verfahrens auf der Fachkonferenz ICSA 2015. 8 Supernieren, Horizontal: 10/20cm, 80/100°. Vertikal: 0cm, 90°
Zusätzlich sind die Mikrofone jeweils nach oben bzw. unten geneigt, um für Signaltrennung in der vertikalen Ebene zu sorgen. Es entsteht also eine 8-kanalige Anordnung, deren Abbildung innerhalb der horizontalen Ebenen in etwa dem "ORTF Surround"-Verfahren entspricht. Die Mikrofonsignale werden diskret auf die Kanäle L, R, LS, RS (untere Ebene) und Lh, Rh, LSh, RSh (obere Ebene) geroutet. Bei Anwendung für VR werden meist virtuelle Lautsprecherpositionen in der Geometrie eines gleichmäßigen Würfels binauralisiert.
Die Abbildung in den vertikalen Lautsprecherpaaren wird durch die aus der Neigung der Mikrofone entstehenden 90° X/Y-Paare aus zwei Supernieren erzeugt. Durch die hohe Richtwirkung der Supernieren ist hier eine zweikanalige koinzidente Anordnung möglich, und sowohl Abbildung als auch Diffusfeld-Dekorrelation sind gut. Eine noch besser Dekorrelation ist in der Vertikalebene gar nicht nötig, denn Hyun-Kook Lee (Uni Huddersfield) fand heraus, dass die Dekorrelation im Diffusfeld in der Vertikalebene weniger hörbar/relevant als in der Horizontalebene ist.
Bild: Veranschaulichung der vertikalen Ausrichtung der Kapseln: X/Y-Mikrofonpaar für ein übereinander angeordnetes Lautsprecherpaar.
Insgesamt entsteht ein 8-Kanal-Array mit hoher Signaltrennung, optimaler Diffusfeld-Dekorrelation und guter 3D-Abbildung bei hoher Stabilität im Wiedergaberaum. Obwohl alle Forderungen optimal erfüllt sind, ist das Array nicht größer geworden als das kompakte ORTF Surround-Verfahren - ein entscheidender Vorteil für die Praxis!
Zahlreiche Testaufnahmen haben bereits gezeigt, dass das ORTF-3D Setup sehr schöne, räumlich offene und stabile 3D-Aufnahmen erzeugt.
Bild: ORTF-3D Windkorb ohne Hülle, Blick von unten
Praxistaugliche Umsetzung
Für das ORTF-3D Outdoor Set von Schoeps werden 8 kompakte CCM-Studiomikrofone Superniere in einer geeigneten Halterung verwendet. Alle Mikrofone sowie der Windkorb selber sind elastisch aufgehängt, um Erschütterungen an der Aufhängung zu entkoppeln. Damit die Anordnung kompakt bleibt, werden die X/Y-Paare aus jeweils einer normalen CCM 41 mit frontaler Besprechungsrichtung und einer CCM 41V mit seitlicher Besprechung aufgebaut. Dies ermöglicht die Platzsparende parallele Anordnung der Mikrofongehäuse.
Windkorb und Aufhängung sind von Schoeps gemeinsam mit der Firma CINELA entwickelt worden. Ähnlich wie beim "ORTF Surround"-Windkorb sind auch beim "ORTF-3D"-Windkorb elastische Aufhängung, Fell, optionaler Regenschutz, Multicores mit Breakout-Kabeln und integrierte Heizung Standard. Der Windkorb ist für hängende Montage ausgerichtet, sodass er mithilfe der Heizung für eine dauerhafte Outdoor-Installation z.B. am Stadiondach vorgesehen ist.
Bild: ORTF-3D Windkorb mit Fell oder Regenschutz sowie integrierter Heizung für Outdoor-Anwendung
Die Mikrofonanordnung, die erst Ende des Jahres 2015 als Prototyp vorgestellt wurde, wird von Schoeps bereits in nennenswerter Stückzahl an Kunden aus dem Sport- und VR-Bereich verkauft/vermietet. Tests sind mit großem Erfolg in den vergangenen zwei Jahren u.a. bei mehreren namhaften Sportveranstaltungen erfolgt. Weitere Testaufnahmen sind auf der Schoeps-website zum Download erhältlich.
Umsetzung in Dolby Atmos und Auro3D
Die 8 Kanäle des ORTF-3D sind:
L, R, LS, RS (untere Ebene) und Lh, Rh, LSh, RSh (obere Ebene)
Sie werden diskret auf 8 Wiedergabe-Kanäle geroutet, ohne jegliche Matrizierung.
Der Center-Kanal bleibt frei! Ein Centerkanal ist bei Atmoaufnahme selten gewünscht, da er auch die Energiebalance zwischen vorne/hinten verzerrt. Außerdem würde ein Center-Mikrofon die Größe des Setups mehr als verdoppeln, da zur nötigen Signaltrennung nun wesentlich größere Abstände erforderlich sind. Falls aus anderen Gründen ein Centersignal erforderlich ist (z.B. Überdeckung des Ausschaltens des Reportermikrofons), ist ein einfacher Downmix von L/R bei kleinem Pegel ausreichend.
Bei Auro3D werden einfach die Lautsprecherkanäle L, R, LS, RS, HL, HR, HLS, HRS beschickt.
Bei Dolby ist die Einbindung in eine Atmos Produktionsumgebung ebenfalls einfach: L/R/Ls/Rs werden einfach auf die entsprechenden Kanäle in der Surround-Ebene gelegt (das sogenannte "Atmos-Bed"). Die 4 Höhenkanäle hingegen werden als vier "statische" Objekte in die oberen Ecken des kartesischen Raumes im Atmos Panner-Tool gelegt. Diese werden dann bei der Wiedergabe auf die entsprechenden vorderen bzw. hinteren Lautsprecher gerendert. Der folgende Screenshot aus ProTools mit den vier Atmos-Pannern sowie der Monitoring Applikation erläutert dies:
Bild: Routing der 8 Kanäle des ORTF-3D in Dolby Atmos (ProTools-Plugin)
Umsetzung in VR
In einer VR (Virtual Reality)-Umgebung werden 3D-Video und binauraler Ton in einer VR-Brille mit Kopfhörern wiedergegeben. Die Position und Drehung des Kopfes werden dabei in Echtzeit verarbeitet.
Bild: VR-Brille, hier: Samsung Gear VR
Für die Produktion des (binauralen) Tons wird nur selten auf echte Kunstkopfstereofonie zurückgegriffen. Der Grund dafür ist, dass bei einer Aufnahme mit Kunstkopf im Nachhinein weder die Ohren noch die Position sowie Drehung des Kopfes verändert werden kann. Mindestens eines von beiden ist wesentlich für eine unverfärbte und Richtungsstabile binaurale Wiedergabe.
Stattdessen werden virtuelle 3D-Lautsprecher-Setups "binauralisiert", d.h. es wird im Kopfhörer eine Wiedergabe in einem Studio mit vielen Lautsprechern simuliert. Nun kann die Kopfdrehung durch sogenanntes "Headtracking" ausgewertet und die entsprechenden Filter aus einer Datenbank mit binauralen Übertragungsfunktionen benutzt werden (HRTF="Außenohr-Übertragungsfunktionen"). Außerdem können die verwendeten HRTFs noch bei der Wiedergabe individualisiert werden, d.h. jeder Hörer kann sich im Player potentiell einen der eigenen Anatomie ähnlichen Kopf aussuchen, der dann weniger Artefakte wie Verfärbung und Vorne/Hinten-Vertauschung aufzeigt.
Bild: Unity: Virtuelles 8.0 Lautsprechersetup zur Wiedergabe von Atmoaufnahmen in einer binauralen Umgebung
In einer VR-Authoring-Umgebung werden Audioobjekte definiert, die die Funktion von virtuellen Lautsprechern übernehmen. Diese Audioobjekte können dynamisch sein, also z.B. sich bewegende Quellen oder aber statisch. Außerdem definiert man, ob die Audioobjekte mit dem Headtracking (Auswertung der Drehung des Kopfes) verändert werden oder nicht. Nicht vom Headtracking abhängige Signale nennt man "non-diagetic" (Nicht-Bildabhängig), dies können z.B. eine Erzählerstimme oder Begleitmusik sein. Die Lautsprecher des oben beschriebenen 3D-Setups zur Wiedergabe räumlicher Aufnahmen werden als headgetrackte statische Audioobjekte definiert. Im Falle von ORTF-3D sind dies 8 Audioobjekte. Sie können aus einem 3D-Preset gewählt werden, z.B. dem Dolby-Setup 5.1.4 oder dem Auro3D-Setup 9.1, jeweils ohne Center-Speaker. Liegt kein Preset vor, kann man z.B. einen gleichmäßigen Würfel um den Hörer definieren.