Depuis deux ans, on entend parler absolument partout du son binaural. La première fois que j’ai réellement découvert ce que cela signifiait, c’était à l’occasion d’Utopie Sonore 2016, où un groupe de participant·e·s avait pu réaliser quelques expérimentations.
Plus récemment, c’est à Longueur d’ondes 2019 que j’ai assisté à une démonstration de mixage pour l’écoute binaurale.
Le monde de la radio et du son en général est en véritable effervescence au sujet de ce qui est annoncé par beaucoup comme une véritable révolution… On peut écouter des émissions à ce sujet, et même en écouter sur le site de Radio France dédié au son 3D…
Mais qu’est-ce que c’est, le son binaural ?
[Le son binaural] est une technique qui restitue l’écoute naturelle, en trois dimensions.
Son binaural : la 3D sonore — Le numérique et nous, Catherine Petillon, France Culture, mai 2017
Cette préparation spécifique du son permet de ressentir une impression d’immersion très réaliste. On se retrouve au cœur d’un univers sonore, bien plus qu’avec la stéréo classique.
Pour comprendre comment ça marche, il faut revenir un tout petit peu en arrière, et expliquer comment notre système auditif fonctionne pour localiser les sources des sons.
On écoute avec deux oreilles
Je ne reviendrai pas ici sur ce qu’est un son, ni sur la question du spectre auditif. Si ces questions vous intéressent, je vous invite à consulter le début de l’article que j’avais écrit sur la musique et les mathématiques.
« Le son que je viens d’entendre a‑t-il été produit devant moi, au dessus, sur la gauche, derrière ? À 2 mètres, à 10 mètres ? » Les humains, comme beaucoup d’autres animaux, sont capables de localiser très précisément une source sonore dans l’espace environnant.
Pour cela, on utilise principalement nos deux oreilles. Une à gauche, une à droite. Comme elles sont placées de chaque côté de notre tête, et comme le son avance dans l’air ambiant à une vitesse de 340 mètres par seconde, il y a donc quelques millisecondes de différence dans la perception du son par les deux oreilles. En ajoutant à cela l’atténuation naturelle de l’intensité due à la distance, on a donc une légère différence de niveau sonore dans la perception du son entre les deux oreilles. Cela permet de situer efficacement un son dans le plan horizontal.
La localisation dans le plan vertical du son est quant à elle permise par la forme particulière de nos oreilles, nos épaules, notre tête, etc. En effet, ces structures ont tendance à réfléchir ou à filtrer certaines fréquences, ce qui entraîne une modification du spectre fréquentiel perçu. Certaines fréquences sont atténuées, et d’autres amplifiées suivant la direction d’où vient le son.
La perception de la distance est notamment permise grâce aux différences perceptibles entre le son qui arrive directement à nos oreilles, et celui qui arrive après avoir été réverbéré par l’environnement.
Enfin, puisque ces différentes perceptions sont parfois délicates, nous avons également tendance à réaliser des micro-mouvements de la tête, non contrôlés, qui aideront le cerveau à affiner sa perception de la localisation de la source, en utilisant plusieurs estimations successives à des orientations différentes.
Si vous voulez en lire plus sur ces questions, je vous invite à parcourir l’article sur le site cochlea, que je trouve très pédagogique.
Simuler un son naturel
Quand on utilise un dispositif d’enregistrement et de restitution du son, on cherche donc à simuler un son naturel, pour permettre à l’auditeur de le percevoir localisé dans l’espace ambiant. À chacune des étapes de l’enregistrement, du mixage, et de la diffusion, on doit donc réfléchir à la manière de spatialiser le son.
Multi-sources
La manière la plus simple de spatialiser le son, mais qui est peu utilisée, consiste à placer une enceinte à l’endroit de chacun des sons que l’on veut simuler. C’est ce qui est fait au théâtre par exemple, où l’on pourra placer une enceinte dans le landau pour faire entendre un bébé qui pleure. Les spectateurs entendront le son venir exactement du bon endroit.
Évidemment, cette technique n’est possible que si l’on peut positionner une enceinte pour chacune des sources sonores que l’on veut simuler. C’est assez utopique, et impossible pour un dispositif d’écoute personnel.
La technique la plus courante est donc la diffusion du son en stéréo, voire en 5.1. Je ne prendrai pas le temps de détailler les sons 5.1 et ses alternatives pour le cinéma, mais on peut les entendre comme une extension du son stéréo.
Le son stéréo
Le son stéréo fonctionne très bien avec deux enceintes, placées de part et d’autre de l’auditeur, à distance égale, généralement en formant un triangle équilatéral à 60°.
En mixant le son pour la stéréo, on utilise principalement les écarts d’intensité entre les deux canaux pour simuler un son gauche/droite. Parfois, on ajoute à cela un léger délai entre les deux signaux, pour augmenter encore l’impression de spatialisation. Mais on va rarement au delà, car la perception réelle de l’auditeur dépend beaucoup de la position de ses enceintes.
Pour enregistrer du son pour la stéréo, on pourra par exemple utiliser un couple XY, ou encore un couple ORTF, suivant les besoins et envies.
Il est intéressant de noter que l’écoute au casque d’un son mixé pour la stéréo semblera généralement moins bien spatialisé, parce que les sources sonores seront collées aux oreilles, et non plus éloignées significativement de l’auditeur. En diffusant un son uniquement dans l’enceinte droite, on a toujours une écoute stéréo, l’auditeur perçoit l’enceinte à 45°. À l’inverse, en ne diffusant un son que dans l’oreillette droite d’un casque, on proposera à l’auditeur un mix qui n’a rien de naturel (on n’entend jamais un son que d’une seule oreille). De plus, avec un casque, impossible de profiter des micro-mouvements de la tête.
Le son binaural
Le principe du son binaural est de concevoir un son pour une écoute au casque, la plus fidèle possible à ce que l’on pourrait percevoir en environnement réel : délai entre les deux oreilles, différence d’intensité, modification du spectre de fréquences, afin de simuler au mieux les choses.
Il existe différentes techniques pour produire un tel son : soit en captation binaurale, en utilisant deux micros placés au niveau des oreilles de l’opérateur ou d’un mannequin, soit en utilisant des plugins de spatialisation de son dédiés, où l’on place la source dans l’espace ambiant, et où l’on simule un son binaural.
Les limitations du son binaural
Si sur le papier cette approche semble très prometteuse, il est tout de même important de rappeler quelques limitations, qui font que cette technique n’est probablement pas aussi formidable que ses défenseurs veulent le faire entendre.
Tout d’abord, notre écoute s’appuie beaucoup sur les micro-mouvements de la tête pour affiner la localisation des sources de son. La seule manière de simuler cela dans le cadre d’une diffusion binaurale est de réaliser un suivi en temps réel de la tête de l’auditeur, et d’ajuster le mix qui arrivera à ses oreilles en temps réel. Cela n’est possible qu’avec un son réalisé virtuellement avec des plugins de spatialisation, et ne sera pas possible avec un son naturel enregistré en binaural.
D’autre part, une grande partie de la perception spatiale dépend de la forme précise de nos oreilles et de notre anatomie en général (forme de la tête, forme des épaules, etc.). D’une personne à l’autre, le filtre fréquentiel que subit le son peut varier de manière significative. Ainsi, si j’enregistre en binaural depuis mes oreilles, et que vous écoutez ensuite l’enregistrement, vous pourriez percevoir un son au dessus de vous, alors que je l’aurais enregistré face à moi. La seule manière pour contourner cette limitation est de réaliser un mix dédié à chaque auditeur, ou à chaque famille d’auditeurs. C’est probablement un chemin qui suivra l’industrie du son.
En attendant, on a donc à notre disposition des sons binauraux mixés pour qu’ils satisfassent au plus grand nombre. Si vous êtes proches des propriétés morphologiques de la moyenne, vous aurez alors une perception très fine de la spatialisation. À l’inverse, si vous en êtes éloignés, vous percevrez aussi une spatialisation, mais probablement incohérente avec celle imaginée par le producteur…
Conclusion
Ce que je regrette beaucoup dans la communication à outrance que l’on voit ces dernières années sur les technologies binaurales, c’est que les défenseurs de ces techniques se placent en évangélisateurs, présentant la technique comme une révolution formidable, qui permet des merveilles.
Même si cette technique apporte des sensations vraiment intéressantes pour l’auditeur, je pense qu’il est important de relativiser, d’une part sur les performances de simulation réaliste de l’approche, comme nous l’avons vu ci-dessus, mais aussi sur le fait que cette approche est fréquemment exploitée par les gens qui réalisent un mix, même pour la stéréo. Ce n’est donc pas une révolution, mais plus une évolution des pratiques…