De nos jours, la qualité audio est très importante. Les oreilles des êtres humains ont une grande capacité de discernement, mais on peut également voir que l'audibilité et la clarté du dialogue constituent un défi.

Doctorant Carlos Pantsios Markhauser *

Ces dernières années, une nouvelle technologie télévisuelle a fait son entrée sur le marché mondial connue sous le nom de téléviseur Ultra Haute Définition (UHDTV), qui présente 4 fois plus de pixels par image à l'écran (8.3 Mpix) que le téléviseur HDTV, 1080p. (2Mpix). La technologie de télévision UHDTV présente également d’autres fonctionnalités exceptionnelles, telles que:

- Publicité -

1) une plage dynamique nettement plus élevée,
2) une meilleure reproduction temporelle des images (au moyen d'une fréquence temporelle supérieure),
3) une reproduction des couleurs nettement plus grande (grâce à un espace colorimétrique élargi) et,
4) plus de détails (résolution) dans les images reproduites.

Malgré les grands avantages mentionnés dans la vidéo, il n’ya pratiquement aucune prise de conscience du fait qu’il ya également un changement important dans le système sonore qui accompagne la vidéo UHDTV.

Une nouvelle expérience sonore est présente dans l'UHDTV
En premier lieu, il est important de souligner ici la différence avec laquelle l'être humain perçoit l'audio et la vidéo, c'est-à-dire la différence entre l'expérience produite par l'audio et la vidéo. Par exemple, il est possible, en pratique, d’observer parfaitement deux images ou plus sur le même écran de télévision simultanément. Les images de télévision sont de nature limitée et généralement bidimensionnelles.

La présence d'intervalles avec perte d'information due à des erreurs de transmission ou de traitement de la vidéo ne complique pas complètement la compréhension des images déformées par l'utilisateur. Cependant, ces pertes sont sans aucun doute agaçantes pour le spectateur. En comparaison de ce qui précède, il est très compliqué de comprendre plusieurs audios qui apparaissent simultanément à l'utilisateur.

L’audio stéréo est une expérience illimitée (si l’utilisateur est assis au bon endroit) et la présence d’intervalles avec perte d’informations dans l’audio réduit rapidement sa capacité à comprendre ce qui se passe.

De plus, si le son est déformé, cela peut causer une douleur physique chez la personne.

Facteurs qui améliorent l'expérience audio
Les différences de perception mentionnées montrent qu'un nombre important de facteurs doivent être pris en compte pour améliorer considérablement l'expérience audio. Voici trois domaines à prendre en compte ici:

Zone 1: On sait que la capacité d'interaction est largement appréciée de manière positive par le public, mais l'équivalent audio d'un deuxième écran ne fonctionne pas. Ensuite, comment fait-on pour créer une interaction plus complète, en plus du contrôle de volume audio conventionnel?

Zone 2: Le son est maintenant du type "immersif", mais serait-il intéressant de savoir si cette expérience peut être améliorée? Est-il possible qu'une vraie expérience audio sous 3D puisse fonctionner de manière satisfaisante même lorsque des images stéréoscopiques sous 3D ne peuvent pas le faire?

Il est également important de vous demander s'il est possible de fournir cette expérience plus immersive sans surcharger le travail de production et le processus de distribution des programmes finis avec beaucoup de complexité supplémentaire et davantage de coûts. Enfin, sera-t-il possible de faire ce qui précède d’une manière qui soit également accessible aux utilisateurs qui écoutent des programmes en mono, stéréo ou avec un casque?

Zone 3: De nos jours, la qualité audio est très importante. Les oreilles des êtres humains ont une grande capacité de discernement, mais on peut également voir que l'audibilité et la clarté du dialogue constituent un défi. Une question importante ici est de savoir comment l'expérience audio peut être adaptée et personnalisée pour qu'elle fonctionne correctement pour différentes préférences, pour une gamme de technologies et pour une variété d'environnements d'écoute.

Des efforts importants sont actuellement déployés pour trouver différentes techniques nous permettant de répondre de manière satisfaisante aux trois domaines importants suivants:
1) interactivité,
2) immersion et
3) adaptation (également appelée personnalisation).

La technologie qui a donné les meilleurs résultats jusqu'à présent, offrant une compatibilité ascendante avec les technologies actuelles basées sur les canaux, est l'audio basé sur des objets (objets audio).

Dans le monde conventionnel, le contenu audio d'un programme est représenté en utilisant le format basé sur le canal. Ici, un certain nombre de signaux stockés dans un fichier sont distribués en flux et chacun correspond à un programme. La technologie connue sous le nom de format BWF (Broadcasting Wave Format) ne définit pas actuellement ce que chaque flux représente dans le fichier, pas plus que la technologie Wave Format de Microsoft sur laquelle il est basé.

La disposition des haut-parleurs est fonction du nombre de canaux disponibles, et la position des haut-parleurs est également basée sur le numéro de canal. Par exemple, un programme avec deux canaux audio implique un format stéréo; les signaux correspondent aux haut-parleurs gauche et droit, qui doivent être placés à des degrés de séparation 60. Avec ce système, les problèmes surviennent rapidement quand il y a plus de deux canaux.

Pour le contenu au format 5.1, différentes méthodes permettent de commander des canaux et il n'existe aucun moyen fiable de savoir, à partir du fichier uniquement, quelle convention a été utilisée. Le F64 est un format BWF multicanal compatible, qui utilise un masque de canal pour mapper des canaux sur des baies de haut-parleurs à l’aide d’une étiquette descriptive, par exemple. HAUT-PARLEUR AVANT GAUCHE. Cela permet de déterminer les positions des locuteurs, mais les identifiants d'ordre des canaux et les métadonnées stockées dans un fichier XML sont ceux utilisés pour décrire les canaux. Un ensemble de métadonnées appelé EBUCore permet une plus grande précision dans la définition du contenu d'un fichier donné.

Pendant de nombreuses années, les chercheurs ont travaillé sur des formats audio indépendants de la configuration des enceintes. L'un d'entre eux est le format basé sur les objets, qui décrit les composants d'une scène avec des métadonnées variables dans le temps, offrant une flexibilité maximale. Pour le radiodiffuseur, cette solution est très intéressante, car les programmes ne peuvent être produits qu’une seule fois et distribués dans différents formats, qui sont générés automatiquement. Ce nouveau format BWF permet la représentation de la scène et des objets audio, ce qui permet aux diffuseurs de transporter et d’échanger des programmes générés dans ces formats.

Cette technologie audio a évolué rapidement ces derniers temps, donnant naissance à de nouvelles normes. L'audio audio décrit une présentation générale de l'audio, structurée en valeurs individuelles (ou objets), chacune avec ses métadonnées, décrivant ses relations, son comportement et ses associations. Les métadonnées expliquent à un "assembleur", dans le système audiovisuel, comment assembler de la meilleure façon possible les objets audio dans la présentation souhaitée, avec la disposition des haut-parleurs disponibles.

Conceptuellement, cette approche technologique est très puissante et flexible, mais pour réaliser une implémentation pratique, il est nécessaire de savoir sur quels problèmes vous souhaitez vous concentrer en premier lieu pour la solution correspondante.

Proposer des concepts et des solutions
L'un des concepts les plus importants de la technologie basée sur les objets audio est le "rendu". Ceci est défini dans le Forum sur les médias avancés en Europe (FAME), une organisation qui s'occupe de recherche et développement en Ultra Haute Définition (UHD), Réalité virtuelle (VR) et autres nouvelles technologies.

Très probablement, dans la vraie vie, il est nécessaire de transcoder entre différentes présentations basées sur des objets. Ce qui précède est dû au fait que les productions dramatiques de haut niveau nécessiteront de travailler avec un très grand nombre d’objets (peut-être des centaines ou plus). Les flux de travail réels fonctionnent généralement avec des sous-ensembles d'objets moins nombreux, et les limitations de bande passante obligeront à utiliser moins d'objets pour une livraison correcte et économique des sorties aux ménages.

De même, il est également nécessaire de pouvoir évaluer la qualité des différents rendus audio correspondant aux différentes mises en œuvre. Jusqu'à présent, il n'existait aucune technique permettant d'évaluer la qualité des différents rendus correspondant aux implémentations mises en œuvre. Les techniques déjà connues sous le nom de stimulus multiples avec référence cachée et ancre (MUSHRA) ne fonctionnent pas ici, car elles sont maintenant intéressées à évaluer le "caractère immersif" du matériau de production plutôt qu'aux erreurs qui peuvent y apparaître.

La définition précédente indique également que pour que le rendu puisse effectuer le rendu, l'audio et les métadonnées sont nécessaires.

La véritable nature de cette approximation de la flexibilité réside dans le fait que les moteurs de rendu peuvent être développés pour choisir une version publiée simple et pour la mettre en œuvre de la meilleure façon possible pour un groupe de plates-formes, de périphériques et de situations. Si tel est le cas, le défi sera de nouveau créé, car le groupe de travail sur la création aura une idée très lointaine de la manière dont le programme audio sonnera à la maison.

Cela soulève la question de savoir s'il est nécessaire de rendre des rendus et des dispositifs de surveillance afin de permettre une évaluation représentative, qui s'applique à la production en question. Pour couronner la reproduction du son basé sur les objets dans des haut-parleurs configurés de manière professionnelle, le concepteur du rendu a également ajouté le défi encore plus difficile de produire un son de qualité lorsqu'il est présenté dans la disposition asymétrique couramment utilisée dans la maison

Actuellement, vous pouvez voir des implémentations sur le marché grand public de la nouvelle génération de téléviseurs 4k (UHDTV) qui continuent à être équipés de la technologie audio conventionnelle pour la diffusion. Cependant, les dernières solutions audio ne sont pas associées à la technologie UHDTV et peuvent être appliquées aux récepteurs de télévision standard ainsi qu’aux disques optiques standard.

En conséquence, des technologies basées sur des objets audio émergent, émergeant dans de nombreux endroits. Par exemple, Dolby est propriétaire d’objets au cœur de sa solution ATMOS pour le cinéma (y compris le home cinéma) et introduit sa technologie à base d’objets dans le cadre de la norme AC4. DTS a lancé son format audio multidimensionnel (MDA). Farelight a implémenté les outils ATMOS et MDA dans ses outils audio 3DAW.

La BBC a récemment présenté plusieurs exemples de développements immersifs, de personnalisation et d’interaction, basés sur des objets audio dans le cadre de l’exposition XBUM de l’IBC, et le MPEG-H a été conçu pour être «prêt à l’emploi» pour la livraison du audio en 2014D pour la diffusion, mais aussi pour les jeux et les vidéoconférences.

De grands changements nous attendent dans la partie audio dans un avenir proche et, pour cela, nous devons nous préparer de manière adéquate.

* Carlos Pantsios Markhauser est ingénieur en télécommunications et titulaire d’une maîtrise en communication de l’Université Simón Bolivar, avec une spécialisation en télécommunications dans les satellites et les réseaux.Université George Washington - École d’ingénierie et de sciences appliquées, spécialisation en télécommunications numériques, Université de Colorado Boulder. Il travaille comme professeur de troisième cycle dans les écoles de télécommunication de l'Université Simón Bolivar et de l'Université catholique Andrés Bello. En plus de consultant professionnel dans des projets de télévision basés en Argentine.

Richard Santa, RAVT
Auteur: Richard Santa, RAVT
éditeur
Journaliste de l'Université d'Antioquia (2010), avec une expérience en technologie et en économie. Editeur des magazines TVyVideo + Radio et AVI Latin America. Coordonnateur académique de TecnoTelevisión & Radio.

SPONSORS














AUTRES NOUVELLES

article thumbnailDe nos jours, la qualité audio est très importante. Les oreilles des êtres humains ont une grande capacité de discernement, mais vous pouvez aussi voir que ...
article thumbnailLa gestion des connaissances organisationnelles nécessaires à la durabilité des entreprises est l’un des principaux défis à relever dans le ...
article thumbnailLa télévision, telle que nous la connaissons, sera pratiquement destinée aux événements en direct et les plates-formes qui ne les ont pas exclusivement, devraient passer à ...
article thumbnailAvec une industrie en transformation dans tous ses aspects et à la recherche de définitions, il est essentiel de ...
article thumbnailTous ces éléments, revêtus d’une importance essentielle pour le succès de toute initiative de production vidéo en direct via ...
article thumbnailComme mentionné dans la tranche précédente, de la fin des années 90 à nos jours, avec l'avènement et la consolidation ultérieure de ...
article thumbnailHistoriquement, le Mexique a excellé dans l'industrie de la radiodiffusion régionale pour être à l'avant-garde de la technologie et de la production audiovisuelle, à la fois en matière de ...
article thumbnailLe fait de pouvoir réparer une fibre sur le terrain en moins d'une minute lui fait gagner de nombreux amis, notamment dans les urgences audiovisuelles ....
article thumbnailLes périphériques connectés au réseau peuvent servir de pool de ressources pour partager efficacement ces ressources, par exemple, en permettant ...
article thumbnailCe premier versement vise à comprendre le fonctionnement du modèle économique Netflix et des autres plates-formes de distribution de contenu ...