FR3004052A1

FR3004052A1 - Procede et dispositif de transmission d'un contenu video, procede et dispositif de restitution d'un contenu video, flux video et programme d'ordinateur correspondants.

Info

Publication number: FR3004052A1
Application number: FR1352883A
Authority: FR
Inventors: Chantal Guionnet; Frederic Delagree
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2014-10-03

Abstract

L'invention concerne un procédé de transmission d'un contenu vidéo comprenant une composante vidéo et au moins une composante audio ou de sous-titrage. Selon l'invention, un tel procédé comprend les étapes suivantes : - identification (31) dans la ou les composantes audio ou de sous-titrage d'au moins deux pistes associées chacune à une source audio distincte, les pistes étant destinées à être restituées simultanément à la composante vidéo sur un terminal d'un utilisateur, affectation (32) à au moins une des pistes d'au moins une donnée d'identification, transmission (33) du contenu vidéo comprenant les pistes et de la ou des données d'identification dans un flux vidéo.

Description

Procédé et dispositif de transmission d'un contenu vidéo, procédé et dispositif de restitution d'un contenu vidéo, flux vidéo et programme d'ordinateur correspondants. 1. Domaine de l'invention Le domaine de l'invention est celui de la transmission ou diffusion de contenus vidéo, également appelés contenus audiovisuels, et la restitution personnalisée de tels contenus. De tels contenus vidéo sont par exemple diffusés dans un flux vidéo en direct (i.e. en « live » ou en temps réel, par rapport à la création du contenu vidéo) ou en différé (i.e. une fois la création effectuée), ou stockés sur un support d'enregistrement. Plus précisément, l'invention concerne la gestion des composantes audio et/ou de sous- titrage de tels contenus vidéo. 2. Art antérieur Les contenus vidéo actuels sont généralement composés d'une composante vidéo et d'une ou plusieurs composantes audio. Les composantes audio correspondent aux différentes langues et aux différents formats de diffusion accessibles, et sont classiquement transmises de façon synchronisée avec la composante vidéo. Par langue, il est fait référence dans la suite du document à toute langue parlée (anglais, français, chinois, etc). Par format de diffusion, encore appelé « qualité sonore », on entend par exemple un format appartenant au groupe comprenant les formats suivants : mono (pour monophonique), stéréo (pour stéréophonique), multicanal 5.1, multicanal 6.1, multicanal 7.1, DTS (de l'anglais « Digital Theater System »), Dolby, SDDS (de l'anglais « Sony Dynamic Digital Sound»), etc. Chaque composante audio comprend donc l'ensemble du rendu sonore : bruit de fond, musique, voix de tous les personnages, etc. Par exemple, comme illustré en figure 1, un contenu vidéo 11 comprend une composante vidéo 111, une première composante audio 112 correspondant à l'ensemble du rendu sonore en langue française (encore appelée « composante son français »), et une deuxième composante audio 113 correspondant à l'ensemble du rendu sonore en langue anglaise (encore appelée « composante son anglais »). Chaque composante audio est par exemple composée d'un identifiant de composante, d'une description, et des données audio. La transmission d'un tel contenu vidéo 11 met en oeuvre une transmission simultanée et synchronisée de la composante vidéo 111, de la composante son français 112 et de la composante son anglais 113. De tels contenus vidéos comprennent également, éventuellement, une ou plusieurs composantes de sous-titrage. Par sous-titrage, on entend la transcription écrite des dialogues ou des commentaires audio d'un contenu vidéo qui apparaît dans l'image, un sous-titre pouvant apparaître par exemple en haut, en bas de l'image, ou bien même encore directement dans l'image. Chaque composante de sous-titrage correspond à une langue spécifique. Si le contenu vidéo comprend plusieurs composantes audio ou de sous-titrage, l'utilisateur final peut choisir, lors de la restitution du contenu, la langue dans laquelle il souhaite visionner le contenu vidéo et/ou le format de diffusion, en sélectionnant la composante audio et/ou de sous-titrage correspondante. Suite au choix de l'utilisateur sur la langue et/ou la qualité, le décodeur décode uniquement les composantes choisies. En revanche, son choix est limité à ces composantes audio ou de sous-titrage, et il n'est pas possible pour l'utilisateur de construire une restitution plus personnalisée du contenu vidéo.

Par exemple, comme illustré en figure 2, un décodeur 21 reçoit le contenu vidéo 11 comprenant la composante vidéo 111, la composante son français 112, et la composante son anglais 113. L'utilisateur peut alors sélectionner (211) la langue dans laquelle il souhaite visionner le contenu vidéo, et le décodeur décodera uniquement la composante audio correspondante. Ainsi, le décodeur restituera les composantes décodées, par exemple la composante vidéo 111 et la composante son français 112. Il existe donc un besoin pour de nouvelles techniques de transmission et de restitution de contenus vidéo, permettant d'améliorer ces techniques de l'art antérieur. 3. Exposé de l'invention L'invention propose une solution nouvelle sous la forme d'un procédé de transmission (et/ou stockage) d'un contenu vidéo comprenant une composante vidéo et au moins une composante audio ou de sous-titrage, comprenant les étapes suivantes : identification dans la ou les composantes audio ou de sous-titrage d'au moins deux pistes associées chacune à une source audio distincte, les pistes étant destinées à être restituées simultanément à la composante vidéo sur un terminal d'un utilisateur, affectation à au moins une des pistes d'au moins une donnée d'identification, transmission du contenu vidéo comprenant les pistes et de la ou des données d'identification dans un flux vidéo. L'invention propose ainsi d'améliorer les techniques existantes de transmission d'un contenu vidéo comprenant au moins une composante audio et/ou au moins une composante de sous-titrage, en transmettant au moins une donnée d'identification permettant d'identifier, ou encore d'accéder à, une sous-composante d'une composante audio ou d'une composante de sous-titrage, appelée piste, cette piste étant directement associée à une source audio. Par source audio, on entend la source audio « produisant » ou « générant » une piste (audio ou de sous-titrage), comme par exemple un personnage, un narrateur, un groupe de personnages, un générateur de musique, un générateur de bruitage, etc. La piste associée à une telle source correspond par exemple à la voix d'un tel personnage ou narrateur (ou cri pour un animal), à un bruit de fond (bruit de foule, bruit de troupeau, bruit d'ambiance, etc), une musique (bande originale de film, générique de jeu télévisé, etc), ou à la transcription écrite correspondante (ou plus précisément aux données correspondantes).

Ainsi, si l'on considère que la ou les composantes audio ou de sous-titrage correspondent chacune à une langue distincte d'un contenu vidéo, une première piste audio peut être associée à un premier acteur, et correspondre à la voix du premier acteur, et une deuxième piste audio peut être associée à un deuxième acteur, et correspondre à la voix du deuxième acteur. De la même façon, si l'on considère une composante de sous-titrage, une première piste de sous-titrage peut être associée à un premier acteur, et correspondre à une transcription écrite des paroles du premier acteur, et une deuxième piste de sous-titrage peut être associée à un deuxième acteur, et correspondre à une transcription écrite des paroles du deuxième acteur. Il est alors possible d'identifier ces différentes pistes et de les transmettre « séparément » dans le flux vidéo. Côté restitution, il est alors possible de restituer uniquement la voix du premier acteur, ou la voix d'un premier acteur et une voix externe remplaçant la voix du deuxième acteur, ou encore la voix du premier acteur en français et la voix du deuxième acteur en anglais, etc. De la même façon, il est possible de restituer un sous-titre pour le premier acteur uniquement, ou un sous-titre en français pour le premier acteur et un sous-titre en anglais pour le deuxième acteur, etc. Il est ainsi possible pour l'utilisateur de construire une restitution plus personnalisée du contenu vidéo, grâce à la transmission des composantes audio et/ou de sous-titrage d'un contenu vidéo avec un niveau de segmentation plus « fin » ou « petit » (segmentation au niveau « piste ») que le niveau de segmentation classique (segmentation au niveau « composante »). En effet, les éléments audio formant une composante audio (ou une composante de sous-titrage) ne sont pas actuellement identifiables et accessibles individuellement en restitution. L'identification et la transmission de « pistes » selon l'invention permet, au niveau du terminal d'un utilisateur, d'accéder à ces pistes plutôt qu'à la composante globale, et offre donc à l'utilisateur la possibilité de construire une restitution plus personnalisée du contenu vidéo. En d'autres termes, grâce à l'invention, il est possible de transmettre de manière indépendante la piste associée à une source audio ainsi que la donnée d'identification de cette piste, ce qui permet à un utilisateur d'identifier aisément la contribution d'une source audio au sein du contenu vidéo. On maintient donc une séparation des sources en transmission, alors que selon l'art antérieur, on mixait l'ensemble des sources dans un même « canal ». En particulier, au moins une des sources audio est visible dans au moins une image du contenu vidéo.

Ainsi, contrairement à l'audio-description où le traducteur d'image ne participe pas physiquement à la prise d'image, et n'est donc pas représenté par une image dans ce contenu vidéo, l'invention permet d'accéder à au moins deux pistes associées chacune à une source audio distincte, dont au moins une source qui intervient « physiquement » au moins une fois dans le contenu vidéo, i.e. que l'on visualise au moins une fois dans le contenu vidéo (acteur, présentateur d'un jeu télévisé, commentateur sportif, ...). Si l'on considère le cas où la source audio correspond à un groupe de personnages, ce groupe de personnage apparaît par exemple au moins une fois dans le contenu vidéo. Par exemple, il s'agit de la foule présente à un match de football ou à un concert retransmis en direct par une chaîne de télévision.

Par exemple, selon l'invention, la composante audio ou de sous-titrage est composée d'au moins trois pistes, d'une part deux pistes associées chacune à une source audio distincte, les deux sources audio distinctes étant représentées chacune par au moins une image du contenu vidéo, et d'autre part une autre piste associée à une source audio distincte non représentée par une image dans le contenu vidéo. Cet exemple correspond par exemple à deux acteurs apparaissant dans des images du contenu vidéo combinés avec de la musique, ou la contribution d'un traducteur d'image ou toute autre piste associée à une source audio non représentée par une image dans le contenu vidéo. Selon l'exemple ci-dessus, il est possible d'affecter une donnée d'identification à une des deux pistes associées à une source audio distincte représentée par au moins une image du contenu vidéo, et une autre donnée d'identification à la piste associée à la source audio non représentée par une image dans le contenu vidéo, par exemple la musique, ou la composante audio de « description » de l'audio-description. Ainsi, dans le cas où la composante audio est formée d'au moins trois pistes, des données d'identification distinctes sont affectées à au moins deux pistes associées à deux sources audio distinctes, cependant ces deux sources audio distinctes ne sont pas nécessairement toutes les deux représentées par au moins une image dans le contenu vidéo. Selon un autre exemple, il est également possible selon l'invention d'affecter autant de données d'identification qu'il y a de sources audio distinctes à intervenir dans le contenu vidéo. Selon une caractéristique particulière de l'invention, la ou les données d'identification identifient au moins une source audio. On peut donc avoir une seule donnée d'identification par source audio. Dans ce cas, une même donnée d'identification peut être affectée à une piste audio d'une composante audio et une piste de sous-titrage d'une composante de sous-titrage, si elles sont associées à la même source audio (par exemple au même acteur). Dans ce cas, des données supplémentaires peuvent être insérées dans le flux pour indiquer le type de données composant la piste (données audio, données de sous-titrage). On peut également avoir une donnée d'identification par ensemble ou groupe de sources audio. Par exemple, on peut avoir une même donnée d'identification pour tous les acteurs, ou une première donnée d'identification pour toutes les actrices féminines et une deuxième donnée d'identification pour tous les acteurs masculins, etc. Selon une autre caractéristique particulière, au moins une des pistes est définie pour au moins deux des composantes audio ou de sous-titrage. En d'autres termes, au moins une piste est commune à au moins deux langues distinctes ou à au moins deux formats distincts. En effet, il est par exemple possible selon l'invention d'avoir la même piste correspondant au bruit de fond ou à une musique pour un ensemble de langues. Une piste correspondant au bruit de la mer, à la bande originale d'un film, ou au générique d'un jeu par exemple peut donc être restituée quelle que soit la langue. Cet aspect permet donc d'éviter de transmettre autant de bruits de mer ou de musique qu'il y a de langues accessibles pour la restitution du contenu vidéo. Cet aspect présente donc l'avantage d'optimiser la quantité de données à transmettre en évitant de transmettre deux fois un même « contenu » (bruit de fond ou musique par exemple). Selon un mode de réalisation spécifique, le procédé de transmission est mis en oeuvre en temps réel.

Par « mise en oeuvre en temps réel », il est entendu mise en oeuvre synchronisée en temps réel au regard de la génération du contenu vidéo. C'est par exemple le cas pour la diffusion en direct d'une émission de télévision, par exemple un journal télévisé. Dans un autre mode de réalisation, l'invention concerne un dispositif de transmission d'un contenu vidéo comprenant une composante vidéo et au moins une composante audio ou de sous- titrage. Selon l'invention, un tel dispositif comprend : un module d'identification, dans la ou les composantes audio ou de sous-titrage, d'au moins deux pistes associées chacune à une source audio distincte, les pistes étant destinées à être restituées simultanément à la composante vidéo sur un terminal d'un utilisateur, un module d'affectation à au moins une des pistes d'au moins une donnée d'identification, un module de transmission du contenu vidéo comprenant les pistes et de la ou des données d'identification dans un flux vidéo.

Un tel dispositif de transmission (et/ou stockage) est notamment adapté à mettre en oeuvre le procédé de transmission décrit précédemment. Il est par exemple intégré à un émetteur ou une tête de réseau d'un système de diffusion. Ce dispositif pourra bien sûr comporter les différentes caractéristiques relatives au procédé de transmission selon l'invention, qui peuvent être combinées ou prises isolément. Ainsi, les caractéristiques et avantages de ce dispositif sont les mêmes que ceux du procédé de transmission. Par conséquent, ils ne sont pas détaillés plus amplement. L'invention concerne par ailleurs un flux vidéo comprenant une composante vidéo et au moins une composante audio ou de sous-titrage, dans lequel au moins une des composantes audio ou de sous-titrage comprend au moins deux pistes associées chacune à une source audio distincte, les pistes étant destinées à être restituées simultanément à la composante vidéo sur un terminal d'un utilisateur. Selon l'invention, un tel flux vidéo comprend également au moins une donnée d'identification affectée à au moins une des pistes. Un tel flux vidéo peut être transmis en utilisant le procédé de transmission décrit précédemment. Il peut également être stocké sur un support de données, pour une lecture différée. Ce flux vidéo pourra bien sûr comporter les différentes caractéristiques relatives au procédé de transmission selon l'invention. L'invention concerne par ailleurs un procédé de restitution d'un contenu vidéo à partir d'un flux vidéo comprenant une composante vidéo, au moins une composante audio ou de sous- titrage, dans lequel au moins une des composantes audio ou de sous-titrage comprend au moins deux pistes associées chacune à une source audio distincte, les pistes étant destinées à être restituées simultanément à la composante vidéo sur un terminal d'un utilisateur. Un tel flux comprend également au moins une donnée d'identification affectée à au moins une des pistes.

Selon l'invention, un tel procédé comprend les étapes suivantes : identification d'au moins une des pistes à partir de la ou des données d'identification, délivrant au moins une piste identifiée, restitution du contenu vidéo mettant en oeuvre une restitution simultanée : - de la composante vidéo et - d'au moins une des pistes identifiées ou d'au moins un contenu audio généré à partir d'une source externe remplaçant la ou les pistes identifiées. Un tel procédé est notamment adapté à recevoir et traiter un flux vidéo transmis selon le procédé de transmission décrit ci-dessus. Il permet notamment d'enregistrer, de télécharger, d'afficher sur un écran, etc, un contenu vidéo.

En particulier, l'invention permet de restituer, au niveau d'un terminal, un sous-ensemble ou « portion » d'une composante audio ou d'une composante de sous-titrage, plutôt que l'intégralité d'une telle composante comme proposé dans l'art antérieur. Ce sous-ensemble correspond à une ou plusieurs pistes de type audio ou de sous-titrage associées chacune à une source audio parmi l'ensemble des pistes associées à la composante audio ou de sous-titrage. De ce fait, il est possible de construire une restitution plus personnalisée du contenu vidéo. L'ensemble des caractéristiques décrites précédemment au regard du procédé de transmission s'applique également au procédé de restitution. Ainsi, au regard de ces aspects précédemment décrits, le procédé de restitution selon l'invention permet notamment d'identifier les voix des différents acteurs ou les sous-titres associés à ces acteurs. En conséquence, il est par la suite possible de sélectionner la voix et/ou le sous-titre associés à un premier acteur, puis de restituer uniquement la voix et/ou le sous-titre associés à ce premier acteur ou une combinaison par défaut de la voix et/ou du sous-titre associés à ce premier acteur avec la piste audio et/ou de sous-titrage « bruit d'ambiance », et la piste audio « musique » par exemple la bande originale d'un film. Selon cet exemple, la voix d'un deuxième acteur peut ne pas être restituée, et un utilisateur peut effectuer un doublage oral du deuxième acteur (avec ou sans microphone, éventuellement en couplant son téléphone (« smartphone ») au dispositif de restitution). Il est donc possible de remplacer une ou plusieurs pistes par un contenu audio généré à partir d'une source externe. Selon l'invention, on entend par contenu audio généré à partir d'une source externe, un contenu qui n'a pas été transmis dans le flux vidéo et qui intervient uniquement lors de la restitution personnalisée du contenu vidéo, par exemple en remplacement d'une piste transmise dans le flux vidéo mais non décodée.

Selon une caractéristique particulière, l'étape de restitution met en oeuvre une étape de mixage du ou des contenus audio généré à partir d'une ou des sources externes avec au moins une piste d'une des composantes audio ou de sous-titrage, distincte de la ou des pistes identifiées pour être remplacées. En d'autres termes, afin de conserver la synchronisation entre les composantes vidéo et audio et/ou de sous-titrage, le contenu audio généré à partir d'une source externe utilisé pour remplacer une ou plusieurs pistes identifiées est mixé en temps réel avec les autres pistes de la composante audio ou de sous-titrage non remplacées. En particulier, le procédé de restitution comprend une étape préalable de réception du contenu audio généré à partir d'une source externe, lorsque la source externe est située à un lieu distant du terminal.

Selon une autre caractéristique particulière, l'étape de restitution met en oeuvre une étape de mixage d'au moins une piste correspondant à une langue prédéterminée avec au moins une piste correspondant à une langue distincte. En effet, la transmission des composantes audio et/ou de sous-titrage d'un contenu vidéo avec un niveau de segmentation plus « fin » ou « petit » (segmentation au niveau « piste ») que le niveau de segmentation classique (segmentation au niveau « composante ») permet de mixer lors de la restitution des pistes associées à des langues différentes : par exemple restitution de la voix et/ou du sous-titrage en anglais pour le premier acteur et de la voix et/ou du sous-titrage en français pour le deuxième acteur.

Selon une caractéristique particulière, au moins un nouveau contenu audio généré à partir d'une source externe est ajouté lors de la restitution du contenu vidéo. Il est ainsi possible de compléter le contenu vidéo initial, avec ou sans sélection de pistes, en lui ajoutant de nouvelles informations. Par exemple, il est possible d'ajouter une voix supplémentaire au contenu vidéo, pour commenter une rencontre sportive.

Selon un mode de réalisation spécifique, le procédé de restitution est mis en oeuvre en temps réel. En d'autres termes, la sélection de pistes à restituer, ou la restitution d'un contenu audio généré par une source externe en remplacement d'une piste, est effectué au fur et à mesure du traitement du flux vidéo.

Le flux vidéo n'est donc pas modifié lors de l'identification de pistes pour sélection/remplacement. C'est uniquement lors de la restitution du contenu vidéo que ces sélections/remplacements sont pris en compte. Dans un autre mode de réalisation, l'invention concerne un dispositif de restitution d'un contenu vidéo à partir d'un flux vidéo comprenant une composante vidéo, au moins une composante audio ou de sous-titrage, selon lequel au moins une des composantes audio ou de sous-titrage comprend au moins deux pistes associées chacune à une source audio distincte, les pistes étant destinées à être restituées simultanément à la composante vidéo sur un terminal d'un utilisateur. Un tel flux vidéo comprend également au moins une donnée d'identification affectée à au moins une des pistes.

Selon l'invention, un tel dispositif comprend : un module d'identification d'au moins une des pistes à partir de la ou des données d'identification, délivrant au moins une piste identifiée, un module de restitution du contenu vidéo mettant en oeuvre une restitution simultanée : - de la composante vidéo et - d'au moins une des pistes identifiées ou d'au moins un contenu audio généré à partir d'une source externe remplaçant la ou les pistes identifiées. Un tel dispositif de restitution (et/ou enregistrement) est notamment adapté à mettre en oeuvre le procédé de restitution décrit précédemment. Il est par exemple intégré à un terminal d'un utilisateur (téléviseur, ordinateur, téléphone portable, tablette, etc), éventuellement combiné avec un boîtier décodeur - en anglais « set-top box ». Ce dispositif pourra bien sûr comporter les différentes caractéristiques relatives au procédé de restitution décrit précédemment, qui peuvent être combinées ou prises isolément. Ainsi, les caractéristiques et avantages de ce dispositif sont les mêmes que ceux du procédé de restitution. Par conséquent, ils ne sont pas détaillés plus amplement. Dans encore un autre mode de réalisation, l'invention concerne un ou plusieurs programmes d'ordinateur comportant des instructions pour la mise en oeuvre du procédé de transmission et/ou des instructions pour la mise en oeuvre du procédé de restitution tels que décrits ci-dessus, lorsque ce ou ces programmes sont exécutés par un processeur.

Les procédés selon l'invention peuvent donc être mis en oeuvre de diverses manières, notamment sous forme câblée ou sous forme logicielle. L'invention concerne aussi un support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur tel que mentionné ci-dessus. 4. Liste des figures D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation particulier, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : - la figure 1, présentée en relation avec l'art antérieur, illustre la structure d'un contenu vidéo selon l'art antérieur ; - la figure 2, également présentée en relation avec l'art antérieur, illustre la restitution d'un contenu vidéo selon l'art antérieur ; - la figure 3 présente les principales étapes mises en oeuvre par un procédé de transmission d'un contenu vidéo selon un mode de réalisation de l'invention ; - la figure 4 présente les principales étapes mises en oeuvre par un procédé de restitution d'un contenu vidéo selon un mode de réalisation de l'invention ; - la figure 5 illustre la structure d'un contenu vidéo obtenu en mettant en oeuvre les étapes de la figure 3; - la figure 6 illustre la restitution d'un contenu vidéo obtenue en mettant en oeuvre les étapes de la figure 4; les figures 7A et 7B présentent les champs composant un contenu vidéo selon deux exemples de mise en oeuvre de l'invention ; les figures 8 et 9 illustrent respectivement la structure simplifiée d'un dispositif de transmission et la structure simplifiée d'un dispositif de restitution selon un mode de réalisation particulier de l'invention. 5. Description d'un mode de réalisation de l'invention 5.1 Principe général Le principe général de l'invention repose sur l'identification de pistes associées à des sources audio distinctes au sein d'une ou plusieurs composantes audio et/ou d'une ou plusieurs composantes de sous-titrage d'un contenu vidéo, et sur la transmission de pistes plutôt que sur la transmission d'une composante audio ou de sous-titrage globale, de façon à permettre à un utilisateur de construire une restitution plus personnalisée du contenu vidéo. En particulier, on note que de telles pistes peuvent être identifiées au sein de composantes audio ou de sous-titrage préalablement formées, ou bien être identifiées lors de la formation des composantes audio ou de sous-titrage du contenu vidéo. Les pistes ainsi identifiées peuvent être transmises en maintenant cette séparation en pistes dans le flux vidéo, au lieu d'être regroupées dans une composante globale « indivisible » comme proposé dans l'art antérieur. On présente en relation avec la figure 3 les principales étapes mises en oeuvre par un procédé de transmission d'un contenu vidéo C selon un mode de réalisation particulier de l'invention. On considère qu'un tel contenu vidéo comprend une composante vidéo, une ou plusieurs composantes audio, et éventuellement une ou plusieurs composantes de sous-titrage. On note qu'on entend ici par « composante vidéo » l'ensemble des données contribuant à la restitution des images du contenu vidéo, par « composante audio » l'ensemble des données contribuant à une restitution sonore complète du contenu vidéo, et par « composante de sous-titrage » l'ensemble des données contribuant à une restitution complète de sous-titres du contenu vidéo. L'invention n'est donc pas limitée à l'utilisation de « composantes » telles que définies dans la norme MPEG 2 par exemple.

Plus précisément, au cours d'une première étape 31, on identifie dans la ou les composantes audio ou de sous-titrage au moins deux pistes associées chacune à une source audio distincte. On note que ces pistes sont destinées à être restituées simultanément à la composante vidéo sur un terminal d'un utilisateur, notamment si elles sont sélectionnées par un utilisateur.

Au cours d'une deuxième étape 32, on affecte à au moins une des pistes au moins une donnée d'identification D_id. Dans un mode de réalisation particulier, on affecte une donnée d'identification à chaque piste. On note que la première ou les deux premières étapes peuvent être mises en oeuvre en studio, lors de la création d'un contenu. Par exemple, on identifie différentes pistes au niveau de la prise de son, correspondant par exemple à un bruit d'ambiance et aux voix des différents acteurs. On affecte ensuite, soit en studio, soit lors de la construction du flux vidéo, des données d'identification aux différentes pistes. On peut donc considérer qu'on affecte un « canal » au bruit d'ambiance, et un « canal » aux voix des acteurs, et que ces deux canaux sont maintenus dans la chaine de diffusion (alors que le bruit d'ambiance et les voix des différents acteurs étaient mixés dans un unique « canal » selon l'art antérieur, formant ainsi un ensemble indivisible). Ces deux premières étapes peuvent également être mises en oeuvre en décomposant une ou plusieurs composantes audio et/ou de sous-titrage préalablement formées. Au cours d'une troisième étape 33, le contenu vidéo dans lequel les composantes audio ou de sous-titrage sont constituées de pistes séparées et la ou les données d'identification sont transmis dans un flux vidéo F, ou stockés sur un support pour une utilisation ultérieure. Les principales étapes mises en oeuvre côté restitution sont illustrées en figure 4. Plus précisément, un procédé de restitution d'un contenu vidéo à partir d'un flux vidéo F construit comme décrit en relation avec la figure 3 met en oeuvre une première étape 41 d'identification d'au moins une des pistes à partir de la ou des données d'identification, délivrant au moins une piste identifiée. Au cours d'une deuxième étape 42, le contenu est restitué, en restituant simultanément soit la composante vidéo et au moins une des pistes identifiées pour être restituées, soit la composante vidéo et au moins un contenu audio généré à partir d'une source externe remplaçant la ou les pistes identifiées pour être remplacées. On rappelle que l'invention peut s'appliquer aux flux vidéo transmis ou diffusés en direct (en anglais « live ») ou aux flux téléchargés. 5.2 Description d'un mode de réalisation particulier On décrit ci-après un mode de réalisation particulier de l'invention, selon lequel le contenu vidéo que l'on souhaite transmettre comprend une composante vidéo et deux composantes audio, l'une correspondant à la composante son français et l'autre à la composante son anglais. En reprenant les étapes de la figure 3, au cours de la première étape 31, on identifie dans les composantes audio son français et son anglais du contenu vidéo au moins deux pistes associées chacune à une source audio distincte.

Par exemple, en référence à la figure 5 qui représente un contenu vidéo 51, on identifie une première piste 521 correspondant à la voix de l'acteur 1 en son français, une deuxième piste 522 correspondant à la voix de l'acteur 2 en son français, une troisième piste 531 correspondant à la voix de l'acteur 1 en son anglais, une quatrième piste 532 correspondant à la voix de l'acteur 2 en son anglais, et une cinquième piste 541 correspondant au bruit de fond. On note que cette cinquième piste 541 correspondant au bruit de fond est commune aux composantes audio son français et son anglais, si l'on considère que le bruit de fond est invariant selon la langue. Elle n'est donc transmise qu'une seule fois et identifiée comme commune aux composantes audio français et anglais.

Il est ainsi possible d'identifier N pistes audio dans une composante audio, avec N un entier supérieur ou égal à 2. Par exemple, la composante audio son français est composée de trois pistes : la première piste 521 correspondant à la voix de l'acteur 1, la deuxième piste 522 correspondant à la voix de l'acteur 2, et la cinquième piste 541 correspondant au bruit de fond. Le contenu vidéo 51 comprend également une composante vidéo 511.

En reprenant les étapes de la figure 3, au cours d'une deuxième étape 32, on affecte à au moins une des pistes au moins une donnée d'identification D_id. Par exemple, on affecte une donnée d'identification à chaque piste : voix1FR pour la première piste 521, voix2FR pour la deuxième piste 522, voix1GB pour la troisième piste 531, voix2GB pour la quatrième piste 532 et BF pour la cinquième piste 541.

Le contenu vidéo comprenant les pistes et la ou les données d'identification peuvent alors être transmis dans un flux vidéo, ou stockés sur un support pour une utilisation ultérieure. Selon un premier exemple illustré en figure 7A, la partie audio du contenu vidéo est transmise sous la forme de « composantes » telles que définies dans la norme MPEG 2, dans lesquelles on a identifié des pistes. Chaque composante audio est par exemple composée d'un identifiant de composante (IdC1, IdC2, ...), d'une description de la composante (DescrC1, ...), et, pour chaque piste de la composante audio, d'une donnée d'identification de la piste (IdP11, IdP12, ...), d'une description de la piste (DescrP11, DescrP12, ...), et des données audio de la piste (D_P11, D_P12, ...) selon ce mode de réalisation particulier. Ces différents champs pourront bien sûr être multiplexés lors de la transmission.

Selon un deuxième exemple illustré en figure 7B, la partie audio du contenu vidéo est directement transmise sous forme de pistes composées chacune d'une donnée d'identification de la piste (IdP1, IdP2, ...), d'une description de la piste (DecrP1, DescrP2,...), et des données audio de la piste (D_P1, D_P2, ...). Il est ainsi possible de transmettre la voix de l'acteur 1 indépendamment de la voix de l'acteur 2, dans une même langue. On s'affranchit donc du niveau « composante » tel que défini dans la norme MPEG 2.

Côté restitution illustré en figure 6, un décodeur 61 reçoit le contenu vidéo comprenant les différentes pistes et la ou les données d'identification et décode au moins certaines pistes, destinées à être restituées simultanément à la composante vidéo sur un terminal 62 de l'utilisateur.

En particulier, si le flux vidéo comprend la composante vidéo 511 et chaque composante audio, où chaque composante audio est composée d'un identifiant de composante, d'une description de la composante, et, pour chaque piste de la composante audio, d'une donnée d'identification de la piste, d'une description de la piste, et des données audio de la piste, l'utilisateur peut sélectionner (611) une ou plusieurs pistes audio à restituer et le décodeur 61 peut décoder uniquement ces pistes. Si le flux vidéo comprend la composante vidéo 511 et les différentes pistes, composées chacune d'une donnée d'identification de la piste, d'une description de la piste, et des données audio de la piste, l'utilisateur peut directement sélectionner (611) la ou les pistes à restituer qui l'intéressent et le décodeur 61 peut décoder uniquement ces pistes.

Par exemple, l'utilisateur peut sélectionner la première piste 521 correspondant à la voix de l'acteur 1 en son français à partir de l'identifiant voix1FR, la quatrième piste 532 correspondant à la voix de l'acteur 2 en son anglais à partir de l'identifiant voix2GB, et la cinquième piste 541 correspondant au bruit de fond à partir de l'identifiant BF. Il est ainsi possible de restituer un contenu audio avec les voix d'origine des acteurs, comme la voix de Sophie Marceau en français et la voix de Pierce Brosnan en anglais dans le film « Le Monde ne suffit pas ». Selon un autre exemple, dit de « karaoké », l'utilisateur peut sélectionner la première piste 521 correspondant à la voix de l'acteur 1 en son français à partir de l'identifiant voix1FR et la cinquième piste 541 correspondant au bruit de fond à partir de l'identifiant BF, et choisir de remplacer la deuxième piste 522 correspond à la voix de l'acteur 2 en français par un contenu audio externe, comme sa propre voix ou celle d'un ami. Pour ce faire, on peut par exemple connecter un microphone, ou n'importe quel équipement équipé d'un microphone (ordinateur, téléphone intelligent, tablette, etc) au décodeur 61 (par exemple un boîtier décodeur ou « set top box ») et « parodier » le texte de l'acteur 2, ou « jouer » le rôle de l'acteur 2. Le contenu audio ainsi généré peut alors être mixé aux autres pistes sélectionnées (première piste 521 correspondant à la voix de l'acteur 1 en son français et cinquième piste 541 correspondant au bruit de fond) et à la composante vidéo 511 pour construire une restitution plus personnalisée du contenu vidéo. Une telle opération peut être effectuée par un mixeur 612 apte à recevoir des données provenant de sources distinctes et à les mixer, et permet de conserver la synchronisation entre le contenu audio externe, les différentes pistes, et la composante vidéo. On cherche donc à restituer un contenu vidéo à partir d'un flux vidéo reçu par un décodeur (en direct ou en différé), et d'une voix externe transmise à ce même décodeur, en sélectionnant un sous-ensemble cohérent d'une composante audio comme la voix d'un personnage (correspondant à une piste) et en le remplaçant par un son comme une voix externe, afin de réaliser un rendu de type karaoké.

Dans cet exemple, la piste de sous-titrage associée à la même source audio que la piste audio remplacée (i.e. la piste de sous-titrage transcrivant les paroles de l'acteur 2 en français) peut être automatiquement sélectionnée, afin que l'utilisateur jouant le rôle de l'acteur 2 puisse lire le texte de l'acteur 2. Selon un autre exemple, l'utilisateur peut choisir de remplacer la première piste 521 correspondant à la voix de l'acteur 1 en son français par un premier contenu audio externe, généré par un premier ami, remplacer la deuxième piste 522 correspond à la voix de l'acteur 2 en français par un deuxième contenu audio externe généré par un deuxième ami, et sélectionner uniquement la cinquième piste 541 correspondant au bruit de fond (ou choisir de remplacer cette cinquième piste 541 par un troisième contenu audio externe généré par un troisième ami). Par exemple, trois amis passent la soirée ensemble et cherchent une distraction. Ils allument la télévision et tombent sur le film « Les tontons flingueurs », diffusé en direct et transmis selon le procédé de l'invention. Chacun peut alors choisir la piste associée à un acteur, et remplacer la voix de cet acteur par sa propre voix. En particulier, si un des amis a choisi un rôle féminin (respectivement masculin) alors qu'il est de sexe masculin (respectivement féminin), il est possible de choisir une option « femme » (respectivement « homme ») au niveau de l'interface de sélection et sa voix est modifiée en voix féminine (respectivement masculine) par le mixeur 612. Pour pouvoir activer cette option, on considère que les données d'identification associées aux pistes comprennent des informations précisant la « nature » de la piste, comme une voix aigüe, grave, etc.

Il est ainsi possible de décoder uniquement certaines pistes et de les mixer avec un ou plusieurs contenus audio issus d'une ou plusieurs sources externes. En particulier, ces sources peuvent être « locales », i.e. situées au niveau du terminal de restitution et directement connectées au terminal de restitution, ou bien « distantes », i.e. située à un lieu distant du terminal. Il est également possible de combiner les contenus audio issus de sources locales et de sources distantes. Par exemple, nos trois amis précédents sont dans leurs appartements respectifs, et souhaitent regarder un même contenu vidéo. Chacun peut choisir la piste (i.e. la voix) qu'il souhaite interpréter. Le contenu audio généré par chacun des trois amis peut être récupéré par le décodeur respectif de chacun des amis. Chaque décodeur mixe alors les contenus audio des trois amis éventuellement avec d'autres pistes sélectionnées (comme le bruit de fond par exemple) et le restitue avec la composante vidéo sur le terminal de chaque utilisateur. Les contenus audio générés par les trois amis peuvent également être récupérés par une application intermédiaire distante, mise en oeuvre dans un équipement tiers du réseau, qui les mélange éventuellement avec d'autres pistes sélectionnées (comme le bruit de fond par exemple) et le rediffuse avec la composante vidéo à l'ensemble des amis. Selon encore un autre exemple, un opérateur peut diffuser une chaine de jeu/concours qui consiste à masquer la voix de certains personnages dans les vidéos diffusées. Un utilisateur peut alors identifier la ou les pistes correspondant à la voix du ou des personnages à masquer, et remplacer cette piste par sa propre voix. Le contenu vidéo ainsi généré peut être enregistré puis transféré ensuite au site concours, et la meilleure interprétation est déclarée gagnante. En résumé, le choix des différentes pistes peut être effectué en affichant, au niveau du terminal d'au moins un utilisateur, une interface de sélection, permettant de choisir une ou plusieurs pistes, associées à une ou plusieurs composantes audio, destinées à être restituées simultanément à la composante vidéo ou remplacées par un contenu audio externe. Il est également possible de faire apparaître au niveau de cette interface des contenus audio externes que l'on souhaite simplement ajouter en restitution au contenu vidéo initial. On note qu'il n'est pas possible de sélectionner deux pistes associées à la même source audio mais appartenant à des composantes audio différentes : par exemple, il n'est pas possible de sélectionner simultanément la première piste 521 correspondant à la voix de l'acteur 1 en son français et la troisième piste 531 correspondant à la voix de l'acteur 1 en son anglais. Par ailleurs, certaines pistes peuvent être sélectionnées par défaut, comme le bruit de fond. 5.3 Variantes Différentes variantes sont envisageables. En particulier, on a décrit différents exemples ci-dessus relatifs à l'identification d'un ensemble de pistes audio indépendantes d'une ou plusieurs composantes audio. Bien entendu, il est également possible d'identifier un ensemble de pistes de sous-titrage indépendantes d'une ou plusieurs composantes de sous-titrage, afin par exemple d'afficher le texte de l'acteur 1 en français et le texte de l'acteur 2 en anglais, ou d'afficher uniquement le texte de l'acteur 1 si on souhaite remplacer la piste audio associée à l'acteur 1 en français par un contenu audio externe.

Une piste de sous-titrage propre à un seul personnage est donc possible selon l'invention. Il est aussi possible de restituer la voix de l'acteur 1 en français et le sous-titrage associé à l'acteur 1 an anglais, et de restituer la voix de l'acteur 2 en anglais et le sous-titrage de l'acteur 2 en français. Il est ainsi possible de restituer des pistes appartenant à des composantes initiales différentes, ou de mixer différentes langues au niveau audio et/ou sous-titrage.

Il est également possible d'ajouter, au moment de la restitution du contenu vidéo, un contenu généré par une source externe en complément à ce contenu vidéo restitué, et non uniquement en substitution. Ceci présente notamment un intérêt lorsque le contenu vidéo principal est créé à partir d'une base diffusée (comme l'édition nationale d'un journal télévisé), puis complété par des contenus externes (comme l'édition régionale du journal télévisé). Cette option peut également présenter un intérêt lorsque le contenu vidéo présente un match sportif, que des amis souhaitent commenter. Il est également possible d'ajouter des contenus externes sur d'autres actions que la lecture du flux vidéo, comme l'enregistrement. En effet, classiquement, lors de l'enregistrement au niveau d'un terminal d'un utilisateur d'un flux diffusé en direct, toutes les composantes (vidéo, audio, et éventuellement de sous-titrage) sont enregistrées, hors décodage. Selon l'invention, il est possible d'enregistrer un nouveau contenu généré en ajoutant un contenu généré par une source externe au contenu initial, ou d'enregistrer un nouveau contenu obtenu en remplaçant certaines pistes du contenu initial par un contenu généré par une source externe, voir de supprimer/invalider certaines pistes présentes dans le flux diffusé. Par ailleurs, dans les exemples décrits ci-dessus, on a considéré qu'on affectait une donnée d'identification par piste. On peut donc avoir une seule donnée d'identification par source audio. Dans ce cas, une même donnée d'identification peut être affectée à une piste audio d'une composante audio et une piste de sous-titrage d'une composante de sous-titrage, si elles sont associées à la même source audio (par exemple au même acteur). Dans ce cas, des données supplémentaires peuvent être insérées dans le flux pour indiquer le type de données composant la piste (données audio, données de sous-titrage). On peut également avoir une donnée d'identification par ensemble de source audio. Par exemple, on peut avoir une même donnée d'identification pour tous les acteurs, ou une première donnée d'identification pour toutes les actrices féminines et une deuxième donnée d'identification pour tous les acteurs masculins, etc. En particulier, une donnée d'identification peut être affectée à un groupe d'au moins deux pistes, le groupe étant formé selon un critère prédéterminé de regroupement caractéristique des sources audio associées à ces pistes. En d'autres termes, une même donnée d'identification est dans ce cas affectée à deux pistes associées à deux sources audio distinctes présentant une même caractéristique correspondant au critère de prédéterminé de regroupement. Cet aspect de l'invention permet par exemple de distinguer : un groupe de voix féminines ou un groupe de voix masculines selon un critère prédéterminé correspondant au sexe des sources audio associées auxdites sous-composantes voix du groupe, un groupe de voix d'enfants ou à l'inverse de personnes mûres selon un critère prédéterminé correspondant à l'âge des sources audio associées auxdites sous- composantes voix du groupe, un groupe de voix de cow-boys ou à l'inverse d'indiens selon un critère prédéterminé correspondant à l'appartenance à une tribu des sources audio associées auxdites sous-composantes voix du groupe, - un groupe de sons nocturnes ou à l'inverse diurnes selon un critère prédéterminé correspondant à la luminosité et/ou à la présence du jour dans les images du contenu vidéo, un groupe de sons en intérieur ou à l'inverse extérieur selon un critère prédéterminé de localisation des sources audio, - etc. Ainsi, selon cet aspect de l'invention, il y a moins de données d'identification que de pistes de la composante audio ou de sous-titrage. En effet, il y a par exemple autant de pistes indienl, indien2, indien3... indien N qu'il n'y a d'acteurs (au nombre de N) jouant le rôle d'indiens dans le contenu vidéo de type film, alors que seule une donnée d'identification « indien » est affectée à ces N pistes « indien ». Une telle affectation « partielle » permet de réduire le nombre de données d'identification à transmettre. Selon une autre variante, on peut également mettre en oeuvre une « double étape d'affectation », selon laquelle une donnée d'identification est affectée à chaque piste associée à cette source audio distincte, et une donnée d'identification est affectée à un groupe de pistes dont les sources audio correspondantes sont caractérisées par un même critère de regroupement prédéterminé. Ainsi, l'invention permet entre autres : - lors de la génération et de la transmission de flux, une identification de N pistes dans une composante audio ou de sous-titrage (lors de la formation de la composante ou par décomposition d'une composante existante), constituées par exemple du bruit de fond et des voix de chaque personnage du contenu vidéo, ou d'une transcription textuelle du bruit de fond et des voix de chaque personnage ; - un décodage sélectif en local de pistes choisies par l'usager, parmi toutes les composantes/pistes proposées. L'interface homme-machine du décodeur peut permettre à un utilisateur de choisir la ou les pistes transmises à restituer ou à remplacer par un ou des sons externes associés par exemple à des microphones, en plus (ou au lieu) de choisir la langue dans laquelle le contenu est joué (français, anglais, ...) ou la qualité (stéréo, 5.1, ...) un mixage en temps réel dans le décodeur entre les pistes décodées, issues du contenu vidéo ou de sources externes, pour la restitution d'un même contenu global. Les avantages de la solution proposée sont notamment : une extension des choix audio ou de sous-titrage par l'utilisateur ; une personnalisation du son par des sons extérieurs (issus d'autres sources) ; une possibilité de composition d'un contenu global à partir de sources distantes ; une possibilité de mixer différentes langues suivant les acteurs (panachage de pistes appartenant à des composantes initiales différentes). La solution permet donc à un opérateur d'offrir une nouvelle utilisation interactive et ludique de ces contenus diffusés, en proposant par exemple une option karaoké (éventuellement payante). L'option « karaoké » permet d'ajouter de la valeur aux contenus diffusés, et présente un intérêt à la fois sous forme de jeu mais aussi sous forme d'apprentissage dans l'entraînement à la diction et aux intonations On note qu'un flux transmis selon l'invention peut également être restitué de façon « classique ». L'invention offre ainsi un service supplémentaire, en plus de la restitution classique d'un contenu vidéo. 5.4 Description des dispositifs de transmission et de restitution selon l'invention On présente finalement, en relation avec les figures 8 et 9 respectivement, la structure simplifiée d'un dispositif de transmission mettant en oeuvre une technique de transmission d'un contenu vidéo et la structure d'un dispositif de restitution mettant en oeuvre une technique de restitution d'un contenu vidéo selon un mode de réalisation particulier de l'invention. Comme illustré en figure 8, un tel dispositif de transmission comprend une mémoire 81 comprenant une mémoire tampon, une unité de traitement 82, équipée par exemple d'un microprocesseur ,uP et pilotée par le programme d'ordinateur 83, mettant en oeuvre le procédé de transmission selon l'invention.

A l'initialisation, les instructions de code du programme d'ordinateur 83 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 82. L'unité de traitement 82 reçoit en entrée un contenu vidéo C à diffuser. Le microprocesseur de l'unité de traitement 82 met en oeuvre les étapes du procédé de transmission décrit précédemment, selon les instructions du programme d'ordinateur 83, pour identifier les pistes audio et /ou de sous-titres composant le contenu vidéo et leur affecter des données d'identification, et transmettre un flux vidéo F comprenant les données d'identification et le contenu vidéo. Pour cela, le dispositif de transmission comprend en outre : un module M_Id 84 d'identification d'au moins deux pistes associées chacune à une source audio distincte, lesdites pistes étant destinées à être restituées simultanément à ladite composante vidéo sur un terminal d'un utilisateur, un module M_D_id 85 d'affectation à au moins une des pistes d'au moins une donnée d'identification, et un module M_Tx 86 de transmission du contenu vidéo comprenant les pistes et de la ou des données d'identification dans le flux vidéo F. Ces modules sont pilotés par le microprocesseur de l'unité de traitement 82. Comme illustré en figure 9, un tel dispositif de restitution d'un contenu vidéo comprend quant à lui une mémoire 91 comprenant une mémoire tampon, une unité de traitement 92, équipée par exemple d'un microprocesseur ,uP, et pilotée par le programme d'ordinateur 93, mettant en oeuvre le procédé de restitution d'un contenu vidéo selon l'invention. A l'initialisation, les instructions de code du programme d'ordinateur 93 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 92. L'unité de traitement 92 reçoit en entrée le flux vidéo F, ainsi qu'une sélection de pistes à restituer/remplacer. Le microprocesseur de l'unité de traitement 92 met en oeuvre les étapes du procédé de restitution décrit précédemment, selon les instructions du programme d'ordinateur 93, pour identifier les différentes pistes et construire une restitution plus personnalisée du contenu vidéo. Pour cela, le dispositif de restitution comprend en outre : un module M_D_id 94 d'identification d'au moins une piste à partir de la ou des données d'identification, délivrant au moins une piste identifiée, et un module M_rest 95 de restitution du contenu vidéo mettant en oeuvre une restitution simultanée : de la composante vidéo et d'au moins une des pistes identifiées ou d'au moins un contenu audio généré à partir d'une source externe remplaçant la ou les pistes identifiées. Ces modules sont pilotés par le microprocesseur de l'unité de traitement 92.

Claims

REVENDICATIONS1. Procédé de transmission d'un contenu vidéo comprenant une composante vidéo et au moins une composante audio ou de sous-titrage, caractérisé en ce qu'il comprend les étapes suivantes : identification (31) dans ladite au moins une composante audio ou de sous-titrage d'au moins deux pistes associées chacune à une source audio distincte, lesdites pistes étant destinées à être restituées simultanément à ladite composante vidéo sur un terminal d'un utilisateur, affectation (32) à au moins une desdites pistes d'au moins une donnée d'identification, transmission (33) dudit contenu vidéo comprenant lesdites au moins deux pistes et de ladite au moins une donnée d'identification dans un flux vidéo.
2. Procédé de transmission d'un contenu vidéo selon la revendication 1, caractérisé en ce qu'au moins une desdites sources audio est visible dans au moins une image dudit contenu vidéo.
3. Procédé de transmission d'un contenu vidéo selon l'une quelconque des revendications 1 et 2, caractérisé en ce que ladite au moins une donnée d'identification identifie au moins une source audio.
4. Procédé de transmission d'un contenu vidéo selon l'une quelconque des revendications 1 à 3, caractérisé en ce que la ou lesdites composantes audio ou de sous-titrage correspondent chacune à une langue et/ou une qualité sonore distincte.
5. Procédé de transmission d'un contenu vidéo selon l'une quelconque des revendications 1 à 4, caractérisé en ce qu'au moins une desdites pistes est définie pour au moins deux desdites composantes audio ou de sous-titrage.
6. Flux vidéo comprenant une composante vidéo et au moins une composante audio ou de sous-titrage, au moins une desdites composantes audio ou de sous-titrage comprenant au moins deux pistes associées chacune à une source audio distincte, lesdites pistes étant destinées à être restituées simultanément à ladite composante vidéo sur un terminal d'un utilisateur, caractérisé en ce que ledit flux vidéo comprend également au moins une donnée d'identification affectée à au moins une desdites pistes.
7. Procédé de restitution d'un contenu vidéo à partir d'un flux vidéo comprenant une composante vidéo, au moins une composante audio ou de sous-titrage, au moins une desdites composantes audio ou de sous-titrage comprenant au moins deux pistes associées chacune à une source audio distincte, lesdites pistes étant destinées à être restituées simultanément à ladite composante vidéo sur un terminal d'un utilisateur, et ledit flux comprenant également au moins une donnée d'identification affectée à au moins une desdites pistes,caractérisé en ce que ledit procédé comprend les étapes suivantes : identification (41) d'au moins une desdites pistes à partir de ladite au moins une donnée d'identification, délivrant au moins une piste identifiée, restitution (42) dudit contenu vidéo mettant en oeuvre une restitution simultanée : - de ladite composante vidéo et - d'au moins une desdites pistes identifiées ou d'au moins un contenu audio généré à partir d'une source externe remplaçant ladite au moins une piste identifiée.
8. Procédé de restitution d'un contenu vidéo selon la revendication 7, caractérisé en ce que ladite étape de restitution met en oeuvre une étape de mixage dudit au moins un contenu audio généré à partir d'une source externe avec au moins une piste d'une desdites composantes audio ou de sous-titrage, distincte de ladite au moins une piste identifiée.
9. Procédé de restitution d'un contenu vidéo selon l'une quelconque des revendication 7 et 8, caractérisé en ce que ladite étape de restitution met en oeuvre une étape de mixage d'au moins une piste correspondant à une langue prédéterminée avec au moins une piste correspondant à une langue distincte.
10. Procédé de restitution d'un contenu vidéo selon l'une quelconque des revendication 7 à 9, caractérisé en ce qu'il comprend une étape préalable de réception dudit contenu audio généré à partir d'une source externe, lorsque ladite source externe est située à un lieu distant dudit terminal.
11. Dispositif de transmission d'un contenu vidéo comprenant une composante vidéo et au moins une composante audio ou de sous-titrage, caractérisé en ce qu'il comprend : un module d'identification (84), dans ladite au moins une composante audio ou de sous-titrage, d'au moins deux pistes associées chacune à une source audio distincte, lesdites pistes étant destinées à être restituées simultanément à ladite composante vidéo sur un terminal d'un utilisateur, un module d'affectation (85) à au moins une desdites pistes d'au moins une donnée d'identification, un module de transmission (86) dudit contenu vidéo comprenant lesdites au moins deux pistes et de ladite au moins une donnée d'identification dans un flux vidéo.
12. Dispositif de restitution d'un contenu vidéo à partir d'un flux vidéo comprenant une composante vidéo, au moins une composante audio ou de sous-titrage, au moins une desdites composantes audio ou de sous-titrage comprenant au moins deux pistes associées chacune à une source audio distincte, lesdites pistes étant destinées à être restituées simultanément à ladite composante vidéo sur un terminal d'un utilisateur, et ledit flux comprenant également au moinsune donnée d'identification affectée à au moins une desdites pistes, caractérisé en ce que ledit dispositif comprend : - un module d'identification (94) d'au moins une desdites pistes à partir de ladite au moins une donnée d'identification, délivrant au moins une piste identifiée, un module de restitution (95) dudit contenu vidéo mettant en oeuvre une restitution simultanée : de ladite composante vidéo et d'au moins une desdites pistes identifiées ou d'au moins un contenu audio généré à partir d'une source externe remplaçant ladite au moins une piste identifiée.
13. Programme d'ordinateur comportant des instructions pour la mise en oeuvre d'un procédé selon la revendication 1 ou selon la revendication 7 lorsque ledit programme est exécuté par un processeur.