WO2009081002A1 - Processing of a 3d audio stream as a function of a level of presence of spatial components - Google Patents
Processing of a 3d audio stream as a function of a level of presence of spatial components Download PDFInfo
- Publication number
- WO2009081002A1 WO2009081002A1 PCT/FR2008/052285 FR2008052285W WO2009081002A1 WO 2009081002 A1 WO2009081002 A1 WO 2009081002A1 FR 2008052285 W FR2008052285 W FR 2008052285W WO 2009081002 A1 WO2009081002 A1 WO 2009081002A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- processing
- audio stream
- spatial
- frequency
- level
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000011282 treatment Methods 0.000 claims description 53
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims 1
- 238000000926 separation method Methods 0.000 abstract description 3
- 230000009467 reduction Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 38
- 239000013598 vector Substances 0.000 description 11
- 238000012546 transfer Methods 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 230000007704 transition Effects 0.000 description 5
- 230000015654 memory Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000011449 brick Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000763 evoking effect Effects 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000004513 sizing Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Definitions
- the present invention relates to the processing of digital signals. These signals may be, for example, audio signals, video signals or more generally multimedia signals.
- the invention relates more particularly to 3D audio streams comprising a plurality of spatial components, the spatial components being associated with directivity functions.
- the invention applies to systems for coding / decoding 3D sound scenes, and more particularly during spatial decoding before rendering on loudspeakers or headphones. It applies similarly to "beamforming" for spatial separation and / or noise reduction application.
- 3D audio stream is a surround-type stream ("ambisonic” in English), more precisely in HOA format (for "Higher Order Ambisonic” in English).
- This type of audio stream can be obtained for example by taking a sound from a spherical array of microphones.
- this type of sound recording refer to the following document: "3D Sound Field Recording with Higher Order Ambisonics-Objective Measurements and Validation of a 4th Order Spherical Microphone", S.Moreau, J.Daniel , S.Bertet, in 120th AES Paris Convention (2006).
- the audio stream with its spatial components can also be obtained after a spatialization processing applied to N channels corresponding to monophonic signals.
- This type of spatialization processing can be of the ambiophonic type.
- Ambiophonic encoding of order M gives a compact spatial representation of a 3D sound scene, by making projections of the sound field on the associated spherical or cylindrical harmonic functions.
- the spatial components are ambiophonic components B m ⁇ n connected to a sound pressure field p by the Fourier-Bessel series, and to which the contribution of a sound source in far field, that is to say a planar wave of incidence ( ⁇ s, ⁇ s) carrying a signal S is written by the spatial encoding equation:
- Figure la represents the spherical coordinate system used for these equations, where a direction is represented by the azimuth angles ⁇ and elevation ⁇ .
- FIG. 1b A representation of the spherical harmonic functions is also represented in FIG. 1b. It is thus possible to see the omnidirectional component Fo 0 (Ty), the bidirective components F 10 (Z), Y n (X), Y n 1 (Y) and the components of higher dimensions.
- the set of spatial components are staggered according to a complementary dimension (other than frequency or time) that reflects the associated angular frequencies.
- the notion of spatial resolution or encoding order is then defined by the maximum angular frequency represented, thus related to the number of spatial components present significantly.
- This treatment is generally linear and consists for example of stamping operations, filtering or combination of both.
- B and S are the vectors of the processed (B) and resultant (S) signals and where D is the processing matrix.
- This processing matrix is composed of amplitude gains in simpler realizations or transfer functions in more elaborate realizations.
- the spatial resolution is in practice not homogeneous over the entire frequency band. Indeed, for reasons of sizing of the microphonic network, the spatial resolution is indeed lower in a low-frequency domain, that is to say that the higher order components have a signal level (density spectral power) weaker or insignificant.
- FIG. 2 represents, for example, schematically the actual presence of the spatial components B n according to the frequency f and according to their spatial order m (related to spatial resolution) in a particular example of sound pickup by spherical array of microphones.
- Spatial aliasing is an encoding artifact related to the ambiguity of the wave incidence direction information, occurring when the wavelength is no longer large enough to the differences in acoustic path between sensors.
- the present invention improves this situation.
- the invention proposes a method for processing an encoded 3D audio stream comprising a plurality of spatial components.
- This method comprises, during the decoding of the audio stream, the following steps: obtaining information representative of the level of presence of the spatial components of the audio stream as a function of frequency; selection by frequency or frequency band of a spatial decoding processing compatible with the information obtained; applying the selected treatments to the 3D audio stream.
- the processing applied to the audio stream takes into account the presence characteristics of the spatial components and therefore the spatial resolution, by frequency to best adapt the flow processing over the entire frequency band.
- the method comprises a step of obtaining a global treatment to be applied over the entire frequency band of the audio stream, from the selected treatments.
- a single treatment is therefore to be applied over the entire frequency band of the audio stream, which simplifies the implementation.
- Obtaining the overall treatment may comprise a step of aggregating the selected treatments and integrating a smoothing function between the different treatments.
- the invention is advantageously applied in the case where the overall processing is a bank of filters adapted to perform a spatial decoding of the audio stream before sound reproduction.
- the information representative of the level of presence of the spatial components comes from characteristics of the devices for generating the audio stream and are obtained by reading data related to the audio stream.
- This information is received directly at the same time as the audio stream. They come from the characteristics of the devices for generating the audio stream, for example the characteristics of microphones.
- the information representing the level of presence of the spatial components is obtained by analyzing the audio stream, the analysis comprising a step of estimating the presence level of the components by comparing the energy levels of the components according to of the frequency.
- the information can therefore be obtained at different times, in case the level of presence changes over time.
- the analysis step may include a step of estimating a noise level and / or a quality index.
- This additional information can be used to make a more judicious choice of the treatment to be applied for example.
- the selected treatments are listed in a processing database.
- This database may include matrix coefficients and / or processing filters, and / or rules and parameters for constructing a processing function.
- This processing data can be updated or modified at any time.
- the selection takes into account other criteria such as in particular a noise level resulting from the application of said processing and / or a quality level of said processing and / or a level of spatial performance of the processed audio stream. by said processing and / or treatment characteristics selected in neighboring frequency bands.
- the selection is optimized to better adapt treatments to the flow and improve the quality of treatment.
- the selection of a frequency or frequency band processing comprises a step of compensating for the level of presence of the spatial component to be applied to said processing.
- the invention also relates to a processing device for decoding a coded 3D audio stream comprising a plurality of spatial components.
- This device is such that it comprises: a module for obtaining information representative of the presence level of the spatial components of the audio stream as a function of the frequency; a selection module adapted to select by frequency or frequency band a spatial decoding processing compatible with the information obtained; a processing module adapted to apply the selected treatments to the 3D audio stream.
- the invention also relates to a digital audio decoder comprising such a device.
- the invention is directed to a computer program comprising code instructions for implementing the steps of the method according to the invention, when these instructions are executed by a processor.
- It also relates to a storage medium readable by a computer system storing a set of instructions executable by said system to implement the steps of the method according to the invention.
- FIG. 1 previously described, illustrates the direction of propagation of a plane wave in space, described previously;
- FIG. 1b previously described illustrates the spherical harmonic components in the case of an ambiophonic spatial representation of order 3;
- FIG. 2 previously described illustrates a representation of spatial components in the case of sound recording by a spherical array of microphones
- FIG. 3 represents a digital audio coding / decoding system comprising a processing device according to the invention
- FIG. 4 illustrates in flowchart form the main steps of a treatment method according to the invention
- FIG. 5 illustrates a presence representation of spatial components as a function of frequency
- FIG. 6 illustrates an application of the selected treatments according to a first embodiment of the invention
- FIG. 7 illustrates a determination of the treatment to be applied from the selected treatments, according to a second embodiment of the invention.
- FIG. 8 illustrates an embodiment of the step of selecting and obtaining a global treatment according to the invention.
- FIG 9 illustrates a processing device according to the invention.
- 3D audio content is generated by a 3D content generation module 330 which can for example be a sound pickup module by a microphones network or a 3D virtual scene composition module, or a post-production chain integrating for example and among others this type of tools.
- This 3D content can also come from a 3D recording stored on a medium.
- the invention applies to variant representations, in particular 2D as described above.
- the audio stream comprises spatial components Bk (t) which are optionally transmitted to an audio coder 300.
- the 3D audio stream is transmitted directly. to the processing module 322 of the processing device 350.
- the 3D audio stream is accompanied by data D of description of the sound recording comprising information on the actual presence of spatial components by frequency band or frequency.
- This data can be in the form of a table of values depending on the frequency. These values can be updated over time. They typically derive from the characteristics of the 3D microphonic system that was used to produce the content to be processed.
- This data is then transmitted to the processing device 350 and in particular to the module 355 for receiving or obtaining this information. They are then transmitted to the processing selection module 353.
- the audio coder 300 may comprise a time / frequency transformation module 301, for example of the MDCT type (for "Modified Discrete Cosine transform"), of the 3D audio stream. At the output of this module, we obtain spatial components Bk (f) in the frequency domain.
- the encoder may also include a quantization module 302 capable of quantifying the audio stream in a binary stream T. This bit stream is then transmitted, recorded or transported.
- an audio decoder 320 dequantizes this stream, if necessary, by an inverse quantization module 321.
- the stream B'k (f) obtained is processed by a processing module 322 of the processing device 350.
- the stream B'k (f) first undergoes a frequency / time transformation by the transformation module 323 before undergoing the processing of the module 322.
- the processing carried out by this processing module is a spatial decoding process for a reproduction by the reproduction module 340 on loudspeakers or on headphones.
- the processing module is controlled by the processing device 350.
- This processing device comprises a module 353 for selecting a processing to be applied to the audio stream for a given frequency band or frequency.
- the selection of the processing adapted to the frequency band is performed according to the information D received on the actual presence of the spatial components in the frequency band concerned.
- a processing solution is selected for a frequency band, if it corresponds to the maximum possible compatible resolution with the level of effective presence of the spatial components.
- a threshold decision criterion is then applied.
- Several processing solutions can also be selected according to the adequacy between the contribution level required for the output signals and the actual presence level of each component.
- this database comprises, for example, for processing on K spatial components and producing N signals, matrices of dimensions K * N, associated or not with filters or filter matrices of dimension K * N.
- the database may also include in a non-exhaustive manner parameters that will be used to calculate the corresponding processing matrix or filter coefficients or transfer functions (frequency-tabulated numeric values) or filter design parameters ( transient frequencies, frequency subband response level) or data specially adapted for application in the transformed domain (infinite impulse response infinite impulse response RIF, infinite impulse response subfilters) filtered-decimated by subbands).
- the database may include not only data but also application rules or processing algorithms.
- these rules or algorithms can be rules or algorithms for calculating decoding matrices optimized according to "psychoacoustic" location criteria (such as those introduced by M.Gerzon and that can be found in the documents: __ GERZON, MA "General Metatheory of Auditory Localization” AES 92nd Convention, preprint 3306, Vienna, Austria, March 23-29, 1992 or GERZON, MA "Psychoacoustic Decoders for Multipspeaker Stereo and Surround-Sound AES 93rd Convention, preprint 3406, San Francisco, USA, October 1992). Rules and formulas for calculating parameters or decoding matrices, optimal according to such criteria, can be found in J.Daniel's thesis report cited above.
- Decoding matrices can also be chosen according to other higher-level criteria (e.g., centered auditor, expanded audience).
- For binaural decoding processing it may be a program for calculating and optimizing decoding filters, based on a database of HRTFs (for "Head Related Transfer Functions") and using high level settings. Such treatments are described in particular in the patent application WO2007101958.
- the database 352 therefore consists of pre-calculated processing data and / or rules for calculating them which are supposed to satisfy the desired function (optimal spatial decoding, transformation, etc.) as a function of parameters or combination of parameters, for example the geometric configuration of the loudspeakers, the spatial resolution of the processed HOA flux, the frequency band considered.
- desired function optical spatial decoding, transformation, etc.
- the data of the database can be prepared for example in a form specially adapted to the processing mode (eg frequency domain) and / or selectable according to set user parameters (eg base of HRTF if binaural decoding).
- the processing mode eg frequency domain
- set user parameters eg base of HRTF if binaural decoding
- each selectable process can be described as a transfer matrix D (J) of N rows and K columns, whose index element row n and index column k is the transfer function d n k (f) -
- this processing is selected by the module 353, the latter completes the processing matrix with zeros to form a matrix of dimension K * N, D (f), by inserting null columns at the indices k of E K who are not in E.
- the module 353 selects the adapted processing in the database 352.
- the processing device comprises a module 354 for determining a global processing to be applied over the entire frequency band of the audio stream. This module makes it possible to compile the processes selected by the selection module 353 and put them in an operational form for processing over the entire frequency band.
- This aggregation procedure may for example consist of grouping pieces of transfer functions, for example. recompose each required transfer function to derive a FIR filter by inverse Fourier transform.
- the overall processing sought is in the form of filters
- the criteria of smoothing or frequency interpolation are defined so as to better condition the filter (size, regularity %) and to reduce the audible artifacts.
- the adapted processing must also vary over time and a temporal smoothing method can be implemented to avoid audible artifacts. undesirable effects due to too abrupt variations.
- the resulting overall processing TG is then transmitted to the processing module T 322.
- This processing module therefore applies the processing received from the module 353 by frequency band or the overall processing received from the module 354 for the entire frequency band of the audio signal.
- the processing carried out by the module 322 may correspond to the processes described later with reference to FIG. 6 or a global processing determined by the module 354 and described with reference to FIG. 7 later.
- the processing is applied to signals of the time domain or of the frequency domain depending on whether the audio stream is received directly from the audio stream generation module or that a coded transformed audio stream is received or that the processing is implemented before or after the transformation module 323.
- an analysis module 351 may be provided.
- This module implements a step of analysis of the 3D audio stream to estimate the level of presence of the spatial components by frequency band.
- This estimation step is carried out here with the assumption that the level of presence at a given frequency is substantially the same for components of the same order m.
- This level of presence can be defined as a scale factor in the sense of an attenuation of the level with respect to a so-called ideal spatial encoding as described initially.
- this level of presence can be defined as a gain y n n (f) (again denoted ⁇ k (f)) depending on the frequency.
- This gain is such that the equation (1) defining the ideal encoding is replaced by the following equation (3): or else B k - ⁇ k (f) Y k ( ⁇ s , ⁇ s ) S.
- the step of estimating the level of presence of the spatial components can be carried out by intercorrelation between the components B m ⁇ n .
- an ideal encoding should give rise to components of the same energy.
- the ideal encoding should be such that the average of the energies of the components of the same order m is the same for all orders m.
- Power Spectrum Density (PSD) between the components of order greater than 1 and that of order 0 according to the following expressions:
- ⁇ PSD (B m ⁇ n , f) ⁇ (f) ° ⁇ " ⁇ ". ⁇ ⁇ '(5)
- the estimate may be made in advance over part or all of the content or over time and adaptively with a convergence objective of the estimate.
- the estimate is updated over time (for example frame by frame).
- the estimate of the level of presence can be done by observing the scale factors (in the classical sense signal coding) and quantization rate (binary allocation) of each brick. "time-frequency-space", supplemented by the estimation methods evoked.
- the analysis module 351 can also measure other characteristics of the signal.
- This noise can be related for example to the background noise of microphones for recording and / or quantization noise in the case of audio coding.
- index of quality or reliability of the spatial encoding can be determined.
- This index is for example represented by a modeling error of the spatial information ⁇ k (/) due for example to an encoding error that can occur in the presence of spatial aliasing or following an imperfect calibration of the microphonic system. .
- This additional information can also be part of the data D associated with the audio stream, and be determined by the characteristics of the sound recording.
- B k Y ⁇ fK ( ⁇ s , ⁇ s ) S + v k (f) + ⁇ k (f) (6) where v k (/) denotes an acquisition noise.
- This information can be used when selecting the processing adapted to the actual presence of the components per frequency band, in one embodiment described with reference to FIG. 8.
- step E41 is a step of receiving the 3D audio stream as well as obtaining data D of information on the level of presence of the spatial components of the 3D audio stream as a function of frequency. These data are obtained as mentioned above, either directly from the characteristics of the sound recording or after analysis of the audio stream.
- This data may further include information on the noise level or the quality level of a spatial encoding.
- step E42 a selection of treatments to be applied per frequency band is performed according to the level of presence of the components obtained in step E41. This selection can also be made taking into account other criteria such as the noise level or quality.
- the different treatments to be selected come from a BD processing database.
- step E43 the different frequency band processes are concatenated or reformulated to generate a global treatment to be applied over the entire frequency band. This global processing is thus applied in E44 to the audio stream.
- FIG. 5 represents the presence information of spatial components received either directly with the 3D audio stream, or from an analysis of the stream.
- the effective spatial resolution is 1, that for a frequency between f1 and f2, the effective resolution is 2, that for a frequency between f2 and f3, the effective resolution is 3 and that for a frequency higher than f3, the effective resolution is 4.
- the selection module 353, as a function of the presence information of the spatial components takes into account the representative frequencies and defines the effective spatial resolution as the maximum order such ⁇ mn ⁇ (f ⁇ )> fthres Vm ⁇ m e eff ctive fthres being an acceptability threshold (e.g. 3dB).
- This module thus retains as frequencies of transition the frequencies where m sffsct ⁇ vs (f) knows a discontinuity.
- the selection module For each frequency f t (or between the transition frequencies), the selection module select from the database DB, the most suitable treatment for the effective resolution m eff ec tive (/ I) - e.g. are selected D decoding matrix ,.
- the processing matrices factorize as the product of a base matrix D common base all decoding solutions and a diagonal matrix g whose coefficients are specific to each decoding variant. For example, a matrix identified by the index i will be written:
- the optimal gains selected typically vary "in step” with frequency.
- a decoding matrix D1 of order 1 is chosen, for the frequency band of f1 to f2, a decoding matrix D2 of order 2 is chosen, for the frequency band from f2 to O, a decoding matrix D3 of order 3 is chosen and for the frequency band greater than f3, a decoding matrix D4 of order 4 is chosen.
- a bank of filters whose limit frequencies are the transition frequencies determined above is generated.
- These filters have functions respectively low-pass, high-pass and band-pass, they can be finite impulse response (RIF) or infinite (RII), with relatively few coefficients. It is important, however, that they have a substantially identical (and preferably linear) phase response.
- the application of the processing by the module 322 is represented in FIG. 6. It is carried out by a subband filtering Fi (F1, F2, F3 and F4 in the figure) of the signals Bk of K components, using the filter bank determined, to decline versions B k (l) , (B k (1) , B k (2) , B k (3) and B k (4) in the figure).
- Fi subband filtering Fi
- a matrixing of the filtered signals B k * ⁇ by the corresponding matrix D is performed, supplying limited-band signals S n ⁇ (S n (1) , S n (2) , S n ( 3) and S n (4) in the figure).
- a processing Di is applied to each subband, the processing Di being associated with the effective resolution of the stream in this subband.
- the step of selecting the treatments D 1 is the same as that carried out previously for the first embodiment.
- the module 354 for generating a global processing to be applied over the entire frequency band of the audio stream is implemented.
- This module constructs a new and unique transfer matrix D op as the sum of the selected matrices D 1 for each subband [f 15 f 1 + 1 ], frequency-weighted by functions W 1 (I):
- the functions W 1 (I) typically have low-pass, band-pass and high-pass functions, with the /, as transition frequencies.
- This generation of a global matrix is illustrated in FIG. 7 for an example of 4 frequency bands.
- the processing matrices D1 to D4 are weighted by respective functions Wi (f) to W 4 (I) and are combined to obtain a matrix Dop of dimension K * N.
- the processing carried out in the module 322 is here advantageously carried out in the frequency domain. It consists, for each time block of the processed multichannel stream and for each frequency band of the transformed representation, into a matrix product between the matrix B k of the coefficients representing the flux in said frequency band, and the coefficients of the matrix D op operational transfer for this frequency band.
- FIG. 8 now described represents an exemplary embodiment of the process selection step implemented by the selection module 353. This embodiment applies in the case where the data D obtained is directly or by flow analysis. , include not only information on the presence of spatial components per frequency band ⁇ k (f), but also information on the noise level v k (f) and / or information on the encoding uncertainty ⁇ k (/).
- the selection of the treatments is also carried out according to the compatibility with the encoding quality of the components processed, namely not only the level or presence factor but also the noise level, or even an index of reliability of encoding , linked for example to the encoding uncertainty.
- compensation is made within a certain limit of the level of presence ⁇ k (f) of the components to be treated when it is deficient.
- step E80 is a step of preselecting processing by frequency band as a function of the information ⁇ t (/) on the actual presence of the spatial components. Elements d nk (f) are thus obtained and constitute the overall processing matrix D (f) in step E81 for the entire frequency band.
- step E82 it is examined whether for certain frequencies, the effective presence of the components is low, for example if ⁇ k ⁇ f) ⁇ . For these frequencies, then replaces the corresponding processing elements of the global matrix by the elements d nk (f) l ⁇ k (f) of compensated processes.
- a new global processing matrix D '(f) is thus obtained in step E83.
- v (D, /) J ⁇ n S n (f) -S n (f) ⁇ 2 / N
- the noise present is of a level deemed "acceptable" by the content producer but that its increase at the end of the treatment must not be greater than a certain value.
- the noise level v (D, f) for the processing D must therefore not be greater than the noise level v k (J)) received for this frequency band.
- the selection according to the invention advantageously takes advantage of the fact that it is possible, with certain decoding solutions and for certain frequency ranges, not to degrade the signal-to-noise ratio while compensating for presence factors ⁇ k. (J) ⁇ 1. It is observed that some decoding matrices contain elements d nk whose values decrease for increasing values of k, for which it happens that the scaling factors ⁇ k (J) decrease themselves (typically in low frequency ).
- step E84 a check of the influence of the error term is performed. Indeed, the compensation of the scale factor ⁇ k (f) must not raise the error term ⁇ k (f) to a non-negligible level before B k (f), this to avoid spatial out-performance.
- step E86 the processing to be performed by frequency band.
- a weighting function W 1 (I) taking these criteria into account is then calculated.
- the invention advantageously takes into account that indices such as those related to the energy vector can be pre-calculated or calculated from simple formulas without having to calculate them from an important sampling of virtual source directions.
- this index varies according to the encoding direction v q , we will retain for example an average, possibly weighted according to the encoding direction to favor certain regions of space.
- the Mproc treatments of resolutions 1 to 4 are chosen.
- step E85 an index ⁇ (D, f) of spatial performance associated with a particular treatment and for a frequency is obtained.
- This spatial performance index can be advantageously supplemented by acoustic reconstruction quality information enabled by the decoding solution that can be calculated from the acoustic reconstruction error for a given frequency and listening area.
- performance indices are pre-calculated and associated with each candidate solution, but it is expected that they can be (re) calculated at the time of selection, by according to criteria or specific options defined by the user (eg size of the listening area, etc.).
- the invention applies to any other form of characterization of spatial performances. It incorporates in particular the angular distortion (angle difference between û E and v q ) that can result from the use of a decoding solution that is poorly adapted to effective resolution. Indeed, in the case of non-regular devices, the use of an optimal decoding solution of order M for an effective resolution flow of order M ⁇ M can lead to angular distortions (of the energy vector for example) .
- ElIe also applies to the characterization of audio rendering properties other than strictly spatial (such as coloring effects for example), but whose quality depends on the proper consideration of the effective spatial resolution.
- each candidate solution is associated with one or more spatial performance indices and this information is used for their selection in step E86.
- a note of preference P (D /) is calculated so that it is an increasing function of the spatial performance ⁇ (D /) calculated in step E85 and decreasing function of the increasing the noise level V (D /) calculated in step E84.
- a solution is chosen per frequency band, namely that obtaining the best rating of preference P (D /).
- a weighting function W 1 (Z) is then defined. This function is for example 1 when the solution n ° i is the best at the frequency / and 0 elsewhere.
- W 1 (J) is defined so that it continuously changes from 0 to 1 over a frequency range around each transition frequency.
- step E87 The optimal processing data are then calculated in step E87 as a weighting of the candidate solutions as a function of the frequency:
- This definition is advantageously suitable for processing in the frequency domain, as illustrated in FIG. 7.
- the calculation of the preference rating can be modified to reflect the ease of interpolation between candidate solutions on adjacent frequency bands.
- weighting functions can be defined to optimize the interpolation between adjacent band solutions.
- FIG. 9 describes a particular embodiment of the processing device 350 according to the invention.
- this device 350 typically comprises a ⁇ P processor cooperating with a memory block BM including a storage and / or working memory, as well as the aforementioned database BD for to list the possible treatments according to the level of presence of the spatial components.
- the memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the method in the sense of the invention, when these instructions are executed by a ⁇ P processor of the device 350 and in particular a first step of obtaining information representative of the presence level of the spatial components of the audio stream as a function of the frequency, a second step of selecting a frequency or frequency band treatment according to the information obtained and a third step of applying the selected treatments to the 3D audio stream.
- FIG. 4 can illustrate a flowchart representing the algorithm of such a computer program.
- the computer program may also be stored on a memory medium readable by a reader of the device or downloadable in the memory space of the device 350.
- This device 350 according to the invention can be independent or integrated into a digital audio signal decoder as described with reference to FIG.
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
The present invention relates to a method of processing a 3D audio stream comprising a plurality of spatial components, and such that it comprises the steps of obtaining (E41) information representative of the level of presence of the spatial components of the audio stream as a function of frequency, of selecting (E42) a processing based on frequency or frequency band as a function of the information obtained and applying (E44) selected processing operations to the 3D audio stream. The invention also relates to a device (350) implementing the method described. It applies in particular in the case of a processing of spatial decoding type before sound restoration of the 3D audio stream or in respect of an application of spatial separation and/or noise reduction.
Description
Traitement d'un flux audio 3D en fonction d'un niveau de présence de composantes spatiales Processing a 3D audio stream according to a level of presence of spatial components
La présente invention concerne le traitement de signaux numériques. Ces signaux peuvent être par exemple des signaux audio, des signaux vidéo ou plus généralement des signaux multimédia.The present invention relates to the processing of digital signals. These signals may be, for example, audio signals, video signals or more generally multimedia signals.
L'invention est plus particulièrement relative à des flux audio 3D comportant une pluralité de composantes spatiales, les composantes spatiales étant associées à des fonctions de directivité.The invention relates more particularly to 3D audio streams comprising a plurality of spatial components, the spatial components being associated with directivity functions.
L'invention s'applique à des systèmes de codage/décodage de scènes sonores 3D, et plus particulièrement lors du décodage spatial avant restitution sur haut- parleurs ou casque. Elle s'applique de façon similaire à de la "formation de voie" ("beamforming" en anglais) pour une application de séparation spatiale et/ou réduction de bruit.The invention applies to systems for coding / decoding 3D sound scenes, and more particularly during spatial decoding before rendering on loudspeakers or headphones. It applies similarly to "beamforming" for spatial separation and / or noise reduction application.
Un exemple de flux audio 3D est un flux de type ambiophonique ("ambisonic" en anglais), plus précisément au format HOA (pour "Higher Order Ambisonic" en anglais). Ce type de flux audio peut être obtenu par exemple par une prise de son à partir d'un réseau sphérique de microphones. Pour plus d'informations sur ce type de prise de son, on peut se référer au document suivant: "3D Sound Field Recording with Higher Order Ambisonics-Objective Measurements and Validation of a 4th Order Spherical Microphone", S.Moreau, J.Daniel, S.Bertet, in 120th AES Convention Paris (2006).An example of a 3D audio stream is a surround-type stream ("ambisonic" in English), more precisely in HOA format (for "Higher Order Ambisonic" in English). This type of audio stream can be obtained for example by taking a sound from a spherical array of microphones. For more information on this type of sound recording, refer to the following document: "3D Sound Field Recording with Higher Order Ambisonics-Objective Measurements and Validation of a 4th Order Spherical Microphone", S.Moreau, J.Daniel , S.Bertet, in 120th AES Paris Convention (2006).
Le flux audio avec ses composantes spatiales peut également être obtenu après un traitement de spatialisation appliqué à N canaux correspondants à des signaux monophoniques. Ce type de traitement de spatialisation peut être de type ambiophonique. Un encodage ambiophonique d'ordre M donne une représentation spatiale compacte d'une scène sonore 3D, en réalisant des projections du champ sonore sur les fonctions harmoniques sphériques ou cylindriques associées.The audio stream with its spatial components can also be obtained after a spatialization processing applied to N channels corresponding to monophonic signals. This type of spatialization processing can be of the ambiophonic type. Ambiophonic encoding of order M gives a compact spatial representation of a 3D sound scene, by making projections of the sound field on the associated spherical or cylindrical harmonic functions.
Pour plus d'informations sur les transformations ambiophoniques, on pourra se référer au document suivant: « Représentation de champs acoustiques, application
à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia », Thèse de doctorat de l'université Paris 6, Jérôme DANIEL, 2001.For more information on the surround transformations, we can refer to the following document: "Acoustic field representation, application the transmission and reproduction of complex sound scenes in a multimedia context ", Doctoral thesis of Paris 6 University, Jérôme DANIEL, 2001.
Dans le contexte de spatialisation ambiophonique d'ordre supérieur (HOA), les composantes spatiales sont des composantes ambiophoniques Bm σ n reliées à un champ de pression acoustique p par la série de Fourier-Bessel, et auxquelles la contribution d'une source sonore en champ lointain, c'est-à-dire une onde plane d'incidence (θs, δs) portant un signal S s'écrit par l'équation d'encodage spatial:In the context of higher order ambiophonic spatialization (HOA), the spatial components are ambiophonic components B m σ n connected to a sound pressure field p by the Fourier-Bessel series, and to which the contribution of a sound source in far field, that is to say a planar wave of incidence (θs, δs) carrying a signal S is written by the spatial encoding equation:
Kn = S.YLiβsΛ) (1) où les fonctions harmoniques sphériques Y°n {θ, δ) décrivent une base orthonormée:Kn = S. Y Li β sΛ ) (1) where spherical harmonic functions Y ° n {θ, δ) describe an orthonormal basis:
C (θ, δ) = l(2m + l) (2 - δ0>n )^^-Pmn (sin δ) fcoswé* si σ = +1 x < [sinwé* si σ = -1 (ignoré si M = O)C (θ, δ) = l (2m + 1) (2 - δ 0> n ) ^^ - P mn (sin δ) fcoswe * if σ = +1 x <[sinw * if σ = -1 (ignored if M = O)
Les Pmn(sin<?) sont les fonctions de Legendre associées.The P mn (sin <?) Are the associated Legendre functions.
La figure la représente le système de coordonnées sphériques utilisé pour ces équations, où une direction est représentée par les angles d'azimut θ et d'élévation δ.Figure la represents the spherical coordinate system used for these equations, where a direction is represented by the azimuth angles θ and elevation δ.
Une représentation des fonctions harmoniques sphériques est également représentée en figure Ib. On peut ainsi voir la composante omnidirective Fo0(Ty) , les composantes bidirectives F10(Z) , Yn(X) , Yn 1 (Y) et les composantes de dimensions supérieures.A representation of the spherical harmonic functions is also represented in FIG. 1b. It is thus possible to see the omnidirectional component Fo 0 (Ty), the bidirective components F 10 (Z), Y n (X), Y n 1 (Y) and the components of higher dimensions.
Une représentation tridimensionnelle ou "3D" dite "d'ordre M" comprend K = (M+l)2 composantes dont les triplets d'indices {m,n, σ) sont tels que O≤m≤M, O≤n≤m, σ=±l. Une représentation bidimensionnelle ou "2D" d'ordre M comprend un sous-ensemble de ces composantes en ne retenant que les indices m=n, soit £=2M+1 composantes.A three-dimensional representation or "3D" called "of order M" comprises K = (M + 1) 2 components whose triplets of indices {m, n, σ) are such that O≤m≤M, O≤n≤ m, σ = ± 1. A two-dimensional representation or "2D" of order M includes a subset of these components by retaining only the indices m = n, ie £ = 2M + 1 components.
Ainsi, l'ensemble des composantes spatiales s'échelonnent suivant une dimension complémentaire (autre que fréquence ou temps) qui traduit les fréquences angulaires associées. La notion de résolution spatiale ou ordre d'encodage se définit alors par la fréquence angulaire maximale représentée, donc liée au nombre de composantes spatiales présentes de façon significative.
On s'intéresse ici au traitement d'un contenu audio 3D de type HOA en vue d'une reproduction spatialisée sur haut-parleurs ou sur casque, ou en vue d'une formation de voie pour de la séparation spatiale. Ce traitement est encore appelé ici de manière générale décodage spatial.Thus, the set of spatial components are staggered according to a complementary dimension (other than frequency or time) that reflects the associated angular frequencies. The notion of spatial resolution or encoding order is then defined by the maximum angular frequency represented, thus related to the number of spatial components present significantly. We are interested here in the processing of a 3D audio content of HOA type for a spatialized reproduction on loudspeakers or on a helmet, or for a formation of way for spatial separation. This treatment is also called here in general spatial decoding.
Ce traitement est généralement linéaire et consiste par exemple en des opérations de matriçage, de filtrage ou combinaison des deux.This treatment is generally linear and consists for example of stamping operations, filtering or combination of both.
Dans le domaine fréquentiel, ce traitement peut être formulé par l'expression S=D. B où B et S sont les vecteurs des signaux traités (B) et résultants (S) et où D est la matrice de traitement. Cette matrice de traitement est composée de gains d'amplitude dans des réalisations les plus simples ou de fonctions de transfert dans des réalisations plus élaborées.In the frequency domain, this treatment can be formulated by the expression S = D. B where B and S are the vectors of the processed (B) and resultant (S) signals and where D is the processing matrix. This processing matrix is composed of amplitude gains in simpler realizations or transfer functions in more elaborate realizations.
Les traitements existants sont effectués en faisant l'hypothèse que la résolution spatiale est homogène sur toute la bande de fréquence du flux audio et qu'elle est constante dans le temps.Existing treatments are performed assuming that the spatial resolution is homogeneous over the entire frequency band of the audio stream and is constant over time.
Ainsi, pour un champ sonore produit par une source, le son S encodé spatialement se retrouve au sein de chaque composante avec un gain identique pour toutes les fréquences, qui ne dépend que de la direction d'incidence (θs,δs): Kn = s-γ mn(θ s >δs) . C'est ce que nous appellerons un "encodage spatial idéal".Thus, for a sound field produced by a source, the spatially encoded sound S is found within each component with an identical gain for all frequencies, which depends only on the direction of incidence (θs, δs): K n = s - γ mn ( θ s> δ s ). This is what we will call an "ideal spatial encoding".
Or cette hypothèse d'encodage spatial idéal n'est pas vérifiée dans un certain nombre de cas pratiques.However, this hypothesis of ideal spatial encoding is not verified in a certain number of practical cases.
Par exemple, dans le cas d'un contenu HOA issu d'un enregistrement 3D par un réseau sphérique de microphones, la résolution spatiale n'est en pratique pas homogène sur toute la bande de fréquence. En effet, pour des raisons de dimensionnement du réseau microphonique, la résolution spatiale est en effet plus faible dans un domaine basse-fréquence, c'est-à-dire que les composantes d'ordre plus élevé y ont un niveau de signal (densité spectrale de puissance) plus faible, voire insignifiant.For example, in the case of an HOA content resulting from a 3D recording by a spherical array of microphones, the spatial resolution is in practice not homogeneous over the entire frequency band. Indeed, for reasons of sizing of the microphonic network, the spatial resolution is indeed lower in a low-frequency domain, that is to say that the higher order components have a signal level (density spectral power) weaker or insignificant.
La figure 2 représente par exemple, de façon schématique, la présence effective des composantes spatiales B^n en fonction de la fréquence f et selon leur
ordre spatial m (lié à la résolution spatiale) dans un exemple particulier de prise de son par réseau sphérique de microphones.FIG. 2 represents, for example, schematically the actual presence of the spatial components B n according to the frequency f and according to their spatial order m (related to spatial resolution) in a particular example of sound pickup by spherical array of microphones.
Ainsi, on peut parler d'une résolution spatiale par pallier. Pour un microphone 3D d'ordre 4, la résolution effective est par exemple d'ordre 1 jusqu'à /2=1000 Hz, puis d'ordre
puis d'ordre 4 jusqu'à la fréquence d'aliasing spatial (e.g./aiiaSmg =10kHz). L'aliasing spatial est un artefact d'encodage lié à l'ambiguïté sur l'information de direction d'incidence de l'onde, apparaissant lorsque la longueur d'onde n'est plus assez grande devant les différences de trajet acoustique entre les capteurs.Thus, we can speak of a spatial resolution by step. For a 3D microphone of order 4, the effective resolution is for example of order 1 up to / 2 = 1000 Hz, then order then of order 4 up to the spatial aliasing frequency (eg / a ii aSmg = 10kHz). Spatial aliasing is an encoding artifact related to the ambiguity of the wave incidence direction information, occurring when the wavelength is no longer large enough to the differences in acoustic path between sensors.
Lorsqu'on parle de résolution effective d'ordre m à une fréquence donnée, cela signifie que seules les composantes spatiales caractérisées par une fréquence angulaire inférieure ou égale à m sont présentes de façon significative à cette fréquence (dans le cas particulier d'une représentation HOA 2D, il s'agirait des 2m+l premiers signaux).When we speak of effective resolution of order m at a given frequency, this means that only spatial components characterized by an angular frequency of less than or equal to m are present significantly at this frequency (in the particular case of a representation HOA 2D, it would be the first 2m + l signals).
En conséquence, dans ce cas de figure, un encodage spatial dit idéal d'ordre m=4 serait ici sous-optimal pour ce qui concerne une partie relativement basse fréquence où la résolution effective est par exemple d'ordre 1. Ainsi, la précision des scènes sonores résultant du décodage spatial, le cas échéant, sera moins bonne pour cette gamme de fréquence.Consequently, in this case, a spatial encoding said ideal of order m = 4 would be suboptimal here with regard to a relatively low frequency part where the effective resolution is for example of order 1. Thus, the precision sound scenes resulting from spatial decoding, if any, will be worse for this frequency range.
Il existe donc un besoin de prendre en compte la résolution spatiale effective pour effectuer un décodage spatial optimal des flux audio.There is therefore a need to take into account the effective spatial resolution to perform optimal spatial decoding of the audio streams.
La présente invention vient améliorer cette situation.The present invention improves this situation.
A cet effet, l'invention propose un procédé de traitement d'un flux audio 3D codé comportant une pluralité de composantes spatiales Ce procédé est tel qu'il comporte lors du décodage du flux audio, les étapes suivantes: obtention d'informations représentatives du niveau de présence des composantes spatiales du flux audio en fonction de la fréquence; sélection par fréquence ou bande de fréquence d'un traitement de décodage spatial compatible avec les informations obtenues; application des traitements sélectionnés au flux audio 3D.
Ainsi, le traitement appliqué au flux audio prend en compte les caractéristiques de présence des composantes spatiales et donc la résolution spatiale, par fréquence pour adapter au mieux le traitement du flux sur toute la bande de fréquence.For this purpose, the invention proposes a method for processing an encoded 3D audio stream comprising a plurality of spatial components. This method is such that it comprises, during the decoding of the audio stream, the following steps: obtaining information representative of the level of presence of the spatial components of the audio stream as a function of frequency; selection by frequency or frequency band of a spatial decoding processing compatible with the information obtained; applying the selected treatments to the 3D audio stream. Thus, the processing applied to the audio stream takes into account the presence characteristics of the spatial components and therefore the spatial resolution, by frequency to best adapt the flow processing over the entire frequency band.
Dans un mode de réalisation particulier, le procédé comprend une étape d'obtention d'un traitement global à appliquer sur toute la bande de fréquence du flux audio, à partir des traitements sélectionnés.In a particular embodiment, the method comprises a step of obtaining a global treatment to be applied over the entire frequency band of the audio stream, from the selected treatments.
Un seul traitement est donc à appliquer sur toute la bande de fréquence du flux audio, ce qui simplifie la mise en œuvre.A single treatment is therefore to be applied over the entire frequency band of the audio stream, which simplifies the implementation.
L'obtention du traitement global peut comporter une étape d'agrégation des traitements sélectionnés et d'intégration d'une fonction de lissage entre les différents traitements.Obtaining the overall treatment may comprise a step of aggregating the selected treatments and integrating a smoothing function between the different treatments.
Ainsi, les artefacts audibles gênants qui peuvent s'entendre entre les différents traitements des bandes de fréquence sont atténués.Thus, annoying audible artifacts that can be heard between the different frequency band treatments are attenuated.
L'invention s'applique avantageusement dans le cas où le traitement global est un banc de filtres adapté à effectuer un décodage spatial du flux audio avant restitution sonore.The invention is advantageously applied in the case where the overall processing is a bank of filters adapted to perform a spatial decoding of the audio stream before sound reproduction.
Dans un mode de réalisation, les informations représentatives du niveau de présence des composantes spatiales proviennent de caractéristiques des dispositifs de génération du flux audio et sont obtenues par lecture de données annexes au flux audio.In one embodiment, the information representative of the level of presence of the spatial components comes from characteristics of the devices for generating the audio stream and are obtained by reading data related to the audio stream.
Ces informations sont donc reçues directement en même temps que le flux audio. Elles proviennent des caractéristiques des dispositifs de génération du flux audio par exemple des caractéristiques de microphones.This information is received directly at the same time as the audio stream. They come from the characteristics of the devices for generating the audio stream, for example the characteristics of microphones.
Dans un autre mode de réalisation les informations représentatives du niveau de présence des composantes spatiales sont obtenues par analyse du flux audio, l'analyse comportant une étape d'estimation du niveau de présence des composantes par comparaison des niveaux d'énergie des composantes en fonction de la fréquence.
Les informations peuvent donc être obtenues à différents instants, au cas où le niveau de présence évolue au cours du temps.In another embodiment, the information representing the level of presence of the spatial components is obtained by analyzing the audio stream, the analysis comprising a step of estimating the presence level of the components by comparing the energy levels of the components according to of the frequency. The information can therefore be obtained at different times, in case the level of presence changes over time.
De plus, l'étape d'analyse peut comporter une étape d'estimation d'un niveau de bruit et/ou d'un indice de qualité.In addition, the analysis step may include a step of estimating a noise level and / or a quality index.
Ces informations supplémentaires peuvent servir pour effectuer un choix plus judicieux du traitement à appliquer par exemple.This additional information can be used to make a more judicious choice of the treatment to be applied for example.
Dans un mode de réalisation particulier, les traitements sélectionnés sont répertoriés dans une base de données de traitement.In a particular embodiment, the selected treatments are listed in a processing database.
Cette base de données peut comporter des coefficients de matrices et/ou de filtres de traitement, et/ou des règles et paramètres pour construire une fonction de traitement.This database may include matrix coefficients and / or processing filters, and / or rules and parameters for constructing a processing function.
Ces données de traitement peuvent être mises à jour ou modifiées à tout moment.This processing data can be updated or modified at any time.
Selon un mode de réalisation particulier, la sélection prend en compte d'autres critères comme notamment un niveau de bruit résultant de l'application dudit traitement et/ou un niveau de qualité dudit traitement et/ou un niveau de performance spatiale du flux audio traité par ledit traitement et/ou des caractéristiques de traitements sélectionnés dans des bandes de fréquences voisines.According to one particular embodiment, the selection takes into account other criteria such as in particular a noise level resulting from the application of said processing and / or a quality level of said processing and / or a level of spatial performance of the processed audio stream. by said processing and / or treatment characteristics selected in neighboring frequency bands.
La sélection est donc optimisée pour adapter au mieux les traitements au flux et pour améliorer la qualité du traitement.The selection is optimized to better adapt treatments to the flow and improve the quality of treatment.
Il est également possible que la sélection d'un traitement par fréquence ou bande de fréquence comporte une étape de compensation du niveau de présence de composante spatiale à appliquer audit traitement.It is also possible that the selection of a frequency or frequency band processing comprises a step of compensating for the level of presence of the spatial component to be applied to said processing.
Ceci est mis en œuvre avantageusement pour les composantes qui ont un niveau de présence faible.This is implemented advantageously for components that have a low level of presence.
L'invention se rapporte également à un dispositif de traitement pour le décodage d'un flux audio 3D codé comportant une pluralité de composantes spatiales. Ce dispositif est tel qu'il comporte:
un module d'obtention d'informations représentatives du niveau de présence des composantes spatiales du flux audio en fonction de la fréquence; un module de sélection apte à sélectionner par fréquence ou bande de fréquence un traitement de décodage spatial compatible avec les informations obtenues; un module de traitement apte à appliquer les traitements sélectionnés au flux audio 3D.The invention also relates to a processing device for decoding a coded 3D audio stream comprising a plurality of spatial components. This device is such that it comprises: a module for obtaining information representative of the presence level of the spatial components of the audio stream as a function of the frequency; a selection module adapted to select by frequency or frequency band a spatial decoding processing compatible with the information obtained; a processing module adapted to apply the selected treatments to the 3D audio stream.
L'invention se rapporte également à un décodeur audionumérique comportant un tel dispositif.The invention also relates to a digital audio decoder comprising such a device.
Enfin, l'invention vise un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé selon l'invention, lorsque ces instructions sont exécutées par un processeur.Finally, the invention is directed to a computer program comprising code instructions for implementing the steps of the method according to the invention, when these instructions are executed by a processor.
Elle vise encore un support de stockage lisible par un système informatique stockant un jeu d'instructions exécutables par ledit système pour mettre en œuvre les étapes du procédé selon l'invention.It also relates to a storage medium readable by a computer system storing a set of instructions executable by said system to implement the steps of the method according to the invention.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels:Other features and advantages of the invention will appear more clearly on reading the following description, given solely by way of nonlimiting example, and with reference to the appended drawings, in which:
- la figure la décrite précédemment, illustre la direction de propagation d'une onde plane dans l'espace, décrit précédemment;FIG. 1, previously described, illustrates the direction of propagation of a plane wave in space, described previously;
- la figure Ib décrite précédemment, illustre les composantes harmoniques sphériques dans le cas d'une représentation spatiale ambiophonique d'ordre 3;FIG. 1b previously described illustrates the spherical harmonic components in the case of an ambiophonic spatial representation of order 3;
- la figure 2 décrite précédemment, illustre une représentation de composantes spatiales dans le cas d'une prise de son par un réseau sphérique de microphones;FIG. 2 previously described illustrates a representation of spatial components in the case of sound recording by a spherical array of microphones;
- la figure 3 représente un système de codage/décodage audionumérique comportant un dispositif de traitement selon l'invention;FIG. 3 represents a digital audio coding / decoding system comprising a processing device according to the invention;
- la figure 4 illustre sous forme d'organigramme les principales étapes d'un procédé de traitement selon l'invention;
- la figure 5 illustre une représentation de présence de composantes spatiales en fonction de la fréquence;FIG. 4 illustrates in flowchart form the main steps of a treatment method according to the invention; FIG. 5 illustrates a presence representation of spatial components as a function of frequency;
- la figure 6 illustre une application des traitements sélectionnés selon un premier mode de réalisation de l'invention;FIG. 6 illustrates an application of the selected treatments according to a first embodiment of the invention;
- la figure 7 illustre une détermination du traitement à appliquer à partir des traitements sélectionnés, selon un second mode de réalisation de l'invention;FIG. 7 illustrates a determination of the treatment to be applied from the selected treatments, according to a second embodiment of the invention;
- la figure 8 illustre un mode de réalisation de l'étape de sélection et d'obtention d'un traitement global selon l'invention; etFIG. 8 illustrates an embodiment of the step of selecting and obtaining a global treatment according to the invention; and
-la figure 9 illustre un dispositif de traitement selon l'invention.FIG 9 illustrates a processing device according to the invention.
En référence à la figure 3, un système de codage/décodage selon l'invention est maintenant décrit.With reference to FIG. 3, a coding / decoding system according to the invention is now described.
Un contenu audio 3D est généré par un module de génération de contenu 3D 330 qui peut par exemple être un module de prise de son par un réseau de microphones ou encore un module de composition de scène virtuelle 3D, ou encore une chaîne de post-production intégrant par exemple et entre autres ce type d'outils. Ce contenu 3D peut également provenir d'un enregistrement 3D stocké sur un support.3D audio content is generated by a 3D content generation module 330 which can for example be a sound pickup module by a microphones network or a 3D virtual scene composition module, or a post-production chain integrating for example and among others this type of tools. This 3D content can also come from a 3D recording stored on a medium.
Ce contenu 3D ou flux audio 3D comporte des composantes spatiales Bm σ n dont les triplets d'indices {m,n,σ} sont tels que O≤m≤M, O≤n≤m, σ=±\ comme défini précédemment. Naturellement, l'invention s'applique à des variantes de représentations, notamment 2D comme décrites plus haut.This 3D content or 3D audio stream comprises spatial components B m σ n whose index triplets {m, n, σ} are such that O≤m≤M, O≤n≤m, σ = ± \ as previously defined. . Naturally, the invention applies to variant representations, in particular 2D as described above.
Par soucis de simplification, on identifiera dans la suite de la description une composante spatiale ainsi que les variables associées par un simple indice k (1 ≤ k≤K) plutôt que par le triplet d'indice. Ainsi, à la sortie du module de génération, le flux audio comporte des composantes spatiales Bk(t) qui sont transmises de façon optionnelle à un codeur audio 300. En l'absence d'un codeur audio, le flux audio 3D est directement transmis au module de traitement 322 du dispositif de traitement 350.For the sake of simplification, we will identify in the following description a spatial component and the variables associated with a simple index k (1 ≤ k≤K) rather than the index triplet. Thus, at the output of the generation module, the audio stream comprises spatial components Bk (t) which are optionally transmitted to an audio coder 300. In the absence of an audio coder, the 3D audio stream is transmitted directly. to the processing module 322 of the processing device 350.
Dans un mode de réalisation de l'invention, le flux audio 3D est accompagné de données D de description de la prise de son comportant des
informations sur la présence effective des composantes spatiales par bande de fréquence ou par fréquence. Ces données peuvent être sous forme de table de valeurs fonction de la fréquence. Ces valeurs peuvent être réactualisées au cours du temps. Elles découlent typiquement des caractéristiques du système microphonique 3D qui a servi à produire le contenu à traiter. Ces données sont alors transmises au dispositif de traitement 350 et notamment au module de réception ou d'obtention 355 de ces informations. Elles sont ensuite transmises au module de sélection des traitements 353.In one embodiment of the invention, the 3D audio stream is accompanied by data D of description of the sound recording comprising information on the actual presence of spatial components by frequency band or frequency. This data can be in the form of a table of values depending on the frequency. These values can be updated over time. They typically derive from the characteristics of the 3D microphonic system that was used to produce the content to be processed. This data is then transmitted to the processing device 350 and in particular to the module 355 for receiving or obtaining this information. They are then transmitted to the processing selection module 353.
Le codeur audio 300 peut comporter un module de transformation temps/fréquence 301 par exemple de type MDCT ( pour "Modified Discrète Cosine transform" en anglais), du flux audio 3D. En sortie de ce module, on obtient des composantes spatiales Bk(f) dans le domaine fréquentiel. Le codeur peut également comporter un module de quantification 302 apte à quantifier le flux audio en un flux binaire T. Ce flux binaire est ensuite transmis, enregistré ou transporté.The audio coder 300 may comprise a time / frequency transformation module 301, for example of the MDCT type (for "Modified Discrete Cosine transform"), of the 3D audio stream. At the output of this module, we obtain spatial components Bk (f) in the frequency domain. The encoder may also include a quantization module 302 capable of quantifying the audio stream in a binary stream T. This bit stream is then transmitted, recorded or transported.
A la réception de ce flux binaire, un décodeur audio 320 déquantifie le cas échéant ce flux par un module de quantification inverse 321. Le flux B'k(f) obtenu est traité par un module de traitement 322 du dispositif de traitement 350. Dans une variante de réalisation, le flux B'k(f) subit d'abord une transformation fréquence/temps par le module de transformation 323 avant de subir le traitement du module 322.On receiving this bit stream, an audio decoder 320 dequantizes this stream, if necessary, by an inverse quantization module 321. The stream B'k (f) obtained is processed by a processing module 322 of the processing device 350. an embodiment variant, the stream B'k (f) first undergoes a frequency / time transformation by the transformation module 323 before undergoing the processing of the module 322.
Le traitement effectué par ce module de traitement est un traitement de décodage spatial pour une restitution par le module de restitution 340 sur haut- parleurs ou sur casque.The processing carried out by this processing module is a spatial decoding process for a reproduction by the reproduction module 340 on loudspeakers or on headphones.
Le module de traitement est piloté par le dispositif de traitement 350. Ce dispositif de traitement comporte un module 353 de sélection d'un traitement à appliquer au flux audio pour une bande de fréquence ou une fréquence donnée. La sélection du traitement adapté à la bande de fréquence s'effectue en fonction des informations D reçues sur la présence effective des composantes spatiales dans la bande de fréquence concernée. Ainsi, une solution de traitement est retenue pour une bande de fréquence, si elle correspond à la résolution maximale possible compatible
avec le niveau de présence effective des composantes spatiales. Un critère de décision par seuillage est alors appliqué. Plusieurs solutions de traitement peuvent également être retenues suivant l'adéquation entre le niveau de contribution requis pour les signaux de sortie et le niveau de présence effective de chaque composante.The processing module is controlled by the processing device 350. This processing device comprises a module 353 for selecting a processing to be applied to the audio stream for a given frequency band or frequency. The selection of the processing adapted to the frequency band is performed according to the information D received on the actual presence of the spatial components in the frequency band concerned. Thus, a processing solution is selected for a frequency band, if it corresponds to the maximum possible compatible resolution with the level of effective presence of the spatial components. A threshold decision criterion is then applied. Several processing solutions can also be selected according to the adequacy between the contribution level required for the output signals and the actual presence level of each component.
On verra ultérieurement en référence à la figure 8 que la sélection des traitements par bande de fréquence peut également s'effectuer en prenant en compte des critères supplémentaires.We will see later with reference to Figure 8 that the selection of frequency band treatments can also be performed by taking into account additional criteria.
Les traitements à sélectionner sont répertoriés dans une base de données 352 de traitements. Concrètement, cette base de données comporte par exemple pour un traitement sur K composantes spatiales et produisant N signaux, des matrices de dimensions K*N, associées ou non à des filtres ou encore des matrices de filtres de dimension K*N.The treatments to be selected are listed in a database 352 of treatments. In concrete terms, this database comprises, for example, for processing on K spatial components and producing N signals, matrices of dimensions K * N, associated or not with filters or filter matrices of dimension K * N.
La base de données peut également comporter de manière non exhaustive des paramètres qui serviront à calculer la matrice de traitement correspondante ou des coefficients de filtres ou des fonctions de transfert (valeurs numériques tabulées en fonction de la fréquence) ou des paramètres de conception de filtres (fréquences de transition, niveau de réponse par sous-bande fréquentielle) ou encore des données spécialement adaptées pour une application dans le domaine transformé (sous-filtres RIF, à réponse impulsionnelle finie ou RII, à réponse impulsionnelle infinie, s'appliquant à des signaux filtrés-décimés par sous-bandes).The database may also include in a non-exhaustive manner parameters that will be used to calculate the corresponding processing matrix or filter coefficients or transfer functions (frequency-tabulated numeric values) or filter design parameters ( transient frequencies, frequency subband response level) or data specially adapted for application in the transformed domain (infinite impulse response infinite impulse response RIF, infinite impulse response subfilters) filtered-decimated by subbands).
La base de données peut comporter non seulement des données mais aussi des règles d'application ou algorithmes de traitement.The database may include not only data but also application rules or processing algorithms.
Il s'agit alors de règles ou d'algorithmes qui permettent de calculer des données opérationnelles de traitement.These are rules or algorithms that calculate operational processing data.
Par exemple, pour un traitement de décodage spatial HOA sur haut-parleurs, ces règles ou algorithmes peuvent être des règles ou algorithmes de calcul de matrices de décodage optimisées selon des critères "psychoacoustiques" de localisation (comme ceux introduits par M.Gerzon et que l'on peut retrouver dans les documents :__GERZON, M A "General Metatheory of Auditory Localisation" AES 92nd Convention, preprint 3306, Vienne, Autriche, 23-29 mars 1992 ou GERZON, MA. "Psychoacoustic Decoders for Multipspeaker Stereo and Surround-Sound". AES 93rd
Convention, preprint 3406, San Francisco, USA, octobre 1992). Des règles et formules de calcul de paramètres ou matrices de décodage, optimales selon de tels critères, peuvent être trouvées dans le rapport de thèse de J.Daniel cité plus haut.For example, for HOA spatial decoding processing on loudspeakers, these rules or algorithms can be rules or algorithms for calculating decoding matrices optimized according to "psychoacoustic" location criteria (such as those introduced by M.Gerzon and that can be found in the documents: __ GERZON, MA "General Metatheory of Auditory Localization" AES 92nd Convention, preprint 3306, Vienna, Austria, March 23-29, 1992 or GERZON, MA "Psychoacoustic Decoders for Multipspeaker Stereo and Surround-Sound AES 93rd Convention, preprint 3406, San Francisco, USA, October 1992). Rules and formulas for calculating parameters or decoding matrices, optimal according to such criteria, can be found in J.Daniel's thesis report cited above.
Des matrices de décodage peuvent aussi être choisies selon d'autres critères de plus haut-niveau (e.g. auditeur centré, auditoire élargi).Decoding matrices can also be chosen according to other higher-level criteria (e.g., centered auditor, expanded audience).
Pour un traitement de décodage binaural, il peut s'agir d'un programme de calcul et d'optimisation de filtres de décodage, s'appuyant sur une base de données de HRTFs (pour "Head Related Transfer Functions" en anglais) et utilisant des paramètres de haut niveau. De tels traitements sont notamment décrits dans la demande de brevet WO2007101958.For binaural decoding processing, it may be a program for calculating and optimizing decoding filters, based on a database of HRTFs (for "Head Related Transfer Functions") and using high level settings. Such treatments are described in particular in the patent application WO2007101958.
La base de données 352 est donc constituée de données de traitement précalculées et/ou de règles pour les calculer qui sont supposées satisfaire la fonction souhaitée (décodage spatial optimal, transformation, etc.) en fonction de paramètres ou combinaison de paramètres, comme par exemple la configuration géométrique des haut-parleurs, la résolution spatiale du flux HOA traité, la bande de fréquence considérée.The database 352 therefore consists of pre-calculated processing data and / or rules for calculating them which are supposed to satisfy the desired function (optimal spatial decoding, transformation, etc.) as a function of parameters or combination of parameters, for example the geometric configuration of the loudspeakers, the spatial resolution of the processed HOA flux, the frequency band considered.
Dans un mode de réalisation de la base de données de traitement, les données de la base peuvent être préparées par exemple sous une forme spécialement adaptée au mode de traitement (e.g. domaine fréquentiel) et/ou sélectionnables suivant des paramètres utilisateur fixés (e.g. base de HRTF si décodage binaural).In one embodiment of the processing database, the data of the database can be prepared for example in a form specially adapted to the processing mode (eg frequency domain) and / or selectable according to set user parameters (eg base of HRTF if binaural decoding).
Au sein de la base de données, on peut décrire chaque traitement sélectionnable comme une matrice de transfert D(J) de N lignes et K colonnes, dont l'élément d'indice ligne n et d'indice colonne k est la fonction de transfert dnk(f)-Within the database, each selectable process can be described as a transfer matrix D (J) of N rows and K columns, whose index element row n and index column k is the transfer function d n k (f) -
Un traitement sélectionnable ainsi décrit dans la base peut ne concerner qu'un sous-ensemble E=[K) des signaux représentés Eκ={k=\,...K}. Ainsi, lors de la sélection de ce traitement par le module 353, celui-ci complète la matrice de traitement par des zéros pour former une matrice de dimension K*N, D(f), en insérant des colonnes nulles aux indices k de EK qui ne sont pas dans E.
Ainsi, en fonction des informations de présence des composantes spatiales pour une bande de fréquence donnée, le module 353 sélectionne les traitements adaptés dans la base de données 352.A selectable processing thus described in the base may concern only a subset E = [K) of the represented signals Eκ = {k = \, ... K}. Thus, when this processing is selected by the module 353, the latter completes the processing matrix with zeros to form a matrix of dimension K * N, D (f), by inserting null columns at the indices k of E K who are not in E. Thus, based on the presence information of the spatial components for a given frequency band, the module 353 selects the adapted processing in the database 352.
Il obtient donc un traitement adapté par bande de fréquence, soit une pluralité de traitements pour toute la bande de fréquence du flux audio à traiter.It thus obtains a processing adapted by frequency band, ie a plurality of treatments for the entire frequency band of the audio stream to be processed.
Dans un mode de réalisation particulier, le dispositif de traitement comporte un module 354 de détermination d'un traitement global à appliquer sur toute la bande de fréquence du flux audio. Ce module permet de compiler les traitements sélectionnés par le module de sélection 353 et de les mettre dans une forme opérationnelle pour le traitement sur toute la bande de fréquence.In a particular embodiment, the processing device comprises a module 354 for determining a global processing to be applied over the entire frequency band of the audio stream. This module makes it possible to compile the processes selected by the selection module 353 and put them in an operational form for processing over the entire frequency band.
Ainsi, les traitements ou données de traitement retenues pour les différentes bandes de fréquence font l'objet d'une procédure d'agrégation dans le module 354. Cette procédure d'agrégation peut par exemple consister à regrouper des morceaux de fonctions de transfert, à recomposer chaque fonction de transfert requise pour en déduire un filtre FIR par transformée de Fourier inverse.Thus, the processing or processing data retained for the different frequency bands are the subject of an aggregation procedure in the module 354. This aggregation procedure may for example consist of grouping pieces of transfer functions, for example. recompose each required transfer function to derive a FIR filter by inverse Fourier transform.
Dans le cas où le traitement global recherché est sous forme de filtres, il est possible de définir des fonctions de transfert associées par lissage ou interpolation fréquentielle à partir des données retenues pour chaque bande de fréquence (ou les différentes fréquences cibles), plutôt que par simple juxtaposition. Les critères de lissage ou d'interpolation fréquentielle sont définis de sorte de conditionner au mieux le filtre (taille, régularité...) et de réduire les artefacts audibles.In the case where the overall processing sought is in the form of filters, it is possible to define associated transfer functions by smoothing or frequency interpolation from the data retained for each frequency band (or the different target frequencies), rather than by simple juxtaposition. The criteria of smoothing or frequency interpolation are defined so as to better condition the filter (size, regularity ...) and to reduce the audible artifacts.
De plus, dans le cas où la résolution effective, la présence effective des composantes, est variable dans le temps, le traitement adapté doit également varier dans le temps et un procédé de lissage temporel peut être mis en œuvre afin d'éviter les artefacts audibles indésirables dus à des variations trop brutales.Moreover, in the case where the effective resolution, the actual presence of the components, is variable over time, the adapted processing must also vary over time and a temporal smoothing method can be implemented to avoid audible artifacts. undesirable effects due to too abrupt variations.
Le traitement global résultant TG est ensuite transmis au module de traitement T 322.The resulting overall processing TG is then transmitted to the processing module T 322.
Ce module de traitement applique donc les traitements reçus du module 353 par bande de fréquence ou le traitement global reçu du module 354 pour toute la bande de fréquence du signal audio.
Par exemple, le traitement effectué par le module 322 peut correspondre aux traitements décrits ultérieurement en référence à la figure 6 ou bien un traitement global déterminé par le module 354 et décrit en référence à la figure 7 ultérieurement.This processing module therefore applies the processing received from the module 353 by frequency band or the overall processing received from the module 354 for the entire frequency band of the audio signal. For example, the processing carried out by the module 322 may correspond to the processes described later with reference to FIG. 6 or a global processing determined by the module 354 and described with reference to FIG. 7 later.
Le traitement s'applique soit à des signaux du domaine temporel soit du domaine fréquentiel selon que l'on reçoit le flux audio directement du module de génération de flux audio ou que l'on reçoit un flux audio transformé, codé ou que le module de traitement est mis en œuvre avant ou après le module de transformation 323.The processing is applied to signals of the time domain or of the frequency domain depending on whether the audio stream is received directly from the audio stream generation module or that a coded transformed audio stream is received or that the processing is implemented before or after the transformation module 323.
Dans le cas où les données D comportant des informations de présence des composantes spatiales par bande de fréquence, n'est pas fourni avec le flux audio 3D, un module d'analyse 351 peut être prévu.In the case where the data D comprising presence information of the spatial components per frequency band is not provided with the 3D audio stream, an analysis module 351 may be provided.
Ce module met en œuvre une étape d'analyse du flux audio 3D pour estimer le niveau de présence des composantes spatiales par bande de fréquence.This module implements a step of analysis of the 3D audio stream to estimate the level of presence of the spatial components by frequency band.
Cette étape d'estimation s'effectue ici avec l'hypothèse que le niveau de présence à une fréquence donnée est sensiblement le même pour les composantes de même ordre m.This estimation step is carried out here with the assumption that the level of presence at a given frequency is substantially the same for components of the same order m.
Ce niveau de présence peut être défini comme un facteur d'échelle au sens d'une atténuation du niveau par rapport à un encodage spatial dit idéal comme décrit initialement.This level of presence can be defined as a scale factor in the sense of an attenuation of the level with respect to a so-called ideal spatial encoding as described initially.
Ainsi pour des composantes HOA, on peut définir ce niveau de présence comme un gain y°n(f) (encore noté γk (f)) dépendant de la fréquence. Ce gain est tel que l'équation (1) définissant d'encodage idéal est remplacé par l'équation (3) suivante:
ou encore Bk - γk (f)Yk (θs,δs)S .Thus for HOA components, this level of presence can be defined as a gain y n n (f) (again denoted γ k (f)) depending on the frequency. This gain is such that the equation (1) defining the ideal encoding is replaced by the following equation (3): or else B k - γ k (f) Y k (θ s , δ s ) S.
Ainsi sous l'hypothèse que γm σ n = γm(f) , l'étape d'estimation du niveau de présence des composantes spatiales peut s'effectuer par intercorrélation entre les composantes Bm σ n . On peut ainsi détecter si à un instant donné on a affaire à un champ acoustique
diffus (composantes parfaitement décorrélées) ou à l'inverse, à un champ probablement produit par une seule source sonore (composantes parfaitement corrélées).Thus under the assumption that γ m σ n = γ m (f), the step of estimating the level of presence of the spatial components can be carried out by intercorrelation between the components B m σ n . We can detect if at a given moment we are dealing with an acoustic field diffuse (perfectly uncorrelated components) or conversely, to a field probably produced by a single sound source (perfectly correlated components).
Sous une hypothèse d'orthonormalité de la base des harmoniques sphériques, dans le premier cas, un encodage idéal devrait donner lieu à des composantes de même énergie. Dans le second cas, l'encodage idéal devrait être tel que la moyenne des énergies des composantes de même ordre m est la même pour tous les ordres m.Under a hypothesis of orthonormality of the base of spherical harmonics, in the first case, an ideal encoding should give rise to components of the same energy. In the second case, the ideal encoding should be such that the average of the energies of the components of the same order m is the same for all orders m.
Le niveau de présence γm σ n = γm{f) peut donc être estimé par comparaison des niveaux d'énergie des composantes en fonction de la fréquence par exemple par le rapport de spectre d'énergie, ou dans une variante, des densités spectrales de puissance (PSD pour "Power Spectrum Density") entre les composantes d'ordre supérieur à 1 et celle d'ordre 0 selon les expressions suivantes:The level of presence γ m σ n = γ m {f) can therefore be estimated by comparing the energy levels of the components as a function of frequency, for example by the energy spectrum ratio, or alternatively, densities. Power Spectrum Density (PSD) between the components of order greater than 1 and that of order 0 according to the following expressions:
∑ WΛf) rAΩ = - (4)Σ WΛf) rAΩ = - (4)
\K(f) ou, dans la variante où l'on utilise les PSD : ∑ PSD(Bm σ n, f) γ ( f) = °≤"≤".^±' (5)\ K (f) or, in the variant where the PSDs are used: Σ PSD (B m σ n , f) γ (f) = ° ≤ " ≤ ". ^ ± '(5)
U KJ J PSD(B£, f) K '' U KJ PSD (B £, f) K ''
Pour une plus grande fiabilité, il est préférable d'effectuer une observation du signal dans le domaine temporel à moyen et long terme et d'effectuer un lissage temporel et/ou fréquentiel.For greater reliability, it is preferable to observe the signal in the time domain in the medium and long term and to perform temporal and / or frequency smoothing.
Dans les cas où la résolution effective est supposée invariante dans le temps, l'estimation peut être faite préalablement sur une partie ou sur la totalité du contenu ou bien au cours du temps et de façon adaptative avec un objectif de convergence de l'estimation.In cases where the actual resolution is assumed to be invariant in time, the estimate may be made in advance over part or all of the content or over time and adaptively with a convergence objective of the estimate.
Dans les cas où les indices sont par nature variables dans le temps aussi bien qu'en fréquence, l'estimation est réactualisée au cours du temps (par exemple trame par trame).
Dans le cas d'un contenu codé dans le domaine "transformée", l'estimation du niveau de présence peut se faire par observation des facteurs d'échelle (au sens classique codage signal) et taux de quantification (allocation binaire) de chaque brique "temps-fréquence-espace", complétée par les méthodes d'estimation évoquées.In cases where the indices are by nature variable in time as well as in frequency, the estimate is updated over time (for example frame by frame). In the case of a content encoded in the "transformed" domain, the estimate of the level of presence can be done by observing the scale factors (in the classical sense signal coding) and quantization rate (binary allocation) of each brick. "time-frequency-space", supplemented by the estimation methods evoked.
Outre l'estimation du niveau de présence des composantes spatiales par bande de fréquence, le module d'analyse 351 peut également mesurer d'autres caractéristiques du signal.In addition to estimating the presence level of the spatial components per frequency band, the analysis module 351 can also measure other characteristics of the signal.
Ainsi, un niveau de bruit peut être estimé. Ce bruit peut être lié par exemple au bruit de fond des microphones pour un enregistrement et/ou au bruit de quantification dans le cas d'un codage audio.Thus, a noise level can be estimated. This noise may be related for example to the background noise of microphones for recording and / or quantization noise in the case of audio coding.
Une autre information telle que l'indice de qualité ou de fiabilité de l'encodage spatial peut être déterminée. Cet indice est par exemple représenté par une erreur de modélisation de l'information spatiale εk (/) dû par exemple à une erreur d'encodage qui peut se produire en présence d'aliasing spatial ou bien consécutive à un étalonnage imparfait du système microphonique.Other information such as the index of quality or reliability of the spatial encoding can be determined. This index is for example represented by a modeling error of the spatial information ε k (/) due for example to an encoding error that can occur in the presence of spatial aliasing or following an imperfect calibration of the microphonic system. .
Ces informations complémentaires (indice du niveau de bruit, indice de qualité) peuvent également faire partie des données D associées au flux audio, et être déterminées par les caractéristiques de la prise de son.This additional information (noise level index, quality index) can also be part of the data D associated with the audio stream, and be determined by the characteristics of the sound recording.
Ces informations complémentaires sont telles que l'équation (1) définissant l'encodage idéal est remplacé par l'équation (6) suivante:This additional information is such that the equation (1) defining the ideal encoding is replaced by the following equation (6):
Bk = YΛfK (θs,δs)S + vk(f) + εk(f) (6) où vk (/) désigne un bruit d'acquisition.B k = YΛfK (θ s , δ s ) S + v k (f) + ε k (f) (6) where v k (/) denotes an acquisition noise.
Ces informations peuvent être utilisées lors de la sélection des traitements adaptés à la présence effective des composantes par bande de fréquence, dans un mode de réalisation décrit en référence à la figure 8.This information can be used when selecting the processing adapted to the actual presence of the components per frequency band, in one embodiment described with reference to FIG. 8.
Le dispositif de traitement 350 tel que décrit en référence à la figure 3 met donc en œuvre un procédé de traitement que nous allons maintenant décrire en référence à la figure 4 qui illustre sous forme d'un algorithme les étapes principales du procédé général de traitement.
Ainsi l'étape E41 est une étape de réception du flux audio 3D ainsi que d'obtention de données D d'informations sur le niveau de présence des composantes spatiales du flux audio 3D en fonction de la fréquence. Ces données sont obtenues comme mentionné précédemment, soit directement à partir des caractéristiques de la prise de son soit après analyse du flux audio.The processing device 350 as described with reference to FIG. 3 thus implements a processing method which will now be described with reference to FIG. 4 which illustrates, in the form of an algorithm, the main steps of the general processing method. Thus, step E41 is a step of receiving the 3D audio stream as well as obtaining data D of information on the level of presence of the spatial components of the 3D audio stream as a function of frequency. These data are obtained as mentioned above, either directly from the characteristics of the sound recording or after analysis of the audio stream.
Ces données peuvent comporter en outre des informations sur le niveau de bruit ou sur le niveau de qualité d'un encodage spatial.This data may further include information on the noise level or the quality level of a spatial encoding.
A l'étape E42, une sélection de traitements à appliquer par bande de fréquence est effectuée en fonction du niveau de présence des composantes obtenues à l'étape E41. Cette sélection peut également être effectuée en prenant en compte d'autres critères comme par exemple le niveau de bruit ou de qualité. Les différents traitements à sélectionner proviennent d'une base de données de traitement BD.In step E42, a selection of treatments to be applied per frequency band is performed according to the level of presence of the components obtained in step E41. This selection can also be made taking into account other criteria such as the noise level or quality. The different treatments to be selected come from a BD processing database.
On obtient ainsi un traitement adapté par bande de fréquence.This gives a treatment adapted by frequency band.
Ces différents traitements sont ensuite appliqués en E44 au flux audio Bk pour les différentes bandes de fréquence pour fournir des signaux Sn qui seront ensuite restitués sur des hauts parleurs ou sur un casque.These different treatments are then applied at E44 to the audio stream Bk for the different frequency bands to provide Sn signals which will then be reproduced on speakers or on a headset.
Dans une étape optionnelle E43, les différents traitements par bande de fréquence sont concaténés ou reformulés pour générer un traitement global à appliquer sur toute la bande de fréquence. Ce traitement global est ainsi appliqué en E44 au flux audio.In an optional step E43, the different frequency band processes are concatenated or reformulated to generate a global treatment to be applied over the entire frequency band. This global processing is thus applied in E44 to the audio stream.
En référence aux figures 5 et 6, nous allons maintenant décrire un premier mode de réalisation d'application de traitements au flux audio.With reference to FIGS. 5 and 6, we will now describe a first embodiment of application of treatments to the audio stream.
La figure 5 représente les informations de présence de composantes spatiales reçues soit directement avec le flux audio 3D, soit à partir d'une analyse du flux. Cette figure montre donc que pour une fréquence comprise entre 0 et fl, la résolution spatiale effective est de 1, que pour une fréquence comprise entre fl et f2, la résolution effective est de 2, que pour une fréquence comprise entre f2 et f3, la résolution effective est de 3 et que pour une fréquence supérieure à f3, la résolution effective est de 4.
Dans ce mode de réalisation, le module de sélection 353, en fonction des informations de présence des composantes spatiales, prend en compte les fréquences fi représentatives et définit la résolution spatiale effective
comme l'ordre maximal tel χmnσ(fι)> fthres Vm<meffective, fthres étant un seuil d'acceptabilité (fixé par exemple à -3dB).FIG. 5 represents the presence information of spatial components received either directly with the 3D audio stream, or from an analysis of the stream. This figure therefore shows that for a frequency between 0 and fl, the effective spatial resolution is 1, that for a frequency between f1 and f2, the effective resolution is 2, that for a frequency between f2 and f3, the effective resolution is 3 and that for a frequency higher than f3, the effective resolution is 4. In this embodiment, the selection module 353, as a function of the presence information of the spatial components, takes into account the representative frequencies and defines the effective spatial resolution as the maximum order such χmn σ (fι)> fthres Vm <m e eff ctive fthres being an acceptability threshold (e.g. 3dB).
Ce module retient donc comme fréquences de transition les fréquences où msffsctιvs(f) connaît une discontinuité.This module thus retains as frequencies of transition the frequencies where m sffsctιvs (f) knows a discontinuity.
Pour chaque fréquence ft (ou entre les fréquences de transition), le module de sélection sélectionne dans la base de données BD, le traitement le plus adéquat pour la résolution effective meffective(/ï)- On sélectionne par exemple une matrice de décodage D,.For each frequency f t (or between the transition frequencies), the selection module select from the database DB, the most suitable treatment for the effective resolution m eff ec tive (/ I) - e.g. are selected D decoding matrix ,.
Dans un mode de réalisation particulier, notamment dans le cas d'un décodage pour un dispositif de restitution du type haut-parleurs équi-répartis sur un cercle, les matrices de traitement se factorisent comme le produit d'une matrice de base Dbase commune à toutes les solutions de décodage et d'une matrice diagonale g dont les coefficients sont propres à chaque variante de décodage. Par exemple, une matrice identifiée par l'indice i s'écrira:
In a particular embodiment, particularly in the case of a decoding for a speaker-type reproduction device equi-distributed over a circle, the processing matrices factorize as the product of a base matrix D common base all decoding solutions and a diagonal matrix g whose coefficients are specific to each decoding variant. For example, a matrix identified by the index i will be written:
Typiquement, cela revient à pondérer les composantes spatiales Bm σ n traitées par lesdits coefficients gm^ (en général associés à l'ordre m) avant matriçage.Typically, this amounts to weighting the spatial components B m σ n treated by said coefficients g m ^ (generally associated with the order m) before stamping.
Ainsi, les gains optimaux choisis varient typiquement "par pallier" en fonction de la fréquence.Thus, the optimal gains selected typically vary "in step" with frequency.
Le tableau 1 ci-dessous montre un exemple de valeurs que peuvent prendre ces gains gm^ en fonction des décodages d'ordre respectifs Mproc=l, 2, 3, 4 pour 12 haut-parleurs:Table 1 below shows an example of values that can take these gains g m ^ according to the respective order decodings Mproc = 1, 2, 3, 4 for 12 loudspeakers:
Tableau 1Table 1
Un exemple de matrice de base (pour un décodage de K=9 composantes d'une représentation 2D d'ordre 4, sur N= 12 haut-parleurs équirépartis sur un cercle) peut être comme le tableau 2 ci-dessous:An example of a basic matrix (for a decoding of K = 9 components of a 2D representation of order 4, on N = 12 loudspeakers equidistributed on a circle) can be like Table 2 below:
Tableau 2Table 2
De manière générale, comme représenté sur la figure 6, pour la bande de fréquence de 0 à fl, une matrice de décodage Dl d'ordre 1 est choisi, pour la bande de fréquence de fl à f2, une matrice de décodage D2 d'ordre 2 est choisi, pour la bande de fréquence de f2 à O, une matrice de décodage D3 d'ordre 3 est choisi et pour la bande de fréquence supérieure à f3, une matrice de décodage D4 d'ordre 4 est choisi.In general, as represented in FIG. 6, for the frequency band from 0 to F1, a decoding matrix D1 of order 1 is chosen, for the frequency band of f1 to f2, a decoding matrix D2 of order 2 is chosen, for the frequency band from f2 to O, a decoding matrix D3 of order 3 is chosen and for the frequency band greater than f3, a decoding matrix D4 of order 4 is chosen.
Un banc de filtres dont les fréquences limites sont les fréquences de transition déterminées précédemment est généré.A bank of filters whose limit frequencies are the transition frequencies determined above is generated.
En pratique ce banc de filtres n'a pas besoin d'être très sélectif, donc peut ne pas être très coûteux.In practice this filter bank does not need to be very selective, so it may not be very expensive.
Ces filtres ont des fonctions respectivement passe-bas, passe-haut et passe- bande, ils peuvent être à réponse impulsionnelle finie (RIF) ou infinie (RII), avec
relativement peu de coefficients. Il est important qu'ils aient cependant une réponse en phase sensiblement identique (et de préférence linéaire).These filters have functions respectively low-pass, high-pass and band-pass, they can be finite impulse response (RIF) or infinite (RII), with relatively few coefficients. It is important, however, that they have a substantially identical (and preferably linear) phase response.
L'application du traitement par le module 322, est représenté en figure 6. Il s'effectue par un filtrage en sous-bandes Fi (Fl, F2, F3 et F4 sur la figure) des signaux Bk de K composantes, en utilisant le banc de filtre déterminé, pour en décliner des versions Bk (l), (Bk (1), Bk (2), Bk (3) et Bk (4) sur la figure).The application of the processing by the module 322 is represented in FIG. 6. It is carried out by a subband filtering Fi (F1, F2, F3 and F4 in the figure) of the signals Bk of K components, using the filter bank determined, to decline versions B k (l) , (B k (1) , B k (2) , B k (3) and B k (4) in the figure).
Pour chaque sous-bande i, un matriçage des signaux filtrés Bk*^ par la matrice D, correspondante est effectué, fournissant des signaux à bande limitée Sn^ (Sn (1), Sn (2), Sn (3) et Sn (4) sur la figure).For each sub-band i, a matrixing of the filtered signals B k * ^ by the corresponding matrix D is performed, supplying limited-band signals S n ^ (S n (1) , S n (2) , S n ( 3) and S n (4) in the figure).
Une sommation des signaux correspondant aux différentes sous-bandes est ensuite effectuée pour obtenir les signaux Sn=E1 Sn (l).A summation of the signals corresponding to the different sub-bands is then performed to obtain the signals S n = E 1 S n (1) .
Dans ce mode de réalisation, un traitement Di est appliqué à chaque sous- bande, le traitement Di étant associé à la résolution effective du flux dans cette sous- bande.In this embodiment, a processing Di is applied to each subband, the processing Di being associated with the effective resolution of the stream in this subband.
Dans un second mode de réalisation représenté en figure 7, l'étape de sélection des traitements Di est la même que celle effectuée précédemment pour le premier mode de réalisation.In a second embodiment shown in FIG. 7, the step of selecting the treatments D 1 is the same as that carried out previously for the first embodiment.
Dans ce mode de réalisation, le module 354 de génération d'un traitement global à appliquer sur toute la bande de fréquence du flux audio est mis en œuvre.In this embodiment, the module 354 for generating a global processing to be applied over the entire frequency band of the audio stream is implemented.
Ce module construit une nouvelle et unique matrice de transfert Dop en tant que somme des matrices sélectionnées D1 pour chaque sous-bande [fl5 f1+1], pondérées fréquentiellement par des fonctions W1(I):
This module constructs a new and unique transfer matrix D op as the sum of the selected matrices D 1 for each subband [f 15 f 1 + 1 ], frequency-weighted by functions W 1 (I):
Les fonctions W1(I) ont typiquement des fonctionnalités passe-bas, passe- bande et passe-haut, avec comme fréquences de transition les/,.The functions W 1 (I) typically have low-pass, band-pass and high-pass functions, with the /, as transition frequencies.
Cette génération d'une matrice globale est illustrée à la figure 7 pour un exemple de 4 bandes de fréquences. Les matrices Dl à D4 de traitements sont pondérées par des fonctions Wi (f) à W4(I) respectives et sont combinés pour obtenir une matrice Dop de dimension K*N.
Le traitement effectué dans le module 322 est ici avantageusement réalisé dans le domaine fréquentiel. Il consiste, pour chaque bloc temporel du flux multi- canal traité et pour chaque bande de fréquence de la représentation transformée, en un produit matriciel entre la matrice Bk des coefficients représentant le flux dans ladite bande de fréquence, et les coefficients de la matrice de transfert opérationnelle Dop pour cette bande de fréquence. Naturellement, on adopte une implémentation qui garantisse un échantillonnage fréquentiel identique pour les matrices B et Dop.This generation of a global matrix is illustrated in FIG. 7 for an example of 4 frequency bands. The processing matrices D1 to D4 are weighted by respective functions Wi (f) to W 4 (I) and are combined to obtain a matrix Dop of dimension K * N. The processing carried out in the module 322 is here advantageously carried out in the frequency domain. It consists, for each time block of the processed multichannel stream and for each frequency band of the transformed representation, into a matrix product between the matrix B k of the coefficients representing the flux in said frequency band, and the coefficients of the matrix D op operational transfer for this frequency band. Naturally, we adopt an implementation that guarantees identical frequency sampling for matrices B and D op .
La figure 8 maintenant décrite représente un exemple de réalisation de l'étape de sélection de traitements mis en œuvre par le module de sélection 353. Ce mode de réalisation s'applique dans le cas où les données D obtenues soit directement soit par analyse du flux, comportent non seulement des informations sur la présence des composantes spatiales par bande de fréquence γk {f) , mais également des informations sur le niveau de bruit vk(f) et/ou des informations sur l'incertitude d'encodage εk (/) .FIG. 8 now described represents an exemplary embodiment of the process selection step implemented by the selection module 353. This embodiment applies in the case where the data D obtained is directly or by flow analysis. , include not only information on the presence of spatial components per frequency band γ k (f), but also information on the noise level v k (f) and / or information on the encoding uncertainty ε k (/).
Ainsi, la sélection des traitements s'effectue également en fonction de la compatibilité avec la qualité d'encodage des composantes traitées, à savoir non seulement le niveau ou facteur de présence mais aussi le niveau de bruit, voire un indice de fiabilité d'encodage, lié par exemple à l'incertitude d'encodage.Thus, the selection of the treatments is also carried out according to the compatibility with the encoding quality of the components processed, namely not only the level or presence factor but also the noise level, or even an index of reliability of encoding , linked for example to the encoding uncertainty.
Dans ce mode de réalisation, on effectue une compensation dans une certaine limite du niveau de présence γk(f) des composantes à traiter lorsqu'il est déficient.In this embodiment, compensation is made within a certain limit of the level of presence γ k (f) of the components to be treated when it is deficient.
Ainsi, tel que représenté en figure 8, l'étape E80 est une étape de présélection de traitements par bande de fréquence en fonction de l'information χt(/) sur la présence effective des composantes spatiales. Des éléments dn k(f) sont ainsi obtenus et constituent la matrice de traitement globale D(f) à l'étape E81 pour toute la bande de fréquence.Thus, as represented in FIG. 8, step E80 is a step of preselecting processing by frequency band as a function of the information χ t (/) on the actual presence of the spatial components. Elements d nk (f) are thus obtained and constitute the overall processing matrix D (f) in step E81 for the entire frequency band.
A l'étape E82, on regarde si pour certaines fréquences, la présence effective des composantes est faible, par exemple si γk{f) < \ . Pour ces fréquences, on
remplace alors les éléments de traitement correspondants de la matrice globale par par les éléments dn k(f)lγk(f) de traitements compensés.In step E82, it is examined whether for certain frequencies, the effective presence of the components is low, for example if γ k {f) <\. For these frequencies, then replaces the corresponding processing elements of the global matrix by the elements d nk (f) lγ k (f) of compensated processes.
Une nouvelle matrice globale de traitement D'(f) est ainsi obtenue à l'étape E83.A new global processing matrix D '(f) is thus obtained in step E83.
Rappelons que pour une représentation encodée idéalement le traitement prévu produit des signaux selon l'équation suivante :Recall that for an ideally encoded representation the expected processing produces signals according to the following equation:
Sn (I) = ∑dnk (f)Bk (f) (8)
où Bk (/) représente les composantes d'un flux après un encodage idéal et Sn (/) celles obtenues après un décodage spatial correspondant.S n ( I) = Σd nk ( f) B k ( f) (8) where B k (/) represents the components of a stream after an ideal encoding and S n (/) those obtained after a corresponding spatial decoding.
Pour compenser les facteurs de présence ^ (Z) potentiellement déficients, on propose d'adapter le traitement en utilisant la matrice :To compensate for the potentially deficient (Z) presence factors, it is proposed to adapt the treatment using the matrix:
D,,(/) = D(/). diag(γ)-1 , OÙ y = [Yι -γκ] (9) d'où des signaux résultants:
D ,, (/) = D (/). diag (γ) - 1 , where y = [ Yι -γ κ ] (9) from which resultant signals:
En formalisant l'expression de composantes ayant subi un décodage non idéal par l'expression suivante:By formalizing the expression of non-ideally decoded components by the following expression:
Bk (Z) - n (f)Bk (Z) + vk (Z) + εk(J) (11) correspondant à l'expression (6) décrite précédemment, et en appliquant la compensation mentionnée ci-dessus, on obtient l'expression suivante:B k (Z) - n (f) B k (Z) + v k (Z) + ε k (J) (11) corresponding to the expression (6) described above, and applying the compensation mentioned above we obtain the following expression:
En ignorant dans un premier temps, le terme εk (/) , on obtient :Ignoring at first, the term ε k (/), we get:
SΛf) = ∑(dAf)Bk(f)+^-vΛf)) (13)SΛf) = Σ (dAf) B k (f) + ^ - vΛf)) (13)
Ainsi cette expression montre que le niveau de bruit à l'issue du traitement calculé précédemment est donc, en supposant les bruits vk décorrélés deux à deux:
A l'étape E84, un calcul d'indice global représentatif du bruit associé au candidat D(f), fonction de la fréquence est défini comme suit: soit comme le maximum des bruits de sortie : v(D, /) = maxn Sn(f) - Sn(I)Thus this expression shows that the noise level at the end of the previously calculated treatment is therefore, supposing the noises v déc decorrelated two by two: In step E84, an overall index calculation representative of the noise associated with the candidate D (f), a function of the frequency, is defined as follows: either as the maximum of the output noises: v (D, /) = max n S n (f) - S n (I)
soit comme leur moyenne quadratique : v(D,/) = J∑n Sn (f)-Sn (f)\ 2 /Neither as their root mean square: v (D, /) = JΣ n S n (f) -S n (f) \ 2 / N
A défaut de connaissance ou d'estimation du bruit de fond vk (J) , on peut faire l'hypothèse que les signaux sont "de qualité identique", c'est-à-dire affectés par un bruit d'acquisition de même niveau |v(/)|| . Dans ce cas, on peut calculer l'augmentation du niveau de bruit (en moyenne quadratique) par la somme :
In the absence of knowledge or estimation of the background noise v k (J), it can be assumed that the signals are "of identical quality", that is to say, affected by a noise of acquisition of the same level | v (/) || . In this case, we can calculate the increase of the noise level (in quadratic average) by the sum:
Pour simplifier, on pourra considérer que le bruit présent est d'un niveau jugé "acceptable" par le producteur de contenu mais que son augmentation à l'issue du traitement ne doit pas être supérieure à une certaine valeur. Le niveau de bruit v(D,f) pour le traitement D ne doit donc pas être supérieur au niveau de bruit vk(J) ) reçu pour cette bande de fréquence.For simplicity, it can be considered that the noise present is of a level deemed "acceptable" by the content producer but that its increase at the end of the treatment must not be greater than a certain value. The noise level v (D, f) for the processing D must therefore not be greater than the noise level v k (J)) received for this frequency band.
Dans l'hypothèse où le traitement D préserve globalement le niveau de signal, c'est donc la dégradation du rapport signal à bruit que l'on cherche à limiter.Assuming that the processing D globally preserves the signal level, it is the degradation of the signal to noise ratio that we seek to limit.
On notera que la sélection selon l'invention tire avantageusement parti du fait qu'il est possible, avec certaines solutions de décodage et pour certaines gammes de fréquences, de ne pas dégrader le rapport signal à bruit tout en compensant des facteurs de présence γk(J) <1. On observe en effet que certaines matrices de décodage contiennent des éléments dnk dont les valeurs diminuent pour des valeurs de k croissantes, pour lesquelles il se trouve que les facteurs d'échelle γk(J) diminuent eux-mêmes (typiquement en basse fréquence).It will be noted that the selection according to the invention advantageously takes advantage of the fact that it is possible, with certain decoding solutions and for certain frequency ranges, not to degrade the signal-to-noise ratio while compensating for presence factors γ k. (J) <1. It is observed that some decoding matrices contain elements d nk whose values decrease for increasing values of k, for which it happens that the scaling factors γ k (J) decrease themselves (typically in low frequency ).
Dans une variante du procédé décrit, on se propose d'exploiter de surcroît le taux d'incertitude sur l'encodage, auquel correspond le terme εk(J) en reprenant l'expression (12) :
A l'étape E84 une vérification de l'influence du terme d'erreur est effectuée. En effet, la compensation du facteur d'échelle χk(f) ne doit pas faire remonter le terme d'erreur εk(f) à un niveau non négligeable devant Bk(f) , ceci pour éviter des contreperformances spatiales.In a variant of the method described, it is proposed to exploit moreover the rate of uncertainty on the encoding, which corresponds to the term ε k (J) by repeating the expression (12): In step E84 a check of the influence of the error term is performed. Indeed, the compensation of the scale factor χ k (f) must not raise the error term ε k (f) to a non-negligible level before B k (f), this to avoid spatial out-performance.
Ainsi, un compromis est recherché entre la compensation des facteurs de présence et le niveau de bruit induit, voire le terme d'erreur produit. Ce compromis à effectuer va déterminer à l'étape E86, le traitement à effectuer par bande de fréquence. Une fonction de pondération W1(I) prenant en compte ces critères est alors calculée.Thus, a compromise is sought between the compensation of the presence factors and the induced noise level, or the term of error produced. This compromise to perform will determine in step E86, the processing to be performed by frequency band. A weighting function W 1 (I) taking these criteria into account is then calculated.
On peut également associer à une solution de traitement candidate, un ou plusieurs indices de performance spatiale calculés à l'étape E85 pour obtenir un autre critère de sélection.It is also possible to associate with a candidate processing solution one or more spatial performance indices calculated in step E85 to obtain another selection criterion.
Dans le contexte de spatialisation ambiophonique sur haut-parleurs, les performances objectives de spatialisation sont habituellement caractérisées par les vecteurs de vélocité et d'énergie introduits par Gerzon. On prend ci-dessous l'exemple d'une configuration de N haut-parleurs équidistants d'un point de référence qui est le point d'écoute privilégié, placés dans des directions repérées par des vecteurs unitaires Un .In the context of surround sound spatialization on loudspeakers, objective spatialization performances are usually characterized by the velocity and energy vectors introduced by Gerzon. Below is an example of a configuration of N loudspeakers equidistant from a reference point which is the preferred listening point, placed in directions marked by unit vectors U n .
Pour la caractérisation des performances spatiales, on considère un ensemble de directions de sources virtuelles représentées par des vecteurs unitaires vq ou des angles d'azimut et d'élévation (θq,φq) , représentatives d'un champ acoustique: par exemple un échantillonnage sensiblement régulier du cercle ou de la sphère unité, suivant qu'on vise une restitution sur un dispositif de haut-parleurs horizontal ou tridimensionnel. Pour chaque direction considérée, on calcule les gains Gn(y q) qui relient les signaux Sn des haut-parleurs au signal S encodé, compte -tenu de l'opération d'encodage supposée idéale, Bk = γk(θq,φq) et de l'opération de décodage utilisant le candidat D tel que S=D. B, où S et B représentent les vecteurs des signaux Sn et Bk respectivement. Le vecteur des gains Gn s'écrit donc G = D.Y(v?) où Y(v?) est
Ie vecteur des foncûonsYk(vq) = Yk(θq,φq) . Finalement, le vecteur d'énergie est défini comme suit :For the characterization of spatial performances, we consider a set of virtual source directions represented by unit vectors v q or azimuth and elevation angles (θ q , φ q ), representative of an acoustic field: for example a substantially regular sampling of the circle or of the unit sphere, depending on whether it is aimed at rendering on a horizontal or three-dimensional loudspeaker device. For each direction considered, the gains G n (y q ) which connect the signals S n of the loudspeakers to the encoded S signal are calculated, counting the assumed ideal encoding operation, B k = γ k (θ q , φ q ) and the decoding operation using candidate D such that S = D. B, where S and B represent the vectors of the signals S n and B k, respectively. The vector of gains G n is written G = DY (v ? ) Where Y (v ? ) Is The vector of functions Y k (v q ) = Y k (θ q , φ q ). Finally, the energy vector is defined as follows:
rE étant son module et ûE le vecteur unitaire qui décrit sa direction. r E being its module and û E the unit vector which describes its direction.
Naturellement, pour un moindre coût de calcul, l'invention tient avantageusement compte que les indices comme ceux liés au vecteur énergie peuvent être pré-calculés ou bien calculés à partir de formules simples sans avoir à les calculer à partir d'un échantillonnage important de directions de sources virtuelles.Naturally, for a lower calculation cost, the invention advantageously takes into account that indices such as those related to the energy vector can be pre-calculated or calculated from simple formulas without having to calculate them from an important sampling of virtual source directions.
Les solutions de décodage classique qui sont par exemple répertoriés dans la base de données BD, vérifient en principe assez bien le critère de conformité directionnelle ûE = vq pour l'ensemble des directions de source virtuelle.The conventional decoding solutions which are for example listed in the database BD, in principle check pretty well the directional conformity criterion û E = v q for all the directions of virtual source.
La performance spatiale est alors décrite par le module rE , qui prédit en quelque sorte le flou de l'image sonore produite à travers l'angle aE = arccos rE . Cet indice est par exemple décrit dans le document suivant: article AESl 16 de Moreau, Daniel et Bertet, cité plus haut.The spatial performance is then described by the module r E , which predicts somehow the blur of the sound image produced through the angle a E = arccos r E. This index is for example described in the following document: article AESl 16 of Moreau, Daniel and Bertet, cited above.
Si cet indice varie en fonction de la direction d'encodage vq , on en retiendra par exemple une moyenne, éventuellement pondérée en fonction de la direction d'encodage pour privilégier certaines régions de l'espace.If this index varies according to the encoding direction v q , we will retain for example an average, possibly weighted according to the encoding direction to favor certain regions of space.
Les deux tableaux ci-dessus, Tableau 3 et Tableau 4 montrent un exemple de valeurs à la fois du module ΓE (valeur de référence "idéale" =l)et de son arccos OIE (valeur de réf = 0°) pour chaque résolution effective Meff=l à 4.The two tables above, Table 3 and Table 4 show an example of values of both the module Γ E (ideal reference value "= 1) and its arccos OI E (reference value = 0 °) for each effective resolution Meff = 1 to 4.
En fonction des valeurs de performance souhaitées, les traitements Mproc de résolutions 1 à 4 sont choisis.Depending on the desired performance values, the Mproc treatments of resolutions 1 to 4 are chosen.
Tableau 3Table 3
Tableau 4Table 4
On obtient donc à l'étape E85 un indice σ(D,f) de performance spatiale associée à un traitement particulier et pour une fréquence.Thus, in step E85, an index σ (D, f) of spatial performance associated with a particular treatment and for a frequency is obtained.
Cet indice de performance spatiale peut être avantageusement complété par une information de qualité de reconstruction acoustique permise par la solution de décodage qui peut être calculée d'après l'erreur de reconstruction acoustique pour une fréquence et une zone d'écoute donnée.This spatial performance index can be advantageously supplemented by acoustic reconstruction quality information enabled by the decoding solution that can be calculated from the acoustic reconstruction error for a given frequency and listening area.
Dans le contexte de l'invention, il est préférable que l'ensemble de ces indices de performance soient pré-calculés et associés à chaque solution candidate, mais on prévoit qu'ils puissent être (re)calculés au moment de la sélection, en fonction de critères ou d'options particulières définis par l'usager (e.g. taille de la zone d'écoute, etc.).In the context of the invention, it is preferable that all of these performance indices are pre-calculated and associated with each candidate solution, but it is expected that they can be (re) calculated at the time of selection, by according to criteria or specific options defined by the user (eg size of the listening area, etc.).
Plus généralement l'invention s'applique à toute autre forme de caractérisation de performances spatiales. Elle intègre notamment la distorsion angulaire (écart d'angle entre ûE et vq ) qui peut résulter de l'emploi d'une solution de décodage mal adaptée à la résolution effective. En effet, dans le cas de dispositifs non réguliers, l'usage d'une solution de décodage optimal d'ordre M pour un flux de résolution effective d'ordre M<M peut conduire à des distorsions angulaires (du vecteur énergie par exemple).
ElIe s'applique aussi à la caractérisation de propriétés de rendu audio autre que strictement spatiales (comme des effets de coloration par exemple), mais dont la qualité dépend de la bonne prise en compte de la résolution spatiale effective.More generally, the invention applies to any other form of characterization of spatial performances. It incorporates in particular the angular distortion (angle difference between û E and v q ) that can result from the use of a decoding solution that is poorly adapted to effective resolution. Indeed, in the case of non-regular devices, the use of an optimal decoding solution of order M for an effective resolution flow of order M <M can lead to angular distortions (of the energy vector for example) . ElIe also applies to the characterization of audio rendering properties other than strictly spatial (such as coloring effects for example), but whose quality depends on the proper consideration of the effective spatial resolution.
On associe ainsi, à chaque solution candidate, un ou plusieurs indices de performance spatiale et on exploite cette information pour leur sélection à l'étape E86.Thus, each candidate solution is associated with one or more spatial performance indices and this information is used for their selection in step E86.
En effet, à cette étape E86, une note de préférence P(D/) est calculé de façon à ce qu'elle soit fonction croissante de la performance spatiale σ(D/) calculé à l'étape E85 et fonction décroissante de l'augmentation du niveau de bruit V(D/) calculé à l'étape E84.Indeed, at this step E86, a note of preference P (D /) is calculated so that it is an increasing function of the spatial performance σ (D /) calculated in step E85 and decreasing function of the increasing the noise level V (D /) calculated in step E84.
Suivant une première option, on élit une solution par bande de fréquence, à savoir celle obtenant la meilleure note de préférence P(D/). Une fonction W1(Z) de pondération est alors définie. Cette fonction vaut par exemple 1 lorsque la solution n° i est la meilleure à la fréquence / et 0 ailleurs. De préférence, on définit W1(J) de sorte qu'elle passe continûment de 0 à 1 sur un intervalle de fréquences autour de chaque fréquence de transition.According to a first option, a solution is chosen per frequency band, namely that obtaining the best rating of preference P (D /). A weighting function W 1 (Z) is then defined. This function is for example 1 when the solution n ° i is the best at the frequency / and 0 elsewhere. Preferably, W 1 (J) is defined so that it continuously changes from 0 to 1 over a frequency range around each transition frequency.
Les données de traitement optimales sont alors calculées à l'étape E87 comme une pondération des solutions candidates en fonction de la fréquence :The optimal processing data are then calculated in step E87 as a weighting of the candidate solutions as a function of the frequency:
DOP (/) = ∑W)D; (/) (i7)D OP (/) = ΣW) D; (/) (i7)
Cette définition se prête avantageusement à un traitement dans le domaine fréquentiel, comme illustré à la figure 7.This definition is advantageously suitable for processing in the frequency domain, as illustrated in FIG. 7.
Avantageusement, le calcul de la note de préférence peut être modifié pour refléter la facilité d'interpolation entre des solutions candidates sur des bandes de fréquence adjacentes.Advantageously, the calculation of the preference rating can be modified to reflect the ease of interpolation between candidate solutions on adjacent frequency bands.
De même, les fonctions de pondérations peuvent être définies pour optimiser l'interpolation entre solutions de bandes adjacentes.Similarly, the weighting functions can be defined to optimize the interpolation between adjacent band solutions.
La figure 9 décrit un mode de réalisation particulier du dispositif de traitement 350 selon l'invention. Matériellement, ce dispositif 350 comporte typiquement un processeur μP coopérant avec un bloc mémoire BM incluant une mémoire de stockage et/ou de travail, ainsi que la base de données BD précitée pour
répertorier les traitements possibles en fonction du niveau de présence des composantes spatiales. Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé au sens de l'invention, lorsque ces instructions sont exécutées par un processeur μP du dispositif 350 et notamment une première étape d'obtention d'informations représentatives du niveau de présence des composantes spatiales du flux audio en fonction de la fréquence, une seconde étape de sélection d'un traitement par fréquence ou bande de fréquence en fonction des informations obtenues et une troisième étape d'application des traitements sélectionnés au flux audio 3D.FIG. 9 describes a particular embodiment of the processing device 350 according to the invention. Materially, this device 350 typically comprises a μP processor cooperating with a memory block BM including a storage and / or working memory, as well as the aforementioned database BD for to list the possible treatments according to the level of presence of the spatial components. The memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the method in the sense of the invention, when these instructions are executed by a μP processor of the device 350 and in particular a first step of obtaining information representative of the presence level of the spatial components of the audio stream as a function of the frequency, a second step of selecting a frequency or frequency band treatment according to the information obtained and a third step of applying the selected treatments to the 3D audio stream.
Typiquement, la figure 4 peut illustrer un organigramme représentant l'algorithme d'un tel programme informatique.Typically, FIG. 4 can illustrate a flowchart representing the algorithm of such a computer program.
Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire du dispositif 350.The computer program may also be stored on a memory medium readable by a reader of the device or downloadable in the memory space of the device 350.
Ce dispositif 350 selon l'invention peut être indépendant ou intégré dans un décodeur de signal audionumérique tel que décrit en référence à la figure 3.
This device 350 according to the invention can be independent or integrated into a digital audio signal decoder as described with reference to FIG.
Claims
1. Procédé de traitement d'un flux audio 3D codé comportant une pluralité de composantes spatiales, caractérisé en ce qu'il comporte lors du décodage du flux audio, les étapes suivantes: obtention (E41) d'informations représentatives du niveau de présence des composantes spatiales du flux audio en fonction de la fréquence; sélection (E42) par fréquence ou bande de fréquence d'un traitement de décodage spatial compatible avec les informations obtenues; application (E44) des traitements sélectionnés au flux audio 3D.1. A method for processing a coded 3D audio stream comprising a plurality of spatial components, characterized in that it comprises, during the decoding of the audio stream, the following steps: obtaining (E41) information representative of the presence level of the spatial components of the audio stream as a function of frequency; selecting (E42) by frequency or frequency band of a spatial decoding processing compatible with the information obtained; application (E44) of the selected treatments to the 3D audio stream.
2. Procédé selon la revendication 1, caractérisé en ce qu'il comprend une étape d'obtention (E43) d'un traitement global à appliquer sur toute la bande de fréquence du flux audio, à partir des traitements sélectionnés.2. Method according to claim 1, characterized in that it comprises a step of obtaining (E43) a global processing to be applied over the entire frequency band of the audio stream, from the selected treatments.
3. Procédé selon la revendication 2, caractérisé en ce que l'obtention d'un traitement global comporte une étape d'agrégation des traitements sélectionnés et d'intégration d'une fonction de lissage entre les différents traitements.3. Method according to claim 2, characterized in that obtaining a global treatment comprises a step of aggregating the selected treatments and integration of a smoothing function between the different treatments.
4. Procédé selon la revendication 2, caractérisé en ce que le traitement global est un banc de filtres adapté à effectuer un décodage spatial du flux audio avant restitution sonore.4. Method according to claim 2, characterized in that the overall processing is a filter bank adapted to perform a spatial decoding of the audio stream before sound reproduction.
5. Procédé selon la revendication 1, caractérisé en ce que les informations représentatives du niveau de présence des composantes spatiales proviennent de caractéristiques des dispositifs de génération du flux audio et sont obtenues par lecture de données annexes au flux audio.5. Method according to claim 1, characterized in that the information representative of the level of presence of the spatial components comes from characteristics of the devices for generating the audio stream and are obtained by reading data related to the audio stream.
6. Procédé selon la revendication 1, caractérisé en ce que les informations représentatives du niveau de présence des composantes spatiales sont obtenues par analyse du flux audio, l'analyse comportant une étape d'estimation du niveau de présence des composantes par comparaison des niveaux d'énergie des composantes en fonction de la fréquence.6. Method according to claim 1, characterized in that the information representative of the presence level of the spatial components is obtained by analysis of the audio stream, the analysis comprising a step of estimating the level of presence of the components by comparing the levels of the components. component energy as a function of frequency.
7. Procédé selon la revendication 6, caractérisé en ce qu'il comporte en outre une étape d'estimation d'un niveau de bruit et/ou d'un indice de qualité. 7. Method according to claim 6, characterized in that it further comprises a step of estimating a noise level and / or a quality index.
8. Procédé selon la revendication 1, caractérisé en ce que les traitements sélectionnés sont répertoriés dans une base de données de traitement.8. Method according to claim 1, characterized in that the selected treatments are listed in a processing database.
9. Procédé selon la revendication 8, caractérisé en ce que la base de données de traitement comporte des coefficients de matrices et/ou de filtres de traitement, et/ou des règles et paramètres pour construire une fonction de traitement.9. Method according to claim 8, characterized in that the processing database comprises matrix coefficients and / or processing filters, and / or rules and parameters for constructing a processing function.
10. Procédé selon la revendication 1, caractérisé en ce que la sélection d'un traitement par fréquence ou bande de fréquence s'effectue en outre en fonction d'un niveau de bruit résultant de l'application dudit traitement et/ou d'un niveau de qualité dudit traitement et/ou d'un niveau de performance spatiale du flux audio traité par ledit traitement et/ou de caractéristiques de traitements sélectionnés dans des bandes de fréquences voisines.10. Method according to claim 1, characterized in that the selection of a frequency or frequency band processing is also performed according to a noise level resulting from the application of said treatment and / or a a quality level of said processing and / or a spatial performance level of the audio stream processed by said processing and / or selected processing characteristics in neighboring frequency bands.
11. Procédé selon la revendication 1 , caractérisé en ce que la sélection d'un traitement par fréquence ou bande de fréquence comporte une étape de compensation du niveau de présence de composante spatiale à appliquer audit traitement.11. The method of claim 1, characterized in that the selection of a frequency or frequency band processing comprises a step of compensating for the level of presence of spatial component to be applied to said processing.
12. Dispositif de traitement (350) pour le décodage d'un flux audio 3D codé comportant une pluralité de composantes spatiales, caractérisé en ce qu'il comporte: un module (355) d'obtention d'informations représentatives du niveau de présence des composantes spatiales du flux audio en fonction de la fréquence;12. Processing device (350) for decoding a coded 3D audio stream comprising a plurality of spatial components, characterized in that it comprises: a module (355) for obtaining information representative of the presence level of the spatial components of the audio stream as a function of frequency;
- un module (353) de sélection apte à sélectionner par fréquence ou bande de fréquence un traitement de décodage spatial compatible avec les informations obtenues; un module (322) de traitement apte à appliquer les traitements sélectionnés au flux audio 3D.a selection module (353) capable of selecting by frequency or frequency band a spatial decoding processing compatible with the information obtained; a processing module (322) adapted to apply the selected treatments to the 3D audio stream.
13. Décodeur audionumérique caractérisé en ce qu'il comporte un dispositif selon la revendication 12. 13. Digital audio decoder characterized in that it comprises a device according to claim 12.
14. Programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé selon l'une des revendications 1 à 11 , lorsque ces instructions sont exécutées par un processeur. 14. Computer program comprising code instructions for implementing the steps of the method according to one of claims 1 to 11, when these instructions are executed by a processor.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0760301 | 2007-12-21 | ||
FR0760301 | 2007-12-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2009081002A1 true WO2009081002A1 (en) | 2009-07-02 |
Family
ID=39469564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/FR2008/052285 WO2009081002A1 (en) | 2007-12-21 | 2008-12-11 | Processing of a 3d audio stream as a function of a level of presence of spatial components |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2009081002A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8958509B1 (en) | 2013-01-16 | 2015-02-17 | Richard J. Wiegand | System for sensor sensitivity enhancement and method therefore |
-
2008
- 2008-12-11 WO PCT/FR2008/052285 patent/WO2009081002A1/en active Application Filing
Non-Patent Citations (4)
Title |
---|
DANIEL J ET AL: "Further Study of Sound Field Coding with Higher Order Ambisonics", 116TH CONVENTION OF THE AUDIO ENGINEERING SOCIETY, 8 May 2004 (2004-05-08) - 11 May 2004 (2004-05-11), Berlin, Germany, pages 1 - 14, XP002484035 * |
GUILLAUME M: "Analyse et synthèse de champs sonores", 2 November 2006, ENST, PARIS, XP002484036 * |
JÉRÔME DANIEL ET AL: "Further Investigations of High Order Ambisonics and Wavefield Synthesis for Holophonic Sound Imaging", PREPRINTS OF PAPERS PRESENTED AT THE AES CONVENTION, XX, XX, 22 March 2003 (2003-03-22), pages 1 - 18, XP007904475 * |
M. BRANDSTEIN AND D. WARDS (EDS.): "Microphone Arrays: Signal Processing Techniques and Applications", 2001, SPRINGER-VERLAG, NEW-YORK, XP002484037 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8958509B1 (en) | 2013-01-16 | 2015-02-17 | Richard J. Wiegand | System for sensor sensitivity enhancement and method therefore |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2374123B1 (en) | Improved encoding of multichannel digital audio signals | |
EP2898707B1 (en) | Optimized calibration of a multi-loudspeaker sound restitution system | |
EP2002424B1 (en) | Device and method for scalable encoding of a multichannel audio signal based on a principal component analysis | |
EP2005420B1 (en) | Device and method for encoding by principal component analysis a multichannel audio signal | |
EP1992198B1 (en) | Optimization of binaural sound spatialization based on multichannel encoding | |
EP2304721B1 (en) | Spatial synthesis of multichannel audio signals | |
EP2042001B1 (en) | Binaural spatialization of compression-encoded sound data | |
WO2010076460A1 (en) | Advanced encoding of multi-channel digital audio signals | |
EP3391370A1 (en) | Adaptive channel-reduction processing for encoding a multi-channel audio signal | |
EP2319037B1 (en) | Reconstruction of multi-channel audio data | |
EP3025514B1 (en) | Sound spatialization with room effect | |
WO2009081002A1 (en) | Processing of a 3d audio stream as a function of a level of presence of spatial components | |
EP4042418B1 (en) | Determining corrections to be applied to a multichannel audio signal, associated coding and decoding | |
EP2126905B1 (en) | Methods and devices for audio signals encoding and decoding, encoded audio signal | |
FR2943867A1 (en) | Three dimensional audio signal i.e. ambiophonic signal, processing method for computer, involves determining equalization processing parameters according to space components based on relative tolerance threshold and acquisition noise level | |
WO2024213555A1 (en) | Optimized processing for reducing channels of a stereophonic audio signal | |
FR3148316A1 (en) | Optimized channel reduction processing of a stereophonic audio signal | |
EP4533449A1 (en) | Title: spatialized audio encoding with configuration of a decorrelation processing operation | |
FR3149160A1 (en) | Optimized channel reduction processing of a stereophonic audio signal | |
FR3118266A1 (en) | Optimized coding of rotation matrices for the coding of a multichannel audio signal | |
FR3147898A1 (en) | Optimized channel reduction processing of a stereophonic audio signal | |
EP4172986A1 (en) | Optimised coding of an item of information representative of a spatial image of a multichannel audio signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 08865491 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 08865491 Country of ref document: EP Kind code of ref document: A1 |