CN102227769A - 解码装置、解码方法、编码装置、编码方法和编辑装置 - Google Patents
解码装置、解码方法、编码装置、编码方法和编辑装置 Download PDFInfo
- Publication number
- CN102227769A CN102227769A CN2008801321731A CN200880132173A CN102227769A CN 102227769 A CN102227769 A CN 102227769A CN 2008801321731 A CN2008801321731 A CN 2008801321731A CN 200880132173 A CN200880132173 A CN 200880132173A CN 102227769 A CN102227769 A CN 102227769A
- Authority
- CN
- China
- Prior art keywords
- sound signal
- sound
- channel
- signal
- window function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种解码装置(10),包括:存储器件(11),其用于存储包括多声道音频信号的编码后的音频信号;变换器件(40),其用于变换所述编码后的音频信号,以生成时域中基于变换块的音频信号;窗处理器件(41),其用于将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积,所述乘积是第二窗函数;合成器件(43),其用于叠加所述乘后的基于变换块的音频信号,以合成各声道的音频信号;以及混合器件(14),其用于混合声道之间各声道的音频信号,以生成缩混后的音频信号。而且,本发明还公开了一种编码装置,该编码装置缩混多声道音频信号,对缩混后的音频信号进行编码,并且生成编码后的、缩混后的音频信号。
Description
技术领域
本发明涉及对音频信号进行解码和编码,更具体地说,涉及对音频信号进行缩混。
背景技术
近年来,实现高音质的音频编码3型(Audio Code number 3,AC3)、自适应变换声学编码(Adaptive TRansform Acoustic,ATRAC)、高级音频编码(Advanced Audio Coding,AAC)等已经用作用于对音频信号进行编码的方案。而且,如7.1声道或5.1声道的多声道音频信号已经用于重现真实的音响效果。
当利用立体声音频装置再现诸如7.1声道或5.1声道的多声道的音频信号时,执行用于将多声道音频信号缩混成立体声音频信号的过程。
例如,当对编码后的5.1-声道音频信号进行缩混,以利用立体声音频装置来再现缩混后的音频信号时,首先,执行解码过程,以生成左声道、右声道、中心声道、左环绕声道和右环绕声道的解码后的5-声道音频信号。随后,为了生成立体声左声道音频信号,左声道、中心声道和左环绕声道的各音频信号乘以混合比例系数,并且执行乘法运算结果的加法运算。为了生成立体声右声道音频信号,类似地,右声道、中心声道和右环绕声道的各音频信号经过乘法运算和加法运算。
专利引用1:
日本未经审查的专利申请,首次公开号No.2000-276196。
发明内容
顺便提一下,需要以高速处理音频信号。尽管经常使用CPU由软件来执行用于解码,然后缩混经编码的音频信号的过程,但是当CPU同时执行另一个过程时,可能轻易降低了处理速度,由此需要许多时间。
因此,本发明的目的是提供新的并且有用的解码装置、解码方法、编码装置、编码方法和编辑装置。本发明的特定目的是提供在缩混音频信号时减少乘法运算过程数目的解码装置、解码方法、编码装置、编码方法和编辑装置。
根据本发明的一个方面,提供了一种解码装置,该解码装置包括:存储器件,其用于存储包括多声道音频信号的编码后的音频信号;变换器件,其用于变换所述编码后的音频信号,以生成时域中基于变换块的音频信号;窗处理器件,其用于将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积,所述乘积是第二窗函数;合成器件,其用于叠加所述乘后的基于变换块的音频信号,以合成多声道音频信号;以及混合器件,其用于混合声道之间的所述合成的多声道音频信号,以生成缩混后的音频信号。
根据本发明,混合之前的音频信号乘以作为音频信号的混合比例和第一窗函数的乘积的第二窗函数。因此,混合器件不需要在混合多声道音频信号时执行混合比例的乘法运算。而且,即使当窗函数(窗处理器件将音频信号乘以窗函数)从第一窗函数变成第二窗函数时,计算量也不增加。因此,可以在缩混音频信号时减少乘法运算过程数目。
根据本发明的另一个方面,提供了一种解码装置,包括:存储器,其存储包括多声道音频信号的编码后的音频信号;以及CPU,其中,所述CPU被构造为对所述编码后的音频信号进行变换,以生成时域中的基于变换后的音频信号,将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积,所述乘积是第二窗函数,叠加所述乘后的基于变换块的音频信号,以合成多声道音频信号,以及混合声道之间的所述经合成的多声道音频信号,以生成缩混后的音频信号。
根据本发明,获得了如在上述解码装置中引用的发明相同的优势效果。
根据本发明的另一个方面,提供了一种编码装置,包括:存储器件,其用于存储多声道音频信号;混合器件,其用于混合声道之间的所述多声道音频信号,以生成缩混后的音频信号;分离器件,其用于分离所述缩混后的音频信号,以生成基于变换块的音频信号;窗处理器件,其用于将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积,所述乘积是第二窗函数;以及变换器件,其用于变换所述乘后的音频信号,以生成编码后的音频信号。
根据本发明,混合后的音频信号乘以作为音频信号的混合比例和第一窗函数的乘积的第二窗函数。因此,混合器件不需要在混合多声道音频信号时针对至少一部分声道执行混合比例的乘法运算。而且,即使当窗函数(窗处理器件将音频信号乘以窗函数)从第一窗函数变成第二窗函数时,计算量也不增加。因此,可以在缩混音频信号时减少乘法运算过程数目。
根据本发明的另一个方面,提供了一种编码装置,包括:存储器,其存储多声道音频信号;以及CPU,其中,所述CPU被设置为混合声道之间的所述多声道音频信号,以生成缩混后的音频信号,分离所述缩混后的音频信号,以生成基于变换块的音频信号,将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积,所述乘积是第二窗函数,以及变换所述乘后的音频信号,以生成编码后的音频信号。
根据本发明,获得了如在上述编码装置中引用的发明相同的优势效果。
根据本发明的另一个方面,提供了一种解码方法,包括以下步骤:变换包括多声道音频信号的编码后的音频信号,以生成时域中的基于变换块的音频信号的步骤;将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积的步骤,所述乘积是第二窗函数;叠加所述乘后的基于变换块的音频信号,以合成多声道音频信号的步骤;以及混合声道之间的所述合成后的多声道音频信号,以生成缩混后的音频信号的步骤。
根据本发明,混合之前的音频信号乘以作为音频信号的混合比例和第一窗函数的乘积的第二窗函数。因此,不需要在混合声道之间被乘后的音频信号时执行混合比例的乘法运算,以生成混合后的音频信号。而且,即使当乘到音频信号的窗函数从第一窗函数变成第二窗函数时,计算量也不增加。因此,可以在缩混音频信号时减少乘法运算过程数目。
根据本发明的另一个方面,提供了一种编码方法,包括以下步骤:混合声道之间的多声道音频信号,以生成缩混后的音频信号的步骤;分离所述缩混后的音频信号,以生成基于变换块的音频信号的步骤;将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积的步骤,所述乘积是第二窗函数;以及变换所述乘后的音频信号,以生成编码后的音频信号的步骤。
根据本发明,混合后的音频信号乘以作为音频信号的混合比例和第一窗函数的乘积的第二窗函数。因此,不需要在混合多声道音频信号时针对至少一部分声道执行混合比例的乘法运算。而且,即使当乘到音频信号的窗函数从第一窗函数变成第二窗函数时,计算量也不增加。因此,可以在缩混音频信号时减少乘法运算过程数目。
根据本发明,可以提供在缩混音频信号时减少乘法过程数目的解码装置、解码方法、编码装置、编码方法和编辑装置。
附图说明
图1是示出了与缩混音频信号关联的构造的框图。
图2是说明了音频信号的解码过程的流程图。
图3是示出了根据本发明的第一实施方式的解码装置的构造的框图。
图4是示出了流结构的图。
图5是示出了声道解码器构造的框图。
图6A是示出了在窗函数存储单元中存储的刻度窗函数的图。
图6B是示出了在窗函数存储单元中存储的刻度窗函数的图。
图6C是示出了在窗函数存储单元中存储的刻度窗函数的图。
图7是根据第一实施方式的解码装置的功能性构造图。
图8是示出了根据本发明的第一实施方式的解码方法的流程图。
图9是说明了音频信号的编码过程的流程图。
图10是示出了根据本发明的第二实施方式的编码装置的构造的框图。
图11是示出了声道编码器的构造的框图。
图12是示出了混合单元的构造的框图,根据第二实施方式的编码装置的混合单元基于该混合单元。
图13是根据第二实施方式的编码装置的功能性构造图。
图14是示出了根据本发明第二实施方式的编码方法的流程图。
图15是示出了根据本发明第三实施方式的编辑装置的硬件构造的框图。
图16是根据第三实施方式的编辑装置的功能性构造图。
图17是示出了编辑装置的编辑画面的一个示例的图。
图18是示出了根据本发明第三实施方式的编辑方法的流程图。
附图标记说明
10:解码装置
11、21、211、311:信号存储单元
12:去复用单元
13a、13b、13c、13d、13e:声道解码器
14、22、204、301:混合单元
20:编码装置
23a、23b:声道编码器
24:复用单元
30a、30b、51a、51b:加法器
40、63、201、304:变换单元
41、61、202、303:窗处理单元
42、62、212、312:窗函数存储单元
43、203:变换块合成单元
50a、50b、50c、50d、50e:乘法器
60、302:变换块分离单元
73:编辑单元
102、200、300:CPU
210、310:存储器
具体实施方式
下面将参照附图描述根据本发明的实施方式。
[第一实施方式]
根据本发明第一实施方式的解码装置是关于解码装置和解码方法的一个示例,该解码装置和解码方法将包括多声道音频信号的编码后的音频信号解码成缩混后的音频信号。尽管在第一实施方式中例示出了AAC,但是本发明不限于AAC是不言而喻的。
<缩混>
图1是示出了与缩混5.1-声道音频信号关联的构造的框图。
参照图1,通过乘法器700a至700e和加法器701a和701b来执行缩混。
乘法器700a将左环绕声道的一音频信号LS0乘以缩混系数δ。乘法器700b将左声道的一音频信号L0乘以缩混系数α。乘法器700c将中心声道的一音频信号C0乘以缩混系数β。缩混系数α、β和δ是各声道音频信号的混合比例。
加法器701a将从乘法器700a输出的音频信号、从乘法器700b输出的音频信号和从乘法器700c输出的音频信号相加,以生成缩混的左声道音频信号LDM0。类似地针对右声道,生成缩混后的右声道音频信号RDM0。
<音频信号的解码过程>
图2是说明音频信号的解码过程的流程图。
参照图2,在解码过程中,通过对包括编码后的音频信号(编码后的信号)的流进行熵解码以及反量化,来再现MDCT(修改型离散余弦变换)系数440。MDCT系数440由基于变换(MDCT)块的数据形成,变换块具有预定长度。通过IMDCT(反向MDCT)将再现的MDCT系数400变换成时域中基于变换块的音频信号。通过叠加并且相加通过将基于变换块的音频信号乘以窗函数441而获得的信号442,生成已经经过解码处理的音频信号443。
<解码装置的硬件构造>
图3是示出了根据本发明第一实施方式的解码装置的构造的框图。
参照图3,解码装置10包括:信号存储单元11,其存储包括编码后的5.1-声道音频信号(编码后的信号)的流;去复用单元12,其从流提取编码后的5.1-声道音频信号;声道解码器13a、13b、13c、13d和13e,它们执行各声道的音频信号的解码处理;以及混合单元14,其混合已经经过解码处理的5-声道音频信号,以生成2-声道音频信号,即,缩混后的立体声音频信号。根据第一实施方式的解码过程是基于AAC的熵解码过程。应注意的是,为了方便说明,在本说明书的各实施方式中省略了对低频效应(LFE)声道的详述。
从信号存储单元11输出的流S包括编码后的5.1-声道音频信号。
图4是示出了流结构的图。
参照图4,其中示出的流结构是具有被称为ADTS(音频数据传输流)的流格式的一个帧(与1024样本相对应)的结构。流从报头450和CRC451开始,并且包括其随后的AAC的编码后的数据。
报头450包括同步字、配置文件、采样频率、声道构造、版权信息、解码器缓冲器丰满度、一个帧的长度(字节数)等。CRC451是用于检测报头450中的错误和编码后的数据的校验和。SCE(单声道元素)452是编码后的中心声道音频信号并且除了使用过的窗函数和量化信息等,还包括熵编码的MDCT系数等。
CPE(双声道元素)453和454是编码后的立体声音频信号,并且除了联合立体声信息,还包括各声道的编码信息。联合立体声信息是表示是否应当使用M/S(中间/侧边)立体声的信息,和关于如果使用M/S立体声,则在哪些带上应当使用M/S立体声的信息。编码信息是包括使用过的窗函数、量化信息和编码后的MDCT系数等的信息。
当使用联合立体声时,必须使用用于立体声的相同窗函数。在该情况下,关于使用过的窗函数的信息在CPE453和454中结合为一体。CPE453与左声道和右声道相对应,而CPE454与左环绕声道和右环绕声道相对应。LFE(LFE声道元素)455是LFE声道的编码后的音频信号,并且包括与SCE452大致相同的信息。但是,限制可用窗函数或MDCT系数的可用范围。FIL(填充元素)456是根据需要进行插入,以防止解码器缓冲器回流的缓冲垫(padding)。
去复用单元12从具有上述结构的流提取各声道的编码后的音频信号(编码后的信号LS10、L10、C10、R10和RS10),并且向与各声道相对应的声道解码器13a、13b、13c、13d和13e输出各声道的音频信号。
声道解码器13a执行通过对左环绕声道的音频信号进行编码而获得的编码后的信号LS10的解码过程。声道解码器13b执行通过对左声道的音频信号进行编码而获得的编码后的信号L10的解码过程。声道解码器13c执行通过对中心声道的音频信号进行编码而获得的编码后的信号C10的解码过程。声道解码器13d执行通过对右声道的音频信号进行编码而获得的编码后的信号R10的解码过程。声道解码器13e执行通过对右环绕声道的音频信号进行编码而获得的编码后的信号RS10的解码过程。
混合单元14包括加法器30a和30b。加法器30a对由声道解码器13a处理的音频信号LS11、由声道解码器13b处理的音频信号L11和由声道解码器13c处理的音频信号C11进行加合,以生成缩混后的左声道音频信号LDM10。加法器30b对由声道解码器13c处理的音频信号C11、由声道解码器13d处理的音频信号R11和由声道解码器13e处理的音频信号RS11进行加合,以生成缩混后的右声道音频信号RDM10。
图5是示出了声道解码器的构造的框图。应当注意的是,由于图3中所示的声道解码器13a、13b、13c、13d和13e的各构造基本彼此相同,所以图5中示出了声道解码器13a的构造。
参照图5,声道解码器13a包括变换单元40、窗处理单元41、窗函数存储单元42和变换块合成单元43。变换单元40包括熵解码单元40a、反量化单元40b和IMDCT单元40c。通过由去复用单元12输出的控制信号来控制各单元执行的过程。
熵解码单元40a通过熵解码对编码后的音频信号(比特流)进行解码,以生成量化后的MDCT系数。反量化单元40b对从熵解码单元40a输出的量化后的MDCT系数进行反量化,以生成反量化后的MDCT系数。IMDCT单元40c通过IMDCT将从反量化单元40b输出的MDCT系数变换成时域中的音频信号。等式(1)表示IMDCT的变换。
如果0≤n<N,
在等式(1)中,N表示窗长度(样本个数)。Spec[i][k]表示MDCT系数。i表示变换块的指数。k表示MDCT系数的指数。xi,n表示时域中的音频信号。n表示时域中音频信号的指数。n0表示(N/2+1)/2。
窗处理单元41将从变换单元40输出的时域中的音频信号乘以刻度窗函数。该刻度窗函数是缩混系数(作为音频信号的混合比例)和标准化窗函数(normalized window function)的乘积。窗函数存储单元42存储窗函数(窗处理单元41将音频信号乘以该窗函数),并且向窗处理单元41输出窗函数。
图6A至图6C是示出了在窗函数存储单元42中存储的刻度窗函数的图。图6A示出了乘到左声道和右声道的音频信号的刻度窗函数。图6B示出了乘到中心声道的音频信号的刻度窗函数。图6C示出了乘到左环绕声道和右环绕声道的音频信号的刻度窗函数。
参照图6A,N个离散值αW0,αW1,αW2,...,和αWN-1在窗函数存储单元42(参照图5)中准备为乘到左声道和右声道的音频信号的刻度窗函数。Wm(其中,m=0,1,2,...,N-1)是不包括缩混系数的标准化窗函数的值。αWm(其中,m=0,1,2,...,N-1)是乘到音频信号xi,m的窗函数的值,并且通过将与指数m相对应的窗函数值Wm乘以缩混系数α而获得。即,αW0,αW1,αW2,...,和αWN-1是通过将窗函数值W0,W1,W2,...,WN-1缩放α倍而获得的值。
窗函数存储单元42不必须地存储所有N个值,但是窗函数存储单元42可以利用窗函数的对称性特征仅存储N/2个值。而且,不是对于所有信号都必须需要窗函数,但是刻度窗函数可以由具有相同比例因数的声道共享。
窗处理单元41将形成从变换单元40输出的音频信号的N段数据中的各数据乘以图6A中所示的窗函数值。即,窗处理单元41将由等式(1)表示的数据xi,0乘以窗函数值αW0,并且将数据xi,1乘以窗函数值αW1。与其他窗函数值的情况相同。应注意的是,在AAC中,具有不同窗长度的多种窗函数被组合,供使用,因此,N的值根据窗函数的种类而变化。
而且,如图6B所示,N个离散值βW0,βW1,βW2,...,和βWN-1在窗函数存储单元42(参照图5)中准备为乘到中心声道的音频信号的刻度窗函数。
而且,如图6C所示,N个离散值δW0,δW1,δW2,...,和δWN-1在窗函数存储单元42(参照图5)中准备为乘到左环绕声道和右环绕声道的音频信号的刻度窗函数。
图6B和图6C中所示的各值的定义与图6A中所示的各值的定义相同。而且,窗处理单元41对图6B和图6C中所示的各值的处理细节与窗处理单元41对图6A中所示的各值的处理细节相同。
下面所示的等式(2)是缩混系数α的一个示例性等式。下面所示的等式(3)是缩混系数β和δ的一个示例性等式。
多种函数可以用作用于计算图6A至图6C中所示的值W0,W1,W2,...,WN-1的窗函数。例如,可以使用正弦窗。下面所示的等式(4)和(5)是正弦窗函数。
如果
如果
可以使用KBD窗(凯塞-贝塞尔派生窗),而不是上述正弦窗。
变换块合成单元43叠加从窗口处理单元41输出的基于变换块的音频信号,以合成已经经过解码处理的音频信号。下面所示的等式(6)表示基于变换块的音频数据的叠加。
如果
在等式(6)中,i代表变换块的指数。n代表变换块中音频信号的指数。outi,n代表叠加后的音频信号。z代表乘以窗函数的基于变换块的音频信号,并且通过下面示出的等式(7),使用刻度窗函数w(n)和时域中的音频信号xi,n来代表zi,n。
zi,n=w(n)xi,n (7)
根据等式(6),通过将变换块i中第一半音频信号与变换块i之前的变换块i-1中的第二半音频信号相加,来生成音频信号outi,n。当使用长窗时,由等式(6)表示的outi,n与一个帧相对应。而且,当使用短窗时,通过叠加八个变换块而获得的音频信号与一个帧相对应。
通过混合单元14对由如上所述的声道解码器13a、13b、13c、13d和13e生成的各声道的音频信号进行混合和缩混。由于通过声道解码器13a、13b、13c、13d和13e中的处理来执行缩混系数的乘法运算,因此混合单元14不乘以缩混系数。这样,完成了音频信号的缩混。
根据第一实施方式的解码装置,乘以缩混系数的窗函数乘到尚未由混合单元14处理的音频信号。因此,混合单元14不需要乘以缩混系数。由于不执行缩混系数的乘法运算,所以可以减少在缩混音频信号时乘法运算的处理数目,由此以高速处理音频信号。而且,由于可以省略常规缩混时缩混系数的乘法运算所需要的乘法器,所以可以减小电路尺寸和功耗。
<解码装置的功能性构造>
上述解码装置10的功能可以具体实施为使用程序的软件过程。
图7是根据第一实施方式的解码装置的功能性构造图。
参照图7,CPU200通过存储器210中配置的应用程序来构造变换单元201、窗处理单元202、变换块合成单元203和混合单元204的各功能块。变换单元201的功能与图5中所示的变换单元40的功能相同。窗处理单元202的功能与图5中所示的窗处理单元41的功能相同。变换块合成单元203的功能与图5中所示的变换块合成单元43的功能相同。混合单元204的功能与图3中所示的混合单元14的功能相同。
存储器210构造信号存储单元211和窗函数存储单元212的功能块。信号存储单元211的功能与图3中所示的信号存储单元11的功能相同。窗函数存储单元212的功能与图5中所示的窗函数存储单元42的功能相同。存储器210可以是只读存储器(ROM)和随机访问存储器(RAM)中的任意一种,或者可以包括这两者。在本说明书中,将说明假设存储器210包括ROM和RAM二者。存储器210可以包括具有如硬盘驱动器(HDD)、半导体存储器、磁带驱动器、或光盘驱动器等的记录介质的装置。由CPU200执行的应用程序可以存储在ROM或RAM中,或者可以存储在HDD和具有上述记录介质的等等装置中。
通过上述各功能块来具体实施音频信号的解码功能。要由CPU200处理的音频信号(包括编码后的信号)存储在信号存储单元211中。CPU200执行用于从信号存储单元211读取经过解码过程的编码后的信号的过程,并且通过使用变换单元201来变换编码后的音频信号,以生成时域中的基于变换块的音频信号,变换块具有预定长度。
而且,CPU200通过使用窗处理单元202来执行用于将时域中的音频信号乘以窗函数的过程。在该过程中,CPU200从窗函数存储单元212读取出要乘到音频信号的窗函数。
而且,CPU200通过使用变换块合成单元203,来执行用于叠加基于变换块的音频信号,以合成已经经过解码过程的音频信号的过程。
而且,CPU200通过使用混合单元204来执行用于混合音频信号的过程。缩混后的音频信号存储在信号存储单元211中。
<解码方法>
图8是示出了根据本发明第一实施方式的解码方法的流程图。这里,将参照图8使用解码并且缩混5.1-声道音频信号的一个示例来描述根据本发明第一实施方式的解码方法。
首先,在步骤S100中,CPU200将通过对包括左环绕声道(LS)、左声道(L)、中心声道(C)、右声道(R)和右环绕声道(RS)的各声道的音频信号进行编码而获得的编码后的信号变换成时域中的基于变换块的音频信号,变换块具有预定长度。在该变换中,各过程包括执行熵解码、反量化和IMDCT的。
随后,在步骤S110中,CPU200从窗函数存储单元211读取出刻度窗函数,并且将时域中的基于变换块的音频信号乘以这些窗函数。如上所述,刻度窗函数是缩混系数和标准化窗函数的乘积,这些缩混系数是音频信号的混合比例。而且,作为一个示例,为各声道准备刻度窗函数,并且与各声道相对应的窗函数乘到各声道的音频信号。
随后,在步骤S120中,CPU200叠加在步骤S110中处理的基于变换块的音频信号,并且合成已经经过解码过程的音频信号。应注意的是,已经经过解码处理的音频信号已经在步骤S110中乘以缩混系数。
随后,在步骤S130中,CPU200混合步骤S120中已经经过解码处理的5-声道音频信号,以生成缩混后的左声道(LDM)音频信号和缩混后的右声道(RDM)音频信号。
具体地,CPU200将步骤S120中合成的左环绕声道(LS)音频信号、步骤S120中合成的左声道(L)音频信号和步骤S120中合成的中心声道(C)音频信号相加,以生成缩混后的左声道(LDM)音频信号。此外,CPU200将步骤S120中合成的中心声道(C)音频信号、步骤S120中合成的右声道(R)音频信号和步骤S120中合成的右环绕声道(RS)音频信号相加,以生成缩混后的右声道(RDM)音频信号。重要的是,在步骤S130中,与背景技术不同,仅执行相加过程,并且不需要执行缩混系数的乘法过程。
根据第一实施方式的解码方法,步骤S110中乘以缩混系数的窗函数乘到尚未混合的音频信号。因此,在步骤S130中,不需要执行缩混系数的乘法运算。由于不执行缩混系数的乘法运算,所以可以在步骤S130中缩混音频信号时减少乘法处理的数目,由此以高速处理音频信号。
由于可以应用根据第一实施方式的窗处理,而不根据MDCT块的长度,所以可以利于处理。尽管在例如AAC中存在窗函数的两个长度(长窗和短窗),但是由于即使使用这些长度中的任意一个长度或者即使长窗和短窗随意组合,用于各声道的使用,也可以应用根据第一实施方式的窗处理,所以可以利于该处理。而且,如将在第二实施方式中描述的,与根据第一实施方式的窗处理相同的窗处理可以应用于编码装置。
应注意的是,作为第一实施方式的修改示例,当在左声道和右声道中打开MS立体声时,即,当由合量信号和差动信号来构造左声道和右声道的音频信号时,可以在反量化处理之后并且在IMDCT处理之前来执行MS立体声处理,以根据合量信号和差动信号来生成左声道和右声道的音频信号。MS立体声可以还用于左环绕声道和右环绕声道。
而且,作为第一实施方式的另一个修改示例,为了处理通过乘以预定增益系数使具有[-1.0,1.0]范围的解码信号按比例,以具有预定比特精度,并且从解码装置输出刻度信号的情况,在解码时,乘以增益系数的窗函数可以乘到信号。例如,当从解码装置输出16-比特信号时,将增益系数设置为215。这样做时,由于不需要将解码后的信号乘以增益系数,因此可以获得与上述相同的优势效果。
而且,作为第一实施方式的另一个修改示例,乘以缩混系数的基函数可以在执行IMDCT时乘到MDCT系数。这样做时,由于不需要在缩混时执行缩混系数的乘法运算,因此可以获得与上述相同的优势效果。
[第二实施方式]
根据本发明第二实施方式的编码装置是相对于编码装置和编码方法的一个示例,该编码装置和编码方法用于从多声道音频信号产生缩混后的编码音频信号。尽管在第二实施方式中例示出了AAC,但是本发明不限于AAC是不言而喻的。
<音频信号的编码过程>
图9是说明音频信号的编码过程的流程图。
参照图9,在编码过程中,具有恒定间隔的变换块461从要处理的音频信号460切除(分离),并且乘以窗函数462。此时,音频信号460的采样值乘以预先已经计算出的窗函数的值。各变换块被设置为与其他变换块叠加。
乘以窗函数462的时域中的音频信号463通过MDCT变换成MDCT系数。MDCT系数464被量化并且熵编码,以生成包括编码后的音频信号(编码信号)的流。
<编码装置的硬件构造>
图10是示出了根据本发明第二实施方式的编码装置的构造的框图。
参照图10,编码装置20包括:信号存储单元21,其存储5.1-声道音频信号;混合单元22,其混合各声道的音频信号,以产生双声道缩混立体声音频信号;声道编码器23a和23b,它们执行音频信号的编码过程;以及复用单元24,其复用双声道编码音频信号,以产生流。根据第二实施方式的编码过程是基于AAC的熵编码过程。
混合单元22包括乘法器50a、50c和50e以及加法器51a和51b。乘法器50a将左环绕声道音频信号LS20乘以预定系数δ/α。乘法器50c将中心声道音频信号C20乘以预定系数β/α。乘法器50e将右环绕声道音频信号RS20乘以预定系数δ/α。
加法器51a将从乘法器50a输出的音频信号LS21、从信号存储单元21输出的左声道音频信号L20和从乘法器50c输出的音频信号C21相加,以生成缩混后的左声道音频信号LDM20。加法器51b将从乘法器50c输出的音频信号C21、从信号存储单元21输出的右声道音频信号R20和从乘法器50e输出的音频信号RS21相加,以生成缩混后的右声道音频信号RDM20。
声道编码器23a执行左声道音频信号LDM20的编码过程。声道编码器23b执行右声道音频信号RDM20的编码过程。
复用单元24复用从声道编码器23a输出的音频信号LDM21和从声道编码器23b输出的音频信号RDM21,以产生流S。
图11是示出了声道编码器的构造的框图。由于图10中所示的各声道编码器23a和23b的构造彼此基本类似,所以图11中示出了声道编码器23a的构造。
参照图11,声道编码器23a包括变换块分离单元60、窗处理单元61、窗函数存储单元62和变换单元63。
变换块分离单元60将输入的音频信号分成基于变换块的音频信号,变换块具有预定长度。
窗处理单元61将从变换块分离单元60输出的音频信号乘以刻度窗函数。刻度窗函数是缩混系数(其确定音频信号的混合比例)和标准化的窗函数的乘积。与第一实施方式类似,诸如KBD窗或正弦窗的多种函数可以用作窗函数。窗函数存储单元62存储窗函数(窗处理单元61将音频信号乘以该窗函数),并且向窗处理单元61输出窗函数。
变换单元63包括MDCT单元63a、量化单元63b和熵编码单元63c。
MDCT单元63a通过MDCT将从窗处理单元61输出的时域中的音频信号变换成MDCT系数。等式(8)示出了MDCT的变换。
如果0≤k<N/2,
在等式(8)中,N代表窗长度(样本个数)。zi,n代表时域中的窗音频信号。i代表变换块的指数。n代表时域中音频信号的指数。xi,k代表MDCT系数。k代表MDCT系数的指数。n0代表(N/2+1)/2。
量化单元63b量化从MDCT单元63a输出的MDCT系数,以生成量化后的MDCT系数。熵编码单元63c通过墒编码对量化后的MDCT系数进行编码,以生成编码后的音频信号(比特流)。
图12是示出了混合单元的构造的框图,根据第二实施方式的编码装置的混合单元基于该混合单元。
参照图12,混合单元65与图10中所示的混合单元22相对应。混合单元65包括乘法器50a、50b、50c、50d和50e以及加法器51a和51b。乘法器50a将左环绕声道音频信号LS20乘以预定系数δ0。乘法器50b将左声道音频信号L20乘以预定系数α0。乘法器50c将中心声道音频信号C20乘以预定系数β0。乘法器50d将右声道音频信号R20乘以预定系数α0。乘法器50e将右环绕声道音频信号RS20乘以预定系数δ0。
加法器51a将从乘法器50a输出的音频信号LS21、从乘法器50b输出的音频信号L21和从乘法器50c输出的音频信号C21相加,以生成缩混后的左声道音频信号LDM30。加法器51b将从乘法器50c输出的音频信号C21、从乘法器50d输出的音频信号R21和从乘法器50e输出的音频信号RS21相加,以生成缩混后的右声道音频信号RDM30。
当缩混系数由α、β、δ表示,缩混系数α被设置为图12中所示的系数α0,缩混系数β被设置为系数β0,并且缩混系数δ被设置为系数δ0时,混合单元65执行与如图1中所示的相同的缩混。通过将这些系数α0、β0、δ0设置为本征值,可以构造与混合单元65中相比减少了乘法运算数目的混合单元22。
再一次参照图10与图12,在混合单元22中,要乘到左声道音频信号L20和右声道音频信号R20的系数被设置为1(=α/α)。要乘到中心声道音频信号C20的系数被设置为通过用缩混系数β除以缩混系数α而获得的值(=β/α)。要乘到左环绕声道音频信号LS20和右环绕声道音频信号RS20的系数被设置为通过用缩混系数δ除以缩混系数α而获得的值(=δ/α)
即,根据第二实施方式的要乘到音频信号的系数是通过将要乘到图1中所示的音频信号的各系数乘以缩混系数α的倒数(=1/α)而获得的值。而且,由于如图10所示,要乘到左声道音频信号L20和右声道音频信号R20的系数被设置为1,所以没有必要对左声道音频信号L20和右声道音频信号R20执行乘法运算。因此,从混合单元22省略了混合单元65的乘法器50b和50d。
为了相消缩混系数α的倒数(=1/α)乘到要乘到音频信号的各系数的乘法运算,有必要将缩混后的音频信号乘以缩混系数α。在第二实施方式中,窗函数(窗处理单元61将音频信号乘以该窗函数)被设置为通过将窗函数乘以缩混系数α而获得的刻度窗函数。因此,取消了缩混系数α的倒数(=1/α)乘到要乘到音频信号的各系数的乘法运算。
再一次参照图10,当缩混系数α和β彼此相等或者缩混系数α和δ彼此相等时,β/α或δ/α是1,由此除了与左声道和右声道关联的乘法器,可以省略乘法器50c或乘法器50a和50e。当缩混系数α、β、δ彼此相等时,β/α或δ/α是1,由此可以省略与所有声道关联的乘法器。
而且,在上述说明中,要乘到音频信号的各系数乘以缩混系数α的倒数(=1/α),但是要乘到音频信号的各系数可以乘以缩混系数β的倒数(=1/β)或缩混系数δ的倒数(=1/δ)。
当要乘到音频信号的各系数乘以缩混系数的β的倒数(=1/β)时,窗口处理单元61使音频信号乘以的刻度窗函数是缩混系数β和标准化窗函数的乘积。而且,通过从图12中所示的混合单元65的构造省略乘法器50c获得混合单元22的构造。
当要乘到音频信号的各系数乘以缩混系数的δ的倒数(=1/δ)时,窗口处理单元61使音频信号乘以的刻度窗函数是缩混系数δ和标准化窗函数的乘积。而且,通过从图12中所示的混合单元65的构造省略乘法器50a和50e获得混合单元22的构造。
根据第二实施方式的编码装置,乘以缩混系数的窗函数被乘到已经由混合单元22处理的音频信号。因此,混合单元22不需要对至少一部分声道执行缩混系数的乘法运算。由于不对至少一部分声道执行缩混系数的乘法运算,所以可以在缩混音频信号时减少乘法过程的数目,由此以高速处理音频信号。而且,由于可以省略常规缩混时缩混系数的乘法需要的乘法器,所以可以减小电路尺寸和功耗。
例如,即使当缩混系数根据声道而不同时,也可以针对至少一个声道省略混合单元22中缩混系数的乘法运算。具体地,当多个声道的缩混系数彼此相等时,可以进一步省略混合单元22中缩混系数的乘法运算。
<编码装置的功能性构造>
可以使用程序由软件过程来具体实施编码装置20的上述功能。
图13是根据第二实施方式的编码装置的功能性构造图。
参照图13,CPU300通过使用存储器310中配置的应用程序来构造混合单元301、变换块分离单元302、窗处理单元303和变换单元304的各功能块。混合单元301的功能与图10中所示的混合单元22的功能相同。变换块分离单元302的功能与图11中所示的变换块分离单元60的功能相同。窗处理单元303的功能与图11中所示的窗处理单元61的功能相同。变换单元304的功能与图11中所示的变换单元63的功能相同。
存储器310构造信号存储单元311和窗函数存储单元312的功能块。信号存储单元311的功能与图10中所示的信号存储单元21的功能相同。窗函数存储单元312的功能与图11中所示的窗函数存储单元62的功能相同。存储器310可以是只读存储器(ROM)和随机访问存储器(RAM)中的任意一种,或者可以包括这两者。在本说明书中,将说明假设存储器310包括ROM和RAM二者。存储器310可以包括具有如硬盘驱动器(HDD)、半导体存储器、磁带驱动器、或光盘驱动器等的记录介质的装置。由CPU300执行的应用程序可以存储在ROM或RAM中,或者可以存储在具有上述记录介质的HDD中。
通过上述各功能块来具体实施音频信号的编码功能。要由CPU300处理的音频信号(包括编码后的信号)存储在信号存储单元311中。CPU300执行用于从存储器310读取出要缩混的音频信号,以及通过使用混合单元301来混合音频信号的过程。
而且,CPU300通过使用变换块分离单元302来执行用于分离缩混后的音频信号的过程,以生成时域中的基于变换块的音频信号,变换块具有预定长度。
而且,CPU300通过使用窗处理单元303来执行用于将缩混后的音频信号乘以窗函数的过程。在该过程中,CPU300从窗函数存储单元312读取出要乘到音频信号的窗函数。
而且,CPU通过使用变换单元304来执行用于变换音频信号,以产生编码后的音频信号的过程。编码后的音频信号存储在信号存储单元311中。
<编码方法>
图14是示出了根据本发明第二实施方式的编码方法的流程图。将参照图14使用缩混并且编码5.1-声道音频信号的一个示例,来描述根据本发明第二实施方式的编码方法。
首先,在步骤S200中,CPU300将包括左环绕声道(LS)、左声道(L)、中心声道(C)、右声道(R)和右环绕声道(RS)的各声道的部分音频信号乘以系数,并且混合产生的信号,以生成缩混后的左声道(LDM)音频信号和缩混后的右声道(RDM)音频信号。
具体地,CPU300将左环绕声道(LS)音频信号乘以系数δ/α,并且将中心声道(C)音频信号乘以系数β/α。不执行将左声道(L)音频信号乘以系数。CPU300将乘以系数δ/α的左环绕声道(LS)音频信号、左声道(L)音频信号和乘以系数β/α的中心声道(C)音频信号相加,以生成缩混后的左声道(LDM)音频信号。
而且,CPU300将中心声道(C)音频信号乘以系数β/α,并且将右环绕声道(RS)音频信号乘以系数β/α。不执行将右声道(R)音频信号乘以系数。CPU300将乘以系数β/α的中心声道(C)音频信号和乘以系数δ/α的右环绕声道(RS)音频信号相加,以生成缩混后的右声道(RDM)音频信号。
随后,在步骤S210中,CPU300分离步骤S200中缩混的音频信号,以生成时域中基于变换块的音频信号,变换块具有预定长度。
随后,在步骤S220中,CPU300从存储器310中的窗函数存储单元312读取出窗函数,并且将步骤S210中生成的音频信号乘以窗函数。窗函数是由缩混系数的乘法运算产生的刻度窗函数。而且,作为一个示例,为各声道准备窗函数,并且与各声道相对应的窗函数乘到各声道的音频信号。
随后,在步骤S230中,CPU300变换在步骤S220中处理的音频信号,以生成编码后的音频信号。在该变换中,执行包括MDCT、量化和熵编码的各过程。
根据第二实施方式的编码方法,乘以缩混系数的窗函数乘到混合的音频信号。因此,在步骤S200中,没有必要对至少一部分声道执行缩混系数的乘法运算。由于不对至少一部分声道执行缩混系数的乘法运算,因此与对所有声道执行缩混系数的乘法运算的背景技术相比,可以在步骤S200中以高速处理音频信号。
应注意的是,作为第二实施方式的一个修改示例,为了处理通过乘以预定增益系数,使具有输入到编码装置的预定比特精度的信号按比例具有[-1.0,1.0]的范围,并且编码刻度信号的情况,在编码时,信号可以乘以已经乘以增益系数的窗函数。例如,当16-比特信号输入到编码装置时,增益系数被设置为1/215。这样做时,由于在编码之前没有必要将信号乘以增益系数,因此可以获得与上述相同的优势效果。
而且,作为第二实施方式的另一个修改示例,在执行MDCT时,音频信号可以乘以基函数,该基函数乘以了缩混系数。这样做时,由于在缩混时不需要执行缩混系数的乘法运算,所以可以获得与上述相同的优势效果。
[第三实施方式]
根据本发明第三实施方式的编辑装置是相对于用于编辑多声道音频信号的编辑装置和编辑方法的一个示例。在第三实施方式中例示了AAC,但是本发明不限制于AAC是不言而喻的。
<编辑装置的硬件构造>
图15是示出了根据本发明的第三实施方式的编辑装置的硬件构造的框图。
参照图15,编辑装置100包括用于驱动光盘或其他记录介质的驱动器101、CPU102、ROM103、RAM104、HDD105、通信接口106、输入接口107、输出接口108、AV单元109和连接这些的总线110。而且,根据第三实施方式的编辑装置具有根据第一实施方式的解码装置的功能和根据第二实施方式的编码装置的功能。
诸如光盘的可去除介质101a安装在驱动器101上,并且从可去除介质101a读取数据。尽管图15示出了驱动器101内置在编辑装置100中的情况,但是驱动器101可以是外部驱动器。除了光盘,驱动器101可以采用磁盘、磁光盘、蓝光光盘、半导体存储器等。材料数据可以从通过通信接口106连接的网络中的资源读取。
CPU102将ROM103中记录的控制程序配置成易失性存储区域,如RAM104,并且控制编辑装置100的整个操作。
HDD105存储应用程序做为编辑装置。CPU102将应用程序配置到RMA104中,由此使计算机起到编辑装置的作用。而且,编辑装置100可以被构造为,使得从诸如光盘等的可去除介质101a读取的各剪辑(clip)的材料数据、编辑数据等存储在HDD105中。由于对HDD105中存储的材料数据的访问速度大于驱动器101上安装的光盘的访问速度,所以通过使用HDD105中存储的材料数据缩短了编辑时的显示延迟。编辑数据的存储器件不限于HDD105,只要其是可以允许高速访问的存储装置,并且例如可以使用磁盘、磁光盘、蓝光光盘、半导体存储器等。通过通信接口106可连接的网络中的存储器件可以用作用于编辑数据的存储器件。
通信接口106例如通过USB(通信串行总线)与连接到其的视频照相机通信,并且接收视频照相机中的记录介质中记录的数据。而且,通信接口106可以通过LAN或因特网向网络中的资源发送生成的编辑数据。
输入接口107接收由用户通过诸如键盘或鼠标等的操作单元400输入的指令,并且通过总线110向CPU102提供操作信号。输出接口108向诸如扬声器的输出装置500或诸如LCD(液晶显示器)或CRT的显示装置提供来自CPU102的图像数据或语音数据。
AV单元109对视频信号和音频信号执行多种处理,并且包括下面的元件和功能。
外部视频信号接口111向/从编辑装置100和视频压缩/解压缩单元112的外部发送视频信号。例如,外部视频信号接口111设置有用于模拟合成信号和模拟分量信号的输入输出单元。
视频压缩/解压缩单元112解码并且模拟转换通过视频接口113提供的视频数据,并且向外部视频信号接口111输出产生的视频信号。而且,视频压缩/解压缩单元112根据需要数字转换从外部视频信号接口111或外部视频/音频信号接口114提供的视频信号,例如通过MPEG-2方法压缩转换后的视频信号,并且通过视频接口113向总线110输出产生的数据。
视频接口113向/从视频压缩/解压缩单元112和总线110发送数据。
外部视频/音频信号接口114向视频压缩/解压缩单元112输出从外部设备输入的视频数据,并且向音频处理器116输出音频数据。而且,外部视频/音频信号接口114向外部设备输出从视频压缩/解压缩单元112提供的视频数据和从音频处理器116提供的音频数据。例如,外部视频/音频信号接口114是基于SDI(串行数字接口)等的接口。
外部音频信号接口115向/从外部设备和音频处理器116发送音频信号。例如,外部音频信号接口115是基于模拟音频信号的接口标准的接口。
音频处理器116对从外部音频信号接口115提供的音频信号进行模拟-数字转换,并且向音频接口117输出产生的数据。而且,音频处理器116对从音频接口117提供的音频数据执行数模转换、语音调节等,并且向外部音频信号接口115输出产生的信号。
音频接口117向音频处理器116提供数据,并且向总线110输出来自音频处理器116的数据。
<编辑装置的功能性构造>
图16是根据第三实施方式的编辑装置的功能性构造图。
参照图16,编辑装置110的CPU102通过使用存储器中配置的应用程序来构造用户接口单元70、编辑单元73、信息输入单元74、信息输出单元75的各功能块。
各功能块具体实施包括材料数据和编辑数据的项目文件的导入功能;各剪辑的编辑功能;包括材料数据和/或编辑数据的项目文件的导出功能;在导出项目文件时用于材料数据的边缘设置功能等。以下将详细描述编辑功能。
<编辑功能>
图17是示出了编辑装置的编辑画面的一个示例的图。
参照图17和图16,编辑画面的显示数据由显示控制单元72生成并且向输出装置500的显示器输出。
编辑画面150包括再现窗口151,其显示编辑内容或获取的材料数据的再现画面;时间线窗口152,其被构造有多条磁道(track),其中,沿时间线设置各剪辑;箱窗口(binwindow)153,其通过使用图标等来显示获取的材料数据。
用户接口单元70包括:指令接收单元71,其接收由用户通过操作单元400输入的指令;以及显示控制单元72,其对诸如显示器或扬声器等的输出装置500执行显示控制。
编辑单元73通过信息输入单元74获取被从用户通过操作单元400输入的指令指定的剪辑参考的材料数据,或者被具有指定为默认的项目信息的剪辑参考的材料数据。
当指定HDD105中记录的材料数据时,信息输入单元74在箱窗口153中显示图标,并且当指定未记录在HDD105中的材料数据时,信息输入单元74从网络或可去除介质中的资源读取材料数据,并且在箱窗口153中显示图标。在例示出的示例中,通过图标IC1至IC3显示三个材料数据。
指令接收单元71在编辑画面上接收编辑时使用的剪辑、材料数据的参考范围和参考范围占用的内容的时间轴中的临时位置的指定。具体地,指令接收单元71接收剪辑ID、参考范围的起点和临时长度、设置有剪辑的内容的时间信息等的指定。为此,用户使用显示的剪辑名称作为线索在时间线上拖放期望的材料数据的图标。指令接收单元71通过该操作接收剪辑ID的指定,由此具有与由所选剪辑参考的参考范围相对应的临时长度的所选剪辑设置在磁道上。
设置在磁道上的剪辑的时间线上的起点、结束点和临时设置可以适当地改变,并且通过例如在编辑画面上移动鼠标光标并且做出预定操作,可以输入指令。
例如,如下所述执行音频材料的编辑。当用户通过使用操作单元400指定在HDD105中记录的AAC格式的5.1-声道音频材料时,指令接收单元71接收指定,并且编辑单元73通过显示控制单元72在输出装置500的显示器上显示箱窗口153中的图标(剪辑)。
当用户通过使用操作单元400指示在时间线窗口152的音轨154上设置剪辑时,指令接收单元71接收指定,并且编辑单元73通过显示控制单元72在输出装置500的显示器上显示音轨154中的剪辑。
当用户从通过使用操作单元400由预定操作显示的编辑内容中选择例如,缩混到立体声时,指令接收单元71接收用于缩混到立体声的指令(编辑过程指令),并且通知编辑单元73该指令。
编辑单元73根据从指令接收单元71通知的指令,缩混AAC格式的5.1-声道音频材料,以产生AAC格式的双声道音频材料。此时,编辑单元73可以执行根据第一实施方式的解码方法,以生成缩混后的解码立体声音频信号,或者编辑单元73可以执行根据第二实施方式的编码方法,以生成缩混后的编码立体声音频信号。而且,可以大致同时执行这两个方法。
由编辑单元73产生的音频信号输出到信息输出单元75。信息输出单元75通过总线110向例如HDD105输出编辑后的音频材料,并且在其中记录编辑后的音频材料。
应注意的是,当由用户给出在音轨154上再现剪辑的指令时,编辑单元73可以在通过上述解码方法缩混5.1-声道音频材料的同时输出并且再现缩混后的解码立体声音频信号,好像其再现了缩混后的材料。
<编辑方法>
图18是示出了根据本发明第三实施方式的编辑方法的流程图。将使用对5.1-声道音频信号进行编辑的一个示例参照图18描述根据本发明第三实施方式的编辑方法。
首先,在步骤S300中,当由用户指定HDD105中记录的AAC格式的5.1-声道音频材料时,CPU102接收指定并且在箱窗口153中显示音频材料,作为图标。而且,当由用户给出在时间线窗口152中的音轨154上设置显示图标的指令时,CPU102接收指令并且在时间线窗口152中的音轨154上设置音频材料的剪辑。
随后,在步骤S310中,当例如,从由用户通过操作单元400用预定操作显示的编辑内容中选择缩混到用于音频材料的立体声时,CPU102接收选择。
随后,在步骤S320中,已经接收到用于缩混到立体声的指令的CPU102缩混AAC格式的5.1-声道音频材料,以生成双声道立体声音频信号。此时,CPU102可以执行根据第一实施方式的解码方法,以生成缩混的解码立体声音频信号,或者CPU102可以执行根据第二实施方式的编码方法,以产生缩混后的编码立体声音频信号。CPU102通过总线110向HDD105输出步骤S320中产生的音频信号,并且在其中记录生成的音频信号(步骤S330)。应注意的是,音频信号可以输出到编辑装置外部的装置,而不是在HDD中记录它们。
根据第三实施方式,即使在可以编辑音频信号的编辑装置中,也可以获得与第一和第二实施方式相同的优势效果。
尽管上面已经详细描述了本发明的优选实施方式,但是本发明并不限于这样的具体实施方式,而是在权利要求中所述的本发明范围之内可以进行多种修改。
例如,缩混音频信号不限于缩混到立体声,而可以执行缩混到单声道。而且,缩混不限于5.1-声道缩混,而是作为一个示例,可以执行7.1-声道缩混。更具体地,在7.1-声道音频系统中,除了与5.1声道中相同的声道,还存在例如两个声道(左反向声道(LB)和右反向声道(RB))。当7.1-声道音频信号缩混到5.1-声道音频信号时,可以根据等式(9)和(10)来执行缩混。
LSDM=αLS+βLB (9)
RSDM=αRS+βRB (10)
在等式(9)中,LSDM代表缩混之后的左环绕声道音频信号,LS代表缩混之前的左环绕声道音频信号,并且LB代表左反向声道音频信号。在等式(10)中,RSDM代表缩混之后的右环绕声道音频信号,RS代表缩混之前的右环绕声道音频信号,并且RB代表右反向声道音频信号。在等式(9)和(10)中,α和β代表缩混系数。
根据等式(9)和(10)产生的左环绕声道音频信号和右环绕音频信号以及缩混时不使用的中心声道音频信号、左声道音频信号和右声道音频信号构造5.1-声道音频信号。应注意的是,与用于将5.1-声道音频信号缩混到双声道音频信号的方法类似,7.1-声道音频信号可以缩混到双声道音频信号。
而且,尽管已经在上述实施方式中例示了AAC,但是本发明不限制于AAC是不言而喻的,而可以用于采用了利用诸如AC3、ATRAC3等的MDCT的时频变换中的窗函数的编解码器的情况。
Claims (21)
1.一种解码装置(10),该解码装置包括:
存储器件(11),其用于存储包括多声道音频信号的编码后的音频信号;
变换器件(40),其用于变换所述编码后的音频信号,以生成时域中基于变换块的音频信号;
窗处理器件(41),其用于将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积,所述乘积是第二窗函数;
合成器件(43),其用于叠加所述乘后的基于变换块的音频信号,以合成多声道音频信号;以及
混合器件(14),其用于混合声道之间的所述合成后的多声道音频信号,以生成缩混后的音频信号。
2.根据权利要求1所述的解码装置,其中,对所述第一窗函数进行标准化。
3.根据权利要求1所述的解码装置,其中,所述混合器件将所述合成后的多声道音频信号变换成声道个数比在所述编码后的音频信号中包括的声道个数少的音频信号。
4.根据权利要求1所述的解码装置,其中,所述编码后的音频信号是用于5.1-声道或7.1声道音频系统的音频信号,并且
其中,所述混合器件生成立体声音频信号或单声道音频信号。
5.一种解码装置(10),该解码装置包括:
存储器(210),其存储包括多声道音频信号的编码后的音频信号;以及
CPU(200),
其中,所述CPU被构造为
对所述编码后的音频信号进行变换,以生成时域中的基于变换块的音频信号,
将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积,所述乘积是第二窗函数,
叠加所述乘后的基于变换块的音频信号,以合成多声道音频信号,以及
混合声道之间的所述经合成的多声道音频信号,以生成缩混后的音频信号。
6.根据权利要求5所述的解码装置,其中,所述CPU被构造为产生混合后的音频信号,该混合后的音频信号包括的声道个数少于所述编码后的音频信号中包括的声道个数。
7.根据权利要求5所述的解码装置,其中,所述编码后的音频信号是用于5.1-声道或7.1声道音频系统的音频信号,并且
其中,所述CPU被构造为生成立体声音频信号或单声道音频信号。
8.一种编码装置(20),该编码装置包括:
存储器件(21),其用于存储多声道音频信号;
混合器件(22),其用于混合声道之间的所述多声道音频信号,以生成缩混后的音频信号;
分离器件(60),其用于分离所述缩混后的音频信号,以生成基于变换块的音频信号;
窗处理器件(61),其用于将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积,所述乘积是第二窗函数;以及
变换器件(63),其用于变换所述乘后的音频信号,以生成编码后的音频信号。
9.根据权利要求8所述的编码装置,其中,所述混合装置包括:
乘法器件(50a、50c、50e),它们用于将第一声道的音频信号乘以与所述第一声道关联的第一混合比例(δ、β)和与第二声道关联的第二混合比例(α)的倒数的乘积,所述乘积是第三混合比例(δ/α、β/α);以及
加法器件(51a、51b),它们用于对包括所述第一声道和所述第二声道的多声道的所述音频信号进行相加,并且
其中,所述窗处理器件将所述基于变换块的音频信号乘以作为所述第二混合比例和所述第一窗函数的乘积的所述第二窗函数。
10.根据权利要求8所述的编码装置,其中,对所述第一窗函数进行标准化。
11.根据权利要求8所述的编码装置,其中,所述混合器件将所述多声道音频信号变换成声道个数比较少的音频信号。
12.一种编码装置(20),该编码装置包括:
存储器(310),其存储多声道音频信号;以及
CPU(300),
其中,所述CPU被构造为
混合声道之间的所述多声道音频信号,以生成缩混后的音频信号,
分离所述缩混后的音频信号,以生成基于变换块的音频信号,
将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积,所述乘积是第二窗函数,以及
变换所述乘后的音频信号,以生成编码后的音频信号。
13.根据权利要求12所述的编码装置,其中,所述CPU被构造为混合所述多声道音频信号,以生成较少声道个数的音频信号。
14.一种解码方法,该解码方法包括以下步骤:
变换包括多声道音频信号的编码后的音频信号,以生成时域中的基于变换块的音频信号的步骤(S100);
将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积的步骤(S110),所述乘积是第二窗函数;
叠加所述乘后的基于变换块的音频信号,以合成多声道音频信号的步骤(S120);以及
混合声道之间的所述合成后的多声道音频信号,以生成缩混后的音频信号的步骤(S130)。
15.一种编码方法,该编码方法包括以下步骤:
混合声道之间的多声道音频信号,以生成缩混后的音频信号的步骤(S200);
分离所述缩混后的音频信号,以生成基于变换块的音频信号的步骤(S210);
将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积的步骤(S220),所述乘积是第二窗函数;以及
变换所述乘后的音频信号,以生成编码后的音频信号的步骤(S230)。
16.一种解码程序,该解码程序使计算机执行以下步骤:
变换包括多声道音频信号的编码后的音频信号,以生成时域中的基于变换块的音频信号的步骤(S100);
将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积的步骤(S110),所述乘积是第二窗函数;
叠加所述乘后的基于变换块的音频信号,以合成多声道音频信号的步骤(S120);以及
混合声道之间的所述合成后的多声道音频信号,以生成缩混后的音频信号的步骤(S130)。
17.一种编码程序,该编码程序使计算机执行以下步骤:
混合声道之间的多声道音频信号,以生成缩混后的音频信号的步骤(S200);
分离所述缩混后的音频信号,以生成基于变换块的音频信号的步骤(S210);
将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积的步骤(S220),所述乘积是第二窗函数;以及
变换所述乘后的音频信号,以生成编码后的音频信号的步骤(S230)。
18.一种上面记录有解码程序的记录介质,该解码程序使计算机执行以下步骤:
变换包括多声道音频信号的编码后的音频信号,以生成时域中的基于变换块的音频信号的步骤(S100);
将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积的步骤(S110),所述乘积是第二窗函数;
叠加所述乘后的基于变换块的音频信号,以合成多声道音频信号的步骤(S120);以及
混合声道之间的所述合成后的多声道音频信号,以生成缩混后的音频信号的步骤(S130)。
19.一种上面记录有编码程序的记录介质,该编码程序使计算机执行以下步骤:
混合声道之间的多声道音频信号,以生成缩混后的音频信号的步骤(S200);
分离所述缩混后的音频信号,以生成基于变换块的音频信号的步骤(S210);
将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积的步骤(S220),所述乘积是第二窗函数;以及
变换所述乘后的音频信号,以生成编码后的音频信号的步骤(S230)。
20.一种编辑装置(100),该编辑装置包括:
存储器件(105),其用于存储包括多声道音频信号的编码后的音频信号;以及
编辑器件(73),其包括变换器件(40)、窗处理器件(41)、合成器件(43)和混合器件(14),
其中,根据用户对于缩混过程的请求,所述变换器件变换所述编码后的音频信号,以生成基于变换块的音频信号,所述窗处理器件将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积,所述乘积是第二窗函数,所述合成器件叠加所述相乘后的基于变换块的音频信号,以合成多声道音频信号,并且所述混合器件混合声道之间的所述合成后的多声道音频信号,以生成缩混后的音频信号。
21.一种编辑装置(100),该编辑装置包括:
存储器件(105),其用于存储多声道音频信号;以及
编辑器件(73),其包括混合器件(22)、分离器件(60)、窗处理器件(61)和变换器件(63),
其中,根据用户对于缩混过程的请求,所述混合器件混合声道之间的所述多声道音频信号,以生成缩混后的音频信号,所述分离器件分离所述缩混后的音频信号,以生成基于变换块的音频信号,所述窗处理器件将所述基于变换块的音频信号乘以所述音频信号的混合比例和第一窗函数的乘积,所述乘积是第二窗函数,并且所述变换器件变换所述乘后的音频信号,以生成编码后的音频信号。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2008/068258 WO2010038318A1 (en) | 2008-10-01 | 2008-10-01 | Decoding apparatus, decoding method, encoding apparatus, encoding method, and editing apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102227769A true CN102227769A (zh) | 2011-10-26 |
Family
ID=40561811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008801321731A Pending CN102227769A (zh) | 2008-10-01 | 2008-10-01 | 解码装置、解码方法、编码装置、编码方法和编辑装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9042558B2 (zh) |
EP (1) | EP2351024A1 (zh) |
JP (1) | JP5635502B2 (zh) |
KR (1) | KR20110110093A (zh) |
CN (1) | CN102227769A (zh) |
CA (1) | CA2757972C (zh) |
WO (1) | WO2010038318A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018121386A1 (zh) * | 2016-12-30 | 2018-07-05 | 华为技术有限公司 | 立体声编码方法及立体声编码器 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101078379B1 (ko) * | 2009-03-04 | 2011-10-31 | 주식회사 코아로직 | 오디오 데이터 처리 방법 및 장치 |
US20100331048A1 (en) * | 2009-06-25 | 2010-12-30 | Qualcomm Incorporated | M-s stereo reproduction at a device |
US8130790B2 (en) * | 2010-02-08 | 2012-03-06 | Apple Inc. | Digital communications system with variable-bandwidth traffic channels |
US8605564B2 (en) * | 2011-04-28 | 2013-12-10 | Mediatek Inc. | Audio mixing method and audio mixing apparatus capable of processing and/or mixing audio inputs individually |
JP6007474B2 (ja) * | 2011-10-07 | 2016-10-12 | ソニー株式会社 | 音声信号処理装置、音声信号処理方法、プログラムおよび記録媒体 |
KR101744361B1 (ko) * | 2012-01-04 | 2017-06-09 | 한국전자통신연구원 | 다채널 오디오 신호 편집 장치 및 방법 |
KR20150012146A (ko) * | 2012-07-24 | 2015-02-03 | 삼성전자주식회사 | 오디오 데이터를 처리하기 위한 방법 및 장치 |
KR101475894B1 (ko) * | 2013-06-21 | 2014-12-23 | 서울대학교산학협력단 | 장애 음성 개선 방법 및 장치 |
EP3422738A1 (en) * | 2017-06-29 | 2019-01-02 | Nxp B.V. | Audio processor for vehicle comprising two modes of operation depending on rear seat occupation |
TWI792006B (zh) * | 2019-06-14 | 2023-02-11 | 弗勞恩霍夫爾協會 | 音訊合成器、訊號產生方法及儲存單元 |
CN113223539B (zh) * | 2020-01-20 | 2023-05-26 | 维沃移动通信有限公司 | 一种音频传输方法及电子设备 |
CN115917644A (zh) * | 2020-06-24 | 2023-04-04 | 日本电信电话株式会社 | 声音信号编码方法、声音信号编码装置、程序以及记录介质 |
CN113035210A (zh) * | 2021-03-01 | 2021-06-25 | 北京百瑞互联技术有限公司 | 一种lc3音频混合方法、装置及存储介质 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3093178B2 (ja) | 1989-01-27 | 2000-10-03 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | 高品質オーディオ用低ビットレート変換エンコーダ及びデコーダ |
JP3136785B2 (ja) * | 1992-07-29 | 2001-02-19 | カシオ計算機株式会社 | データ圧縮装置 |
JPH06165079A (ja) | 1992-11-25 | 1994-06-10 | Matsushita Electric Ind Co Ltd | マルチチャンネルステレオ用ダウンミキシング装置 |
JP3761639B2 (ja) * | 1995-09-29 | 2006-03-29 | ユナイテッド・モジュール・コーポレーション | オーディオ復号装置 |
US5867819A (en) * | 1995-09-29 | 1999-02-02 | Nippon Steel Corporation | Audio decoder |
US6128597A (en) * | 1996-05-03 | 2000-10-03 | Lsi Logic Corporation | Audio decoder with a reconfigurable downmixing/windowing pipeline and method therefor |
US5946352A (en) * | 1997-05-02 | 1999-08-31 | Texas Instruments Incorporated | Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain |
US6141645A (en) * | 1998-05-29 | 2000-10-31 | Acer Laboratories Inc. | Method and device for down mixing compressed audio bit stream having multiple audio channels |
US6122619A (en) | 1998-06-17 | 2000-09-19 | Lsi Logic Corporation | Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor |
JP2000276196A (ja) | 1999-03-29 | 2000-10-06 | Victor Co Of Japan Ltd | オーディオ符号化ストリーム復号化方法 |
JP3598993B2 (ja) * | 2001-05-18 | 2004-12-08 | ソニー株式会社 | 符号化装置及び方法 |
KR100522593B1 (ko) | 2002-07-08 | 2005-10-19 | 삼성전자주식회사 | 다채널 입체음향 사운드 생성방법 및 장치 |
JP2004109362A (ja) | 2002-09-17 | 2004-04-08 | Pioneer Electronic Corp | フレーム構造のノイズ除去装置、フレーム構造のノイズ除去方法およびフレーム構造のノイズ除去プログラム |
JP2004361731A (ja) | 2003-06-05 | 2004-12-24 | Nec Corp | オーディオ復号装置及びオーディオ復号方法 |
US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
RU2323551C1 (ru) | 2004-03-04 | 2008-04-27 | Эйджир Системс Инк. | Частотно-ориентированное кодирование каналов в параметрических системах многоканального кодирования |
US7391870B2 (en) | 2004-07-09 | 2008-06-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V | Apparatus and method for generating a multi-channel output signal |
JP4892184B2 (ja) * | 2004-10-14 | 2012-03-07 | パナソニック株式会社 | 音響信号符号化装置及び音響信号復号装置 |
WO2007043844A1 (en) * | 2005-10-13 | 2007-04-19 | Lg Electronics Inc. | Method and apparatus for processing a signal |
DE602007004451D1 (de) | 2006-02-21 | 2010-03-11 | Koninkl Philips Electronics Nv | Audiokodierung und audiodekodierung |
JP4725458B2 (ja) | 2006-08-22 | 2011-07-13 | ソニー株式会社 | 編集装置,映像記録再生装置の制御方法及び編集システム |
JP2008236384A (ja) | 2007-03-20 | 2008-10-02 | Matsushita Electric Ind Co Ltd | 音声ミキシング装置 |
-
2008
- 2008-10-01 JP JP2011514573A patent/JP5635502B2/ja active Active
- 2008-10-01 CN CN2008801321731A patent/CN102227769A/zh active Pending
- 2008-10-01 EP EP08876189A patent/EP2351024A1/en not_active Withdrawn
- 2008-10-01 CA CA2757972A patent/CA2757972C/en active Active
- 2008-10-01 US US13/122,143 patent/US9042558B2/en active Active
- 2008-10-01 KR KR1020117010018A patent/KR20110110093A/ko not_active Withdrawn
- 2008-10-01 WO PCT/JP2008/068258 patent/WO2010038318A1/en active Application Filing
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018121386A1 (zh) * | 2016-12-30 | 2018-07-05 | 华为技术有限公司 | 立体声编码方法及立体声编码器 |
CN108269577A (zh) * | 2016-12-30 | 2018-07-10 | 华为技术有限公司 | 立体声编码方法及立体声编码器 |
CN108269577B (zh) * | 2016-12-30 | 2019-10-22 | 华为技术有限公司 | 立体声编码方法及立体声编码器 |
US10714102B2 (en) | 2016-12-30 | 2020-07-14 | Huawei Technologies Co., Ltd. | Stereo encoding method and stereo encoder |
US11043225B2 (en) | 2016-12-30 | 2021-06-22 | Huawei Technologies Co., Ltd. | Stereo encoding method and stereo encoder |
US11527253B2 (en) | 2016-12-30 | 2022-12-13 | Huawei Technologies Co., Ltd. | Stereo encoding method and stereo encoder |
US11790924B2 (en) | 2016-12-30 | 2023-10-17 | Huawei Technologies Co., Ltd. | Stereo encoding method and stereo encoder |
US12087312B2 (en) | 2016-12-30 | 2024-09-10 | Huawei Technologies Co., Ltd. | Stereo encoding method and stereo encoder |
Also Published As
Publication number | Publication date |
---|---|
CA2757972C (en) | 2018-03-13 |
KR20110110093A (ko) | 2011-10-06 |
JP2012504775A (ja) | 2012-02-23 |
WO2010038318A1 (en) | 2010-04-08 |
CA2757972A1 (en) | 2010-04-08 |
US20110182433A1 (en) | 2011-07-28 |
US9042558B2 (en) | 2015-05-26 |
JP5635502B2 (ja) | 2014-12-03 |
EP2351024A1 (en) | 2011-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102227769A (zh) | 解码装置、解码方法、编码装置、编码方法和编辑装置 | |
JP5394931B2 (ja) | オブジェクトベースオーディオ信号の復号化方法及びその装置 | |
JP5291096B2 (ja) | オーディオ信号処理方法及び装置 | |
CN1947172B (zh) | 方法、装置、编码器设备、解码器设备以及音频系统 | |
CN102595303A (zh) | 代码转换设备和方法以及用于解码多对象音频信号的方法 | |
CN102768836A (zh) | 用于编码和解码具有各种声道的多对象音频信号的设备和方法 | |
JP2001518267A (ja) | オーディオチャンネルミキシング | |
CN101490744B (zh) | 用于编码和解码基于对象的音频信号的方法和装置 | |
US20070183507A1 (en) | Decoding scheme for variable block length signals | |
US6782365B1 (en) | Graphic interface system and product for editing encoded audio data | |
Marchand et al. | DReaM: a novel system for joint source separation and multi-track coding | |
CN111445914A (zh) | 可拆解和再编辑音频信号的处理方法及装置 | |
JP2001100792A (ja) | 符号化方法、符号化装置およびそれを備える通信システム | |
US6477496B1 (en) | Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one | |
Marchand et al. | Informed Source Separation for Stereo Unmixing--An Open Source Implementation | |
JP2001306097A (ja) | 音声符号化方式及び装置、音声復号化方式及び装置、並びに記録媒体 | |
Marchand | Spatial manipulation of musical sound: Informed source separation and respatialization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20111026 |