CN103999154A - 用于音频编码的装置和方法 - Google Patents
用于音频编码的装置和方法 Download PDFInfo
- Publication number
- CN103999154A CN103999154A CN201280061303.3A CN201280061303A CN103999154A CN 103999154 A CN103999154 A CN 103999154A CN 201280061303 A CN201280061303 A CN 201280061303A CN 103999154 A CN103999154 A CN 103999154A
- Authority
- CN
- China
- Prior art keywords
- bandwidth
- audio signal
- energy
- encoding
- subband
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000005236 sound signal Effects 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 10
- 230000000737 periodic effect Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 description 60
- 238000004891 communication Methods 0.000 description 22
- 238000010183 spectrum analysis Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000005070 sampling Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000009499 grossing Methods 0.000 description 5
- 238000005192 partition Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000004836 empirical method Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
提供用于编码音频信号的方法(600)以及装置(100)。接收(605)比特率值(141)。基于比特率值选择(810)多个阈值集合中的能量阈值(371)集合。每个能量阈值集合的能量阈值与接收到的音频信号(615)的子带集合以一对一为基础对应。确定(620)子带集合的每个子带的能量。确定(625)具有超过对应阈值的能量的最高频率子带。编码(630)音频信号的所选带宽。音频信号的所选带宽只包含在具有超过对应阈值的能量的最高频率子带中的音频信号的那些频率,以及在高通截止频率之上的音频信号的较低频率。
Description
技术领域
本发明总体涉及音频编码以及解码。
背景技术
在过去的20年中微处理器速度呈若干个数量级的增长并且数字信号处理器(DSP)变得无所不在。由模拟通信转变为数字通信是可行的并且是有吸引力的。数字通信提供了能够更有效地利用带宽并且允许使用误差校正技术的主要优势。因此通过使用数字技术,人们能够通过给定的分配的谱空间发送更多信息并且更可靠地发送信息。数字通信能够使用无线电链路(无线)或物理网络介质(例如,光纤、铜网络)。
例如,数字通信能够被使用在诸如语音、音频、图像、视频或遥感的不同类型的通信中。数字通信系统包含发送设备以及接收设备。在能够进行双向通信的系统中,每个设备都具有发送和接收电路二者。在数字发送或接收设备中有多级处理,通过该多级处理信号和合成数据在信号在输入端(例如,麦克风、相机、传感器)被接收的级与信号的数字化版本用于调制载波并被发射的级之间被传递。在(1)信号在输入端被接收并且之后被数字化之后,(2)可以应用一些初始噪声滤波,随后(3)信源编码和(4)最终信道编码。在接收端设备中,该过程按照相反的顺序进行;信道解码,信源恢复,之后变换为模拟。在后续页中将会描述的本发明能够被认为主要落入到信源编码级。
信源编码的主要目标是降低比特率,同时尽量保持感知质量。对于不同类型的媒体已经发展出不同的标准。
附图说明
被认为是新颖的本发明的特点在所附权利要求中特别说明。然而,本发明本身,作为组织以及操作方法二者,与其目标以及优势一起,可以通过参考下述详细说明书被最好的理解,该说明书描述了包含本发明的概念的某些示例性实施例。说明书意欲结合附图被理解,在附图中:
图1是根据某些实施例的通信设备的框图。
图2是根据某些实施例的通信设备的音频编码功能的框图。
图3是根据某些实施例的音频编码功能的子带谱分析功能的框图。
图4示出根据某些实施例的在通信设备中的一些示例性信号的时序图。
图5示出根据某些实施例的来自图4的时序图的扩大部分。
图6-9是示出根据各种实施例的音频编码功能的操作的流程图。
技术人员将会理解图中的元素是为简单清晰起见而图示的并且不必按比例画出。例如,图中的一些元素的尺寸相对于其他元素可以被夸大以帮助提高本发明的实施例的理解。
具体实施方式
尽管本发明容许许多不同形式的实施例,但是在附图中示出并且将会在本文被详细描述特定的实施例,需要理解本公开被认为是本发明的原理的示例并且不意欲将本发明限制为所示以及所描述的特定的实施例。在下面的说明书中,相同的附图标记用于描述在附图的若干个视图中的相同、相似或相对应的部分。
在本文献中,诸如第一和第二,顶端和底端等关系术语可以仅用来区分一个实体或动作与另一个实体或动作,而不必要求或暗示这些实体或动作间的任何实际的这样的关系或顺序。术语“包括(comprises)”、“包括(comprising)”或任何其其他变化,意欲涵盖非排他的包含,以便包括元素列表的过程、方法、物品或装置不只包含那些元素而且可以包含没有显式列出或在这些过程、方法、物品或装置中固有的其他元素。继之以“包括…一(comprises…a)”的元素,在没有更多限制的情况下,排除在包括该元素的过程、方法、物品或装置中的额外相同元素的出现。
贯穿本文献对“一个实施例”“某些实施例”“实施例”或类似的术语的引用意味着结合实施例描述的特定的特点、结构或特性被包含在本发明的至少一个实施例中。因此,贯穿本说明书这样的短语或在各种地方的出现不必指向相同的实施例。此外,特定的特点、结构或特性可以在一个或多个实施例中以任何合适的方式没有限制的结合。
本文使用的术语“或”将会被理解为包含的或意味任何一个或任何组合。因而,“A,B或C”意味着“以下任意一个:A;B;C;A和B;A和C;B和C;A,B和C”。该定义的例外只有当元素、功能、步骤或行为以一些固有的互相排斥的方式组合时发生。
本文所述的实施例涉及编码信号。信号能够是变换为数字信息并且通过有线或无线通信的语音或诸如音乐的其他音频。
现在转向附图,其中相同的附图标记指示相同的部件,图1是根据某些实施例的无线电子通信设备100的框图。无线电子通信设备100代表许多种类的无线通信设备,诸如移动蜂窝电话、移动个人通信设备、蜂窝基站以及装配有无线通信功能的个人计算机。根据一些实施例,无线电子通信设备100包括无线电系统199、人机接口系统120以及射频(RF)天线108。
人机接口系统120是包括下述的系统:处理系统和支持该处理系统的电子部件,诸如外部I/O电路以及功率控制电路,还有与用户对接的电子部件,诸如麦克风102、显示/触摸键盘104以及扬声器106。处理系统包括中央处理单元(CPU)以及存储器。CPU处理存储在存储器中的主要涉及在移动通信设备100的人机接口方面的软件指令,诸如在显示/键盘104上呈现信息(列表、菜单、图形等)并且检测在显示/键盘104的触摸表面上人的录入。这些功能被示出为人机接口应用(HIA)130的集合。HIA130还可以通过模拟/数字(A/D)转换器125从麦克风102接收语音音频,之后执行该语音的语音识别并且响应于语音做出的命令。HIA130还可以通过数字到模拟转换器(D/A)135发送诸如铃声的音给扬声器106。人机接口系统120可以包括图1中未示出的其他人机接口设备,诸如触觉设备以及相机。
无线电系统199是包括下述的系统:处理系统以及支持该处理系统的电子部件,诸如外部I/O电路以及功率控制电路,还有对接到天线的电子部件,诸如RF放大器。处理系统包括中央处理单元(CPU)以及存储器。CPU处理存储在存储器中的主要涉及在移动通信设备100的无线电接口方面的软件指令,诸如发射被编码为数据分组的数字化信号(示出为发射机系统170)并且接收解码为数字化信号的数据分组(示出为接收机系统140)。但是对于天线108以及接收机系统140和发射机系统170的某些射频接口部分(未在图1中显式示出),无线电子通信设备100还将代表许多诸如电缆节点的有线通信设备。下面的一些实施例是个人通信设备。
接收机系统140耦接到天线108。天线108截获可以包含具有数字编码信号的信道的射频(RF)信号。截获的信号耦接到接收机系统140,该接收机系统140解码该信号并且在这些实施例中将恢复的数字信号耦接到人机接口系统120,该人机接口系统120将该信号转换为模拟信号以驱动扬声器。在其他实施例中,恢复的数字信号可以被用于在人机接口系统120的显示器上呈现图像或视频。发射机系统170从人机接口系统120接受数字化信号126,例如可以是数字化语音信号、数字化音乐信号、数字化图像信号或数字化视频信号,其可以从接收机系统140被耦接、存储在无线电子通信设备100中,或者来源于耦接到电子通信设备100的电子设备(未示出)。数字化信号是已经以周期数字化采样率被采样的信号。数字化采样率例如可以是8KHz、16KHz、32KHz、48KHz或其他不必是8KHz倍数的采样率。应当理解的是被采样的信号的带宽可以比采样率的1/2小。例如,在一些实施例中,具有12KHz带宽的信号可以在48KHz的采样率被采样。发射机系统170分析数字化信号126并将其编码为由天线108在RF信道上发射的数字分组。
发射机系统170包括音频编译功能181,其周期的分析数字化信号的采样并将它们编码为带宽有效码字182。码字182以通过数字化信号126的频率分析以及在来自网络设备的消息中接收并从接收机系统140耦接到音频编译功能181的比特率值141所确定的比特率来生成。在一些实施例中,从网络接收的比特率值141可以定义传输到网络设备100不可以超过的允许的比特率,其通常由网络运营商或网络设备基于当前网络业务负载来确定。在一些实施例中,比特率值可以定义允许的比特率,作为平均值设备100必须满足该允许的比特率但是具有在一些容限(例如,不超过平均值的10%以上)内的瞬时值。此类型的比特率值的示例可以是根据付费结构限制由设备100使用的传输比特率。在一些实施例中,比特率值141可以从人机接口系统120而非接收机系统140被耦接。分组生成器187使用码字182以形成耦接到RF发射机190用于放大的分组,之后通过天线108辐射出去。
参考图2,根据某些实施例,示出音频编译功能181的框图。音频编译功能181包括转换器205、子带谱分析功能210,阈值逻辑功能215以及音频编码功能220。在一些实施例中可以不使用转换器205。转换器205将数字化信号126转换为不管数字化信号126的采样率而以为常数的周期率提供值的被转换的信号206。例如,具有诸如8KHz、12KHz以及16KHz的不同采样率的数字化信号126都可以被转换为48KHz周期律的转换的信号206。可以由诸如使用一个或许多内插技术的标准技术来执行转换。在一些实施例中,数字化信号126的采样率可以不变,从而使得转换器205不是必需的。在这些实施例中,数字化信号126可以直接耦接到子带谱分析功能210以及音频编码功能220。在一些实施例中,数字化信号126可以直接耦接到子带谱分析功能210以及音频编码功能220,并且转换功能可以在子带谱分析功能210和音频编码功能220之中的一个或两者中执行。子带谱分析功能210分析在子带的有序集合的每一个中的能量并且耦接子带能量结果211到阈值逻辑功能215,其基于子带能量结果211以及比特率值141确定多个协议中的一个,每个具有码字182被编码的特定带宽。确定的协议216(也被标识为所选的带宽或所选的协议)耦接到音频编码功能220,并且取决于子带能量结果211和耦接到子带谱分析功能210的比特率值141而随时间变化。音频编码功能220使用所选的带宽216以执行数字化126音频信号的编码并生成码字182,从而最小化编码资源并减少传送音频信号所需的平均带宽。应当理解的是,多个协议的低频截止值(高通频率)在数值上足够的接近,使得上截止频率的量级与协议的带宽的量级相同,即,较高的带宽关联较高的上截止频率。
参考图3-5,根据某些实施例,图3示出子带谱分析功能210的框图,图4和图5示出一些示例性信号的时序图。子带谱分析功能210包括子帧快速傅里叶变换(FFT)功能305,能量分析功能308,N个带分割功能310-326的集合,N个对应平滑滤波器330-345的集合以及N个对应具有迟滞阈值功能350-365的集合。数字化信号126或被转换的信号206耦接到子帧FFT功能305,其以对应于数字化信号126或被转换的信号206的速率的帧速率的某个倍数,例如4,来执行快速傅里叶变换。例如,数字化信号126或被转换的信号206的160值可以被包含在每个帧或子帧中。常规技术(例如,锥形重叠等)可以被用于帧或子帧加窗并且用于执行FFT。由每帧或子帧的FFT生成的值的集合耦接到能量分析功能308,其以常规方式(例如,使用FFT值的绝对值的平方)将FFT值的每个集合转换为相对应的能量谱分布值的集合。对于一系列帧或子帧的能量谱分布,如FFT值的集合,是以周期的帧或子帧速率生成的基于频率的分布。在一个示例中,用于标识带分割310-325、平滑滤波器330-345以及阈值350-365的数量值N为4。在图4中,数字化音频信号126或转换的信号206的示例被示出为音频绘图405。这里,由于数字化值(例如,数字化电压采样)在绘图中相对紧密的,因此音频绘图405好像是连续的。在音频绘图405下面是代表音频谱的绘图410。每个垂直线包括许多代表对于频率在0和24KHz之间的一帧的能量密度的灰度等级值(像素或点)。带有非零能量值的峰值频率由绘图411近似。对于绘图410大约半个区域的每帧的最大能量密度较好的在峰值之下。其一个示例是绘图410的区域413,其在图5的扩大图中示出。诸如绘图410的区域412的其他区域具有更均匀分布的能量。
能量分析被耦接到带分割功能310-325,其确定在每个子带中能量的总量。对于本文被使用的示例,子带范围对于带分割#1310是0-7KHz,对于带分割#2315是7-8KHz,对于带分割#3320是8-16KHz,以及对于带分割#4(图3未示出)是16-20KHz。带分割#1到#4的示例性频率范围被标识为图4中的频率子带415-418。应当理解的是对于由该示例代表的实施例,该子带的集合是没有重叠的覆盖0到24KHz全部频率范围子带的集合。在其他实施例中,子带集合可能不填充0到24KHz全部带宽;在子带之间可以存在间隙。在一些实施例中,子带可以重叠。带分割功能310-325的输出耦接到平滑滤波器330-345,其移除将会导致在具有迟滞阈值功能350-365的输出的变化过于迅速的高频影响。平滑滤波器330-345的输出耦接到具有迟滞阈值功能350-365。每个具有迟滞阈值功能350-365还耦接到来自偏置表370的阈值信号371。阈值信号包含由比特率值141确定的用于每个具有迟滞阈值功能350-365的迟滞值和偏置。比特率值141是M个值中的一个值,M个值中的每个用于设置N个具有迟滞阈值功能350-365的等级,这被用作选择用于编码信号126、206的N个协议中一个的一个因素。在某些实施例中,每个协议编码信号126、206的不同带宽。在本文使用的示例中,M为3并且这3个值被标识为低、中以及高值。对于每个具有迟滞阈值功能350-365,比特率值141选择M个阈值中的一个。因此,每个可能的M比特率值选择对应于子带的N个阈值的集合。每个具有迟滞阈值功能350-365生成作为信号211一部分的输出值。当输入超过阈值超过第一迟滞值的持续时间时输出值在第一状态(真),当输入小于阈值超过第二迟滞值的持续时间时输出值在第二状态(假)。迟滞值对于所有的子带可以是相同的并且可以是固定的。在一些实施例中,对于具有迟滞阈值功能350-365的第一和第二迟滞值可以是2N个不同的值,在一些实施例中,第一和第二N个迟滞值可以由比特率值141从M个值的集合中选择。根据本文所述的示例,第一迟滞值是0并且第二迟滞值在具有迟滞阈值功能350-365之间没有不同,并且没有响应于比特率值141而改变。(然而,阈值没有响应于比特率值141而改变。)
返回参考图2,来自子带谱分析功能210的输出信号211耦接到阈值逻辑功能215。阈值逻辑功能215分析信号211并基于处于第一状态的、指示N个子带最高频率的输出信号211的值选择编码协议。出于信号检测的目的,在该频率以下的子带也被假定为在第一状态。所选的编码协议编码信号126、206的带宽,其包括音频信号(数字化信号126或转换的信号206)的直至具有超过对应阈值能量的最高频率子带的那些频率,以及在为音频编码功能220所选的编码协议的高通截止频率之上的音频信号的较低频率分量。在一些实施例中,所有在高通截止频率之上的音频信号的低频分量被包含在所选编码协议的带宽中。在一些实施例中,在子带谱分析210和/或音频编码220之前对输入信号126应用高通或带通滤波可以是必要的或期望的,但是这不会显著地影响处理步骤或处理逻辑。在本文所述的示例中,所选的编码协议是具有7KHz带宽、8KHz带宽、12KHz带宽以及20KHz带宽中的名义上一个的所选带宽的协议,但是这可以实际分别对应于在10Hz到500Hz之间开始并向上扩展到7KHz的带宽,在10Hz到500Hz之间开始并向上扩展到8KHz的带宽,在10Hz到500Hz之间开始并向上扩展到12KHz的带宽,或者在10Hz到500Hz之间开始并向上扩展到20KHz的带宽。其他标识所选编码协议的方法可以显而易见地使用,其仅仅两个示例是编码比特率,或索引的协议值(例如1到4)。
参考表1,根据某些实施例示出了阈值的集合。该集合是可以被用于在本文上面已被描述的示例中的集合,并且可以包含在偏置表370(图3)中。例如,阈值的最大值为100,并且信号126、206的总能量具有为100的值。
表1
应当理解的是,当能量密度均匀时,从最低子带到最高子带每个子带的总能量将会分别是35、5、20以及40。当比特率值141是低并且能量密度均匀时,因为超过的唯一阈值是对于0-7KHz的阈值,所以具有迟滞阈值功能350-365的相应的输出从最低到最高将会是真、假、假以及假。由于对其而言阈值是真的最高子带是0-7KHz子带,所以所选的带宽为7KHz。当能量密度均匀并且比特率是高时,具有迟滞阈值功能350-365的相应的输出从最低到最高将会是真、真、假以及真。由于对其而言阈值是真的最高子带是12-20KHz子带,所以阈值逻辑功能215选择提供20KHz带宽的协议。在图4中的绘图405、410以下示出了三个绘图420、425和430。对于与表1相似的阈值的集合来说,当输入信号126、206是如图5的绘图405所示出的信号时,对于比特率值141的三个值(低、中、高),这些绘图示出阈值逻辑功能215的输出216对比时间。当比特率值为低时生成绘图420,当比特率值为中时生成绘图425,当比特率值为高时生成绘图430。能够看出绘图420与绘图425、430相比在时间上较高比例的具有最低带宽值(7KHz),并且绘图430与绘图420、425相比在时间上较高比例的具有最高带宽值。这个区别能够通过适当地修改阈值很容易的被放大或减少。第二迟滞值的影响在绘图的区域460中是明显的,其示出从最高带宽到较低带宽的缓慢变化,而第一迟滞值的零值导致从最低到最高带宽的快速变化,其在绘图的区域450中是明显的。由在具有在小于大约10帧(能量密度线)的数值变化之间的期间内的输出216(在由420-430图示的示例中)的发生率很小这一事实可见,平滑滤波器330-345执行滤波的好处是明显的。
在某些实施例中,如果存在将会通过使用任一可选带宽而超过的最大允许发射数据率,那么之后发射机系统170可以包含逻辑以阻止具有这样带宽的协议被使用,通过将带宽的选择限制在总是保持发射的数据率低于最大允许发射数据率的较低带宽协议。基于在由接收机系统140接收的协议消息中接收的指示,这个额外的限制可以被并入阈值逻辑功能215。例如,该指示可以用以选择若干个不同值表中的一个,其中的一些具有被选择以排除高带宽的使用的阈值,或者如果所选带宽将会导致过大的发射数据率,则该指示可以是将所选带宽更改为较低带宽的逻辑。
应当理解的是,通过具有定义通过挑选比特率值所选的阈值(以及在一些实施例中对应的迟滞值)集合的灵活性,根据信道状态平均发射比特率能够被降低,同时与在使用常规技术的系统中强加比特率限制时相比更适合保持音频质量。在一些实施例中,应当理解的是,在输入信号的带宽随时间变化时,将编码协议的音频带宽与输入信号的带宽尽可能近的匹配是期望的。也就是说,凭经验确定阈值以便在输入信号期间连续选择的编码协议的音频带宽追踪输入信号的变化的带宽。使用的输入信号是一个或更多个那些典型的期望被编码的音频序列。这样的配置对于达到中等信道比特率(所谓的中比特率设置)是合适的。例如,在一些实施例中,当可以用于编码协议的信道比特率是受限的并且当输入信号带宽降低时产生更好的声音合成的音频时,子带谱分析功能210可以被偏置以便有利于较低音频带宽编码协议;所谓的低比特率设置。在一些实施例中,当较高信道比特率可以用于编码协议时,子带谱分析功能210可以被偏置以便有利于较高音频带宽编码协议;所谓的高比特率设置。在一些实施例中,在音频信号期间比特率值的改变更改了从可用的集合中的阈值集合的选择,只要实际上在使用的编码协议的限制内,这提供了平均信道比特率的更快的改变。这允许正在使用共享带宽的若干设备的组合带宽的更好的控制。
“有利于”较低音频带宽编码协议意味着阈值凭经验被设置以便默认输出将会使用低音频带宽编码协议被编码,仅仅对于有限的时间段切换到较高带宽编码协议,其具有与低音频带宽编码协议的信道比特率相似(例如,在一些实施例中在10%以内;在其他实施例中相似度容限可以高达50%)的信道比特率。当在较高子带的能量足够大以至于编码较高音频带宽的感知的优势胜过由减少分配给较低音频带宽中的音频信号的编码比特的数量引起的劣化时,将会发生该切换。低音频带宽编码协议编码包含最低音频子带并且可以包含上至并包含特定较高音频子带(但不是最高子带)的(一个或多个)较高子带的带宽。低音频带宽基于期望被编码类型的输入信号来确定,并且可以基于理论方法(例如,精度)、经验法(例如,专家聆听或平均意见得分(MOS)测试)来确定,或者可以是在特定时间系统中可用的最低编码协议带宽。“有利于”较高音频带宽意味着阈值凭经验被设置以便输出将会使用高音频带宽编码协议被编码,仅仅对于下述时间段切换到较低带宽编码协议,在该时间段中,高频能量,例如对应于输入信号中的顶子带的能量,对于一般的聆听者是察觉不到的。高音频带宽编码协议编码包含最高音频子带并且可以包含下至并包含特定较低音频子带的(一个或多个)较低子带的带宽。高音频带宽基于期望被编码类型的输入信号来确定,并且可以基于理论方法(例如,精度)、经验法(例如,专家聆听或平均意见得分(MOS)测试)来确定,或者可以是在特定时间系统中可用的最高编码协议带宽。对于上述中、低以及高比特率,凭经验确定的阈值设置可以以诸如表1(但是具有凭经验确定的值)所示的对应表的形式,被用在单个实施例中。对于在单个实施例中的中、低以及高比特率,还可以凭经验确定第一和第二迟滞值。对于在中、低以及高比特率的每个中的过渡,第一和第二迟滞值可以相同。
参考图6,根据某些实施例,示出编码音频信号的方法600的一些步骤。可以在诸如蜂窝电话或网络平板的个人通信设备,或遥感设备,或固定网络设备中执行编码。不必按照示出的顺序执行步骤。在步骤605接收比特率值。该比特率值是M个比特率值集合中的一个。该比特率值可以具有标识。当M为3时这样的标识的非限制性示例为:低、中以及高,或索引值(第一、第二等)。在步骤610基于比特率值选择能量阈值的集合。能量阈值的集合是多个,N个,能量阈值集合中的一个。能量阈值的每个集合的能量阈值与音频信号的子带的集合以一对一为基础对应。(因此,也有N个音频信号的子带)。在步骤615,接收音频信号。在步骤620,确定N个子带的集合的每个子带的能量。在步骤625,确定具有超过对应阈值的能量的最高频率子带。在步骤630,编码音频信号的所选带宽。所选带宽只包含在具有超过对应阈值能量的最高频率子带中的音频信号的那些频率,以及基本上音频信号的所有较低频率。应当理解的是,步骤605-610能够相对于步骤615-620在之前、之后或近似同时执行。本文所述的步骤以及参考图2所述的功能模块之间的关系是步骤615和620可以通过子带谱分析功能210执行;步骤605、610以及625可以通过阈值逻辑功能215执行,并且步骤630可以通过音频编码功能220执行。
参考图7-9,根据某些实施例,示出编码音频信号的方法600的一些步骤。在步骤705(图7),所选带宽被限制为不会导致超过最大允许发射数据率的发射数据率的带宽。在步骤805(图8),基于比特率值选择迟滞值集合。该值对应于音频信号的子带。迟滞值包含用于从较低所选带宽改变为较高所选带宽的迟滞延迟以及用于从较高所选带宽改变为较低所选带宽的迟滞延迟中的至少一个。在步骤905(图9),以相应的周期为基础,一个或多个事件响应于用于执行至少确定能量620、确定最高频率子带625以及编码630的步骤。事件可以是中断或其他事件的计数。在一些实施例中,它们可以使用共同周期被执行。在某些实施例中,周期基础可以不都相同。例如,可以以比确定最高频率子带625更高的速率执行确定能量620的步骤。对于一些带宽决策,这就将具有增加延时的效果。另外,在步骤615接收音频信号典型地以比由子带谱分析功能210执行的用于确定每个子带的能量的周期基础(例如,音频帧率)更大的周期基础(例如,数字化音频采样率)执行。
在本文献中图示的处理,例如(但不限于),图6-9中描述的方法步骤可以使用包含在可以由CPU的处理器读取的计算机可读媒介上的已编程的指令来执行。计算机可读媒介可以是能够存储要由微处理器执行的指令的任何有形介质。该介质可以是CD盘、DVD盘、磁或光盘、磁带以及基于硅的可移除或不可移除存储器中的一个或包含上述中的一个或多个。编程指令还可以以分组化或非分组化有线或无线传输信号的形式被承载。
在上文说明书中,已经描述了本发明的特定实施例。然而,本领域的普通技术人员应当理解的是,在不偏离如下面权利要求书中阐释的本发明的范围的情况下,能够做出各种修改和变化。作为示例,在一些实施例中,一些方法步骤可以按照与所述顺序不同的顺序执行,在功能块中描述的功能可以被不同地安排(例如,偏置表370以及具有迟滞阈值块350-365可以是阈值逻辑功能215的而不是子带谱分析功能210的一部分)。作为另一个示例,对于本领域的那些技术人员公知的任何特定的组织和存取技术可以被用于诸如偏置表370的表中。相应地,说明书和图片被视为图示性的而非限制性的意义,并且所有这样的修改都意欲包含在本发明的范围内。可以引起任何益处、优势或问题的解决方案的发生或变为更加明显的益处、优势、问题的解决方法以及任何(一个或多个)元素不应被解释为任何一个或所有权利要求的重要的、必须的或基本特征或元素。本发明仅通过所附的权利要求,包含在本申请未定时做出的任何修改以及如所发布的那些权利要求的所有等价物,来定义。
Claims (10)
1.一种用于编码音频信号的方法,包括:
接收比特率值;
基于所述比特率值选择能量阈值的集合,其中,所述能量阈值的集合是多个能量阈值集合中的一个,并且其中,能量阈值的每个集合的能量阈值与所述音频信号的子带集合以一对一为基础对应;
接收所述音频信号;
确定所述子带集合的每个子带的能量;
确定具有超过对应阈值的能量的最高频率子带;
确定所述音频信号的所选带宽,所述所选带宽只包含在具有超过所述对应阈值的能量的所述最高频率子带中的所述音频信号的那些频率,以及在高通截止频率之上的所述音频信号的所有较低频率;以及
编码所述所选带宽。
2.根据权利要求1所述的方法,进一步包括:将所述所选带宽限制为不会导致超过最大允许发射数据率的发射数据率的带宽。
3.根据权利要求1所述的方法,进一步包括:基于所述比特率值选择迟滞值集合,所述迟滞值对应于所述音频信号的所述子带集合,其中,所述迟滞值包含用于从较低所选带宽改变为较高所选带宽的迟滞延迟以及用于从较高所选带宽改变为较低所选带宽的迟滞延迟中的至少一个。
4.根据权利要求1所述的方法,进一步包括:在所述音频信号的所述编码期间,以相应的周期为基础执行确定所述能量,确定所述最高频率子带以及编码的步骤。
5.根据权利要求1所述的方法,其中,能量阈值的两个或更多集合的所述阈值是使得存在两个或更多下述条件:有利于较低音频带宽编码协议,所选的所述编码协议的音频带宽追踪输入信号的变化的带宽,并且有利于较高音频带宽编码协议。
6.根据权利要求1所述的方法,其中,在所述音频信号期间所述比特率值的改变更改了从多个集合中所述阈值集合的选择。
7.一种用于编码音频信号的装置,包括:
接收机,用于接收比特率值;以及
处理系统,用于
基于所述比特率值选择能量阈值的集合,其中,所述能量阈值的集合是多个能量阈值集合中的一个,并且其中,能量阈值的每个集合的能量阈值与所述音频信号的子带集合以一对一为基础对应;
接收所述音频信号;
确定所述子带集合的每个子带的能量;
确定具有超过对应阈值的能量的最高频率子带,以及
确定所述音频信号的所选带宽,所述所选带宽只包含在具有超过所述对应阈值的能量的所述最高频率子带中的所述音频信号的那些频率,以及在高通截止频率之上的所述音频信号的所有较低频率;以及
编码所述所选带宽。
8.根据权利要求7所述的装置,进一步包括:将所述所选带宽限制为不会导致超过最大允许发射数据率的发射数据率的带宽。
9.根据权利要求7所述的装置,进一步包括:基于所述比特率值选择迟滞值集合,所述迟滞值对应于所述音频信号的所述子带集合,其中,所述迟滞值包含用于从较低所选带宽改变为较高所选带宽的迟滞延迟以及用于从较高所选带宽改变为较低所选带宽的迟滞延迟中的至少一个。
10.根据权利要求7所述的装置,进一步包括:在所述音频信号的所述编码期间,以相应的周期为基础执行确定所述能量,确定所述最高频率子带以及编码的步骤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/316,895 | 2011-12-12 | ||
US13/316,895 US8666753B2 (en) | 2011-12-12 | 2011-12-12 | Apparatus and method for audio encoding |
PCT/US2012/067532 WO2013090039A1 (en) | 2011-12-12 | 2012-12-03 | Apparatus and method for audio encoding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103999154A true CN103999154A (zh) | 2014-08-20 |
CN103999154B CN103999154B (zh) | 2015-07-15 |
Family
ID=47358302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280061303.3A Expired - Fee Related CN103999154B (zh) | 2011-12-12 | 2012-12-03 | 用于音频编码的装置和方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8666753B2 (zh) |
EP (1) | EP2791936A1 (zh) |
JP (1) | JP5775227B2 (zh) |
KR (1) | KR101454581B1 (zh) |
CN (1) | CN103999154B (zh) |
CA (1) | CA2859013C (zh) |
WO (1) | WO2013090039A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107408392A (zh) * | 2015-04-05 | 2017-11-28 | 高通股份有限公司 | 音频带宽选择 |
CN108172239A (zh) * | 2013-09-26 | 2018-06-15 | 华为技术有限公司 | 频带扩展的方法及装置 |
CN110024029A (zh) * | 2016-11-30 | 2019-07-16 | 微软技术许可有限责任公司 | 音频信号处理 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6556473B2 (ja) * | 2015-03-12 | 2019-08-07 | 株式会社東芝 | 送信装置、音声認識システム、送信方法、およびプログラム |
EP3343558A2 (en) | 2015-09-04 | 2018-07-04 | Samsung Electronics Co., Ltd. | Signal processing methods and apparatuses for enhancing sound quality |
CN109416914B (zh) | 2016-06-24 | 2023-09-26 | 三星电子株式会社 | 适于噪声环境的信号处理方法和装置及使用其的终端装置 |
WO2018086972A1 (en) * | 2016-11-08 | 2018-05-17 | Koninklijke Philips N.V. | Method for wireless data transmission range extension |
CN112530444B (zh) | 2019-09-18 | 2023-10-03 | 华为技术有限公司 | 音频编码方法和装置 |
CN112599140B (zh) * | 2020-12-23 | 2024-06-18 | 北京百瑞互联技术股份有限公司 | 一种优化语音编码速率和运算量的方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
CN1659785A (zh) * | 2002-05-31 | 2005-08-24 | 沃伊斯亚吉公司 | 信号多速率点阵矢量量化的方法和系统 |
CN1748443A (zh) * | 2003-03-04 | 2006-03-15 | 诺基亚有限公司 | 多声道音频扩展支持 |
EP1703493A2 (en) * | 1994-08-10 | 2006-09-20 | Qualcomm Incorporated | Method and apparatus for selecting an encoding rate in a variable rate vocoder |
CN1860526A (zh) * | 2003-09-29 | 2006-11-08 | 皇家飞利浦电子股份有限公司 | 音频信号编码 |
US20100324708A1 (en) * | 2007-11-27 | 2010-12-23 | Nokia Corporation | encoder |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5115240A (en) | 1989-09-26 | 1992-05-19 | Sony Corporation | Method and apparatus for encoding voice signals divided into a plurality of frequency bands |
IT1281001B1 (it) * | 1995-10-27 | 1998-02-11 | Cselt Centro Studi Lab Telecom | Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio. |
US6091723A (en) * | 1997-10-22 | 2000-07-18 | Lucent Technologies, Inc. | Sorting networks having improved layouts |
JP2006018023A (ja) | 2004-07-01 | 2006-01-19 | Fujitsu Ltd | オーディオ信号符号化装置、および符号化プログラム |
JP2010503881A (ja) * | 2006-09-13 | 2010-02-04 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 音声・音響送信器及び受信器のための方法及び装置 |
-
2011
- 2011-12-12 US US13/316,895 patent/US8666753B2/en active Active
-
2012
- 2012-12-03 CN CN201280061303.3A patent/CN103999154B/zh not_active Expired - Fee Related
- 2012-12-03 KR KR1020147015911A patent/KR101454581B1/ko active Active
- 2012-12-03 JP JP2014547268A patent/JP5775227B2/ja not_active Expired - Fee Related
- 2012-12-03 WO PCT/US2012/067532 patent/WO2013090039A1/en active Application Filing
- 2012-12-03 CA CA2859013A patent/CA2859013C/en active Active
- 2012-12-03 EP EP12801691.2A patent/EP2791936A1/en not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
EP1703493A2 (en) * | 1994-08-10 | 2006-09-20 | Qualcomm Incorporated | Method and apparatus for selecting an encoding rate in a variable rate vocoder |
CN1659785A (zh) * | 2002-05-31 | 2005-08-24 | 沃伊斯亚吉公司 | 信号多速率点阵矢量量化的方法和系统 |
CN1748443A (zh) * | 2003-03-04 | 2006-03-15 | 诺基亚有限公司 | 多声道音频扩展支持 |
CN1860526A (zh) * | 2003-09-29 | 2006-11-08 | 皇家飞利浦电子股份有限公司 | 音频信号编码 |
US20100324708A1 (en) * | 2007-11-27 | 2010-12-23 | Nokia Corporation | encoder |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108172239A (zh) * | 2013-09-26 | 2018-06-15 | 华为技术有限公司 | 频带扩展的方法及装置 |
CN107408392A (zh) * | 2015-04-05 | 2017-11-28 | 高通股份有限公司 | 音频带宽选择 |
CN110024029A (zh) * | 2016-11-30 | 2019-07-16 | 微软技术许可有限责任公司 | 音频信号处理 |
CN110024029B (zh) * | 2016-11-30 | 2023-08-25 | 微软技术许可有限责任公司 | 音频信号处理 |
Also Published As
Publication number | Publication date |
---|---|
KR20140085596A (ko) | 2014-07-07 |
US20130151260A1 (en) | 2013-06-13 |
CA2859013A1 (en) | 2013-06-20 |
CN103999154B (zh) | 2015-07-15 |
JP2015505991A (ja) | 2015-02-26 |
JP5775227B2 (ja) | 2015-09-09 |
CA2859013C (en) | 2016-01-26 |
WO2013090039A1 (en) | 2013-06-20 |
US8666753B2 (en) | 2014-03-04 |
EP2791936A1 (en) | 2014-10-22 |
KR101454581B1 (ko) | 2014-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103999154B (zh) | 用于音频编码的装置和方法 | |
TWI661422B (zh) | 用於音訊帶寬選擇之器件及裝置、操作一解碼器之方法及電腦可讀儲存器件 | |
EP2680548A1 (en) | Method and apparatus for reducing noise in voices in mobile terminals | |
CN105825859A (zh) | 比特分配、音频编码和解码 | |
US20230274748A1 (en) | Coding of multi-channel audio signals | |
US20230131892A1 (en) | Inter-channel phase difference parameter encoding method and apparatus | |
WO2020016479A1 (en) | Sparse quantization of spatial audio parameters | |
US20150310874A1 (en) | Adaptive audio signal filtering | |
EP3991170A1 (en) | Determination of spatial audio parameter encoding and associated decoding | |
WO2019106221A1 (en) | Processing of spatial audio parameters | |
EP3903309B1 (en) | High resolution audio coding | |
EP3913809A1 (en) | Decoding device, decoding method, and program | |
TWI602173B (zh) | 音訊處理方法與非暫時性電腦可讀媒體 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160406 Address after: California, USA Patentee after: Google Technology Holdings LLC Address before: Illinois State Patentee before: MOTOROLA MOBILITY LLC |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150715 |