CN112669857B - 一种语音处理的方法、装置及设备 - Google Patents
一种语音处理的方法、装置及设备 Download PDFInfo
- Publication number
- CN112669857B CN112669857B CN202110284182.XA CN202110284182A CN112669857B CN 112669857 B CN112669857 B CN 112669857B CN 202110284182 A CN202110284182 A CN 202110284182A CN 112669857 B CN112669857 B CN 112669857B
- Authority
- CN
- China
- Prior art keywords
- data
- voice
- target
- coded
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 140
- 238000000034 method Methods 0.000 claims abstract description 71
- 238000004458 analytical method Methods 0.000 claims abstract description 34
- 230000005284 excitation Effects 0.000 claims description 255
- 238000012549 training Methods 0.000 claims description 145
- 238000012545 processing Methods 0.000 claims description 105
- 230000003044 adaptive effect Effects 0.000 claims description 88
- 238000007405 data analysis Methods 0.000 claims description 36
- 238000001914 filtration Methods 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 12
- 238000003786 synthesis reaction Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 26
- 230000005540 biological transmission Effects 0.000 abstract description 19
- 230000006835 compression Effects 0.000 abstract description 16
- 238000007906 compression Methods 0.000 abstract description 16
- 230000000694 effects Effects 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 16
- 238000005070 sampling Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 238000004590 computer program Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 230000007774 longterm Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000288105 Grus Species 0.000 description 1
- 101100458287 Saguinus oedipus MSPE gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请实施例公开了一种语音处理方法,装置及设备,该语音处理方法包括:获取待编码语音数据,对待编码语音数据进行线性预测分析,得到线性预测参数;根据待编码语音数据确定目标自适应码本中的目标码矢量、目标码矢量的索引和目标码矢量对应的增益;将线性预测参数、目标码矢量的索引和目标码矢量对应的增益作为待编码语音数据对应的编码数据发送至语音解码端。采用本申请实施例,可以在对待编码语音数据的编码过程中,无需生成固定码本的数据,从而减少固定码本的数据对存储空间的占用,有利于提高语音编码的整体压缩性能和语音质量,并且可以降低传输编码数据所需要的信道带宽,提升传输性能,提升语音编码的效果。
Description
技术领域
本申请涉及计算机技术领域,具体涉及语音编码领域,尤其涉及一种语音处理的方法、装置及设备。
背景技术
语音编码在日常通信中有着较为广泛的应用,所谓语音编码,是指在保证语音高质量传输的情况下,降低语音传输所需要的信道带宽。例如,在语音通话的应用中,发送端采集语音数据,使用编码器对语音数据进行编码,进而将编码后的数据发送至接收端。以使接收端可以通过解码器重新生成语音数据,播放出声音。
目前,语音编码技术主要分为三类:波形编码、参数编码和混合编码。具体的,波形编码,是将语音数据作为一般波形数据处理,以使重建的语音波形保持原有波形形状。参数编码,是通过对语音数据特征参数的提取和编码,以保证重建的语音数据保持原语音的语义。混合编码,将波形编码和参数编码进行结合,既包含了语音特征参数,也包含了波形编码信息。实践发现,目前的编码器编码后的数据所需的传输带宽较大,压缩效果欠佳,传输性能较低。
发明内容
本申请实施例提供了一种语音处理的方法、装置及设备,可以在对待编码语音数据的编码过程中,减少固定码本相关数据对存储空间的占用,一方面可以提升语音编码的整体压缩性能和语音质量;另一方面,可以降低传输待编码语音数据对应编码数据需要的信道带宽,提升传输性能,提高语音编码的效果。
一方面,本申请实施例提供了一种语音处理方法,该方法应用于语音编码端,该语音处理方法包括:
获取待编码语音数据,对待编码语音数据进行线性预测分析,得到线性预测参数;
根据待编码语音数据确定目标自适应码本中的目标码矢量、目标码矢量的索引和目标码矢量对应的增益;
将线性预测参数、目标码矢量的索引和目标码矢量对应的增益作为待编码语音数据对应的编码数据发送至语音解码端。
另一方面,本申请实施例提供了一种语音处理方法,该方法应用于语音解码端,该方法包括:
接收语音编码端发送的待编码语音数据对应的编码数据,编码数据包括:待编码语音数据对应的线性预测参数、目标码矢量的索引和目标码矢量对应的增益;
根据目标码矢量的索引和目标码矢量对应的增益,确定自适应码本激励数据;
确定待编码语音数据对应的目标预测数据,并通过固定码本预测模型对目标预测数据进行数据分析,确定待编码语音数据对应的固定码本激励数据;
根据线性预测参数对自适应码本激励数据和固定码本激励数据进行合成处理,得到待编码语音数据对应的解码数据。
另一方面,本申请实施例提供一种语音处理装置,该装置应用于语音编码端,该语音处理装置包括:
获取单元,用于获取待编码语音数据,对待编码语音数据进行线性预测分析,得到线性预测参数;
确定单元,用于根据待编码语音数据确定目标自适应码本中的目标码矢量、目标码矢量的索引和目标码矢量对应的增益;
发送单元,用于将线性预测参数、目标码矢量的索引和目标码矢量对应的增益作为待编码语音数据对应的编码数据发送至语音解码端。
在一种实现方式中,该语音处理装置还包括:
获取单元,还用于获取待编码语音数据的上一帧语音数据的目标码矢量、上一帧语音数据的目标码矢量对应的增益,以及上一帧语音数据对应的固定码本激励数据;
更新单元,用于依照待编码语音数据的上一帧语音数据的目标码矢量、上一帧语音数据的目标码矢量对应的增益,以及上一帧语音数据对应的固定码本激励数据,更新历史自适应码本,得到目标自适应码本。
在一种实现方式中,获取单元在获取上一帧语音数据对应的固定码本激励数据时,具体用于:
确定待编码语音数据的上一帧语音数据的目标预测数据;
通过固定码本预测模型对上一帧语音数据的目标预测数据进行数据分析,确定上一帧语音数据对应的固定码本激励数据。
在一种实现方式中,更新单元在依照待编码语音数据的上一帧语音数据的目标码矢量、上一帧语音数据的目标码矢量对应的增益,以及上一帧语音数据对应的固定码本激励数据,更新历史自适应码本,得到目标自适应码本,具体用于:
根据待编码语音数据的上一帧语音数据的目标码矢量和上一帧语音数据的目标码矢量对应的增益,确定上一帧语音数据的自适应码本激励数据;
根据上一帧语音数据的自适应码本激励数据和上一帧语音数据对应的固定码本激励数据的和,更新历史自适应码本,得到目标自适应码本。
在一种实现方式中,该语音处理装置还包括:
获取单元,还用于获取语音训练样本集,语音训练样本集包括多个语音训练样本;
训练单元,用于依照语音训练样本集对初始固定码本预测模型进行迭代训练,得到固定码本预测模型,固定码本预测模型用于确定输入语音数据对应的固定码本激励数据。
在一种实现方式中,训练单元在依照语音训练样本集对初始固定码本预测模型进行迭代训练,得到固定码本预测模型时,具体用于:
从语音训练样本集中获取目标语音训练样本,对目标语音训练样本进行线性预测分析,得到目标语音训练样本的训练线性预测参数,目标语音训练样本为语音训练样本集中的任一语音训练样本;
获取目标语音训练样本的上一帧语音数据对应的解码数据、目标语音训练样本的上一帧语音数据的训练目标码矢量和训练目标码矢量对应的增益;
通过训练线性预测参数、目标语音训练样本的上一帧语音数据对应的解码数据、目标语音训练样本的上一帧语音数据的训练目标码矢量和训练目标码矢量对应的增益,对初始固定码本预测模型进行迭代训练,得到固定码本预测模型。
在一种实现方式中,该语音处理装置还包括:
高通滤波单元,用于对待编码语音数据进行高通滤波,得到高通滤波后的待语音编码数据;
其中,获取单元在对待编码语音数据进行线性预测分析,得到线性预测参数时,具体用于:
对高通滤波后的待编码数据进行线性预测分析,得到待编码语音数据对应的线性预测参数。
另一方面,本申请实施例提供一种语音处理装置,该语音处理装置应用于语音解码端,该语音处理装置包括:
接收单元,用于接收语音编码端发送的待编码语音数据对应的编码数据,编码数据包括:待编码语音数据对应的线性预测参数、目标码矢量的索引和目标码矢量对应的增益;
确定单元,用于根据目标码矢量的索引和目标码矢量对应的增益,确定自适应码本激励数据;
确定单元,还用于确定待编码语音数据对应的目标预测数据,并通过固定码本预测模型对目标预测数据进行数据分析,确定待编码语音数据对应的固定码本激励数据;
合成单元,用于根据线性预测参数对自适应码本激励数据和固定码本激励数据进行合成处理,得到待编码语音数据对应的解码数据。
在一种实现方式中,确定单元在确定待编码语音数据对应的目标预测数据时,具体用于:
若待编码语音数据为起始帧语音数据,则将目标值确定为待编码语音数据对应的目标预测数据。
在一种实现方式中,待编码语音数据对应的目标预测数据,包括以下一项或多项:
线性预测参数、待编码语音数据的上一帧语音数据对应的解码数据、对上一帧语音数据进行解码处理得到的自适应码本激励数据。
在一种实现方式中,确定单元在通过固定码本预测模型对目标预测数据进行数据分析,确定待编码语音数据对应的固定码本激励数据时,具体用于:
通过固定码本预测模型对目标预测数据进行第一次数据分析,得到待编码语音数据对应的第一固定码本激励数据,第一固定码本激励数据为固定码本激励数据中的部分数据;
通过固定码本预测模型对目标预测数据和第一固定码本激励数据进行第二次数据分析,得到待编码语音数据对应的第二固定码本激励数据;
若第一固定码本激励数据和第二固定码本激励数据满足目标条件,则根据第一固定码本激励数据和第二固定码本激励数据,确定待编码语音数据对应的固定码本激励数据。
在一个实现方式中,固定码本预测模型包括频谱特征提取模块和激励生成模块;确定单元通过固定码本预测模型对目标预测数据进行数据分析,确定待编码语音数据对应的固定码本激励数据时,具体用于:
从待编码语音数据对应的目标预测数据中,获取线性预测参数、待编码数据的上一帧语音数据对应的解码数据,以及对上一帧语音数据进行解码处理得到的自适应码本激励数据;
通过频谱特征提取模块根据线性预测参数提取待编码语音数据的频谱特征;
通过激励生成模块根据频谱特征、待编码数据的上一帧语音数据对应的解码数据,以及对上一帧语音数据进行解码处理得到的自适应码本激励数据,生成待编码语音数据对应的固定码本激励数据。
另一方面,本申请实施例提供一种语音处理设备,该语音处理设备包括:
处理器,适于实现一条或多条指令;以及,
计算机可读存储介质,该计算机可读存储介质存储有一条或多条指令,一条或多条指令适于由处理器加载并执行上述的语音处理方法。
另一方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有一条或多条指令,一条或多条指令适于由处理器加载并执行上述的语音处理方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的语音处理方法。
本申请实施例中,通过固定码本预测模型在语音编码的时候生成固定码本激励数据,可以在对待编码语音数据的编码过程中,减少固定码本相关数据对存储空间的占用,有利于提高语音编码的整体压缩性能和语音质量。并且,语音编码端无需发送固定码本的索引和固定码本的激励至语音解码端,从而可以降低传输待编码语音数据对应编码数据需要的信道带宽,提升传输性能,提高语音编码的效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个示例性实施例提供的一种语音处理系统的架构示意图;
图2示出了本申请一个示例性实施例提供的一种语音处理方法的流程示意图;
图3示出了本申请一个示例性实施例提供的一种语音编码的流程示意图;
图4示出了本申请一个示例性实施例提供的一种语音解码的流程示意图;
图5示出了本申请一个示例性实施例提供的一种语音处理方法的流程示意图;
图6示出了本申请一个示例性实施例提供的一种固定码本预测模型的训练示意图;
图7示出了本申请一个示例性实施例提供的一种语音处理方法的流程示意图;
图8示出了本申请一个示例性实施例提供的一种固定码本预测模型的结构示意图;
图9示出了本申请一个示例性实施例提供的一种语音处理方法的场景示意图;
图10示出了本申请一个示例性实施例提供的一种语音处理装置的结构示意图;
图11示出了本申请另一个示例性实施例提供的另一种语音处理装置的结构示意图;
图12示出了本申请一个示例性实施例提供的一种语音处理设备的结构示意图;
图13示出了本申请一个示例性实施例提供的另一种语音处理设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请涉及语音编码和语音解码的技术,所谓语音编码,是指将语音的模拟信号转换为数字信号,并且利用语音数据中存在的冗余度和人的听觉特性来对语音进行压缩,进而语音编码端将编码数据传输至语音解码端。所谓语音解码,是指在接收到编码数据后,将编码数据进行解码,重新生成语音数字信号,播放出声音。
其中,语音数据可以分为清音和浊音。浊音在时域上会呈现出明显的周期性。当空气通过收缩的声门产生紊流时,清音更多地呈现噪声特性。语音数据存在两种相关性:短时相关性和长时相关性。短时相关性(清音部分)为相邻采样点之间的相关性,由于浊音具有周期性,长时相关性(浊音部分)为相邻周期中对应采样点之间的相关性。短时相关性和长时相关性都能产生一定的冗余度,因此,在语音编码的时候需去除短时相关性和长时相关性产生的冗余信息,得到编码信息。目前,在对待编码语音数据的编码过程中,主要使用一个固定码本的激励数据来逼近待编码语音数据短时相关性。
示例性的,使用固定码本的激励数据来逼近待编码语音数据短时相关性的方式,对待编码语音数据进行编码,得到的编码数据的比特空间分配表可以如表1所示:
表1
编码数据 | 码字 | 每帧比特数 |
线性预测参数(LSP) | L0,L1,L2,L3 | 18 |
目标码矢量的索引(PITCH) | P0,P1,P2 | 14 |
固定码本(CODE) | C1,S1,C2,S2 | 34 |
增益(GAIN) | GA1,GB1,GA2,GB2 | 14 |
可见,在编码数据中,固定码本(CODE)参数占用34比特的数据,固定码本参数占用的比特数较多,对应的存储空间就越大,影响语音编码的压缩性能和语音质量,并且,传输固定码本参数所需的信道带宽较大,影响传输性能。
基于此,本申请实施例提出一种语音处理方案,该语音处理方案可以包括语音编码、传输编码数据和语音解码的过程。本申请实施例采用的语音处理方案可以通过固定码本预测模型在语音编码的时候生成固定码本激励数据,在对待编码语音数据的编码过程中,可以减少固定码本相关数据对存储空间的占用,有利于提高语音编码的整体压缩性能和语音质量。并且,语音编码端无需发送固定码本的索引和固定码本的激励至语音解码端,从而可以降低传输待编码语音数据对应编码数据需要的信道带宽,提升传输性能,提高语音编码的效果。
本申请实施例提出的语音处理方案涉及人工智能、机器学习等技术,其中:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作(交互)系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习(深度学习)等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习(Deep Learning,DL)通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
为了更好的理解语音处理的过程,本申请实施例可提供一种语音处理系统,请参阅图1,图1示出了本申请一个示例性实施例提供的一种语音处理系统的架构示意图。如图1所示,该语音处理系统包括语音处理设备101(即语音编码端)和语音处理设备102(即语音解码端)。语音处理设备101和语音处理设备端102可以通过有线或者无线通信的方式进行直接或间接地连接。其中,语音处理设备101为语音数据的编码端,语音处理设备102为语音数据的解码端,在后文中,以语音编码端101和语音解码端102进行说明。
需要说明的是,图1所示的设备数量和形态用于举例,并不构成对本申请实施例的限定。在实际应用中,本申请实施例提供的语音处理系统可以包括两个以上的语音处理设备,具体的,可以包括一个以上的编码端和一个以上解码端。本申请实施例提供的语音处理系统还可以只包括一个语音处理设备,该语音处理设备既为语音解码端,也为语音编码端。
以图1所示的语音处理系统一个语音编码端101和一个语音解码端102为例进行阐述。语音编码端101可以将原始语音数据进行编码,并将编码数据发送至语音解码端102,语音解码端102解码接收到的编码数据后,可以对编码数据进行解码,基于解码数据重新生成语音数据,从而播放出语音。
其中,语音编码端101和语音解码端102可以为能够进行语音处理的设备,或者语音编码端101和语音解码端102中包含可以进行语音处理的应用程序,例如,应用程序可以是即时语音通信类应用程序。语音编码端101和语音解码端102还可以分别部署在任意一个涉及语音处理的计算机设备中。
具体的,语音编码端101和语音解码端102可以是服务器,可以是独立的服务器,也可以是服务器集群。语音编码端101和语音解码端102也可以是终端设备,具体的,可以是计算机、手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、车载终端、可穿戴设备等智能设备。
在一种实现方式中,可基于区块链网络来部署该语音处理系统,即可将语音编码端101和语音解码端102的语音处理设备均部署在区块链网络中,或者将语音编码端101的语音处理设备部署在区块链网络外,将语音解码端102的语音处理设备部署在区块链网络内等等。语音编码端101的语音处理设备和语音解码端102的语音处理设备可作为区块链网络中的节点。若语音处理设备为多个物理服务器构成的服务器集群或者分布式系统时,每个物理服务器均可作为区块链网络中的节点。
其中,此处所提及的区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。其本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块。在本申请所公开的语音处理方法,其中的这些数据(如语音编码端对待编码数据进行编码得到的编码数据、语音解码端对编码数据进行语音解码得到的解码数据)可保存于区块链上。
基于上述涉及的语音处理系统,本申请可应用在语音通话场景。语音通话的场景:当用户A和用户B在进行语音通话时,采用本申请的方案可以将用户A的语音数据和用户B的语音数据进行编码、传输和解码,从而实现用户A和用户B的语音通话。在具体实现中,当用户A向用户B发送语音数据时,用户A的语音处理设备为编码端,用户B的语音处理设备为解码端。示例性的,以用户A的语音处理设备为车载终端,用户B的语音处理设备为手机为例。当用户A的车载终端和用户B的手机建立通信连接后,用户A的车载终端可以采集用户的语音数据,并对语音数据进行编码,得到编码数据。将编码数据传输至用户B的手机,进而用户B的手机可以对编码数据进行解码,重新生成语音数据,进而播放出来,同理,用户B的手机也可以发送编码数据至用户A的车载终端,由用户A的车载终端对编码数据进行解码,生成语音数据,从而进行语音通信。
本申请还可以应用在视频通话的场景,当用户A和用户B在进行视频通话时,采用本申请的方案可以将用户A的语音数据和用户B的语音数据进行编码、传输和解码,从而实现用户A和用户B的视频通话中语音数据的传输。
图1所示的语音处理系统涉及的语音处理方法可参见图2,图2示出了本申请一个示例性实施例提供的一种语音处理方法的流程示意图。该语音处理方法由语音编码端201和语音解码端202进行交互实现,该语音处理方法可以包括以下步骤201-步骤207:
步骤201,语音编码端获取待编码语音数据,对待编码语音数据进行线性预测分析,得到线性预测参数。
在一种实现方式中,语音编码端获取待编码语音数据的方式可以是语音编码端的麦克风采集的原始语音,并通过模数转换电路转换为的待编码语音数据,也可以是其他语音处理设备发送的语音数据,还可以是网络中获取到的语音数据,本申请对此不做限定。
在获取到待编码语音数据后,语音编码端可以对待编码语音数据进行编码。语音编码端对待编码语音数据的编码流程可以如图3所示。图3示出了本申请一个示例性实施例提供的一种编码的流程示意图。其中,如图3所示,编码的第一步可以是对待编码语音数据s (n)进行线性预测分析(linear predictive analysis,LPA),得到线性预测参数。将线性预测参数作为线性预测滤波器的预测系数,进而基于目标自适应码本确定自适应码本激励数据与基于固定码本预测模型确定固定码本激励数据的和通过线性预测滤波器1/A(z),得到合成语音数据s’(n)。将待编码语音数据和合成语音数据的差通过感知加权滤波器,以感知加权误差的均方误差最小为搜索原则,得到目标自适应码本中最佳的目标码矢量和目标码矢量对应的增益(Ga)。从而完成对待编码语音数据的编码过程,得到编码数据。
步骤202,语音编码端根据待编码语音数据确定目标自适应码本中的目标码矢量、目标码矢量的索引和目标码矢量对应的增益。
在一种实现方式中,目标自适应码本中码矢量为基音参数,该基音参数包括基音时延和增益。其中,语音编码端从目标自适应码本中找到目标码矢量以描述待编码语音数据中的基音周期信息。若目标自适应码本中找到的码矢量以及该码矢量对应的增益之积,得到的待选自适应码本激励数据。
进而与固定码本预测模型生成的固定码本激励数据之和,得到待编码语音数据的激励数据。进而把待编码语音数据的激励数据通过线性预测滤波器,得到待编码语音数据的合成语音数据。
将待编码语音数据与该合成语音数据相减,得到的差值经过如图3所示的感知加权滤器后,得到感知加权误差。采用最小均方误差MSPE(Minimum Squared PredictionError)准则作为搜索目标码矢量的度量。若感知加权误差的均方误差最小,则确定待选码矢量为目标码矢量,待选码矢量的索引为该目标码矢量的索引,将待选码矢量对应的增益为目标码矢量对应的增益。
步骤203,语音编码端将待编码语音数据对应的编码数据发送至语音解码端。
语音编码端向语音解码端发送的编码数据可以包括线谱对参数、目标码矢量的索引和目标码矢量对应的增益。
步骤204,语音解码端根据目标码矢量的索引和目标码矢量对应的增益,确定自适应码本激励数据。
在一种实现方式中,语音解码端的对待编码语音数据的编码流程可以如图4所示。图4示出了本申请一个示例性实施例提供的一种编码的流程示意图。其中,用图3所示的编码流程得到的编码数据可以由图4所示的解码流程进行解码,得到编码数据对应的解码数据。
具体的,语音解码端可以根据待编码语音数据的目标码矢量的索引从与语音编码端同样的目标自适应码本中确定目标码矢量以及目标码矢量对应的增益。进而可以基于目标码矢量与目标码矢量对应的增益的积,确定自适应码本激励数据。进而根据固定码本预测模型输出固定码本激励数据,将自适应码本激励数据和固定码本激励数据的和通过合成滤波器,可以得到合成的语音数据,即解码数据。
步骤205,语音解码端确定待编码语音数据对应的目标预测数据,并通过固定码本预测模型对目标预测数据进行数据分析,确定待编码语音数据对应的固定码本激励数据。
在一种实现方式中,语音解码端可以确定输入固定码本预测模型中的输入数据,即目标预测数据,进而固定码本预测模型可以对目标预测数据进行数据分析,得到待编码语音数据对应的固定码本激励数据。进而可以通过固定码本激励数据生成解码数据。
步骤206,语音解码端根据线性预测参数对自适应码本激励数据和固定码本激励数据进行合成处理,得到待编码语音数据对应的解码数据。
在一种实现方式中,将固定码本预测模型数据分析得到的固定码本激励数据与自适应码本激励数据相加,得到待编码语音数据的激励数据;进而将该激励数据通过合成滤波器,得到合成语音数据,合成的语音数据为待编码语音数据对应的解码数据。需要说明的是,图4所示的编码流程中的合成滤波器与图3所示的线性预测滤波器相同,语音编码端在对待编码语音数据进行编码时,模拟了语音解码端解码的过程。
本申请实施例中,通过固定码本预测模型在语音编码的时候生成固定码本激励数据,可以在对待编码语音数据的编码过程中,减少固定码本相关数据对存储空间的占用,有利于提高语音编码的整体压缩性能和语音质量。并且,语音编码端无需发送固定码本的索引和固定码本的激励至语音解码端,从而可以降低传输待编码语音数据对应编码数据需要的信道带宽,提升传输性能,提高语音编码的效果。
基于上述描述,请参见图5,图5示出了本申请一个示例性实施例提供的一种语音处理方法的流程示意图,该语音处理方法可由图2所示实施例中语音编码端201执行,该语音处理方法可以包括以下步骤501-步骤503:
步骤501,获取待编码语音数据,对待编码语音数据进行线性预测分析,得到线性预测参数。
在一种实现方式中,语音数据在编码之前,语音编码端对原始语音的声音信号进行模数转换,从而将模拟的原始语音转换为语音数据,进而对语音数据进行编码。需要说明的是,语音编码端获取到的待编码语音数据可以为一帧语音数据,一帧语音数据的帧长可以为10毫秒(ms),也可以为20ms。
在一种实现方式中,语音编码端在对待编码语音数据进行线性预测分析之前,可以对待编码语音数据进行高通滤波,去除待编码语音数据中的直流分量,得到高通滤波后的待编码语音数据。进而对高通滤波后的待编码语音数据进行线性预测分析,得到线性预测参数。
其中,线性预测分析的原理为,使用过去的若干个语音取样值的加权线性组合来逼近当前语音取样值。在线性组合中的加权系数则是线性预测参数。在待编码语音数据的取样值和线性预测取样值之间均方误差达到最小值时,计算出的线性预测参数为该待测语音数据的线性预测参数,其中,计算线性预测参数的过程为线性预测分析。需要说明的时,线性预测参数每一帧语音数据计算一次。进而,将线性预测分析得到的线性预测参数作为线性预测滤波器的预测系数。
可以理解的是,线性组合中的加权系数的个数为线性预测参数的阶数。例如,若使用过去10个语音取样值的加权线性组合来逼近当前语音取样值,则线性预测参数的阶数为10。
步骤502,根据待编码语音数据确定目标自适应码本中的目标码矢量、目标码矢量的索引和目标码矢量对应的增益。
在一种实现方式中,确定目标码矢量的过程是基于子帧维度,即将待编码语音数据的一帧语音数据分为多个子帧数据。例如,待编码语音数据为一帧语音,为20ms的语音数据,将一帧待编码语音数据分为4个子帧,则每个子帧为5ms的语音数据。待编码语音数据经过线性预测分析之后,得到的数据与确定待编码语音数据拆分出的每一个子帧对应的目标码矢量和目标码矢量对应的增益。其中,目标自适应码本用于逼近待编码语音数据的长时周期结构。确定出的目标码矢量用于指示待编码语音数据的基音时延参数,该基音时延参数则为目标码矢量的索引。其中,对目标自适应码本的搜索方法可以采用开环闭环基音分析的方法,还可以使用其他搜索方法,本申请对此不做限定。
在一种实现方式中,在确定每一子帧语音数据的目标码矢量和对应的增益之前,需对历史自适应码本进行更新。历史自适应码本的内容则是当前子帧之前的激励数据。即在确定待编码语音数据的目标码矢量之前,可以获取更新数据,更新数据用于对历史自适应码本进行更新。其中,更新数据可以是当前子帧的上一子帧语音数据的目标码矢量和该目标码矢量对应的增益,以及上一子帧的对应的固定码本激励数据。
在得到更新数据之后,可以根据上一子帧语音数据的目标码矢量和上一子帧语音数据的目标码矢量对应的增益,确定该上一子帧语音数据的自适应码本激励数据,即将上一子帧语音数据的目标码矢量和上一子帧语音数据的目标码矢量对应的增益的积,作为上一子帧语音数据的自适应码本激励数据。根据上一子帧语音数据的自适应码本激励数据和上一帧语音数据对应的固定码本激励数据的和,得到上一子帧语音数据的激励数据,使用上一子帧语音数据的激励数据对该历史自适应码本更新,得到更新后的自适应码本,即目标自适应码本。其中,目标自适应码本可以为寄存器结构,历史自适应码本的更新过程可以是使用上一子帧语音数据的激励数据移进历史自适应码本,将历史自适应码本中上一子帧语音数据的激励数据对应的元素个数的最老的元素移出历史自适应码本,得到目标自适应码本。
其中,上一子帧语音数据的固定码本激励数据的获取方式可以是先确定上一子帧语音数据的目标预测数据,并通过固定码本预测模型对该目标预测数据进行数据分析,得到上一子帧语音数据的固定码本激励数据。其中上一子帧的目标预测数据可以包括该上一子帧语音数据的线性预测参数、该上一子帧语音数据的上一子帧语音数据对应的解码数据、该上一子帧语音数据的上一子帧语音数据的自适应码本激励数据。
在一种实现方式中,在对待编码语音数据编码之前,还需对固定码本激励数据进行训练。其中,对固定码本激励模型的训练过程可以如图6所示。图6示出了本申请一个示例性实施例提供的一种固定码本预测模型的训练示意图。其中,图6所示的训练流程与图3所示的编码流程相同。对于图6来说,使用的模型为初始固定码本预测模型,输入的待编码语音数据为语音训练样本集中的各个语音训练样本。
在一种实现方式中,获取语音训练样本集,语音训练样本集包括多个语音训练样本。其中,上述语音训练样本集中的各个语音训练样本的获取方式在本申请中不做限制,如基于大数据等方式从互联网获取的语音数据等等。其中,语音训练样本的语音数据可以为一帧语音数据。
在一种可能的实现方式中,如图6所示,语音编码端依照语音训练样本集对初始固定码本预测模型进行迭代训练,得到固定码本预测模型。对固定码本预测模型的训练,需对语音训练样本集中的语音训练样本进行处理,得到训练固定码本预测模型的数据。
具体的,从语音训练样本集中获取目标语音训练样本,目标语音训练样本为语音训练样本集中的任一语音训练样本,对目标语音训练样本进行线性预测分析,得到目标语音训练样本线性预测参数。获取目标语音训练样本中当前子帧的上一子帧语音数据对应的解码数据、目标语音训练样本中的中当前子帧上一帧语音数据的训练目标码矢量和训练目标码矢量对应的增益,基于目标语音训练样本的上一帧语音数据的训练目标码矢量和训练目标码矢量对应的增益得到目标语音训练样本中当前子帧的上一帧自适应码本激励数据。将线性预测参数、目标语音训练样本中当前子帧的上一帧语音数据对应的解码数据、目标语音训练样本的上一帧自适应码本激励数据作为输入数据对初始固定码本预测模型进行迭代训练,从而得到固定码本激励模型。
在一种实现方式中,各个语音训练样本携带固定码本激励标签,目标语音训练样本携带的固定码本激励标签用于指示:该目标语音训练样本对应的固定码本激励数据。其中,各个语音训练样本携带的固定码本激励标签的值可以是目标语音训练样本中当前子帧的感知加权误差与自适应码本激励数据的差。目标语音训练样本中当前子帧的感知加权误差可以表示为e(n),自适应码本激励数据可以表示为p(n),则目标语音训练样本中当前子帧的值可以是e(n)-p(n)。
在一种可能的实现方式中,初始固定码本预测模型训练可以使用交叉熵损失函数来计算损失,也可以使用相对熵损失函数来计算损失,本申请对此不做限定。进一步的,基于得到的损失,调整初始固定码本预测模型的参数,直到得到的损失满足训练结束条件。则将损失满足训练结束条件时的初始固定码本预测模型确定为固定码本预测模型。可选的,训练结束条件可以为计算得到的损失达到最小值。
步骤503、语音编码端将待编码语音数据对应的编码数据发送至语音解码端。
在一种实现方式中,编码数据包括:线性预测参数,目标码矢量的索引和目标码矢量对应的增益。其中,由于线性预测分析得到的线性预测参数不稳定,可以将线性预测参数转换为线谱对参数(linespectrum pair,LSP)并量化,得到LSP参数,由于LSP参数是频域参数,在传输过程中更为稳定,于是可以将LSP参数作为线性预测参数发送至语音解码端。
示例性的,编码数据的比特分配可以如表2所示:
表2
编码数据 | 码字 | 每帧比特数 |
线性预测参数(LSP) | L0,L1,L2,L3 | 18 |
目标码矢量的索引 PITCH | P0,P1,P2 | 14 |
目标码矢量对应的增益 | GA1,GA2 | 7 |
由表2可见,语音编码端只需将线性预测参数、目标码矢量的索引以及目标码矢量的增益发送至语音解码端,无需将固定码本中确定固定码矢量索引和固定码矢量对应的增益发送至语音解码端,从而提高了语音编码的压缩性能,也降低了传输需要的信道宽带,提高了压缩效果。需要说明的是,表2所示的仅为部分编码数据的比特分配,编码数据还可以包括其他数据。
本申请实施例中,通过固定码本预测模型在语音编码的时候生成固定码本激励数据,可以在对待编码语音数据的编码过程中,减少固定码本相关数据对存储空间的占用,有利于提高语音编码的整体压缩性能和语音质量。并且,语音编码端无需发送固定码本的索引和固定码本的激励至语音解码端,从而可以降低传输待编码语音数据对应编码数据需要的信道带宽,提升传输性能,提高语音编码的效果。
进一步的,请参阅图7,图7示出了本申请一个示例性实施例提供的一种语音处理方法的流程示意图,该语音处理方法可由图2所示实施例中语音解码端202执行,该语音处理方法包括以下步骤701至步骤704:
步骤701,接收语音编码端发送的待编码语音数据对应的编码数据。
在一种实现方式中,编码数据包括待编码语音数据的线性预测参数、目标码矢量的索引和该目标码矢量对应的增益。其中,线性预测参数为LSP参数,可以通过内插得到线性预测参数,从而得到如图4所示的合成滤波器的预测参数。
步骤702,根据目标码矢量的索引和目标码矢量对应的增益,确定自适应码本激励数据。
具体的,语音解码端对编码数据进行解码,重新生成语音数据。
如图4所示,基于目标码矢量的索引,可以确定待编码语音数据的基音延时,即目标码矢量。进一步的,基于目标码矢量和目标码矢量对应的增益,可以确定自适应码本激励数据。其中,自适应码本激励数据为目标码矢量和目标码矢量对应的增益的积。
步骤703,确定待编码语音数据对应的目标预测数据,并通过固定码本预测模型对目标预测数据进行数据分析,确定待编码语音数据对应的固定码本激励数据。
具体的,语音解码端输入合成滤波器的激励数据包括自适应码本激励数据和固定码本激励数据,固定码本激励数据可以基于固定码本预测模型生成得到。具体的,语音解码端可以确定输入固定码本预测模型的目标预测数据,进而得到固定码本预测模型输出的固定码本激励数据。
在一种实现方式中,若待编码语音数据为起始帧语音数据,则将目标值确定为待编码语音数据对应的目标预测数据。示例性的,第一子帧为待解码语音中的起始帧语音数据,第一子帧对应的目标预测数据为目标值,其中目标值可以为0,也可以为较小的随机值,进而固定码本预测模型可以基于输入的目标预测数据,输出第一子帧的固定码本激励数据。
在一种实现方式中,在第一子帧不为待解码语音中的起始帧语音数据时,第一子帧对应的目标预测数据可以包括线性预测参数、第一子帧的上一子帧语音数据对应的解码数据、对该上一子帧语音数据进行解码处理得到的自适应码本激励数据中的一项或多项。
在一种实现方式中,固定码本预测模型不是一次性输出全部的固定码本激励数据,将目标数据输入固定码本预测模型后,通过固定码本预测模型对目标预测数据进行第一次数据分析,得到待编码语音数据对应的第一固定码本激励数据,第一固定码本激励数据为固定码本激励数据中的部分数据。进一步的,通过固定码本预测模型对目标预测数据和第一固定码本激励数据进行第二次数据分析,得到待编码语音数据对应的第二固定码本激励数据。
若第一固定码本激励数据和第二固定码本激励数据满足目标条件,则根据第一固定码本激励数据和第二固定码本激励数据,确定待编码语音数据对应的固定码本激励数据。若第一固定码本激励数据和第二固定码本激励数据不满足目标条件,则通过固定码本预测模型对目标预测数据、第二固定码本激励数据进行第三次数据分析,得到待编码语音数据对应的第三固定码本激励数据。
再次判断第一固定码本激励数据、第二固定码本激励数据和第三固定码本激励数据是否满足目标条件,若满足目标条件,则根据第一固定码本激励数据、第二固定码本激励数据和第三固定码本预测模型生成固定码本激励数据。若不满足目标条件,则再一次通过固定码本预测模型生成固定码本激励数据的部分数据。直到得到的多个固定码本激励数据的部分数据满足目标条件,则基于多个固定码本激励数据的部分数据生成待编码语音数据对应的固定码本激励数据。
示例性的,以待编码语音数据的采样率为8khz为例进行讲解,采样率为8khz表示1秒语音数据有8000个采样点,以待编码语音数据为30ms(一帧)为例,则待编码语音数据有240个采样点,将待编码语音数据包括3个子帧,每个子帧语音数据为10ms,每个子帧有80个采样点。
以一个子帧为例,将目标预测数据输入固定码本预测模型后,通过固定码本预测模型对目标预测数据进行第一次数据分析,得到第一固定码本激励数据,例如,可以是得到8个采样点对应的固定码本激励数据;进一步的,通过固定码本预测模型对目标预测数据和第一固定码本激励数据输入固定码本预测模型进行第二次数据分析,得到第二固定码本激励数据,例如,第二固定码本激励数据也可以是8个采样点对应的的固定码本激励数据,目标条件为固定码本预测模型输出的多个固定码本激励数据对应的采样点个数与一个子帧对应的采样点个数相同。其中,目标条件可以是多次数据分析输出的固定码本激励数据对应的采样点个数之和等于一个子帧对应的采样点。此时,第一固定码本激励数据对应的采样点是8,第二固定码本激励数据对应的采样点个数也是8。则不满足目标条件,还需通过固定码本预测模型对第二固定码本激励数据和目标预测数据进行数据分析,得到第三固定码本激励数据。可见,固定码本预测模型每一次数据分析输出的固定码本激励数据对应的采样点个数为8,则当第10次输出时,输出的10次固定码本激励数据对应的采样点个数为80,达到目标条件。进而将10次输出的10个固定码本激励数据的部分数据进行整合,得到该子帧的固定码本激励数据,从而完成固定码本预测模型迭代生成固定码本激励数据。
请一并参阅图8,图8示出了本申请一个示例性实施例提供的一种固定码本预测模型的结构示意图。其中,固定码本预测模型可以基于卷积神经网络(convolutional neuralnetworks, CNN)、循环神经网络(recurrent neural networks,RNN)、长短期记忆模型循环神经网络(long-short term memory,LSTM)以及门控循环单元(Gated Recurrent Unit,GRU)所构建神经网络模型,对于初始固定码本预测模型的结构,可基于实际应用场景需求确定,本申请对此不做限定。
如图8所示的固定码本激励模型的结构仅为示例,该固定码本激励模型的结构可以包括频谱特征提取模块和激励生成模块。其中,从待编码语音数据对应的目标预测数据中,获取线性预测参数、待编码语音数据的上一帧语音数据对应的解码数据,以及对上一帧语音数据进行解码处理得到的自适应码本激励数据;需要说明的是,这里的上一帧指一帧语音数据中的一个子帧语音数据。
通过频谱特征提取模块根据线性预测参数提取待编码语音数据的频谱特征;如图8所示,频谱特征提取模型可以包括一个全连接层(全连接层1)和一个GRU(门控循环单元1)。通过激励生成模块根据频谱特征、线性预测滤波器的待编码语音数据的上一帧语音数据对应的解码数据,以及对上一帧语音数据进行解码处理得到的自适应码本激励数据,生成待编码语音数据对应的固定码本激励数据。如图8所示,该固定码本预测模型可以包括两个全连接层:全连接层2(DENSE2)、全连接层3(DENSE3);和两个GRU:门控循环单元2(GRU2)和门控循环单元3(GRU3)。
在一个实现方式中,若固定码本预测模型的结构如图8所示,当待编码语音数据的采样率为8khz时,线性预测分析可以输出10阶的数据,线性滤波输出数据数量也为10、自适应滤波输出数据数量也为10、则固定码本预测模型的输出数据个数为10,固定码本预测模型的输入数据数量为40,则可以设计全连接层1、全连接层2、全连接层3的神经元个数分别为64、64、10,设计GRU1、GRU2、GRU3的神经元个数分别为64、256、10。
在一个实现方式中,当待编码语音数据的采样率为16khz或以上时,线性分析可以输出16阶的数据,线性滤波输出数据数量也为16、自适应滤波输出数据数量也为16、则固定码本预测模型的输出数据个数为16,固定码本预测模型的输入数据数量为64,则可以设计全连接层1、全连接层2、全连接层3的神经元个数分别为64、64、16,设计GRU1、GRU2、GRU3的神经元个数分别为64、256、16。
步骤704、根据线性预测参数对自适应码本激励数据和固定码本激励数据进行合成处理,得到待编码语音数据对应的解码数据。
语音解码端将固定码本预测模型预测得到的固定码本激励数据与自适应码本激励数据相加,得到激励数据;进而将该激励数据通过合成滤波器得到合成语音数据,即合成的语音数据为待编码语音数据对应的解码数据。其中,需要说明的是,图4所示的解码流程中的合成滤波器与图3所示的线性预测滤波器为相同的滤波器。在编码过程中,线性预测滤波器输出的合成语音数据即为解码过程中合成滤波器输出的解码数据。
可选的,还可以对解码数据进行后处理,以提高合成语音数据的语音质量。
本申请实施例中,通过固定码本预测模型在语音编码的时候生成固定码本激励数据,可以在对待编码语音数据的编码过程中,减少固定码本相关数据对存储空间的占用,有利于提高语音编码的整体压缩性能和语音质量。并且,语音编码端无需发送固定码本的索引和固定码本的激励至语音解码端,从而可以降低传输待编码语音数据对应编码数据需要的信道带宽,提升传输性能,提高语音编码的效果。
为了更好的理解上述内容,以下结合车载应用场景对上述语音处理方法进行进一步地阐述:
请参见图9,图9示出了本申请一个示例性实施例提供的一种语音处理方法的应用场景图。在图9所示的一种车载应用场景中,上述语音编码端为用户A正在使用的智能汽车的车载终端90,语音解码端可以为与用户A语音通话所使用的用户B的手机。如图9所示,用户A正在驾驶,通过智能汽车的车载终端90与用户B建立语音通话。车载终端的麦克风接收用户发出的语音,通过模数转换电路将模拟的声音信号转换为数字语音信号,即语音数据。车载终端采用本申请实施例提供的编码流程对语音数据进行编码,得到语音数据的编码数据,并将编码数据发送至用户B的手机。用户B的手机也可以将用户B发出的声音进行模数转换并编码,发送至用户A的车载终端。以便用户A的车载终端解码重新生成用户B的语音数据,用户B的语音处理设备解码重新生成用户A的语音数据,进而完成语音通话。
本申请实施例中,通过固定码本预测模型在语音编码的时候生成固定码本激励数据,可以在对待编码语音数据的编码过程中,减少固定码本相关数据对存储空间的占用,有利于提高语音编码的整体压缩性能和语音质量。并且,语音编码端无需发送固定码本的索引和固定码本的激励至语音解码端,从而可以降低传输待编码语音数据对应编码数据需要的信道带宽,提升传输性能,提高语音编码的效果。
请参见图10,图10示出了本申请一个示例性实施例提供的一种语音处理装置的结构示意图,该语音处理装置100应用于语音编码端,该语音处理装置100可以用于执行图2、图5所示的语音处理方法中的相应步骤。请参见图10,该语音处理装置100包括如下单元:
获取单元1001,用于获取待编码语音数据,对待编码语音数据进行线性预测分析,得到线性预测参数;
确定单元1002,用于根据待编码语音数据确定目标自适应码本中的目标码矢量、目标码矢量的索引和目标码矢量对应的增益;
发送单元1003,用于将线性预测参数、目标码矢量的索引和目标码矢量对应的增益作为待编码语音数据对应的编码数据发送至语音解码端。
在一种实现方式中,该语音处理装置100还包括:
获取单元1001,还用于获取待编码语音数据的上一帧语音数据的目标码矢量、上一帧语音数据的目标码矢量对应的增益,以及上一帧语音数据对应的固定码本激励数据;
更新单元1004,用于依照待编码语音数据的上一帧语音数据的目标码矢量、上一帧语音数据的目标码矢量对应的增益,以及上一帧语音数据对应的固定码本激励数据,更新历史自适应码本,得到目标自适应码本。
在一种实现方式中,获取单元1001在获取上一帧语音数据对应的固定码本激励数据时,具体用于:
确定待编码语音数据的上一帧语音数据的目标预测数据;
通过固定码本预测模型对上一帧语音数据的目标预测数据进行数据分析,确定上一帧语音数据对应的固定码本激励数据。
在一种实现方式中,更新单元1004在依照待编码语音数据的上一帧语音数据的目标码矢量、上一帧语音数据的目标码矢量对应的增益,以及上一帧语音数据对应的固定码本激励数据,更新历史自适应码本,得到目标自适应码本,具体用于:
根据待编码语音数据的上一帧语音数据的目标码矢量和上一帧语音数据的目标码矢量对应的增益,确定上一帧语音数据的自适应码本激励数据;
根据上一帧语音数据的自适应码本激励数据和上一帧语音数据对应的固定码本激励数据的和,更新历史自适应码本,得到目标自适应码本。
在一种实现方式中,该语音处理装置100还包括:
获取单元1001,还用于获取语音训练样本集,语音训练样本集包括多个语音训练样本;
训练单元1005,用于依照语音训练样本集对初始固定码本预测模型进行迭代训练,得到固定码本预测模型,固定码本预测模型用于确定输入语音数据对应的固定码本激励数据。
在一种实现方式中,训练单元1005在依照语音训练样本集对初始固定码本预测模型进行迭代训练,得到固定码本预测模型时,具体用于:
从语音训练样本集中获取目标语音训练样本,对目标语音训练样本进行线性预测分析,得到目标语音训练样本的训练线性预测参数,目标语音训练样本为语音训练样本集中的任一语音训练样本;
获取目标语音训练样本的上一帧语音数据对应的解码数据、目标语音训练样本的上一帧语音数据的训练目标码矢量和训练目标码矢量对应的增益;
通过训练线性预测参数、目标语音训练样本的上一帧语音数据对应的解码数据、目标语音训练样本的上一帧语音数据的训练目标码矢量和训练目标码矢量对应的增益,对初始固定码本预测模型进行迭代训练,得到固定码本预测模型。
在一种实现方式中,该语音处理装置100还包括:
高通滤波单元1006,用于对待编码数据进行高通滤波,得到高通滤波后的待编码数据;
其中,获取单元1001在对待编码语音数据进行线性预测分析,得到待编码语音数据对应的线性预测参数时,具体用于:
对高通滤波后的待编码数据进行线性预测分析,得到线性预测参数。
根据本申请的一个实施例,图10所示的语音处理装置100中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,该语音处理装置100也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。根据本申请的另一个实施例,可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行如图2、图5中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图10中所示的语音处理装置100,以及来实现本申请实施例的语音处理方法。计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于图1所示语音处理系统的语音编码端101的语音处理设备中,并在其中运行。
本申请实施例中,通过固定码本预测模型在语音编码的时候生成固定码本激励数据,可以在对待编码语音数据的编码过程中,减少固定码本相关数据对存储空间的占用,有利于提高语音编码的整体压缩性能和语音质量。并且,语音编码端无需发送固定码本的索引和固定码本的激励至语音解码端,从而可以降低传输待编码语音数据对应编码数据需要的信道带宽,提升传输性能,提高语音编码的效果。
请参见图11,图11示出了本申请一个示例性实施例提供的一种语音处理装置的结构示意图,该语音处理装置110应用于语音解码端,该语音处理装置110可以用于执行图2、图7所示的语音处理方法中的相应步骤。请参见图11,该语音处理装置110包括如下单元:
接收单元1101,用于接收语音编码端发送的待编码语音数据对应的编码数据,编码数据包括:待编码语音数据对应的线性预测参数、目标码矢量的索引和目标码矢量对应的增益;
确定单元1102,用于根据目标码矢量的索引和目标码矢量对应的增益,确定自适应码本激励数据;
确定单元1102,还用于确定待编码语音数据对应的目标预测数据,并通过固定码本预测模型对目标预测数据进行数据分析,确定待编码语音数据对应的固定码本激励数据;
合成单元1103,用于根据线性预测参数对自适应码本激励数据和固定码本激励数据进行合成处理,得到待编码语音数据对应的解码数据。
在一种实现方式中,确定单元1102在确定待编码语音数据对应的目标预测数据时,具体用于:
若待编码语音数据为起始帧语音数据,则将目标值确定为待编码语音数据对应的目标预测数据。
在一种实现方式中,待编码语音数据对应的目标预测数据,包括以下一项或多项:
线性预测参数、待编码语音数据的上一帧语音数据对应的解码数据、对上一帧语音数据进行解码处理得到的自适应码本激励数据。
在一种实现方式中,确定单元在通过固定码本预测模型对目标预测数据进行数据分析,确定待编码语音数据对应的固定码本激励数据时,具体用于:
通过固定码本预测模型对目标预测数据进行第一次数据分析,得到待编码语音数据对应的第一固定码本激励数据,第一固定码本激励数据为固定码本激励数据中的部分数据;
通过固定码本预测模型对目标预测数据和第一固定码本激励数据进行第二次数据分析,得到待编码语音数据对应的第二固定码本激励数据;
若第一固定码本激励数据和第二固定码本激励数据满足目标条件,则根据第一固定码本激励数据和第二固定码本激励数据,确定待编码语音数据对应的固定码本激励数据。
在一个实现方式中,固定码本预测模型包括频谱特征提取模块和激励生成模块;确定单元1102通过固定码本预测模型对目标预测数据进行数据分析,确定待编码语音数据对应的固定码本激励数据时,具体用于:
从待编码语音数据对应的目标预测数据中,获取线性预测参数、待编码数据的上一帧语音数据对应的解码数据,以及对上一帧语音数据进行解码处理得到的自适应码本激励数据;
通过频谱特征提取模块根据线性预测参数提取待编码语音数据的频谱特征;
通过激励生成模块根据频谱特征、待编码数据的上一帧语音数据对应的解码数据,以及对上一帧语音数据进行解码处理得到的自适应码本激励数据,生成待编码语音数据对应的固定码本激励数据。
根据本申请的一个实施例,图11所示的语音处理装置110中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,该语音处理装置110也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。根据本申请的另一个实施例,可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行如图2、图8中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图11中所示的语音处理装置110,以及来实现本申请实施例的语音处理方法。计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于图1所示语音处理系统的语音解码端102的语音处理设备中,并在其中运行。
本申请实施例中,通过固定码本预测模型在语音编码的时候生成固定码本激励数据,可以在对待编码语音数据的编码过程中,减少固定码本相关数据对存储空间的占用,有利于提高语音编码的整体压缩性能和语音质量。并且,语音编码端无需发送固定码本的索引和固定码本的激励至语音解码端,从而可以降低传输待编码语音数据对应编码数据需要的信道带宽,提升传输性能,提高语音编码的效果。
请参见图12,图12示出了本申请一个示例性实施例提供的一种语音处理设备的结构示意图,该语音处理设备120至少包括处理器1201以及计算机可读存储介质1202。其中,处理器1201以及计算机可读存储介质1202可通过总线或者其它方式连接。计算机可读存储介质1202可以存储在存储器中,计算机可读存储介质1202用于存储计算机程序,计算机程序包括计算机指令,处理器1201用于执行计算机可读存储介质1202存储的计算机指令。处理器1201(或称CPU(Central Processing Unit,中央处理器))是语音处理设备120的计算核心以及控制核心,其适于实现一条或多条计算机指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是语音处理设备120中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质1202既可以包括语音处理设备120中的内置存储介质,当然也可以包括语音处理设备120所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了语音处理设备120的操作系统。并且,在该存储空间中还存放了适于被处理器1201加载并执行的一条或多条的计算机指令,这些计算机指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质1202可以是高速RAM存储器,也可以是非不稳定的存储器(Non-Volatile Memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器1201的计算机可读存储介质。
该语音处理设备120可以是图1所示语音处理系统中的语音处理设备(语音编码端)101;该计算机可读存储介质1202中存储有一条或多条计算机指令;由处理器1201加载并执行计算机可读存储介质1202中存放的一条或多条计算机指令,以实现上述语音处理方法实施例中的相应步骤;具体实现中,计算机可读存储介质1202中的一条或多条计算机指令由处理器1201加载并执行如下步骤:
获取待编码语音数据,对待编码语音数据进行线性预测分析,得到线性预测参数;
根据待编码语音数据确定目标自适应码本中的目标码矢量、目标码矢量的索引和目标码矢量对应的增益;
将线性预测参数、目标码矢量的索引和目标码矢量对应的增益作为待编码语音数据对应的编码数据发送至语音解码端。
在一种实现方式中,计算机可读存储介质1202中的一条或多条计算机指令由处理器1201加载并执行如下步骤:
获取待编码语音数据的上一帧语音数据的目标码矢量、上一帧语音数据的目标码矢量对应的增益,以及上一帧语音数据对应的固定码本激励数据;
依照待编码语音数据的上一帧语音数据的目标码矢量、上一帧语音数据的目标码矢量对应的增益,以及上一帧语音数据对应的固定码本激励数据,更新历史自适应码本,得到目标自适应码本。
在一种实现方式中,计算机可读存储介质1202中的一条或多条计算机指令由处理器1201加载并执行如下步骤:
确定待编码语音数据的上一帧语音数据的目标预测数据;
通过固定码本预测模型对上一帧语音数据的目标预测数据进行数据分析,确定上一帧语音数据对应的固定码本激励数据。
在一种实现方式中,计算机可读存储介质1202中的一条或多条计算机指令由处理器1201加载并执行如下步骤:
根据待编码语音数据的上一帧语音数据的目标码矢量和上一帧语音数据的目标码矢量对应的增益,确定上一帧语音数据的自适应码本激励数据;
根据上一帧语音数据的自适应码本激励数据和上一帧语音数据对应的固定码本激励数据的和,更新历史自适应码本,得到目标自适应码本。
在一种实现方式中,自适应码本中包括多个码矢量;计算机可读存储介质1202中的一条或多条计算机指令由处理器1201加载并执行如下步骤:
获取语音训练样本集,语音训练样本集包括多个语音训练样本;
依照语音训练样本集对初始固定码本预测模型进行迭代训练,得到固定码本预测模型,固定码本预测模型用于确定输入语音数据对应的固定码本激励数据。
在一种实现方式中,计算机可读存储介质1202中的一条或多条计算机指令由处理器1201加载并执行如下步骤:
从语音训练样本集中获取目标语音训练样本,对目标语音训练样本进行线性预测分析,得到目标语音训练样本的训练线性预测参数,目标语音训练样本为语音训练样本集中的任一语音训练样本;
获取目标语音训练样本的上一帧语音数据对应的解码数据、目标语音训练样本的上一帧语音数据的训练目标码矢量和训练目标码矢量对应的增益;
通过训练线性预测参数、目标语音训练样本的上一帧语音数据对应的解码数据、目标语音训练样本的上一帧语音数据的训练目标码矢量和训练目标码矢量对应的增益,对初始固定码本预测模型进行迭代训练,得到固定码本预测模型。
在一种实现方式中,计算机可读存储介质1202中的一条或多条计算机指令由处理器1201加载并执行如下步骤:
对待编码数据进行高通滤波,得到高通滤波后的待编码数据;
其中,对待编码语音数据进行线性预测分析,得到线性预测参数,包括:
对高通滤波后的待编码数据进行线性预测分析,得到待编码语音数据对应的线性预测参数。
本申请实施例中,通过固定码本预测模型在语音编码的时候生成固定码本激励数据,可以在对待编码语音数据的编码过程中,减少固定码本相关数据对存储空间的占用,有利于提高语音编码的整体压缩性能和语音质量。并且,语音编码端无需发送固定码本的索引和固定码本的激励至语音解码端,从而可以降低传输待编码语音数据对应编码数据需要的信道带宽,提升传输性能,提高语音编码的效果。
请参见图13,图13示出了本申请一个示例性实施例提供的一种语音处理设备的结构示意图,该语音处理设备130至少包括处理器1301以及计算机可读存储介质1302。其中,处理器1301以及计算机可读存储介质1302可通过总线或者其它方式连接。计算机可读存储介质1302可以存储在存储器中,计算机可读存储介质1302用于存储计算机程序,计算机程序包括计算机指令,处理器1301用于执行计算机可读存储介质1302存储的计算机指令。处理器1301(或称CPU(Central Processing Unit,中央处理器))是语音处理设备130的计算核心以及控制核心,其适于实现一条或多条计算机指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是语音处理设备130中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质1302既可以包括语音处理设备130中的内置存储介质,当然也可以包括语音处理设备130所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了语音处理设备130的操作系统。并且,在该存储空间中还存放了适于被处理器1301加载并执行的一条或多条的计算机指令,这些计算机指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质1302可以是高速RAM存储器,也可以是非不稳定的存储器(Non-Volatile Memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器1301的计算机可读存储介质。
该语音处理设备130可以是图1所示语音处理系统中的语音处理设备(语音解码端)102;该计算机可读存储介质1302中存储有一条或多条计算机指令;由处理器1301加载并执行计算机可读存储介质1302中存放的一条或多条计算机指令,以实现上述语音处理方法实施例中的相应步骤;具体实现中,计算机可读存储介质1302中的一条或多条计算机指令由处理器1301加载并执行如下步骤:
接收语音编码端发送的待编码语音数据对应的编码数据,编码数据包括:待编码语音数据对应的线性预测参数、目标码矢量的索引和目标码矢量对应的增益;
根据目标码矢量的索引和目标码矢量对应的增益,确定自适应码本激励数据;
确定待编码语音数据对应的目标预测数据,并通过固定码本预测模型对目标预测数据进行数据分析,确定待编码语音数据对应的固定码本激励数据;
根据线性预测参数对自适应码本激励数据和固定码本激励数据进行合成处理,得到待编码语音数据对应的解码数据。
在一种实现方式中,计算机可读存储介质1302中的一条或多条计算机指令由处理器1301加载并执行如下步骤:
若待编码语音数据为起始帧语音数据,则将目标值确定为待编码语音数据对应的目标预测数据。
在一种实现方式中,待编码语音数据对应的目标预测数据,包括以下一项或多项:
线性预测参数、待编码数据的上一帧语音数据对应的解码数据、对上一帧语音数据进行解码处理得到的自适应码本激励数据。
在一种实现方式中,计算机可读存储介质1302中的一条或多条计算机指令由处理器1301加载并执行如下步骤:
通过固定码本预测模型对目标预测数据进行第一次数据分析,得到待编码语音数据对应的第一固定码本激励数据,第一固定码本激励数据为固定码本激励数据中的部分数据;
通过固定码本预测模型对目标预测数据和第一固定码本激励数据进行第二次数据分析,得到待编码语音数据对应的第二固定码本激励数据;
若第一固定码本激励数据和第二固定码本激励数据满足目标条件,则根据第一固定码本激励数据和第二固定码本激励数据,确定待编码语音数据对应的固定码本激励数据。
本申请实施例中,通过固定码本预测模型在语音编码的时候生成固定码本激励数据,可以在对待编码语音数据的编码过程中,减少固定码本相关数据对存储空间的占用,有利于提高语音编码的整体压缩性能和语音质量。并且,语音编码端无需发送固定码本的索引和固定码本的激励至语音解码端,从而可以降低传输待编码语音数据对应编码数据需要的信道带宽,提升传输性能,提高语音编码的效果。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选方式中提供的语音处理方法。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (15)
1.一种语音处理的方法,其特征在于,所述方法应用于语音编码端,所述方法包括:
获取待编码语音数据,对所述待编码语音数据进行线性预测分析,得到线性预测参数;
根据所述待编码语音数据确定目标自适应码本中的目标码矢量、所述目标码矢量的索引和所述目标码矢量对应的增益;
将所述线性预测参数、所述目标码矢量的索引和所述目标码矢量对应的增益作为所述待编码语音数据对应的编码数据发送至语音解码端。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待编码语音数据确定目标自适应码本中的目标码矢量之前,所述方法还包括:
获取所述待编码语音数据的上一帧语音数据的目标码矢量、所述上一帧语音数据的目标码矢量对应的增益,以及所述上一帧语音数据对应的固定码本激励数据;
依照所述待编码语音数据的上一帧语音数据的目标码矢量、所述上一帧语音数据的目标码矢量对应的增益,以及所述上一帧语音数据对应的固定码本激励数据,更新历史自适应码本,得到所述目标自适应码本。
3.根据权利要求2所述的方法,其特征在于,所述获取所述上一帧语音数据对应的固定码本激励数据,包括:
确定所述待编码语音数据的上一帧语音数据的目标预测数据;
通过固定码本预测模型对所述上一帧语音数据的目标预测数据进行数据分析,确定所述上一帧语音数据对应的固定码本激励数据。
4.根据权利要求3所述的方法,其特征在于,所述依照所述待编码语音数据的上一帧语音数据的目标码矢量、所述上一帧语音数据的目标码矢量对应的增益,以及所述上一帧语音数据对应的固定码本激励数据,更新历史自适应码本,得到所述目标自适应码本,包括:
根据所述待编码语音数据的上一帧语音数据的目标码矢量和所述上一帧语音数据的目标码矢量对应的增益,确定所述上一帧语音数据的自适应码本激励数据;
根据所述上一帧语音数据的自适应码本激励数据和所述上一帧语音数据对应的固定码本激励数据的和,更新历史自适应码本,得到所述目标自适应码本。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取语音训练样本集,所述语音训练样本集包括多个语音训练样本;
依照所述语音训练样本集对初始固定码本预测模型进行迭代训练,得到固定码本预测模型,所述固定码本预测模型用于确定输入语音数据对应的固定码本激励数据。
6.根据权利要求5所述的方法,其特征在于,所述依照所述语音训练样本集对初始固定码本预测模型进行迭代训练,得到固定码本预测模型,包括:
从所述语音训练样本集中获取目标语音训练样本,对所述目标语音训练样本进行线性预测分析,得到所述目标语音训练样本的训练线性预测参数,所述目标语音训练样本为所述语音训练样本集中的任一语音训练样本;
获取所述目标语音训练样本的上一帧语音数据对应的解码数据、所述目标语音训练样本的上一帧语音数据的训练目标码矢量和所述训练目标码矢量对应的增益;
通过所述训练线性预测参数、所述目标语音训练样本的上一帧语音数据对应的解码数据、所述目标语音训练样本的上一帧语音数据的训练目标码矢量和所述训练目标码矢量对应的增益,对所述初始固定码本预测模型进行迭代训练,得到固定码本预测模型。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
对所述待编码语音数据进行高通滤波,得到高通滤波后的待编码语音数据;
其中,所述对所述待编码语音数据进行线性预测分析,得到线性预测参数,包括:
对所述高通滤波后的待编码语音数据进行线性预测分析,得到所述待编码语音数据对应的线性预测参数。
8.一种语音处理方法,其特征在于,所述方法应用于语音解码端,所述方法包括:
接收语音编码端发送的待编码语音数据对应的编码数据,所述编码数据包括:所述待编码语音数据对应的线性预测参数、目标码矢量的索引和所述目标码矢量对应的增益;
根据所述目标码矢量的索引和所述目标码矢量对应的增益,确定自适应码本激励数据;
确定所述待编码语音数据对应的目标预测数据,并通过固定码本预测模型对所述目标预测数据进行数据分析,确定所述待编码语音数据对应的固定码本激励数据;
根据所述线性预测参数对所述自适应码本激励数据和所述固定码本激励数据进行合成处理,得到所述待编码语音数据对应的解码数据。
9.根据权利要求8所述的方法,其特征在于,所述确定所述待编码语音数据对应的目标预测数据,包括:
若所述待编码语音数据为起始帧语音数据,则将目标值确定为所述待编码语音数据对应的目标预测数据。
10.根据权利要求8所述的方法,其特征在于,所述待编码语音数据对应的目标预测数据,包括以下一项或多项:
所述线性预测参数、所述待编码语音数据的上一帧语音数据对应的解码数据、对所述上一帧语音数据进行解码处理得到的自适应码本激励数据。
11.根据权利要求8所述的方法,其特征在于,所述通过固定码本预测模型对所述目标预测数据进行数据分析,确定所述待编码语音数据对应的固定码本激励数据,包括:
通过所述固定码本预测模型对所述目标预测数据进行第一次数据分析,得到所述待编码语音数据对应的第一固定码本激励数据,所述第一固定码本激励数据为所述固定码本激励数据中的部分数据;
通过所述固定码本预测模型对所述目标预测数据和所述第一固定码本激励数据进行第二次数据分析,得到所述待编码语音数据对应的第二固定码本激励数据;
若所述第一固定码本激励数据和所述第二固定码本激励数据满足目标条件,则根据所述第一固定码本激励数据和所述第二固定码本激励数据,确定所述待编码语音数据对应的固定码本激励数据。
12.根据权利要求10所述的方法,其特征在于,所述固定码本预测模型包括频谱特征提取模块和激励生成模块;所述通过固定码本预测模型对所述目标预测数据进行数据分析,确定所述待编码语音数据对应的固定码本激励数据,包括:
从所述待编码语音数据对应的目标预测数据中,获取所述线性预测参数、所述待编码语音数据的上一帧语音数据对应的解码数据,以及对所述上一帧语音数据进行解码处理得到的自适应码本激励数据;
通过所述频谱特征提取模块根据所述线性预测参数提取所述待编码语音数据的频谱特征;
通过所述激励生成模块根据所述频谱特征、所述待编码语音数据的上一帧语音数据对应的解码数据,以及对所述上一帧语音数据进行解码处理得到的自适应码本激励数据,生成所述待编码语音数据对应的固定码本激励数据。
13.一种语音处理装置,其特征在于,所述装置应用于语音编码端,包括:
获取单元,用于获取待编码语音数据,对所述待编码语音数据进行线性预测分析,得到线性预测参数;
确定单元,用于根据所述待编码语音数据确定目标自适应码本中的目标码矢量、所述目标码矢量的索引和所述目标码矢量对应的增益;
发送单元,用于将所述线性预测参数、所述目标码矢量的索引和所述目标码矢量对应的增益作为所述待编码语音数据对应的编码数据发送至语音解码端。
14.一种语音处理装置,其特征在于,所述装置应用于语音解码端,包括:
接收单元,用于接收语音编码端发送的待编码语音数据对应的编码数据,所述编码数据包括:所述待编码语音数据对应的线性预测参数、目标码矢量的索引和所述目标码矢量对应的增益;
确定单元,用于根据所述目标码矢量的索引和所述目标码矢量对应的增益,确定自适应码本激励数据;
所述确定单元,还用于确定所述待编码语音数据对应的目标预测数据,并通过固定码本预测模型对所述目标预测数据进行数据分析,确定所述待编码语音数据对应的固定码本激励数据;
合成单元,用于根据所述线性预测参数对所述自适应码本激励数据和所述固定码本激励数据进行合成处理,得到所述待编码语音数据对应的解码数据。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一条或多条第一指令,所述一条或多条第一指令适于由处理器加载并执行如权利要求1至12任一项所述的语音处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110284182.XA CN112669857B (zh) | 2021-03-17 | 2021-03-17 | 一种语音处理的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110284182.XA CN112669857B (zh) | 2021-03-17 | 2021-03-17 | 一种语音处理的方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112669857A CN112669857A (zh) | 2021-04-16 |
CN112669857B true CN112669857B (zh) | 2021-05-18 |
Family
ID=75399589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110284182.XA Active CN112669857B (zh) | 2021-03-17 | 2021-03-17 | 一种语音处理的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112669857B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113889131B (zh) * | 2021-09-28 | 2025-04-01 | 苏州科达科技股份有限公司 | 音频帧的处理方法、系统、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1488135A (zh) * | 2000-11-30 | 2004-04-07 | ���µ�����ҵ��ʽ���� | 线性预测编码参数的矢量量化装置 |
US6996522B2 (en) * | 2001-03-13 | 2006-02-07 | Industrial Technology Research Institute | Celp-Based speech coding for fine grain scalability by altering sub-frame pitch-pulse |
CN102726034A (zh) * | 2011-07-25 | 2012-10-10 | 华为技术有限公司 | 一种参数域回声控制装置和方法 |
CN103383846A (zh) * | 2006-12-26 | 2013-11-06 | 华为技术有限公司 | 改进语音丢包修补质量的语音编码方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102138320B1 (ko) * | 2011-10-28 | 2020-08-11 | 한국전자통신연구원 | 통신 시스템에서 신호 코덱 장치 및 방법 |
-
2021
- 2021-03-17 CN CN202110284182.XA patent/CN112669857B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1488135A (zh) * | 2000-11-30 | 2004-04-07 | ���µ�����ҵ��ʽ���� | 线性预测编码参数的矢量量化装置 |
US6996522B2 (en) * | 2001-03-13 | 2006-02-07 | Industrial Technology Research Institute | Celp-Based speech coding for fine grain scalability by altering sub-frame pitch-pulse |
CN103383846A (zh) * | 2006-12-26 | 2013-11-06 | 华为技术有限公司 | 改进语音丢包修补质量的语音编码方法 |
CN102726034A (zh) * | 2011-07-25 | 2012-10-10 | 华为技术有限公司 | 一种参数域回声控制装置和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112669857A (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhen et al. | Cascaded cross-module residual learning towards lightweight end-to-end speech coding | |
CN111326168B (zh) | 语音分离方法、装置、电子设备和存储介质 | |
CN112767954A (zh) | 音频编解码方法、装置、介质及电子设备 | |
CN102341844B (zh) | 编码方法、解码方法、编码装置、解码装置 | |
CN113450765A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN113763973A (zh) | 音频信号增强方法、装置、计算机设备和存储介质 | |
JP3628268B2 (ja) | 音響信号符号化方法、復号化方法及び装置並びにプログラム及び記録媒体 | |
KR20240022588A (ko) | 신경망 및 벡터 양자화기를 사용하여 오디오 파형 압축 | |
JP3266372B2 (ja) | 音声情報符号化方法およびその装置 | |
JP3590071B2 (ja) | 音声の効率的な符号化のためのスペクトルパラメータの予測分割マトリックス量子化 | |
CN115631275B (zh) | 多模态驱动的人体动作序列生成方法及装置 | |
JP2000155597A (ja) | デジタル音声符号器において使用するための音声符号化方法 | |
CN112669857B (zh) | 一种语音处理的方法、装置及设备 | |
CN117423348A (zh) | 基于深度学习和矢量预测的语音压缩方法及系统 | |
EP4494137A1 (en) | Vocoder techniques | |
JPH0944195A (ja) | 音声符号化装置 | |
Xue et al. | Low-latency speech enhancement via speech token generation | |
Shin et al. | Audio coding based on spectral recovery by convolutional neural network | |
WO2025007868A1 (zh) | 音频信号恢复方法、装置、电子设备及可读存储介质 | |
JP3916934B2 (ja) | 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置 | |
JPH0720897A (ja) | ディジタルコーダにおけるスペクトルパラメータを量子化する方法および装置 | |
KR100341398B1 (ko) | 씨이엘피형 보코더의 코드북 검색 방법 | |
JP2968109B2 (ja) | コード励振線形予測符号化器及び復号化器 | |
CN116580716B (zh) | 音频编码方法、装置、存储介质及计算机设备 | |
CN118016080B (zh) | 一种音频处理方法、音频处理器及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40041970 Country of ref document: HK |