CN103236260A - 语音识别系统 - Google Patents
语音识别系统 Download PDFInfo
- Publication number
- CN103236260A CN103236260A CN2013101090443A CN201310109044A CN103236260A CN 103236260 A CN103236260 A CN 103236260A CN 2013101090443 A CN2013101090443 A CN 2013101090443A CN 201310109044 A CN201310109044 A CN 201310109044A CN 103236260 A CN103236260 A CN 103236260A
- Authority
- CN
- China
- Prior art keywords
- speech
- identified
- voice signal
- recognition system
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种语音识别系统,包括:存储单元,用于存储至少一个用户的语音模型;语音采集及预处理单元,用于采集待识别语音信号,对所述待识别语音信号进行格式转换及编码;特征提取单元,用于从编码后的所述待识别语音信号中提取语音特征参数;模式匹配单元,用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户。该系统从语音的产生原理开始分析语音的特性,并使用MFCC参数,建立说话人的语音特征模型,实现说话人的特征识别算法,能够达到提高说话人检测可靠性的目的,使得最终能够在电子产品上实现说话人识别的功能。
Description
技术领域
本发明涉及语音检测技术领域,尤其是指一种语音识别系统。
背景技术
目前,在电信、服务业和工业生产线的电子产品开发中,许多产品上使用了语音识别技术,并创造出一批新颖的语音产品,如语音记事本、声控玩具、语音摇控器及家用服务器等,从而极大地减轻了劳动强度、提高了工作效率,并日益改变着人们的日常生活。因此,目前语音识别技术被视为本世纪最有挑战性、最具市场前景的应用技术之一。
语音识别包含说话人识别和说话人语义识别两种,前者利用的是语音信号中说话人的个性特征,不考虑包含在语音中的字词的含义,强调的是说话人的个性;而后者的目的是识别出语音信号中的语义内容,并不考虑说话人的个性,强调的是语音的共性。
然而现有技术识别说话人的技术可靠性不高,因此使得采用说话人检测的语音产品不能被广泛应用。
发明内容
根据以上,本发明技术方案的目的是提供一种语音识别系统,以提高说话人检测的可靠性,使语音产品能够被广泛应用。
本发明提供一种语音识别系统,包括:
存储单元,用于存储至少一个用户的语音模型;
语音采集及预处理单元,用于采集待识别语音信号,对所述待识别语音信号进行格式转换及编码;
特征提取单元,用于从编码后的所述待识别语音信号中提取语音特征参数;
模式匹配单元,用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户。
优选地,上述所述的语音识别系统,在采集所述待识别语音信号后,所述语音采集及预处理单元还用于依次对所述待识别语音信号进行放大、增益控制、滤波及采样,之后对所述待识别语音信号进行格式转换及编码,使所述待识别语音信号被分割为由多帧组合而成的短时信号。
优选地,上述所述的语音识别系统,所述语音采集及预处理单元还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。
优选地,上述所述的语音识别系统,还包括:
端点检测单元,用于计算进行格式转换及编码后的所述待识别语音信号的语音起点及语音终点,去除所述待识别语音信号中的静音信号,获得所述待识别语音信号中语音的时域范围;以及用于对所述待识别语音信号中的语音频谱进行傅里叶变换FFT分析,根据分析结果计算所述待识别语音信号中的元音信号、浊音信号及轻辅音信号。
优选地,上述所述的语音识别系统,所述特征提取单元通过从编码后的所述待识别语音信号中提取频率倒谱系数MFCC特征,获得所述语音特征参数。
优选地,上述所述的语音识别系统,所述语音识别系统还包括:语音建模单元,用于利用所述语音特征参数,采用频率倒谱系数MFCC建立与文本无关的高斯混合模型为语音的声学模型。
优选地,上述所述的语音识别系统,所述模式匹配单元利用高斯混合模型,使用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,计算所述待识别语音信号与每一个所述语音模型的似然度。
优选地,上述所述的语音识别系统,采用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户的方式具体采用以下公式:
其中:θi表示存储单元所存储的第i个人语音的模型参数,χ为待识别语音信号的特征参数;P(χ)、P(θi)分别为θi、χ的先验概率;P(χ/θi)为所述待识别语音信号的特征参数相对于第i个说话人得似然估计。
优选地,上述所述的语音识别系统,还包括判决单元,用于将与所述待识别语音信号具有最高似然度的所述语音模型与预设识别门限进行比对,确定所述待识别语音信号所属的用户。
本发明具体实施例上述技术方案中的至少一个具有以下有益效果:
从语音的产生原理开始分析语音的特性,并使用MFCC参数,建立说话人的语音特征模型,实现说话人的特征识别算法,能够达到提高说话人检测可靠性的目的,使得最终能够在电子产品上实现说话人识别的功能。
附图说明
图1表示本发明具体实施例所述语音识别系统的结构示意图;
图2表示采用本发明所述语音识别系统,在语音采集及预处理阶段的处理过程示意图;
图3表示本发明具体实施例所述语音识别系统进行语音识别的原理示意图;
图4表示采用MEL滤波器的语音输出频率示意图。
具体实施方式
为使本发明实施例要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
图1为本发明具体实施例所述语音识别系统的结构示意图。如图1所示,所述语音识别系统包括:
存储单元10,用于存储至少一个用户的语音模型;
语音采集及预处理单元20,用于采集待识别语音信号,对所述待识别语音信号进行格式转换及编码;
特征提取单元30,用于从编码后的所述待识别语音信号中提取语音特征参数;
模式匹配单元40,用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户。
具体地,如图2所示,在采集所述待识别语音信号后,所述语音采集及预处理单元20用于依次对所述待识别信号进行放大、增益控制、滤波及采样,之后对所述待识别信号进行格式转换及编码,使所述待识别语音信号被分割为由多帧组合而成的短时信号;以及还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。
在说话人识别技术中,语音采集实际上是语音信号的数字化过程,通过放大及增益控制、反混叠滤波、采样、A/D(模拟/数字)变换及编码(一般为PCM(脉冲编码调制)码)过程,对待识别语音信号进行滤波和放大,并将滤波和放大后的模拟语音信号转变为数字语音信号。
在上述过程中,通过进行滤波处理,达到抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰的目的,同时达到抑制50Hz的电源工频干扰的目的。
此外,如图2所示,所述语音采集及预处理单元20还用于对编码后的所述待识别语音信号进行数字化的反过程处理,以从数字化语音中重构语音波形,也即进行D/A(数字/模拟)变换。此外,还需要在D/A变换之后进行平滑滤波,对重构的语音波形的高次谐波进行平滑处理,以去除高次谐波失真。
通过上面介绍的处理过程,语音信号就已经被分割成一帧一帧的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序列。
此外,所述语音采集及预处理单元20还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。
其中,预处理一般包括预加重、加窗和分帧等,由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,即6dB/oct(2倍频),20dB/dec(10倍频),通常是频率越高幅值越小,在语音信号的功率降低二分之一时,其功率谱的幅度就会有半个量级的下降。因此,在对语音信号进行分析之前,一般要对语音信号加以一定的提升。
在语音信号处理中常用的窗函数是矩形窗和汉明窗等,用于对采样的语音信号进行加窗分割成一帧一帧的短时语音序列,表达式分别如下:(其中N为帧长):
此外,参阅图1所示,所述语音识别系统还包括:端点检测单元50,用于计算进行格式转换及编码后的所述待识别语音信号的语音起点及语音终点,去除所述待识别语音信号中的静音信号,获得所述待识别语音信号中语音的时域范围;以及用于对所述待识别语音信号中的语音频谱进行傅里叶变换FFT分析,根据分析结果计算所述待识别语音信号中的元音信号、浊音信号及轻辅音信号。
所述语音识别系统通过端点检测单元50,从包含语音的一段待识别语音信号中确定出语音的起点以及终点,其作用是使处理的时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能。
本发明所述语音识别系统,基于相关性的语音端点检测算法:语音信号具有相关性,而背景噪声则无相关性。因而利用相关性的不同,可以检测出语音,尤其是可以将清音从噪声中检测出来。第一级对输入语音信号,根据其能量和过零率的变化,进行一次简单的实时端点检测,以便去掉静音得到输入语音的时域范围,并且在此基础上进行频谱特征提取工作。第二级根据输入语音频谱的FFT分析结果,分别计算出高频、中频和低频段的能量分布特性,用来判别轻辅音、浊辅音和元音;在确定了元音、浊音段后,再向前后两端扩展搜索包含语音端点的帧。
所述特征提取单元30从所述待识别语音信号中进行语音特征参数提取,包括线性预测参数及其派生参数(LPCC)、语音频谱直接导出的参数、混合参数及Mel频率倒谱系数(MFCC)等。
对于线性预测参数及其派生参数:
通过对线性预测参数进行正交变换得到的参量,其中阶数较高的几个方差较小,这说明它们实质上与语句的内容相关性小,而反映了说话人的信息。另外,由于这些参数是对整个语句平均得到的,所以不需要进行时间上的归一化,因此可用于与文本无关的说话人识别。
对于语音频谱直接导出的参数:
语音短时谱中包含有激励源和声道的特性,因而可以反映说话人生理上的差别。而短时谱随时间变化,又在一定程度上反映了说话人的发音习惯,因此,由语音短时谱中导出的参数可以有效地用于说话人识别中。已经使用的参数包括功率谱、基音轮廓、共振峰及其带宽、语音强度及其变化等。
对于混合参数
为了提高系统的识别率,部分原因也许是因为对究竟哪些参量是关键把握不够,相当多的系统采用了混合参量构成的矢量。如将“动态”参量(对数面积比与基频随时间的变化)与“统计”分量(由长时间平均谱导出)相结合,还有将逆滤波器谱与带通滤波器谱结合,或者将线性预测参数与基音轮廓结合等参量组合方法。如果组成矢量得各个参量之间的相关性不大,则效果会很好,因为该些参量分别反映了语音信号中不同的特征。
对于其他鲁棒性参数:
包括Mel频率倒谱系数,以及经过噪声谱减或者信道谱减的去噪倒谱系数。
其中,MFCC参数具有如下优点(与LPCC参数相比):
语音信息大多集中在低频部分,而高频部分易受环境噪音干扰;MFCC参数将线性频标转化为Mel频标,强调语音的低频信息,从而除了具有LPCC的优点之外,还突出了有利于识别的信息,屏蔽了噪音的干扰。LPCC参数是基于线性频标的,所以没有这样的特点;
MFCC参数没有任何前提假设,在各种情况下都可使用。而LPCC参数假设所处理的信号是AR信号,对于动态特性较强的辅音,该假设并不严格成立,所以MFCC参数在说话人识别中优于LPCC参数;
MFCC参数提取过程中需要FFT变换,可以以此获得语音信号频域上的所有信息。
图4表示采用MEL滤波器的语音输出频率示意图,人耳所听到的声音的高低与声音的频率并不成线性正比关系,而用Mel频率尺度则更符合人耳的听觉特性。所谓Mel频率尺度,它的值大体上对应于实际频率的对数分布关系。Mel频率与实际频率的具体关系可用式:Mel(f)=2595lg(1+f/700),这里,实际频率f的单位是Hz。临界频率带宽随着频率的变化而变化,并与Mel频率的增长一致,在1000Hz以下,大致呈线性分布,带宽为100Hz左右;在1000Hz以上呈对数增长。类似于临界频带的划分,可以将语音频率划分成一系列三角形的滤波器序列,即Mel滤波器组。
三角滤波器的输出则为:
其中Yi为第i个滤波器的输出。
用离散余弦变换(DCT)将滤波器输出变换到倒谱域:
其中P为MFCC参数的阶数,实际软件算法中选取P=12,{Ck}k=1,2,...,12即为所求的MFCC参数。
本发明具体实施例所述语音识别系统进行语音识别的原理如图3所示,利用特征提取单元30,通过从编码后的所述待识别语音信号中提取频率倒谱系数MFCC特征,获得所述语音特征参数。
此外,所述语音识别系统还包括:语音建模单元60,用于利用所述语音特征参数,采用频率倒谱系数MFCC建立与文本无关的高斯混合模型为语音的声学模型。
所述模式匹配单元40利用高斯混合模型,使用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,使判决单元70根据匹配结果确定所述待识别语音信号所属的用户。这样通过将提取出的语音特征参数与存储单元10中所保存的语音模型相比对,得出识别结果。
具体采用高斯混合模型进行语音建模和模式匹配的方式可以为如下:
在采取高斯混合模型的说话人集合中,任一说话人的模型形式都是一致的,其个性特征由一组参数,唯一确定。其中wi、Ci分别为说话人语音特征参数的混合加权值、平均值向量及协方差矩阵。因此,说话人的训练是从已知说话人的语音中得到这样的一组参数λ,使得其产生训练语音得概率密度最大。而说活人识别就是依靠最大概率原则选出识别语音概率最大得那一组参数代表得说话人,即参阅公式(1):
λ=argλmaxP(X|λ) (1)
其中P(X/λ)表示长度为T的训练序列(T个特征参数)X={X1,X2,…,XT}关于GMM模型的似然度:
具体地:
下面是MAP算法过程:
说话人识别系统中,设χ为训练样本,θi是第i个说话人得模型参数,则根据最大后验概率原则及公式1,由MAP训练方法准则所确定的语音声学模型为如下公式(3):
上式公式(3)中:P(χ)、P(θi)分别为θi、χ的先验概率;P(χ/θi)为该待识别语音信号的特征参数相对于第i个说话人得似然估计。
对于上述公式2中的GMM的似然度计算,由于上式2是参数λ的非线性函数,很难直接求出上式的最大值。因此,常常采用EM(ExpectationMaximization,简称为EM)算法估计参数λ。EM算法的计算是从参数λ的一个初值开始,采用EM算法估计出一个新的参数使得新的模型参数下的似然度新的模型参数再作为当前参数进行训练,这样迭代运算直到模型收敛。每一次迭代运算,下面的重估公式保证了模型似然度的单调递增。
(1)混合权值的重估公式:
(2)均值的重估公式:
(3)方差的重估公式:
其中,分量i的后验概率为:
在使用EM算法训练GMM时,GMM的模型的高斯分量的个数M和模型的初始参数必须首先确定。如果M取值太小,则训练出的GMM模型不能有效地刻画说话人的特征,从而使整个系统性能下降。如果M取值过大,则模型参数会很多,从有效的训练数据中可能得不到收敛的模型参数,同时,训练得到的模型参数误差会很大。而且,太多的模型参数要求更多的存贮空间,而且训练和识别的运算复杂度大大增加。高斯分量M的大小,很难从理论上推导出来,可以根据不同的识别系统,由实验确定。
一般,M取值可以是4、8、16等。可以采用两种初始化模型参数的方法:第一种方法使用一个与说话人无关的HMM模型对训练数据进行自动分段。训练数据语音帧根据其特征分到M个不同的类中(M为混合数的个数),与初始的M个高斯分量相对应。每个类的均值和方差作为模型的初始化参数。尽管有实验证明EM算法对于初始化参数的选择并不敏感,但是显然第一种方法训练要优于第二种方法。也可以首先采用聚类的方法将特征矢量归位于混合数相等的各个类中,然后分别计算各个类的方差和均值,作为初始矩阵和均值,权值是各个类中所包含的特征矢量的个数占总的特征矢量的百分比。建立的模型中,方差矩阵可以为全矩阵,也可以为对角矩阵。
本发明所述语音识别系统,利用高斯混合模型(GMM)采用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户的方式。
使用最大后验概率算法(MAP),就是利用Bayes学习方法对参数进行修改,先从一个给定得初始模型λ开始,计算训练语料中每个特征向量在每个高斯分布得统计几率,再利用这些统计几率来计算每个高斯分布得期望值,然后以这些期望值反过来最大化高斯混合模型得参数值,得到重复上面得步骤,直到P(X|λ)收敛为止。当训练语料足够多时,MAP算法有理论上得最优性。
当考虑P(χ)和{θi}i=1,2,...W(W是词条数)无关得情况:在渐进的自适应方式中,训练样本是逐个输入的。设λ={pi,μi,Σi},i=1,2,…,M为训练样本序列,则渐进MAP方法准则如下:
根据上述计算过程,以更简化形式举例说明:
本发明所述语音识别系统,说话人辨认的目的是要用于确定待识别语音信号属于N个说话人中的哪一个。在一个封闭的说话人集合里,只需要确认该语音属于语音库中的哪一个说话人。在辨认任务中,目的是找到一个说话者i*,其对应的模型使得待识别语音特征矢量组X具有最大后验概率P(λi/X)。根据Bayes理论及上述公式3,最大后验概率可表示为:
在这里,参阅上述公式2:
其对数形式为:
因为P(λi)的先验概率未知,假定该所述待识别语音信号出自封闭集里的每个人的可能性相等,也即为:
对于一个确定的观察值矢量X,P(X)是一个确定的常数值,对所有说话人都相等。因此,求取后验概率的最大值可以通过求取P(X/λi)获得。因此,辨认该语音属于语音库中的哪一个说话人可以表示为:
上述公式对应公式(3),i*即为所识别出的说话人。
进一步地,利用上述方式,只是识别出模型库中最接近的用户,通过上述,匹配时计算要识别的说话人与语音库中所有说话人信息的似然度之后,还需要通过判决单元将与待识别语音信号具有最高似然度的用户的语音模型配合识别门限的限制,确定所述待识别语音信号所属的用户,从而达到对说话人身份进行认证的目的。
所述语音识别系统还包括判决单元,用于将与所述待识别语音信号具有最高似然度的所述语音模型与预设识别门限进行比对,确定所述待识别语音信号所属的用户。
本发明具体实施例所述语音识别系统,从语音的产生原理开始分析语音的特性,并使用MFCC参数,建立说话人的语音特征模型,实现说话人的特征识别的算法,能够达到提高说话人检测可靠性的目的,使得最终能够在电子产品上实现说话人识别的功能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种语音识别系统,其特征在于,包括:
存储单元,用于存储至少一个用户的语音模型;
语音采集及预处理单元,用于采集待识别语音信号,对所述待识别语音信号进行格式转换及编码;
特征提取单元,用于从编码后的所述待识别语音信号中提取语音特征参数;
模式匹配单元,用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户。
2.如权利要求1所述的语音识别系统,其特征在于,在采集所述待识别语音信号后,所述语音采集及预处理单元还用于依次对所述待识别语音信号进行放大、增益控制、滤波及采样,之后对所述待识别语音信号进行格式转换及编码,使所述待识别语音信号被分割为由多帧组合而成的短时信号。
3.如权利要求2所述的语音识别系统,其特征在于,所述语音采集及预处理单元还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。
4.如权利要求1所述的语音识别系统,其特征在于,所述语音识别系统还包括:
端点检测单元,用于计算进行格式转换及编码后的所述待识别语音信号的语音起点及语音终点,去除所述待识别语音信号中的静音信号,获得所述待识别语音信号中语音的时域范围;以及用于对所述待识别语音信号中的语音频谱进行傅里叶变换FFT分析,根据分析结果计算所述待识别语音信号中的元音信号、浊音信号及轻辅音信号。
5.如权利要求1所述的语音识别系统,其特征在于,所述特征提取单元通过从编码后的所述待识别语音信号中提取频率倒谱系数MFCC特征,获得所述语音特征参数。
6.如权利要求5所述的语音识别系统,其特征在于,所述语音识别系统还包括:语音建模单元,用于利用所述语音特征参数,采用频率倒谱系数MFCC建立与文本无关的高斯混合模型为语音的声学模型。
7.如权利要求1所述的语音识别系统,其特征在于,所述模式匹配单元利用高斯混合模型,使用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,计算所述待识别语音信号与每一个所述语音模型的似然度。
10.如权利要求7所述的语音识别系统,其特征在于,所述语音识别系统还包括判决单元,用于将与所述待识别语音信号具有最高似然度的所述语音模型与预设识别门限进行比对,确定所述待识别语音信号所属的用户。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310109044.3A CN103236260B (zh) | 2013-03-29 | 2013-03-29 | 语音识别系统 |
PCT/CN2013/074831 WO2014153800A1 (zh) | 2013-03-29 | 2013-04-26 | 语音识别系统 |
US14/366,482 US20150340027A1 (en) | 2013-03-29 | 2013-04-26 | Voice recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310109044.3A CN103236260B (zh) | 2013-03-29 | 2013-03-29 | 语音识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103236260A true CN103236260A (zh) | 2013-08-07 |
CN103236260B CN103236260B (zh) | 2015-08-12 |
Family
ID=48884296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310109044.3A Active CN103236260B (zh) | 2013-03-29 | 2013-03-29 | 语音识别系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20150340027A1 (zh) |
CN (1) | CN103236260B (zh) |
WO (1) | WO2014153800A1 (zh) |
Cited By (126)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103940190A (zh) * | 2014-04-03 | 2014-07-23 | 合肥美的电冰箱有限公司 | 具有食品管理系统的冰箱及食品管理方法 |
CN103974143A (zh) * | 2014-05-20 | 2014-08-06 | 北京速能数码网络技术有限公司 | 一种生成媒体数据的方法和设备 |
CN104183245A (zh) * | 2014-09-04 | 2014-12-03 | 福建星网视易信息系统有限公司 | 一种演唱者音色相似的歌星推荐方法与装置 |
CN104835496A (zh) * | 2015-05-30 | 2015-08-12 | 宁波摩米创新工场电子科技有限公司 | 一种基于线性驱动的高清语音识别系统 |
CN104835495A (zh) * | 2015-05-30 | 2015-08-12 | 宁波摩米创新工场电子科技有限公司 | 一种基于低通滤波的高清语音识别系统 |
CN104851425A (zh) * | 2015-05-30 | 2015-08-19 | 宁波摩米创新工场电子科技有限公司 | 一种基于对称式三极管放大电路的高清语音识别系统 |
CN104900234A (zh) * | 2015-05-30 | 2015-09-09 | 宁波摩米创新工场电子科技有限公司 | 一种高清语音识别系统 |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
CN105096551A (zh) * | 2015-07-29 | 2015-11-25 | 努比亚技术有限公司 | 一种实现虚拟遥控器的装置和方法 |
CN105245497A (zh) * | 2015-08-31 | 2016-01-13 | 刘申宁 | 一种身份认证方法及装置 |
CN105609101A (zh) * | 2014-11-14 | 2016-05-25 | 现代自动车株式会社 | 语音识别系统及语音识别方法 |
CN105709291A (zh) * | 2016-01-07 | 2016-06-29 | 王贵霞 | 一种智能血液透析过滤装置 |
CN105869641A (zh) * | 2015-01-22 | 2016-08-17 | 佳能株式会社 | 语音识别装置及语音识别方法 |
CN105913840A (zh) * | 2016-06-20 | 2016-08-31 | 西可通信技术设备(河源)有限公司 | 一种语音识别装置及移动终端 |
CN105931635A (zh) * | 2016-03-31 | 2016-09-07 | 北京奇艺世纪科技有限公司 | 一种音频分割方法及装置 |
CN105981099A (zh) * | 2014-02-06 | 2016-09-28 | 三菱电机株式会社 | 语音检索装置和语音检索方法 |
CN106161755A (zh) * | 2015-04-20 | 2016-11-23 | 钰太芯微电子科技(上海)有限公司 | 一种关键词语音唤醒系统及唤醒方法及移动终端 |
CN106328152A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种室内噪声污染自动识别监测系统 |
CN106328168A (zh) * | 2016-08-30 | 2017-01-11 | 成都普创通信技术股份有限公司 | 一种语音信号相似度检测方法 |
CN106415719A (zh) * | 2014-06-19 | 2017-02-15 | 苹果公司 | 使用说话者识别的语音信号的稳健端点指示 |
CN106448655A (zh) * | 2016-10-18 | 2017-02-22 | 江西博瑞彤芸科技有限公司 | 语音识别方法 |
CN106448654A (zh) * | 2016-09-30 | 2017-02-22 | 安徽省云逸智能科技有限公司 | 一种机器人语音识别系统及其工作方法 |
CN106557164A (zh) * | 2016-11-18 | 2017-04-05 | 北京光年无限科技有限公司 | 应用于智能机器人的多模态输出方法和装置 |
CN106653043A (zh) * | 2016-12-26 | 2017-05-10 | 上海语知义信息技术有限公司 | 降低语音失真的自适应波束形成方法 |
CN106782550A (zh) * | 2016-11-28 | 2017-05-31 | 黑龙江八农垦大学 | 一种基于dsp芯片的自动语音识别系统 |
CN106782595A (zh) * | 2016-12-26 | 2017-05-31 | 上海语知义信息技术有限公司 | 一种降低语音泄露的鲁棒阻塞矩阵方法 |
CN106782521A (zh) * | 2017-03-22 | 2017-05-31 | 海南职业技术学院 | 一种语音识别系统 |
CN107452403A (zh) * | 2017-09-12 | 2017-12-08 | 清华大学 | 一种说话人标记方法 |
CN107564522A (zh) * | 2017-09-18 | 2018-01-09 | 郑州云海信息技术有限公司 | 一种智能控制方法及装置 |
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别系统装置 |
CN108022593A (zh) * | 2018-01-16 | 2018-05-11 | 成都福兰特电子技术股份有限公司 | 一种高灵敏度语音识别系统及其控制方法 |
CN108022584A (zh) * | 2017-11-29 | 2018-05-11 | 芜湖星途机器人科技有限公司 | 办公室语音识别优化方法 |
CN108172229A (zh) * | 2017-12-12 | 2018-06-15 | 天津津航计算技术研究所 | 一种基于语音识别的身份验证及可靠操控的方法 |
WO2018107874A1 (zh) * | 2016-12-16 | 2018-06-21 | 广州视源电子科技股份有限公司 | 一种音频数据的自动增益控制方法与装置 |
CN108538310A (zh) * | 2018-03-28 | 2018-09-14 | 天津大学 | 一种基于长时信号功率谱变化的语音端点检测方法 |
CN109147796A (zh) * | 2018-09-06 | 2019-01-04 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN109429523A (zh) * | 2017-06-13 | 2019-03-05 | 北京嘀嘀无限科技发展有限公司 | 说话者确认方法、装置及系统 |
CN109920406A (zh) * | 2019-03-28 | 2019-06-21 | 国家计算机网络与信息安全管理中心 | 一种基于可变起始位置的动态语音识别方法及系统 |
CN110660413A (zh) * | 2018-06-28 | 2020-01-07 | 新唐科技股份有限公司 | 语音活动侦测系统 |
WO2020034628A1 (zh) * | 2018-08-14 | 2020-02-20 | 平安科技(深圳)有限公司 | 口音识别方法、装置、计算机装置及存储介质 |
WO2020073518A1 (zh) * | 2018-10-11 | 2020-04-16 | 平安科技(深圳)有限公司 | 声纹验证的方法、装置、计算机设备和存储介质 |
CN111277341A (zh) * | 2020-01-21 | 2020-06-12 | 北京清华亚迅电子信息研究所 | 无线电信号分析方法及装置 |
CN111429890A (zh) * | 2020-03-10 | 2020-07-17 | 厦门快商通科技股份有限公司 | 一种微弱语音增强方法、语音识别方法及计算机可读存储介质 |
US10720160B2 (en) | 2018-06-01 | 2020-07-21 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10741181B2 (en) | 2017-05-09 | 2020-08-11 | Apple Inc. | User interface for correcting recognition errors |
CN111581348A (zh) * | 2020-04-28 | 2020-08-25 | 辽宁工程技术大学 | 一种基于知识图谱的查询分析系统 |
US10878809B2 (en) | 2014-05-30 | 2020-12-29 | Apple Inc. | Multi-command single utterance input method |
US10930282B2 (en) | 2015-03-08 | 2021-02-23 | Apple Inc. | Competing devices responding to voice triggers |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
CN112721933A (zh) * | 2020-07-28 | 2021-04-30 | 盐城工业职业技术学院 | 一种基于语音识别的农用拖拉机的控制终端 |
US11010127B2 (en) | 2015-06-29 | 2021-05-18 | Apple Inc. | Virtual assistant for media playback |
CN112820319A (zh) * | 2020-12-30 | 2021-05-18 | 麒盛科技股份有限公司 | 一种人类鼾声识别方法及其装置 |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
CN112954521A (zh) * | 2021-01-26 | 2021-06-11 | 深圳市富天达电子有限公司 | 一种具有声控免按键调节系统的蓝牙耳机 |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
WO2021139772A1 (zh) * | 2020-01-10 | 2021-07-15 | 阿里巴巴集团控股有限公司 | 一种音频信息处理方法、装置、电子设备以及存储介质 |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
CN113674766A (zh) * | 2021-08-18 | 2021-11-19 | 上海复深蓝软件股份有限公司 | 语音评价方法、装置、计算机设备及存储介质 |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
WO2022037526A1 (zh) * | 2020-08-20 | 2022-02-24 | 北京字节跳动网络技术有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
CN115132227A (zh) * | 2022-06-28 | 2022-09-30 | 深圳供电局有限公司 | 一种基于声音的电容器故障检测方法及相关装置 |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11656884B2 (en) | 2017-01-09 | 2023-05-23 | Apple Inc. | Application integration with a digital assistant |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11853647B2 (en) | 2015-12-23 | 2023-12-26 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11928604B2 (en) | 2005-09-08 | 2024-03-12 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US12010262B2 (en) | 2013-08-06 | 2024-06-11 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US12014118B2 (en) | 2017-05-15 | 2024-06-18 | Apple Inc. | Multi-modal interfaces having selection disambiguation and text modification capability |
US12051413B2 (en) | 2015-09-30 | 2024-07-30 | Apple Inc. | Intelligent device identification |
US12067985B2 (en) | 2018-06-01 | 2024-08-20 | Apple Inc. | Virtual assistant operations in multi-device environments |
US12073147B2 (en) | 2013-06-09 | 2024-08-27 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US12087308B2 (en) | 2010-01-18 | 2024-09-10 | Apple Inc. | Intelligent automated assistant |
US12197817B2 (en) | 2016-06-11 | 2025-01-14 | Apple Inc. | Intelligent device arbitration and control |
US12223282B2 (en) | 2016-06-09 | 2025-02-11 | Apple Inc. | Intelligent automated assistant in a home environment |
US12254887B2 (en) | 2017-05-16 | 2025-03-18 | Apple Inc. | Far-field extension of digital assistant services for providing a notification of an event to a user |
US12277954B2 (en) | 2024-04-16 | 2025-04-15 | Apple Inc. | Voice trigger for a digital assistant |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015026960A1 (en) * | 2013-08-21 | 2015-02-26 | Sanger Terence D | Systems, methods, and uses of b a yes -optimal nonlinear filtering algorithm |
US9754593B2 (en) | 2015-11-04 | 2017-09-05 | International Business Machines Corporation | Sound envelope deconstruction to identify words and speakers in continuous speech |
KR20180082033A (ko) * | 2017-01-09 | 2018-07-18 | 삼성전자주식회사 | 음성을 인식하는 전자 장치 |
US10264410B2 (en) * | 2017-01-10 | 2019-04-16 | Sang-Rae PARK | Wearable wireless communication device and communication group setting method using the same |
CN109146450A (zh) * | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 支付方法、客户端、电子设备、存储介质和服务器 |
GB201719734D0 (en) * | 2017-10-30 | 2018-01-10 | Cirrus Logic Int Semiconductor Ltd | Speaker identification |
CN108600898B (zh) * | 2018-03-28 | 2020-03-31 | 深圳市冠旭电子股份有限公司 | 一种配置无线音箱的方法、无线音箱及终端设备 |
CN108922541B (zh) * | 2018-05-25 | 2023-06-02 | 南京邮电大学 | 基于dtw和gmm模型的多维特征参数声纹识别方法 |
CN109545192B (zh) * | 2018-12-18 | 2022-03-08 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
CN111027453B (zh) * | 2019-12-06 | 2022-05-17 | 西北工业大学 | 基于高斯混合模型的非合作水中目标自动识别方法 |
CN113223511B (zh) * | 2020-01-21 | 2024-04-16 | 珠海市煊扬科技有限公司 | 用于语音识别的音频处理装置 |
CN112035696B (zh) * | 2020-09-09 | 2024-05-28 | 兰州理工大学 | 一种基于音频指纹的语音检索方法及系统 |
CN112331231B (zh) * | 2020-11-24 | 2024-04-19 | 南京农业大学 | 基于音频技术的肉鸡采食量检测系统 |
CN112242138A (zh) * | 2020-11-26 | 2021-01-19 | 中国人民解放军陆军工程大学 | 一种无人平台语音控制方法 |
CN113053398B (zh) * | 2021-03-11 | 2022-09-27 | 东风汽车集团股份有限公司 | 基于mfcc和bp神经网络的说话人识别系统及方法 |
CN115950517A (zh) * | 2023-03-02 | 2023-04-11 | 南京大学 | 一种可配置水声信号特征提取方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1268732A (zh) * | 2000-03-31 | 2000-10-04 | 清华大学 | 基于语音识别专用芯片的特定人语音识别、语音回放方法 |
CN1427395A (zh) * | 2001-12-17 | 2003-07-02 | 中国科学院自动化研究所 | 基于子带能量和特征检测技术的语音信号端点检测方法 |
CN1787075A (zh) * | 2005-12-13 | 2006-06-14 | 浙江大学 | 基于内嵌gmm核的支持向量机模型的说话人识别方法 |
CN101206858A (zh) * | 2007-12-12 | 2008-06-25 | 北京中星微电子有限公司 | 一种孤立词语音端点检测的方法及系统 |
CN101241699A (zh) * | 2008-03-14 | 2008-08-13 | 北京交通大学 | 一种远程汉语教学中的说话人确认系统 |
CN101625857A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 一种自适应的语音端点检测方法 |
CN101872616A (zh) * | 2009-04-22 | 2010-10-27 | 索尼株式会社 | 端点检测方法以及使用该方法的系统 |
CN102005070A (zh) * | 2010-11-17 | 2011-04-06 | 广东中大讯通信息有限公司 | 一种语音识别门禁系统 |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN102737629A (zh) * | 2011-11-11 | 2012-10-17 | 东南大学 | 一种嵌入式语音情感识别方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6195634B1 (en) * | 1997-12-24 | 2001-02-27 | Nortel Networks Corporation | Selection of decoys for non-vocabulary utterances rejection |
JP2001166789A (ja) * | 1999-12-10 | 2001-06-22 | Matsushita Electric Ind Co Ltd | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 |
WO2006024117A1 (en) * | 2004-09-02 | 2006-03-09 | Coelho Rosangela Fernandes | Method for automatic speaker recognition |
US8708702B2 (en) * | 2004-09-16 | 2014-04-29 | Lena Foundation | Systems and methods for learning using contextual feedback |
US20110035215A1 (en) * | 2007-08-28 | 2011-02-10 | Haim Sompolinsky | Method, device and system for speech recognition |
CN102332263B (zh) * | 2011-09-23 | 2012-11-07 | 浙江大学 | 一种基于近邻原则合成情感模型的说话人识别方法 |
CN104272382B (zh) * | 2012-03-06 | 2018-08-07 | 新加坡科技研究局 | 基于模板的个性化歌唱合成的方法和系统 |
-
2013
- 2013-03-29 CN CN201310109044.3A patent/CN103236260B/zh active Active
- 2013-04-26 WO PCT/CN2013/074831 patent/WO2014153800A1/zh active Application Filing
- 2013-04-26 US US14/366,482 patent/US20150340027A1/en not_active Abandoned
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1268732A (zh) * | 2000-03-31 | 2000-10-04 | 清华大学 | 基于语音识别专用芯片的特定人语音识别、语音回放方法 |
CN1427395A (zh) * | 2001-12-17 | 2003-07-02 | 中国科学院自动化研究所 | 基于子带能量和特征检测技术的语音信号端点检测方法 |
CN1787075A (zh) * | 2005-12-13 | 2006-06-14 | 浙江大学 | 基于内嵌gmm核的支持向量机模型的说话人识别方法 |
CN101206858A (zh) * | 2007-12-12 | 2008-06-25 | 北京中星微电子有限公司 | 一种孤立词语音端点检测的方法及系统 |
CN101241699A (zh) * | 2008-03-14 | 2008-08-13 | 北京交通大学 | 一种远程汉语教学中的说话人确认系统 |
CN101625857A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 一种自适应的语音端点检测方法 |
CN101872616A (zh) * | 2009-04-22 | 2010-10-27 | 索尼株式会社 | 端点检测方法以及使用该方法的系统 |
CN102005070A (zh) * | 2010-11-17 | 2011-04-06 | 广东中大讯通信息有限公司 | 一种语音识别门禁系统 |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN102737629A (zh) * | 2011-11-11 | 2012-10-17 | 东南大学 | 一种嵌入式语音情感识别方法及装置 |
Cited By (197)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11928604B2 (en) | 2005-09-08 | 2024-03-12 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US11979836B2 (en) | 2007-04-03 | 2024-05-07 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11900936B2 (en) | 2008-10-02 | 2024-02-13 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US12165635B2 (en) | 2010-01-18 | 2024-12-10 | Apple Inc. | Intelligent automated assistant |
US12087308B2 (en) | 2010-01-18 | 2024-09-10 | Apple Inc. | Intelligent automated assistant |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US11862186B2 (en) | 2013-02-07 | 2024-01-02 | Apple Inc. | Voice trigger for a digital assistant |
US11636869B2 (en) | 2013-02-07 | 2023-04-25 | Apple Inc. | Voice trigger for a digital assistant |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US12009007B2 (en) | 2013-02-07 | 2024-06-11 | Apple Inc. | Voice trigger for a digital assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
US12073147B2 (en) | 2013-06-09 | 2024-08-27 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US12010262B2 (en) | 2013-08-06 | 2024-06-11 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
CN105981099A (zh) * | 2014-02-06 | 2016-09-28 | 三菱电机株式会社 | 语音检索装置和语音检索方法 |
CN103940190A (zh) * | 2014-04-03 | 2014-07-23 | 合肥美的电冰箱有限公司 | 具有食品管理系统的冰箱及食品管理方法 |
CN103940190B (zh) * | 2014-04-03 | 2016-08-24 | 合肥美的电冰箱有限公司 | 具有食品管理系统的冰箱及食品管理方法 |
CN103974143A (zh) * | 2014-05-20 | 2014-08-06 | 北京速能数码网络技术有限公司 | 一种生成媒体数据的方法和设备 |
US10878809B2 (en) | 2014-05-30 | 2020-12-29 | Apple Inc. | Multi-command single utterance input method |
US11670289B2 (en) | 2014-05-30 | 2023-06-06 | Apple Inc. | Multi-command single utterance input method |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US12118999B2 (en) | 2014-05-30 | 2024-10-15 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11699448B2 (en) | 2014-05-30 | 2023-07-11 | Apple Inc. | Intelligent assistant for home automation |
US12067990B2 (en) | 2014-05-30 | 2024-08-20 | Apple Inc. | Intelligent assistant for home automation |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
CN106415719A (zh) * | 2014-06-19 | 2017-02-15 | 苹果公司 | 使用说话者识别的语音信号的稳健端点指示 |
CN106415719B (zh) * | 2014-06-19 | 2019-10-18 | 苹果公司 | 使用说话者识别的语音信号的稳健端点指示 |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11838579B2 (en) | 2014-06-30 | 2023-12-05 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US12200297B2 (en) | 2014-06-30 | 2025-01-14 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN104183245A (zh) * | 2014-09-04 | 2014-12-03 | 福建星网视易信息系统有限公司 | 一种演唱者音色相似的歌星推荐方法与装置 |
CN105609101A (zh) * | 2014-11-14 | 2016-05-25 | 现代自动车株式会社 | 语音识别系统及语音识别方法 |
CN105869641A (zh) * | 2015-01-22 | 2016-08-17 | 佳能株式会社 | 语音识别装置及语音识别方法 |
US12236952B2 (en) | 2015-03-08 | 2025-02-25 | Apple Inc. | Virtual assistant activation |
US10930282B2 (en) | 2015-03-08 | 2021-02-23 | Apple Inc. | Competing devices responding to voice triggers |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
CN106161755A (zh) * | 2015-04-20 | 2016-11-23 | 钰太芯微电子科技(上海)有限公司 | 一种关键词语音唤醒系统及唤醒方法及移动终端 |
US12154016B2 (en) | 2015-05-15 | 2024-11-26 | Apple Inc. | Virtual assistant in a communication session |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US12001933B2 (en) | 2015-05-15 | 2024-06-04 | Apple Inc. | Virtual assistant in a communication session |
CN104900235B (zh) * | 2015-05-25 | 2019-05-28 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
CN104851425A (zh) * | 2015-05-30 | 2015-08-19 | 宁波摩米创新工场电子科技有限公司 | 一种基于对称式三极管放大电路的高清语音识别系统 |
CN104900234A (zh) * | 2015-05-30 | 2015-09-09 | 宁波摩米创新工场电子科技有限公司 | 一种高清语音识别系统 |
CN104835495B (zh) * | 2015-05-30 | 2018-05-08 | 宁波摩米创新工场电子科技有限公司 | 一种基于低通滤波的高清语音识别系统 |
CN104835495A (zh) * | 2015-05-30 | 2015-08-12 | 宁波摩米创新工场电子科技有限公司 | 一种基于低通滤波的高清语音识别系统 |
CN104835496A (zh) * | 2015-05-30 | 2015-08-12 | 宁波摩米创新工场电子科技有限公司 | 一种基于线性驱动的高清语音识别系统 |
CN104900234B (zh) * | 2015-05-30 | 2018-09-21 | 宁波摩米创新工场电子科技有限公司 | 一种高清语音识别系统 |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
US11010127B2 (en) | 2015-06-29 | 2021-05-18 | Apple Inc. | Virtual assistant for media playback |
CN106328152B (zh) * | 2015-06-30 | 2020-01-31 | 芋头科技(杭州)有限公司 | 一种室内噪声污染自动识别监测系统 |
CN106328152A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种室内噪声污染自动识别监测系统 |
CN105096551A (zh) * | 2015-07-29 | 2015-11-25 | 努比亚技术有限公司 | 一种实现虚拟遥控器的装置和方法 |
CN105245497A (zh) * | 2015-08-31 | 2016-01-13 | 刘申宁 | 一种身份认证方法及装置 |
CN105245497B (zh) * | 2015-08-31 | 2019-01-04 | 刘申宁 | 一种身份认证方法及装置 |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11550542B2 (en) | 2015-09-08 | 2023-01-10 | Apple Inc. | Zero latency digital assistant |
US12204932B2 (en) | 2015-09-08 | 2025-01-21 | Apple Inc. | Distributed personal assistant |
US11954405B2 (en) | 2015-09-08 | 2024-04-09 | Apple Inc. | Zero latency digital assistant |
US12051413B2 (en) | 2015-09-30 | 2024-07-30 | Apple Inc. | Intelligent device identification |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
US11853647B2 (en) | 2015-12-23 | 2023-12-26 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN105709291A (zh) * | 2016-01-07 | 2016-06-29 | 王贵霞 | 一种智能血液透析过滤装置 |
CN105709291B (zh) * | 2016-01-07 | 2018-12-04 | 王贵霞 | 一种智能血液透析过滤装置 |
CN105931635A (zh) * | 2016-03-31 | 2016-09-07 | 北京奇艺世纪科技有限公司 | 一种音频分割方法及装置 |
US12223282B2 (en) | 2016-06-09 | 2025-02-11 | Apple Inc. | Intelligent automated assistant in a home environment |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US12175977B2 (en) | 2016-06-10 | 2024-12-24 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11657820B2 (en) | 2016-06-10 | 2023-05-23 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US12197817B2 (en) | 2016-06-11 | 2025-01-14 | Apple Inc. | Intelligent device arbitration and control |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
CN105913840A (zh) * | 2016-06-20 | 2016-08-31 | 西可通信技术设备(河源)有限公司 | 一种语音识别装置及移动终端 |
CN106328168A (zh) * | 2016-08-30 | 2017-01-11 | 成都普创通信技术股份有限公司 | 一种语音信号相似度检测方法 |
CN106448654A (zh) * | 2016-09-30 | 2017-02-22 | 安徽省云逸智能科技有限公司 | 一种机器人语音识别系统及其工作方法 |
CN106448655A (zh) * | 2016-10-18 | 2017-02-22 | 江西博瑞彤芸科技有限公司 | 语音识别方法 |
CN106557164A (zh) * | 2016-11-18 | 2017-04-05 | 北京光年无限科技有限公司 | 应用于智能机器人的多模态输出方法和装置 |
CN106782550A (zh) * | 2016-11-28 | 2017-05-31 | 黑龙江八农垦大学 | 一种基于dsp芯片的自动语音识别系统 |
WO2018107874A1 (zh) * | 2016-12-16 | 2018-06-21 | 广州视源电子科技股份有限公司 | 一种音频数据的自动增益控制方法与装置 |
CN106782595B (zh) * | 2016-12-26 | 2020-06-09 | 云知声(上海)智能科技有限公司 | 一种降低语音泄露的鲁棒阻塞矩阵方法 |
CN106653043B (zh) * | 2016-12-26 | 2019-09-27 | 云知声(上海)智能科技有限公司 | 降低语音失真的自适应波束形成方法 |
CN106653043A (zh) * | 2016-12-26 | 2017-05-10 | 上海语知义信息技术有限公司 | 降低语音失真的自适应波束形成方法 |
CN106782595A (zh) * | 2016-12-26 | 2017-05-31 | 上海语知义信息技术有限公司 | 一种降低语音泄露的鲁棒阻塞矩阵方法 |
US11656884B2 (en) | 2017-01-09 | 2023-05-23 | Apple Inc. | Application integration with a digital assistant |
US12260234B2 (en) | 2017-01-09 | 2025-03-25 | Apple Inc. | Application integration with a digital assistant |
CN106782521A (zh) * | 2017-03-22 | 2017-05-31 | 海南职业技术学院 | 一种语音识别系统 |
US10741181B2 (en) | 2017-05-09 | 2020-08-11 | Apple Inc. | User interface for correcting recognition errors |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US11862151B2 (en) | 2017-05-12 | 2024-01-02 | Apple Inc. | Low-latency intelligent automated assistant |
US11837237B2 (en) | 2017-05-12 | 2023-12-05 | Apple Inc. | User-specific acoustic models |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11538469B2 (en) | 2017-05-12 | 2022-12-27 | Apple Inc. | Low-latency intelligent automated assistant |
US12014118B2 (en) | 2017-05-15 | 2024-06-18 | Apple Inc. | Multi-modal interfaces having selection disambiguation and text modification capability |
US12026197B2 (en) | 2017-05-16 | 2024-07-02 | Apple Inc. | Intelligent automated assistant for media exploration |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
US12254887B2 (en) | 2017-05-16 | 2025-03-18 | Apple Inc. | Far-field extension of digital assistant services for providing a notification of an event to a user |
CN109429523A (zh) * | 2017-06-13 | 2019-03-05 | 北京嘀嘀无限科技发展有限公司 | 说话者确认方法、装置及系统 |
CN107452403A (zh) * | 2017-09-12 | 2017-12-08 | 清华大学 | 一种说话人标记方法 |
CN107564522A (zh) * | 2017-09-18 | 2018-01-09 | 郑州云海信息技术有限公司 | 一种智能控制方法及装置 |
CN108022584A (zh) * | 2017-11-29 | 2018-05-11 | 芜湖星途机器人科技有限公司 | 办公室语音识别优化方法 |
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别系统装置 |
CN108172229A (zh) * | 2017-12-12 | 2018-06-15 | 天津津航计算技术研究所 | 一种基于语音识别的身份验证及可靠操控的方法 |
CN108022593A (zh) * | 2018-01-16 | 2018-05-11 | 成都福兰特电子技术股份有限公司 | 一种高灵敏度语音识别系统及其控制方法 |
US12211502B2 (en) | 2018-03-26 | 2025-01-28 | Apple Inc. | Natural assistant interaction |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
CN108538310A (zh) * | 2018-03-28 | 2018-09-14 | 天津大学 | 一种基于长时信号功率谱变化的语音端点检测方法 |
CN108538310B (zh) * | 2018-03-28 | 2021-06-25 | 天津大学 | 一种基于长时信号功率谱变化的语音端点检测方法 |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11487364B2 (en) | 2018-05-07 | 2022-11-01 | Apple Inc. | Raise to speak |
US11900923B2 (en) | 2018-05-07 | 2024-02-13 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11907436B2 (en) | 2018-05-07 | 2024-02-20 | Apple Inc. | Raise to speak |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
US11630525B2 (en) | 2018-06-01 | 2023-04-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11360577B2 (en) | 2018-06-01 | 2022-06-14 | Apple Inc. | Attention aware virtual assistant dismissal |
US12061752B2 (en) | 2018-06-01 | 2024-08-13 | Apple Inc. | Attention aware virtual assistant dismissal |
US12067985B2 (en) | 2018-06-01 | 2024-08-20 | Apple Inc. | Virtual assistant operations in multi-device environments |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US10720160B2 (en) | 2018-06-01 | 2020-07-21 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US12080287B2 (en) | 2018-06-01 | 2024-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
CN110660413B (zh) * | 2018-06-28 | 2022-04-15 | 新唐科技股份有限公司 | 语音活动侦测系统 |
CN110660413A (zh) * | 2018-06-28 | 2020-01-07 | 新唐科技股份有限公司 | 语音活动侦测系统 |
WO2020034628A1 (zh) * | 2018-08-14 | 2020-02-20 | 平安科技(深圳)有限公司 | 口音识别方法、装置、计算机装置及存储介质 |
CN109147796A (zh) * | 2018-09-06 | 2019-01-04 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN109147796B (zh) * | 2018-09-06 | 2024-02-09 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
WO2020073518A1 (zh) * | 2018-10-11 | 2020-04-16 | 平安科技(深圳)有限公司 | 声纹验证的方法、装置、计算机设备和存储介质 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US12136419B2 (en) | 2019-03-18 | 2024-11-05 | Apple Inc. | Multimodality in digital assistant systems |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN109920406B (zh) * | 2019-03-28 | 2021-12-03 | 国家计算机网络与信息安全管理中心 | 一种基于可变起始位置的动态语音识别方法及系统 |
CN109920406A (zh) * | 2019-03-28 | 2019-06-21 | 国家计算机网络与信息安全管理中心 | 一种基于可变起始位置的动态语音识别方法及系统 |
US12154571B2 (en) | 2019-05-06 | 2024-11-26 | Apple Inc. | Spoken notifications |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US12216894B2 (en) | 2019-05-06 | 2025-02-04 | Apple Inc. | User configurable task triggers |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11360739B2 (en) | 2019-05-31 | 2022-06-14 | Apple Inc. | User activity shortcut suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US12154545B2 (en) | 2020-01-10 | 2024-11-26 | Alibaba Group Holding Limited | Audio information processing method, audio information processing apparatus, electronic device, and storage medium |
WO2021139772A1 (zh) * | 2020-01-10 | 2021-07-15 | 阿里巴巴集团控股有限公司 | 一种音频信息处理方法、装置、电子设备以及存储介质 |
CN111277341B (zh) * | 2020-01-21 | 2021-02-19 | 北京清华亚迅电子信息研究所 | 无线电信号分析方法及装置 |
CN111277341A (zh) * | 2020-01-21 | 2020-06-12 | 北京清华亚迅电子信息研究所 | 无线电信号分析方法及装置 |
CN111429890A (zh) * | 2020-03-10 | 2020-07-17 | 厦门快商通科技股份有限公司 | 一种微弱语音增强方法、语音识别方法及计算机可读存储介质 |
CN111429890B (zh) * | 2020-03-10 | 2023-02-10 | 厦门快商通科技股份有限公司 | 一种微弱语音增强方法、语音识别方法及计算机可读存储介质 |
CN111581348A (zh) * | 2020-04-28 | 2020-08-25 | 辽宁工程技术大学 | 一种基于知识图谱的查询分析系统 |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US12197712B2 (en) | 2020-05-11 | 2025-01-14 | Apple Inc. | Providing relevant data items based on context |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11924254B2 (en) | 2020-05-11 | 2024-03-05 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
US12219314B2 (en) | 2020-07-21 | 2025-02-04 | Apple Inc. | User identification using headphones |
US11750962B2 (en) | 2020-07-21 | 2023-09-05 | Apple Inc. | User identification using headphones |
CN112721933A (zh) * | 2020-07-28 | 2021-04-30 | 盐城工业职业技术学院 | 一种基于语音识别的农用拖拉机的控制终端 |
CN112721933B (zh) * | 2020-07-28 | 2022-01-04 | 盐城工业职业技术学院 | 一种基于语音识别的农用拖拉机的控制终端 |
WO2022037526A1 (zh) * | 2020-08-20 | 2022-02-24 | 北京字节跳动网络技术有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN112820319A (zh) * | 2020-12-30 | 2021-05-18 | 麒盛科技股份有限公司 | 一种人类鼾声识别方法及其装置 |
CN112954521A (zh) * | 2021-01-26 | 2021-06-11 | 深圳市富天达电子有限公司 | 一种具有声控免按键调节系统的蓝牙耳机 |
CN113674766A (zh) * | 2021-08-18 | 2021-11-19 | 上海复深蓝软件股份有限公司 | 语音评价方法、装置、计算机设备及存储介质 |
CN115132227A (zh) * | 2022-06-28 | 2022-09-30 | 深圳供电局有限公司 | 一种基于声音的电容器故障检测方法及相关装置 |
US12277954B2 (en) | 2024-04-16 | 2025-04-15 | Apple Inc. | Voice trigger for a digital assistant |
Also Published As
Publication number | Publication date |
---|---|
WO2014153800A1 (zh) | 2014-10-02 |
US20150340027A1 (en) | 2015-11-26 |
CN103236260B (zh) | 2015-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103236260B (zh) | 语音识别系统 | |
CN104835498B (zh) | 基于多类型组合特征参数的声纹识别方法 | |
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
US8306817B2 (en) | Speech recognition with non-linear noise reduction on Mel-frequency cepstra | |
Ali et al. | Gender recognition system using speech signal | |
CN109192200B (zh) | 一种语音识别方法 | |
CN104900229A (zh) | 一种语音信号混合特征参数的提取方法 | |
CN104078039A (zh) | 基于隐马尔科夫模型的家用服务机器人语音识别系统 | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN111145763A (zh) | 一种基于gru的音频中的人声识别方法及系统 | |
Chauhan et al. | Speech to text converter using Gaussian Mixture Model (GMM) | |
CN108682432B (zh) | 语音情感识别装置 | |
CN106024010A (zh) | 一种基于共振峰曲线的语音信号动态特征提取方法 | |
CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
Bagul et al. | Text independent speaker recognition system using GMM | |
CN102201230B (zh) | 一种突发事件语音检测方法 | |
Katsir et al. | Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation | |
Malode et al. | Advanced speaker recognition | |
Kumar et al. | Text dependent voice recognition system using MFCC and VQ for security applications | |
TW202143215A (zh) | 應用深度學習的語音增強系統 | |
Kaminski et al. | Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models | |
Sas et al. | Gender recognition using neural networks and ASR techniques | |
Singh et al. | Features and techniques for speaker recognition | |
Guntur | Feature extraction algorithms for speaker recognition system and fuzzy logic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |