[go: up one dir, main page]

CN103971678A - 关键词检测方法和装置 - Google Patents

关键词检测方法和装置 Download PDF

Info

Publication number
CN103971678A
CN103971678A CN201310034769.0A CN201310034769A CN103971678A CN 103971678 A CN103971678 A CN 103971678A CN 201310034769 A CN201310034769 A CN 201310034769A CN 103971678 A CN103971678 A CN 103971678A
Authority
CN
China
Prior art keywords
phoneme
keyword
model
phonemes
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310034769.0A
Other languages
English (en)
Other versions
CN103971678B (zh
Inventor
卢鲤
张翔
岳帅
饶丰
王尔玉
李露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310034769.0A priority Critical patent/CN103971678B/zh
Priority to PCT/CN2013/085905 priority patent/WO2014117547A1/en
Priority to US14/103,775 priority patent/US9466289B2/en
Publication of CN103971678A publication Critical patent/CN103971678A/zh
Application granted granted Critical
Publication of CN103971678B publication Critical patent/CN103971678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了关键词检测方法和装置。其中,该方法包括:使用IPA音素集合和多个不同语种的数据训练一个声学模型;其中,所述前景模型用于描述关键词对应的音素,所述背景模型用于吸收非关键词对应的音素;利用所述声学模型搭建一个对应的音素解码器;采集待检测的关键词音频样本,利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列;利用所述声学模型检测待测音频,以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素,而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素。采用本发明,能够提高关键测的检测的灵活性和广泛性。

Description

关键词检测方法和装置
技术领域
本申请涉及互联网技术,特别涉及关键词检测方法和装置。
背景技术
音频关键词检测是语音安全监控中的重要一环,其中最大的难点是语言种类较多,而识别引擎往往只能对某一种语言进行较为准确的识别,导致关键词检测系统很难普适的对各种语言音频进行识别。
基于此,基于音频样本的关键词检测方法应运而生,该方法并不需要具体明确待检测音频的语言种类,下面对该基于音频样本的关键词检测方法进行描述:
首先,利用任意一种语言的音频数据训练得到音素级后验概率的神经网络;
其后,在获得一个待检测的关键词音频样本时,利用神经网络获取该关键词音频样本对应的特征序列,具体就是该关键词音频样本在神经网络训练时候得到的各个音素上的后验概率,形成该关键词音频样本的一种表征形式。
最后,使用滑动窗从特征序列开始逐步向后平移,每一次的平移继续使用神经网络得到每一个滑动窗内的特征表征,之后使用动态时间归整(DTW:Dynamic Time Warping)算法进行弯曲比对,如果特征表征符合的情况下,则输出一次关键词的检出。
至此,完成现有基于音频样本的关键词检测方法的描述。
上述基于音频样本的关键词检测方法中,特征层表征、特征序列基于神经网络提取,具备一定的鲁棒性;另外,该方法使用DTW算法配合滑动窗来检出关键词,而DTW算法是早期语音识别中使用的一种方案,主要适用于孤立词语音识别系统中,其核心思想是基于动态规划,对音频特征在特征层面直接进行比对,因此实现较为简单,实时率较高。
但是,由于人在发声的时候会随着年龄,情绪,环境,健康情况等等外界因素而发生读音的改变,因此,DTW算法不具备非常高的鲁棒性,往往环境噪声就可以导致该关键词检测的精确度大幅下降;
还有,在现有关键词检测方法中,神经网络的训练是基于单一语种,如此,当该语种的音频样本进行关键词检测时会有较好的性能,但是扩充到其他语种之后,由于单一语种的音素集以及数据发音特点限制,在非训练语种的音频上,难以取得较好的识别性能。
发明内容
本申请提供了关键词检测方法和装置,以提高关键词的检测精确度。
本申请提供的技术方案包括:
一种关键词检测方法,该方法包括:
使用国际通用音标IPA音素集合和多个不同语种的数据训练一个声学模型;其中,所述前景模型用于描述关键词对应的音素,所述背景模型用于吸收非关键词对应的音素;
利用所述声学模型搭建一个对应的音素解码器;
采集关键词音频样本,利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列;
利用所述声学模型对待检测音频进行检测,以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素部分,而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素部分。
一种关键词检测装置,该装置包括:
声学模型训练模块,用于使用国际通用音标IPA音素集合和多个不同语种的数据训练一个声学模型;其中,所述前景模型用于描述关键词对应的音素,所述背景模型用于吸收非关键词对应的音素;
音素解码器模块,用于利用所述声学模型搭建成一个对应的音素解码器;
关键词音频样本采集模块,用于采集关键词音频样本,利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列;
关键测检测模块,用于利用所述声学模型检测所述待检测音频,以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素部分,而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素部分。
由以上技术方案可以看出,本发明不再使用DTW算法,而是通过对多个不同语种的数据和IPA音素集合训练声学模型,该声学模型融合各个语种的音素,真正的实现了声学模型和语种无关,如此,基于声学模型的识别系统进行关键词的检测,这相比于单纯的DTW算法具有非常大的鲁棒性能优势,也能提高关键测的检测精度。
附图说明
图1为本发明实施例提供的方法流程图;
图2为本发明实施例提供的关键词检索模型示意图;
图3为本发明实施例提供的框架示意图;
图4为本发明实施例提供的前景模型训练流程图;
图5为本发明实施例提供的隐马尔可夫模型结构示意图;
图6为本发明实施例提供的关键词音素序列确定流程图;
图7为本发明实施例提供的PCN线性结构示意图;
图8为本发明实施例提供的步骤603实现流程图;
图9为本发明实施例提供的装置结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明提供的方法在进行关键词检测时不再使用DTW算法,而是通过训练声学模型,基于声学模型的识别系统进行关键词的检测,这相比于单纯的DTW算法具有非常大的鲁棒性能优势。
下面对本发明提供的方法进行描述:
参见图1,图1为本发明实施例提供的方法流程图。如图1所示,该流程可包括以下步骤:
步骤101,使用国际通用音标(IPA)音素集合和多个不同语种的数据训练一个声学模型;其中,所述前景模型用于描述关键词对应的音素,所述背景模型用于吸收非关键词对应的音素。
作为本发明的一个实施例,步骤101中,使用IPA音素集合和多个不同语种的数据训练一个声学模型可包括:
采集多个不同语种的音频数据和该音频数据的标注数据;
获取所述多个不同语种中每一语种的音素集合;
将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合;
基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型。
IPA,国际通用且被认为音素覆盖面最广泛,基于此,本发明先将采集的各个音频数据所使用的各个语种比如中文、英语等的音素映射到IPA的音素映射到IPA音素得到IPA音素映射集合(也称映射后的音素集合),利用该IPA音素映射集合训练声学模型,能够保证训练出的声学模型融合各个语种的音素,从而真正的实现声学模型和语种无关,便于后续关键词的检测。
还有,本发明中,将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合具体实现时可有多种实现方式,下面仅举出以下三种实现方式。其中,该三种实现方式仅是一种举例,并非用于限定本发明:
方式1:
本方式1比较简单,其是基于预设定的音素映射规则的方法实现。其中,音素映射规则是经由语言学家的研究得到各个语种中音素的发音规律,利用该发音规律与IPA音素的发音规律来建立各个语种中音素与IPA的音素之间的映射关系。基于此,本方式1可直接利用该音素映射规则将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合。
方式2:
本方式2是基于数据驱动的方法。其中,基于数据驱动的方法是通过解码一定数量的特定语种数据,得到特定语种的音素和IPA音素的混淆关系,如果特定语种的一个音素与IPA的一个音素的混淆程度比较大,比如大于第一设定阈值,则就认为这两个音素之间具有映射关系。
方式3:
一般来说,基于数据驱动的方法优于基于音素映射规则的方法,因此,作为本发明的一个实施例,本方式3是上述方式1和方式2的组合,即先基于音素映射规则初步建立语种的音素与IPA音素的映射关系,之后再进行数据驱动的方法修正得到的初步映射关系。
至此,完成上述三种方式的描述。
还有,本发明中,上述如何基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型在下文进行了描述。
步骤102,利用所述声学模型搭建一个对应的音素解码器。
步骤103,采集关键词音频样本,利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列。
作为本发明的一个实施例,步骤103中,利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列具体为:
识别采集的关键词音频样本的数量,
在采集的关键词音频样本的数量仅为一个时,利用所述音素解码器对采集的一个关键词音频样本进行解码,将解码之后得到的唯一音素系列确定为所述关键词音素序列;
在采集的关键词音频样本的数量大于1时,利用所述音素解码器对采集的每一个关键词音频样本进行解码得到每一关键词音频样本对应的音素序列,从得到的音素序列中选择一个作为所述关键词音素序列。
至于在所述数量大于1时,如何从得到的音素序列中选择一个作为关键词音素序列这在下文进行了描述,这里暂不赘述。
步骤104,利用所述声学模型对待检测音频进行检测,以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素部分,而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素部分。
作为本发明的一个实施例,则基于声学模型,本发明构建了图2所示的关键词检索模型。如图2所示,该关键词检索模型由前景模型网络和背景模型网络组成,其中,前景模型网络中KW_1至KW_N表示关键词音素序列,具体由前景模型表征,而背景模型网络中FILLER_1至FILLER_N表示背景模型的所有音素,当待检测音频进入图2所示的模型时,包含关键词的音素会在前景模型网络中吸收,而非关键词部分会被背景模型网络吸收,从而实现关键词的检出。
至此,完成图1所示的流程。对应图1所示的流程,本发明提供了对应的框架示意图,具体如图3所示。
在上面描述中,作为本发明的一个实施例,基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型可包括:
对采集的每一语种的音频数据进行特征提取得到对应的音频特征序列;这里,特征提取方式具体实现时可有多种实现形式,比如感知线性预测数据(PLP)、或者为Mel频率倒谱系数(MFCC)数据等,本发明并不具体限定;
从IPA音素映射集合中获取每一音频特征序列对应的特征音素集合;
利用特征音素集合、采集的标注数据分别训练前景模型和背景模型;
利用所述前景模型和背景模型组合成所述声音模型。
下面对如何训练前景模型和背景模型分别进行重点描述:
前景模型训练:
参见图4,图4为本发明实施例提供的前景模型训练流程图。如图4所示,该流程可包括以下步骤:
步骤401,训练种子模型。
这里,训练种子模型就是为特征音素集合中每一音素的三个状态训练最初始的隐马尔可夫模型(HMM:Hidden Markov Model)。也就是说,执行完步骤401,特征音素集合中每一音素就为一个隐马尔可夫模型,该隐马尔可夫模型拓扑结构如图5所示。在图5中,每一音素其中包含三个状态,从左向右时序排列,依次为S1、S2、S3。
在每一个状态上,音素的发射概率是使用混合高斯模型(GMM:Gaussianmixture model)进行估计的,其数学表达式如下式:
p ( x → | λ ) = Σ i = 1 M p i b i ( x → ) (公式1)
其中,是音素对应的特征矢量,i=1...M是M个高斯分布,pi为第i个高斯分布的权重,保证每一个高斯分布表示为下式形式:
b i ( x → ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x → - μ → i ) ′ Σ i - 1 ( x → - μ → i ) } (公式2)
其中,和∑i分别为第i个高斯分布的均值和方差。
步骤402,单音素模型训练。
本步骤402中,针对每一音素,从之前采集的标注数据中获取与该音素相关的数据,利用该获取的数据对在步骤401形成的该音素最初始的隐马尔可夫模型进行更新,得到单音素模型。
步骤403,上下文音素扩展。
本步骤403之所以执行,主要是考虑到人的声道变化过程,每一个音素的发出都是和上下音素相关联,采用单一音素不足以描述,因此本步骤403,针对特征音素集合中的每一音素,获取该音素的上下文音素,得到三音素,即将过去的单音素变成上下文链接的三音素。
步骤404,决策树聚类。
本步骤404中,决策树聚类实质是对每一三音素的状态进行的聚类,通过该聚类能够适当减少后续生成的三音素模型。
步骤405,高斯分裂训练。
通过高斯分裂训练能够保证在三音素聚类后,对聚类后的三音素进行相应参数的更新,具体可与现有高斯分裂训练方式类似,不再赘述。
步骤406,对经过高斯分裂训练后的聚类三音素进行最小音素错误(MPE:Minimum Phone Error)鉴别性训练,得到三音素模型。
本步骤406具体可与现有MPE训练方式类似,这里不再赘述。
步骤407,基于得到的单音素模型和三音素模型训练出所述前景模型。
至此,完成图4所示流程。
可以看出,通过图4所示流程能够训练出前景模型。至于本发明所述的背景模型,在描述之前,先对该背景模型涉及到的混淆矩阵进行描述:
本发明中,基于图4训练出的单音素模型,计算任意两个单音素模型之间的GMM距离,以得到相似音素的混淆矩阵,将相似程度较高的音素聚类在一起。
其中,作为本发明的一个实施例,得到相似音素的混淆矩阵具体实现时可为:计算任意两个单音素模型之间的GMM距离后,比较该计算的GMM距离与第二设定阈值,如果前者大于后者,则认为该两个单音素模型对应的单音素相似,将相似的单音素聚类在一起并记录至用于描述相似音素的混淆矩阵。比如,通过计算b、p两个单音素模型之间的GMM距离后,发现该计算的GMM距离大于第二设定阈值,则将b、p记录至混淆矩阵,再通过计算d、t两个单音素模型之间的GMM距离后,发现该计算的GMM距离大于第二设定阈值,则将d、t记录至混淆矩阵,至此,该混淆矩阵可为:
b p d t
至此,完成混淆矩阵的描述。
下面描述背景模型训练:
本发明中,背景模型的训练是通过对前景模型的音素利用上述的混淆矩阵处理实现的,具体实现时可为:利用所述混淆矩阵对所述前景模型中的音素进行处理,以实现同一类的音素用一个对应的混淆音素替代,得到混淆音素集合;通过所述混淆音素集合训练所述背景模型。
可以看出,背景模型训练是基于粗粒度的音素模型实现的,其可以模糊掉一些单音素的发音个性,从而和前景模型中的音素形成更为鲜明的对比,这样可以尽量避免背景模型对语音中关键词的吸收,提高关键词检出召回率。
以上对本发明涉及的前景模型和背景模型进行了描述。
下面对上面描述的在采集的关键词音频样本数量大于1时,如何从得到的音素序列中选择一个作为关键词音素序列:
参见图6,图6为本发明实施例提供的关键词音素序列确定流程图。如图6所示,该流程可包括以下步骤:
步骤601,将得到的每一音素序列作为一个音素序列候选。
举例粤语“管委会”,采集了用于描述这个词的10个关键测音频样本,通过解码后得到下表1所示的10个音素序列:
表1
可以看到,表1示出的10个音素序列都不尽相同,但是其中还是包含着一定的相似性,这里,暂时先将获得的这10个音素序列统称为音素串候选。
步骤602,采用PCN方式将所有音素序列候选组合成PCN线性结构,在所述PCN线性结构中,所有音素序列候选中的音素对应作为所述PCN线性结构的一条边,相似的各个音素对应的边归并至同一个槽,各个槽之间形成了线性连接关系。
基于上述的音素序列候选,如果全部直接进行检测,会由于混淆度过高而导致虚警的大幅增加,因为每个词语的正确发音只有一条或者两条(多音字的情况),因此,本发明采取PCN方式先将多个音素序列候选组合成混淆矩阵的PCN线性结构。
其中,作为本发明的一个实施例,在组合PCN线性结构时主要可包括:
首先,在音素序列候选中选择一个满足设定条件最长的音素序列候选作为基准,而将其它的音素序列候选作为候选基准;
其后,基于动态规划的方法计算基准和候选基准之间的最小编辑距离。其中,在计算最小编辑距离时,将上述的混淆矩阵纳入考虑,具体是:按照相似音素对齐的方式先将两个音素序列候选进行上下排列,以使得同一类的音素归并到一个槽内,如此,以表1为例,则得到的PCN线性结构如图7所示。
在图7所示的PCN线性结构中,每一边上都对应一个音素。以音素k、c、t、h为例,基于相似度考虑,发现音素k、c、t、h相似,能够聚类为同一类,基于此,图7中,将音素k、c、t、h对应的边归至同一个槽内。其它音素原理类似。如此,图7形成了多个槽,而各个槽之间通过线性连接。
步骤603,从所述PCN线性结构中选择出一条路径,将组成该路径的各条边上的音素作为所述关键词音素序列。
作为本发明的一个实施例,步骤603具体实现时可参见图8所示流程。
参见图8,图8为本发明实施例提供的步骤603实现流程图。如图8所示,该流程可包括以下步骤:
步骤801,计算所述PCN线性结构中每一条边上的音素在所有音素序列候选中的出现频率。
比如图7所示的k(0.2),则意味着音素k在所有音素序列候选比如表1中出现的频率。
步骤802,遍历所述PCN线性结构中的每一路径,利用组成该路径的各条边上音素的出现频率计算该路径的得分。
以图7所示PCN线性结构为例,则可以看出该PCN线性结构从左至右存在可能的48条路径,基于此,本步骤802就依赖于组成该各个路径的各条边上音素的出现频率计算该路径的得分。
步骤803,将每一路径的得分从高至低进行排序,选择前N条路径作为备选路径,N大于1。
作为本发明一个实施例,这里,N可取值为3至6。
步骤804,利用N条备选路径分别和所有音素序列候选进行置信度计算,依据计算结果选择一条备选路径作为关键词音素序列。
优选地,本步骤804具体实现时可为:
针对每一条备选路径,
用该备选路径与每一音素序列候选进行强制对齐来进行置信度计算;
将该备选路径与所有音素序列候选进行强制对齐后计算的置信度进行平均值运算,将得到的结果作为该备选路径对应的置信度;
从N条备选路径对应的置信度中选择取值最大的置性度,将该选择的置信度对应的备选路径作为所述关键词音素序列。
其中,本发明中,选择的置信度算法可为声学模型置信度,还可以为神经网络置信度,或者多种置信度融合的方式,本发明并不具体限定。
下面仅以声学模型置信度为例进行描述:
以声学模型置信度为例,则首先,用每一条备选路径对全部的关键词样本进行强制对齐,之后可以计算得出相应的声学模型置信度,基于声学模型的置信度算法分为两个阶段,一个是音素级别的置信度计算,一个是关键词级别的置信度计算。
其中,音素级别的置信度计算如下式:
CM ( ph i ) = 1 e [ i ] - b [ i ] + 1 Σ n = b [ i ] e [ i ] log p ( q ( n ) | o ( n ) ) (公式3)
= 1 e [ i ] - b [ i ] + 1 Σ n = b [ i ] e [ i ] log p ( o ( n ) | q ( n ) ) ] ( q ( n ) ) p ( o ( n ) )
而关键词级别的置信度计算如下式:
CM ( w ) = 1 m Σ i = 1 m CM ( ph i ) (公式4)
其中,b[i]和e[i]分别为备选路径中音素序列phi的起始帧和结束帧,o(n)为与备选路径对应的音素序列,q(n)表示备选路径中各个音素的状态序列。m表示备选路径所包含的音素个数。
基于上面得到的CM(phi),则从N条备选路径对应的置信度中选择取值最大的置性度,将该选择的置信度对应的备选路径作为所述关键词音素序列具体可通过以下公式实现:
Tr ( w i ) = arg max Tr p ( w i ) 1 N ( S ( w i ) ) Σ j CM ( Tr p ( w i ) | S j ( w i ) ) ; (公式5)
其中,Trp(wi)表示关键词音素序列,这里称为第i个发音序列,Sj(wi)表示第j个音素序列候选,N(S(wi))表示音素序列候选的个数。
通过公式5,能够将每一个备选路径对所有音素序列候选的置信度结果进行平均后选择其中得分最高的,也就认为是最符合的备选路径作为该关键词样本的发音。
至此,完成本发明提供的方法描述,下面对本发明提供的装置进行描述:
参见图9,图9为本发明实施例提供的装置结构图。如图9所示,该装置包括:
声学模型训练模块,用于使用IPA音素集合和多个不同语种的数据训练一个声学模型;其中,所述前景模型用于描述关键词对应的音素,所述背景模型用于吸收非关键词对应的音素;
音素解码器模块,用于利用所述声学模型搭建成一个对应的音素解码器;
关键词音频样本采集模块,用于采集待检测的关键词音频样本,利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列;
关键测检测模块,利用所述声学模型检测待测音频,以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素部分,而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素部分。
优选地,如图9所示,本发明中,所述声学模型训练模块可包括:
数据采集单元,用于采集多个不同语种的音频数据和该音频数据的标注数据;
获取单元,用于获取所述多个不同语种中每一语种的音素集合;
映射单元,用于将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合;
训练单元,用于基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型。
本发明中,所述训练单元具体实现时可包括:
特征提取子单元,用于对采集的每一语种的每一条音频数据进行特征提取得到对应的音频特征序列,从IPA音素映射集合中获取每一音频特征序列对应的特征音素集合;
训练子单元,用于利用特征音素集合、采集的标注数据分别训练前景模型和背景模型,并利用所述前景模型和背景模型组合成所述声音模型。
其中,所述训练子单元通过以下步骤训练前景模型:
为特征音素集合中每一音素的三个状态训练最初始的隐马尔可夫模型,并从采集的标注数据中获取与该音素相关的数据,利用该获取的数据对最初始的隐马尔可夫模型进行更新,得到单音素模型;
针对标注音素集合中的每一音素,获取该音素的上下文音素,得到三音素,所述标注音素集合为标注数据对应的音素集合;
对获取的每一三音素的状态进行决策树聚类,对聚类后的三音素进行相应参数的更新之后进行最小音素错误MPE鉴别性训练,得到三音素模型;
基于得到的单音素模型和三音素模型训练出所述前景模型。
优选地,本发明中,所述训练子单元进一步计算任意两个单音素模型之间的混合高斯模型GMM距离;比较该计算的GMM距离与第二设定阈值,如果前者大于后者,则认为该两个单音素模型对应的单音素相似,将相似的单音素聚类在一起并记录至用于描述相似音素的混淆矩阵;
基于此,所述训练子单元通过以下步骤训练所述背景模型:
利用所述混淆矩阵对所述前景模型中的音素进行处理,以实现同一类的音素用一个对应的混淆音素替代,得到混淆音素集合;
通过所述混淆音素集合训练所述背景模型。
本发明中,如图9所示,所述关键词音频样本采集模块可包括:
样本采集单元,用于采集关键词音频样本;
确定单元,用于在所述样本采集单元采集到的所述关键词音频样本的数量仅为一个时,利用所述音素解码器对采集的一个关键词音频样本进行解码,将解码之后得到的唯一音素序列确定为所述关键词音素序列;在所述样本采集单元采集到的关键词音频样本的数量大于1时,利用所述音素解码器对采集的每一个关键词音频样本进行解码得到每一关键词音频样本对应的音素序列,从得到的音素序列中选择一个作为所述关键词音素序列。
其中,所述确定单元从得到的音素序列中选择一个作为关键词音素序列包括:
将得到的每一音素序列作为一个音素序列候选;
采用PCN方式将所有音素序列候选组合成PCN线性结构,在所述PCN线性结构中,所有音素序列候选中的音素对应作为所述PCN线性结构的一条边,相似的各个音素对应的边归并至同一个槽,各个槽之间形成了线性连接关系;
通过置信度算法从所述PCN线性结构中选择出一条路径,将组成该路径的各条边上的音素作为所述关键词音素序列。
至此,完成图9所示的装置结构描述。
由以上技术方案可以看出,本发明不再使用DTW算法,而是通过对多个不同语种的数据和IPA音素集合训练声学模型,该声学模型融合各个语种的音素,真正的实现了声学模型和语种无关,如此,基于声学模型的识别系统进行关键词的检测,这相比于单纯的DTW算法具有非常大的鲁棒性能优势,也能提高关键测的检测精度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (18)

1.一种关键词检测方法,其特征在于,该方法包括:
使用国际通用音标IPA音素集合和多个不同语种的数据训练一个声学模型;其中,所述前景模型用于描述关键词对应的音素,所述背景模型用于吸收非关键词对应的音素;
利用所述声学模型搭建一个对应的音素解码器;
采集关键词音频样本,利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列;
利用所述声学模型对待检测音频进行检测,以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素部分,而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素部分。
2.根据权利要求1所述的方法,其特征在于,所述利用音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列包括:
识别采集的关键词音频样本的数量,
在所述数量仅为一个时,利用所述音素解码器对采集的一个关键词音频样本进行解码,将解码之后得到的唯一音素序列确定为所述关键词音素序列;
在所述数量大于1时,利用所述音素解码器对采集的每一个关键词音频样本进行解码得到每一关键词音频样本对应的音素序列,从得到的音素序列中选择一个作为所述关键词音素序列。
3.根据权利要求1所述的方法,其特征在于,所述使用国际通用音标IPA音素集合和多个不同语种的数据训练一个声学模型包括:
采集多个不同语种的音频数据和该音频数据的标注数据;
获取所述多个不同语种中每一语种的音素集合;
将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合;
基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型。
4.根据权利要求3所述的方法,其特征在于,所述将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合包括:
针对各个音素集合中的每一音素,基于预设定的音素映射规则从IPA音素集合中识别出与该音素具有映射关系的IPA音素,将该识别出的IPA音素记录至IPA音素映射集合;或者,
针对各个音素集合中的每一音素,计算该音素与任一IPA音素的混淆度,如果该计算的混淆度大于第一设定阈值,则确定该音素与该IPA音素具映射关系,将该IPA音素记录至IPA音素映射集合;或者,
针对各个音素集合中的每一音素,基于预设定的音素映射规则从IPA音素集合中识别出与该音素具有映射关系的IPA音素,计算该音素与该识别出的IPA音素的混淆度,如果该计算的混淆度大于第一设定阈值,则确定该音素与该IPA音素具映射关系,将该IPA音素记录至IPA音素映射集合。
5.根据权利要求3所述的方法,其特征在于,所述基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型包括:
对采集的每一语种的音频数据进行特征提取得到对应的音频特征序列;
从IPA音素映射集合中获取每一音频特征序列对应的特征音素集合;
利用特征音素集合、采集的标注数据分别训练前景模型和背景模型;
利用所述前景模型和背景模型组合成所述声学模型。
6.根据权利要求5所述的方法,其特征在于,所述前景模型通过以下步骤训练:
为特征音素集合中每一音素的三个状态训练最初始的隐马尔可夫模型,并从采集的标注数据中获取与该音素相关的数据,利用该获取的数据对最初始的隐马尔可夫模型进行更新,得到单音素模型;
针对标注音素集合中的每一音素,获取该音素的上下文音素,得到三音素,所述标注音素集合为标注数据对应的音素集合;
对获取的每一三音素的状态进行决策树聚类,对聚类后的三音素进行相应参数的更新之后进行最小音素错误MPE鉴别性训练,得到三音素模型;
基于得到的单音素模型和三音素模型训练出所述前景模型。
7.根据权利要求6所述的方法,其特征在于,该方法进一步包括:
计算任意两个单音素模型之间的混合高斯模型GMM距离;
比较该计算的GMM距离与第二设定阈值,如果前者大于后者,则认为该两个单音素模型对应的单音素相似,将相似的单音素聚类在一起并记录至用于描述相似音素的混淆矩阵。
8.根据权利要求7所述的方法,其特征在于,所述背景模型通过以下步骤训练:
利用所述混淆矩阵对所述前景模型中的音素进行处理,以实现同一类的音素用一个对应的混淆音素替代,得到混淆音素集合;
通过所述混淆音素集合训练所述背景模型。
9.根据权利要求2所述的方法,其特征在于,所述从得到的音素序列中选择一个作为所述关键词音素序列包括:
将得到的每一音素序列作为一个音素序列候选;
采用PCN方式将所有音素序列候选组合成PCN线性结构,在所述PCN线性结构中,所有音素序列候选中的音素对应作为所述PCN线性结构的一条边,相似的各个音素对应的边归并至同一个槽,各个槽之间形成了线性连接关系;
从所述PCN线性结构中选择出一条路径,将组成该路径的各条边上的音素作为所述关键词音素序列。
10.根据权利要求9所述的方法,其特征在于,所述从PCN线性结构中选择出一条路径,将组成该路径的各个边对应的音素作为关键词音素序列包括:
计算所述PCN线性结构中每一条边上的音素在所有音素序列候选中的出现频率;
遍历所述PCN线性结构中的每一路径,利用组成该路径的各条边上音素的出现频率计算该路径的得分;
将每一路径的得分从高至低进行排序,选择前N条路径作为备选路径,N大于1;
利用N条备选路径分别和所有音素序列候选进行置信度计算,依据计算结果选择一条备选路径作为关键词音素序列。
11.根据权利要求10所述的方法,其特征在于,所述利用N条备选路径分别和所有音素序列候选进行置信度计算,依据计算结果选择一条备选路径作为关键词音素序列包括:
针对每一条备选路径,
用该备选路径与每一音素序列候选进行强制对齐来进行置信度计算;
将该备选路径与所有音素序列候选进行强制对齐后计算的置信度进行平均值运算,将得到的结果作为该备选路径对应的置信度;
从N条备选路径对应的置信度中选择取值最大的置性度,将该选择的置信度对应的备选路径作为所述关键词音素序列。
12.一种关键词检测装置,其特征在于,该装置包括:
声学模型训练模块,用于使用国际通用音标IPA音素集合和多个不同语种的数据训练一个声学模型;其中,所述前景模型用于描述关键词对应的音素,所述背景模型用于吸收非关键词对应的音素;
音素解码器模块,用于利用所述声学模型搭建成一个对应的音素解码器;
关键词音频样本采集模块,用于采集关键词音频样本,利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列;
关键测检测模块,用于利用所述声学模型检测所述待检测音频,以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素部分,而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素部分。
13.根据权利要求12所述的装置,其特征在于,所述声学模型训练模块包括:
数据采集单元,用于采集多个不同语种的音频数据和该音频数据的标注数据;
获取单元,用于获取所述多个不同语种中每一语种的音素集合;
映射单元,用于将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合;
训练单元,用于基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型。
14.根据权利要求13所述的装置,其特征在于,所述训练单元包括:
特征提取子单元,用于对采集的每一语种的每一条音频数据进行特征提取得到对应的音频特征序列,从IPA音素映射集合中获取每一音频特征序列对应的特征音素集合;
训练子单元,用于利用特征音素集合、采集的标注数据分别训练前景模型和背景模型,并利用所述前景模型和背景模型组合成所述声音模型。
15.根据权利要求14所述的装置,其特征在于,所述训练子单元通过以下步骤训练前景模型:
为特征音素集合中每一音素的三个状态训练最初始的隐马尔可夫模型,并从采集的标注数据中获取与该音素相关的数据,利用该获取的数据对最初始的隐马尔可夫模型进行更新,得到单音素模型;
针对标注音素集合中的每一音素,获取该音素的上下文音素,得到三音素,所述标注音素集合为标注数据对应的音素集合;
对获取的每一三音素的状态进行决策树聚类,对聚类后的三音素进行相应参数的更新之后进行最小音素错误MPE鉴别性训练,得到三音素模型;
基于得到的三音素模型训练出所述前景模型。
16.根据权利要求15所述的装置,其特征在于,所述训练子单元进一步计算任意两个单音素模型之间的混合高斯模型GMM距离;比较该计算的GMM距离与第二设定阈值,如果前者大于后者,则认为该两个单音素模型对应的单音素相似,将相似的单音素聚类在一起并记录至用于描述相似音素的混淆矩阵;
所述训练子单元通过以下步骤训练所述背景模型:
利用所述混淆矩阵对所述前景模型中的音素进行处理,以实现同一类的音素用一个对应的混淆音素替代,得到混淆音素集合;
通过所述混淆音素集合训练所述背景模型。
17.根据权利要求12至16任一所述的装置,其特征在于,所述关键词音频样本采集模块包括:
样本采集单元,用于采集关键词音频样本;
确定单元,用于在所述样本采集单元采集到的所述关键词音频样本的数量仅为一个时,利用所述音素解码器对采集的一个关键词音频样本进行解码,将解码之后得到的唯一音素序列确定为所述关键词音素序列;在所述样本采集单元采集到的关键词音频样本的数量大于1时,利用所述音素解码器对采集的每一个关键词音频样本进行解码得到每一关键词音频样本对应的音素序列,从得到的音素序列中选择一个作为所述关键词音素序列。
18.根据权利要求17所述的装置,其特征在于,所述确定单元从得到的音素序列中选择一个作为关键词音素序列包括:
将得到的每一音素序列作为一个音素序列候选;
采用PCN方式将所有音素序列候选组合成PCN线性结构,在所述PCN线性结构中,所有音素序列候选中的音素对应作为所述PCN线性结构的一条边,相似的各个音素对应的边归并至同一个槽,各个槽之间形成了线性连接关系;
通过置信度算法从所述PCN线性结构中选择出一条路径,将组成该路径的各条边上的音素作为所述关键词音素序列。
CN201310034769.0A 2013-01-29 2013-01-29 关键词检测方法和装置 Active CN103971678B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310034769.0A CN103971678B (zh) 2013-01-29 2013-01-29 关键词检测方法和装置
PCT/CN2013/085905 WO2014117547A1 (en) 2013-01-29 2013-10-24 Method and device for keyword detection
US14/103,775 US9466289B2 (en) 2013-01-29 2013-12-11 Keyword detection with international phonetic alphabet by foreground model and background model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310034769.0A CN103971678B (zh) 2013-01-29 2013-01-29 关键词检测方法和装置

Publications (2)

Publication Number Publication Date
CN103971678A true CN103971678A (zh) 2014-08-06
CN103971678B CN103971678B (zh) 2015-08-12

Family

ID=51241097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310034769.0A Active CN103971678B (zh) 2013-01-29 2013-01-29 关键词检测方法和装置

Country Status (3)

Country Link
US (1) US9466289B2 (zh)
CN (1) CN103971678B (zh)
WO (1) WO2014117547A1 (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105161096A (zh) * 2015-09-22 2015-12-16 百度在线网络技术(北京)有限公司 基于垃圾模型的语音识别处理方法及装置
CN106297776A (zh) * 2015-05-22 2017-01-04 中国科学院声学研究所 一种基于音频模板的语音关键词检索方法
CN106847273A (zh) * 2016-12-23 2017-06-13 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN106856092A (zh) * 2015-12-09 2017-06-16 中国科学院声学研究所 基于前向神经网络语言模型的汉语语音关键词检索方法
CN106920558A (zh) * 2015-12-25 2017-07-04 展讯通信(上海)有限公司 关键词识别方法及装置
CN107123417A (zh) * 2017-05-16 2017-09-01 上海交通大学 基于鉴别性训练的定制语音唤醒优化方法及系统
WO2017166625A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 用于语音识别的声学模型训练方法、装置和电子设备
WO2017166966A1 (zh) * 2016-03-29 2017-10-05 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法、装置及存储介质
CN108154177A (zh) * 2017-12-20 2018-06-12 广东宜通世纪科技股份有限公司 业务识别方法、装置、终端设备及存储介质
WO2019113911A1 (zh) * 2017-12-15 2019-06-20 海尔优家智能科技(北京)有限公司 设备控制方法、云端设备、智能设备、计算机介质及设备
CN110111767A (zh) * 2018-01-31 2019-08-09 通用汽车环球科技运作有限责任公司 多语言语音辅助支持
CN110232131A (zh) * 2019-04-26 2019-09-13 特赞(上海)信息科技有限公司 基于创意标签的创意素材搜索方法及装置
CN110534102A (zh) * 2019-09-19 2019-12-03 北京声智科技有限公司 一种语音唤醒方法、装置、设备及介质
CN110781270A (zh) * 2018-07-13 2020-02-11 北京搜狗科技发展有限公司 一种解码网络中非关键词模型的构建方法和装置
CN110992929A (zh) * 2019-11-26 2020-04-10 苏宁云计算有限公司 一种基于神经网络的语音关键词检测方法、装置及系统
CN111128128A (zh) * 2019-12-26 2020-05-08 华南理工大学 一种基于互补模型评分融合的语音关键词检测方法
CN111128172A (zh) * 2019-12-31 2020-05-08 达闼科技成都有限公司 一种语音识别方法、电子设备和存储介质
CN111462777A (zh) * 2020-03-30 2020-07-28 厦门快商通科技股份有限公司 关键词检索方法、系统、移动终端及存储介质
CN111540363A (zh) * 2020-04-20 2020-08-14 合肥讯飞数码科技有限公司 关键词模型及解码网络构建方法、检测方法及相关设备
CN111583939A (zh) * 2019-02-19 2020-08-25 富港电子(东莞)有限公司 语音识别用于特定目标唤醒的方法及装置
CN111737553A (zh) * 2020-06-16 2020-10-02 苏州朗动网络科技有限公司 企业关联词的选取方法、设备和存储介质
CN112017648A (zh) * 2020-08-25 2020-12-01 北京声智科技有限公司 加权有限状态转换器构建方法、语音识别方法及装置
CN112259077A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质
CN112447176A (zh) * 2019-08-29 2021-03-05 株式会社东芝 信息处理装置、关键词检测装置以及信息处理方法
CN112820294A (zh) * 2021-01-06 2021-05-18 镁佳(北京)科技有限公司 语音识别方法、装置、存储介质及电子设备
CN112837675A (zh) * 2019-11-22 2021-05-25 阿里巴巴集团控股有限公司 语音识别方法、装置及相关系统和设备
CN113035247A (zh) * 2021-03-17 2021-06-25 广州虎牙科技有限公司 一种音频文本对齐方法、装置、电子设备及存储介质
CN113096648A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 用于语音识别的实时解码方法和装置
CN113192535A (zh) * 2021-04-16 2021-07-30 中国科学院声学研究所 一种语音关键词检索方法、系统和电子装置
CN113643718A (zh) * 2021-08-16 2021-11-12 北京房江湖科技有限公司 音频数据处理方法和装置
CN113918791A (zh) * 2021-11-11 2022-01-11 国网江苏省电力有限公司无锡供电分公司 一种多源异构电网信息采集系统
TWI759003B (zh) * 2020-12-10 2022-03-21 國立成功大學 語音辨識模型的訓練方法
CN114283788A (zh) * 2020-09-27 2022-04-05 华为技术有限公司 发音评测方法、发音评测系统的训练方法、装置及设备
CN114783427A (zh) * 2022-06-20 2022-07-22 成都启英泰伦科技有限公司 基于命令词的语音识别模型压缩方法
CN114944157A (zh) * 2022-05-27 2022-08-26 上海互问信息科技有限公司 一种支持多语种和语音自定义的语音唤醒方法
CN115810350A (zh) * 2022-11-15 2023-03-17 北京声智科技有限公司 训练数据获取方法、装置、设备及存储介质
CN116013268A (zh) * 2022-12-26 2023-04-25 思必驰科技股份有限公司 设备自学习方法、设备及介质
CN116013268B (zh) * 2022-12-26 2026-02-06 思必驰科技股份有限公司 设备自学习方法、设备及介质

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544140A (zh) * 2012-07-12 2014-01-29 国际商业机器公司 一种数据处理方法、展示方法和相应的装置
US9336781B2 (en) * 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
CN104143326B (zh) * 2013-12-03 2016-11-02 腾讯科技(深圳)有限公司 一种语音命令识别方法和装置
US9589564B2 (en) * 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
TWI612472B (zh) * 2016-12-01 2018-01-21 財團法人資訊工業策進會 指令轉換方法與系統以及非暫態電腦可讀取記錄媒體
US10186265B1 (en) * 2016-12-06 2019-01-22 Amazon Technologies, Inc. Multi-layer keyword detection to avoid detection of keywords in output audio
CN110199575B (zh) * 2017-01-19 2023-07-14 皇家飞利浦有限公司 用于生成x射线辐射的x射线源装置
US10607601B2 (en) * 2017-05-11 2020-03-31 International Business Machines Corporation Speech recognition by selecting and refining hot words
CN107680582B (zh) 2017-07-28 2021-03-26 平安科技(深圳)有限公司 声学模型训练方法、语音识别方法、装置、设备及介质
US10943580B2 (en) * 2018-05-11 2021-03-09 International Business Machines Corporation Phonological clustering
CN110610695B (zh) * 2018-05-28 2022-05-17 宁波方太厨具有限公司 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机
CN109036464B (zh) * 2018-09-17 2022-02-22 腾讯科技(深圳)有限公司 发音检错方法、装置、设备及存储介质
US11308939B1 (en) * 2018-09-25 2022-04-19 Amazon Technologies, Inc. Wakeword detection using multi-word model
CN111161718A (zh) * 2018-11-07 2020-05-15 珠海格力电器股份有限公司 语音识别方法、装置、设备、存储介质及空调
US11335347B2 (en) * 2019-06-03 2022-05-17 Amazon Technologies, Inc. Multiple classifications of audio data
CN110570838B (zh) * 2019-08-02 2022-06-07 北京葡萄智学科技有限公司 语音流处理方法和装置
KR20210030160A (ko) * 2019-09-09 2021-03-17 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN111128174A (zh) * 2019-12-31 2020-05-08 北京猎户星空科技有限公司 一种语音信息的处理方法、装置、设备及介质
CN113903340A (zh) * 2020-06-18 2022-01-07 北京声智科技有限公司 样本筛选方法及电子设备
CN111862959B (zh) * 2020-08-07 2024-04-19 广州视琨电子科技有限公司 发音错误检测方法、装置、电子设备及存储介质
CN113703579B (zh) * 2021-08-31 2023-05-30 北京字跳网络技术有限公司 数据处理方法、装置、电子设备及存储介质
CN114898736B (zh) * 2022-03-30 2025-11-14 北京小米移动软件有限公司 语音信号识别方法、装置、电子设备和存储介质
CN114863918B (zh) * 2022-04-20 2025-12-12 时擎智能科技(上海)有限公司 解码网系统、语音识别方法、装置、设备及介质
CN117524263A (zh) * 2022-07-26 2024-02-06 北京三星通信技术研究有限公司 数据处理方法、设备唤醒方法、电子设备及存储介质
CN117351944B (zh) * 2023-12-06 2024-04-12 科大讯飞股份有限公司 语音识别方法、装置、设备及可读存储介质
CN117727296B (zh) * 2023-12-18 2024-08-09 杭州恒芯微电子技术有限公司 基于单火面板的语音识别控制系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
EP1471501A2 (en) * 2003-04-25 2004-10-27 Pioneer Corporation Speech recognition apparatus, speech recognition method, and recording medium on which speech recognition program is computer-readable recorded
US20060190259A1 (en) * 2005-02-18 2006-08-24 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speech by measuring confidence levels of respective frames
CN101415259A (zh) * 2007-10-18 2009-04-22 三星电子株式会社 嵌入式设备上基于双语语音查询的信息检索系统及方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5613037A (en) * 1993-12-21 1997-03-18 Lucent Technologies Inc. Rejection of non-digit strings for connected digit speech recognition
US5675706A (en) * 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5737489A (en) * 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US6125345A (en) * 1997-09-19 2000-09-26 At&T Corporation Method and apparatus for discriminative utterance verification using multiple confidence measures
EP1097447A1 (de) * 1998-07-23 2001-05-09 Siemens Aktiengesellschaft Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
US7149688B2 (en) * 2002-11-04 2006-12-12 Speechworks International, Inc. Multi-lingual speech recognition with cross-language context modeling
JP4497834B2 (ja) * 2003-04-28 2010-07-07 パイオニア株式会社 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
GB2404040A (en) * 2003-07-16 2005-01-19 Canon Kk Lattice matching
WO2005010866A1 (en) * 2003-07-23 2005-02-03 Nexidia Inc. Spoken word spotting queries
KR100679051B1 (ko) * 2005-12-14 2007-02-05 삼성전자주식회사 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법
WO2007134293A2 (en) * 2006-05-12 2007-11-22 Nexidia, Inc. Wordspotting system
CN101231660A (zh) * 2008-02-19 2008-07-30 林超 电话自然对话中关键信息的挖掘系统及其方法
US8972253B2 (en) * 2010-09-15 2015-03-03 Microsoft Technology Licensing, Llc Deep belief network for large vocabulary continuous speech recognition
US9031844B2 (en) * 2010-09-21 2015-05-12 Microsoft Technology Licensing, Llc Full-sequence training of deep structures for speech recognition
CN104143328B (zh) * 2013-08-15 2015-11-25 腾讯科技(深圳)有限公司 一种关键词检测方法和装置
CN104143329B (zh) * 2013-08-19 2015-10-21 腾讯科技(深圳)有限公司 进行语音关键词检索的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
EP1471501A2 (en) * 2003-04-25 2004-10-27 Pioneer Corporation Speech recognition apparatus, speech recognition method, and recording medium on which speech recognition program is computer-readable recorded
US20060190259A1 (en) * 2005-02-18 2006-08-24 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speech by measuring confidence levels of respective frames
CN101415259A (zh) * 2007-10-18 2009-04-22 三星电子株式会社 嵌入式设备上基于双语语音查询的信息检索系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JOACHIM KÖHLER: "Multilingual phone models for vocabulary-independent speech recognition tasks", 《SPEECH COMMUNICATION》 *

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297776B (zh) * 2015-05-22 2019-07-09 中国科学院声学研究所 一种基于音频模板的语音关键词检索方法
CN106297776A (zh) * 2015-05-22 2017-01-04 中国科学院声学研究所 一种基于音频模板的语音关键词检索方法
CN105161096B (zh) * 2015-09-22 2017-05-10 百度在线网络技术(北京)有限公司 基于垃圾模型的语音识别处理方法及装置
CN105161096A (zh) * 2015-09-22 2015-12-16 百度在线网络技术(北京)有限公司 基于垃圾模型的语音识别处理方法及装置
CN106856092A (zh) * 2015-12-09 2017-06-16 中国科学院声学研究所 基于前向神经网络语言模型的汉语语音关键词检索方法
CN106856092B (zh) * 2015-12-09 2019-11-15 中国科学院声学研究所 基于前向神经网络语言模型的汉语语音关键词检索方法
CN106920558A (zh) * 2015-12-25 2017-07-04 展讯通信(上海)有限公司 关键词识别方法及装置
US10699699B2 (en) 2016-03-29 2020-06-30 Tencent Technology (Shenzhen) Company Limited Constructing speech decoding network for numeric speech recognition
WO2017166966A1 (zh) * 2016-03-29 2017-10-05 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法、装置及存储介质
WO2017166625A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 用于语音识别的声学模型训练方法、装置和电子设备
CN106847273A (zh) * 2016-12-23 2017-06-13 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN107123417B (zh) * 2017-05-16 2020-06-09 上海交通大学 基于鉴别性训练的定制语音唤醒优化方法及系统
CN107123417A (zh) * 2017-05-16 2017-09-01 上海交通大学 基于鉴别性训练的定制语音唤醒优化方法及系统
WO2019113911A1 (zh) * 2017-12-15 2019-06-20 海尔优家智能科技(北京)有限公司 设备控制方法、云端设备、智能设备、计算机介质及设备
CN108154177A (zh) * 2017-12-20 2018-06-12 广东宜通世纪科技股份有限公司 业务识别方法、装置、终端设备及存储介质
CN108154177B (zh) * 2017-12-20 2020-01-21 宜通世纪科技股份有限公司 业务识别方法、装置、终端设备及存储介质
CN110111767A (zh) * 2018-01-31 2019-08-09 通用汽车环球科技运作有限责任公司 多语言语音辅助支持
CN110781270A (zh) * 2018-07-13 2020-02-11 北京搜狗科技发展有限公司 一种解码网络中非关键词模型的构建方法和装置
CN111583939A (zh) * 2019-02-19 2020-08-25 富港电子(东莞)有限公司 语音识别用于特定目标唤醒的方法及装置
CN110232131A (zh) * 2019-04-26 2019-09-13 特赞(上海)信息科技有限公司 基于创意标签的创意素材搜索方法及装置
CN110232131B (zh) * 2019-04-26 2021-04-27 特赞(上海)信息科技有限公司 基于创意标签的创意素材搜索方法及装置
CN112447176A (zh) * 2019-08-29 2021-03-05 株式会社东芝 信息处理装置、关键词检测装置以及信息处理方法
CN110534102B (zh) * 2019-09-19 2020-10-30 北京声智科技有限公司 一种语音唤醒方法、装置、设备及介质
CN110534102A (zh) * 2019-09-19 2019-12-03 北京声智科技有限公司 一种语音唤醒方法、装置、设备及介质
CN112837675A (zh) * 2019-11-22 2021-05-25 阿里巴巴集团控股有限公司 语音识别方法、装置及相关系统和设备
CN110992929A (zh) * 2019-11-26 2020-04-10 苏宁云计算有限公司 一种基于神经网络的语音关键词检测方法、装置及系统
CN111128128A (zh) * 2019-12-26 2020-05-08 华南理工大学 一种基于互补模型评分融合的语音关键词检测方法
CN111128128B (zh) * 2019-12-26 2023-05-23 华南理工大学 一种基于互补模型评分融合的语音关键词检测方法
CN111128172A (zh) * 2019-12-31 2020-05-08 达闼科技成都有限公司 一种语音识别方法、电子设备和存储介质
CN111462777A (zh) * 2020-03-30 2020-07-28 厦门快商通科技股份有限公司 关键词检索方法、系统、移动终端及存储介质
CN111540363A (zh) * 2020-04-20 2020-08-14 合肥讯飞数码科技有限公司 关键词模型及解码网络构建方法、检测方法及相关设备
CN111540363B (zh) * 2020-04-20 2023-10-24 合肥讯飞数码科技有限公司 关键词模型及解码网络构建方法、检测方法及相关设备
CN111737553A (zh) * 2020-06-16 2020-10-02 苏州朗动网络科技有限公司 企业关联词的选取方法、设备和存储介质
CN112017648A (zh) * 2020-08-25 2020-12-01 北京声智科技有限公司 加权有限状态转换器构建方法、语音识别方法及装置
CN114283788A (zh) * 2020-09-27 2022-04-05 华为技术有限公司 发音评测方法、发音评测系统的训练方法、装置及设备
CN112259077A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质
CN112259077B (zh) * 2020-10-20 2024-04-09 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质
TWI759003B (zh) * 2020-12-10 2022-03-21 國立成功大學 語音辨識模型的訓練方法
CN112820294A (zh) * 2021-01-06 2021-05-18 镁佳(北京)科技有限公司 语音识别方法、装置、存储介质及电子设备
CN113035247A (zh) * 2021-03-17 2021-06-25 广州虎牙科技有限公司 一种音频文本对齐方法、装置、电子设备及存储介质
CN113096648A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 用于语音识别的实时解码方法和装置
CN113192535A (zh) * 2021-04-16 2021-07-30 中国科学院声学研究所 一种语音关键词检索方法、系统和电子装置
CN113643718A (zh) * 2021-08-16 2021-11-12 北京房江湖科技有限公司 音频数据处理方法和装置
CN113643718B (zh) * 2021-08-16 2024-06-18 贝壳找房(北京)科技有限公司 音频数据处理方法和装置
CN113918791A (zh) * 2021-11-11 2022-01-11 国网江苏省电力有限公司无锡供电分公司 一种多源异构电网信息采集系统
CN114944157A (zh) * 2022-05-27 2022-08-26 上海互问信息科技有限公司 一种支持多语种和语音自定义的语音唤醒方法
CN114783427A (zh) * 2022-06-20 2022-07-22 成都启英泰伦科技有限公司 基于命令词的语音识别模型压缩方法
CN115810350A (zh) * 2022-11-15 2023-03-17 北京声智科技有限公司 训练数据获取方法、装置、设备及存储介质
CN116013268A (zh) * 2022-12-26 2023-04-25 思必驰科技股份有限公司 设备自学习方法、设备及介质
CN116013268B (zh) * 2022-12-26 2026-02-06 思必驰科技股份有限公司 设备自学习方法、设备及介质

Also Published As

Publication number Publication date
CN103971678B (zh) 2015-08-12
US20140236600A1 (en) 2014-08-21
US9466289B2 (en) 2016-10-11
WO2014117547A1 (en) 2014-08-07

Similar Documents

Publication Publication Date Title
CN103971678B (zh) 关键词检测方法和装置
CN109410914B (zh) 一种赣方言语音和方言点识别方法
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
US6618702B1 (en) Method of and device for phone-based speaker recognition
EP2888669B1 (en) Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
Lin et al. OOV detection by joint word/phone lattice alignment
WO2018077244A1 (en) Acoustic-graphemic model and acoustic-graphemic-phonemic model for computer-aided pronunciation training and speech processing
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN101118745A (zh) 语音识别系统中的置信度快速求取方法
Ravinder Comparison of hmm and dtw for isolated word recognition system of punjabi language
US6662158B1 (en) Temporal pattern recognition method and apparatus utilizing segment and frame-based models
Zhang et al. Wake-up-word spotting using end-to-end deep neural network system
Luo et al. Automatic pronunciation evaluation of language learners' utterances generated through shadowing.
Kou et al. Fix it where it fails: Pronunciation learning by mining error corrections from speech logs
Meyer et al. Boosting HMM acoustic models in large vocabulary speech recognition
Li et al. Improving mandarin tone mispronunciation detection for non-native learners with soft-target tone labels and blstm-based deep models
Hwang et al. Building a highly accurate Mandarin speech recognizer
Abdou et al. Enhancing the confidence measure for an Arabic pronunciation verification system
Zhang et al. Improved mandarin keyword spotting using confusion garbage model
Benıtez et al. Different confidence measures for word verification in speech recognition
Kumaran et al. Attention shift decoding for conversational speech recognition.
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減
Qian et al. Tone-enhanced generalized character posterior probability (GCPP) for Cantonese LVCSR

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200827

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.