[go: up one dir, main page]

CN107767863A - 语音唤醒方法、系统及智能终端 - Google Patents

语音唤醒方法、系统及智能终端 Download PDF

Info

Publication number
CN107767863A
CN107767863A CN201610701651.2A CN201610701651A CN107767863A CN 107767863 A CN107767863 A CN 107767863A CN 201610701651 A CN201610701651 A CN 201610701651A CN 107767863 A CN107767863 A CN 107767863A
Authority
CN
China
Prior art keywords
word
wake
recognition result
waking
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610701651.2A
Other languages
English (en)
Other versions
CN107767863B (zh
Inventor
吴国兵
潘嘉
刘聪
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201610701651.2A priority Critical patent/CN107767863B/zh
Publication of CN107767863A publication Critical patent/CN107767863A/zh
Application granted granted Critical
Publication of CN107767863B publication Critical patent/CN107767863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种语音唤醒方法及系统,该方法包括:接收语音数据;获取所述语音数据的第一声学特征;利用所述第一声学特征、第一声学模型及第一解码网络进行唤醒词识别,得到初次唤醒词识别结果;如果所述初次唤醒词识别结果为唤醒词,则判断所述初次唤醒词识别结果是否达到设定目标;如果是,则获取所述语音数据的第二声学特征;利用所述第二声学特征、第二声学模型及第二解码网络进行二次唤醒词识别,得到二次唤醒词识别结果;根据所述二次唤醒词识别结果,确定是否唤醒成功。本发明还提供一种智能终端。利用本发明,可以有效降低语音唤醒系统功耗。

Description

语音唤醒方法、系统及智能终端
技术领域
本发明涉及语音处理领域,具体涉及一种语音唤醒方法、系统及智能终端。
背景技术
语音唤醒通过理解用户语音数据的语义信息,达到唤醒智能终端的目的,该过程无需与设备进行物理接触即可实现,从而解放了人类的双手,打开了人类通往人工智能的第一扇大门,广泛应用于各种智能终端上,如智能穿戴设备、手机、平板电脑、智能家电等。现有方法在进行语音唤醒时,接收到语音数据后,提取语音数据的声学特征,利用提取的声学特征及预先构建的声学模型进行唤醒词识别。
现有的语音唤醒方法存在以下缺点:
(1)由于无法预知用户何时进行人机交互操作,因此需要持续不断地监听,一旦接收到语音数据,立即进行唤醒词识别,这个过程会消耗智能终端大量资源,功耗较大。
(2)为了提高唤醒成功率,现有方法一般使用较大的声学模型及解码网络进行唤醒词识别,进一步增加了语音唤醒功耗,这对于内存较小的智能终端是无法接受的,当功耗过大时,常会出现死机或无应答的情况,大大降低了用户体验度。
发明内容
本发明提供一种语音唤醒方法、系统及智能终端,在保证唤醒成功率的同时,有效降低系统功耗。
为此,本发明提供如下技术方案:
一种语音唤醒方法,包括:
接收语音数据;
获取所述语音数据的第一声学特征;
利用所述第一声学特征、第一声学模型及第一解码网络进行唤醒词识别,得到初次唤醒词识别结果;
如果所述初次唤醒词识别结果为唤醒词,则判断所述初次唤醒词识别结果是否达到设定目标;
如果是,则获取所述语音数据的第二声学特征;
利用所述第二声学特征、第二声学模型及第二解码网络进行二次唤醒词识别,得到二次唤醒词识别结果;所述第二声学模型大于所述第一声学模型,和/或所述第二解码网络大于所述第一解码网络;
根据所述二次唤醒词识别结果,确定是否唤醒成功。
可选地,所述第二声学特征与第一声学特征相同或不同。
可选地,所述第一声学特征为以下任意一种特征:MFCC特征、Bottleneck特征、Filterbank特征。
优选地,所述第一声学模型包括唤醒词声学模型和吸收模型,其中的唤醒词声学模型和吸收模型分别训练,唤醒词声学模型使用基于第一声学特征的GMM-HMM表征,吸收模型采用GMM-HMM来表征;
所述第二声学模型包括唤醒词声学模型和吸收模型,其中的唤醒词声学模型和吸收模型同时训练,二者均使用基于第二声学特征的神经网络模型来表征。
优选地,所述判断所述初次唤醒词识别结果是否达到设定目标包括:
确定当前环境状态;
根据所述环境状态判断所述初次唤醒词识别结果是否达到设定目标。
优选地,所述确定当前环境状态包括:
计算所述语音数据的信噪比;
如果所述信噪比大于设定值,则当前环境状态为安静环境;否则当前环境状态为噪声环境。
优选地,所述根据所述环境状态判断所述初次唤醒词识别结果是否达到设定目标包括:
获取初次唤醒词识别过程中得到的唤醒词和非唤醒词的声学似然度;
根据所述声学似然度计算唤醒词和非唤醒词的声学似然比;
如果所述声学似然比大于与所述环境状态对应的判断阈值,则所述初次唤醒词识别结果达到设定目标。
优选地,所述根据所述二次唤醒词识别结果,确定是否唤醒成功包括:
如果所述二次唤醒词识别结果为唤醒词,则确定唤醒成功。
优选地,所述根据所述二次唤醒词识别结果,确定是否唤醒成功包括:
如果所述二次唤醒词识别结果为唤醒词,则对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合,得到融合结果;
根据所述融合结果确定是否唤醒成功。
优选地,所述对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合,得到融合结果包括:
分别获取所述初次唤醒识别结果的声学似然比T1和所述二次唤醒识别结果的声学似然比T2;
将所述初次唤醒识别结果的声学似然比T1与所述二次唤醒识别结果的声学似然比T2进行加权组合,得到融合结果T;
所述根据所述融合结果确定是否唤醒成功包括:
如果所述融合结果T大于设定的融合阈值,则唤醒成功;否则唤醒失败。
优选地,所述根据所述二次唤醒词识别结果,确定是否唤醒成功包括:
如果所述二次唤醒词识别结果为唤醒词,则对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合,得到融合结果;
计算所述初次唤醒识别结果的时长与所述二次唤醒识别结果的时长之间的相似度;
如果所述融合结果大于设定的融合阈值,并且所述相似度大于设定的相似度阈值,则唤醒成功;否则唤醒失败。
一种语音唤醒系统,包括:
接收模块,用于接收语音数据;
第一声学特征获取模块,用于获取所述语音数据的第一声学特征;
初次唤醒模块,用于利用所述第一声学特征、第一声学模型及第一解码网络进行唤醒词识别,得到初次唤醒词识别结果;
判断模块,用于在所述初次唤醒词识别结果为唤醒词时,判断所述初次唤醒词识别结果是否达到设定目标;如果是,则触发第二声学特征获取模块;
所述第二声学特征获取模块,用于获取所述语音数据的第二声学特征;
二次唤醒模块,用于利用所述第二声学特征、第二声学模型及第二解码网络进行二次唤醒词识别,得到二次唤醒词识别结果;所述第二声学模型大于所述第一声学模型,和/或所述第二解码网络大于所述第一解码网络;
确定模块,用于根据所述二次唤醒词识别结果,确定是否唤醒成功。
优选地,所述第一声学模型包括唤醒词声学模型和吸收模型,其中的唤醒词声学模型和吸收模型分别训练,唤醒词声学模型使用基于第一声学特征的GMM-HMM表征,吸收模型采用GMM-HMM来表征;
所述第二声学模型包括唤醒词声学模型和吸收模型,其中的唤醒词声学模型和吸收模型同时训练,二者均使用基于第二声学特征的神经网络模型来表征。
优选地,所述判断模块包括:
环境状态确定单元,用于确定当前环境状态;
判断单元,用于根据所述环境状态判断所述初次唤醒词识别结果是否达到设定目标。
优选地,所述环境状态确定单元,具体用于计算所述语音数据的信噪比,在所述信噪比大于设定值时,确定当前环境状态为安静环境,否则确定当前环境状态为噪声环境。
优选地,所述判断单元包括:
似然度获取子单元,用于获取初次唤醒词识别过程中得到的唤醒词和非唤醒词的声学似然度;
似然比计算子单元,用于根据所述声学似然度计算唤醒词和非唤醒词的声学似然比,并在所述声学似然比大于与所述环境状态对应的判断阈值时,确定所述初次唤醒词识别结果达到设定目标。
优选地,所述确定模块,具体用于在所述二次唤醒词识别结果为唤醒词时,确定唤醒成功。
优选地,所述确定模块包括:
融合单元,用于在所述二次唤醒词识别结果为唤醒词时,对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合,得到融合结果;
第一确定单元,用于根据所述融合结果确定是否唤醒成功。
优选地,所述融合单元,具体用于分别获取所述初次唤醒识别结果的声学似然比T1和所述二次唤醒识别结果的声学似然比T2,并将所述初次唤醒识别结果的声学似然比T1与所述二次唤醒识别结果的声学似然比T2进行加权组合,得到融合结果T;
所述确定单元,具体用于在所述融合结果T大于设定的融合阈值时,确定唤醒成功;否则确定唤醒失败。
优选地,所述确定模块包括:
融合单元,用于在所述二次唤醒词识别结果为唤醒词时,对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合,得到融合结果;
相似度计算单元,用于计算所述初次唤醒识别结果的时长与所述二次唤醒识别结果的时长之间的相似度;
第二确定单元,用于在所述融合结果大于设定的融合阈值,并且所述相似度大于设定的相似度阈值时,确定唤醒成功;否则确定唤醒失败。
一种智能终端,包括上面所述的语音唤醒系统。
优选地,所述智能终端为以下任意一种:穿戴设备、手机、平板电脑、音箱、家电设备、智能车机。
本发明实施例提供的语音唤醒方法、系统及智能终端,一旦接收到语音数据,即利用较小的声学模型及解码网络进行初次唤醒词识别,在识别到唤醒词,并且初次唤醒词识别结果达到设定目标后,再利用较大的声学模型及解码网络进行二次唤醒词识别。由于初次唤醒的功耗较小,用于持续监听时,可以有效降低唤醒功耗;只有当初次唤醒词识别结果达到设定目标才会开启二次唤醒操作,二次唤醒操作使用较大的声学模型及解码网络,因此有效地保证了唤醒成功率。
进一步地,二次唤醒时,使用学习能力较强的神经网络模型,其具有较强的非线性变换能力,训练得到的模型区分性较强,进一步提高了唤醒成功率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例语音唤醒方法的流程图;
图2是本发明实施例语音唤醒系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对现有的语音唤醒方法功耗较大的问题,本发明实施例提供一种语音唤醒方法及系统,一旦接收到语音数据,即利用较小的声学模型及解码网络进行初次唤醒词识别,在识别到唤醒词,并且初次唤醒词识别结果达到设定目标后,再利用较大的声学模型及解码网络进行二次唤醒词识别。
如图1所示,是本发明实施例语音唤醒方法的流程图,包括以下步骤:
步骤101,接收语音数据。
所述语音数据通过智能终端的麦克风接收。
步骤102,获取所述语音数据的第一声学特征。
所述第一声学特征用于初次唤醒,所述第一声学特征可以是MFCC特征,具体提取时,可以先对语音数据进行分帧处理;随后对分帧后的语音数据进行预加重;最后依次提取每帧语音数据的频谱特征。
当然,为了进一步提高声学特征的区分性,第一声学特征也使用区分性较高的声学特征,如Bottleneck特征、Filterbank特征。Bottleneck特征具体提取时,首先提取语音数据的MFCC特征,然后将提取的MFCC特征作为预先构建的深度神经网络模型的输入特征,进行模型训练,提取Bottleneck层输出的特征,作为Bottleneck特征,具体提取方法与现有技术相同,在此不再详述。Filterbank特征的提取也可以采用现有技术,在此亦不再详述。
步骤103,利用所述第一声学特征、第一声学模型及第一解码网络进行唤醒词识别,得到初次唤醒词识别结果。
为了降低唤醒功耗及资源存储,初次唤醒词识别过程采用较小声学模型及较小解码网络对唤醒词进行识别,并且唤醒系统处于实时监听状态,用户任意时刻唤醒时,都可以及时响应。第一声学模型的构建以及第一解码网络的结构将在后面详细说明。
具体解码时,利用预先构建的较小解码网络及声学模型,采用动态规划方法计算每个语音单元的声学特征在第一解码网络的每条路径上的声学得分,将声学得分最高的路径作为最优路径。如果最优路径为唤醒词路径,则识别结果为该路径上的唤醒词;如果识别结果为吸收路径,则识别结果为非唤醒词。
步骤104,如果所述初次唤醒词识别结果为唤醒词,则判断所述初次唤醒词识别结果是否达到设定目标;如果是,则执行步骤105;否则唤醒失败。
为了进一步降低噪声干扰,提高唤醒的准确性,在本发明实施例中,可以根据当前环境状态来确定初次唤醒词识别结果是否达到设定目标。为此,需要首先确定当前环境状态,比如可以根据接收的语音数据的信噪比来确定。具体地,计算所述语音数据的信噪比;如果所述信噪比大于设定值,则当前环境状态为安静环境;否则当前环境状态为噪声环境。
当然,所述环境状态并不限定为安静环境和噪声环境两种,也可以根据实际应用需求划分多种环境状态,从而满足用户的个性化需求,如根据用户每次的唤醒时间,将唤醒环境进一步划分为上午、下午、晚上、凌晨等,不同唤醒环境唤醒词声学似然比阈值根据实验结果或应用需求设定。
在根据所述环境状态判断所述初次唤醒词识别结果是否达到设定目标时,可以预先设定不同环境下的判断阈值,根据当前环境下的判断阈值来确定初次唤醒词识别结果达到设定目标。
比如,根据唤醒词识别过程中相应的唤醒词和非唤醒词的声学似然度,计算唤醒词和非唤醒词的声学似然度之间的比值得到唤醒词的声学似然比,当所述似然比大于阈值时,则认为当前语音数据为非噪声语音数据,开始进行二次唤醒操作,否则唤醒失败,继续接收语音数据。
分别设定不同环境下唤醒词声学似然比阈值,根据当前环境下唤醒词声学似然比阈值,进行唤醒词确认,以上述两种环境状态为例,具体唤醒词确认结果如表1所示,其中,T1为初次唤醒时,唤醒词识别过程中计算得到的唤醒词的声学似然比,thres_clean为安静环境下声学似然比阈值,thres_noise为噪声环境下声学似然比阈值,所述阈值可以根据大量实验结果确定或根据实际应用需求确定。
表1
步骤105,获取所述语音数据的第二声学特征。
所述第二声学特征用于二次唤醒操作。需要说明的是,第二声学特征可以和第一声学特征相同,也可以和第一声学特征不同,具体可以根据应用需求确定。如第一声学特征使用Bottleneck特征时,第二声学特征使用Filterbank特征;当然,二者也可以相同,即第一声学特征和第二声学特征都使用Bottleneck特征。如果第二声学特征和第一声学特征相同,则在步骤106,可以直接使用步骤102中提取出的第一声学特征进行二次唤醒词识别,而无需从语音数据中再重新提取声学特征。
步骤106,利用所述第二声学特征、第二声学模型及第二解码网络进行二次唤醒词识别,得到二次唤醒词识别结果。
需要说明的是,在本发明实施例中所述第二声学模型大于所述第一声学模型,和/或所述第二解码网络大于所述第一解码网络。而且,为了提高唤醒成功率,二次唤醒操作不但使用了较大的声学模型及解码网络,同时考虑了初次唤醒结果。第二声学模型的构建以及第二解码网络的结构将在后面详细说明。
在该步骤中,唤醒词识别过程与初次唤醒时类似,即利用预先构建的较大解码网络及声学模型,采用动态规划方法计算每个语音单元的声学特征在第二解码网络的每条路径上的声学得分,将声学得分最高的路径作为最优路径。如果最优路径为唤醒词路径,则识别结果为该路径上的唤醒词;如果识别结果为吸收路径,则识别结果为非唤醒词。
步骤107,根据所述二次唤醒词识别结果,确定是否唤醒成功。
在得到二次唤醒词识别结果后,确定是否唤醒成功可以有以下几种方式:
1)直接根据二次唤醒词识别结果确定是否唤醒成功。
比如,如果所述二次唤醒词识别结果为唤醒词,则确定唤醒成功,否则唤醒失败。
2)综合考虑二次唤醒词识别结果和初次唤醒词识别结果这两者来确定是否唤醒成功。
比如,对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合,得到融合结果;根据所述融合结果确定是否唤醒成功。具体的融合方法举例如下:
分别获取初次唤醒识别结果的声学似然比T1和二次唤醒识别结果的声学似然比T2;
将初次唤醒识别结果的声学似然比T1与二次唤醒识别结果的声学似然比T2进行加权组合,得到融合结果T,如式(1)所示:
T=α*T1+β*T2 (1)
如果融合结果T大于设定的融合阈值,则唤醒成功;否则唤醒失败。
3)不仅考虑上述融合结果T,还进一步考虑初次唤醒的唤醒词时长与二次唤醒的唤醒词时长之间的相似度。
具体地,首先利用第一声学特征和初次唤醒声学模型对接收语音数据进行状态级切分,得到初次唤醒词识别时,唤醒词时长向量D1,表示为D1=(d11,d12,…,d1n);然后利用第二声学特征和二次唤醒声学模型对接收语音数据进行状态级切分,得到二次唤醒词识别时,唤醒词时长向量D2,表示为D2=(d21,d22,…,d2n);最后计算时长向量D1与时长向量D2之间的相似度,所述相似度具体可以使用向量之间的余弦距离、欧式距离等表示,距离越小,相似度越高。
以余弦距离为例具体计算方法如式(2)所示:
其中,Dcos为时长向量之间的余弦距离,所述距离越小时,相似度越高。
如果所述融合结果大于设定的融合阈值,并且所述相似度大于设定的相似度阈值,则唤醒成功;否则唤醒失败,继续接收语音数据。
在本发明实施例中,在进行初次唤醒词识别时,采用较小的声学模型及较小的解码网络,在进行二次唤醒词识别时,采用较大的声学模型及较大的解码网络,也就是说,前面所述的第一声学模型小于第二声学模型,和/或第一解码网络小于第二解码网络。
下面分别对这两次唤醒词识别过程中使用的声学模型进行详细说明。
一、第一声学模型
所述第一声学模型包括唤醒词声学模型和吸收模型,所述唤醒词声学模型用于从语音数据中识别出唤醒词,所述吸收模型用于吸收唤醒词之外的各种声音现象,如非唤醒词语音、各种形式的噪声、音乐等。
a)训练唤醒词声学模型
为了在低功耗情况下,提高唤醒成功率,所述唤醒词声学模型使用基于第一声学特征的GMM(Gaussian Mixture Model,高斯混合模型)表征。具体训练时,首先收集大量包含唤醒词的语音数据,提取语音数据的声学特征,所述声学特征与第一声学特征相同,然后基于MLE(Maximum Likelihood Estimation,极大似然准则)训练基于HMM(Hidden MarkovModel,隐马尔可夫模型)的高斯混合模型,再基于此模型进行基于MPE(Minimum PhoneError,最小音素错误准则)的区分性训练,得到唤醒词声学模型。
b)训练吸收模型
所述吸收模型与上述唤醒词声学模型一样,采用GMM-HMM模型来表征。与唤醒词声学模型不同的是,吸收模型的吸收单元是由所有语音单元聚类构成的,吸收模型的个数取决于聚类的类别数,一般在1到100之间。
具体训练时,首先收集大量语音数据,所述语音数据尽可能地包含所有语音单元,所述语音单元如音素、音节等,如收集的语音数据尽可能地包含中文中的所有音节;然后提取语音数据的声学特征,所述声学特征与第一声学特征相同,然后基于极大似然准则训练基于HMM的高斯混合模型,得到每个语音单元的声学模型;随后基于KL(Kullback-Leibler)距离对语音单元的声学模型进行聚类,得到吸收单元,所述吸收单元由语音单元聚类构成的,具体聚类数可以预先根据实验结果设定;最后,将训练数据的标注修改为吸收单元,利用修改后的训练数据重新训练吸收单元对应的声学模型,称为吸收模型,具体训练方法与语音单元声学模型训练方法相同。
例如:修改训练数据标注的方法如下:训练数据标注的语音单元为“zhong1”,在聚类后,语音单元“zhong1”属于类1,即吸收单元1,则只需将训练数据的标注修改为“吸收单元1”即可。
第一解码网络中包含上述唤醒词声学模型和吸收模型。
二、第二声学模型
所述声学模型包括唤醒词声学模型和吸收模型,二次唤醒时,唤醒词声学模型与吸收模型同时训练,二者都使用基于第二声学特征的深度神经网络模型来表征,所述第二声学特征如Filterbank特征,所述深度神经网络结构如前馈神经网络、卷积神经网络或循环神经网络的一种或多种的组合形式,神经网络的隐层数一般为3到8层,每个隐层的节点数一般为2048个。利用收集的大量语音数据进行模型训练,模型训练时,深度神经网络的输入为语音数据的声学特征(即前面提到的第二声学特征),输出为唤醒词对应的状态及通用语音单元,唤醒词对应的状态用于唤醒词声学模型的构建,通用语音单元用于吸收模型的构建,使用收集的语音数据根据交叉熵准则进行模型训练,训练结束后,得到唤醒词声学模型和吸收模型。
所述第一解码网络和第二解码网络可以通过预先收集的唤醒词文本数据构建得到,具体构建方法与语音识别中解码网络构建方法相同。
本发明实施例提供的语音唤醒方法,在接收到语音数据后,即利用较小的声学模型及解码网络进行初次唤醒词识别,在识别到唤醒词,并且初次唤醒词识别结果达到设定目标后,再利用较大的声学模型及解码网络进行二次唤醒词识别。由于初次唤醒的功耗较小,用于持续监听时,可以有效降低唤醒功耗;只有当初次唤醒词识别结果达到设定目标才会开启二次唤醒操作,二次唤醒操作使用较大的声学模型及解码网络,因此有效地保证了唤醒成功率。
进一步地,二次唤醒时,使用学习能力较强的神经网络模型,其具有较强的非线性变换能力,训练得到的模型区分性较强,进一步提高了唤醒成功率。
相应地,本发明实施例还提供一种语音唤醒系统,如图2所示,该系统包括:
接收模块201,用于接收语音数据;
第一声学特征获取模块202,用于获取所述语音数据的第一声学特征;
初次唤醒模块203,用于利用所述第一声学特征、第一声学模型及第一解码网络进行唤醒词识别,得到初次唤醒词识别结果;
判断模块204,用于在所述初次唤醒词识别结果为唤醒词时,判断所述初次唤醒词识别结果是否达到设定目标;如果是,则触发第二声学特征获取模块205;
所述第二声学特征获取模块205,用于获取所述语音数据的第二声学特征;
二次唤醒模块206,用于利用所述第二声学特征、第二声学模型及第二解码网络进行二次唤醒词识别,得到二次唤醒词识别结果;所述第二声学模型大于所述第一声学模型,和/或所述第二解码网络大于所述第一解码网络;
确定模块207,用于根据所述二次唤醒词识别结果,确定是否唤醒成功。
需要说明的是,上述第二声学特征与第一声学特征可以相同,也可以不同,具体可以采用MFCC特征、Bottleneck特征、Filterbank特征,这些声学特征的提取可以采用现有技术。如果两次唤醒词识别利用相同的声学特征,则在该系统中,第一声学特征获取模块202需要从语音数据中提取声学特征,第二声学特征获取模块205可以直接从第一声学特征获取模块202获取需要的声学特征即可,或者可以省略第二声学特征获取模块205,即二次唤醒模块206利用第一声学特征获取模块202提取的声学特征进行唤醒词识别。
在本发明实施例的系统中,使用的第一声学模块和第二声学模型可以由相应的模块预先训练。所述模块可以作为该系统的一部分,也可以独立于该系统,对此本发明实施例不做限定。另外,为了降低唤醒功耗及资源存储,初次唤醒词识别过程采用较小声学模型及较小解码网络对唤醒词进行识别,并且唤醒系统处于实时监听状态,用户任意时刻唤醒时,都可以及时响应。第一声学模型包括唤醒词声学模型和吸收模型,其中的唤醒词声学模型和吸收模型分别训练,唤醒词声学模型使用基于第一声学特征的GMM-HMM表征,吸收模型采用GMM-HMM来表征。二次唤醒词识别过程采用较大的声学模型及解码网络,具体地,所述第二声学模型包括唤醒词声学模型和吸收模型,其中的唤醒词声学模型和吸收模型同时训练,二者均使用基于第二声学特征的神经网络模型来表征,所述神经网络模型如DNN、CNN、RNN等。
为了进一步降低噪声干扰,提高唤醒的准确性,在本发明实施例中,所述判断模块204可以根据当前环境状态来确定初次唤醒词识别结果是否达到设定目标。所述判断模块204的一种具体结构可以包括以下两个单元:
环境状态确定单元,用于确定当前环境状态;
判断单元,用于根据所述环境状态判断所述初次唤醒词识别结果是否达到设定目标。
比如,环境状态确定单元可以根据语音数据的信噪比来确定当前环境状态,具体地,在所述信噪比大于设定值时,确定当前环境状态为安静环境,否则确定当前环境状态为噪声环境。当然,还可以设定多种环境状态,对此本发明实施例不做限定。
相应地,所述判断单元可以根据唤醒词和非唤醒词的声学似然比进行判断,该判断单元可以包括:似然度获取子单元和似然比计算子单元;其中:
似然度获取子单元,用于获取初次唤醒词识别过程中得到的唤醒词和非唤醒词的声学似然度;
似然比计算子单元,用于根据所述声学似然度计算唤醒词和非唤醒词的声学似然比,并在所述声学似然比大于与所述环境状态对应的判断阈值时,确定所述初次唤醒词识别结果达到设定目标。
在二次唤醒模块206得到二次唤醒词识别结果后,确定模块207可以有多种方式来确定是否唤醒成功能,比如:
1)确定模块207直接根据二次唤醒词识别结果确定是否唤醒成功,具体地,在所述二次唤醒词识别结果为唤醒词时,确定唤醒成功;否则唤醒失败。
2)确定模块207综合考虑二次唤醒词识别结果和初次唤醒词识别结果这两者来确定是否唤醒成功。相应地,确定模块207具体可以包括以下各单元:
融合单元,用于在所述二次唤醒词识别结果为唤醒词时,对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合,得到融合结果;
第一确定单元,用于根据所述融合结果确定是否唤醒成功。
3)确定模块207综合考虑上述融合结果、以及初次唤醒的唤醒词时长与二次唤醒的唤醒词时长之间的相似度。相应地,确定模块207具体可以包括以下各单元:
融合单元,用于在所述二次唤醒词识别结果为唤醒词时,对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合,得到融合结果;
相似度计算单元,用于计算所述初次唤醒识别结果的时长与所述二次唤醒识别结果的时长之间的相似度;
第二确定单元,用于在所述融合结果大于设定的融合阈值,并且所述相似度大于设定的相似度阈值时,确定唤醒成功;否则确定唤醒失败。
本发明实施例提供的语音唤醒系统,在接收到语音数据后,即利用较小的声学模型及解码网络进行初次唤醒词识别,在识别到唤醒词,并且初次唤醒词识别结果达到设定目标后,再利用较大的声学模型及解码网络进行二次唤醒词识别。由于初次唤醒的功耗较小,用于持续监听时,可以有效降低唤醒功耗;只有当初次唤醒词识别结果达到设定目标才会开启二次唤醒操作,二次唤醒操作使用较大的声学模型及解码网络,因此有效地保证了唤醒成功率。
进一步地,二次唤醒时,使用学习能力较强的神经网络模型,其具有较强的非线性变换能力,训练得到的模型区分性较强,进一步提高了唤醒成功率。
本发明实施例的语音唤醒系统,可以应用于多种智能终端上,比如穿戴设备、手机、平板电脑、音箱、智能家电等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (22)

1.一种语音唤醒方法,其特征在于,包括:
接收语音数据;
获取所述语音数据的第一声学特征;
利用所述第一声学特征、第一声学模型及第一解码网络进行唤醒词识别,得到初次唤醒词识别结果;
如果所述初次唤醒词识别结果为唤醒词,则判断所述初次唤醒词识别结果是否达到设定目标;
如果是,则获取所述语音数据的第二声学特征;
利用所述第二声学特征、第二声学模型及第二解码网络进行二次唤醒词识别,得到二次唤醒词识别结果;所述第二声学模型大于所述第一声学模型,和/或所述第二解码网络大于所述第一解码网络;
根据所述二次唤醒词识别结果,确定是否唤醒成功。
2.根据权利要求1所述的方法,其特征在于,所述第二声学特征与第一声学特征相同或不同。
3.根据权利要求2所述的方法,其特征在于,所述第一声学特征为以下任意一种特征:MFCC特征、Bottleneck特征、Filterbank特征。
4.根据权利要求1所述的方法,其特征在于:
所述第一声学模型包括唤醒词声学模型和吸收模型,其中的唤醒词声学模型和吸收模型分别训练,唤醒词声学模型使用基于第一声学特征的GMM-HMM表征,吸收模型采用GMM-HMM来表征;
所述第二声学模型包括唤醒词声学模型和吸收模型,其中的唤醒词声学模型和吸收模型同时训练,二者均使用基于第二声学特征的神经网络模型来表征。
5.根据权利要求1所述的方法,其特征在于,所述判断所述初次唤醒词识别结果是否达到设定目标包括:
确定当前环境状态;
根据所述环境状态判断所述初次唤醒词识别结果是否达到设定目标。
6.根据权利要求5所述的方法,其特征在于,所述确定当前环境状态包括:
计算所述语音数据的信噪比;
如果所述信噪比大于设定值,则当前环境状态为安静环境;否则当前环境状态为噪声环境。
7.根据权利要求5所述的方法,其特征在于,所述根据所述环境状态判断所述初次唤醒词识别结果是否达到设定目标包括:
获取初次唤醒词识别过程中得到的唤醒词和非唤醒词的声学似然度;
根据所述声学似然度计算唤醒词和非唤醒词的声学似然比;
如果所述声学似然比大于与所述环境状态对应的判断阈值,则所述初次唤醒词识别结果达到设定目标。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述根据所述二次唤醒词识别结果,确定是否唤醒成功包括:
如果所述二次唤醒词识别结果为唤醒词,则确定唤醒成功。
9.根据权利要求1至7任一项所述的方法,其特征在于,所述根据所述二次唤醒词识别结果,确定是否唤醒成功包括:
如果所述二次唤醒词识别结果为唤醒词,则对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合,得到融合结果;
根据所述融合结果确定是否唤醒成功。
10.根据权利要求9所述的方法,其特征在于,
所述对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合,得到融合结果包括:
分别获取所述初次唤醒识别结果的声学似然比T1和所述二次唤醒识别结果的声学似然比T2;
将所述初次唤醒识别结果的声学似然比T1与所述二次唤醒识别结果的声学似然比T2进行加权组合,得到融合结果T;
所述根据所述融合结果确定是否唤醒成功包括:
如果所述融合结果T大于设定的融合阈值,则唤醒成功;否则唤醒失败。
11.根据权利要求1至7任一项所述的方法,其特征在于,所述根据所述二次唤醒词识别结果,确定是否唤醒成功包括:
如果所述二次唤醒词识别结果为唤醒词,则对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合,得到融合结果;
计算所述初次唤醒识别结果的时长与所述二次唤醒识别结果的时长之间的相似度;
如果所述融合结果大于设定的融合阈值,并且所述相似度大于设定的相似度阈值,则唤醒成功;否则唤醒失败。
12.一种语音唤醒系统,其特征在于,包括:
接收模块,用于接收语音数据;
第一声学特征获取模块,用于获取所述语音数据的第一声学特征;
初次唤醒模块,用于利用所述第一声学特征、第一声学模型及第一解码网络进行唤醒词识别,得到初次唤醒词识别结果;
判断模块,用于在所述初次唤醒词识别结果为唤醒词时,判断所述初次唤醒词识别结果是否达到设定目标;如果是,则触发第二声学特征获取模块;
所述第二声学特征获取模块,用于获取所述语音数据的第二声学特征;
二次唤醒模块,用于利用所述第二声学特征、第二声学模型及第二解码网络进行二次唤醒词识别,得到二次唤醒词识别结果;所述第二声学模型大于所述第一声学模型,和/或所述第二解码网络大于所述第一解码网络;
确定模块,用于根据所述二次唤醒词识别结果,确定是否唤醒成功。
13.根据权利要求12所述的系统,其特征在于:
所述第一声学模型包括唤醒词声学模型和吸收模型,其中的唤醒词声学模型和吸收模型分别训练,唤醒词声学模型使用基于第一声学特征的GMM-HMM表征,吸收模型采用GMM-HMM来表征;
所述第二声学模型包括唤醒词声学模型和吸收模型,其中的唤醒词声学模型和吸收模型同时训练,二者均使用基于第二声学特征的神经网络模型来表征。
14.根据权利要求12所述的系统,其特征在于,所述判断模块包括:
环境状态确定单元,用于确定当前环境状态;
判断单元,用于根据所述环境状态判断所述初次唤醒词识别结果是否达到设定目标。
15.根据权利要求14所述的系统,其特征在于,
所述环境状态确定单元,具体用于计算所述语音数据的信噪比,在所述信噪比大于设定值时,确定当前环境状态为安静环境,否则确定当前环境状态为噪声环境。
16.根据权利要求14所述的系统,其特征在于,所述判断单元包括:
似然度获取子单元,用于获取初次唤醒词识别过程中得到的唤醒词和非唤醒词的声学似然度;
似然比计算子单元,用于根据所述声学似然度计算唤醒词和非唤醒词的声学似然比,并在所述声学似然比大于与所述环境状态对应的判断阈值时,确定所述初次唤醒词识别结果达到设定目标。
17.根据权利要求12至16任一项所述的系统,其特征在于,
所述确定模块,具体用于在所述二次唤醒词识别结果为唤醒词时,确定唤醒成功。
18.根据权利要求12至16任一项所述的系统,其特征在于,所述确定模块包括:
融合单元,用于在所述二次唤醒词识别结果为唤醒词时,对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合,得到融合结果;
第一确定单元,用于根据所述融合结果确定是否唤醒成功。
19.根据权利要求18所述的系统,其特征在于,
所述融合单元,具体用于分别获取所述初次唤醒识别结果的声学似然比T1和所述二次唤醒识别结果的声学似然比T2,并将所述初次唤醒识别结果的声学似然比T1与所述二次唤醒识别结果的声学似然比T2进行加权组合,得到融合结果T;
所述确定单元,具体用于在所述融合结果T大于设定的融合阈值时,确定唤醒成功;否则确定唤醒失败。
20.根据权利要求12至16任一项所述的系统,其特征在于,所述确定模块包括:
融合单元,用于在所述二次唤醒词识别结果为唤醒词时,对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合,得到融合结果;
相似度计算单元,用于计算所述初次唤醒识别结果的时长与所述二次唤醒识别结果的时长之间的相似度;
第二确定单元,用于在所述融合结果大于设定的融合阈值,并且所述相似度大于设定的相似度阈值时,确定唤醒成功;否则确定唤醒失败。
21.一种智能终端,其特征在于,包括权利要求12至20任一项所述的语音唤醒系统。
22.根据权利要求21所述的智能终端,其特征在于,所述智能终端为以下任意一种:穿戴设备、手机、平板电脑、音箱、家电设备、智能车机。
CN201610701651.2A 2016-08-22 2016-08-22 语音唤醒方法、系统及智能终端 Active CN107767863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610701651.2A CN107767863B (zh) 2016-08-22 2016-08-22 语音唤醒方法、系统及智能终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610701651.2A CN107767863B (zh) 2016-08-22 2016-08-22 语音唤醒方法、系统及智能终端

Publications (2)

Publication Number Publication Date
CN107767863A true CN107767863A (zh) 2018-03-06
CN107767863B CN107767863B (zh) 2021-05-04

Family

ID=61263952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610701651.2A Active CN107767863B (zh) 2016-08-22 2016-08-22 语音唤醒方法、系统及智能终端

Country Status (1)

Country Link
CN (1) CN107767863B (zh)

Cited By (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831471A (zh) * 2018-09-03 2018-11-16 与德科技有限公司 一种语音安全保护方法、装置和路由终端
CN109065046A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 语音唤醒的方法、装置、电子设备及计算机可读存储介质
CN109147763A (zh) * 2018-07-10 2019-01-04 深圳市感动智能科技有限公司 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置
CN110047485A (zh) * 2019-05-16 2019-07-23 北京地平线机器人技术研发有限公司 识别唤醒词的方法和装置、介质以及设备
CN110197663A (zh) * 2019-06-30 2019-09-03 联想(北京)有限公司 一种控制方法、装置及电子设备
WO2019179285A1 (zh) * 2018-03-22 2019-09-26 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN110570861A (zh) * 2019-09-24 2019-12-13 Oppo广东移动通信有限公司 用于语音唤醒的方法、装置、终端设备及可读存储介质
CN110580908A (zh) * 2019-09-29 2019-12-17 出门问问信息科技有限公司 一种支持不同语种的命令词检测方法及设备
CN110634468A (zh) * 2019-09-11 2019-12-31 中国联合网络通信集团有限公司 语音唤醒方法、装置、设备及计算机可读存储介质
CN110808030A (zh) * 2019-11-22 2020-02-18 珠海格力电器股份有限公司 语音唤醒方法、系统、存储介质及电子设备
CN110853633A (zh) * 2019-09-29 2020-02-28 联想(北京)有限公司 一种唤醒方法及装置
CN110890087A (zh) * 2018-09-10 2020-03-17 北京嘉楠捷思信息技术有限公司 一种基于余弦相似度的语音识别方法和装置
CN111092798A (zh) * 2019-12-24 2020-05-01 东华大学 一种基于口语理解的可穿戴系统
CN111161714A (zh) * 2019-12-25 2020-05-15 联想(北京)有限公司 一种语音信息处理方法、电子设备及存储介质
CN111247582A (zh) * 2018-09-28 2020-06-05 搜诺思公司 使用神经网络模型进行选择性唤醒词检测的系统和方法
CN111243604A (zh) * 2020-01-13 2020-06-05 苏州思必驰信息科技有限公司 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统
CN111312222A (zh) * 2020-02-13 2020-06-19 北京声智科技有限公司 一种唤醒、语音识别模型训练方法及装置
CN111816193A (zh) * 2020-08-12 2020-10-23 深圳市友杰智新科技有限公司 基于多段网络的语音唤醒方法、装置及存储介质
CN111933114A (zh) * 2020-10-09 2020-11-13 深圳市友杰智新科技有限公司 语音唤醒混合模型的训练方法、使用方法和相关设备
CN112740321A (zh) * 2018-11-20 2021-04-30 深圳市欢太科技有限公司 唤醒设备的方法、装置、存储介质及电子设备
CN113129874A (zh) * 2021-04-27 2021-07-16 思必驰科技股份有限公司 语音唤醒方法及系统
CN113947855A (zh) * 2021-09-18 2022-01-18 中标慧安信息技术股份有限公司 一种基于语音识别的智能楼宇人员安全报警系统
CN114220440A (zh) * 2021-12-28 2022-03-22 科大讯飞股份有限公司 一种语音唤醒方法、装置、存储介质及设备
CN114360522A (zh) * 2022-03-09 2022-04-15 深圳市友杰智新科技有限公司 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备
CN115223573A (zh) * 2022-07-15 2022-10-21 北京百度网讯科技有限公司 语音唤醒方法、装置、电子设备以及存储介质
CN116364069A (zh) * 2023-03-23 2023-06-30 珠海一微半导体股份有限公司 语音唤醒方法、智能终端以及芯片
US11727933B2 (en) 2016-10-19 2023-08-15 Sonos, Inc. Arbitration-based voice recognition
US11778259B2 (en) 2018-09-14 2023-10-03 Sonos, Inc. Networked devices, systems and methods for associating playback devices based on sound codes
US11792590B2 (en) 2018-05-25 2023-10-17 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11790937B2 (en) 2018-09-21 2023-10-17 Sonos, Inc. Voice detection optimization using sound metadata
US11797263B2 (en) 2018-05-10 2023-10-24 Sonos, Inc. Systems and methods for voice-assisted media content selection
US11798553B2 (en) 2019-05-03 2023-10-24 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11817083B2 (en) 2018-12-13 2023-11-14 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US11817076B2 (en) 2017-09-28 2023-11-14 Sonos, Inc. Multi-channel acoustic echo cancellation
US11816393B2 (en) 2017-09-08 2023-11-14 Sonos, Inc. Dynamic computation of system response volume
US11832068B2 (en) 2016-02-22 2023-11-28 Sonos, Inc. Music service selection
US11854547B2 (en) 2019-06-12 2023-12-26 Sonos, Inc. Network microphone device with command keyword eventing
US11862161B2 (en) 2019-10-22 2024-01-02 Sonos, Inc. VAS toggle based on device orientation
US11863593B2 (en) 2016-02-22 2024-01-02 Sonos, Inc. Networked microphone device control
US11869503B2 (en) 2019-12-20 2024-01-09 Sonos, Inc. Offline voice control
US11881222B2 (en) 2020-05-20 2024-01-23 Sonos, Inc Command keywords with input detection windowing
US11881223B2 (en) 2018-12-07 2024-01-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11887598B2 (en) 2020-01-07 2024-01-30 Sonos, Inc. Voice verification for media playback
US11893308B2 (en) 2017-09-29 2024-02-06 Sonos, Inc. Media playback system with concurrent voice assistance
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11900937B2 (en) 2017-08-07 2024-02-13 Sonos, Inc. Wake-word detection suppression
US11934742B2 (en) 2016-08-05 2024-03-19 Sonos, Inc. Playback device supporting concurrent voice assistants
US11947870B2 (en) 2016-02-22 2024-04-02 Sonos, Inc. Audio response playback
US11961519B2 (en) 2020-02-07 2024-04-16 Sonos, Inc. Localized wakeword verification
US11973893B2 (en) 2018-08-28 2024-04-30 Sonos, Inc. Do not disturb feature for audio notifications
US11979960B2 (en) 2016-07-15 2024-05-07 Sonos, Inc. Contextualization of voice inputs
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11983463B2 (en) 2016-02-22 2024-05-14 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US12047753B1 (en) 2017-09-28 2024-07-23 Sonos, Inc. Three-dimensional beam forming with a microphone array
US12063486B2 (en) 2018-12-20 2024-08-13 Sonos, Inc. Optimization of network microphone devices using noise classification
US12062383B2 (en) 2018-09-29 2024-08-13 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US12080314B2 (en) 2016-06-09 2024-09-03 Sonos, Inc. Dynamic player selection for audio signal processing
US12093608B2 (en) 2019-07-31 2024-09-17 Sonos, Inc. Noise classification for event detection
US12118273B2 (en) 2020-01-31 2024-10-15 Sonos, Inc. Local voice data processing
US12119000B2 (en) 2020-05-20 2024-10-15 Sonos, Inc. Input detection windowing
US12149897B2 (en) 2016-09-27 2024-11-19 Sonos, Inc. Audio playback settings for voice interaction
US12154569B2 (en) 2017-12-11 2024-11-26 Sonos, Inc. Home graph
US12159626B2 (en) 2018-11-15 2024-12-03 Sonos, Inc. Dilated convolutions and gating for efficient keyword spotting
US12159085B2 (en) 2020-08-25 2024-12-03 Sonos, Inc. Vocal guidance engines for playback devices
US12165651B2 (en) 2018-09-25 2024-12-10 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US12165643B2 (en) 2019-02-08 2024-12-10 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US12211490B2 (en) 2019-07-31 2025-01-28 Sonos, Inc. Locally distributed keyword detection
US12212945B2 (en) 2017-12-10 2025-01-28 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US12217748B2 (en) 2017-03-27 2025-02-04 Sonos, Inc. Systems and methods of multiple voice services
US12217765B2 (en) 2017-09-27 2025-02-04 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US12279096B2 (en) 2018-06-28 2025-04-15 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US12283269B2 (en) 2020-10-16 2025-04-22 Sonos, Inc. Intent inference in audiovisual communication sessions
US12322390B2 (en) 2021-09-30 2025-06-03 Sonos, Inc. Conflict management for wake-word detection processes
US12327549B2 (en) 2022-02-09 2025-06-10 Sonos, Inc. Gatekeeping for voice intent processing
US12327556B2 (en) 2021-09-30 2025-06-10 Sonos, Inc. Enabling and disabling microphones and voice assistants

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1354455A (zh) * 2000-11-18 2002-06-19 深圳市中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
CN1750121A (zh) * 2004-09-16 2006-03-22 北京中科信利技术有限公司 一种基于语音识别及语音分析的发音评估方法
CN1841500A (zh) * 2005-03-30 2006-10-04 松下电器产业株式会社 一种基于自适应非线性谱减的抗噪方法和装置
CN101241699A (zh) * 2008-03-14 2008-08-13 北京交通大学 一种远程汉语教学中的说话人确认系统
CN101308653A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种应用于语音识别系统的端点检测方法
US20110055256A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content category searching in mobile search application
CN102238190A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 身份认证方法及系统
CN102270451A (zh) * 2011-08-18 2011-12-07 安徽科大讯飞信息科技股份有限公司 说话人识别方法及系统
CN102623009A (zh) * 2012-03-02 2012-08-01 安徽科大讯飞信息技术股份有限公司 一种基于短时分析的异常情绪自动检测和提取方法和系统
CN102999161A (zh) * 2012-11-13 2013-03-27 安徽科大讯飞信息科技股份有限公司 一种语音唤醒模块的实现方法及应用
CN103021409A (zh) * 2012-11-13 2013-04-03 安徽科大讯飞信息科技股份有限公司 一种语音启动拍照系统
CN103811003A (zh) * 2012-11-13 2014-05-21 联想(北京)有限公司 一种语音识别方法以及电子设备
CN103823867A (zh) * 2014-02-26 2014-05-28 深圳大学 一种基于音符建模的哼唱式音乐检索方法及系统
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法
CN103943107A (zh) * 2014-04-03 2014-07-23 北京大学深圳研究生院 一种基于决策层融合的音视频关键词识别方法
CN104299612A (zh) * 2014-11-10 2015-01-21 科大讯飞股份有限公司 模仿音相似度的检测方法和装置
CN104616653A (zh) * 2015-01-23 2015-05-13 北京云知声信息技术有限公司 唤醒词匹配方法、装置以及语音唤醒方法、装置
CN105096939A (zh) * 2015-07-08 2015-11-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN105374352A (zh) * 2014-08-22 2016-03-02 中国科学院声学研究所 一种语音激活方法及系统
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
US20160189706A1 (en) * 2014-12-30 2016-06-30 Broadcom Corporation Isolated word training and detection
CN105869637A (zh) * 2016-05-26 2016-08-17 百度在线网络技术(北京)有限公司 语音唤醒方法和装置

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1354455A (zh) * 2000-11-18 2002-06-19 深圳市中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
CN1750121A (zh) * 2004-09-16 2006-03-22 北京中科信利技术有限公司 一种基于语音识别及语音分析的发音评估方法
CN1841500A (zh) * 2005-03-30 2006-10-04 松下电器产业株式会社 一种基于自适应非线性谱减的抗噪方法和装置
US20110055256A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content category searching in mobile search application
CN101241699A (zh) * 2008-03-14 2008-08-13 北京交通大学 一种远程汉语教学中的说话人确认系统
CN101308653A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种应用于语音识别系统的端点检测方法
CN102238190A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 身份认证方法及系统
CN102270451A (zh) * 2011-08-18 2011-12-07 安徽科大讯飞信息科技股份有限公司 说话人识别方法及系统
CN102623009A (zh) * 2012-03-02 2012-08-01 安徽科大讯飞信息技术股份有限公司 一种基于短时分析的异常情绪自动检测和提取方法和系统
CN103021409A (zh) * 2012-11-13 2013-04-03 安徽科大讯飞信息科技股份有限公司 一种语音启动拍照系统
CN102999161A (zh) * 2012-11-13 2013-03-27 安徽科大讯飞信息科技股份有限公司 一种语音唤醒模块的实现方法及应用
CN103811003A (zh) * 2012-11-13 2014-05-21 联想(北京)有限公司 一种语音识别方法以及电子设备
CN103823867A (zh) * 2014-02-26 2014-05-28 深圳大学 一种基于音符建模的哼唱式音乐检索方法及系统
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法
CN103943107A (zh) * 2014-04-03 2014-07-23 北京大学深圳研究生院 一种基于决策层融合的音视频关键词识别方法
CN105374352A (zh) * 2014-08-22 2016-03-02 中国科学院声学研究所 一种语音激活方法及系统
CN104299612A (zh) * 2014-11-10 2015-01-21 科大讯飞股份有限公司 模仿音相似度的检测方法和装置
US20160189706A1 (en) * 2014-12-30 2016-06-30 Broadcom Corporation Isolated word training and detection
CN104616653A (zh) * 2015-01-23 2015-05-13 北京云知声信息技术有限公司 唤醒词匹配方法、装置以及语音唤醒方法、装置
CN105096939A (zh) * 2015-07-08 2015-11-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN105869637A (zh) * 2016-05-26 2016-08-17 百度在线网络技术(北京)有限公司 语音唤醒方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
V.Z.KEPUSKA等: "A novel wake-up-word speech recognition system,wake-up-word speech recognition task,technology and evaluation", 《NONLINEAR ANALYSIS:THEORY,METHODS &APPLICATIONS》 *
田丽: "基于小波神经网络的语音识别的研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *

Cited By (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12192713B2 (en) 2016-02-22 2025-01-07 Sonos, Inc. Voice control of a media playback system
US12277368B2 (en) 2016-02-22 2025-04-15 Sonos, Inc. Handling of loss of pairing between networked devices
US12047752B2 (en) 2016-02-22 2024-07-23 Sonos, Inc. Content mixing
US11947870B2 (en) 2016-02-22 2024-04-02 Sonos, Inc. Audio response playback
US11832068B2 (en) 2016-02-22 2023-11-28 Sonos, Inc. Music service selection
US11863593B2 (en) 2016-02-22 2024-01-02 Sonos, Inc. Networked microphone device control
US11983463B2 (en) 2016-02-22 2024-05-14 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US12080314B2 (en) 2016-06-09 2024-09-03 Sonos, Inc. Dynamic player selection for audio signal processing
US11979960B2 (en) 2016-07-15 2024-05-07 Sonos, Inc. Contextualization of voice inputs
US11934742B2 (en) 2016-08-05 2024-03-19 Sonos, Inc. Playback device supporting concurrent voice assistants
US12149897B2 (en) 2016-09-27 2024-11-19 Sonos, Inc. Audio playback settings for voice interaction
US11727933B2 (en) 2016-10-19 2023-08-15 Sonos, Inc. Arbitration-based voice recognition
US12217748B2 (en) 2017-03-27 2025-02-04 Sonos, Inc. Systems and methods of multiple voice services
US11900937B2 (en) 2017-08-07 2024-02-13 Sonos, Inc. Wake-word detection suppression
US11816393B2 (en) 2017-09-08 2023-11-14 Sonos, Inc. Dynamic computation of system response volume
US12217765B2 (en) 2017-09-27 2025-02-04 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US12047753B1 (en) 2017-09-28 2024-07-23 Sonos, Inc. Three-dimensional beam forming with a microphone array
US12236932B2 (en) 2017-09-28 2025-02-25 Sonos, Inc. Multi-channel acoustic echo cancellation
US11817076B2 (en) 2017-09-28 2023-11-14 Sonos, Inc. Multi-channel acoustic echo cancellation
US11893308B2 (en) 2017-09-29 2024-02-06 Sonos, Inc. Media playback system with concurrent voice assistance
US12212945B2 (en) 2017-12-10 2025-01-28 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US12154569B2 (en) 2017-12-11 2024-11-26 Sonos, Inc. Home graph
US11450312B2 (en) 2018-03-22 2022-09-20 Tencent Technology (Shenzhen) Company Limited Speech recognition method, apparatus, and device, and storage medium
WO2019179285A1 (zh) * 2018-03-22 2019-09-26 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
US11797263B2 (en) 2018-05-10 2023-10-24 Sonos, Inc. Systems and methods for voice-assisted media content selection
US12360734B2 (en) 2018-05-10 2025-07-15 Sonos, Inc. Systems and methods for voice-assisted media content selection
US11792590B2 (en) 2018-05-25 2023-10-17 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US12279096B2 (en) 2018-06-28 2025-04-15 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN109147763A (zh) * 2018-07-10 2019-01-04 深圳市感动智能科技有限公司 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置
US11973893B2 (en) 2018-08-28 2024-04-30 Sonos, Inc. Do not disturb feature for audio notifications
CN109065046A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 语音唤醒的方法、装置、电子设备及计算机可读存储介质
CN108831471A (zh) * 2018-09-03 2018-11-16 与德科技有限公司 一种语音安全保护方法、装置和路由终端
CN110890087A (zh) * 2018-09-10 2020-03-17 北京嘉楠捷思信息技术有限公司 一种基于余弦相似度的语音识别方法和装置
US11778259B2 (en) 2018-09-14 2023-10-03 Sonos, Inc. Networked devices, systems and methods for associating playback devices based on sound codes
US12230291B2 (en) 2018-09-21 2025-02-18 Sonos, Inc. Voice detection optimization using sound metadata
US11790937B2 (en) 2018-09-21 2023-10-17 Sonos, Inc. Voice detection optimization using sound metadata
US12165651B2 (en) 2018-09-25 2024-12-10 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US12165644B2 (en) 2018-09-28 2024-12-10 Sonos, Inc. Systems and methods for selective wake word detection
US11790911B2 (en) 2018-09-28 2023-10-17 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
CN111247582A (zh) * 2018-09-28 2020-06-05 搜诺思公司 使用神经网络模型进行选择性唤醒词检测的系统和方法
US12062383B2 (en) 2018-09-29 2024-08-13 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US12159626B2 (en) 2018-11-15 2024-12-03 Sonos, Inc. Dilated convolutions and gating for efficient keyword spotting
CN112740321A (zh) * 2018-11-20 2021-04-30 深圳市欢太科技有限公司 唤醒设备的方法、装置、存储介质及电子设备
US11881223B2 (en) 2018-12-07 2024-01-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US12288558B2 (en) 2018-12-07 2025-04-29 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11817083B2 (en) 2018-12-13 2023-11-14 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US12063486B2 (en) 2018-12-20 2024-08-13 Sonos, Inc. Optimization of network microphone devices using noise classification
US12165643B2 (en) 2019-02-08 2024-12-10 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11798553B2 (en) 2019-05-03 2023-10-24 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
CN110047485A (zh) * 2019-05-16 2019-07-23 北京地平线机器人技术研发有限公司 识别唤醒词的方法和装置、介质以及设备
CN110047485B (zh) * 2019-05-16 2021-09-28 北京地平线机器人技术研发有限公司 识别唤醒词的方法和装置、介质以及设备
US11854547B2 (en) 2019-06-12 2023-12-26 Sonos, Inc. Network microphone device with command keyword eventing
CN110197663A (zh) * 2019-06-30 2019-09-03 联想(北京)有限公司 一种控制方法、装置及电子设备
US12093608B2 (en) 2019-07-31 2024-09-17 Sonos, Inc. Noise classification for event detection
US12211490B2 (en) 2019-07-31 2025-01-28 Sonos, Inc. Locally distributed keyword detection
CN110634468B (zh) * 2019-09-11 2022-04-15 中国联合网络通信集团有限公司 语音唤醒方法、装置、设备及计算机可读存储介质
CN110634468A (zh) * 2019-09-11 2019-12-31 中国联合网络通信集团有限公司 语音唤醒方法、装置、设备及计算机可读存储介质
CN110570861B (zh) * 2019-09-24 2022-02-25 Oppo广东移动通信有限公司 用于语音唤醒的方法、装置、终端设备及可读存储介质
CN110570861A (zh) * 2019-09-24 2019-12-13 Oppo广东移动通信有限公司 用于语音唤醒的方法、装置、终端设备及可读存储介质
CN110580908A (zh) * 2019-09-29 2019-12-17 出门问问信息科技有限公司 一种支持不同语种的命令词检测方法及设备
CN110853633A (zh) * 2019-09-29 2020-02-28 联想(北京)有限公司 一种唤醒方法及装置
US11862161B2 (en) 2019-10-22 2024-01-02 Sonos, Inc. VAS toggle based on device orientation
CN110808030A (zh) * 2019-11-22 2020-02-18 珠海格力电器股份有限公司 语音唤醒方法、系统、存储介质及电子设备
US11869503B2 (en) 2019-12-20 2024-01-09 Sonos, Inc. Offline voice control
CN111092798A (zh) * 2019-12-24 2020-05-01 东华大学 一种基于口语理解的可穿戴系统
CN111092798B (zh) * 2019-12-24 2021-06-11 东华大学 一种基于口语理解的可穿戴系统
CN111161714A (zh) * 2019-12-25 2020-05-15 联想(北京)有限公司 一种语音信息处理方法、电子设备及存储介质
US11887598B2 (en) 2020-01-07 2024-01-30 Sonos, Inc. Voice verification for media playback
CN111243604A (zh) * 2020-01-13 2020-06-05 苏州思必驰信息科技有限公司 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统
US12118273B2 (en) 2020-01-31 2024-10-15 Sonos, Inc. Local voice data processing
US11961519B2 (en) 2020-02-07 2024-04-16 Sonos, Inc. Localized wakeword verification
CN111312222A (zh) * 2020-02-13 2020-06-19 北京声智科技有限公司 一种唤醒、语音识别模型训练方法及装置
CN111312222B (zh) * 2020-02-13 2023-09-12 北京声智科技有限公司 一种唤醒、语音识别模型训练方法及装置
US12119000B2 (en) 2020-05-20 2024-10-15 Sonos, Inc. Input detection windowing
US11881222B2 (en) 2020-05-20 2024-01-23 Sonos, Inc Command keywords with input detection windowing
CN111816193A (zh) * 2020-08-12 2020-10-23 深圳市友杰智新科技有限公司 基于多段网络的语音唤醒方法、装置及存储介质
CN111816193B (zh) * 2020-08-12 2020-12-15 深圳市友杰智新科技有限公司 基于多段网络的语音唤醒方法、装置及存储介质
US12159085B2 (en) 2020-08-25 2024-12-03 Sonos, Inc. Vocal guidance engines for playback devices
CN111933114B (zh) * 2020-10-09 2021-02-02 深圳市友杰智新科技有限公司 语音唤醒混合模型的训练方法、使用方法和相关设备
CN111933114A (zh) * 2020-10-09 2020-11-13 深圳市友杰智新科技有限公司 语音唤醒混合模型的训练方法、使用方法和相关设备
US12283269B2 (en) 2020-10-16 2025-04-22 Sonos, Inc. Intent inference in audiovisual communication sessions
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN113129874A (zh) * 2021-04-27 2021-07-16 思必驰科技股份有限公司 语音唤醒方法及系统
CN113129874B (zh) * 2021-04-27 2022-05-10 思必驰科技股份有限公司 语音唤醒方法及系统
CN113947855A (zh) * 2021-09-18 2022-01-18 中标慧安信息技术股份有限公司 一种基于语音识别的智能楼宇人员安全报警系统
US12322390B2 (en) 2021-09-30 2025-06-03 Sonos, Inc. Conflict management for wake-word detection processes
US12327556B2 (en) 2021-09-30 2025-06-10 Sonos, Inc. Enabling and disabling microphones and voice assistants
CN114220440A (zh) * 2021-12-28 2022-03-22 科大讯飞股份有限公司 一种语音唤醒方法、装置、存储介质及设备
US12327549B2 (en) 2022-02-09 2025-06-10 Sonos, Inc. Gatekeeping for voice intent processing
CN114360522A (zh) * 2022-03-09 2022-04-15 深圳市友杰智新科技有限公司 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备
CN114360522B (zh) * 2022-03-09 2022-08-02 深圳市友杰智新科技有限公司 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备
CN115223573A (zh) * 2022-07-15 2022-10-21 北京百度网讯科技有限公司 语音唤醒方法、装置、电子设备以及存储介质
CN116364069A (zh) * 2023-03-23 2023-06-30 珠海一微半导体股份有限公司 语音唤醒方法、智能终端以及芯片

Also Published As

Publication number Publication date
CN107767863B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN107767863A (zh) 语音唤醒方法、系统及智能终端
CN107767861B (zh) 语音唤醒方法、系统及智能终端
CN110364143B (zh) 语音唤醒方法、装置及其智能电子设备
CN107437415B (zh) 一种智能语音交互方法及系统
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
CN110838286B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
US10157629B2 (en) Low power neuromorphic voice activation system and method
CN107665708B (zh) 智能语音交互方法及系统
CN109192210B (zh) 一种语音识别的方法、唤醒词检测的方法及装置
CN108694940A (zh) 一种语音识别方法、装置及电子设备
CN110827821B (zh) 一种语音交互装置、方法和计算机可读存储介质
CN104036774A (zh) 藏语方言识别方法及系统
CN103077708B (zh) 一种语音识别系统中拒识能力提升方法
CN110534099A (zh) 语音唤醒处理方法、装置、存储介质及电子设备
CN106940998A (zh) 一种设定操作的执行方法及装置
CN111880856A (zh) 语音唤醒方法、装置、电子设备及存储介质
CN110232916A (zh) 语音处理方法、装置、计算机设备及存储介质
CN111667818A (zh) 一种训练唤醒模型的方法及装置
CN105632486A (zh) 一种智能硬件的语音唤醒方法和装置
CN112185357A (zh) 一种同时识别人声和非人声的装置及方法
CN115312057A (zh) 会议交互方法、装置、计算机设备和存储介质
CN110853669A (zh) 音频识别方法、装置及设备
CN109841221A (zh) 基于语音识别的参数调节方法、装置及健身设备
CN109377993A (zh) 智能语音系统及其语音唤醒方法及智能语音设备
CN115132195B (zh) 语音唤醒方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant