WO2016078416A1 - 一种语音引擎参数配置方法、装置和计算机存储介质 - Google Patents
一种语音引擎参数配置方法、装置和计算机存储介质 Download PDFInfo
- Publication number
- WO2016078416A1 WO2016078416A1 PCT/CN2015/082996 CN2015082996W WO2016078416A1 WO 2016078416 A1 WO2016078416 A1 WO 2016078416A1 CN 2015082996 W CN2015082996 W CN 2015082996W WO 2016078416 A1 WO2016078416 A1 WO 2016078416A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- parameter
- voice
- item
- speech
- parameter item
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/725—Cordless telephones
Definitions
- the identifiable parameter item of the speech engine may include at least one of the following parameter items: a full-duplex recording start interception time, a non-full-duplex recording start interception time, a minimum time for detecting an end point with a noise reduction speech, End time detection with noise reduction speech minimum time, timeout time with noise reduction mute detection, minimum trusted threshold with noise reduction recognition result, minimum time for speech start endpoint detection, minimum time for speech end endpoint detection, silence detection timeout time, recognition result Minimum trusted threshold, close-range recording source selection, remote recording source selection, shortest talk time, recording Sound sensitivity, maximum number of trusted results, old mode broadcast volume, old mode broadcast speech rate, normal mode broadcast volume, normal mode broadcast speech rate, old mode broadcast role, normal mode broadcast role, full duplex recording start interception Time, time of interception of non-full-duplex recording, minimum time of endpoint detection with noise reduction speech, minimum time of endpoint detection with noise reduction speech, timeout period with noise reduction silence detection, minimum time for speech start endpoint detection, end of speech detection
- the identifiable parameter item obtaining module 22 is configured to acquire an identifiable parameter item of the voice engine in the terminal;
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种语音引擎参数配置方法,获取终端语音配置信息和终端中语音引擎的可识别参数项(101);获取所述语音配置信息对应的第一语音参数项(102);根据在第一语音参数项中、且在语音引擎的可识别参数项中的参数项生成第二语音参数项(103);根据最佳参数设置推荐表配置所述第二语音参数项的参数值(104)。
Description
本发明涉及移动通信领域,具体涉及一种语音引擎参数配置方法、装置和计算机存储介质。
伴随着语音技术的发展热潮,语音识别和语音播报渐渐成为普通用户熟悉及经常使用的功能。而由于终端本身与语音引擎适配程度不一,会导致语音操控的效果差异很大,如何根据终端本身固有的属性来适配语音引擎,从而提高语音识别准确率及语音播报自然度,最终实现最佳的语音用户体验就显得很有意义和价值。
传统的实现方式通常是为语音引擎设置一系列默认最佳的参数来适配所有的终端,但由于每款终端的配置参数不同,使得这种配置方式并不能满足所有终端的需要;或者单独针对每款终端重新调整语音引擎的参数,以便在该终端上提升语音识别率及播报自然度。但是,显然一组语音引擎参数仅适配一类终端,而移植到其它终端上时,往往不能够达到最好的语音体验效果;如果要针对所有终端达到最佳的语音体验效果,则使得现有终端生产时的工作量加大。
发明内容
为了解决现有存在的技术问题,本发明实施例期望提供一种语音引擎参数配置方法、装置和计算机存储介质。
本发明实施例提供了一种语音引擎参数配置方法,所述方法包括:
获取终端语音配置信息和终端中语音引擎的可识别参数项;
获取所述语音配置信息对应的第一语音参数项;
根据在第一语音参数项中、且在语音引擎的可识别参数项中的参数项生成第二语音参数项;
根据最佳参数设置推荐表配置所述第二语音参数项的参数值。
上述方案中,通过以下方式获取所述语音配置信息对应的第一语音参数项:
获取语音引擎的信息参数转换表,根据所述信息参数转换表将所述语音配置信息转换为对应的第一语音参数项,所述语音引擎的信息参数转换表中包括语音配置信息及其对应的参数项。
上述方案中,所述根据最佳参数设置推荐表配置所述第二语音参数项的参数值,包括:
查找第二语音参数项中各参数项在最佳参数推荐表中的参数推荐值,将查找到的参数推荐值配置为相应参数项的参数值;其中,所述最佳参数推荐表中包括:一个或多个参数项的参数推荐值。
上述方案中,所述语音配置信息包括:语音配置信息项目和语音配置信息项目对应的信息参数。
上述方案中,所述语音配置信息项目包括以下至少其中之一:是否支持全双工、是否有录音降噪芯片、是否支持近距离录音和是否为老人模式。
上述方案中,通过以下方式获取终端中语音引擎的可识别参数项:
获取语音引擎的版本信息;
获得相应版本信息下语音引擎的可识别参数项。
上述方案中,所述语音引擎的可识别参数项可以包括以下参数项至少其中之一:全双工录音开头截取时间、非全双工录音开头截取时间、带降噪讲话开始端点检测最小时间、带降噪讲话结束端点检测最小时间、带降噪静音检测超时时间、带降噪识别结果最低可信阀值、讲话开始端点检测最小时间、讲话结束端点检测最小时间、静音检测超时时间、识别结果最低可信阀值、近距离录音源选择、远距离录音源选择、最短讲话时间、录
音灵敏度、最多可信结果条数、老人模式播报音量大小、老人模式播报语速、普通模式播报音量大小、普通模式播报语速、老人模式播报角色、普通模式播报角色、全双工录音开头截取时间、非全双工录音开头截取时间、带降噪讲话开始端点检测最小时间、带降噪讲话结束端点检测最小时间、带降噪静音检测超时时间、讲话开始端点检测最小时间、讲话结束端点检测最小时间、静音检测超时时间、老人模式播报音量大小、普通模式播报音量大小、老人模式播报语速、普通模式播报语速、老人模式播报方言种类、普通模式播报方言种类、老人模式播报角色、普通模式播报角色。
本发明实施例提供了一种语音引擎参数配置装置,所述装置包括:语音配置信息获取模块、可识别参数项获取模块、第一语音参数项获取模块、第二语音参数项生成模块及配置模块;其中,
所述语音配置信息获取模块,配置为获取终端的语音配置信息;
所述可识别参数项获取模块,配置为获取终端中语音引擎的可识别参数项;
所述第一语音参数项获取模块,配置为获取所述语音配置信息对应的第一语音参数项;
所述第二语音参数项生成模块,配置为根据在第一语音参数项中、且在语音引擎的可识别参数项中的参数项生成第二语音参数项;
所述配置模块,配置为根据最佳参数设置推荐表配置所述第二语音参数项的参数值。
上述方案中,所述第一语音参数项获取模块配置为通过以下方式获取所述语音配置信息对应的第一语音参数项:
获取语音引擎的信息参数转换表,根据所述信息参数转换表将所述语音配置信息转换为对应的第一语音参数项,所述语音引擎的信息参数转换表中包括语音信息参数及其对应的参数项。
上述方案中,所述配置模块配置为通过以下方式配置第二语音参数项
的参数值:
查找第二语音参数项中各参数项在最佳参数推荐表中的参数推荐值,将查找到的参数推荐值配置为相应参数项的参数值;其中,所述最佳参数推荐表中包括:一个或多个参数项的参数推荐值。
上述方案中,所述语音配置信息,包括:语音配置信息项目和语音配置信息项目对应的信息参数。
上述方案中,所述语音配置信息项目包括以下至少其中之一:是否支持全双工、是否有录音降噪芯片、是否支持近距离录音和是否为老人模式。
上述方案中,所述可识别参数项获取模块配置为通过以下方式获取终端中语音引擎的可识别参数项:
获取语音引擎的版本信息;
获得相应版本信息下语音引擎的可识别参数项。
上述方案中,所述语音引擎的可识别参数项可以包括以下参数项至少其中之一:全双工录音开头截取时间、非全双工录音开头截取时间、带降噪讲话开始端点检测最小时间、带降噪讲话结束端点检测最小时间、带降噪静音检测超时时间、带降噪识别结果最低可信阀值、讲话开始端点检测最小时间、讲话结束端点检测最小时间、静音检测超时时间、识别结果最低可信阀值、近距离录音源选择、远距离录音源选择、最短讲话时间、录音灵敏度、最多可信结果条数、老人模式播报音量大小、老人模式播报语速、普通模式播报音量大小、普通模式播报语速、老人模式播报角色、普通模式播报角色、全双工录音开头截取时间、非全双工录音开头截取时间、带降噪讲话开始端点检测最小时间、带降噪讲话结束端点检测最小时间、带降噪静音检测超时时间、讲话开始端点检测最小时间、讲话结束端点检测最小时间、静音检测超时时间、老人模式播报音量大小、普通模式播报音量大小、老人模式播报语速、普通模式播报语速、老人模式播报方言种类、普通模式播报方言种类、老人模式播报角色、普通模式播报角色。
本发明实施例还提供了一种计算机存储介质,所述存储介质包括一组计算机可执行指令,所述指令用于执行本发明实施例所述的语音引擎参数配置方法。
本发明实施例所提供的一种语音引擎参数配置方法、装置和计算机存储介质,获取终端语音配置信息和终端中语音引擎的可识别参数项;获取所述语音配置信息对应的第一语音参数项;根据在第一语音参数项中、且在语音引擎的可识别参数项中的参数项生成第二语音参数项;根据最佳参数设置推荐表配置所述第二语音参数项的参数值。如此,相较于现有技术,本发明实施例能够自动获取终端相关信息,得到与语音引擎相适配的语音参数项,并自动为得到的语音参数项适配最佳的参数值,从而一方面省去了用户手动设置时的繁琐操作,另一方面使得语音引擎在任何类型终端上都可以自动实现参数设置,使用户获得最佳语音体验。
图1为本发明实施例提供的语音引擎参数配置方法流程图;
图2为本发明实施例提供的语音引擎参数配置装置的基本结构图。
本发明实施例中,获取终端语音配置信息和终端中语音引擎的可识别参数项;获取所述语音配置信息对应的第一语音参数项;根据在第一语音参数项中、且在语音引擎的可识别参数项中的参数项生成第二语音参数项;根据最佳参数设置推荐表配置所述第二语音参数项的参数值。
下面通过附图及具体实施例对本发明做进一步的详细说明。
实施例一
本发明实施例一提供了一种语音引擎参数配置方法,如图1所示,该方法包括以下步骤:
步骤101:获取终端语音配置信息和终端中语音引擎的可识别参数项;
语音配置信息作为终端的硬件信息,通常以数据表的形式存储于终端中,因此,可以直接查找相应数据表获得终端的语音配置信息,通常语音配置信息包括:语音配置信息项目和语音配置信息项目对应的信息参数;例如,语音配置信息项目可以包括:是否支持全双工、是否有录音降噪芯片、是否支持近距离录音、是否为老人模式等等;以上信息项目的信息参数为是或否,这些参数通常在终端出厂时已经进行了默认设置;其中的部分参数,例如,是否支持全双工、是否有录音降噪芯片、是否支持近距离录音与终端的硬件信息相关,是固定的,不可改变;其中,是否为老人模式的参数是可以由用户根据需要修改的。
一个示例性的语音配置信息列表如表1所示:
语音配置信息项目 | 语音配置信息参数 |
是否支持全双工 | 是 |
是否有录音降噪芯片 | 是 |
是否支持近距离录音 | 否 |
表1
在实际实现中,所述语音配置信息表通常以可扩展标记语言(xml,extensible markup language)文件形式存储于终端中,示例性的xml文件如下所示:
获取终端语音配置信息之后,终端将语音配置信息中包含的信息项目和信息参数生成可视化界面,供用户查看,并且支持手动增、删、改操作,以便用户可以根据终端实际情况对信息项目及其对应的信息参数进行修正,并保存。
这一步骤中,由于终端中通常包括一个或多个语音引擎,因此,在进行语音引擎参数配置时,为了获取终端中相应语音引擎的可识别参数项,需要先获取所述语音引擎的版本信息,从而获得相应版本信息下语音引擎的可识别参数项;所述语音引擎的可识别参数项为语音引擎所支持的所有参数项。对应于不同版本信息语音引擎的可识别参数项也保存于本地。
通常,语音引擎的可识别参数项可以包括以下参数项至少其中之一:
全双工录音开头截取时间、非全双工录音开头截取时间、带降噪讲话开始端点检测最小时间、带降噪讲话结束端点检测最小时间、带降噪静音检测超时时间、带降噪识别结果最低可信阀值、讲话开始端点检测最小时间、讲话结束端点检测最小时间、静音检测超时时间、识别结果最低可信阀值、近距离录音源选择、远距离录音源选择、最短讲话时间、录音灵敏度、最多可信结果条数、老人模式播报音量大小、老人模式播报语速、普通模式播报音量大小、普通模式播报语速、老人模式播报角色、普通模式播报角色、全双工录音开头截取时间、非全双工录音开头截取时间、带降噪讲话开始端点检测最小时间、带降噪讲话结束端点检测最小时间、带降噪静音检测超时时间、讲话开始端点检测最小时间、讲话结束端点检测最小时间、静音检测超时时间、老人模式播报音量大小、普通模式播报音量大小、老人模式播报语速、普通模式播报语速、老人模式播报方言种类、普通模式播报方言种类、老人模式播报角色、普通模式播报角色。
语音引擎的可识别参数项通常以xml文件的形式存储于终端中,一个示例性的xml文件如下所示:
步骤102:获取所述语音配置信息对应的第一语音参数项;
步骤101中已经获取了终端的语音配置信息,接下来需要获取所述语音配置信息对应的第一语音参数项;
可以通过以下方式获取所述语音配置信息对应的第一语音参数项:
获取语音引擎的信息参数转换表,根据所述信息参数转换表将所述语音配置信息转换为对应的第一语音参数项;所述语音引擎的信息参数转换表中包括语音配置信息及其对应的参数项。
语音引擎的信息参数转换表也是预先存储于终端中的,其中包括语音配置信息及语音配置信息对应的参数项。
一个示例性的信息参数转换表,如表2所示:
表2
上述信息参数转换表通常也是以xml文件形式存储于终端中,示例性的xml文件如下所示:
根据表2,可以看出支持全双工对应的语音参数项为:全双工录音开头截取时间;有录音降噪芯片对应的语音参数项为:带降噪讲话开始端点检测最小时间、带降噪讲话结束端点检测最小时间、带降噪静音检测超时时间、带降噪识别结果最低可信阀值。
步骤103:根据在第一语音参数项中、且在语音引擎的可识别参数项中的参数项生成第二语音参数项;
步骤102中已经获得的第一语音参数项中包括终端支持的所有语音参数项,但不一定是语音引擎可识别的参数项;因此,在这一步骤中,需要对第一语音参数项进行过滤,也就是说,查找属于第一语音参数项、且属于语音引擎的可识别参数项的参数项,将查找出的参数项作为第二语音参数项。
步骤104:根据最佳参数设置推荐表配置所述第二语音参数项的参数值。
在这一步骤之前,终端预先存储一个最佳参数设置推荐表,其中包括对应一个或多个语音参数项的参数推荐值,也就是,该参数项的最佳参数;
因此,这一步骤中,通过以下方式配置所述第二语音参数项的参数推荐值:
查找第二语音参数项中各参数项在最佳参数推荐表中的参数值,将查找到的参数推荐值配置为相应参数项的参数值。
一个示例性的最佳参数设置推荐表如表3所示:
参数项 | 参数推荐值 |
全双工录音开头截取时间 | 300 |
非全双工录音开头截取时间 | 0 |
带降噪讲话开始端点检测最小时间 | 20 |
带降噪讲话结束端点检测最小时间 | 20 |
带降噪静音检测超时时间 | 5000 |
带降噪识别结果最低可信阀值 | 4000 |
讲话开始端点检测最小时间 | 60 |
讲话结束端点检测最小时间 | 60 |
静音检测超时时间 | 10000 |
识别结果最低可信阀值 | 4800 |
近距离录音源选择 | CLOSE_TALK_INPUT_SOURCE |
远距离录音源选择 | FAR_TALK_INPUT_SOURCE |
最短讲话时间 | 500 |
录音灵敏度 | 3000 |
最多可信结果条数 | 5 |
老人模式播报音量大小 | 10 |
普通模式播报音量大小 | 8 |
老人模式播报语速 | 6 |
普通模式播报语速 | 9 |
老人模式播报方言种类 | 普通话 |
普通模式播报方言种类 | 普通话 |
老人模式播报角色 | 老张 |
普通模式播报角色 | 小王 |
表3
其中,最佳参数设置推荐表通常也以xml形式存在,其格式如下:
这样,配置完第二语音参数项的参数值之后,所述第二语音参数项及其对应的参数值即为终端最终为语音引擎配置的语音参数信息。
根据最佳参数设置推荐表配置完所述第二语音参数项的参数值之后,终端将第二语音参数项中包含的信息项目和信息参数生成可视化界面,供用户查看,并且支持手动增、删、改操作,以便用户可以根据终端实际情况对信息项目及其对应的信息参数进行修正,并保存,用户修改完成之后的第二语音参数项及其对应的参数值即为终端最终为语音引擎配置的语音参数信息。
实施例二
本发明实施例二提供了一种语音引擎参数配置装置,如图2所示,所
述装置包括:语音配置信息获取模块21、可识别参数项获取模块22、第一语音参数项获取模块23、第二语音参数项生成模块24及配置模块25;其中,
所述语音配置信息获取模块21,配置为获取终端的语音配置信息;
所述可识别参数项获取模块22,配置为获取终端中语音引擎的可识别参数项;
所述第一语音参数项获取模块23,配置为获取所述语音配置信息对应的第一语音参数项;
所述第二语音参数项生成模块24,配置为根据在第一语音参数项中、且在语音引擎的可识别参数项中的参数项生成第二语音参数项;
所述配置模块25,配置为根据最佳参数设置推荐表配置所述第二语音参数项的参数值。
所述语音配置信息,包括:语音配置信息项目和语音配置信息项目对应的信息参数。
所述语音配置信息项目包括以下至少其中之一:是否支持全双工、是否有录音降噪芯片、是否支持近距离录音和是否为老人模式。
所述可识别参数项获取模块22配置为通过以下方式获取终端中语音引擎的可识别参数项:
获取语音引擎的版本信息;
获得相应版本信息下语音引擎的可识别参数项。
所述语音引擎的可识别参数项可以包括以下参数项至少其中之一:全双工录音开头截取时间、非全双工录音开头截取时间、带降噪讲话开始端点检测最小时间、带降噪讲话结束端点检测最小时间、带降噪静音检测超时时间、带降噪识别结果最低可信阀值、讲话开始端点检测最小时间、讲话结束端点检测最小时间、静音检测超时时间、识别结果最低可信阀值、近距离录音源选择、远距离录音源选择、最短讲话时间、录音灵敏度、最
多可信结果条数、老人模式播报音量大小、老人模式播报语速、普通模式播报音量大小、普通模式播报语速、老人模式播报角色、普通模式播报角色、全双工录音开头截取时间、非全双工录音开头截取时间、带降噪讲话开始端点检测最小时间、带降噪讲话结束端点检测最小时间、带降噪静音检测超时时间、讲话开始端点检测最小时间、讲话结束端点检测最小时间、静音检测超时时间、老人模式播报音量大小、普通模式播报音量大小、老人模式播报语速、普通模式播报语速、老人模式播报方言种类、普通模式播报方言种类、老人模式播报角色、普通模式播报角色。
所述第一语音参数项获取模块23配置为通过以下方式获取所述语音配置信息对应的第一语音参数项:
获取语音引擎的信息参数转换表,根据所述信息参数转换表将所述语音配置信息转换为对应的第一语音参数项,所述语音引擎的信息参数转换表中包括语音信息参数及其对应的参数项。
所述装置还包括:存储模块26,由存储器实现,配置为在配置模块25根据最佳参数设置推荐表配置所述第二语音参数项的参数值之前,预先存储最佳参数设置推荐表,所述最佳参数设置推荐表中包括一个或多个语音参数项的参数推荐值;还配置为存储终端语音配置信息、终端中各语音引擎的可识别参数项及相应语音引擎的信息参数转换表。
所述配置模块25配置为通过以下方式配置第二语音参数项的参数值:
查找第二语音参数项中各参数项在最佳参数推荐表中的参数推荐值,将查找到的参数推荐值配置为相应参数项的参数值;其中,所述最佳参数推荐表中包括:一个或多个参数项的参数推荐值。
实施例三
本发明实施例五提供了一种终端,包括上述实施例二提供的语音引擎参数配置装置。
在具体实施过程中,上述语音配置信息获取模块21、可识别参数项获取模块22、第一语音参数项获取模块23、第二语音参数项生成模块24及配置模块25可以由终端内的中央处理器(CPU,Central Processing Unit)、微处理器(MPU,Micro Processing Unit)、数字信号处理器(DSP,Digital Signal Processor)或可编程逻辑阵列(FPGA,Field-Programmable Gate Array)来实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现
的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
从而,本发明实施例还提供了一种计算机存储介质,所述存储介质包括一组计算机可执行指令,所述指令用于执行本发明实施例所述的语音引擎参数配置方法。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (15)
- 一种语音引擎参数配置方法,所述方法包括:获取终端语音配置信息和终端中语音引擎的可识别参数项;获取所述语音配置信息对应的第一语音参数项;根据在第一语音参数项中、且在语音引擎的可识别参数项中的参数项生成第二语音参数项;根据最佳参数设置推荐表配置所述第二语音参数项的参数值。
- 根据权利要求1所述的方法,其中,通过以下方式获取所述语音配置信息对应的第一语音参数项:获取语音引擎的信息参数转换表,根据所述信息参数转换表将所述语音配置信息转换为对应的第一语音参数项,所述语音引擎的信息参数转换表中包括语音配置信息及其对应的参数项。
- 根据权利要求1所述的方法,其中,所述根据最佳参数设置推荐表配置所述第二语音参数项的参数值,包括:查找第二语音参数项中各参数项在最佳参数推荐表中的参数推荐值,将查找到的参数推荐值配置为相应参数项的参数值;其中,所述最佳参数推荐表中包括:一个或多个参数项的参数推荐值。
- 根据权利要求1至3其中任一项所述的方法,其中,所述语音配置信息包括:语音配置信息项目和语音配置信息项目对应的信息参数。
- 根据权利要求4所述的方法,其中,所述语音配置信息项目包括以下至少其中之一:是否支持全双工、是否有录音降噪芯片、是否支持近距离录音和是否为老人模式。
- 根据权利要求1所述的方法,其中,通过以下方式获取终端中语音引擎的可识别参数项:获取语音引擎的版本信息;获得相应版本信息下语音引擎的可识别参数项。
- 根据权利要求6所述的方法,其中,所述语音引擎的可识别参数项可以包括以下参数项至少其中之一:全双工录音开头截取时间、非全双工录音开头截取时间、带降噪讲话开始端点检测最小时间、带降噪讲话结束端点检测最小时间、带降噪静音检测超时时间、带降噪识别结果最低可信阀值、讲话开始端点检测最小时间、讲话结束端点检测最小时间、静音检测超时时间、识别结果最低可信阀值、近距离录音源选择、远距离录音源选择、最短讲话时间、录音灵敏度、最多可信结果条数、老人模式播报音量大小、老人模式播报语速、普通模式播报音量大小、普通模式播报语速、老人模式播报角色、普通模式播报角色、全双工录音开头截取时间、非全双工录音开头截取时间、带降噪讲话开始端点检测最小时间、带降噪讲话结束端点检测最小时间、带降噪静音检测超时时间、讲话开始端点检测最小时间、讲话结束端点检测最小时间、静音检测超时时间、老人模式播报音量大小、普通模式播报音量大小、老人模式播报语速、普通模式播报语速、老人模式播报方言种类、普通模式播报方言种类、老人模式播报角色、普通模式播报角色。
- 一种语音引擎参数配置装置,所述装置包括:语音配置信息获取模块、可识别参数项获取模块、第一语音参数项获取模块、第二语音参数项生成模块及配置模块;其中,所述语音配置信息获取模块,配置为获取终端的语音配置信息;所述可识别参数项获取模块,配置为获取终端中语音引擎的可识别参数项;所述第一语音参数项获取模块,配置为获取所述语音配置信息对应的第一语音参数项;所述第二语音参数项生成模块,配置为根据在第一语音参数项中、且在语音引擎的可识别参数项中的参数项生成第二语音参数项;所述配置模块,配置为根据最佳参数设置推荐表配置所述第二语音参数项的参数值。
- 根据权利要求8所述的装置,其中,所述第一语音参数项获取模块配置为通过以下方式获取所述语音配置信息对应的第一语音参数项:获取语音引擎的信息参数转换表,根据所述信息参数转换表将所述语音配置信息转换为对应的第一语音参数项,所述语音引擎的信息参数转换表中包括语音信息参数及其对应的参数项。
- 根据权利要求8所述的装置,其中,所述配置模块配置为通过以下方式配置第二语音参数项的参数值:查找第二语音参数项中各参数项在最佳参数推荐表中的参数推荐值,将查找到的参数推荐值配置为相应参数项的参数值;其中,所述最佳参数推荐表中包括:一个或多个参数项的参数推荐值。
- 根据权利要求8-10其中任一项所述的装置,其中,所述语音配置信息,包括:语音配置信息项目和语音配置信息项目对应的信息参数。
- 根据权利要求11所述的方法,其中,所述语音配置信息项目包括以下至少其中之一:是否支持全双工、是否有录音降噪芯片、是否支持近距离录音和是否为老人模式。
- 根据权利要求8所述的装置,其中,所述可识别参数项获取模块配置为通过以下方式获取终端中语音引擎的可识别参数项:获取语音引擎的版本信息;获得相应版本信息下语音引擎的可识别参数项。
- 根据权利要求13所述的装置,其中,所述语音引擎的可识别参数项可以包括以下参数项至少其中之一:全双工录音开头截取时间、非全双工录音开头截取时间、带降噪讲话开始端点检测最小时间、带降噪讲话结束端点检测最小时间、带降噪静音检测超时时间、带降噪识别结果最低可信阀值、讲话开始端点检测最小时间、讲话结束端点检测最小 时间、静音检测超时时间、识别结果最低可信阀值、近距离录音源选择、远距离录音源选择、最短讲话时间、录音灵敏度、最多可信结果条数、老人模式播报音量大小、老人模式播报语速、普通模式播报音量大小、普通模式播报语速、老人模式播报角色、普通模式播报角色、全双工录音开头截取时间、非全双工录音开头截取时间、带降噪讲话开始端点检测最小时间、带降噪讲话结束端点检测最小时间、带降噪静音检测超时时间、讲话开始端点检测最小时间、讲话结束端点检测最小时间、静音检测超时时间、老人模式播报音量大小、普通模式播报音量大小、老人模式播报语速、普通模式播报语速、老人模式播报方言种类、普通模式播报方言种类、老人模式播报角色、普通模式播报角色。
- 一种计算机存储介质,所述存储介质包括一组计算机可执行指令,所述指令用于执行权利要求1-7任一项所述的语音引擎参数配置方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410674477.8 | 2014-11-21 | ||
CN201410674477.8A CN105609102B (zh) | 2014-11-21 | 2014-11-21 | 一种语音引擎参数配置方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2016078416A1 true WO2016078416A1 (zh) | 2016-05-26 |
Family
ID=55988987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2015/082996 WO2016078416A1 (zh) | 2014-11-21 | 2015-06-30 | 一种语音引擎参数配置方法、装置和计算机存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105609102B (zh) |
WO (1) | WO2016078416A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107656461A (zh) * | 2016-07-26 | 2018-02-02 | 青岛海尔洗衣机有限公司 | 一种基于用户年龄调节语音的方法及洗衣机 |
CN111460093A (zh) * | 2020-03-16 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种基于单语音输入配置多引擎的方法、装置和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1294354A (zh) * | 1999-11-01 | 2001-05-09 | 城市集团发展中心有限公司 | 用于通用软件版本的自助金融交易终端的配置方法和系统 |
CN1809218A (zh) * | 2006-02-23 | 2006-07-26 | 中国移动通信集团公司 | 移动终端上报和更新存储配置参数信息的方法 |
CN1867141A (zh) * | 2006-06-06 | 2006-11-22 | 中国移动通信集团公司 | 移动终端的参数预配置方法及预配置参数的检验方法 |
CN101087460A (zh) * | 2007-07-24 | 2007-12-12 | 中国网络通信集团公司 | 终端参数配置方法及装置 |
CN101123773A (zh) * | 2005-10-13 | 2008-02-13 | 中国移动通信集团公司 | 移动终端的服务质量参数配置方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5909667A (en) * | 1997-03-05 | 1999-06-01 | International Business Machines Corporation | Method and apparatus for fast voice selection of error words in dictated text |
US8938392B2 (en) * | 2007-02-27 | 2015-01-20 | Nuance Communications, Inc. | Configuring a speech engine for a multimodal application based on location |
US9129599B2 (en) * | 2007-10-18 | 2015-09-08 | Nuance Communications, Inc. | Automated tuning of speech recognition parameters |
CN101452703A (zh) * | 2007-11-30 | 2009-06-10 | 王瑞璋 | 一种利用网络提供语音辨识引擎的系统及其方法 |
CN103117058B (zh) * | 2012-12-20 | 2015-12-09 | 四川长虹电器股份有限公司 | 基于智能电视平台的多语音引擎切换系统及方法 |
CN103632666B (zh) * | 2013-11-14 | 2016-09-28 | 华为技术有限公司 | 语音识别方法、语音识别设备和电子设备 |
CN103617797A (zh) * | 2013-12-09 | 2014-03-05 | 腾讯科技(深圳)有限公司 | 一种语音处理方法,及装置 |
-
2014
- 2014-11-21 CN CN201410674477.8A patent/CN105609102B/zh active Active
-
2015
- 2015-06-30 WO PCT/CN2015/082996 patent/WO2016078416A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1294354A (zh) * | 1999-11-01 | 2001-05-09 | 城市集团发展中心有限公司 | 用于通用软件版本的自助金融交易终端的配置方法和系统 |
CN101123773A (zh) * | 2005-10-13 | 2008-02-13 | 中国移动通信集团公司 | 移动终端的服务质量参数配置方法 |
CN1809218A (zh) * | 2006-02-23 | 2006-07-26 | 中国移动通信集团公司 | 移动终端上报和更新存储配置参数信息的方法 |
CN1867141A (zh) * | 2006-06-06 | 2006-11-22 | 中国移动通信集团公司 | 移动终端的参数预配置方法及预配置参数的检验方法 |
CN101087460A (zh) * | 2007-07-24 | 2007-12-12 | 中国网络通信集团公司 | 终端参数配置方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105609102B (zh) | 2021-03-16 |
CN105609102A (zh) | 2016-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10971156B2 (en) | Method, interaction device, server, and system for speech recognition | |
WO2016023317A1 (zh) | 一种语音信息的处理方法及终端 | |
US11386886B2 (en) | Adjusting speech recognition using contextual information | |
EP3543999A3 (en) | System for processing sound data and method of controlling system | |
PH12017550013A1 (en) | Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing | |
US20170076208A1 (en) | Terminal application launching method, and terminal | |
US20160188292A1 (en) | System and method for interpreting natural language inputs based on storage of the inputs | |
KR102225404B1 (ko) | 디바이스 정보를 이용하는 음성인식 방법 및 장치 | |
RU2016145668A (ru) | Конфигурирование рабочих процессов в ведущем устройстве, работающем в системе управления технологическими процессами | |
WO2017012242A1 (zh) | 语音识别方法和装置 | |
EP4312147A3 (en) | Scalable dynamic class language modeling | |
US20140278440A1 (en) | Framework for voice controlling applications | |
JP2017508193A5 (zh) | ||
US20180033427A1 (en) | Speech recognition transformation system | |
CN112154465A (zh) | 一种意图识别模型的学习方法、装置及设备 | |
CA2894117A1 (en) | Audio command intent determination system and method | |
US9466310B2 (en) | Compensating for identifiable background content in a speech recognition device | |
US10224029B2 (en) | Method for using voiceprint identification to operate voice recognition and electronic device thereof | |
CN104142831B (zh) | 应用程序搜索方法及装置 | |
KR20190114321A (ko) | 전자 장치 및 그 제어 방법 | |
WO2016078416A1 (zh) | 一种语音引擎参数配置方法、装置和计算机存储介质 | |
WO2014133525A8 (en) | Server-side asr adaptation to speaker, device and noise condition via non-asr audio transmission | |
EP2919043A3 (en) | Multiple-optical-axis photoelectric sensor system, multiple-opticle-axis photoelectric sensor system control method, program, and recording medium | |
US10199041B2 (en) | Speech recognition systems and methods for maintenance repair and overhaul | |
US10923113B1 (en) | Speechlet recommendation based on updating a confidence value |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15861632 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 15861632 Country of ref document: EP Kind code of ref document: A1 |