CN105469786A

CN105469786A - 语音识别的控制方法和装置

Info

Publication number: CN105469786A
Application number: CN201410419650.XA
Authority: CN
Inventors: 刘蓉蓉
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2014-08-22
Filing date: 2014-08-22
Publication date: 2016-04-06
Also published as: WO2015117448A1

Abstract

本发明公开了一种语音识别的控制方法，包括步骤：获取移动终端所处环境的温度值和/或湿度值；当获取的温度值和/或湿度值高于设定阈值时，判定处于语音输入状态；根据语音输入状态，获取录音信息，并对获得的录音信息进行语音识别。本发明还公开了一种语音识别的控制装置。本发明具有能够在嘈杂的环境下准确进行语音识别的效果。

Description

语音识别的控制方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及语音识别的控制方法和装置。

背景技术

随着科技的进步，用户对智能终端的要求越来越高。用户希望能够用自己擅长的交流方式——语言交流——将命令传递给智能终端。而智能终端上的语音识别系统正是这种人性化设计中的高端技术。在安静的环境下，智能终端上的语音识别系统可以轻易地分辨用户的语言，从而接收用户的语言指令，例如“拨号给老王”、“搜索老王”、“播报天气”或“启动导航”等。但是现有的语音识别功能还不够智能。

具体地，当智能终端的语音识别系统运用于公共场所、户外环境时，由于周边的声音嘈杂，语音识别系统受背景噪声影响较大，致使语音识别的误触发率较高。因此如何降低语音识别系统的误触发率、提高公共场所语音识别率成为亟待解决的问题。

发明内容

本发明的主要目的在于解决在嘈杂的环境下语音识别率低的技术问题。

为实现上述目的，本发明提供的一种语音识别的控制方法，所述语音识别的控制方法包括步骤：

获取移动终端所处环境的温度值和/或湿度值；

当获取的温度值和/或湿度值高于设定阈值时，判定处于语音输入状态；

根据语音输入状态，获取录音信息，并对获得的录音信息进行语音识别。

优选地，在获取移动终端所处环境的温度值和/或湿度值的步骤之后，还包括步骤：

当检测到用户输入信息时，根据用户输入信息来设定阈值；

当未检测到用户输入信息且不存在阈值时，将获取的温度值和/或湿度值标记为参考温度值和/或湿度值，并根据所述参考温度值和/或湿度值来设定阈值。

优选地，在判定处于语音输入状态的步骤之前，还包括步骤：

当获取的温度值和/或湿度值低于设定的阈值时，将低于所述阈值的所述温度值和/或湿度值标记为参考温度值和/或湿度值；

根据所述参考温度值和/或湿度值设定所述阈值。

优选地，所述根据所述参考温度值和/或湿度值设定所述阈值的步骤包括：

储存获得的参考温度值和/或湿度值，

当储存的参考温度值和/或湿度值的储存时间超过预设期限时，将该参考温度值和/或湿度值替换标记为过期温度值和/或湿度值；

根据预设数目个参考温度值和/或湿度值动态地获得标准温度值和/或湿度值；

根据动态的所述标准温度值和/或湿度值动态地更新所述阈值。

优选地，根据语音输入状态，调取获得的录音信息，并对获得的录音信息进行语音识别的步骤包括：

获得所述语音输入状态的开始时间和结束时间；

根据所述开始时间和预设的第一偏移时间获得起点时间，根据所述结束时间和预设的第二偏移时间获得终点时间；

获取处于所述起点时间和终点时间之间的录音信息并进行语音识别。

此外，为了实现上述目的，本发明还提供了一种语音识别的控制装置，包括：

温湿度检测模块，用于获取移动终端所处环境的温度值和/或湿度值；

状态判断模块，用于获取所述温度值和/或湿度值和设定的阈值，当获取的温度值和/或湿度值高于设定的阈值时，判定处于语音输入状态；

语音识别模块，用于接收所述语音输入状态，根据语音输入状态，获取录音信息，并对获得的录音信息进行语音识别。

优选地，所述语音识别的控制装置还包括：

用户输入模块，用于接收用户的输入，产生用户输入信息；

阀值确定模块，用于接收所述用户输入信息，当检测到用户输入信息时，根据用户输入信息来设定阈值；当未检测到用户输入信息且不存在阈值时，将获取的温度值和/或湿度值标记为参考温度值和/或湿度值，并根据所述参考温度值和/或湿度值来设定阈值。

优选地，所述阀值确定模块还用于接收所述温度值和/或湿度值以及所述温湿度阀值，当获取的温度值和/或湿度值低于设定的阈值时，将低于所述阈值的所述温度值和/或湿度值标记为参考温度值和/或湿度值；并根据所述参考温度值和/或湿度值设定所述阈值。

优选地，所述语音识别的控制装置还包括：

储存模块，用于接收并储存所述参考温度值和/或湿度值，当储存的参考温度值和/或湿度值储存时间超过预设期限时，将该参考温度值和/或湿度值替换标记为过期温度值和/或湿度值；

所述阀值确定模块获得所述储存模块内储存的预设数目个参考温度值和/或湿度值，根据预设数目个参考温度值和/或湿度值动态地获得标准温度值和/或湿度值；并根据动态的所述标准温度值和/或湿度值动态地更新所述阈值。

优选地，所述储存模块还用于储存实时的录音信息；

所述语音识别模块，还用于获得所述语音输入状态的开始时间和结束时间；并根据所述开始时间和预设的第一偏移时间获得起点时间，根据所述结束时间和预设的第二偏移时间获得终点时间；获取所述储存模块内的处于所述起点时间和终点时间之间的录音信息并进行语音识别。

本发明所提供的语音识别的控制方法，可以根据用户在说话时带来的温湿度波动，确定用户语音输入的时间段，从而可以在嘈杂环境使用下准确的触发，避免了非用户的语音造成的误触发语音识别和不结束语音识别现象，提高语音识别的正确率。

附图说明

图1为本发明语音识别的控制方法第一实施例的流程示意图；

图2为本发明语音识别的控制方法第二实施例的流程示意图；

图3为图2示出了图2中步骤S109的细化步骤流程示意图；

图4为本发明语音识别的控制方法第三实施例的流程示意图；

图5为图2中步骤S104的细化步骤流程示意图；

图6为本发明语音识别的控制装置一实施例的模块化示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种语音识别的控制方法。

参照图1，图1为本发明语音识别的控制方法的第一实施例的流程示意图。

在第一实施例中，该语音识别的控制方法包括：

步骤S101，获取移动终端所处环境的温度值和/或湿度值。

可以通过温湿度检测模块以预设频率或者实时获取温度值和/或湿度值。所述预设频率可以是固定的每分钟获取一次、十次、三十次等。当然，该预设频率也可以是变化的。例如检测到用户操作时可以采用较高的预设频率，比如：受到用户拿起而翻转、受到用户握持而受压或者检测到用户触碰启动开关。否则，可以采用较低的预设频率来获取环境温度。具体地，可以通过温湿度感应器来获得温度值和/或湿度值。通常，该温湿度感应器可以设置于移动终端的麦克风处；当然，由于用户说话，通常是对着屏幕说话，也可以设置于屏幕正面，例如屏幕的边缘处。

步骤S102，判断获取的移动终端所处环境的温度值和/或湿度值是否高于设定的阈值；若是，则执行步骤S103。

具体地，温度值和/或湿度值是否高于设定的阈值是指：当获取的是温度值时，温度值大于温度阈值；当获取的是湿度值时，湿度值大于湿度阈值；当获得温度值也获得湿度值时，获取的温度值大于温度阈值，同时获取的湿度值大于湿度阈值。阈值通常设为高于当前的环境温度值和/或湿度值，同时低于用户说话时产生气流的温度值和/或湿度值。

步骤S103，判定处于语音输入状态。

步骤S104，根据语音输入状态，获取录音信息，并对获得的录音信息进行语音识别。

当处于语音输入状态时，则表示空气中的温湿度急剧增加，并超过设定的阈值，这种情况则判定为用户正在说话。而当用户说话时获得的录音信息即需要语音识别。具体地，可以是在进入语音输入状态之前既保持录音状态，并将储存获得的录音信息；而当进入所述语音输入状态时，提取相应时间段内的录音信息来进行语音识别。当然，也可以是当处于语音输入状态时，启动录音并识别，并在变换为非语音输入状态时(未检测到超过阈值的温度值和/或湿度值时)，停止录音和识别。

本实施例所提供的语音识别的控制方法，可以根据用户在说话时带来的温湿度波动，确定用户语音输入的时间段，从而可以在嘈杂环境使用下准确的触发，避免了非用户的语音造成的误触发语音识别和不结束语音识别现象，提高语音识别的正确率。

参照图2，图2为本发明语音识别的控制方法第二实施例的流程示意图。

本实施例在第一实施例的基础上，在步骤S101之后还包括步骤：

步骤S105，判断是否检测到用户输入信息；若是，则执行步骤S106，若否则执行步骤S107。

步骤S106，根据用户输入信息来设定阈值。

具体地，当用户输入信息为环境温度值和/或湿度值时，根据该环境温度值和/或湿度值上浮预设数值而获得阈值。当用户输入信息为阈值时，则以用户输入为准。当然，在用户输入明显出错时，例如用户输入99℃，可以显示提醒告示。

步骤S107，判断是否存在阈值；若是则执行步骤S102；若不是则执行步骤S108。

步骤S108，当未检测到用户输入信息且不存在阈值时，将获取的温度值和/或湿度值标记为参考温度值和/或湿度值。

具体地，当用户没有语音输入的时候，所获取的温度值和/或湿度值可以反映环境的温湿度状况。此时将能反映环境的温湿度状况的温度值和/或湿度值标记为参考温度值和/或湿度值，以供后续采用而建立阈值。

步骤S109，根据所述参考温度值和/或湿度值来设定阈值。

具体地，此时，可以是以时间最近的一个或多个参考温度值和/或湿度值来确定阈值。

本实施例中，一方面，进一步地提供了供用户建立阈值的方法，从而使得本方法更人性化；当若出错而无法获得阈值时，则可以跳过该步骤，而以用户的输入阈值来执行，从而提高了稳定性。另一方面，本实施例还提供了，若未检测到用户设置的阈值，而根据获取的温度值和/或湿度值自动获得阈值的方案。从而使得本实施例的控制方案的自动化程度更高。

本实施例中，优选的，步骤S102还包括：若获取的温度值和/或湿度值低于设定的阈值时，则执行步骤S108。

可以理解的是参考温度值和/或湿度值即可以表示环境温度值和/或湿度值，本实施例中，根据环境温度值和/或湿度值来建立阈值，从而使得阈值跟随环境温湿度的变化而变化，这样获得的阈值将更合理。

本实施例中当中，并没有采用固定的一个值作为阈值，而根据参考温度值和/或湿度值来建立阈值，是因为：

由于人体呼出的气流的温湿度在流动的过程中，将趋近于环境的温湿度。并且，该气流的温湿度与环境的温湿度的差距越大，则趋近的速度越快。因此，可以根据环境温度，来估算出较为合适的阈值。例如：

假设呼出的气流的温度值和湿度值分别为34℃、80％rh；

当测得环境温度值和湿度值分别为30℃、60％rh时，则阈值为32℃、70％rh；

当测得环境温度值和湿度值分别为28℃、56％rh时，则阈值为31℃、68％rh；

当测得环境温度值和湿度值分别为26℃、52％rh时，则阈值为30℃、66％rh；

当测得环境温度值和湿度值分别为24℃、48％rh时，则阈值为29℃、64％rh。

当然，上述情况仅为举例，在其他实施例中，还可以采用其他的更合理的关系。

进一步地，请参看图3，图3示出了图2中步骤S109的细化步骤流程示意图。步骤S109包括：

步骤S1091，储存获得的参考温度值和/或湿度值；

步骤S1092，根据预设数目个参考温度值和/或湿度值动态地获得标准温度值和/或湿度值；

步骤S1093，根据动态的所述标准温度值和/或湿度值动态地更新所述阈值。

本实施例所提供的方案具有更高的识别成功率。具体地，由于设备所处的环境温湿度是变化的，因此获取的温度值和/或湿度值也是波动变化的。采用多个参考温度值和/或湿度值求平均来获得温湿度标准值，该温湿度标准值更稳定，更趋近于环境真实的温度值和/或湿度值。从而可以避免单个的离散的错误值，导致建立的温湿度标准值偏差较大。再根据较稳定的温湿度标准值，可以获得较准确的阈值。通常，在获得的温湿度标准值的基础上，上浮预设数值，即可获得较为合适的阈值。

请参看图4，图4为本发明语音识别的控制方法的第三实施例的流程示意图。

本实施例中，在第二实施例的步骤S1091之后还包括步骤：

步骤S1094，判断储存的参考温度值和/或湿度值的储存时间是否超过预设期限；若是，则执行步骤S1095；若不是，则执行步骤S1092。

具体地，预设期限可以为1分钟、5分钟、1个小时或两个小时等。这可以为用户输入，也可以是出厂前预置的。

步骤S1095，将超过预设期限的参考温度值和/或湿度值替换标记为过期温度值和/或湿度值。

过期温度值和/或湿度值由于已经不具有时效性，不能代表此时环境的温湿度状态，因此，不参与阈值的建立。

请参看图5，图5为图2中步骤S104的细化步骤流程示意图。

由于从用户呼出的气流，到与环境混合，再到混合温湿度被获取，这期间会造成：检测到的语音输入开始时间将滞后于用户实际开始语音输入的时间；从而可能导致语音识别失败。例如，用户说：“发邮件”；而上述的滞后导致语音识别结果为“邮件…”。

为了避免上述滞后现象发生，优选地，步骤S104包括：

步骤S1041，获得所述语音输入状态的开始时间和结束时间。

步骤S1042，根据所述开始时间和预设的第一偏移时间获得起点时间，根据所述结束时间和预设的第二偏移时间获得终点时间。

步骤S1043，获取处于所述起点时间和终点时间之间的录音信息并进行语音识别。

本实施例中，步骤S104通过根据语音输入状态的开始时间和预设第一偏移时间来获得语音识别的起点时间；根据语音输入状态的结束时间和预设第二偏移时间来获得语音识别的终点时间。上述第一偏移时间和第二偏移时间可以减少上述的滞后现象发生，而达到提高语音识别率的效果。当然，对应该方案，在进入语音输入状态之前麦克风既处于录音状态，并将录入的语音信息储存于缓存，以供调取识别。

具体地，所述第二偏移时间可以与第一偏移时间可以相同也可以不同。若第一偏移时间为-0.5s，则第二偏移时间也可以为-0.5s，从而准确的识别当用户说话时的录音信息。当然，第二偏移时间也可以为+0.5s，从而避免因用户一句话中的短暂停顿，而造成语音识别中断。当然，上述-0.5s和+0.5s仅为举例说明，并不限定范围。

本发明进一步提供一种语音识别的控制装置。

请参看图6，图6为本发明语音识别的控制装置一实施例的模块化示意图。

该语音识别的控制装置10包括：

温湿度检测模块101，用于获取移动终端所处环境的温度值和/或湿度值。

具体地，温湿度检测模块101可以获得当前的环境温度值和/或湿度值；以及在用户语音输入时，混合用户呼出气体的气流温度值和/或湿度值。温湿度检测模块101可以为一个或多个能同时检测温度和湿度的温湿度感应器，也可以是由分开的一个或多个温度感应器和一个或多个湿度感应器组成。具体地，感应器可以设置于移动终端的麦克风处；当然，由于用户说话，通常是对着屏幕说话，也可以设置于屏幕正面，例如屏幕的边缘处。

状态判断模块102，用于获取所述温度值和/或湿度值和设定的阈值，当获取的温度值和/或湿度值高于设定的阈值时，判定处于语音输入状态。

语音识别模块103，用于接收所述语音输入状态，根据语音输入状态，获取录音信息，并对获得的录音信息进行语音识别。

当状态判断模块102判定处于语音输入状态时，则表示空气中的温湿度急剧增加，并超过设定的阈值，这种情况则判定为用户正在说话。而当用户说话时获得的录音信息即需要语音识别。具体地，可以是在进入语音输入状态之前，语音识别模块103既进行录音并储存获得的录音信息；而当进入所述语音输入状态时，语音识别模块103提取相应时间段内的录音信息来进行语音识别。当然，也可以是当处于语音输入状态时，语音识别模块103启动录音并识别，并在变换为非语音输入状态时(未检测到超过阈值的温度值和/或湿度值时)，停止录音和识别。

优选地，所述语音识别的控制装置10还包括：

用户输入模块104，用于接收用户的输入，产生用户输入信息。

具体地，用户输入模块104可以是实体按键，也可以是虚拟按键。

阀值确定模块105，用于接收所述用户输入信息，当检测到用户输入信息时，根据用户输入信息来设定阈值；当未检测到用户输入信息且不存在阈值时，将获取的温度值和/或湿度值标记为参考温度值和/或湿度值，并根据所述参考温度值和/或湿度值来设定阈值。

当用户输入信息为环境温度值和/或湿度值时，根据该环境温度值和/或湿度值上浮预设数值而获得阈值。当用户输入信息为阈值时，则以用户输入为准。当然，在用户输入明显出错时，例如用户输入99℃，可以显示提醒告示。

具体地，当用户没有语音输入的时候，所获取的温度值和/或湿度值可以反映环境的温湿度状况。此时将能反映环境的温湿度状况的温度值和/或湿度值标记为参考温度值和/或湿度值，以供后续采用而建立阈值。具体地，此时，可以是以时间最近的一个或多个参考温度值和/或湿度值来确定阈值。

本实施例中，通过设置用户输入模块104，从而使得本方案更人性化；同时，若出错而无法获得阈值时，则还可以通过用户输入模块104，以用户的输入阈值来执行，从而提高了稳定性。另一方面，本实施例还提供了，若未检测到用户设置的阈值，而根据阀值确定模块105获取的温度值和/或湿度值自动获得阈值的方案。从而使得本实施例的控制方案的自动化程度更高。

优选地，所述阀值确定模块105还用于接收所述温度值和/或湿度值以及所述温湿度阀值，当获取的温度值和/或湿度值低于设定的阈值时，将低于所述阈值的所述温度值和/或湿度值标记为参考温度值和/或湿度值；并根据所述参考温度值和/或湿度值设定所述阈值。

假设呼出的气流的温湿度为34℃、80％rh；

优选地，所述语音识别的控制装置还包括：

储存模块106，用于接收并储存所述参考温度值和/或湿度值，当储存的参考温度值和/或湿度值储存时间超过预设期限时，将该参考温度值和/或湿度值替换标记为过期温度值和/或湿度值。

所述阀值确定模块获得所述储存模块内储存的预设数目个参考温度值和/或湿度值，并根据预设数目个参考温度值和/或湿度值动态地获得标准温度值和/或湿度值；并根据动态的所述标准温度值和/或湿度值动态地更新所述阈值。

本实施例所提供的方案具有更高的识别成功率。具体地，一方面，由于设备所处的环境温湿度是变化的，因此获取的温度值和/或湿度值也是波动变化的。采用多个参考温度值和/或湿度值求平均来获得温湿度标准值，该温湿度标准值更稳定，更趋近于环境真实的温度值和/或湿度值。从而可以避免单个的离散的错误值，导致建立的温湿度标准值偏差较大。再根据较稳定的温湿度标准值，可以获得较准确的阈值。通常，在获得的温湿度标准值的基础上，上浮预设数值，即可获得较为合适的阈值。

另一方面，过期温度值和/或湿度值由于已经不具有时效性，不能代表此时环境的温湿度状态，因此，不参与阈值的建立可以达到更高的语音识别成功率。

为了避免上述滞后现象发生，优选地，所述储存模块106还用于储存实时的录音信息；

所述语音识别模块103，还用于获得所述语音输入状态的开始时间和结束时间；并根据所述开始时间和预设的第一偏移时间获得起点时间，根据所述结束时间和预设的第二偏移时间获得终点时间；获取所述储存模块106内的处于所述起点时间和终点时间之间的录音信息并进行语音识别。

本实施例中，优选地，通过根据语音输入状态的开始时间和一预设第一偏移时间来获得语音识别的起点时间；根据语音输入状态的结束时间和一预设第二偏移时间来获得语音识别的终点时间。上述第一偏移时间和第二偏移时间可以减少上述的滞后现象发生，而达到提高语音识别率的效果。当然，对应该方案，在进入语音输入状态之前麦克风既处于录音状态，并将录入的语音信息储存于缓存，以供调取识别。

具体地，所述第二偏移时间可以与第一偏移时间可以相同也可以不同。若第一偏移时间为-0.5s，则第二偏移时间也可以为-0.5s，从而准确的识别当用户说话时的录音信息。当然，第二偏移时间也可以为+0.5s，从而避免因用户一句话中的短暂停顿，而造成语音识别中断。

综上所述：本发明实施例可以改善环境噪声影响下的语音识别误触发率高的问题，利用温湿度传感器采集气流的温湿度信息后判断是否启动语音识别，有效提高语音识别率，此方案便于在中低端手机上实施本方案，且成本低廉。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音识别的控制方法，其特征在于，所述语音识别的控制方法包括步骤：

获取移动终端所处环境的温度值和/或湿度值；

2.如权利要求1所述的语音识别的控制方法，其特征在于，在获取移动终端所处环境的温度值和/或湿度值的步骤之后，还包括步骤：

当检测到用户输入信息时，根据用户输入信息来设定阈值；

3.如权利要求2所述的语音识别的控制方法，其特征在于，在判定处于语音输入状态的步骤之前，还包括步骤：

根据所述参考温度值和/或湿度值设定所述阈值。

4.如权利要求3所述的语音识别的控制方法，其特征在于，所述根据所述参考温度值和/或湿度值设定所述阈值的步骤包括：

储存获得的参考温度值和/或湿度值，

5.如权利要求1所述的语音识别的控制方法，其特征在于，根据语音输入状态，调取获得的录音信息，并对获得的录音信息进行语音识别的步骤包括：

获得所述语音输入状态的开始时间和结束时间；

6.一种语音识别的控制装置，其特征在于，所述语音识别的控制装置包括：

7.如权利要求6所述的语音识别的控制装置，其特征在于，所述语音识别的控制装置还包括：

用户输入模块，用于接收用户的输入，产生用户输入信息；

8.如权利要求7所述的语音识别的控制装置，其特征在于，所述阀值确定模块还用于接收所述温度值和/或湿度值以及所述温湿度阀值，当获取的温度值和/或湿度值低于设定的阈值时，将低于所述阈值的所述温度值和/或湿度值标记为参考温度值和/或湿度值；并根据所述参考温度值和/或湿度值设定所述阈值。

9.如权利要求8所述的语音识别的控制装置，其特征在于，所述语音识别的控制装置还包括：

10.如权利要求6所述的语音识别的控制装置，其特征在于，所述储存模块还用于储存实时的录音信息；