CN110428813A

CN110428813A - 一种语音理解的方法、装置、电子设备及介质

Info

Publication number: CN110428813A
Application number: CN201910667463.6A
Authority: CN
Inventors: 符文君
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-11-08
Anticipated expiration: 2039-07-23
Also published as: CN110428813B

Abstract

本发明实施例提供了一种语音理解的方法、装置、电子设备及介质，涉及多媒体内容交互技术领域，用于正确理解用户的语音指令。本发明实施例的方案包括：接收用户输入的语音指令，识别语音指令，得到语音指令对应的第一文本指令，然后将第一文本指令输入翻译模型，获取翻译模型基于平行语料库输出的第二文本指令，翻译模型基于平行语料库训练生成。

Description

一种语音理解的方法、装置、电子设备及介质

技术领域

本发明涉及多媒体内容交互技术领域，特别是涉及一种语音理解的方法、装置、电子设备及介质。

背景技术

目前，随着科技的进步以及生活或工作的需要，用户可以通过语音指令控制电子设备执行操作，但是目前用户在电子设备上进行语音指令输入时，由于用户输入语音指令的多样化，如：语种的多样化、方言的多样化、口音的多样化和专业领域术语的多样化等，可能导致电子设备的语音识别系统错误地识别语音指令，进而导致电子设备无法按照语音指令执行正确的操作。

发明内容

本发明实施例的目的在于提供一种语音理解的方法、装置、电子设备及介质，以实现语音指令的正确理解。具体技术方案如下：

第一方面，本发明实施例提供了一种语音理解的方法，包括：

接收用户输入的语音指令；

识别所述语音指令，得到所述语音指令对应的第一文本指令；

将所述第一文本指令输入翻译模型，获取所述翻译模型基于平行语料库输出的第二文本指令，所述翻译模型基于平行语料库训练生成；

其中，所述平行语料库包括具有对应关系的第一类文本指令和第二类文本指令，所述第一类文本指令为文本指令语料库中的文本指令，所述第二类文本指令为采用不同的语音转换方式将所述第一类文本指令转换为不同的音频指令后，对所述音频指令的文本识别结果；所述文本指令语料库中包括预设的文本指令，所述文本指令用于控制电子设备执行所述文本指令指示的操作。

在一种可能实现的方式中，在将所述第一文本指令输入翻译模型，获取所述翻译模型基于平行语料库输出的第二文本指令之前，所述方法还包括：

通过语音识别技术识别所述语音指令的特征；

根据所述语音指令的特征确定所述语音指令对应的翻译模型，将所述翻译模型作为所述语音指令的翻译模型。

在一种可能实现的方式中，所述根据所述语音指令的特征确定所述语音指令对应的翻译模型，包括：

根据所述语音指令的口音特征和/或方言特征，确定所述语音指令对应的翻译模型。

在一种可能实现的方式中，所述根据所述语音指令的口音特征和/或方言特征，确定所述语音指令对应的翻译模型，包括：

若确定所述语音指令的口音特征与特定用户的口音特征相符，则根据所述语音指令的方言特征判断所述语音指令是否属于预设方言；若所述语音指令属于所述预设方言，则确定所述语音指令对应的翻译模型为所述预设方言对应的翻译模型；若所述语音指令不属于所述预设方言，则确定所述语音指令对应的翻译模型为所述特定用户对应的翻译模型；或者，

若确定所述语音指令的口音特征与特定用户的口音特征相符，则确定所述语音指令对应的翻译模型为所述特定用户对应的翻译模型；或者，

若确定所述语音指令的口音特征与特定用户的口音特征不相符，则根据所述语音指令的方言特征判断所述语音指令是否属于预设方言；若所述语音指令属于所述预设方言，则确定所述语音指令对应的翻译模型为所述预设方言对应的翻译模型；若所述语音指令不属于所述预设方言，则确定所述语音指令对应的翻译模型为通用翻译模型。

在一种可能实现的方式中，所述特定用户对应的翻译模型包括所述特定用户的每种口音特征对应的翻译模型；所述确定所述语音指令对应的翻译模型为所述特定用户对应的翻译模型，包括：

若确定所述语音指令的口音特征与所述特定用户的目标口音特征相符，则确定所述语音指令对应的翻译模型为所述特定用户的所述目标口音特征对应的翻译模型。

第二方面，本发明实施例提供一种语音理解的方法，包括：

将文本指令语料库中的每条文本指令分别采用不同的语音转换方式转换为不同的音频指令，所述文本指令语料库中包括预设的文本指令，所述文本指令用于控制电子设备执行所述文本指令指示的操作；

识别每条文本指令对应的各音频指令，得到每条文本指令对应的各音频指令的文本识别结果；

构建平行语料库，所述平行语料库包括所述文本指令语料库中的每条文本指令和基于每条文本指令得到的各文本识别结果之间的对应关系；

将所述平行语料库作为训练集对深度学习模型进行训练，得到所述翻译模型。

在一种可能的实现方式中，所述将文本指令语料库中的每条文本指令分别采用不同的语音转换方式转换为不同的音频指令，包括：

将所述文本指令语料库中的每条文本指令分别转换为各预设方言的音频指令；和/或，

将所述文本指令语料库中的每条文本指令分别转换为与各特定用户的口音特征相符的音频指令。

在一种可能的实现方式中，所述构建平行语料库，包括：

针对文本指令语料库中的每条文本指令，将所述文本指令转换为音频指令之后，对音频指令的文本识别结果，以及所述文本指令作为一个平行句对；

根据每条文本指令对应的平行句对，构建所述平行语料库。

在一种可能的实现方式中，所述平行语料库中包括基于特定用户口音特征生成的平行句对、基于预设方言生成的平行句对、基于普通话生成的平行句对；所述将所述平行语料库作为训练集对深度学习模型进行训练，得到所述翻译模型，包括：

将所述平行语料库包括的基于特定用户口音特征生成的平行句对输入第一深度学习模型，将所述第一深度学习模型训练为所述特定用户对应的翻译模型；

将所述平行语料库包括的基于预设方言生成的平行句对输入第二深度学习模型，将所述第二深度学习模型训练为所述预设方言对应的翻译模型；

将所述平行语料库包括的基于普通话生成的平行句对输入第三深度学习模型，将所述第三深度学习模型训练为通用翻译模型。

在一种可能的实现方式中，所述基于特定用户口音特征生成的平行句对包括：基于所述特定用户的每种口音特征生成的平行语句对；

所述将所述平行语料库包括的基于特定用户口音特征生成的平行句对输入第一深度学习模型，将所述第一深度学习模型训练为所述特定用户对应的翻译模型，包括：

分别将所述平行语料库包括的基于所述特定用户的每种口音特征生成的语句对输入一个第一深度学习模型，分别将各第一深度学习模型训练为所述特定用户的每种口音特征对应的翻译模型。

第三方面，本发明实施例提供一种语音理解的装置，包括：

接收模块，用于接收用户输入的语音指令；

第一识别模块，用于识别所述语音指令，得到所述语音指令对应的第一文本指令；

获取模块，用于将所述第一文本指令输入翻译模型，获取所述翻译模型基于平行语料库输出的第二文本指令，所述翻译模型基于平行语料库训练生成；

在一种可能的实现方式中，所述装置还包括：

第二识别模块，用于通过语音识别技术识别所述语音指令的特征；

确定模块，用于根据所述语音指令的特征确定所述语音指令对应的翻译模型，将所述翻译模型作为所述语音指令的翻译模型。

在一种可能的实现方式中，

所述确定模块，具体用于根据所述语音指令的口音特征和/或方言特征，确定所述语音指令对应的翻译模型。

在一种可能的实现方式中，所述确定模块，具体用于：

在一种可能的实现方式中，所述特定用户对应的翻译模型包括所述特定用户的每种口音特征对应的翻译模型；所述确定模块，具体用于：

第四方面，本发明实施例提供一种语音理解的装置，包括：

转换模块，用于将文本指令语料库中的每条文本指令分别采用不同的语音转换方式转换为不同的音频指令，所述文本指令语料库中包括预设的文本指令，所述文本指令用于控制电子设备执行所述文本指令指示的操作；

识别模块，用于识别每条文本指令对应的各音频指令，得到每条文本指令对应的各音频指令的文本识别结果；

构建模块，用于构建平行语料库，所述平行语料库包括所述文本指令语料库中的每条文本指令和基于每条文本指令得到的各文本识别结果之间的对应关系；

训练模块，用于将所述平行语料库作为训练集对深度学习模型进行训练，得到所述翻译模型。

在一种可能的实现方式中，所述转换模块，具体用于：

在一种可能的实现方式中，所述构建模块，具体用于：

根据每条文本指令对应的平行句对，构建所述平行语料库。

在一种可能的实现方式中，所述平行语料库中包括基于特定用户口音特征生成的平行句对、基于预设方言生成的平行句对、基于普通话生成的平行句对；所述训练模块，具体用于：

在一种可能的实现方式中，所述基于特定用户口音特征生成的平行句对包括：基于所述特定用户的每种口音特征生成的平行语句对；所述训练模块，具体用于：

第五方面，本申请实施例提供一种电子设备，该电子设备包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现第一方面中所述的语音理解的方法。

第六方面，本申请实施例提供一种电子设备，该电子设备包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现第二方面中所述的语音理解的方法。

第七方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中所述的语音理解的方法。

第八方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第二方面中所述的语音理解的方法。

第九方面，本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面中所述的语音理解的方法。

第十方面，本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第二方面中所述的语音理解的方法。

由以上方案可见，采用本发明实施例提供的语音理解的方法，电子设备接收用户输入的语音指令，识别语音指令，得到语音指令对应的第一文本指令，即使第一文本指令识别不准确，电子设备还可将第一文本识别指令输入翻译模型。由于翻译模型可基于平行语料库将第一文本指令翻译为第二文本指令，平行语料库中包括具有对应关系的第一类文本指令和第二类文本指令，其中第一文本指令属于平行语料库中的第二类文本指令，通过该对应关系，可将该第一文本指令翻译为属于第一类文本指令的第二文本指令。由于第一类文本指令属于文本指令语料库，所以属于第一类文本指令的第二文本指令为电子设备可识别的准确的文本指令，从而使得电子设备可根据准确的文本指令执行正确的操作。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音理解的方法的流程图；

图2为本发明实施例提供的另一种语音理解的方法的流程图；

图3为本发明实施例提供的一种语音理解的装置的结构示意图；

图4为本发明实施例提供的另一种语音理解的装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决电子设备无法按照语音指令执行正确的操作的问题，本发明实施例提供了一种语音理解的方法及装置，以下分别进行详细说明。

参见图1，图1为本发明实施例的语音理解的方法的一种流程图，该流程应用于电子设备，包括如下步骤：

其中，电子设备包括例如手机、台式电脑、平板电脑、可穿戴设备等等具有语音识别功能的电子设备。

步骤101、接收用户输入的语音指令。

步骤102、识别语音指令，得到语音指令对应的第一文本指令。

其中，第一文本指令是将用户输出的语音指令通过语音识别技术转换得到的文本指令。具体识别方法可参考现有技术中的语音识别技术，此处不再赘述。

步骤103、将第一文本指令输入翻译模型，获取翻译模型基于平行语料库输出的第二文本指令。

其中，翻译模型基于平行语料库训练生成。平行语料库包括具有对应关系的第一类文本指令和第二类文本指令，第一类文本指令为文本指令语料库中的文本指令，第二类文本指令为采用不同的语音转换方式将第一类文本指令转换为不同的音频指令后，对音频指令的文本识别结果。

其中，文本指令语料库中包括预设的文本指令，文本指令用于控制电子设备执行文本指令指示的操作。

例如，文本指令语料库中包括“切换到流畅”、“切换到高清”、“切换到标清”等预设的文本指令。用户输入这些文本指令对应的语音指令后，电子设备可能因为语音指令是方言等原因导致对语音指令识别不准确，例如，假设用户输入的语音指令为“切换到流畅”，而电子设备却将该语音指令识别为“结婚到流畅”。

作为一个例子，第一类文本指令为上述文本指令语料库中的文本指令，例如“切换到流畅”、“切换到高清”、“切换到标清”等。第二类文本指令为将这些文本指令转换为音频指令后，电子设备对该音频指令的文本识别结果，例如，电子设备将音频指令“切换到流畅”识别为“结婚到流畅”，则平行语料库中的一条平行语句为“切换到流畅”与“结婚到流畅”的对应关系。

结合上述例子，可以理解的是，若上述步骤102中得到的第一文本指令为“结婚到流畅”，则将第一文本指令“结婚到流畅”输入翻译模型后，翻译模型可基于平行语料库中的上述“切换到流畅”与“结婚到流畅”的对应关系，将“结婚到流畅”翻译为第二文本指令“切换到流畅”。从而得到正确的识别结果，使得电子设备能够执行正确的操作。

采用本发明实施例提供的语音理解的方法，电子设备接收用户输入的语音指令，识别语音指令，得到语音指令对应的第一文本指令，即使第一文本指令识别不准确，电子设备还可将第一文本识别指令输入翻译模型。由于翻译模型可基于平行语料库将第一文本指令翻译为第二文本指令，平行语料库中包括具有对应关系的第一类文本指令和第二类文本指令，其中第一文本指令属于平行语料库中的第二类文本指令，通过该对应关系，可将该第一文本指令翻译为属于第一类文本指令的第二文本指令。由于第一类文本指令属于文本指令语料库，所以属于第一类文本指令的第二文本指令为电子设备可识别的准确的文本指令，从而使得电子设备可根据准确的文本指令执行正确的操作。

在本发明实施例中，在步骤103、将第一文本指令输入翻译模型，获取翻译模型基于平行语料库输出的第二文本指令之前，电子设备还可以通过语音识别技术识别语音指令的特征，根据语音指令的特征确定语音指令对应的翻译模型，并将该翻译模型作为语音指令的翻译模型。

具体地，根据语音指令的口音特征和/或方言特征，确定语音指令对应的翻译模型。

其中，语音指令的口音特征包括特定用户的口音，语音指令的方言特征包括语音所属的语种、语音所属的方言等。当然，本发明实施例中的语音指令的特征不限于此，其他用于表征语音指令的特征也适用于本发明实施例。

本发明实施例示例性地提供以下三种根据语音指令的特征确定语音指令对应的翻译模型的方式。

方式一：

步骤一、若识别出语音指令与特定用户的口音相符，则根据语音指令的方言特征判断语音指令是否属于预设方言。

具体地，电子设备通过声纹识别方法识别语音指令是否与特定用户的口音相符。例如，声纹识别方法可以为基于i-vector的声纹识别方法。

步骤二、若语音指令属于预设方言，则确定语音指令对应的翻译模型为预设方言对应的翻译模型。

具体地，电子设备通过基于移位差分谱特征的i-vector方法识别语音指令是否属于预设方言。

其中，预先设置了多种方言，每种方言对应一个翻译模型。

例如，预先设置了广东话、湖南话和四川话分别对应的翻译模型为广东话翻译模型，湖南话翻译模型和四川话翻译模型。当电子设备识别出语音指令为四川话时，确定四川话翻译模型为四川话对应的翻译模型。当然，本发明实施例中方言不限于此，及方言对应的翻译模型的种类也不限于此，其他方言及其他方言对应的翻译模型也适用于本发明实施例。

步骤三、若语音指令不属于预设方言，则确定语音指令对应的翻译模型为特定用户对应的翻译模型。

方式二：

若确定所述语音指令的口音特征与特定用户的口音特征相符，则确定所述语音指令对应的翻译模型为所述特定用户对应的翻译模型。

方式三：

步骤一、若确定语音指令的口音特征于特定用户的口音特征不相符，则根据语音指令的方言特征判断语音指令是否属于预设方言。

步骤三、若语音指令不属于预设方言，则确定语音指令对应的翻译模型为通用翻译模型。

识别语音指令是否属于预设方言的方式可参考上述方式一中的描述，此处不再赘述。

需要说明的是，本发明实施例不限于上述三种识别方式，基于语音指令特征的不同，电子设备可以选择不同的翻译模型。例如，若识别出语音指令属于特定语种，例如英文，则确定语音指令对应的翻译模型为英文对应的翻译模型，此处不再一一例举。

为了实现上述方法需要基于文本指令语料库训练得到翻译模型，如图2所示，训练翻译模型的方法包括以下步骤：

步骤201、将文本指令语料库中的每条文本指令分别采用不同的语音转换方式转换为不同的音频指令。

在一种实现方式中，电子设备使用支持方言转换的语音合成工具，将文本指令语料库中的每条文本指令分别转换为各预设方言的音频指令。

在另一种实现方式中，电子设备使用支持个性化语音合成的语音合成工具，将文本指令语料库中的每条文本指令分别转换为与特定用户的口音特征相符的音频指令。

步骤202、识别每条文本指令对应的各音频指令，得到每条文本指令对应的各音频指令的文本识别结果。

其中，电子设备识别文本语料库包括的每条文本指令。具体地，电子设备可采用基于全卷积注意力机制的语音合成的方法，先将文本指令中的字、音素、重音等文本特征输入全卷积编码器和全卷积因果解码器，预测声谱特征，然后将解码器的隐藏状态传递给全卷积转换器网络，以预测声学特征，从而合成该文本指令对应的音频指令。

然后，电子设备可采用基于全序列卷积神经网络模型的语音识别技术，对上述合成的音频指令进行语音识别，得到文本识别结果。

例如，电子设备可以识别文本指令1对应的两条音频指令，其中一条音频指令为电子设备使用支持个性化语音合成的语音合成工具，将文本指令1转换为与特定口音特征相符的音频指令1。另一条音频指令为电子设备使用支持方言转换的语音合成工具，将文本指令1转换为属于预设方言的音频指令2。

然后，电子设备通过语音识别的方法将音频指令1和音频指令2分别转换成文本识别结果A和文本识别结果B。

步骤203、构建平行语料库。

具体地，针对文本指令语料库中的每条文本指令，将文本指令转换为音频指令之后，对音频指令的文本识别结果，以及文本指令作为一个平行句对；根据每条文本指令对应的平行句对，构建平行语料库。

其中，平行语料库包括文本指令语料库中的每条文本指令和基于每条文本指令得到的各文本识别结果之间的对应关系，具体地，平行语料库中包括基于特定用户口音特征生成的平行句对、基于预设方言生成的平行句对、基于普通话生成的平行句对。

在一种可能的实现方式中，若特定用户具有多种口音特征，可基于特定用户的每种口音特征分别生成平行语句对，以基于每种口音特征对应的平行语句对分别训练特定用户的每种口音特征对应的翻译模型。

例如，文本指令语料库中包括的一条文本指令为“切换到流畅”，通过语音合成将上述文本指令“切换到流畅”转换为音频指令，然后通过语音识别的方法得到将该音频指令对应的文本指令为“结婚到刘畅”，以“切换到流畅”和“结婚到刘畅”作为一条平行语句对存入平行语料库。对文本指令语料库中的每条文本指令进行上述操作，得到每条文本指令对应的平行语句，将得到的平行语句构建为平行语料库。

其中，作为示例而非限定，本发明实施例的平行语料库如表1所示。

表1

第一类文本指令	第二类文本指令
		切换到流畅	结婚到刘畅
切换到高清	结婚到高新
		加音量	贾一亮

如表1所示，“切换到流畅”、“切换到高清”“加音量”为文本指令语料库中的指令，“结婚到流畅”“结婚到高新”“贾一亮”为基于不同语音合成方法和语音识别方法得到的。

步骤204、将平行语料库作为训练集对深度学习模型进行训练，得到翻译模型。

具体地，将平行语料库作为训练集，将平行语料库中的第二类文本指令输入深度学习模型，判断深度学习模型的输出结果与该第二类文本指令对应的第一类文本指令是否一致，若不一致，则基于反向传播算法调整深度学习模型中的参数。从而根据平行语料库中的各平行语句对深度学习模型进行训练，得到翻译模型。

由于用户在语音输入时会存在口音，有时还会存在方言，但大多数用户是说普通话，以下示例性地给出三种翻译模型的训练方式。

特定用户口音对应的翻译模型的训练方式为：将平行语料库包括的基于特定用户口音特征生成的平行句对输入第一深度学习模型，将第一深度学习模型训练为特定用户对应的翻译模型；

需要说明的是，由于特定用户的口音特征可能不止一种，所以在训练口音特征对应的翻译模型时，分别将平行语料库包括的基于特定用户的每种口音特征生成的语句对输入一个第一深度学习模型，分别将各第一深度学习模型训练为特定用户的每种口音特征对应的翻译模型。

方言对应的翻译模型的训练方式为：将平行语料库包括的基于预设方言生成的平行句对输入第二深度学习模型，将第二深度学习模型训练为预设方言对应的翻译模型；

需要说明的是，由于方言的种类繁多，所以在训练方言对应的翻译模型时，会对一些常用的方言进行训练，例如，东北话，湖南话，广东话等。分别将平行语料库包括的基于各种预设方言生成的平行语句对输入一个第二深度学习模型，分别将各第二深度学习模型训练为每种预设方言对应的翻译模型。

普通话对应的翻译模型的训练方式为：将平行语料库包括的基于普通话生成的平行句对输入第三深度学习模型，将第三深度学习模型训练为通用翻译模型。

其中，深度学习模型可以为多头自注意力机制(multi-head self attention)的转换(Transformer)模型，该模型的编码器和解码器都由6层网络堆栈构成，编码器的每层网络包括全连接层和自注意力(self-attention)层，编码器的输出作为解码器的输入，解码器的每层网络包括全连接层、self-attention层和编码器译码器注意力(encoder-decoder-attention)层。

例如，若深度学习模型的输出结果与该第二类文本指令对应的第一类文本指令不一致，则基于反向传播算法调整深度学习模型中的编码器和解码器各层神经网络中参数。

采用本发明实施例提供的语音理解的方法，电子设备将文本指令语料库中的每条文本指令分别采用不同的语音转换方式转换为不同的音频指令，然后识别每条文本指令对应的各音频指令，得到每条文本指令对应的各音频指令的文本识别结果，并构建平行语料库，然后将平行语料库作为训练集对深度学习模型进行训练，得到翻译模型。可见，若应用本发明实施例提供的翻译模型，电子设备接收到语音指令后，如果对语音指令识别后，得到的文本指令不准确，电子设备可将该文本指令输入翻译模型，由于翻译模型基于平行语料库训练得到，而且平行语料库包括文本指令语料库中的每条文本指令即第一类文本指令和基于每条文本指令得到的各文本识别结果即第二类文本指令之间的对应关系。所以电子设备可获取翻译模型输出的该文本指令对应的第一类文本指令，由于第一类文本指令属于文本语料库，所以属于电子设备可识别的正确的文本指令，从而使得电子设备可根据准确的文本指令执行正确的操作。

基于相同的发明构思，本申请实施例还提供了一种语音理解的装置，如图3所示，该装置包括：接收模块301，第一识别模块302，获取模块303；

接收模块301，用于接收用户输入的语音指令；

第一识别模块302，用于识别语音指令，得到语音指令对应的第一文本指令；

可选的，该装置还包括：第二识别模块和确定模块。

获取模块303，用于将第一文本指令输入翻译模型，获取翻译模型基于平行语料库输出的第二文本指令，翻译模型基于平行语料库训练生成；

在一种实施方式中，装置还包括：第二识别模块和确定模块。

第二识别模块，用于通过语音识别技术识别语音指令的特征；

确定模块，用于根据语音指令的特征确定语音指令对应的翻译模型，将翻译模型作为语音指令的翻译模型。

在一种实施方式中，

确定模块，具体用于根据语音指令的口音特征和/或方言特征，确定语音指令对应的翻译模型。

在一种实施方式中，确定模块，具体用于：

若确定语音指令的口音特征与特定用户的口音特征相符，则根据语音指令的方言特征判断语音指令是否属于预设方言；若语音指令属于预设方言，则确定语音指令对应的翻译模型为预设方言对应的翻译模型；若语音指令不属于预设方言，则确定语音指令对应的翻译模型为特定用户对应的翻译模型；或者，

若确定语音指令的口音特征与特定用户的口音特征相符，则确定语音指令对应的翻译模型为特定用户对应的翻译模型；或者，

若确定语音指令的口音特征与特定用户的口音特征不相符，则根据语音指令的方言特征判断语音指令是否属于预设方言；若语音指令属于预设方言，则确定语音指令对应的翻译模型为预设方言对应的翻译模型；若语音指令不属于预设方言，则确定语音指令对应的翻译模型为通用翻译模型。

在一种实施方式中，特定用户对应的翻译模型包括特定用户的每种口音特征对应的翻译模型；确定模块，具体用于：

若确定语音指令的口音特征与特定用户的目标口音特征相符，则确定语音指令对应的翻译模型为特定用户的目标口音特征对应的翻译模型。

基于相同的发明构思，本申请实施例还提供了另一种语音理解的装置，如图4所示，该装置包括：转换模块401，识别模块402，构建模块403和训练模块404。

转换模块401，用于将文本指令语料库中的每条文本指令分别采用不同的语音转换方式转换为不同的音频指令，文本指令语料库中包括预设的文本指令，文本指令用于控制电子设备执行文本指令指示的操作。

识别模块402，用于识别每条文本指令对应的各音频指令，得到每条文本指令对应的各音频指令的文本识别结果。

构建模块403，用于构建平行语料库，平行语料库包括文本指令语料库中的每条文本指令和基于每条文本指令得到的各文本识别结果之间的对应关系。

训练模块404，用于将平行语料库作为训练集对深度学习模型进行训练，得到翻译模型。

在一种实施方式中，转换模块401，具体用于：

将文本指令语料库中的每条文本指令分别转换为各预设方言的音频指令；和/或，

将文本指令语料库中的每条文本指令分别转换为与各特定用户的口音特征相符的音频指令。

在一种实施方式中，构建模块403，具体用于：

针对文本指令语料库中的每条文本指令，将文本指令转换为音频指令之后，对音频指令的文本识别结果，以及文本指令作为一个平行句对；

根据每条文本指令对应的平行句对，构建平行语料库。

在一种实施方式中，平行语料库中包括基于特定用户口音特征生成的平行句对、基于预设方言生成的平行句对、基于普通话生成的平行句对；训练模块404，具体用于：

将平行语料库包括的基于特定用户口音特征生成的平行句对输入第一深度学习模型，将第一深度学习模型训练为特定用户对应的翻译模型；

将平行语料库包括的基于预设方言生成的平行句对输入第二深度学习模型，将第二深度学习模型训练为预设方言对应的翻译模型；

将平行语料库包括的基于普通话生成的平行句对输入第三深度学习模型，将第三深度学习模型训练为通用翻译模型。

在一种实施方式中，基于特定用户口音特征生成的平行句对包括：基于特定用户的每种口音特征生成的平行语句对；训练模块404，具体用于：

将平行语料库包括的基于特定用户口音特征生成的平行句对输入第一深度学习模型，将第一深度学习模型训练为特定用户对应的翻译模型，包括：

分别将平行语料库包括的基于特定用户的每种口音特征生成的语句对输入一个第一深度学习模型，分别将各第一深度学习模型训练为特定用户的每种口音特征对应的翻译模型。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信；

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现上述图1对应的方法实施例中由电子设备执行的步骤，或者用于实现上述图2对应的方法实施例中由电子设备执行的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述任一语音理解方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一语音理解方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种语音理解的方法，其特征在于，包括：

接收用户输入的语音指令；

2.根据权利要求1所述的方法，其特征在于，在将所述第一文本指令输入翻译模型，获取所述翻译模型基于平行语料库输出的第二文本指令之前，所述方法还包括：

通过语音识别技术识别所述语音指令的特征；

3.根据权利要求2所述的方法，其特征在于，所述根据所述语音指令的特征确定所述语音指令对应的翻译模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述语音指令的口音特征和/或方言特征，确定所述语音指令对应的翻译模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述特定用户对应的翻译模型包括所述特定用户的每种口音特征对应的翻译模型；所述确定所述语音指令对应的翻译模型为所述特定用户对应的翻译模型，包括：

6.一种语音理解的方法，其特征在于，包括：

7.根据权利要求6所述的方法，其特征在于，所述将文本指令语料库中的每条文本指令分别采用不同的语音转换方式转换为不同的音频指令，包括：

8.根据权利要求6或7所述的方法，其特征在于，所述构建平行语料库，包括：

根据每条文本指令对应的平行句对，构建所述平行语料库。

9.根据权利要求8所述的方法，其特征在于，所述平行语料库中包括基于特定用户口音特征生成的平行句对、基于预设方言生成的平行句对、基于普通话生成的平行句对；所述将所述平行语料库作为训练集对深度学习模型进行训练，得到所述翻译模型，包括：

10.根据权利9所述的方法，其特征在于，所述基于特定用户口音特征生成的平行句对包括：基于所述特定用户的每种口音特征生成的平行语句对；

11.一种语音理解的装置，其特征在于，包括：

接收模块，用于接收用户输入的语音指令；

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，

14.根据权利要求13所述的装置，其特征在于，所述确定模块，具体用于：

15.根据权利要求14所述的装置，其特征在于，所述特定用户对应的翻译模型包括所述特定用户的每种口音特征对应的翻译模型；所述确定模块，具体用于：

16.一种语音理解的装置，其特征在于，包括：

17.根据权利要求16所述的装置，其特征在于，所述转换模块，具体用于：

18.根据权利要求16或17所述的装置，其特征在于，所述构建模块，具体用于：

根据每条文本指令对应的平行句对，构建所述平行语料库。

19.根据权利要求18所述的装置，其特征在于，所述平行语料库中包括基于特定用户口音特征生成的平行句对、基于预设方言生成的平行句对、基于普通话生成的平行句对；所述训练模块，具体用于：

20.根据权利要求19所述的装置，其特征在于，所述基于特定用户口音特征生成的平行句对包括：基于所述特定用户的每种口音特征生成的平行语句对；所述训练模块，具体用于：

21.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

22.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求6-10任一所述的方法步骤。

23.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求6-10任一所述的方法步骤。