CN103544952A

CN103544952A - 语音自适应方法、装置及系统

Info

Publication number: CN103544952A
Application number: CN201210242508.3A
Authority: CN
Inventors: 李雪
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-07-12
Filing date: 2012-07-12
Publication date: 2014-01-29

Abstract

本发明提出一种语音自适应方法、装置及系统。其中所述方法包括以下步骤：将第一语音信号转换为第一数字信号；对第一数字信号进行修复以得到第二数字信号，其中修复包括将第一数字信号中的重复部分合并、空白部分和无意义部分删除；以及将第二数字信号转换为第二语音信号。根据本发明实施例的方法，对用户输入的语音信号进行修复以克服用户的语言习惯、喜好、生理问题（如口吃）或其他原因的语音中断等语音缺陷，得到更加连贯、清楚、清晰的语音信号，提升根据语音信号进行操作的准确性。

Description

语音自适应方法、装置及系统

技术领域

本发明涉及信息处理技术领域，尤其涉及一种语音自适应方法、装置及系统。

背景技术

在语音输出或按照语音指令执行某些操作（例如语音输入法）时，由于用户的语言习惯、喜好、生理问题（如口吃）等原因使得输入的语音存在缺陷，例如，重复的话语，用户正在思考导致输入的语音中断等。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的一个目的在于提出一种可以对用户输入的语音信号进行修复以获得连贯、清晰的语音信号的语音自适应方法。

本发明的另一个目的在于提出一种语音自适应装置。

本发明的又一个目的在于提出一种语音自适应系统。

为了实现上述目的，根据本发明第一方面的实施例的语音自适应方法包括以下步骤：将第一语音信号转换为第一数字信号；对所述第一数字信号进行修复以得到第二数字信号，其中所述修复包括将所述第一数字信号中的重复部分合并、空白部分和无意义部分删除；以及将所述第二数字信号转换为第二语音信号。

根据本发明实施例的语音自适应方法，对用户输入的语音信号进行修复以克服用户的语言习惯、喜好、生理问题（如口吃）或其他原因的语音中断等语音缺陷，得到更加连贯、清楚、清晰的语音信号，提升根据语音信号进行操作的准确性。

为了实现上述目的，根据本发明第二方面的实施例的语音自适应装置包括：第一转换模块，所述第一转换模块用于将第一语音信号转换为第一数字信号；修复模块，所述修复模块用于对所述第一数字信号进行修复以得到第二数字信号，其中所述修复包括将所述第一数字信号中的重复部分合并、空白部分和无意义部分删除；以及第二转换模块，所述第二转换模块用于将所述第二数字信号转换为第二语音信号。

根据本发明实施例的语音自适应装置，通过修复模块对用户输入的语音信号进行修复以克服用户的语言习惯、喜好、生理问题（如口吃）或其他原因的语音中断等语音缺陷，可以得到更加连贯、清楚、清晰的语音信号，提升根据语音信号进行操作的准确性。

为了实现上述目的，根据本发明第三方面的实施例的语音自适应系统包括：本发明第二方面的实施例所述的语音自适应装置。

根据本发明实施例的语音自适应系统，通过语音自适应装置对用户输入的语音信号进行修复以克服用户的语言习惯、喜好、生理问题（如口吃）或其他原因的语音中断等语音缺陷，可以得到更加连贯、清楚、清晰的语音信号，提升根据语音信号进行操作的准确性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是根据本发明一个实施例的语音自适应方法的流程图；

图2是根据本发明一个实施例的语音自适应方法的流程图；

图3是根据本发明一个实施例的语音自适应方法的流程图；

图4是根据本发明一个实施例的语音自适应方法的流程图；

图5是根据本发明一个实施例的语音自适应装置法的结构框图；

图6是根据本发明一个实施例的语音自适应装置法的结构框图；

图7是根据本发明一个实施例的语音自适应装置法的结构框图；以及

图8是根据本发明一个实施例的语音自适应装置法的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

下面参考附图描述根据本发明实施例的语音自适应方法、装置及系统。

一种语音自适应方法，包括以下步骤：将第一语音信号转换为第一数字信号；对第一数字信号进行修复以得到第二数字信号；以及将第二数字信号转换为第二语音信号。

图1是根据本发明一个实施例的语音自适应方法的流程图。

如图1所示，根据本发明实施例的语音自适应方法包括下述步骤。

步骤S101，将第一语音信号转换为第一数字信号。

具体地，用户可以使用麦克等语音输入设备生成第一语音信号，第一语音信号为模拟信号需要将其转换为第一数字信号以便于后续处理。

步骤S102，对第一数字信号进行修复以得到第二数字信号。

具体地，在本发明的一个实施例中，对第一数字信号进行修复以得到第二数字信号包括：将第一数字信号中的重复部分合并。例如，用户输入的第一语音信号为“打、打开浏览器”，将对应的第一数字信号中的重复部分“打、打”进行合并处理以变为第二数字信号“打开浏览器”。

在本发明的另一个实施例中，对第一数字信号进行修复以得到第二数字信号包括：将第一数字信号中的空白部分删除。例如，用户因为长时间思考引起输入的第一语音信号发生中断、空白等现象，继而产生指令延迟、流量耗费等问题，对第一数字信号中的中断或空白部分进行删除以得到第二数字信号，第二数字信号为连贯的数字语音信号。

在本发明的又一个实施例中，对第一数字信号进行修复以得到第二数字信号包括：将第一数字信号中的无意义部分删除，无意义部分包括违背公序良俗的语言和口头禅。

其中，在对第一数字信号进行修复以得到第二数字信号的过程中，可以针对不同用户的语音特征、习惯选择其中的一种、两种或三种实施例对第一数字信号进行修复以得到第二数字信号，还可以采用其他的修复方法。

步骤S103，将第二数字信号转换为第二语音信号。

其中，根据第二语音信号可以输出修复的语音信号或进行相应的语音指令的执行。

图2是根据本发明一个实施例的语音自适应方法的流程图。

如图2所示，根据本发明实施例的语音自适应方法包括下述步骤。

步骤S201，对第一语音信号进行过滤。

具体地，用户使用麦克等语音输入设备生成第一语音信息存在干扰信号，例如周围环境中的杂音，可以对第一语音信号滤波以形成清晰的第一语音信号。

步骤S202，将第一语音信号转换为第一数字信号。

具体地，第一语音信号为模拟信号需要将其转换为第一数字信号以便于后续处理。

步骤S203，对第一数字信号进行修复以得到第二数字信号。

步骤S204，将第二数字信号转换为第二语音信号。

根据本发明实施例的语音自适应方法，对第一语音信号进行过滤处理，提高后期对第一语音信号处理的准确性。

图3是根据本发明一个实施例的语音自适应方法的流程图。

如图3所示，根据本发明实施例的语音自适应方法包括下述步骤。

步骤S301，对第一语音信号进行过滤。

步骤S302，将第一语音信号转换为第一数字信号。

步骤S303，对第一数字信号进行修复以得到第二数字信号。

步骤S304，将第二数字信号转换为第二语音信号。

步骤S305，判断第二语音信号中的语言类型。

其中，语言类型可以包括中文、英语、日语、法语等。

步骤S306，如果第二语音信号中包括第一语言，则将第一语言翻译成第二语言以得到第三语音信号。

具体地，第一语言是指除中文之外的其他语言类型，第二语言是指中文。

根据本发明实施例的语音自适应方法，在语音信号中包括除中文之外的其他语言时可以翻译成中文。

图4是根据本发明一个实施例的语音自适应方法的流程图。

如图4所示，根据本发明实施例的语音自适应方法包括下述步骤。

步骤S401，对第一语音信号进行过滤。

步骤S402，将第一语音信号转换为第一数字信号。

步骤S403，对第一数字信号进行修复以得到第二数字信号。

步骤S404，将第二数字信号转换为第二语音信号。

步骤S405，判断第二语音信号中的语言类型。

其中，语言类型可以包括中文、英语、日语、法语等，还可以包括方言。

步骤S406，如果第二语音信号中包括第一语言，则将第一语言翻译成第二语言以得到第三语音信号。

步骤S407，如果第二语音信号中包括方言，则将方言翻译成普通话以得到第四语音信号。

在本发明的一个实施例中，步骤S406是可选的。

在本发明的一个实施例中，步骤S407可以在步骤S406之前执行。

根据本发明实施例的语音自适应方法，在语音信号中出现方言时可以翻译成普通话。

一种语音自适应装置，包括：第一转换模块，第一转换模块用于将第一语音信号转换为第一数字信号；修复模块，修复模块用于对第一数字信号进行修复以得到第二数字信号；以及第二转换模块，第二转换模块用于将第二数字信号转换为第二语音信号。

图5是根据本发明一个实施例的语音自适应装置的结构框图。如图5所示，根据本发明实施例的语音自适应装置包括：第一转换模块100、修复模块200和第二转换模块300。

具体地，第一转换模块100用于将第一语音信号转换为第一数字信号，更具体地，用户可以使用麦克等语音输入设备生成第一语音信号，第一语音信号为模拟信号需要将其转换为第一数字信号以便于后续处理。

修复模块200用于对第一数字信号进行修复以得到第二数字信号。

更具体地，在本发明的一个实施例中，修复模块200用于将第一数字信号中的重复部分合并。例如，用户输入的第一语音信号为“打、打开浏览器”，将对应的第一数字信号中的重复部分“打、打”进行合并处理以变为第二数字信号“打开浏览器”。

在本发明的另一个实施例中，修复模块200用于将第一数字信号中的空白部分删除。例如，用户因为长时间思考引起输入的第一语音信号发生中断、空白等现象，继而产生指令延迟、流量耗费等问题，对第一数字信号中的中断或空白部分进行删除以得到第二数字信号，第二数字信号为连贯的数字语音信号。

在本发明的又一个实施例中，修复模块200用于将第一数字信号中的无意义部分删除，无意义部分包括违背公序良俗的语言和口头禅。

第二转换模块300用于将第二数字信号转换为第二语音信号，其中，根据第二语音信号可以输出修复的语音信号或进行相应的语音指令的执行。

图6是根据本发明一个实施例的语音自适应装置的结构框图。如图6所示，根据本发明实施例的语音自适应装置包括：第一转换模块100、修复模块200、第二转换模块300和过滤模块400。

具体地，第一转换模块100用于将第一语音信号转换为第一数字信号。修复模块200用于对第一数字信号进行修复以得到第二数字信号。第二转换模块300用于将第二数字信号转换为第二语音信号。过滤模块400用于对第一语音信号进行过滤，其中，用户使用麦克等语音输入设备生成第一语音信息存在干扰信号，例如周围环境中的杂音，可以通过过滤模块400对第一语音信号滤波以形成清晰的第一语音信号。

根据本发明实施例的语音自适应装置，通过过滤模块实现对第一语音信号进行过滤处理，提高后期对第一语音信号处理的准确性。

图7是根据本发明一个实施例的语音自适应装置的结构框图。如图7所示，根据本发明实施例的语音自适应装置包括：第一转换模块100、修复模块200、第二转换模块300、过滤模块400、第一判断模块500和第一翻译模块600。

具体地，第一转换模块100用于将第一语音信号转换为第一数字信号。修复模块200用于对第一数字信号进行修复以得到第二数字信号。第二转换模块300用于将第二数字信号转换为第二语音信号。过滤模块400用于对第一语音信号进行过滤。第一判断模块500用于判断第二语音信号中的语言类型，其中，语言类型可以包括中文、英语、日语、法语等。第一翻译模块600用于在第二语音信号中包括第一语言时，将第一语言翻译成第二语言以得到第三语音信号，其中，第一语言是指除中文之外的其他语言类型，第二语言是指中文。

根据本发明实施例的语音自适应装置，通过第一翻译模块在语音信号中包括除中文之外的其他语言时可以翻译成中文。

图8是根据本发明一个实施例的语音自适应装置的结构框图。如图8所示，根据本发明实施例的语音自适应装置包括：第一转换模块100、修复模块200、第二转换模块300、过滤模块400、第一判断模块500、第一翻译模块600、第二判断模块700和第二翻译模块800。

具体地，第一转换模块100用于将第一语音信号转换为第一数字信号。修复模块200用于对第一数字信号进行修复以得到第二数字信号。第二转换模块300用于将第二数字信号转换为第二语音信号。过滤模块400用于对第一语音信号进行过滤。第一判断模块500用于判断第二语音信号中的语言类型，其中，语言类型可以包括中文、英语、日语、法语等。第一翻译模块600用于在第二语音信号中包括第一语言时，将第一语言翻译成第二语言以得到第三语音信号，其中，第一语言是指除中文之外的其他语言类型，第二语言是指中文。第二判断模块700用于判断第二语音信号中的语言类型，其中语言类型还可以包括方言。第二翻译模块800用于在第二语音信号中包括方言时，将方言翻译成普通话以得到第四语音信号。

根据本发明实施例的语音自适应装置，通过第二翻译模块在语音信号中出现方言时可以翻译成普通话。

一种语音自适应系统，包括本发明上述任一项实施例所述的语音自适应装置。

在本发明的一个实施例中，语音自适应系统包括本发明上述任一项实施例所述的语音自适应装置和控制装置。其中，控制装置用于根据语音自适应装置的输出而控制进行相应操作，例如根据输出的语音控制打开相应的应用，如控制装置根据输出语音“打开百度浏览器”打开百度浏览器。

在本发明的实施例中，终端可以是笔记本、台式机、手机、PDA、上网本等各种终端。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种语音自适应方法，其特征在于，包括以下步骤：

将第一语音信号转换为第一数字信号；

对所述第一数字信号进行修复以得到第二数字信号，其中所述修复包括将所述第一数字信号中的重复部分合并、空白部分和无意义部分删除；以及

将所述第二数字信号转换为第二语音信号。

2.根据权利要求1所述的方法，其特征在于，进一步包括步骤：

对所述第一语音信号进行过滤。

3.根据权利要求1所述的方法，其特征在于，进一步包括步骤：

判断所述第二语音信号中的语言类型；

如果所述第二语音信号中包括第一语言，则将所述第一语言翻译成第二语言以得到第三语音信号。

4.根据权利要求1所述的方法，其特征在于，进一步包括步骤：

判断所述第二语音信号中的语言类型；

如果所述第二语音信号中包括方言，则将所述方言翻译成普通话以得到第四语音信号。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述无意义部分包括违背公序良俗的语言和口头禅。

6.一种语音自适应装置，其特征在于，包括：

第一转换模块，所述第一转换模块用于将第一语音信号转换为第一数字信号；

修复模块，所述修复模块用于对所述第一数字信号进行修复以得到第二数字信号，其中所述修复包括将所述第一数字信号中的重复部分合并、空白部分和无意义部分删除；以及

第二转换模块，所述第二转换模块用于将所述第二数字信号转换为第二语音信号。

7.根据权利要求6所述的装置，其特征在于，进一步包括：

过滤模块，所述过滤模块用于对所述第一语音信号进行过滤。

8.根据权利要求6所述的装置，其特征在于，进一步包括：

第一判断模块，所述第一判断模块用于判断所述第二语音信号中的语言类型；以及

第一翻译模块，所述第一翻译模块用于在所述第二语音信号中包括第一语言时，将所述第一语言翻译成第二语言以得到第三语音信号。

9.根据权利要求6所述的装置，其特征在于，进一步包括：

第二判断模块，所述第二判断模块用于判断所述第二语音信号中的语言类型；

第二翻译模块，所述第二翻译模块用于在所述第二语音信号中包括方言时，将所述方言翻译成普通话以得到第四语音信号。

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述无意义部分包括违背公序良俗的语言和口头禅。

11.一种语音自适应系统，其特征在于，包括权利要求6至10中任一项所述的语音自适应装置。

12.根据权利要求11所述的语音自适应系统，其特征在于，进一步包括：

控制装置，所述控制装置用于根据所述语音自适应装置的输出而控制进行相应操作。