CN112312181A

CN112312181A - 一种智能电视语音识别方法、系统及可读存储介质

Info

Publication number: CN112312181A
Application number: CN201910682661.XA
Authority: CN
Inventors: 鲍舰
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2021-02-02
Also published as: WO2021017978A1

Abstract

本发明提供了一种智能电视语音识别方法、系统及存储介质，用于智能电视识别用户的方言，智能电视接收用户交互操作的语音指令；声纹识别模块根据用户交互操作的语音指令的声纹特征确定用户使用的方言种类；语音识别模块根据该用户使用的方言种类直接将用户交互操作的语音指令转化为文字以识别出用户的语音指令。本发明中用户通过语音操作智能电视，智能电视识别用户语音并进行识别反馈的整个操作过程中，无需用户对方言种类进行选择，对于使用智能电视并且多种方言存在的家庭而言，可以自动识别用户所说的方言并直接根据该方言的语音识别技术识别该用户交互操作的语音指令，大幅减少了用户对方言的选择次数，提升了用户使用语音操作的体验。

Description

一种智能电视语音识别方法、系统及可读存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种方法、系统及可读存储介质。

背景技术

目前，智能电视上的语音识别技术应用已经普遍，用户可以通过说话来选择影片，播放音乐，甚至是控制各种家用电器。对于一些幅员辽阔的国家，比如我们中国，各种地方方言发音区别很大，虽然智能电视上的语音识别技术能够识别地方方言，但是其前提条件是需要用户在电视上事先设置好使用的方言，而无法随机根据用户所说的方言来进行语音识别，换言之，用户的方言需要首先预置于智能电视中，智能电视才能实现对用户方言的识别，否则智能电视语音AI技术无法自动识别用户所说的地方方言。

对于一个家庭来说，电视是全家公用的电器设备，老人可能会讲家乡话，小孩由于学校教育只讲普通话，在一个家庭中，可能会存在多种方言的可能性，电视中为家庭内每一个成员预置对应的方言也是不太现实的，即便是电视内预置了多种方言，用户在使用时都需要进行方言设置无疑为电视用户的使用带来了诸多不便，使得智能电视的用户体验不佳。

现有技术也存在一些解决这种需要预置方言的语音识别技术，比如根据智能电视的地理位置来进行判断，即根据智能电视联网的IP地址，通过IP地址于地理位置的关系来判断用户的地理位置，再根据地理位置来确定智能电视首选的方言种类，但是这种根据地理位置确定方言的问题在于，对于一些移民城市或者外来人口较多的城市而言，地理位置的设定显然并不能解决该问题。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足之处，本发明提出一种智能电视自动方言匹配技术，使得智能电视在没有事先设定方言的情况下自动匹配用户所说的方言，达到对方言的自动识别。

本发明解决技术问题所采用的技术方案如下：

一种智能电视语音识别方法，用于智能电视识别用户的方言，包括如下步骤：

智能电视接收用户交互操作的语音指令；

声纹识别模块根据用户操作的语音指令的声纹特征确定用户使用的方言种类；

语音识别模块根据该用户使用的方言种类直接将用户交互操作的语音指令转化为文字以识别出用户的语音指令。

作为进一步的改进技术方案，上述方法还包括如下步骤：

智能电视预先为每个用户创建对应的声纹特征档；

用户选择确认对应的声纹特征档中的方言种类。

作为进一步的改进技术方案，当所述声纹识别模块判断所述语音指令的声纹特征不在智能电视预先为每个用户创建的对应声纹特征档中时，则智能电视为该声纹特征的用户新创建对应的声纹特征档，用户选择确认对应的声纹特征档中的方言种类。

作为进一步的改进技术方案，所述声纹识别模块可采用与智能电视网络连接的声纹识别服务器来实现。

作为进一步的改进技术方案，所述语音识别模块可采用与智能电视网络连接的语音识别服务器来实现。

本发明还提供一种智能电视语音识别系统，用于智能电视识别用户的方言，该智能电视语音识别系统包括语音接收模块、声纹识别模块和语音识别模块；

所述语音接收模块用于智能电视接收用户交互操作的语音指令；

所述声纹识别模块用于判断所述语音接收模块接收到的用户交互操作的语音指令的声纹特征并确定用户使用的方言种类；

所述语音识别模块用于根据所述声纹识别模块识别出的用户交互操作的语音声纹特征对应的方言种类，并直接将用户的语音转化为文字以识别出用户的语音指令。

作为进一步的改进技术方案，上述系统还包括用户声纹特征模块，用于预先为每个智能电视用户创建对应的声纹特征档，并包含用户声纹特征对应的方言种类。

作为进一步的改进技术方案，当所述声纹识别模块判断用户交互操作的语音指令的声纹特征不在所述用户声纹特征模块中的用户声纹特征时，则由所述用户声纹特征模块为该声纹特征的用户新创建对应的声纹特征档，同时确定对应使用的方言种类。

作为进一步的改进技术方案，所述声纹识别模块可采用与智能电视网络连接的声纹识别服务器来实现；所述语音识别模块可采用与智能电视网络连接的语音识别服务器来实现。

本发明还提供一种可读存储介质，所述可读存储介质存储有智能电视语音识别的程序，该智能电视语音识别的程序被处理器执行时实现上述智能电视语音识别方法的步骤。

与现有技术相比较，本发明采用了声纹特征识别模块对智能电视的用户声纹特征及对应使用的方言种类进行了预先建档，当用户通过智能电视的语音操作功能操作智能电视时，声纹特征识别模块对用户的声纹特征预先进行识别，以确定该用户的声纹特征及其预先设置的方言种类，然后直接调用语音识别模块将方言类的用户交互操作的语音指令直接转换为文本，在用户通过语音操作智能电视，智能电视识别用户语音并进行识别反馈的整个操作过程中，无需用户对方言的种类进行选择，这对于使用智能电视并且多种方言存在的家庭而言，智能电视可以自动识别用户所说的方言并直接根据该方言的语音识别技术识别该用户交互操作的语音指令。本发明大幅减少了智能电视用户对方言的选择次数，提升了用户使用语音操作的体验。

附图说明

下面结合附图对本发明的具体实施方式作进一步的说明，其中：

图1是本发明一种智能电视语音识别方法优选实施例流程图。

图2是本发明一种智能电视语音识别系统优选实施例原理结构图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供的智能电视语音识别方法的流程如图1本发明一种智能电视语音识别方法优选实施例的流程图，如图1所示，本发明智能电视语音识别方法包括如下实现步骤：

步骤S100，智能电视接收用户交互操作的语音指令。

在使用智能电视的家庭中，各个家庭成员用户的口音各自不同，甚至由可能使用不同的方言，现有智能电视在语音识别功能上虽然对于方言也可以识别，但是在操作的过程中，用户在使用方言与智能电视进行交互时，智能电视的语音识别技术无法直接确定用户的方言种类，而需要由用户自行进行选择所采用的方言，也就意味着智能电视无法直接识别各个用户的方言从而进行语音识别。本发明方法在使用智能电视的语音识别进行人机交互操作过程中，可以直接接收用户的方言交互语音指令，当然，作为另一优选实施方式，智能电视可在其中预先为用户创建对应的声纹特征档来自动选择用户的方言并直接进行识别，在智能电视接收用户交互操作的语音指令之前还可以包括如下步骤：

智能电视预先为每个用户创建对应的声纹特征档；用户选择确认对应的声纹特征档中的方言种类。

智能电视为家庭成员用户事先均根据各自的方言进行声纹特征建档，以保证后续智能电视语音的识别过程中能够直接根据该方言选择对应的方言语音识别方案进行识别，因此，在建立用户声纹特征档时同时还需要为其对应选择所使用的方言种类。

步骤S200，声纹识别模块根据用户交互操作的语音指令的声纹特征确定用户使用的方言种类。

具体而言，声纹识别模块是对用户交互操作的语音指令进行声纹识别，并根据上述过程中智能电视中建立的用户声纹特征档进行用户的确认，进而能够直接确定该用户使用的是何种方言，不像现有技术智能电视接收到用户方言的交互操作语音时，需要用户再进行方言的选择以进行下一步的语音识别，本发明方法能够直接根据该用户的方言进行语音识别方案的确认，从而跳过方言选择的过程，提高用户使用语音识别技术中的体验。比如，一个说方言的用户(广东话)第一次在电视前使用方言说“我想看XX节目”，此时，按照现有技术的操作，电视界面会弹出各种方言：广东话、四川话、湖南话等等的方言识别结果给用户，用户需要进一步判断其方言为广东话的种类后，电视才能进行后续的语音识别操作。采用本发明方法时，一个说方言的用户(广东话)第一次在电视前使用方言说“我想看XX节目”，此时，电视界面不会弹出各种方言供用户进行选择确认方言种类后才能进行下一步的语音识别，而是通过声纹识别模块确认用户后直接选择该用户的方言种类匹配后采用广东话的语音识别方案进行识别。

当然，作为另一种优选的实施方式，声纹识别模块还可以采用与智能电视网络连接的声纹识别服务器来实现，采用与智能电视网络连接的声纹识别服务器的方式能够使得智能电视保存更多的用户声纹特征信息。

步骤S300，语音识别模块根据该用户使用的方言种类直接将用户交互操作的语音指令转化为文字以识别出用户的语音指令。

同上声纹识别模块道理，语音识别模块也可以采用与智能电视网络连接的语音识别服务器来实现，同理，采用与智能电视网络连接的语音识别服务器能够使得智能电视保存更多的语音识别方案，也可以根据需要不断扩展更新。

本发明方法优选实施方式使用声纹特征识别技术将智能电视使用家庭中的用户进行区别，根据事先设置的用户方言直接进行语音识别，实现了智能电视语音识别过程中自动对方言语音的匹配。

本发明还提供一种智能电视语音识别系统，如图2本发明一种智能电视语音识别系统优选实施例的原理结构图所示，该智能电视语音识别系统60包括语音接收模块61、声纹识别模块62和语音识别模块63。

所述语音接收模块61用于智能电视接收用户交互操作的语音指令。在使用智能电视的家庭中，各个家庭成员用户的口音各自不同，甚至由可能使用不同的方言，现有智能电视在语音识别功能上虽然对于方言也可以识别，但是在操作的过程中，用户在使用方言与智能电视进行交互时，智能电视的语音识别技术无法直接确定用户的方言种类，而需要由用户自行进行选择所采用的方言，也就意味着智能电视无法直接识别各个用户的方言从而进行语音识别。本发明系统在使用智能电视的语音识别进行人机交互操作过程中，可以直接接收用户的方言交互语音指令，当然，作为另一优选实施方式，智能电视可在其中预先为用户创建对应的声纹特征档来自动选择用户的方言并直接进行识别，即该系统60还包括用户声纹特征模块64，用于预先为每个智能电视用户创建对应的声纹特征档，并包含用户声纹特征对应的方言种类。

所述声纹识别模块62用于判断所述语音接收模块61接收到的用户交互操作的语音指令的声纹特征并确定用户使用的方言种类。

具体而言，声纹识别模块62是对用户交互操作的语音指令进行声纹识别，并根据上述过程中智能电视中建立的用户声纹特征档进行用户的确认，进而能够直接确定该用户使用的是何种方言，不像现有技术智能电视接收到用户方言的交互操作语音时，需要用户再进行方言的选择以进行下一步的语音识别，本发明系统能够直接根据该用户的方言进行语音识别方案的确认，从而跳过方言选择的过程，提高用户使用语音识别技术中的体验。比如，一个说方言的用户(广东话)第一次在电视前使用方言说“我想看XX节目”，此时，按照现有技术的操作，电视界面会弹出各种方言：广东话、四川话、湖南话等等的方言识别结果给用户，用户需要进一步判断其方言为广东话的种类后，电视才能进行后续的语音识别操作。采用本发明系统时，一个说方言的用户(广东话)第一次在电视前使用方言说“我想看XX节目”，此时，电视界面不会弹出各种方言供用户进行选择确认方言种类后才能进行下一步的语音识别，而是通过声纹识别模块确认用户后直接选择该用户的方言种类匹配后采用广东话的语音识别方案进行识别。

所述语音识别模块63用于根据所述声纹识别模块62识别出的用户交互操作的语音指令声纹特征对应的方言种类，并直接将用户的语音转化为文字以识别出用户的语音指令。

同上声纹识别模块道理，语音识别模块63也可以采用与智能电视网络连接的语音识别服务器来实现，同理，采用与智能电视网络连接的语音识别服务器能够使得智能电视保存更多的语音识别方案，也可以根据需要不断扩展更新。

本发明还提供了一种可读存储介质，所述可读存储介质存储有智能电视语音识别的程序，该智能电视语音识别的程序被处理器执行时实现上所述智能电视语音识别方法的步骤。程序具体执行的过程与上述智能电视语音识别方法优选实施相同，此处不赘述。

应当理解的是，以上所述仅为本发明的较佳实施例而已，并不足以限制本发明的技术方案，对本领域普通技术人员来说，在本发明的精神和原则之内，可以根据上述说明加以增减、替换、变换或改进，而所有这些增减、替换、变换或改进后的技术方案，都应属于本发明所附权利要求的保护范围。

Claims

1.一种智能电视语音识别方法，用于智能电视识别用户的方言，其特征在于，包括如下步骤：

智能电视接收用户交互操作的语音指令；

声纹识别模块根据用户交互操作的语音指令的声纹特征确定用户使用的方言种类；

2.根据权利要求1所述的一种智能电视语音识别方法，其特征在于，在智能电视接收用户交互操作的语音指令之前还包括如下步骤：

智能电视预先为每个用户创建对应的声纹特征档；

用户选择确认对应的声纹特征档中的方言种类。

3.根据权利要求2所述的一种智能电视语音识别方法，其特征在于，当所述声纹识别模块判断用户交互操作的语音指令的声纹特征不在智能电视预先为每个用户创建的对应声纹特征档中时，则智能电视为该声纹特征的用户新创建对应的声纹特征档，用户选择确认对应的声纹特征档中的方言种类。

4.根据权利要求1至3任一项所述的一种智能电视语音识别方法，其特征在于，所述声纹识别模块可采用与智能电视网络连接的声纹识别服务器来实现。

5.根据权利要求1至3任一项所述的一种智能电视语音识别方法，其特征在于，所述语音识别模块可采用与智能电视网络连接的语音识别服务器来实现。

6.一种智能电视语音识别系统，用于智能电视识别用户的方言，其特征在于，该智能电视语音识别系统包括语音接收模块、声纹识别模块和语音识别模块；

所述语音接收模块用于接收用户交互操作的语音指令；

所述语音识别模块用于根据所述声纹识别模块识别出的用户交互操作的语音指令声纹特征对应的方言种类，并直接将用户的语音转化为文字以识别出用户的语音指令。

7.根据权利要求6所述的一种智能电视语音识别系统，其特征在于，还包括用户声纹特征模块，用于预先为每个智能电视用户创建对应的声纹特征档，并包含用户声纹特征对应的方言种类。

8.根据权利要求7所述的一种智能电视语音识别系统，其特征在于，当所述声纹识别模块判断用户交互操作的语音指令的声纹特征不在所述用户声纹特征模块中的用户声纹特征时，则由所述用户声纹特征模块为该声纹特征的用户新创建对应的声纹特征档，同时确定对应使用的方言种类。

9.根据权利要求6至8任一项所述的一种智能电视语音识别系统，其特征在于，所述声纹识别模块可采用与智能电视网络连接的声纹识别服务器来实现；所述语音识别模块可采用与智能电视网络连接的语音识别服务器来实现。

10.一种可读存储介质，其特征在于，所述可读存储介质存储有智能电视语音识别的程序，该智能电视语音识别的程序被处理器执行时实现权利要求1至5任一项所述智能电视语音识别方法的步骤。