CN106773742B

CN106773742B - 语音控制方法及语音控制系统

Info

Publication number: CN106773742B
Application number: CN201510815120.1A
Authority: CN
Inventors: 何亮融; 许银雄
Original assignee: Acer Inc
Current assignee: Acer Inc
Priority date: 2015-11-23
Filing date: 2015-11-23
Publication date: 2019-10-25
Anticipated expiration: 2035-11-23
Also published as: CN106773742A

Abstract

本发明提供一种语音控制方法及语音控制系统。所述语音控制方法适用于连结至区域网络的语音控制装置。所述语音控制方法包括下列步骤。接收一语音数据。对语音数据执行语音辨识动作以获得语音数据对应的声纹信息以及提示命令。依据声纹信息以及提示命令，以决定声纹信息对应的权限信息。依据权限信息、提示命令以及环境信息的至少其中之一，以通过区域网络控制至少一电子装置。本发明可以对用户设定使用权限，并同时考量使用情境以调整使用权限或是自动执行其他操作模式，从而兼顾智能家庭服务的操作便利性以及安全性。

Description

语音控制方法及语音控制系统

技术领域

本发明是有关于一种语音控制方法，且特别是有关于一种可兼顾操作便利及安全性的语音控制方法及语音控制系统。

背景技术

目前市面上的作业系统多有提供个人语音助理系统。这些个人语音助理系统除了可提供对答的功能之外，由于声音控制具有人性化且简单操作的特点，利用声控来控制其他装置的方式越来越普遍。例如，智能家庭服务或是物联网即有提供声控功能。

然而，目前市面上的控制装置大都仅以集成感测监控设备为主，而未考量安全性的问题。以智能家庭服务为例，现有技术仅针对说话者的语音内容进行辨识，导致任何人都可利用控制装置来操作智能家电产品。因此，可能造成幼童误用危险性高的电器，甚至陌生人也能够随意使用智能家电产品，严重影响居家安全。

发明内容

本发明提供一种语音控制方法及语音控制系统，其可对用户设定使用权限，并同时考量使用情境以调整使用权限或是自动执行其他操作模式，从而兼顾智能家庭服务的操作便利性以及安全性。

本发明提出一种语音控制方法，其适用于连结至区域网络的语音控制装置。所述语音控制方法包括下列步骤。接收语音数据，对语音数据执行语音辨识动作以获得语音数据对应的声纹信息以及提示命令，依据声纹信息以及提示命令，以决定声纹信息对应的权限信息，以及依据权限信息、提示命令以及环境信息的至少其中之一，以通过区域网络控制电子装置。

本发明另提出一种语音控制系统，其包括至少一个电子装置以及语音控制装置。电子装置包括第一通信单元，其连结至区域网络。语音控制装置包括第二通信单元、存储单元以及处理单元。第二通信单元连结至区域网络。存储单元记录多个模块。处理单元耦接第二通信单元以及存储单元，用以存取并执行存储单元中记录的所述模块。所述模块包括语音通信模块、语音助理模块、权限设定模块以及控制模块。语音通信模块接收语音数据。语音助理模块对语音数据执行语音辨识动作以获得语音数据对应的声纹信息以及提示命令。权限设定模块依据声纹信息以及提示命令，以决定声纹信息对应的权限信息。控制模块依据权限信息、提示命令以及环境信息的至少其中之一，以通过区域网络控制电子装置。

基于上述，本发明实施例可利用声纹辨识来确认用户是否为合法用户，并对合法用户设定不同等级的使用权限。此外，还可通过提示命令和/或环境信息来适时地调整使用权限以及判断目前的使用情境，进而决定语音控制装置所提供的声控功能或可自动执行的操作模式。由此，可以兼顾智能家庭服务的操作便利性及安全性。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合附图作详细说明如下。

附图说明

图1是本发明一实施例所示出的语音控制系统的方块图；

图2是本发明一实施例所示出的语音控制方法的流程图；

图3是本发明一实施例所示出的语音控制系统的方块图；

图4是本发明另一实施例所示出的语音控制方法的流程图；

图5是本发明一实施例所示出的语音控制系统的方块图；

图6是本发明另一实施例所示出的语音控制方法的流程图；

图7是本发明另一实施例所示出的语音控制方法的流程图；

图8是本发明另一实施例所示出的语音控制方法的流程图；

图9是本发明一实施例所示出的语音控制方法的流程图。

附图标记说明：

10、30、50：语音控制系统；

100、500：语音控制装置；

110、210、510：通信单元；

120、520：存储单元；

122、522：语音通信模块；

124、524：语音助理模块；

126：系统语音输入模块；

128：系统语音输出模块；

130、530：处理单元；

200：电子装置；

300：用户装置；

526：权限设定模块；

528：控制模块；

S202～S208、S402～S410、S602～S612、S702～S718、S802～S806、S902～S908：步骤。

具体实施方式

本发明实施例利用声纹辨识用户身份，并通过使用权限、用户状态(例如提示命令包括的位置信息)以及环境信息，从而决定用户的使用权限以及判断目前的使用情境。由此，本发明实施例除了可判断用户对于语音控制的权限之外，还能够在特定的使用情境下进一步限制语音控制装置对用户所提供的声控功能，或是使语音控制装置自动执行特定的操作模式，故可有效提升智能家庭服务的安全性并保有操作便利的特点。另一方面，本发明实施例还可提供远端声控功能，其利用网际网络语音协定(Voice over InternetProtocol，简称VoIP)技术以将通过网际网络所接收的语音数据桥接至语音助理，让用户能够通过语音而在远端与语音控制装置进行语音互动，进而远端控制智能家庭服务中的其他智能家电。

在以下实施例中，图1至图4用以说明远端声控功能的部分，图5至图8则用以说明安全性考量的控制设定。

图1是本发明一实施例所示出的语音控制系统的方块图。请参照图1，本实施例的语音控制系统10包括语音控制装置100、至少一个电子装置200以及用户装置300。为了便于说明，在图1中仅示出出一个电子装置200作为示意。其中，语音控制装置100例如是台式电脑、笔记本电脑等电子装置，其具有基本的网络连线及运算能力。另外，电子装置200例如是智能家电装置(例如智能型电视、智能型灯泡、投影机等)或其他电子装置。至于用户装置300则例如是台式电脑、笔记本电脑等电子装置，或也可以是平板电脑、智能手机等移动装置。语音控制装置100可通过网际网络接收用户装置300所发出的语音数据，并可通过区域网络而与电子装置200连结，以让用户装置300可接收用户的语音信号，并将此语音信号通过网络而直接传送至语音控制装置100，藉以远端执行语音控制装置100的声控功能。

值得一提的是，本发明实施例的语音控制装置100设置于一私有网络(例如家用网络等区域网络)中，并例如作为此私有网络中的伺服器或是主控装置。因此，相对于一般设置于外部网络的伺服器而言，本发明实施例可避免外部装置侵入或是不当操作的问题。

具体而言，语音控制装置100包括通信单元110、存储单元120以及处理单元130。通信单元110例如是有线网络接口卡或是支持电机电子工程师学会(Institute ofElectrical and Electronics Engineers，简称：IEEE)802.11b/g/n等通信协定的无线网络接口卡，或支持其他网络协议的网络通信模块，其可用以通过网络来传送数据或接收数据。在本实施例中，通信单元110可用以连结网际网络，让语音控制装置100可通过网际网络以将数据传送至用户装置300，以及通过网际网络以从用户装置300接收数据。此外，通信单元110并可连结区域网络，以提供语音控制装置100通过区域网络来控制位于同一区域网络中的电子装置200(例如，智能家庭中的智能家电产品，其隶属于同一家用网络)。

存储单元120例如是各种非易失性(non-volatile)存储器或其组合，例如只读存储器(Read-Only Memory，简称ROM)和/或快闪存储器(flash memory)。另外，存储单元120也可包括硬盘、光盘或外接式存储装置(如记忆卡、随身碟等)等存储媒体或其组合，在此并不对存储单元120的体现方式加以限制。在本实施例中，存储单元120用以记录语音通信模块122以及语音助理模块124。这些模块例如是存储在存储单元120中的程序，其可载入语音控制装置100的处理单元130，而由处理单元130执行语音接收、辨识及控制等功能。需说明的是，本实施例中所述存储单元120并未限制是单一存储器元件，上述模块也可以分开存储在两个或两个以上相同或不同形态的存储器元件中。

另外，存储单元120还可包括语音数据库(未示出)，并可选择性地包括声纹数据库(未示出)。语音数据库用以记录多个预设音频信号，并可例如对应于多个字汇或音序等。声纹数据库用以记录多个预设声纹，这些预设声纹可分别对应于不同的用户。简单来说，这些预设声纹所对应的用户可视为是被允许存取语音控制装置100的合法用户。

处理单元130例如是中央处理单元，或是其他可编程的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital Signal Processor，简称DSP)、可编程控制器、专用集成电路(Application Specific Integrated Circuits，简称ASIC)、可编程逻辑装置(Programmable Logic Device，简称PLD)或其他类似装置或这些装置的组合。处理单元130耦接通信单元110以及存储单元120，其用以存取并执行存储单元120中记录的模块，并控制语音控制装置100的整体运作，从而实现本实施例的语音控制方法。本实施例中所述处理单元130并未限制是单一处理元件，也可以是由两个或两个以上的处理元件共同执行。

电子装置200包括通信单元210。通信单元210例如是有线网络接口卡或是支持电机电子工程师学会(Institute of Electrical and Electronics Engineers，IEEE)802.11b/g/n等通信协议的无线网络接口卡，或支持其他网络协议的网络通信模块，其可用以通过网络来传送数据或接收数据。在本实施例中，通信单元210可连结区域网络以提供电子装置200接收来自语音控制装置100的控制指令，并使电子装置200可依据控制指令而执行对应的操作。

另外，电子装置200还可包括存储单元(未示出)以及处理单元(未示出)。其中，电子装置200的存储单元例如是各种非易失性(non-volatile)存储器或其组合，例如只读存储器(Read-Only Memory，简称ROM)和/或快闪存储器(flash memory)，或也可包括硬盘、光碟或外接式存储装置(如记忆卡、随身碟等)等存储媒体或其组合，其可用以存储接收到的控制指令。至于电子装置200的处理单元则例如是中央处理单元，或是其他可程序化的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital SignalProcessor，简称DSP)、可编程控制器、专用集成电路(Application Specific IntegratedCircuits，简称ASIC)、可编程逻辑装置(Programmable Logic Device，简称PLD)或其他类似装置或这些装置的组合，其用以控制电子装置200的整体运作。

图2是本发明一实施例所示出的语音控制方法的流程图，其适用于图1的语音控制系统10。以下即搭配语音控制系统10中的各项元件，说明本实施例方法的详细流程。

请参照图1和图2，在步骤S202中，语音通信模块122通过网际网络接收语音数据。上述的语音数据例如是基于VoIP的语音数据，且是经数字化后的语音信号。

语音通信模块122例如是接收由用户装置300通过网际网络所发出的语音数据。在一实施例中，语音通信模块122例如是Skype、Line等VoIP应用程序。因此，当语音控制装置100和用户装置300皆执行VoIP应用程序，且用户在远端操作用户装置300并通过VoIP以和语音控制装置100建立通话时，用户发出的语音信号便可通过用户装置300上的VoIP应用程序而转换成基于VoIP的语音数据，并且被传送至语音通信模块122。从另一角度而言，本实施例的语音控制装置100可通过应用程序来接收语音数据。

在步骤S204中，语音助理模块124对语音数据执行语音辨识动作以获得语音数据中的控制指令。详言之，语音助理模块124例如包括语音识别器，其可具有语音辨识与分析功能。在本实施例中，语音助理模块124可比对语音数据是否符合语音数据库中的预设音频信号的至少其中之一。当上述比对结果为是时，语音助理模块124便可将与语音数据符合的预设音频信号视为控制指令。进一步来说，上述的预设音频信号可以对应于声学模型和/或语言模型，其中，声学模型例如是一个或多个发音上的最小单位(例如，KK音标或注音符号(Phonetic Symbol)等)的组合。至于语言模型则例如是特定语言(例如英文或中文等)的常用语法规则。因此，语音助理模块124可从语音数据中获取声学特征，并将声学特征与语音数据库所包括的声学模型和语言模型进行比对，据以判断出与语音数据相应的字汇或音节，并获得语音数据中的控制指令。

在本实施例中，语音助理模块124例如是使用单一的语音数据库以对语音数据进行辨识。在另一实施例中，语音助理模块124则可对不同用户分别建立的语音数据库，以使用与用户相对应的语音数据库来对此用户的语音数据进行辨识。在此架构下，语音助理模块124还可通过学习机制以对特定用户的语音辨识进行优化。此部分的细节将在之后的实施例中再行描述。

此外，在其他实施例中，语音助理模块124也可通过网络连接至一云端服务器，且语音助理模块124可与云端服务器通信，以在判断语音数据中的控制指令必须通过连接网络才能处理时，由云端服务器来协助处理此控制指令。

之后，在步骤S206中，语音通信模块122通过网际网络传送反应于控制指令的语音回应信息，以及，在步骤S208中，语音助理模块124依据控制指令以通过区域网络控制电子装置200。上述的语音回应信息例如是由语音助理模块124依据控制指令所产生，并在之后由语音通信模块122将语音回应信息回传至用户装置300。换言之，语音回应信息的数据格式可与语音数据相同。在本实施例中，语音回应信息也例如是基于VoIP的数据格式。

由此，用户装置300可在接收到语音回应信息之后，例如通过语音输出单元(例如扬声器)而直接将基于VoIP的语音回应信息转换成模拟形式的语音信号并输出，以向远端用户呈现关于此控制指令的语音辨识结果或是关于电子装置200的控制信息。或者，用户装置300也可利用显示单元(例如屏幕)而以文字的方式来呈现语音辨识结果或相关的控制信息。上述在用户装置300端呈现语音回应信息的方式可依实务上的需求而定，本发明对此不限制。

如此一来，本实施例通过VoIP技术在用户装置300和语音控制装置100之间传送语音数据以及语音回应信息，可让用户通过用户装置300以远端操作语音控制装置100的语音助理模块124，从而实现语音控制装置100与远端操作的用户装置300之间的语音互动。

另一方面，由于语音控制装置100和电子装置200可分别通过通信单元110与通信单元210而连结至同一区域网络，因此，在语音助理模块124获得语音数据中的控制指令之后，也可据以通过区域网络来控制电子装置200，从而使电子装置200执行与控制指令相应的动作。由此，用户便可在远端以声控的方式来对智能家庭服务中的家电进行控制。

图3是本发明一实施例所示出的语音控制系统的方块图，其示出语音控制装置100的详细架构。请参照图3，语音控制系统30包括语音控制装置100、至少一个电子装置200(图3中仅示出一个电子装置200以便于说明)以及用户装置300。语音控制系统30与图1的语音控制系统10类似，故相同或相似之处不再赘述。

在本实施例中，语音控制装置100的存储单元120还用以记录系统语音输入模块126以及系统语音输出模块128，其例如是存储在存储单元120中的程序，可载入语音控制装置100的处理单元130，并由处理单元130执行，以分别桥接语音通信模块122与语音助理模块124之间的语音数据传输。

具体而言，语音通信模块122可通过网际网络接收语音数据，并将语音数据提供至系统语音输入模块126。系统语音输入模块126可对语音数据进行格式转换，并将经过格式转换后的语音数据提供至语音助理模块124。若以语音通信模块122接收的是基于VoIP的语音数据为例，则系统语音输入模块126例如是将基于VoIP的语音数据转换成具有系统语音输入规格的语音数据，以提供给语音助理模块124以进行辨识。

在语音助理模块124对语音数据进行的语音辨识动作完成之后，语音助理模块124可获得控制指令，并依据控制指令产生语音回应信息，以及将语音回应信息提供至系统语音输出模块128。系统语音输出模块128可对语音回应信息进行格式转换，并将经过格式转换后的语音回应信息提供至语音通信模块122。上述的语音回应信息例如具有系统语音输出规格，故系统语音输出模块128可例如将具有系统语音输出规格的语音回应信息转换成基于VoIP的语音回应信息，以将语音回应信息提供至语音通信模块122，并由语音通信模块122通过网际网络以将语音回应信息传送至用户装置300。

值得一提的是，本发明实施例仅由语音控制装置100来对语音数据进行语音辨识，用户装置300无需执行语音辨识动作，故也不需要在用户装置300上特别配置具有强大运算能力的处理器以及记录大量预设语音音频信号的语音数据库，因此能够简化用户装置300的设计。此外，通过VoIP技术来传输语音，还可避免网络上的防火墙及网络设定可能阻挡网络连线的问题。

另外，考量远端声控功能的安全性问题以及语音辨识的准确度，在一些实施例中，语音助理模块124还可通过声纹辨识以确认用户身份，并针对用户提供个别的语音数据库以进行控制指令的比对，由此避免因用户的口音或说话习惯不同而影响控制指令辨识的准确度。

在此举一实施例进行说明。图4是本发明另一实施例所示出的语音控制方法的流程图，其示出出语音助理模块124对语音数据执行语音辨识动作的详细步骤。本实施例适用于图1的语音控制系统10，而与前述实施例的不同之处在于，本实施例的语音控制装置100还包括声纹数据库以及多个语音数据库，其可分别记录于存储单元120中。其中，声纹数据库可记录多个预设声纹，这些预设声纹分别对应所述语音数据库，且各语音数据库可记录多个预设音频信号。

请参照图4，在步骤S402中，语音助理模块124依据语音数据的特征参数以获得语音数据中的声纹信息。举例而言，语音助理模块124可通过线性预测系数(LinearPrediction Coefficient，简称LPC)、梅尔频率倒频谱系数(Mel-Frequency CepstralCoefficient，简称MFCC)等运算，以提取语音数据的特征参数并作为声纹信息。

在步骤S404中，语音助理模块124比对声纹信息是否符合声纹数据库中的多个预设声纹的其中之一。若是，则语音助理模块124判定此声纹信息对应的是合法用户，且在步骤S406中，语音助理模块124获得与声纹信息符合的预设声纹所对应的语音数据库，并将此语音数据库视为语音数据对应的特定语音数据库。若否，则语音助理模块124可判定此声纹信息不具有语音控制装置100的存取权限，故不再对此语音数据进行后续处理，并回到步骤S402以重新接收语音数据。

接着，在步骤S408中，语音助理模块124比对语音数据是否符合特定语音数据库中的多个预设音频信号的至少其中之一。若是，则在步骤S410中，语音助理模块124将与语音数据符合的预设音频信号视为控制指令。若否，则语音助理模块124可判定此语音数据中的控制指令并非权限中的控制指令，故不执行此控制指令，并回到步骤S402。

值得一提的是，在一实施例中，语音控制装置100还可提供机器学习机制，以依据用户的输入操作来对上述的特定语音数据库进行更新。例如，在用户装置300接收到语音控制装置100所回传的语音回应信息时，用户装置300还可例如提供一输入接口，让用户能够通过例如文字输入的方式来反馈对于语音辨识结果的修正意见。由此，语音控制装置100可通过数据训练来调整此特定语音数据库中的声学模型和/或语言模型，从而优化对此用户的语音辨识的准确度。

接下来则说明语音控制装置如何利用声纹信息、提示命令以及环境信息等参数以实现基于安全性考量的控制设定。

图5是本发明一实施例所示出的语音控制系统的方块图。请参照图5，语音控制系统50包括语音控制装置500以及至少一个电子装置200(图5中仅示出一个电子装置200以便于说明)。语音控制装置500包括通信单元510、存储单元520以及处理单元530。其中，存储单元520用以记录语音通信模块522、语音助理模块524、权限设定模块526以及控制模块528，其例如是存储在存储单元520中的程序，并可载入语音控制装置500的处理单元530，而由处理单元530执行语音辨识、权限设定及控制等功能。另外，电子装置200则包括通信单元210、存储单元(未示出)以及处理单元(未示出)。本实施例的各个元件分别与前述实施例类似，故相同或相似之处不再赘述。

详细来说，语音通信模块522可用以接收语音数据。在本实施例中，语音通信模块522例如可通过收音装置(例如麦克风或其他收音器)直接接收用户所发出的语音信号，并由语音通信模块522对语音信号进行数字化处理以获得语音数据。换言之，本实施例的用户与语音控制装置500位在同一房间、会议室等空间之中。在其他实施例中，语音通信模块522也可通过网际网络接收来自用户装置(例如图1实施例中的用户装置300)的语音数据，且此语音数据例如是基于VoIP的语音数据。此部分的实施细节与前述实施例类似，故不再重复说明。

语音助理模块524可对语音数据执行语音辨识动作以获得语音数据对应的声纹信息以及提示命令。语音助理模块524例如是通过获取语音数据中的特征参数以获得声纹信息，其可用以确认用户身份。另外，语音助理模块524例如是通过比对语音数据以及语音数据库以获得提示命令。在本实施例中，所述提示命令例如包括“外出中”、“在家中”等特定字句的位置信息，其可用以记录为用户状态。上述语音助理模块524执行语音辨识动作以获得语音数据对应的声纹信息以及提示命令的详细流程可与图4的实施例类似，故其细节请参照前述。

权限设定模块526可依据声纹信息以及提示命令，以决定声纹信息对应的权限信息。具体而言，权限设定模块526可对用户(分别对应于不同声纹信息)设定不同的权限等级。这些权限等级可用以决定受控于此声纹信息(对应用户)的电子装置200的装置数量、功能数量或其组合，并可例如以查找表的方式存储于存储单元520中。

至于控制模块528则可依据权限信息、提示命令以及环境信息的至少其中之一，以通过区域网络控制电子装置200。换句话说，本实施例可通过权限信息以及环境信息的组合来设定多种使用情境，从而使控制模块528依照不同的使用情境来对电子装置200进行控制。

例如，当语音控制系统50包括一个电子装置200时，权限等级的高低可决定此声纹信息可控制电子装置200的功能数量的多少。再如语音控制系统50包括多个电子装置200的情况，权限等级的高低除了能够决定此声纹信息可控制每一电子装置200的功能数量多少之外，还能够决定此声纹信息在语音控制系统50中可控制的电子装置200的装置数量。从另一角度而言，当权限等级较高时，对应于声纹信息的语音数据可控制语音控制系统50的能力较强，而当权限等级较低时，对应于声纹信息的语音数据可控制语音控制系统50的能力则受到限制。

因此，在本实施例中，当语音助理模块524获得声纹信息时，权限设定模块526便可依据声纹信息查找数据库，以从多个权限等级中选择其中之一以作为此声纹信息所对应的权限信息。此外，权限设定模块526还可根据提示命令中是否包含用户的位置信息，以适应性地提高或降低权限信息的权限等级。

在此以图6的实施例对决定权限信息的详细步骤进行说明。图6是本发明另一实施例所示出的语音控制方法的流程图，其适用于图5的语音控制系统50。

请参照图6，在步骤S602中，权限设定模块526依据声纹信息，选择多个权限等级的其中之一以设定为权限信息。换言之，权限设定模块526可先查找数据库中此声纹信息所对应的预设权限等级，并设定为目前的权限信息。

在步骤S604中，权限设定模块526提供声纹信息对应的用户状态。所述用户状态例如是记录于存储单元520中，或是可记录于其他的寄存器。

接着，在步骤S606中，权限设定模块526将提示命令包括的位置信息记录至用户状态。详言之，权限设定模块526可判断提示命令是否包括位置信息，并当提示命令包括位置信息时，权限设定模块526可将位置信息记录至用户状态。所述位置信息可例如是前述的“外出中”、“在家中”等特定字句。

之后，在步骤S608中，权限设定模块526判断用户状态是否依据位置信息而变更，且当用户状态依据位置信息而变更时，在步骤S610中，权限设定模块526更新权限信息的权限等级。其中，上述对于权限信息的更新动作例如是由权限设定模块526依据用户状态以将第一权限信息调整为所述权限等级的其中的另一。

另一方面，若用户状态并未变更，则进入步骤S612，权限设定模块526不执行权限信息的更新动作。

举例来说，当语音通信模块522通过语音控制装置500的收音单元直接接收到一合法用户的语音数据时，权限设定模块526可依照此用户的声纹信息而对应查找出权限信息。另外，权限设定模块526并可将此声纹信息对应的用户状态预设成“在家中”。当权限设定模块526判断提示命令包括“外出中”或其他与“在家中”不同的位置信息时，权限设定模块526可将上述的位置信息(例如“外出中”)记录至用户状态。此时，由于用户状态因位置信息而发生变更，故权限设定模块526会调整权限信息的权限等级。在此实施例中，当用户状态从“在家中”而被切换成“外出中”时，权限设定模块526例如是降低权限信息的权限等级。另一方面，当提示命令未包括位置信息、或是提示命令只包括“在家中”的位置信息时，权限设定模块526则不变更用户状态，也因此不对权限信息进行更新/调整，而直接将目前的权限等级设定为此声纹信息对应的权限信息。

由此，本实施例可提供用户通过声控的方式以将用户状态(例如用户是否为外出)告知语音控制装置500，再由语音控制装置500决定是否依据用户状态来调整权限信息的权限等级。从另一角度而言，本实施例通过调整权限信息以限制不在家中的用户对于控制语音控制装置500的使用权限以及操作模式。

在另一实施例中，当语音控制装置500接收到多个用户的语音数据时，若判断具有高使用权限的用户在家，则权限设定模块526可对应地提高具有低使用权限的用户所对应的权限信息的权限等级。

以语音控制装置100分别接收到第一用户的第一语音数据以及第二用户的第二语音数据的情况为例，若第一用户和第二用户皆为合法用户，且相对于第二用户而言，第一用户对应的权限信息的权限等级较高，则当权限设定模块526判断第一提示命令包括“在家中”的字句时，权限设定模块526可将“在家中”记录至第一用户的用户状态，并提高第二用户对应的权限信息的权限等级，例如让第二用户可通过语音控制来操作的电子装置200的功能数量增加。

上述情境可以图7的流程图来表示。图7是本发明另一实施例所示出的语音控制方法的流程图，其适用于图5的语音控制系统50。

请参照图7，在步骤S702中，语音通信模块522接收第一语音数据。在步骤S704中，语音助理模块524对第一语音数据执行语音辨识动作以获得第一语音数据对应的第一声纹信息以及第一提示命令。在步骤S706中，权限设定模块526依据第一声纹信息以及第一提示命令，以决定第一声纹信息对应的第一权限信息。此外，在步骤S708中，语音通信模块522接收第二语音数据。在步骤S710中，语音助理模块524对第二语音数据执行语音辨识动作以获得第二语音数据对应的第二声纹信息以及第二提示命令。其中第二声纹信息与第一声纹信息不同。在步骤S712中，权限设定模块526依据第二声纹信息以及第二提示命令，以决定第二声纹信息对应的第二权限信息。

上述决定第一权限信息的步骤(即步骤S702、S704、S706)以及决定第二权限信息的步骤(即步骤S708、S710、S712)的实施细节已在前述实施例中有详细说明，故请参照前述。另外值得一提的是，上述决定第一权限信息的步骤和决定第二权限信息的步骤的执行顺序可依实务上的需求而定，例如，步骤S708、S710、S712可与步骤S702、S704、S706同时或之前进行，本发明对此不限制。

接着，在步骤S714中，权限设定模块526判断第一声纹信息对应的用户状态是否记录特定位置信息且第一权限信息是否高于第二权限信息。当第一声纹信息对应的用户状态记录特定位置信息且第一权限信息高于第二权限信息时，在步骤S716中，权限设定模块526依据第一权限信息以提高第二权限信息的权限等级。而若步骤S714的判断结果为否，则在步骤S718中，权限设定模块526不对第二权限信息的权限等级进行调整。

在另一实施例中，语音控制装置500还可在用户意图控制特定电子装置(例如特定家电)，也即辨识出提示命令中包括一特定电子装置200的情况下，提醒最高权限等级的用户。具体而言，控制模块528可判断提示命令中是否包括电子装置200的装置信息(例如电子装置200的名称)，若是，则控制模块528可搜寻所述预设声纹中对应于最高权限等级的特定声纹，并将提示信息传送至此特定声纹所对应的用户。上述的提示信息可例如通过用户的用户装置来接收。或者，当控制模块528判断此用户与语音控制装置500本身位于同一空间当中时，控制模块528也可直接控制由装置本身的输出单元(例如扬声器、屏幕、LED灯)来提示此用户。本发明并不限制提示信息的呈现方式。

此外，在其他实施例中，语音控制装置500还可依据环境信息以决定语音控制装置500对于电子装置200的控制模式。上述的环境信息可包括时间信息，其例如是一时间区间或是一特定时间点。

举例来说，语音控制装置500的一种自动操作模式为当语音控制装置500允许存取的合法用户都不在家时，语音控制装置500会在下午六点时自动开启玄关的灯光。控制模块528可持续检测时间，并当在下午六点时，判断语音控制装置500允许存取的合法用户所对应的用户状态是否都不是被记录成“在家中”的位置信息。若皆不是，控制模块528判断这些用户都不在家，并执行上述开启玄关灯光的自动操作。

上述情境可以图8的流程图来表示。图8是本发明另一实施例所示出的语音控制方法的流程图，并适用于图5的语音控制系统50。

请参照图8，在步骤S802中，当检测到环境信息为一特定时间点时，控制模块528获得预设声纹分别对应的多个用户状态。在步骤S804中，控制模块528判断各用户状态是否被设定为特定位置信息。当所述用户状态皆未被设定为特定位置信息时，在步骤S806中，控制模块528执行此特定时间点对应的操作模式以控制电子装置200。

在另一范例中，语音控制装置500可被设置于会议室。其中，语音控制装置500可提供声控功能以提供用户控制会议室中的投影机以及音频输出设备，并可在午休期间限制用户使用上述的声控功能。例如，一般音频输出设备的输出音量可让用户在一强度区间内进行调整，但在午休期间，用户则例如被限制而仅能将输出音量控制在上述强度区间的最大强度的一半或以下。另一方面，对于具有不同权限信息的用户而言，在午休期间，语音控制装置500也可选择性地禁止具有较低权限等级的用户在午休期间操作投影机以及音频输出设备的所有功能。

换言之，上述范例中的控制模块528可检测环境信息是否符合一特定时间区间(例如上述的午休期间)，且当环境信息符合此特定时间区间时，控制模块528可依据权限信息以限制执行语音数据对于电子装置200的控制动作。

基于上述的实施例，本发明实施例另提出一种语音控制方法。请参照图9，图9是本发明一实施例所示出的语音控制方法的流程图，其适用于图5的语音控制系统50。在步骤S902中，语音通信模块522接收语音数据。在步骤S904中，语音助理模块524对语音数据执行语音辨识动作以获得语音数据对应的声纹信息以及提示命令。在步骤S906中，权限设定模块526依据声纹信息以及提示命令，以决定声纹信息对应的权限信息。在步骤S908中，控制模块528依据权限信息、提示命令以及环境信息的至少其中之一，以通过区域网络控制电子装置200。

综上所述，本发明实施例依据声纹辨识、使用权限设定、用户状态以及环境信息等多项参数，从而在多种情境下实现基于安全考量的控制设定，例如限制语音控制装置对用户所提供的声控功能，或是使语音控制装置自动执行特定的操作模式。此外，本发明实施例还可提供远端声控功能。由此，本发明实施例可以有效兼顾智能家庭服务的操作便利性以及安全性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音控制方法，适用于连结至区域网络的语音控制装置，其特征在于，所述语音控制方法包括：

接收第一语音数据；

对所述第一语音数据执行语音辨识动作以获得所述第一语音数据对应的第一声纹信息以及第一提示命令；

依据所述第一声纹信息以及所述第一提示命令，以决定所述第一声纹信息对应的第一权限信息；

依据所述第一权限信息、所述第一提示命令以及环境信息的至少其中之一，以通过所述区域网络控制至少一电子装置；

接收第二语音数据；

对所述第二语音数据执行所述语音辨识动作以获得所述第二语音数据对应的第二声纹信息以及第二提示命令，其中所述第二声纹信息与所述第一声纹信息不同；

依据所述第二声纹信息以及所述第二提示命令，以决定所述第二声纹信息对应的第二权限信息；以及

当所述第一声纹信息对应的用户状态记录特定位置信息且所述第一权限信息高于所述第二权限信息时，依据所述第一权限信息以提高所述第二权限信息的权限等级。

2.根据权利要求1所述的语音控制方法，其特征在于，依据所述第一声纹信息以及所述第一提示命令，以决定所述第一声纹信息对应的所述第一权限信息的步骤包括：

依据所述第一声纹信息，选择多个权限等级的其中之一以设定为所述第一权限信息；

提供所述第一声纹信息对应的用户状态；

记录所述第一提示命令包括的位置信息至所述用户状态；以及

当所述用户状态依据所述位置信息而变更时，依据所述用户状态更新所述第一权限信息的权限等级。

3.根据权利要求2所述的语音控制方法，其特征在于，记录所述第一提示命令包括的所述位置信息至所述用户状态的步骤包括：

判断所述第一提示命令是否包括所述位置信息；以及

当所述第一提示命令包括所述位置信息时，记录所述位置信息至所述用户状态。

4.根据权利要求2所述的语音控制方法，其特征在于，依据所述第一权限信息、所述第一提示命令以及所述环境信息的至少其中之一，以通过所述区域网络控制所述至少一电子装置的步骤包括：

依据所述环境信息符合特定时间区间，依据所述第一权限信息以限制执行所述第一语音数据对于所述至少一电子装置的控制动作。

5.根据权利要求1所述的语音控制方法，其特征在于，所述语音控制装置包括声纹数据库以及多个语音数据库，所述声纹数据库记录多个预设声纹，所述预设声纹分别对应所述语音数据库，各所述语音数据库记录多个预设音频信号，且对所述第一语音数据执行所述语音辨识动作以获得所述语音数据对应的所述第一声纹信息以及所述提示命令的步骤包括：

依据所述第一语音数据的特征参数以获得所述第一语音数据中的所述第一声纹信息；

比对所述第一声纹信息是否符合所述声纹数据库中的所述预设声纹的其中之一；以及

若是，获得与所述第一声纹信息符合的预设声纹所对应的语音数据库，并将所述语音数据库视为所述第一语音数据对应的特定语音数据库；

比对所述第一语音数据是否符合所述特定语音数据库中的所述预设音频信号的至少其中之一；以及

若是，将与所述第一语音数据符合的预设音频信号视为所述第一提示命令。

6.根据权利要求5所述的语音控制方法，其特征在于，将与所述第一声纹信息符合的预设声纹所对应的所述语音数据库视为所述第一语音数据对应的特定语音数据库，且所述语音控制方法还包括：

依据输入操作以对所述特定语音数据库进行更新。

7.根据权利要求1所述的语音控制方法，其特征在于，所述语音控制装置包括声纹数据库，所述声纹数据库记录多个预设声纹，且所述方法还包括：

判断所述第一提示命令是否包括所述至少一电子装置的装置信息；以及

当所述第一提示命令包括所述装置信息时，搜寻所述预设声纹中对应于最高权限等级的特定声纹，并传送提示信息至所述特定声纹所对应的一用户。

8.根据权利要求1所述的语音控制方法，其特征在于，所述语音控制装置包括声纹数据库，所述声纹数据库记录多个预设声纹，且依据所述第一权限信息、所述第一提示命令以及所述环境信息的至少其中之一，以通过所述区域网络控制所述至少一电子装置的步骤包括：

当检测到所述环境信息为特定时间点时，获得所述预设声纹分别对应的多个用户位置状态；

判断各所述用户位置状态是否被设定为特定位置信息；以及

当所述用户位置状态皆未被设定为所述特定位置信息时，执行所述特定时间点对应的操作模式以控制所述至少一电子装置。

9.一种语音控制系统，其特征在于，包括：

至少一电子装置，包括：

第一通信单元，连结至区域网络；以及

语音控制装置，包括：

第二通信单元，连结至所述区域网络；

存储单元，记录多个模块；以及

处理单元，耦接所述第二通信单元以及所述存储单元，用以存取并执行所述存储单元中记录的所述多个模块，所述多个模块包括：

语音通信模块，接收第一语音数据；

语音助理模块，对所述第一语音数据执行语音辨识动作以获得所述第一语音数据对应的第一声纹信息以及第一提示命令；

权限设定模块，依据所述第一声纹信息以及所述第一提示命令，以决定所述第一声纹信息对应的第一权限信息；以及

控制模块，依据所述第一权限信息、所述第一提示命令以及环境信息的至少其中之一，以通过所述区域网络控制所述至少一电子装置，其中

所述语音通信模块接收第二语音数据；

所述语音助理模块对所述第二语音数据执行所述语音辨识动作以获得所述第二语音数据对应的第二声纹信息以及第二提示命令，其中所述第二声纹信息与所述第一声纹信息不同；

所述权限设定模块依据所述第二声纹信息以及所述第二提示命令，以决定所述第二声纹信息对应的第二权限信息；以及

当所述第一声纹信息对应的用户状态记录特定位置信息且所述第一权限信息高于所述第二权限信息时，所述权限设定模块依据所述第一权限信息以提高所述第二权限信息的权限等级。