CN102750125A

CN102750125A - 基于语音的控制方法与控制系统

Info

Publication number: CN102750125A
Application number: CN2011100972283A
Authority: CN
Inventors: 戴维
Original assignee: WUXI PARADISE SOFTWARE TECHNOLOGY Co Ltd
Current assignee: WUXI PARADISE SOFTWARE TECHNOLOGY Co Ltd
Priority date: 2011-04-19
Filing date: 2011-04-19
Publication date: 2012-10-24

Abstract

本发明涉及一种基于语音的控制方法与控制系统，通过采集语音命令，并将采集到的语音命令与角色动画命令关联存储；针对所述语音命令，根据历史语音命令来推测场景，并将交流主题与场景动画命令关联存储；接收用户在互动过程中发出的语音命令并识别，根据该语音命令查找与该语音命令关联的角色动画命令；根据该语音命令推算交流主题，通过该交流主题查找与其相关联的场景动画命令；以及将查找到的角色动画命令与场景动画命令组合执行。应用本发明能够实现利用语音对虚拟互动系统的控制，让网民用户在虚拟环境中感受更真实的现实生活。

Description

基于语音的控制方法与控制系统

技术领域

本发明涉及一种基于语音的控制方法和控制系统，具体涉及一种基于语音的虚拟角色、虚拟场景的互动方法与虚拟互动系统。

背景技术

随着科技的发展，网络能够给大众带来联系上的诸多便利。目前，无论是聊天工具、网络游戏、网络社区等网络互动，都需要用户借助鼠标、键盘等手动输入设备进行操作。随着音视频数据在网络上的近零延迟传输，音视频聊天等功能也逐渐被加入了聊天工具，但某种意义上说此类功能已经脱离了网民们对虚拟互动的原有需求。不仅如此，音视频的大数据量一方面增加了网络传输的负担，另一方面也增加了个人信息的过多泄露等网络安全方面的问题。此外，语音识别技术的研究重点正转向特定的应用领域，而于人们的休闲生活息息相关的网络虚拟互动这一技术领域，目前还没有应用语音识别技术，特别是在对虚拟互动系统中虚拟角色、场景等进行控制方面，仍然采用的是传统的键盘和鼠标等输入设备进行控制，目前，尚没有利用语音来控制虚拟互动系统的方案。

此外，语音识别技术中，目前占主导地位的是基于概率统计的语音识别方法：在声学模型方面，以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性，并且能根据一些基本建模单元构造成连续语音的句子模型，达到了比较高的建模精度和建模灵活性；在语言层面上，通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外，人工神经网络方法和基于文法规则的语音处理机制也在语音识别中得到了广泛应用。总之，目前的语音识别技术都需要采集大量的真实词库作为样本，然后采用相应的语音识别算法，来识别当前输入的语音对应哪一词汇。但是，近来对于语音识别的需求，不再是针对一个用户的特定人语音识别，而是适于更多的人使用的非特定人语音识别。

发明内容

为解决上述问题，本发明提供一种应用语音控制虚拟角色、虚拟场景的方法和语音虚拟互动系统，实现利用语音对虚拟互动系统进行控制。

本发明提供一种基于语音的控制方法与控制系统，一种基于语音的控制方法，包括步骤：

语音命令关联步骤：采集语音命令，并将采集到的语音命令与角色动画命令关联存储；针对所述语音命令，根据历史语音命令来推测场景，并将交流主题与场景动画命令关联存储；以及

语音命令识别步骤：接收用户在互动过程中发出的语音命令并识别，根据该语音命令查找与该语音命令关联的角色动画命令；根据该语音命令推算交流主题，通过该交流主题查找与其相关联的场景动画命令；以及将查找到的角色动画命令与场景动画命令组合执行。

一种基于语音的控制系统，包括：语音采集模块、关联存储模块、语音命令识别模块、角色关联绑定模块、主题模糊推测模块、场景关联绑定模块、虚拟角色控制模块和虚拟场景控制模块，其中

所述语音采集模块用于采集语音命令，将采集到的语音命令发给关联存储模块；

所述关联存储模块用于将采集到的语音命令与角色动画命令关联存储，以及针对所述语音命令，根据历史语音命令来推测场景，并将交流主题与场景动画命令关联存储；

所述语音命令识别模块，用于识别用户在互动过程中发出的语音命令，从所述关联存储模块中查找与该语音命令关联的角色动画命令，将该语音命令和查找到的角色动画命令发给所述角色关联绑定模块；

所述角色关联绑定模块，用于将接收到的语音命令和角色动画命令进行关联存储，并将角色动画命令发送给所述虚拟角色控制模块；

所述主题模糊推测模块，用于根据接收到的历史语音命令数据，动态推测虚拟互动的当前交流主题；

所述场景关联绑定模块，用于将根据历史语音命令推测出的交流主题和场景动画命令进行关联存储，并将场景动画命令发送给所述虚拟场景控制模块；

所述虚拟角色控制模块，用于根据所述角色关联绑定模块发来的角色动画命令控制角色；

所述虚拟场景控制模块，用于根据所述场景关联绑定模块发来的场景动画命令控制场景变换。

并在此基础上公开了一种不用鼠标、键盘等辅助设备的基于语音的控制系统(比如：虚拟社区，聊天等等)。(注：以下如无特殊说明，Flash动画均指包括角色动画与场景动画两大类在内的所有Flash动画)应用本发明能够实现利用语音对虚拟互动系统的控制，让网民用户在虚拟环境中感受更真实的现实生活。

附图说明

图1是应用语音控制虚拟互动系统的方法流程图；

图2是应用语音控制虚拟互动系统方法中的语音命令关联流程图；

图3是应用语音控制虚拟互动系统方法中的基于说话人分类的语音识别模块系统框图；

图4应用语音控制虚拟互动系统方法中的基于说话人分类语音命令识别模块流程图；

图5是应用语音控制虚拟互动系统的语音互动聊天结构示意图；

图6是应用语音控制虚拟互动系统的语音控制棋牌类游戏结构示意图；

图7是应用语音控制虚拟互动系统的语音互动网络社区结构示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明应用语音控制虚拟互动系统的方法流程，如图1所示，该方法包括：

Step1：采集语音命令，并将采集到的语音命令与Flash动画命令关联存储。

采集语音命令是指，在虚拟互动系统启动前预先设置好的识别关键词语音命令，该语音命令可以是用中文、英文、或者日文等任何语言预先设置的命令。

语音识别模块主要通过采集用户的语音信号，采用基于隐马尔可夫模型(Hidden Markov Model，HMM模型)，实时识别出用户话语中的关键词。

由于HMM模型用概率统计理论描述了语音信号整体上的非平稳性和局部平稳性，也就是说用状态与语音的某个平稳段相对应，而各个平稳段之间以转移概率相联系，因此在现有的非特定人语音识别系统中，HMM模型已成为最为流行的语音模型，并且多采用状态输出具有连续概率分布的连续隐马尔可夫模型(Continuous Hidden MarkovModel，CHMM模型)。当用一个CHMM模型描述很多人的同一发音时，为使模型中的参数能反映多个说话人的特征，通常提高CHMM模型中的高斯混合度的数目，但是混合度越高，所需要的训练数据就越多，而在实际应用中很难提供充足的训练数据。但是，当高斯混合度超过一定范围后识别性能难以再提高，此时用大量说话者的语音集中训练得到的多混合度CHMM的输出，是语音中包含的多个人的信息混合后的统计平均，很难适合每个人。

此本系统采用用户自适应算法，在一个由很多说话人训练出的非特定人语音识别系统中加入少量新用户的训练语音数据，通过一定的算法，使原模型很快地自适应到新用户的模式下工作。这是介于特定人和非特定人语音识别之间的一种合乎逻辑的折中。此外，在语音识别中，为吸收对同一发音内容不同说话人之间的发音差异，采用基于说话者分类的语音识别的方法。两个话者的语音特征之间的差异一般表现在以下方面：(1)在帧等级上的谱特征差异；(2)在整个语音过程中的动态谱特征差异。在此，我们采用矢量量化方法，用VQ码本库表示话者的谱特征空间，因此这种映射关系可以用两者的VQ码本库中码本标号之间的相关系数来表示，通过Viterbi算法来求此相关系数，并利用k-均方聚类算法对原始码本进行修正。按照此聚类准则，对参与训练的参考说话者进行聚类分析，将他们聚成K类，每类建立一套模板，由于同类说话者的特征较接近，因而模板建立较容易，性能也较好。识别时，可以根据说话人的少量语音来进行类别判断，然后启动最为接近的一类模板进行识别。

图3为语音识别模块系统框图，可见，在采用基于说话者分类的语音识别方法时，由于聚类分析和类别判断是前提，所以这部分计算量的增加是不可避免的。另外，分类数的选择还将影响系统的建模和识别性能，分类数越多，类内差别越大，达不到易于建模和提高识别性能的目的，反之分类数过多会给系统建模带来很大的计算量和存储量。为此，采用一种适于非特定人语音识别的模型结构——并行隐马尔可夫模型(Parallel Hidden Markov Model，PHMM模型)，它由多条并行的马尔可夫链组成，从而将上述给予分类建立的多个CHMM融合于一个模型中，提高了识别性能。各条链之间允许有交叉，使得融合的多模板之间存在状态共享，同时PHMM可以在训练过程中自动完成聚类，且测试语音的输出结果来自所有类别，无需聚类分析和类别判断，这些都减少了存储量和计算量，同时在识别性能及噪声鲁棒性都得到了改善。

下面以Flash动画为例描述本发明，但是显然，本发明也可以关联到其他技术实现的动画命令，因此，Flash动画不应构成对本发明的限制。

Step2：接收用户在互动过程中发出的语音命令，查找与该语音命令关联的Flash动画命令，根据查找到的Flash动画命令控制虚拟互动系统。

Step1中采集语音命令、将采集到的语音命令与Flash动画命令进行关联存储的动作通常是在虚拟互动开始之前进行的，其过程具体为：用户选择待关联的Flash动画命令，然后利用语音采集装置(例如Microphone等)采集语音命令，将采集的语音命令作为Flash动画命令和选定的Flash动画命令进行关联存储。一条Flash动画命令可以只关联一条语音命令，也可以关联多条语音命令。Step1中与Flash动画命令关联的语音命令是统一采集的标准化语音，所述统一采集的标准化语音是现有语音技术中，以大规模语料为样本采用相应的算法得到的语音。另外，当将两个以上的语音命令与同一个Flash动画命令进行关联存储时，还可以提高语音命令识别的灵活性，同时也方便用户的使用。例如，在虚拟互动时，如果用户想表达“一起去跳舞”，那么，用户可以说出“跳舞”或“dancing”，因为“跳舞”和“dancing”这两个语音命令都对应“跳舞”这一Flash角色动画命令。

通过将语音命令和Flash动画命令进行关联存储，用户可以建立一套语音命令，通过语音命令来控制虚拟互动系统。

所述的关联存储可以有多种实现方式，例如，可以是将语音命令和Flash动画命令分别存储在不同的文件中，根据语音命令和与该语音命令关联的Flash动画命令在各自文件中的索引，建立表示语音命令与Flash动画命令关联关系的索引表，也可以是将语音命令和与该语音命令关联的游戏存储在同一个文件中。其中，前一种存储方式通过建立索引表来关联语音命令和Flash动画命令，可以通过更新索引表中的索引号、或者更新每个文件的索引号对应的存储内容来更新语音命令和Flash动画命令的关联关系，灵活性较好，但是在进行语音命令识别时，查找速度以及存取速度均较慢；采用后一种存储方式时，更新语音命令和Flash动画命令的关联关系的灵活性较差，但是在进行语音命令识别时的访问速度较快。

在将语音命令和Flash动画命令相关联时，通常是用户先选择待关联的Flash动画命令，然后在通过语音采集模块采集语音命令，作为与选定的Flash动画命令关联的语音命令，将所述Flash动画命令和所述语音命令进行关联存储。此外，由于语音命令信号持续时间一般较短，通常只有几秒，因此，语音命令占用的存储空间较小，目前的计算机存储能力完全能够达到要求。

其中，采集语音命令与Flash动画命令进行关联存储是在非互动状态下进行的。所有的语音命令和Flash动画命令的关联信息都可以保存在本地的配置文件中，可以通过删除所述配置文件或者删除所述配置文件中的部分内容来删除相应的关联关系。所述的配置文件即为上文所述的同时存储有语音命令和Flash动画命令的文件，或者上文所述只存储有语音命令的文件、只存储有Flash动画命令的文件和相应的索引表。

如果在应用语音控制虚拟互动系统的过程中出现异常情况，还可以进行相应的默认差错处理，例如，如果在语音命令识别时未找到匹配的Flash动画命令，则可将采集到的语音直接通过网络传递至对方等。

综上，应用语音控制虚拟互动系统的方法实际上包括两个过程，分别是：语音命令关联过程和语音命令识别过程。

应用语音控制虚拟互动系统方法中的语音命令关联流程图，如图2所示，该流程包括：

Step1，虚拟互动界面初始化。完成预设虚拟角色、动作、以及虚拟背景的预绑定工作，并进行界面的初始化显示。

Step2，启动语音采集装置。本步骤中的语音采集装置可以是话筒等音频输入设备。

Step3，语音采集装置接收语音命令输入，并采集语音命令。

Step4，语音采集装置将采集到的语音命令与Flash角色动画命令进行关联。

Step5，互动系统根据语音采集装置采集到的历史语音数据，通过基于HMM的语音命令状态迁移模型，推测虚拟互动交流主题，并与Flash场景动画命令进行关联。

Step6，将相互关联的语音命令和Flash角色动画命令，以及相互关联的语音命令和Flash场景命令进行关联存储，结束本流程。

应用语音控制虚拟互动系统的方法中的语音命令识别系统流程，如图4所示，该流程包括：

Step1，启动互动系统。

Step2，加载语音识别模块。本步骤中的语音识别模块是用于识别语音命令的装置，需要在互动系统启动后进行加载。

Step3，语音识别模块接收语音命令输入。

Step4，语音识别模块查找与接收的语音命令相匹配的Flash角色动画命令。

Step5，判断是否找到了相匹配的Flash角色动画命令，如果是，执行Step6，否则执行Step7。

Step6，语音识别模块将查找到的Flash角色动画命令发给角色和场景虚拟互动控制模块，虚拟互动控制模块根据Flash角色动画命令、Flash场景动画命令控制虚拟互动系统，结束本流程。本步骤中的虚拟互动控制模块用于与网络服务器进行交互，对互动双方的系统进行控制。

Step7，进行默认差错处理，传递语音至网络对方，结束本流程。

由上述技术方案可知，通过采集语音命令，将语音命令与Flash动画命令进行关联存储，根据接收到的语音命令查找与该语音命令相匹配的Flash动画命令，实现了通过语音来实现虚拟互动系统，方便了网民用户对虚拟互动系统的使用。而且，由于采集的语音命令是由当前用户发出的，因此，该语音命令能够很好地反映用户自身的语言特点，提高语音命令和Flash动画命令的匹配精度。另外，由于采用关键词识别，语音命令持续时间较短，因此，在应用本发明对虚拟互动系统进行语音控制时，并不需要占用很大的存储空间来存储相应的语音命令。

本发明还提供一种基于语音的控制系统。该系统包括：语音采集模块、关联存储模块、语音命令识别模块、角色关联绑定模块、主题模糊推测模块、场景关联绑定模块、虚拟角色控制模块和虚拟场景控制模块。

在语音命令关联过程中，语音采集模块用于采集语音命令，将采集到的语音命令发给关联存储模块；

关联存储模块用于将采集到的语音命令与角色动画命令关联存储，以及针对所述语音命令，根据历史语音命令来推测场景，并将交流主题与场景动画命令关联存储。

在语音命令识别过程中，语音命令识别模块用于识别用户在互动过程中发出的语音命令，从所述关联存储模块中查找与该语音命令关联的角色动画命令，将该语音命令和查找到的角色动画命令发给所述角色关联绑定模块。

角色关联绑定模块用于将接收到的语音命令和角色动画命令进行关联存储，并将角色动画命令发送给所述虚拟角色控制模块。

主题模糊推测模块用于根据接收到的历史语音命令数据，动态推测虚拟互动的当前交流主题。

场景关联绑定模块用于将根据历史语音命令推测出的交流主题和场景动画命令进行关联存储，并将场景动画命令发送给所述虚拟场景控制模块。

虚拟角色控制模块用于根据所述角色关联绑定模块发来的角色动画命令控制角色。

其中所述语音采集模块采用如上所述的连续隐马尔科夫模型对语音命令采集存储；所述关联存储模块采用如上所述的并行隐马尔科夫模型，其由多条并行马尔科夫链组成。

本发明的基于语音的控制系统还包括虚拟互动启动模块，用于在互动开始后向所述语音命令识别模块发送启动指示。

所述关联存储模块进一步包括预加载模块，其在收到来自所述虚拟互动启动模块的启动指示后，预加载常用的角色动画命令和与该常用的角色动画命令关联的语音命令。

所述语音命令识别模块在所述预加载模块中查找关联的角色动画命令，如果没有找到，则在所述关联存储模块中查找。

所述基于语音的控制系统还包括网络服务器模块，用于存储用户信息，实现网络双方通信等功能。

所述基于语音的控制系统还包括默认处理模块，用于在无法识别命令时，进行差错处理，并进行当前语音的网络传递

具体实施例1

虚拟互动系统实施例1的语音互动聊天系统结构如图5所示。

本发明在现有聊天工具的基础上，添加了基于语音命令识别的Flash动作库，通过实时捕捉网络双方的语音，自律性地驱动Flash动作，用于传达网络双方的实施动作或表情。实现了语音命令与Flash动作库的实时自动绑定，从而让玩家从虚拟生活中感受到更真实、更直接的网络互动生活。

识别结果与数据库中存储的Flash动画相对应。这一部分可根据使用者特性需求灵活设定，只需聊天工具开发商提供一张口令——Flash动画对应表，以实现语音与Flash动画的关联储存自动绑定，如下表所示。TABLE语音与Flash动画的关联储存自动绑定表

具体实施例2

语音控制互动棋牌游戏的系统结构如图6所示。该语音控制棋牌类游戏在第一实施例的基础上，加入了棋牌类游戏控制模块，该模块用于控制游戏的过程。

具体实施例3

语音虚拟互动社区互动系统的系统结构如图7所示。该语音虚拟互动社区系统在第一实施例、第二实施例的基础上，加入了交流主题推测模块和Flash场景动画绑定模块。

交流主题模糊推测模块，用于根据接收到的历史语音命令数据，动态推测虚拟互动的当前交流主题，比如说：购买衣服，吃饭，交友，等等。

Flash场景动画绑定模块，用于将根据历史语音命令推测出的交流主题和Flash场景动画命令进行关联存储。

以上所述，仅为本发明的优选实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音的控制方法，其特征在于，包括步骤：

语音命令识别步骤：接收用户在互动过程中发出的语音命令并识别，根据该语音命令查找与该语音命令关联的角色动画命令；根据该语音命令推算交流主题，通过该交流主题查找与其相关联的场景动画命令；以及

将查找到的角色动画命令与场景动画命令组合执行。

2.根据权利要求1所述的基于语音的控制方法，其特征在于，所述语音命令与角色动画命令的关联存储包括：一条角色动画命令关联一条语音命令存储或一条角色动画命令关联两条以上的语音命令存储。

3.根据权利要求2所述的基于语音的控制方法，其特征在于，所述语音命令与角色动画命令的关联存储包括：将语音命令和角色动画命令分别存储在不同的文件中，根据语音命令和与该语音命令关联的角色动画命令在各自文件中的索引，建立表示语音命令与角色动画命令关联关系的索引表。

4.根据权利要求3所述的基于语音的控制方法，其特征在于，所述文件包括信息头和信息两部分，所述信息头用于存储语音命令的类型和参数，所述信息为语音命令的内容；或者所述信息头用于存储角色动画命令的类型，所述信息为角色动画命令的内容。

5.根据权利要求1所述的基于语音的控制方法，其特征在于，所述交流主题与场景动画命令关联存储包括：一个交流主题关联一条场景动画命令。

6.根据权利要求1所述的基于语音的控制方法，其特征在于，所述语音命令识别步骤还包括：

预加载常用的角色动画命令和与该角色动画命令关联的语音命令；

在预加载的角色动画命令和语音命令中查找所述关联的角色动画命令，如果没有找到，则从所述语音命令与角色动画命令的关联存储中查找。

7.根据权利要求1-6中任意一项所述的基于语音的控制方法，其特征在于，在出现差错时进行差错处理。

8.一种基于语音的控制系统，其特征在于，包括：语音采集模块、关联存储模块、语音命令识别模块、角色关联绑定模块、主题模糊推测模块、场景关联绑定模块、虚拟角色控制模块和虚拟场景控制模块，其中

9.根据权利要求8所述的基于语音的控制系统，其特征在于，所述语音采集模块采用连续隐马尔科夫模型对语音命令采集存储；所述关联存储模块采用并行隐马尔科夫模型，其由多条并行马尔科夫链组成。

10.根据权利要求9所述的基于语音的控制系统，其特征在于，还包括虚拟互动启动模块，用于在互动开始后向所述语音命令识别模块发送启动指示。

11.根据权利要求10所述的基于语音的控制系统，其特征在于，所述关联存储模块进一步包括：

预加载模块，在收到来自所述虚拟互动启动模块的启动指示后，预加载常用的角色动画命令和与该常用的角色动画命令关联的语音命令。

12.根据权利要求11所述的基于语音的控制系统，其特征在于，所述语音命令识别模块在所述预加载模块中查找关联的角色动画命令，如果没有找到，则在所述关联存储模块中查找。