CN102750125A - 基于语音的控制方法与控制系统 - Google Patents
基于语音的控制方法与控制系统 Download PDFInfo
- Publication number
- CN102750125A CN102750125A CN2011100972283A CN201110097228A CN102750125A CN 102750125 A CN102750125 A CN 102750125A CN 2011100972283 A CN2011100972283 A CN 2011100972283A CN 201110097228 A CN201110097228 A CN 201110097228A CN 102750125 A CN102750125 A CN 102750125A
- Authority
- CN
- China
- Prior art keywords
- voice command
- voice
- module
- role
- order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000003993 interaction Effects 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 25
- 230000002452 interceptive effect Effects 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000007621 cluster analysis Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- GPUADMRJQVPIAS-QCVDVZFFSA-M cerivastatin sodium Chemical compound [Na+].COCC1=C(C(C)C)N=C(C(C)C)C(\C=C\[C@@H](O)C[C@@H](O)CC([O-])=O)=C1C1=CC=C(F)C=C1 GPUADMRJQVPIAS-QCVDVZFFSA-M 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本发明涉及一种基于语音的控制方法与控制系统,通过采集语音命令,并将采集到的语音命令与角色动画命令关联存储;针对所述语音命令,根据历史语音命令来推测场景,并将交流主题与场景动画命令关联存储;接收用户在互动过程中发出的语音命令并识别,根据该语音命令查找与该语音命令关联的角色动画命令;根据该语音命令推算交流主题,通过该交流主题查找与其相关联的场景动画命令;以及将查找到的角色动画命令与场景动画命令组合执行。应用本发明能够实现利用语音对虚拟互动系统的控制,让网民用户在虚拟环境中感受更真实的现实生活。
Description
技术领域
本发明涉及一种基于语音的控制方法和控制系统,具体涉及一种基于语音的虚拟角色、虚拟场景的互动方法与虚拟互动系统。
背景技术
随着科技的发展,网络能够给大众带来联系上的诸多便利。目前,无论是聊天工具、网络游戏、网络社区等网络互动,都需要用户借助鼠标、键盘等手动输入设备进行操作。随着音视频数据在网络上的近零延迟传输,音视频聊天等功能也逐渐被加入了聊天工具,但某种意义上说此类功能已经脱离了网民们对虚拟互动的原有需求。不仅如此,音视频的大数据量一方面增加了网络传输的负担,另一方面也增加了个人信息的过多泄露等网络安全方面的问题。此外,语音识别技术的研究重点正转向特定的应用领域,而于人们的休闲生活息息相关的网络虚拟互动这一技术领域,目前还没有应用语音识别技术,特别是在对虚拟互动系统中虚拟角色、场景等进行控制方面,仍然采用的是传统的键盘和鼠标等输入设备进行控制,目前,尚没有利用语音来控制虚拟互动系统的方案。
此外,语音识别技术中,目前占主导地位的是基于概率统计的语音识别方法:在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性;在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法和基于文法规则的语音处理机制也在语音识别中得到了广泛应用。总之,目前的语音识别技术都需要采集大量的真实词库作为样本,然后采用相应的语音识别算法,来识别当前输入的语音对应哪一词汇。但是,近来对于语音识别的需求,不再是针对一个用户的特定人语音识别,而是适于更多的人使用的非特定人语音识别。
发明内容
为解决上述问题,本发明提供一种应用语音控制虚拟角色、虚拟场景的方法和语音虚拟互动系统,实现利用语音对虚拟互动系统进行控制。
本发明提供一种基于语音的控制方法与控制系统,一种基于语音的控制方法,包括步骤:
语音命令关联步骤:采集语音命令,并将采集到的语音命令与角色动画命令关联存储;针对所述语音命令,根据历史语音命令来推测场景,并将交流主题与场景动画命令关联存储;以及
语音命令识别步骤:接收用户在互动过程中发出的语音命令并识别,根据该语音命令查找与该语音命令关联的角色动画命令;根据该语音命令推算交流主题,通过该交流主题查找与其相关联的场景动画命令;以及将查找到的角色动画命令与场景动画命令组合执行。
一种基于语音的控制系统,包括:语音采集模块、关联存储模块、语音命令识别模块、角色关联绑定模块、主题模糊推测模块、场景关联绑定模块、虚拟角色控制模块和虚拟场景控制模块,其中
所述语音采集模块用于采集语音命令,将采集到的语音命令发给关联存储模块;
所述关联存储模块用于将采集到的语音命令与角色动画命令关联存储,以及针对所述语音命令,根据历史语音命令来推测场景,并将交流主题与场景动画命令关联存储;
所述语音命令识别模块,用于识别用户在互动过程中发出的语音命令,从所述关联存储模块中查找与该语音命令关联的角色动画命令,将该语音命令和查找到的角色动画命令发给所述角色关联绑定模块;
所述角色关联绑定模块,用于将接收到的语音命令和角色动画命令进行关联存储,并将角色动画命令发送给所述虚拟角色控制模块;
所述主题模糊推测模块,用于根据接收到的历史语音命令数据,动态推测虚拟互动的当前交流主题;
所述场景关联绑定模块,用于将根据历史语音命令推测出的交流主题和场景动画命令进行关联存储,并将场景动画命令发送给所述虚拟场景控制模块;
所述虚拟角色控制模块,用于根据所述角色关联绑定模块发来的角色动画命令控制角色;
所述虚拟场景控制模块,用于根据所述场景关联绑定模块发来的场景动画命令控制场景变换。
并在此基础上公开了一种不用鼠标、键盘等辅助设备的基于语音的控制系统(比如:虚拟社区,聊天等等)。(注:以下如无特殊说明,Flash动画均指包括角色动画与场景动画两大类在内的所有Flash动画)应用本发明能够实现利用语音对虚拟互动系统的控制,让网民用户在虚拟环境中感受更真实的现实生活。
附图说明
图1是应用语音控制虚拟互动系统的方法流程图;
图2是应用语音控制虚拟互动系统方法中的语音命令关联流程图;
图3是应用语音控制虚拟互动系统方法中的基于说话人分类的语音识别模块系统框图;
图4应用语音控制虚拟互动系统方法中的基于说话人分类语音命令识别模块流程图;
图5是应用语音控制虚拟互动系统的语音互动聊天结构示意图;
图6是应用语音控制虚拟互动系统的语音控制棋牌类游戏结构示意图;
图7是应用语音控制虚拟互动系统的语音互动网络社区结构示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明应用语音控制虚拟互动系统的方法流程,如图1所示,该方法包括:
Step1:采集语音命令,并将采集到的语音命令与Flash动画命令关联存储。
采集语音命令是指,在虚拟互动系统启动前预先设置好的识别关键词语音命令,该语音命令可以是用中文、英文、或者日文等任何语言预先设置的命令。
语音识别模块主要通过采集用户的语音信号,采用基于隐马尔可夫模型(Hidden Markov Model,HMM模型),实时识别出用户话语中的关键词。
由于HMM模型用概率统计理论描述了语音信号整体上的非平稳性和局部平稳性,也就是说用状态与语音的某个平稳段相对应,而各个平稳段之间以转移概率相联系,因此在现有的非特定人语音识别系统中,HMM模型已成为最为流行的语音模型,并且多采用状态输出具有连续概率分布的连续隐马尔可夫模型(Continuous Hidden MarkovModel,CHMM模型)。当用一个CHMM模型描述很多人的同一发音时,为使模型中的参数能反映多个说话人的特征,通常提高CHMM模型中的高斯混合度的数目,但是混合度越高,所需要的训练数据就越多,而在实际应用中很难提供充足的训练数据。但是,当高斯混合度超过一定范围后识别性能难以再提高,此时用大量说话者的语音集中训练得到的多混合度CHMM的输出,是语音中包含的多个人的信息混合后的统计平均,很难适合每个人。
此本系统采用用户自适应算法,在一个由很多说话人训练出的非特定人语音识别系统中加入少量新用户的训练语音数据,通过一定的算法,使原模型很快地自适应到新用户的模式下工作。这是介于特定人和非特定人语音识别之间的一种合乎逻辑的折中。此外,在语音识别中,为吸收对同一发音内容不同说话人之间的发音差异,采用基于说话者分类的语音识别的方法。两个话者的语音特征之间的差异一般表现在以下方面:(1)在帧等级上的谱特征差异;(2)在整个语音过程中的动态谱特征差异。在此,我们采用矢量量化方法,用VQ码本库表示话者的谱特征空间,因此这种映射关系可以用两者的VQ码本库中码本标号之间的相关系数来表示,通过Viterbi算法来求此相关系数,并利用k-均方聚类算法对原始码本进行修正。按照此聚类准则,对参与训练的参考说话者进行聚类分析,将他们聚成K类,每类建立一套模板,由于同类说话者的特征较接近,因而模板建立较容易,性能也较好。识别时,可以根据说话人的少量语音来进行类别判断,然后启动最为接近的一类模板进行识别。
图3为语音识别模块系统框图,可见,在采用基于说话者分类的语音识别方法时,由于聚类分析和类别判断是前提,所以这部分计算量的增加是不可避免的。另外,分类数的选择还将影响系统的建模和识别性能,分类数越多,类内差别越大,达不到易于建模和提高识别性能的目的,反之分类数过多会给系统建模带来很大的计算量和存储量。为此,采用一种适于非特定人语音识别的模型结构——并行隐马尔可夫模型(Parallel Hidden Markov Model,PHMM模型),它由多条并行的马尔可夫链组成,从而将上述给予分类建立的多个CHMM融合于一个模型中,提高了识别性能。各条链之间允许有交叉,使得融合的多模板之间存在状态共享,同时PHMM可以在训练过程中自动完成聚类,且测试语音的输出结果来自所有类别,无需聚类分析和类别判断,这些都减少了存储量和计算量,同时在识别性能及噪声鲁棒性都得到了改善。
下面以Flash动画为例描述本发明,但是显然,本发明也可以关联到其他技术实现的动画命令,因此,Flash动画不应构成对本发明的限制。
Step2:接收用户在互动过程中发出的语音命令,查找与该语音命令关联的Flash动画命令,根据查找到的Flash动画命令控制虚拟互动系统。
Step1中采集语音命令、将采集到的语音命令与Flash动画命令进行关联存储的动作通常是在虚拟互动开始之前进行的,其过程具体为:用户选择待关联的Flash动画命令,然后利用语音采集装置(例如Microphone等)采集语音命令,将采集的语音命令作为Flash动画命令和选定的Flash动画命令进行关联存储。一条Flash动画命令可以只关联一条语音命令,也可以关联多条语音命令。Step1中与Flash动画命令关联的语音命令是统一采集的标准化语音,所述统一采集的标准化语音是现有语音技术中,以大规模语料为样本采用相应的算法得到的语音。另外,当将两个以上的语音命令与同一个Flash动画命令进行关联存储时,还可以提高语音命令识别的灵活性,同时也方便用户的使用。例如,在虚拟互动时,如果用户想表达“一起去跳舞”,那么,用户可以说出“跳舞”或“dancing”,因为“跳舞”和“dancing”这两个语音命令都对应“跳舞”这一Flash角色动画命令。
通过将语音命令和Flash动画命令进行关联存储,用户可以建立一套语音命令,通过语音命令来控制虚拟互动系统。
所述的关联存储可以有多种实现方式,例如,可以是将语音命令和Flash动画命令分别存储在不同的文件中,根据语音命令和与该语音命令关联的Flash动画命令在各自文件中的索引,建立表示语音命令与Flash动画命令关联关系的索引表,也可以是将语音命令和与该语音命令关联的游戏存储在同一个文件中。其中,前一种存储方式通过建立索引表来关联语音命令和Flash动画命令,可以通过更新索引表中的索引号、或者更新每个文件的索引号对应的存储内容来更新语音命令和Flash动画命令的关联关系,灵活性较好,但是在进行语音命令识别时,查找速度以及存取速度均较慢;采用后一种存储方式时,更新语音命令和Flash动画命令的关联关系的灵活性较差,但是在进行语音命令识别时的访问速度较快。
在将语音命令和Flash动画命令相关联时,通常是用户先选择待关联的Flash动画命令,然后在通过语音采集模块采集语音命令,作为与选定的Flash动画命令关联的语音命令,将所述Flash动画命令和所述语音命令进行关联存储。此外,由于语音命令信号持续时间一般较短,通常只有几秒,因此,语音命令占用的存储空间较小,目前的计算机存储能力完全能够达到要求。
其中,采集语音命令与Flash动画命令进行关联存储是在非互动状态下进行的。所有的语音命令和Flash动画命令的关联信息都可以保存在本地的配置文件中,可以通过删除所述配置文件或者删除所述配置文件中的部分内容来删除相应的关联关系。所述的配置文件即为上文所述的同时存储有语音命令和Flash动画命令的文件,或者上文所述只存储有语音命令的文件、只存储有Flash动画命令的文件和相应的索引表。
如果在应用语音控制虚拟互动系统的过程中出现异常情况,还可以进行相应的默认差错处理,例如,如果在语音命令识别时未找到匹配的Flash动画命令,则可将采集到的语音直接通过网络传递至对方等。
综上,应用语音控制虚拟互动系统的方法实际上包括两个过程,分别是:语音命令关联过程和语音命令识别过程。
应用语音控制虚拟互动系统方法中的语音命令关联流程图,如图2所示,该流程包括:
Step1,虚拟互动界面初始化。完成预设虚拟角色、动作、以及虚拟背景的预绑定工作,并进行界面的初始化显示。
Step2,启动语音采集装置。本步骤中的语音采集装置可以是话筒等音频输入设备。
Step3,语音采集装置接收语音命令输入,并采集语音命令。
Step4,语音采集装置将采集到的语音命令与Flash角色动画命令进行关联。
Step5,互动系统根据语音采集装置采集到的历史语音数据,通过基于HMM的语音命令状态迁移模型,推测虚拟互动交流主题,并与Flash场景动画命令进行关联。
Step6,将相互关联的语音命令和Flash角色动画命令,以及相互关联的语音命令和Flash场景命令进行关联存储,结束本流程。
应用语音控制虚拟互动系统的方法中的语音命令识别系统流程,如图4所示,该流程包括:
Step1,启动互动系统。
Step2,加载语音识别模块。本步骤中的语音识别模块是用于识别语音命令的装置,需要在互动系统启动后进行加载。
Step3,语音识别模块接收语音命令输入。
Step4,语音识别模块查找与接收的语音命令相匹配的Flash角色动画命令。
Step5,判断是否找到了相匹配的Flash角色动画命令,如果是,执行Step6,否则执行Step7。
Step6,语音识别模块将查找到的Flash角色动画命令发给角色和场景虚拟互动控制模块,虚拟互动控制模块根据Flash角色动画命令、Flash场景动画命令控制虚拟互动系统,结束本流程。本步骤中的虚拟互动控制模块用于与网络服务器进行交互,对互动双方的系统进行控制。
Step7,进行默认差错处理,传递语音至网络对方,结束本流程。
由上述技术方案可知,通过采集语音命令,将语音命令与Flash动画命令进行关联存储,根据接收到的语音命令查找与该语音命令相匹配的Flash动画命令,实现了通过语音来实现虚拟互动系统,方便了网民用户对虚拟互动系统的使用。而且,由于采集的语音命令是由当前用户发出的,因此,该语音命令能够很好地反映用户自身的语言特点,提高语音命令和Flash动画命令的匹配精度。另外,由于采用关键词识别,语音命令持续时间较短,因此,在应用本发明对虚拟互动系统进行语音控制时,并不需要占用很大的存储空间来存储相应的语音命令。
本发明还提供一种基于语音的控制系统。该系统包括:语音采集模块、关联存储模块、语音命令识别模块、角色关联绑定模块、主题模糊推测模块、场景关联绑定模块、虚拟角色控制模块和虚拟场景控制模块。
在语音命令关联过程中,语音采集模块用于采集语音命令,将采集到的语音命令发给关联存储模块;
关联存储模块用于将采集到的语音命令与角色动画命令关联存储,以及针对所述语音命令,根据历史语音命令来推测场景,并将交流主题与场景动画命令关联存储。
在语音命令识别过程中,语音命令识别模块用于识别用户在互动过程中发出的语音命令,从所述关联存储模块中查找与该语音命令关联的角色动画命令,将该语音命令和查找到的角色动画命令发给所述角色关联绑定模块。
角色关联绑定模块用于将接收到的语音命令和角色动画命令进行关联存储,并将角色动画命令发送给所述虚拟角色控制模块。
主题模糊推测模块用于根据接收到的历史语音命令数据,动态推测虚拟互动的当前交流主题。
场景关联绑定模块用于将根据历史语音命令推测出的交流主题和场景动画命令进行关联存储,并将场景动画命令发送给所述虚拟场景控制模块。
虚拟角色控制模块用于根据所述角色关联绑定模块发来的角色动画命令控制角色。
所述虚拟场景控制模块,用于根据所述场景关联绑定模块发来的场景动画命令控制场景变换。
其中所述语音采集模块采用如上所述的连续隐马尔科夫模型对语音命令采集存储;所述关联存储模块采用如上所述的并行隐马尔科夫模型,其由多条并行马尔科夫链组成。
本发明的基于语音的控制系统还包括虚拟互动启动模块,用于在互动开始后向所述语音命令识别模块发送启动指示。
所述关联存储模块进一步包括预加载模块,其在收到来自所述虚拟互动启动模块的启动指示后,预加载常用的角色动画命令和与该常用的角色动画命令关联的语音命令。
所述语音命令识别模块在所述预加载模块中查找关联的角色动画命令,如果没有找到,则在所述关联存储模块中查找。
所述基于语音的控制系统还包括网络服务器模块,用于存储用户信息,实现网络双方通信等功能。
所述基于语音的控制系统还包括默认处理模块,用于在无法识别命令时,进行差错处理,并进行当前语音的网络传递
具体实施例1
虚拟互动系统实施例1的语音互动聊天系统结构如图5所示。
本发明在现有聊天工具的基础上,添加了基于语音命令识别的Flash动作库,通过实时捕捉网络双方的语音,自律性地驱动Flash动作,用于传达网络双方的实施动作或表情。实现了语音命令与Flash动作库的实时自动绑定,从而让玩家从虚拟生活中感受到更真实、更直接的网络互动生活。
识别结果与数据库中存储的Flash动画相对应。这一部分可根据使用者特性需求灵活设定,只需聊天工具开发商提供一张口令——Flash动画对应表,以实现语音与Flash动画的关联储存自动绑定,如下表所示。TABLE语音与Flash动画的关联储存自动绑定表
具体实施例2
语音控制互动棋牌游戏的系统结构如图6所示。该语音控制棋牌类游戏在第一实施例的基础上,加入了棋牌类游戏控制模块,该模块用于控制游戏的过程。
具体实施例3
语音虚拟互动社区互动系统的系统结构如图7所示。该语音虚拟互动社区系统在第一实施例、第二实施例的基础上,加入了交流主题推测模块和Flash场景动画绑定模块。
交流主题模糊推测模块,用于根据接收到的历史语音命令数据,动态推测虚拟互动的当前交流主题,比如说:购买衣服,吃饭,交友,等等。
Flash场景动画绑定模块,用于将根据历史语音命令推测出的交流主题和Flash场景动画命令进行关联存储。
以上所述,仅为本发明的优选实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种基于语音的控制方法,其特征在于,包括步骤:
语音命令关联步骤:采集语音命令,并将采集到的语音命令与角色动画命令关联存储;针对所述语音命令,根据历史语音命令来推测场景,并将交流主题与场景动画命令关联存储;以及
语音命令识别步骤:接收用户在互动过程中发出的语音命令并识别,根据该语音命令查找与该语音命令关联的角色动画命令;根据该语音命令推算交流主题,通过该交流主题查找与其相关联的场景动画命令;以及
将查找到的角色动画命令与场景动画命令组合执行。
2.根据权利要求1所述的基于语音的控制方法,其特征在于,所述语音命令与角色动画命令的关联存储包括:一条角色动画命令关联一条语音命令存储或一条角色动画命令关联两条以上的语音命令存储。
3.根据权利要求2所述的基于语音的控制方法,其特征在于,所述语音命令与角色动画命令的关联存储包括:将语音命令和角色动画命令分别存储在不同的文件中,根据语音命令和与该语音命令关联的角色动画命令在各自文件中的索引,建立表示语音命令与角色动画命令关联关系的索引表。
4.根据权利要求3所述的基于语音的控制方法,其特征在于,所述文件包括信息头和信息两部分,所述信息头用于存储语音命令的类型和参数,所述信息为语音命令的内容;或者所述信息头用于存储角色动画命令的类型,所述信息为角色动画命令的内容。
5.根据权利要求1所述的基于语音的控制方法,其特征在于,所述交流主题与场景动画命令关联存储包括:一个交流主题关联一条场景动画命令。
6.根据权利要求1所述的基于语音的控制方法,其特征在于,所述语音命令识别步骤还包括:
预加载常用的角色动画命令和与该角色动画命令关联的语音命令;
在预加载的角色动画命令和语音命令中查找所述关联的角色动画命令,如果没有找到,则从所述语音命令与角色动画命令的关联存储中查找。
7.根据权利要求1-6中任意一项所述的基于语音的控制方法,其特征在于,在出现差错时进行差错处理。
8.一种基于语音的控制系统,其特征在于,包括:语音采集模块、关联存储模块、语音命令识别模块、角色关联绑定模块、主题模糊推测模块、场景关联绑定模块、虚拟角色控制模块和虚拟场景控制模块,其中
所述语音采集模块用于采集语音命令,将采集到的语音命令发给关联存储模块;
所述关联存储模块用于将采集到的语音命令与角色动画命令关联存储,以及针对所述语音命令,根据历史语音命令来推测场景,并将交流主题与场景动画命令关联存储;
所述语音命令识别模块,用于识别用户在互动过程中发出的语音命令,从所述关联存储模块中查找与该语音命令关联的角色动画命令,将该语音命令和查找到的角色动画命令发给所述角色关联绑定模块;
所述角色关联绑定模块,用于将接收到的语音命令和角色动画命令进行关联存储,并将角色动画命令发送给所述虚拟角色控制模块;
所述主题模糊推测模块,用于根据接收到的历史语音命令数据,动态推测虚拟互动的当前交流主题;
所述场景关联绑定模块,用于将根据历史语音命令推测出的交流主题和场景动画命令进行关联存储,并将场景动画命令发送给所述虚拟场景控制模块;
所述虚拟角色控制模块,用于根据所述角色关联绑定模块发来的角色动画命令控制角色;
所述虚拟场景控制模块,用于根据所述场景关联绑定模块发来的场景动画命令控制场景变换。
9.根据权利要求8所述的基于语音的控制系统,其特征在于,所述语音采集模块采用连续隐马尔科夫模型对语音命令采集存储;所述关联存储模块采用并行隐马尔科夫模型,其由多条并行马尔科夫链组成。
10.根据权利要求9所述的基于语音的控制系统,其特征在于,还包括虚拟互动启动模块,用于在互动开始后向所述语音命令识别模块发送启动指示。
11.根据权利要求10所述的基于语音的控制系统,其特征在于,所述关联存储模块进一步包括:
预加载模块,在收到来自所述虚拟互动启动模块的启动指示后,预加载常用的角色动画命令和与该常用的角色动画命令关联的语音命令。
12.根据权利要求11所述的基于语音的控制系统,其特征在于,所述语音命令识别模块在所述预加载模块中查找关联的角色动画命令,如果没有找到,则在所述关联存储模块中查找。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100972283A CN102750125A (zh) | 2011-04-19 | 2011-04-19 | 基于语音的控制方法与控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100972283A CN102750125A (zh) | 2011-04-19 | 2011-04-19 | 基于语音的控制方法与控制系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102750125A true CN102750125A (zh) | 2012-10-24 |
Family
ID=47030349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100972283A Pending CN102750125A (zh) | 2011-04-19 | 2011-04-19 | 基于语音的控制方法与控制系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102750125A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104407764A (zh) * | 2013-10-29 | 2015-03-11 | 贵阳朗玛信息技术股份有限公司 | 场景效果呈现方法及装置 |
CN104635927A (zh) * | 2015-01-27 | 2015-05-20 | 深圳富泰宏精密工业有限公司 | 互动显示系统及方法 |
CN106528137A (zh) * | 2016-10-11 | 2017-03-22 | 深圳市天易联科技有限公司 | 与虚拟角色对话的方法及装置 |
CN106575503A (zh) * | 2014-06-18 | 2017-04-19 | 微软技术许可有限责任公司 | 用于对话理解系统的会话上下文建模 |
CN107564519A (zh) * | 2013-01-07 | 2018-01-09 | 三星电子株式会社 | 交互服务器及其控制方法和交互系统 |
CN108140383A (zh) * | 2016-07-19 | 2018-06-08 | 门箱股份有限公司 | 影像显示设备、话题选择方法、话题选择程序、影像显示方法及影像显示程序 |
CN108748141A (zh) * | 2018-05-04 | 2018-11-06 | 安徽三弟电子科技有限责任公司 | 一种基于语音控制的儿童动画投放机器人控制系统 |
CN111124229A (zh) * | 2019-12-24 | 2020-05-08 | 山东舜网传媒股份有限公司 | 通过语音交互实现网页动画控制的方法、系统及浏览器 |
CN111326145A (zh) * | 2020-01-22 | 2020-06-23 | 南京雷鲨信息科技有限公司 | 语音模型训练方法、系统及计算机可读存储介质 |
CN111343473A (zh) * | 2020-02-25 | 2020-06-26 | 北京达佳互联信息技术有限公司 | 直播应用的数据处理方法、装置、电子设备及存储介质 |
CN112599118A (zh) * | 2020-12-30 | 2021-04-02 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN113407146A (zh) * | 2020-03-16 | 2021-09-17 | 阿里巴巴集团控股有限公司 | 终端语音交互方法、系统以及相应的终端设备 |
CN114895999A (zh) * | 2022-03-31 | 2022-08-12 | 思必驰科技股份有限公司 | 基于交互界面的对话方法及模型 |
CN115617169A (zh) * | 2022-10-11 | 2023-01-17 | 深圳琪乐科技有限公司 | 一种语音控制机器人及基于角色关系的机器人控制方法 |
-
2011
- 2011-04-19 CN CN2011100972283A patent/CN102750125A/zh active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11854570B2 (en) | 2013-01-07 | 2023-12-26 | Samsung Electronics Co., Ltd. | Electronic device providing response to voice input, and method and computer readable medium thereof |
CN107564519A (zh) * | 2013-01-07 | 2018-01-09 | 三星电子株式会社 | 交互服务器及其控制方法和交互系统 |
US10891968B2 (en) | 2013-01-07 | 2021-01-12 | Samsung Electronics Co., Ltd. | Interactive server, control method thereof, and interactive system |
CN104407764A (zh) * | 2013-10-29 | 2015-03-11 | 贵阳朗玛信息技术股份有限公司 | 场景效果呈现方法及装置 |
CN106575503A (zh) * | 2014-06-18 | 2017-04-19 | 微软技术许可有限责任公司 | 用于对话理解系统的会话上下文建模 |
CN104635927A (zh) * | 2015-01-27 | 2015-05-20 | 深圳富泰宏精密工业有限公司 | 互动显示系统及方法 |
US10713006B2 (en) | 2016-07-19 | 2020-07-14 | Gatebox Inc. | Image display apparatus, topic selection method, topic selection program, image display method, and image display program |
CN108140383A (zh) * | 2016-07-19 | 2018-06-08 | 门箱股份有限公司 | 影像显示设备、话题选择方法、话题选择程序、影像显示方法及影像显示程序 |
CN106528137A (zh) * | 2016-10-11 | 2017-03-22 | 深圳市天易联科技有限公司 | 与虚拟角色对话的方法及装置 |
CN108748141A (zh) * | 2018-05-04 | 2018-11-06 | 安徽三弟电子科技有限责任公司 | 一种基于语音控制的儿童动画投放机器人控制系统 |
CN111124229B (zh) * | 2019-12-24 | 2022-03-11 | 山东舜网传媒股份有限公司 | 通过语音交互实现网页动画控制的方法、系统及浏览器 |
CN111124229A (zh) * | 2019-12-24 | 2020-05-08 | 山东舜网传媒股份有限公司 | 通过语音交互实现网页动画控制的方法、系统及浏览器 |
CN111326145A (zh) * | 2020-01-22 | 2020-06-23 | 南京雷鲨信息科技有限公司 | 语音模型训练方法、系统及计算机可读存储介质 |
CN111343473A (zh) * | 2020-02-25 | 2020-06-26 | 北京达佳互联信息技术有限公司 | 直播应用的数据处理方法、装置、电子设备及存储介质 |
CN113407146A (zh) * | 2020-03-16 | 2021-09-17 | 阿里巴巴集团控股有限公司 | 终端语音交互方法、系统以及相应的终端设备 |
CN112599118A (zh) * | 2020-12-30 | 2021-04-02 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112599118B (zh) * | 2020-12-30 | 2024-02-13 | 中国科学技术大学 | 语音识别方法、装置、电子设备和存储介质 |
CN114895999A (zh) * | 2022-03-31 | 2022-08-12 | 思必驰科技股份有限公司 | 基于交互界面的对话方法及模型 |
CN114895999B (zh) * | 2022-03-31 | 2023-09-19 | 思必驰科技股份有限公司 | 基于交互界面的对话方法及系统 |
CN115617169A (zh) * | 2022-10-11 | 2023-01-17 | 深圳琪乐科技有限公司 | 一种语音控制机器人及基于角色关系的机器人控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102750125A (zh) | 基于语音的控制方法与控制系统 | |
CN110853618B (zh) | 一种语种识别的方法、模型训练的方法、装置及设备 | |
CN108509619B (zh) | 一种语音交互方法及设备 | |
CN108288468B (zh) | 语音识别方法及装置 | |
CN1321401C (zh) | 语音识别设备、语音识别方法、会话控制设备以及会话控制方法 | |
JP7213943B2 (ja) | 車載機器の音声処理方法、装置、機器及び記憶媒体 | |
CN109977207A (zh) | 对话生成方法、对话生成装置、电子设备及存储介质 | |
CN111090727B (zh) | 语言转换处理方法、装置及方言语音交互系统 | |
CN109346064A (zh) | 用于端到端语音识别模型的训练方法及系统 | |
CN106463117A (zh) | 使用web风格排名和多个语言理解引擎的对话状态追踪 | |
CN104036774A (zh) | 藏语方言识别方法及系统 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
CN113609264B (zh) | 电力系统节点的数据查询方法、装置 | |
CN101377797A (zh) | 一种应用语音控制游戏系统的方法和游戏系统 | |
CN106528859A (zh) | 一种数据推送系统及方法 | |
CN102486922B (zh) | 说话人识别方法、装置和系统 | |
CN102404278A (zh) | 一种基于声纹识别的点歌系统及其应用方法 | |
CN115293132B (zh) | 虚拟场景的对话处理方法、装置、电子设备及存储介质 | |
CN111414513A (zh) | 音乐流派的分类方法、装置及存储介质 | |
CN106875936A (zh) | 语音识别方法及装置 | |
CN116958342A (zh) | 虚拟形象的动作生成方法、动作库的构建方法及装置 | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN104882141A (zh) | 一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统 | |
CN116187292A (zh) | 对话模板生成方法、装置及计算机可读存储介质 | |
CN113822506A (zh) | 一种用于电力调控的多轮次语音交互智能检索系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
DD01 | Delivery of document by public notice |
Addressee: Wuxi Paradise Software Technology Co., Ltd. Document name: Notification of Publication of the Application for Invention |
|
DD01 | Delivery of document by public notice |
Addressee: Wuxi Paradise Software Technology Co., Ltd. Document name: Notification that Application Deemed to be Withdrawn |
|
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121024 |