CN115910036A

CN115910036A - 基于ai互动的3d虚拟形象听觉言语训练方法

Info

Publication number: CN115910036A
Application number: CN202211106912.8A
Authority: CN
Inventors: 蔡希睿; 克里斯多夫.丁.肖; 安德鲁-彼得·莱恩; 刘焱; 陈浩强; 张�成; 林夕园
Original assignee: Yunnan Beifei Technology Co ltd
Current assignee: Yunnan Beifei Technology Co ltd
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2023-04-04

Abstract

本发明公开了一种基于AI互动的3D虚拟形象听觉言语训练方法，能够将听觉训练和身体动作刺激、口语(说话)练习相结合的全新的英语语音学习方法，结合了语调听觉法和3D虚拟形象、AI语音识别与评测，能够有效提高英语学习者语音水平，弥补课堂上语音教学的不足、教师语音条件参差的不足，解决课堂教学中时效性的问题，更重要的是，这样一个能在移动智能终端上操作的方法是促进教育公平、实现教育共同均衡发展的积极创新。

Description

基于AI互动的3D虚拟形象听觉言语训练方法

技术领域

本发明涉及现代化教育技术领域，特别涉及基于AI互动的3D虚拟形象听觉言语训练方法。

背景技术

语音能够让说话人表达自己的想法，而正确的发音才能使听话人易于理解，因此英语学习的第一步是学习正确的语音。大量研究证明在英语初学阶段，语音学习的效果直接影响着后续整个英语学习。然而，在实际英语教学中，教师往往以词汇和语法教学为主，而忽略了语音的教学和练习，尤其当英语教师自身不具备良好的语音条件、缺乏语音教学经验时，将导致用户的不规范发音，影响后续学习。

发明内容

本发明的目的在于至少解决现有教育过程中存在的问题，提供基于AI互动的3D虚拟形象听觉言语训练方法，能够将听觉训练和身体动作刺激、口语(说话)练习相结合的全新的英语语音学习方法，结合了语调听觉法和3D虚拟形象、AI语音识别与评测，能够有效提高英语学习者语音水平，弥补课堂上语音教学的不足、教师语音条件参差的不足，解决课堂教学中时效性的问题，更重要的是，这样一个能在移动智能终端上操作的方法是促进教育公平、实现教育共同均衡发展的积极创新。

为实现上述目的，本发明提供如下技术方案：

基于AI互动的3D虚拟形象听觉言语训练方法，其特征在于：包括以下步骤：

S1、录入语音信号，将原始语音进行低通过滤处理，处理为低频率的语音型态，即保留300Hz以下低音频，低频率音频保留了话语的韵律特征，包括重音、节奏、响度和语调等。这样，能够识别字词的高频率被移除，而保留了话语韵律的低频率语音信号能够有效地降低学习者语义和句法加工的处理负荷，并为其他认知加工过程释放更多注意力资源；

S2、将处理过的录入语音信号分为八种语音句子类型，分别是肯定陈述句、否定陈述句、一般疑问句、特殊疑问句、选择疑问句、反意疑问句、祈使句和感叹句，获取分级句库，持续对用户进行不低于30s培训。用于培训的句子音频经过低通过滤处理，突出了言语中的韵律、语调、音调、紧张度、停顿、持续时间、响度等言语参数，能够增强用户对于语言信号的本体感知；用户在此培训中，透过感觉、听觉、视觉的感觉统合训练，使学习者最大化地发展出大脑神经路径，扩展其学习潜能，具体来说，用户根据语音信号的韵律配合身体运动，以改善学习者的运动力、空间定向和记忆广度，达到本体感觉、听觉和说话的协调发展；

S3、创建虚拟成像，在Unity 3D中创建虚拟人物，将虚拟形象的骨骼结构和Mecanim预定义的骨骼结构匹配起来，每个动作创建一个Animator组件，用于构建挥舞手臂的、旋转、打节拍的动画效果，每个动作通过controller指令进行触发，对于每个动作效果需要设置相应的参数控制动作幅度；

S4、将分级句库与对应的3D虚拟成像进行整合，3D虚拟形象动作有两种形式，一种为手臂上下浮动一种为两手开合，通过获取音频基频值中最高点和最低点，设置3D虚拟人物中手臂挥舞最高点或两手张开最大程度的数值为音频中基频值中最高点；设置3D虚拟人物中手臂挥舞最低点或两手闭合最小程度的数值为音频中基频值中最低点，在音频基频值中最高点和最低点中的点，3D虚拟人物幅度为100％*(当前频率–最小频率)/(最大频率–最小频率)＝幅度％(幅度为0～100之间)；

在正式的动画播放时，用户可以自主选择两种形式的动画，或者系统随机展示其中一种；实时获取当前时间，3D虚拟形象根据时间和计算出来的动作幅度，进行动画展示；当遇到undefined值时，动画不进行变化，直到获取到一个有效频率参数；

S5、以语音信号为单位播放，通过频段分离器，分离出双声道0Hz～300Hz的低频段语音，包含了决定音高的基频(F₀)，基频决定了语调起伏的音高变化，基于每个句子的基频曲线，该方法设置了3D形象的动画极限值和运动轨迹，以指导用户随句子语调起伏做适当身体律动；

S6、将分级句库中的单词根据音调高低分为高低音词汇显示词级别；用户聆听低通过滤音频材料的同时，观看身体动作的3D虚拟形象，用户在此步骤需要模仿低通过滤语音，并参照3D虚拟形象做身体运动，3D虚拟形象将以句子韵律作为旋律，卡通人物配合句子的重音、节奏、语调做适当身体律动，如跟随着句子音高变化和语调起伏变化手臂上下浮动或两手开合等身体律动，在这一步，用户一边模仿低通过滤语音，一边做身体律动；

S7、AI测评，通过AI测评模块对用户发音进行测评，测评模块包括语调、动作及其组合的显示模块；对语调、动作及其组合内容进行标记形成测评模块；对标记结果进行打分模块；结果输出模块；测评结果及建议模块。

优选的，包括数据获取模块，用于获取多个用户的语音数据和运动数据；所述语音数据由语音获取装置采集，包括从用户的视角所观看到的3D虚拟形象；所述运动数据由运动获取装置采集，包括用户运动所产生的矢量数据；

场景生成模块，用于响应于用户的动作形式从多个预设培训场景中选择并生成培训场景；

角色匹配模块，用于根据用户的语音数据确定用户在所述培训场景中针对场景内容的所视内容，根据所述所视内容从所述培训场景中匹配用户对应的手部动作；

动作生成模块，用于根据用户的运动数据在所述培训场景中生成所述角色对应的动作；

全景整合模块，用于将所述多个用户的角色和动作进行整合，并以全景模式进行输出；

所述以全景模式进行输出包括：进行全景整合时，根据用户的分散程度，来决定全景模式的长宽比；或者在进行全景整合时，从场景中提取包含用户的视频，并将所述包含用户的视频进行拼接；

反馈模块，用于判断所述动作与参考动作之间的差异是否在预设范围内，并当不在预设范围内时，生成反馈信息；所述反馈信息包括通过振动方式提醒用户当前的操作不当，具体为：使用不在预设范围内的动作对应部位的贴片提醒运动不当。

优选的，所述数据获取模块包括：

标识单元，用于为每一用户生成对应的用户标识号；

匹配单元，用于为所述用户标识号匹配为对应的眼动获取装置和运动获取装置；

获取单元，用于通过所述眼动获取装置和所述运动获取装置生成每一用户的眼动数据和运动数据。

优选的，所述数据获取模块，还用于获取多个用户的音频数据；所述全景整合模块，还用于将所述音频数据与所述用户对应的角色进行整合；所述互动式培训系统，还包括：

音频播放模块，用于接收对所述3D虚拟形象或所述用户的手部动作，并播放对应的音频数据。

优选的，所述数据获取模块，还用于获取多个用户的音频数据；

音频调节模块，用于将所述多个用户的角色、动作、和音频数据进行整合，并根据在全景模式中角色的远近进行声音大小的调节并存储数据。

优选的，所述存储数据通过AI测评进行检测评分。

与现有技术相比，本发明的有益效果是：

(1)、本发明公开一种全新的英语语音学习方法，结合了语调听觉法和3D虚拟形象、AI语音识别与评测，操作便捷，能够有效提高英语学习者语音水平，弥补课堂上语音教学的不足、教师语音条件参差的不足，解决课堂教学中时效性的问题，更重要的是，这样一个能在移动智能终端上操作的方法是促进教育公平、实现教育共同均衡发展的积极创新。

附图说明

下面结合附图和实施例对本发明进一步地说明：

图1为低通过滤音频语谱图；

图2为未低通过滤音频语谱图；

图3陈述句图谱示意图；

图4为一般疑问句图谱示意图；

图5为特殊疑问句图谱示意图；

图6为祈使句图谱示意图；

图7为否定陈述句图谱示意图；

图8为反意疑问句图谱示意图；

图9为选择疑问句图谱示意图；

图10为感叹句图谱示意图。

具体实施方式

本发明提供一种技术方案：基于AI互动的3D虚拟形象听觉言语训练方法，其特征在于：包括以下步骤：

S1、录入语音信号，将原始语音进行低通过滤处理，处理为低频率的语音型态，即保留300Hz以下低音频，低频率音频保留了话语的韵律特征，包括重音、节奏、响度和语调等。这样，能够识别字词的高频率被移除，而保留了话语韵律的低频率语音信号能够有效地降低学习者语义和句法加工的处理负荷，并为其他认知加工过程释放更多注意力资源。

在播放音频时，实时获取当前时间，3D动画根据时间和计算出来的动作幅度，进行动画展示。

当遇到undefined值时，动画不进行变化，直到获取到一个有效频率参数。

如下表所示：

优选的，所述数据获取模块包括：

标识单元，用于为每一用户生成对应的用户标识号；

优选的，所述存储数据通过AI测评进行检测评分。

本发明培训方法是基于语调听觉法对用户进行培训，语调听觉法是以听觉为本位的方法，通过双耳聆听来发展口语。语调听觉法以大脑的神经可塑性作为根基，透过感觉、听觉、视觉的感觉统合训练，使学习者最大化地发展出大脑神经路径，扩展其学习潜能。多重感觉的结合将学习者大脑听觉皮层和相关前庭知觉系统、运动区域(尤其是说话)连结在一起，也就是将大脑、身体、发音器官连结起来，把听觉训练和身体动作刺激(前庭)、口语(说话)练习相结合，重组和强化大脑神经通路连接以提高学习效果，如图1所示。这一方法将语音感知和口语产出视为一种多感官的、全身的体验，让前庭系统、身体运动、发声同步发展，以期最大化利用神经可塑性来重组大脑的神经通路，提高听觉和口语水平。语调听觉法首先在临床实践中取得了较好的成效，改善了听力损失的孩童和成人的听觉和说话技巧；同时，能够显著提高外语学习者的外语水平。在法语、汉语、英语等作为外语学习者的研究发现，语调听觉法有效提高了法语音素、汉语声调、英语口语综合技能、英语听力、发音校正，以及音韵工作记忆。

语调听觉法之所能在言语治疗和外语学习上取得成效，关键在于强调了韵律和说话型态，因为两者是聆听技巧和说话技巧的基础。通过低频率的语音型态，前庭和耳蜗被韵律和语调的变化所刺激，而这两个器官对话语的韵律特别敏感。这是因为听觉器官的发育是从子宫内低频声音(说话韵律)的感受开始的，婴儿开始发展出本体感觉记忆，为以后听觉记忆发展提供了基础，也就是从“感觉”到，发展到“听”到。语音中，前庭和听觉系统对频率为300Hz以下的韵律信号较敏感。因此，将语音信号通过低通滤波器，保留300Hz以下低音频，即保留了话语的韵律特征，包括重音、节奏、响度和语调等。这样，能够识别字词的高频率被移除，而保留了话语韵律的低频率语音信号能够有效地降低学习者语义和句法加工的处理负荷，并为其他认知加工过程释放更多注意力资源，前庭系统的主要功能是感知身体动作，以及重力感知。在外围系统中，前庭是内耳的一部分，连结耳蜗，听觉从前庭知觉发展而来，二者相辅相成，同时感觉并听到语音。前庭系统的重要性在于它是所有感觉的统合和组织系统，产生空间知觉。所有感觉信息的输入都需要经由身体来统合，这就是为什么要训练和刺激前庭知觉的原因。只有当前庭知觉和身体运动统一并协调地搭配发声时，神经元因神经可塑性而最大化地发展出新的突触连接其他神经元，语音信息经本体感觉和前庭末端器官接受，以促进语言发展和学习。

综上，语调听觉法能够有效促进英语学习者语言学习，通过身体(前庭系统)和耳朵(听觉系统)提供感觉信息给大脑，作为大脑信息处理和口语表达的基础，经前庭训练和带着发声的身体动作可以积极改善学习者的运动力、空间定向和记忆广度，以达到本体感觉、听觉和说话的协调发展。简而言之，语调听觉法让英语学习者在聆听语音的同时，借着身体动作的帮助，有效地实现口语语音控制。该方法使用的听力材料为英语短句，涵盖八种句型，分别是肯定陈述句、否定陈述句、一般疑问句、特殊疑问句、选择疑问句、反意疑问句、祈使句和感叹句。根据Gimson’s Pronunciation of English(《吉姆森英语语音教程》)，一般情况下陈述句、特殊疑问句、祈使句、感叹句句末多用降调；一般疑问句句末用升调；选择疑问句第一种选择用升调，后一选择用降调；反意疑问句根据所表达的意思选择降调(示意说话者与听者的意见一致)或升调(示意不强迫对方同意自己的观点，表达简单的询问)。这八种句型涵盖了不同的英语语调模式，每个句型有10个短句，共80个短句。所有句子中的词汇，都从《义务教育英语课程标准2022年版》要求的2000个词中选出。语音材料由一男、一女两位英语作为母语的发音人录制，自然发音，并使用Adobe Audition CC(版本11.1.0)以44.1kHz采样率，在32位立体声录制，均保存为*.wav文件。每个短句录音时长约为2000毫秒，约包含5个音节，语速约为每分钟140词。每一个句子由两位发音人分别朗读并录制，录音共计160个语音样本。

低通过滤同样使用Adobe Audition CC(版本11.1.0)完成。通过频段分离器，分离出双声道0Hz～300Hz的低频段语音。300Hz以下低频段语音包含了决定音高的基频(F₀)，正是基频决定了语调起伏的音高变化。基于每个句子的基频曲线，该方法设置了3D形象的动画极限值和运动轨迹，以指导用户随句子语调起伏做适当身体律动。

AI语音测评技术是通过语音输入到特征提取，根据储备的语音库和文本库通过机器学习算法构建的声学模型和语言模型进行语音识别，识别后，进行内容分析，发音分析和韵律分析，根据人工标注的数据库通过机器学习算法训练出来的测评模型进行机器评分，有效的降低了人工测评的成本。

AI技术的引用，解决了多种真人教师无法解决的问题，从而提高了授课效率。

具体包括：

a)AI对于低频段语音的处理更加准确，教师是凭借自己的经验，根据教师水平，会有教学差异，而AI是根据音频数据做出的准确反映，即标准化又降低了人为误差。

b)AI老师可以解决时效性的问题，随时随地可以学习。

c)AI老师可以同时进行一对一训练，对于口语教学来说，真人老师无法解决多人教学的问题。

d)AI老师可以及时给出用户语音测评结果和反馈。依据《中国英语能力等级量表》中口头表达能力的要求和《英语口语能力等级考试计算机测评规范》(T/CIIA 009-2021)团体标准制定评分标准。系统采分点包括词汇音准、重读音节、词汇重读、弱读、连读、省略、语调。测评结果包含音素得分、词汇得分、句子总分、语篇总分、流利度分、完整度分、韵律度分。评测满分为100分，80分以上为优秀，60分以上合格，60分以下视为不合格。AI测评标准统一，且可以识别出音素的准确性，重音的准确性和韵律的准确性。这些都需要老师有足够高的水平才可以评价出来。且机器可以达到及时反馈，教师可能需要听多遍才可以找出所有问题。

AI老师可以给出每个学生的测评结果，前后的语音成绩变化曲线，根据每次的测评结果，根据低分测评结果，可以让学生针对重点句子/音素进行针对性训练。

需要说明的是，对本发明所述互动式培训方法而言，本领域普通技术人员可以理解实现本发明实施例中的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在服务器的存储器中，并被该服务器内的至少一个处理器执行，在执行过程中可包括如所述信息分享方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

图1和图2分别显示句子“Can I have some soup？”300Hz低通过滤音频语谱图和未低通过滤音频语谱图，由于低通过滤后的声音在带宽上受到限制，为了保证相同的音强，所有低通过滤后的语音信号振幅标准化至100％，所有未低通过滤的语音信号振幅标准化至70％。每一个句子都有双声道低通过滤和未低通过滤的两个音频材料，共计320个音频材料。

根据两列参数生成数据表格，x轴为时间，y轴为频率，其中，undefined数据即为在该时间点，没有检测到频率，其他数据根据时间和频率构建出一个点状图，可以看到是一个具有起伏特性的频率图。

如图3～10所示

根据陈述句的特点，句中存在升调，句尾存在降调。以上述的陈述句例子It’scold outside.it特指天气，cold作为句子的关键词在句子中重读并上扬语调对应的时间区间为图示中x坐标56-110的波形图；而句末呈现降调对应的时间区间为图示中x坐标118-152的波形图。

根据一般疑问句的特点，疑问词存在升调，句尾存在升调。上述一般疑问句中，CanI have some soup？Can I疑问词对应的时间区间为图示中x坐标0-32的波形图，soup句子关键词重读并上扬语调，也就让句末呈现上升语调对应的时间区间为图示中x坐标115-132的波形图。

根据特殊疑问句的特点，疑问词和关键词存在升调，句尾存在降调。上述特殊疑问句例子中，What time is it？特殊疑问词what对应的时间区间为图示中x坐标0-16的波形图，和关键词time重读并上扬语调对应的时间区间为图示中x坐标38-70的波形图，而句末呈现下降语调对应的时间区间为图示中x坐标71-118的波形图。

根据祈使句的特点，祈使动词存在重读，整个句子呈现降调。上述祈使句Havesome lunch,Mike.动词have为关键词重读对应的时间区间为图示中x坐标0-18的波形图，整个句子呈现下降的语调对应的时间区间为图示中x坐标33-116的波形图。

根据每种句型存在升降调的特征和根据音频提取出的基频值，为了更好的帮助学生通过肢体动作配合进行语调训练，系统设置了3D形象的动画来呈现每个语音句子的升降调变化，以3D形象展示动作动画的形式，给学生提供指导，帮助学生进行模仿，从而更好的完成本训练法。

根据否定陈述句的特点，否定词和句中关键词存在重读及升调。以上述的否定陈述句例子You didn't come to school。否定词didn't作为句子需要强调的意义，重读并上扬语调，对应的时间区间为图示中x坐标175-419的波形图。关键词school同样重读并用上扬的语调朗读，对应的时间区间为图示中x坐标1079-1387的波形图。

根据反意疑问句的特点，主语和关键词存在重度和语调上扬。以上述反意疑问句例子Jane has never been to America,has she？主语Jane重读并语调上扬，对应的时间区间为图示中x坐标0-0.287的波形图，和关键词America重读并语调上扬，对应的时间区间为图示中x坐标1.06-2的波形图，句末的反意疑问部分用上升的语调来询问对方的看法，确认自己的判断。

根据选择疑问句的特点，疑问词和关键词存在语调上扬。以上述选择疑问句例子Can you sing or dance？疑问词Can you语调上扬，对应的时间区间为图示中x坐标5-509的波形图，和sing语调上扬，对应的时间区间为图示中x坐标707-960的波形图，选择疑问词or语调下降并弱读，对应的时间区间为图示中x坐标135-165的波形图，选择询问的另一部分dance再次重读、上扬语调，对应的时间区间为图示中x坐标183-236的波形图。

根据感叹句的特点，感叹词和关键词存在重读和语气上扬。以上述感叹句例子What an interesting film！感叹词what重读并上扬语调，对应的时间区间为图示中x坐标0-454的波形图，和句子关键词interesting film重读并上扬语调，对应的时间区间为图示中x坐标744-1773的波形图。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所述技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于AI互动的3D虚拟形象听觉言语训练方法，其特征在于：包括以下步骤：

S1、录入语音信号，将原始语音进行低通过滤处理，处理为低频率的语音型态，即保留300Hz以下低音频，低频率音频保留了话语的韵律特征，包括重音、节奏、响度和语调；这样，能够识别字词的高频率被移除，而保留了话语韵律的低频率语音信号能够有效地降低学习者语义和句法加工的处理负荷，并为其他认知加工过程释放更多注意力资源；

S2、将处理过的录入语音信号分为八种语音句子类型，分别是肯定陈述句、否定陈述句、一般疑问句、特殊疑问句、选择疑问句、反意疑问句、祈使句和感叹句，获取分级句库，持续对用户进行不低于30s培训；用于培训的句子音频经过低通过滤处理，突出了言语中的韵律、语调、音调、紧张度、停顿、持续时间、响度等言语参数，能够增强用户对于语言信号的本体感知；用户在此培训中，透过感觉、听觉、视觉的感觉统合训练，使学习者最大化地发展出大脑神经路径，扩展其学习潜能，具体来说，用户根据语音信号的韵律配合身体运动，以改善学习者的运动力、空间定向和记忆广度，达到本体感觉、听觉和说话的协调发展；

在正式的动画播放时，用户可以自主选择两种形式的动画，或者系统随机展示其中一种；实时获取当前时间，3D虚拟成像根据时间和计算出来的动作幅度，进行动画展示；当遇到undefined值时，动画不进行变化，直到获取到一个有效频率参数；

2.根据权利要求1所述的基于AI互动的3D虚拟形象听觉言语训练方法，其特征在于：包括数据获取模块，用于获取多个用户的语音数据和运动数据；所述语音数据由语音获取装置采集，包括从用户的视角所观看到的3D虚拟形象；所述运动数据由运动获取装置采集，包括用户运动所产生的矢量数据；

3.根据权利要求2所述的基于AI互动的3D虚拟形象听觉言语训练方法，其特征在于，所述数据获取模块包括：

标识单元，用于为每一用户生成对应的用户标识号；

4.根据权利要求3所述的基于AI互动的3D虚拟形象听觉言语训练方法，其特征在于，所述数据获取模块，还用于获取多个用户的音频数据；所述全景整合模块，还用于将所述音频数据与所述用户对应的角色进行整合；所述互动式培训系统，还包括：

5.根据权利要求3或4所述的互动式培训系统，其特征在于，

所述数据获取模块，还用于获取多个用户的音频数据；

6.根据权利要求5所述的互动式培训系统，其特征在于，所述存储数据通过AI测评进行检测评分。