CN107111961A

CN107111961A - 用于在线和远程言语障碍治疗的方法和系统

Info

Publication number: CN107111961A
Application number: CN201580071818.5A
Authority: CN
Inventors: M·罗特; L·罗特席尔德; S·莱纳
Original assignee: Nova Converse LLC
Current assignee: Nova Converse LLC
Priority date: 2014-12-31
Filing date: 2015-12-22
Publication date: 2017-08-29
Also published as: US20160183868A1; WO2016109491A1; AU2015374409A1; US20160183867A1; CN107112029A; WO2016109334A1; US20160189566A1; US20190150826A1; AU2015374230A1; US20160189565A1; US10188341B2; EP3241215A4; EP3241206A1; EP3241215A1; EP3241206A4; US11517254B2

Abstract

本发明呈现一种用于实现远程言语障碍治疗的方法和装置。该方法包括：使用将在当前治疗会话期间执行的至少一项练习来设置第一装置，其中每项练习包含至少一个难度参数；接收第一装置的用户的发声；处理所接收的发声以评估与至少一个难度参数相应的发声的正确执行；基于分析生成反馈；以及向第一装置输出生成的反馈。

Description

用于在线和远程言语障碍治疗的方法和系统

相关申请的交叉引用

此申请要求于2014年12月31日提交的美国临时申请第62/098,355号的权益，其内容以引用的方式并入本文。

技术领域

本公开大体上涉及言语教学解决方案领域，且更具体地，涉及用于远程地训练具有言语障碍的人员流畅地说话的系统和方法。

背景技术

言语障碍是世界上最普遍的障碍之一。一般来说，言语障碍分为流畅性障碍、发音障碍、运动性言语障碍和言语声音障碍。作为一个实例，口吃被归类为言语节奏方面的流畅性障碍，在这种情况下，一个人明确知道要说什么，但是无法根据其意图进行交流或说话。

在相关领域中公开了针对言语障碍的许多临床治疗技术。用于治疗言语障碍的传统技术，尤其是抗口吃技术通常基于调节呼吸并且控制语速。为此，言语治疗师训练其患者来提高他们的流畅性。此类常规技术短期来看是有效的，因为言语障碍主要是由于言语产生肌肉协调性差造成的。

更详细来说，一种常见的口吃治疗技术是流畅性塑造，其中治疗师通过改变各种运动技能来训练一个人(口吃患者)以提高其言语流畅性。此类技能包含控制呼吸的能力；在每句话开始时平缓地增加声音音量和喉部振动从而更慢地且以延长的原音说话的能力；实现连续发声的能力；以及减小发音压力的能力。

治疗师在诊所教导言语运动技能，同时随着此人学着执行运动技能，治疗师对行为进行建模并且提供言语反馈。随着此人言语运动控制的发展，其语速及言语的韵律加快，直到听起来正常为止。在治疗的最终阶段，当此人在诊所中言语流利且听起来正常时，会训练其在日常生活活动中实践所获得的言语运动技能。

在流畅性塑造治疗成功时，口吃会明显改善或甚至消失。然而，此治疗需要连续训练和实践，以便维持有效的言语流畅性。因此，实践流畅性塑造治疗的传统技术对于患有口吃的人效果不大。这主要是因为并非所有人都能够在诊所里发展其目标言语运动技能，且即便这种技能得到发展，也不容易转移到日常对话中。换句话说，患者可以在诊所中学会流畅地讲话，但是出了诊所之后却有可能恢复口吃。

因此，连续实践言语运动技能是流畅性塑造治疗成功的关键。因此，对治疗师和频繁就诊的依赖性会降低流畅性塑造治疗的成功率。举例来说，在治疗会话期间等待数日或数周的患者可能比更经常参与治疗的患者更容易出现口吃。在治疗会话期间缺乏定期实践会进一步降低治疗的效果。

在相关技术中，设计了各种电子装置来改进抗口吃治疗(包括流畅性塑造治疗)的结果。此类装置主要用于减少与口吃相关联的恐惧和焦虑、允许即时言语流畅性、通过更改声音感知来更改言语肌肉活动(肌肉运动听力装置)，以及发展对言语运动技能的意识和控制(生物反馈装置)。

用于减少口吃的现有装置的主要缺点在于，此类装置无法远程地训练患者，具体来说，不能远程地训练流畅性塑造治疗所必需的言语运动技能。举例来说，一种用于减少口吃的电子装置是显示各块肌肉活动的肌电图(EMG)装置。在诊所外使用EMG装置不会向治疗师提供患者表现如何的实时指示。因此，治疗师无法在患者实践时提供指导或修改治疗会话。

用于在诊所外进行治疗的传统解决方案的功能性非常有限。此类解决方案通常基于服务器，服务器基于从一个人的远程装置接收的语音数据来计算言语治疗评估。与指定临床适度性相应地执行言语治疗评估。随后，向患者建议言语治疗技术。用于在诊所外进行治疗的传统解决方案提供了用于建议治疗的基本手段。然而，现有解决方案在仅通过分析言语特征来评估最佳治疗方法方面面临着挑战，因为没有此类障碍的已知症状。

此外，传统解决方案无法高效地实施流畅性塑造治疗的各个流程。举例来说，此类解决方案无法提供密切监视实践言语运动技能的患者并向患者提供实时反馈以及监督治疗的任何手段。作为另一实例，难以执行其中一种练习的患者可能会感到沮丧，进而增加与患者口吃相关联的恐惧和焦虑。这会产生与所需结果相反的效果。

因此，有利的是提供一种用于远程言语障碍治疗的高效解决方案。

发明内容

下面是对本公开的若干示例性实施方案的概述。提供此概述是为了便于读者对这些实施例有一个基本的理解，而并非是完全界定本公开的广度。此概述并非是对所有设想的实施方案的宽泛综述，既不是要识别所有方面的关键或决定性要素，也不是要勾画任何或所有实施方案的范围。其唯一目的是以简化形式呈现一个或多个实施方案的一些概念，作为稍后所呈现的更详细描述的序言。为了方便起见，本文使用的术语“一些实施方案”在本文可用于指本公开的单个实施方案或多个实施方案。

本文公开的某些实施方案包括一种用于实现远程言语障碍治疗的方法。该方法包括：使用将在当前治疗会话期间执行的至少一项练习来设置第一装置，其中每项练习包含至少一个难度参数；接收第一装置的用户的发声；处理所接收的发声以评估与至少一个难度参数相应的发声的正确执行；基于分析生成反馈；以及向第一装置输出生成的反馈。

本文公开的某些实施方案还包括用于实现远程言语障碍治疗的装置。该装置包括：接口，用于接收第一装置的用户的发声；处理单元；以及存储器，其耦合到处理单元，存储器包含指令，该指令在由处理单元执行时将装置配置为：使用将在当前治疗会话期间执行的至少一项练习来设置第一装置，其中每项练习包含至少一个难度参数；接收第一装置的用户的发声；处理所接收的发声以评估与至少一个难度参数相应的发声的正确执行；生成与所述分析相应的反馈；以及向第一装置输出生成的反馈。

本文公开的某些实施方案还包括用于监视用户的言语的方法。该方法包括：由用户装置在用户对话期间捕获发声；分析所述发声以检测至少流畅性塑造错误；在检测到流畅性塑造错误之后，生成用于改进用户在对话期间的言语的指导性通知。

本文公开的某些实施方案还包括用于监视用户的言语的装置，包括：接口，用于接收第一装置的用户的发声；处理单元；以及存储器，其耦合到处理单元，存储器包含指令，该指令在由处理单元执行时将装置配置为：使用在当前治疗会话期间执行的至少一项练习来设置第一装置，其中每项练习包含至少一个难度参数；由用户装置在用户对话期间捕获发声；分析所述发声以检测至少流畅性塑造错误；在检测到流畅性塑造错误时，生成用于改进用户在对话期间的言语的指导性通知。

附图说明

在说明书结尾部分的权利要求书中具体指出且明确要求保护了本文所公开的主题。通过以下结合附图进行的详细描述，所公开的实施方案的前述和其它目的、特征和优点将显而易见。

图1是示出用于描述各种公开的实施方案的远程言语治疗系统的示意图；

图2是用于设置言语治疗练习的目标模板的各种参数的图形接口；

图3是示出各种言语治疗练习的屏幕截图；

图4A和图4B是示出目标模板和由患者产生的语音声音的视觉表示的屏幕截图；

图5是示出呼吸指示符的屏幕截图；

图6是示出语速监视器的屏幕截图；

图7是示出根据实施方案的处理语音信号以用于相对于患者的表现提供即时视觉反馈的示意图；

图8是用于描述过软错误的检测的曲线图；

图9是示出根据实施方案的用于实现远程言语障碍治疗的方法的流程图。

具体实施方式

重要的是要注意，本文公开的实施方案仅仅是本文的创新技术的许多有利应用的实例。一般来说，本申请的说明书中所作的陈述不一定限制各种要求保护的实施方案中的任一个。另外，一些陈述可以适用于一些发明性特征，但不适用于其它发明性特征。一般来说，除非另有指示，否则单数元件可以是复数形式，反之亦然，而无损一般性。在附图中，相同附图标记在若干视图中表示相同部分。

图1示出了用于描述各种公开的实施方案的远程言语治疗系统100的示例性、非限制性示意图。系统100包括网络110、多个用户装置120-1至120-n(在下文中，仅出于简单起见，单独称为一个用户装置120，统称为这些用户装置120)、服务器130和数据库140。

网络110可以是因特网、万维网(WWW)、局域网(LAN)、广域网(WAN)和配置成在网络110的元件之间进行通信的其它网络。每个用户装置120可以是个人计算机(PC)、个人数字助理(PDA)、移动电话、智能电话、平板计算机、可穿戴计算机装置、游戏控制台等。

在非限制性实例中，用户装置120-1由个人(例如，口吃患者)使用，且将在下文称为“患者装置”120-1，而用户装置120-n由言语治疗师使用，且在下文称为“治疗师装置”120-n。应注意，一个或多个患者装置可以与单个治疗师装置通信，且多个治疗师装置可以与一个或多个患者装置通信。出于论述简明起见，在图1中仅示出一个患者装置和一个治疗师装置。应注意，患者装置可以由可能患有或可能未患有言语障碍的任何人操作。

装置120中的每一个配置成与服务器130通信。根据所公开的实施方案，服务器130配置成监视、执行并且控制患者装置120-1与治疗师装置120-n之间的言语治疗会话。可以通过，例如，网络接口、安装在装置120上的应用程序、在各个装置120上执行的脚本等来实现在装置120与服务器130之间的接口连接。在实施方案中，将每个用户装置120安装有代理125，代理125配置成执行所公开的技术。在某些配置中，代理125可以操作独立程序且实现为独立程序，和/或可以与在用户装置120中执行的其它程序或应用程序通信并可以与该其它程序或者应用程序集成。独立程序的实例可以包含网络应用程序、移动应用程序等。

在实施方案中，可以在治疗师装置120-n与患者装置120-1之间建立音频/视频通信通道。这使得，例如，治疗师能够观看并且监听患者，且向患者展示执行练习的正确方式。音频/视频通信通道可以是装置120-1与120-n之间或通过服务器130的对等连接。为此，在装置120-1和120-n之间建立音频/视频通道以允许患者与治疗师之间进行方向通信。在实施方案中，可以在治疗会话之前或期间建立音频/视频通道。在一个实施方案中，经由HTTP建立通道。在实施方案中，每个各装置120的代理125配置成经由所建立的通道将视频流从一个装置流式传输到另一个装置。

应注意，使用装置120-1的患者可以在治疗师未通过装置120-n连接的情况下进行实践。部分受服务器130控制的代理125可以配置成对患者的表现提供与预设目标规范相应的即时反馈。

具体来说，如将在下文更详细地论述，代理125配置成执行流畅性塑造治疗。如上文所述，此类治疗需要患者准确并且具体地执行。为此，代理125配置成：从该患者装置120-1捕获声音样本；分析声音样本；向患者装置120-1且优选还向治疗师装置120-n提供即时视觉反馈；以及检查患者表现是否满足预先限定的目标模板。

每个代理125确保精确地对产生的言语进行定时，使其持续预定时间量，且是在进行大量控制的情况下以非常特定的方式产生。由代理125再现且在相应的用户装置120上显示的视觉反馈确保患者反馈是仅基于患者的表现。客观的反馈使得患者能够以所需的精度说话。在实施方案中，通过用于限定延长音节或单词的时间量的视觉提示来实现客观的反馈。在实施方案中，可以使用色彩来图示发声的各种元素。这些元素帮助患者专注于发出更准确且因此更正确的言语。

根据一些实施方案，对患者的治疗构造为疗程。在疗程期间，患者使用系统100来学习用于改进言语流畅性的技术。具体来说，服务器130配置成验证希望发起治疗会话的使用患者装置120-1的患者。服务器130从数据库140检索将在会话期间执行的练习，且使用与练习相关的信息来设定代理125-1(可在患者装置120-1中操作)。如果治疗师也是会话的一部分，那么服务器130配置成还向代理125-n(可在治疗师装置120-n中操作)发送此信息。在此情况下，服务器130进一步配置成建立装置120-1和120-n之间的对等通道(例如，经由HTTP)。

代理125-1配置成相对于目标模板来分析用户的表现。目标模板预先限定用于执行练习的预期发声的规范。代理125-1配置成再现与用户的表现、目标模板和比较的结果相应的视觉反馈。可以由代理125-n再现所述视觉反馈以在治疗师装置120-n(如果连接)上显示。在此实施方案中，由代理125-1执行处理，代理125-1向代理125-n传送处理结果。代理125-n再现与处理结果相应的视觉反馈。在实施方案中，在每个会话结束时生成详述患者表现的进度报告。

疗程的主要目的是使过程简易化并且提高学习新的说话方式的效果，进而使言语模式更流畅。另外，服务器130配置成根据患者的进度进行实时调整。服务器130进一步配置成基于进度报告确定进度指示符，例如(但不限于)患者的当前进度水平、之前的成功、困难和错误。基于所确定的进度指示符，服务器130配置成针对每个实践会话生成个体化的刺激，进而使每个用户的经历个性化。因此，应了解，结构化、累进和交互性疗程将允许患者在不同的自发性说话情形中以经调节语速发出流畅的言语。

现在将更详细地论述各种实施方案。每个代理125-1可以实施反馈生成器(在图1中未示出)。反馈生成器提供与口吃区域中的听觉输入相应的视觉输出，且使用(例如)远程治疗构架来改进言语流畅性，该远程治疗构架整合了患者装置120-1与治疗师装置120-n之间的视频聊天。反馈生成器指示音频聊天/视频聊天环境中的言语流畅性。在与一个或多个患者在线聊天期间，代理125-1配置成向每个患者生成与其对各种流畅性塑造技术的使用或表现相关的视觉反馈。向患者的每一个实时地提供此类视觉反馈。在实施方案中，每个患者可以实时地了解患者彼此的数据(例如，所生成的视觉反馈)。在另一实施方案中，每个患者仅可以了解与其自身的表现相关的视觉信息。同样地，可对聊天中的一个个体参与者进行完全集中式控制。在实施方案中，可以在治疗师与患者之间(包括在一个治疗师与若干客户之间，且在客户自身之间(在一对一会话中或群组会话中))的聊天中使用反馈生成器。

在另一实施方案中，代理125-1配置成生成在患者装置120-1上显示的呼吸指示符。呼吸指示符一旦在患者装置120-1上显示便会提供预定时间段内的吸入或呼出定时的视觉指示。在实践流畅性塑造技术时，对呼吸的使用的识别和分析有助于改进言语流畅性。

在另一实施方案中，每个代理125(例如，代理125-1)配置成对流畅性塑造进行分析且生成其相应的进度报告。该分析是对与流畅性塑造技术的已知模板进行比较的刺激生成的分析，在实践会话期间(分析刺激)和在实践会话结束时(总计地分析所有刺激)均进行分析。应注意，使用言语信号的外包络(表面量度)对言语技术进行的实时高效分析(基于模板)使患者对其言语特性有了更深的理解。可以将生成的报告保存在通信地连接到服务器130的数据库140中。

在另一实施方案中，代理125(例如，代理125-1)配置成跟踪患者活动并且向服务器130报告此类活动。可以相对于由患者实践的流畅性塑造技术来跟踪所述活动，且该活动可以包含基于所跟踪的活动而生成的统计数据。此类数据包含(但不限于)每天、每周和/或每月在实践上花费的时间；错误统计；呼吸统计；关于与其它人进行的实践聊天的统计；累积实现的完美模式产物；以及所述数据。生成的统计数据保存在数据库140中。

在实施方案中，跟踪所有数据使得能够将针对每个患者的治疗疗程个性化、在患者没有进步的情况下生成警告、根据治疗疗程进行修改，和/或推荐与患者水平适当的疗程或训练会话。应了解，通过跟踪患者活动，鼓励患者继续其实践并实现更高的得分/排名。

使用装置120-n的治疗师可以针对每个患者设定言语治疗疗程。此疗程是由将要实践的多个训练会话组成。每个此类会话均由用于实践和改进患者言语运动技能的一组练习组成。在实施方案中，该组练习设计成实践流畅性塑造技术，例如，语速、发声、缓和开始以及呼吸。对于每项练习，治疗师可以限定经由(例如)患者装置120向患者视觉呈现的目标规范或模板。可以将对疗程的设定保存在数据库140中，并且可以由治疗师在任何时间进行修改。

在实施方案中，治疗师访问服务器130时，可以经由装置120-n向治疗师提供用于设定疗程(即，训练会话及其练习)的接口。图2中描绘了作为治疗计划(或疗程)的一部分的用于设定练习模板的各种参数的示例性、非限制性图形接口200。进度条210可以与经由参数指示符示出的参数相关联。在实施方案中，可以通过(但不限于)不同大小、不同形状、不同色彩等来区分参数。

为了开始治疗会话，患者使用装置120-1登录到服务器130。服务器130在验证患者之后从数据库140检索将要实践的当前治疗会话。通过接口(例如，网页)在患者装置120-1上显示治疗会话，从而展示此人需要在治疗会话期间实践的各种练习。

图3示出了描绘患者可以在治疗会话期间实践的各种练习310的示例性屏幕截图300。练习310的实例包含(但不限于)流畅性塑造练习，例如呼吸、缓和的语音开始、高语音、语音转变、音节速率(例如，每个音节两秒、每个音节一秒等)、受控言语、速率可变言语等。在屏幕截图300中，用户已经选择每个音节两秒的练习。

在选择练习310时，服务器130配置成再现与选定的练习和为患者装置120-1的用户设定的水平相应的视觉目标模板320。在实施方案中，所显示的视觉目标模板320基于患者的发声而定时。在示例性实施方案中，所显示的视觉目标模板显示为阴影。举例来说，如图3中所示，目标模板320是表示目标语音参数的“阴影图”，且进一步显示了发声的开始和结束目标。患者的发声被描绘为覆盖阴影图320上方的图330。还显示了目标模板的边界325。如将在下文论述，动态地确定和显示与发声相应的边界325。边界325包含发声的开始时间325-1、结束时间325-2和峰325-3。

应了解，将目标模板显示为例如阴影图使得患者能够发出试图匹配目标模板的语音，进而通过允许患者看到目标表现与当前表现之间的差异来提高试图匹配目标模板的练习的效率。

对产生的语音进行捕获、采样、分析且与目标模板进行比较。如果该比较导致错误(例如，如果未恰当地捕获患者发出的声音、如果产生的语音在阈值以下等)，那么在出现错误的位置处向患者呈现错误指示；否则，向患者显示积极反馈。在下文论述用于捕获、采样、分析所发出的语音且将所发出的语音与目标模板进行比较的各种实施方案。

根据一个实施方案，可以在视觉上展示所产生的语音以提供关于患者表现的即时视觉反馈。在实施方案中，视觉展示可以包含通过在患者语音的“软度”与“硬度”之间进行区分的两种不同色彩来实现的语音着色。视觉展示可以包含色彩设计、图案、图像等中的任何色彩。这允许患者更好地理解如何向声带加压。在示例性图4A和图4B中展示了语音着色和与目标模板的比较。应了解，即时视觉反馈，例如，通过对语音进行着色，实现了自我治疗，并且进一步实现了对言语治疗的不同方面进行解释。如上文所述，流畅性塑造治疗的最佳成功需要适当反馈。

图4A和图4B分别示出了图示目标模板410和由患者发出的语音的视觉表示420(语音着色)的示例性屏幕截图400A和400B。视觉表示420包含分别与患者发出轻柔声音和高声音相关的两个不同着色的部分421和422。在图4A的实例中，患者表现良好，且因此显示了积极指示430。在图4B的实例中，患者表现不良(即，所获取的语音未充分匹配目标模板)，且因此显示了错误和指导性指示440。应注意，作为指示440的补充或代替，治疗师可以通过装置120-n通过视频聊天来远程地展示如何执行练习。替代地或共同地，可以在检测到一个或多个错误之后向用户显示指导性视频片段。应注意，除了指示错误类型之外，指示440还可以提供如何改进接下来的发声的指令，例如以较低速率说话、在下一个音节之前呼吸等等。

在另一实施方案中，向患者显示了呼吸指示符(未示出)，从而示出用户在尝试另一目标模板之前需要呼吸的持续时间。可以根据所执行的练习和患者的水平来设定呼吸时间。可以由治疗师设定或者由服务器130或代理125-1自动地设定持续时间。训练患者以放松方式呼吸(吸入)会减少口吃。因此，在发声之前恰当地呼吸会提高患者相对于目标模板的表现。在实施方案中，在代理125-1识别出患者结束发声时显示呼吸指示符。

在图5中示出了示出呼吸指示符510的示例性、非限制性屏幕截图500。在一个实施方案中，将呼吸指示符510实现为进度条。其它视觉呼吸指示符可以包含(但不限于)定时器、秒表、沙漏等。如图5中所示，在结束发声(即，安静)之后立即显示呼吸指示符510。

在另一实施方案中，代理125-1配置成测量流畅言语的速率，并且在显示器上提供视觉速度监视器(未示出)。这允许在语速(例如，受控、快速和减慢的语速)不同的自发性言语中实施流畅性塑造技术。视觉反馈包含如上文所论述的产生的语音的“着色”显示，和示出患者的当前语速的速率计。在患者发出声音时测量并显示语速。可以每秒的音节数来测量语速。

图6示出了图示语速监视器610的示例性、非限制性屏幕截图600。语速监视器600显示不同语速的三个阶段：减慢(611)、受控(612)和正常(613)。语速监视器600的指针614显示当前测得的速率。作为练习的一部分，可以使用两种不同的色彩将产生的语音着色，如窗口620中显示。可以注意到，还可以显示与发声相应的错误和指导性指示630。在某些实施方案中，示出了进度条640，从而显示与过去的发声相关的用户表现。

应了解，语速监视器610辅助在实践期间维护常规或预定的语速，进而帮助患者随时间保持言语流畅性。语速监视器610给出关于预期速率以及关于与该预期速率的偏差的反馈。该监视器可以帮助患者将所学习的流畅性塑造技术转移到使用减慢-正常语速(标准化/经调节)的自发性言语。

应注意，上文相对于代理125所描述的一些或所有实施方案可以同样由服务器130执行。举例来说，服务器130可以接收语音样本、处理所述样本，且向用户装置120生成视觉反馈。作为另一实例，服务器130可以接收语音样本、处理所述样本，且向代理发送处理结果以用于再现视觉反馈。

在一些实施方案中，用户装置120和服务器130中的每一个通常包含连接到存储器(未示出)的处理系统(未示出)。该存储器包含由处理系统执行的多个指令。具体来说，存储器可以包含用于存储软件的机器可读介质。软件将在广义上被理解为是指任何类型的指令，无论被称为软件、固件、中间件、微代码、硬件描述语言还是其它。指令可以包含代码(例如，呈源代码格式、二进制代码格式、可执行代码格式，或任何其它合适格式的代码)。所述指令在由一个或多个处理器执行时致使处理系统执行本文中所描述的各种功能。

所述处理系统可以包括或者是使用一个或多个处理器实施的更大处理系统的组件。所述一个或多个处理器可以使用以下各者的任何组合实施：通用微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑装置(PLD)、控制器、状态机、门控逻辑、离散硬件组件、专用硬件有限状态机，或可以执行信息的计算或其它操纵的任何其它合适的实体。

应理解，本文公开的实施方案不限于在图1中示出的特定架构，且在不脱离所公开的实施方案的范围的情况下还可以使用其它架构。具体来说，服务器130可以驻留在云计算平台、数据中心等中。另外，在实施方案中，可以存在多个服务器130，这些服务器如上文所描述那样运行并且配置为使其中一个服务器作为备用，共用它们之间的负载，或者在它们之间分担功能。

图7是示出根据实施方案的处理语音信号以用于相对于患者的表现提供即时视觉反馈的过程的非限制性、示例性示意图700。视觉反馈是相对于由患者执行的练习。

所述过程开始于对由系统的用户产生的语音进行音频采样。通过音频/数字转换器710对由麦克风705捕获的语音进行采样。麦克风705可以是(例如)安装在用户装置(例如，患者装置120-1)上的麦克风。可以以预先限定的速率来执行采样。作为非限制性实例，采样速率是800Hz。

将在预先限定的时间间隔期间产生的语音样本缓冲到缓冲器720中以从样本生成语音块。单个语音块的持续时间大于持续时间样本。在实施方案中，每个语音块的大小可以取决于缓冲器的配置。可以以预先限定的速率(例如，10Hz)从缓冲器输出语音块。然后通过低通滤波器(LPF)730过滤输出的语音语块以除去或减少任何噪声。在某些配置中，可以在将语音样本组块之前(即，在缓冲器720之前)应用LPF730。

使用快速傅里叶变换(FFT)模块740将语音块从时域转换为频域。使信号(语音块)处于频域中使得能够通过频谱分析器750提取频谱特征。可以利用对频谱特征的分析来确定发声的质量和正确性。

在实施方案中，频谱分析器750提取对处理发声有价值的频谱特征。为此，可以除去零边缘频率且可以保留主频率。在实施方案中，主频率是频谱中具有高于预先限定的阈值的绝对振幅水平的频率。在另一实施方案中，主频率是频谱中具有高于预先限定的阈值的绝对频率水平的频率。在另一实施方案中，基于频率和幅度来输出两组主频率。

频谱分析器750计算主频率的能量水平以输出每个语音块的能量水平。可以计算能量，作为主频率的平均值。所计算的能量水平表示为积分数。在实施方案中，能量水平可以预定幂为因子。可以在以下等式1中看到示例性能量计算：

其中，‘ω{i＝1,...,R)’是频谱中的主频率的数目。因数‘β’是预先限定的数目，而幂‘k’可以等于或大于2。所计算的能量水平E_f具有单个语音块，且输入到反馈生成器760、错误生成器770和速率计生成器780。

反馈生成器760描绘与发声相应的视觉反馈。每个块的能量在示出发声的图示中是一点(例如，参见图3)。反馈生成器760将发声着色以示出轻柔语音声音和高语音声音。在实施方案中，分别利用两种不同色彩来示出轻柔和高语音。在实施方案中，将低于“音量阈值”的单个块的能量水平E_f确定为轻柔语音，而将高于音量阈值的单个块的能量水平E_f确定为高语音。

可以在安静期间(E_s)和/或在用户正常说话期间(E_n)所测得的能量的函数的校准的过程期间，确定音量阈值。该函数可以是E_s和E_n值的平均值或加权平均值。将在下文详细地描述用于执行校准过程的一个非限制性实例。

在另一实施方案中，反馈生成器760动态地设定目标模板(阴影图)的边界，以在视觉上向患者指示何时开始和结束发声。为此，反馈生成器760使能量水平E_f与安静能量(E_s)进行比较。在能量水平E_f大于安静能量(E_s)时，可以确定发声的开始，且可以在患者装置上再现和显示开始和结束指示符以及阴影图。可以将结束指示符设定为在开始指示符之后显示预先限定的时间间隔。在图3中展示具有开始和结束指示符的示例性阴影图。

反馈生成器760进一步配置成在发声结束时显示呼吸指示符。为此，反馈生成器760使能量水平E_f与正常生成能量(E_n)进行比较。在E_f低于E_n时，可以确定发声的结束，且可以在患者装置上再现和显示呼吸指示符。在图5中示出示例性呼吸指示符。

错误生成器770配置成使发声(在开始和结束之间)与相应的目标模板进行比较。该比较是针对整个发声，使得对语音块的所有所计算的能量水平E_f进行缓冲和分析，以检测与语音的产生相关的错误。具体来说，检测到的错误与患者相对于各种流畅性塑造练习的表现相关。

下面是可以检测到的错误的非限制性实例：缓和开始、轻柔峰、缓和偏移、音量控制、模式使用、丢失后续发声、发声存在对称性、短吸气、过慢发声、过快发声、过短发声、长发声，以及密集峰发声。

举例来说，“过软”错误指示音节之间的空气流太低。检测到的错误向用户提供其可以如何改进其发声的即时反馈。应注意，如果未检测到错误，那么可以向用户提供积极反馈。图4A和图4B示出了显示错误的各种实例。

在一个实施方案中，与目标图案相应地分析发声不是一对一比较，而是检查所计算的能量水平是否在振幅和/或方向方面匹配目标图案。在另一实施方案中，与目标图案相应地分析发声是一对一比较，其中需要与目标模板(图表)匹配。在另一实施方案中，可以利用两个所述比较方法。

现在参考图8阐释用于检测过软错误的非限制性实例。对在发声期间所计算的能量水平(E_f)和高于校准能量水平E_CAL的能量水平E_f820的总数目810进行计数。随后，如果高于E_CAL的能量水平E_f的百分比低于预先限定的值，那么发声被视为引入过软错误。

速率计生成器780配置成测量发声中的每秒的音节的数目且再现语速监视器。在实施方案中，速率计生成器780在三个范围中操作：受控、减慢和正常。为了测量语速，对发声中的能量水平(E_f)的峰的数目进行计数，其中每个此类峰表示一个音节。在测量语速时，可以相对于其它练习缩短语音块的持续时间。举例来说，语音块持续时间可以从100毫秒变化为20毫秒。图6示出了由速率计生成器生成的语速监视器的示例性图形表示。

在某些实施方案中，在患者(或用户)未处于传统治疗会话时，可以将速率计生成器780和/或错误生成器770用作监视器。举例来说，如果代理125-1可在用户的智能电话中操作，那么代理125-1可以被速率计生成器780激活且使用与另一个人的对话(例如，电话对话)监视用户的语速。在速率不是根据预先限定的语速的阈值(例如，太慢或太快)时，可以向用户提供通知。在速率不是根据正常语速的阈值(例如，太慢或太快)时，可以向用户提供通知。通知形式可以是在本领域中已知的任何形式(例如，文本消息、音频消息、图像等)。

作为另一限制性实例，如果代理125-1可在用户的平板计算机中操作，那么代理125-1可以被错误生成器770激活且根据由用户先前实践的任何流畅性塑造技术来监视言语。充当监视器的代理可以在用户与另一个人的对话(例如，电话对话)期间检测错误。可以在所述对话期间向用户通知这些错误。在上文论述了不同类型的错误。在实施方案中，将此类错误呈现为指导性指示(例如，指示440)。

在实施方案中，在对话结束时，代理125-1可以配置成邀请用户实践与检测到的错误相应的练习。在某些非限制性实施方案中，可以利用频谱图790来分析发声。具体来说，可以使用频谱图790来根据发音识别说出的字。在特定实施方案中，可以使用频谱图790来识别发声中的元音和辅音，且使所识别的元音和辅音与已知的元音和辅音进行比较。在实施方案中，可以利用所识别的元音和辅音来分析至少一个刺激生成以与已知的模板进行比较。

可以将参考图7而论述的各种元件实施为硬件、固件、软件或其任何组合。在实施时可以包含用于处理音频信号的一个或多个电子电路或一个或多个处理系统。在上文提供处理系统的实例。

图9展示示出根据实施方案的用于实现远程言语障碍治疗的方法的示例性和非限制性流程图900。可以治疗的言语障碍可以包含(但不限于)口吃、语言错乱、措辞和其它。

在S910处，在患者装置与治疗师装置之间建立网络通信通道。可以将网络通信通道建立为对等连接。在实施方案中，在验证患者且任选地还验证治疗师之后建立通信通道。

在S920处，在患者装置上设定当前治疗会话的参数。可以从数据库检索此类参数且此类参数至少包含将要实践的练习和它们的相应目标模板。练习可以进一步包含难度设定。每个难度设定可以与练习相关联。在实施方案中，参数包含将要由患者和/或治疗师上传的定制内容。举例来说，定制内容可以包含将要由患者阅读的文本。可以在当前会话之前、期间和/或之后上传定制内容。应注意，实践定制内容的能力允许患者在他/她方便时进行治疗会话。

在S930处，校准患者装置。在实施方案中，测量或以其它方式计算在安静周期期间(在其期间提示患者保持安静)的能量水平(E_s)。测量或以其它方式计算在正常说话周期期间(在其期间提示患者讲话)的能量水平(E_n)。在上文论述了能量水平的测量或计算。最后，依据E_n和E_s来计算校准能量水平(E_CAL)。举例来说，函数可以是平均值、加权平均值等。在某些实施方案中，可以利用从接近患者装置的不同装置接收的校准因数来确定E_CAL。

在S940处，在患者执行每个选定的练习时，且在患者和治疗师装置上生成和显示患者的表现的视觉表示。如上文详细论述，所述视觉表示包含将发声着色、相对于目标模板而显示发声、显示开始和结束发声时的边界、显示错误和指导性指示、显示呼吸指示符，和/或显示语速计。

任选地，在S950处，在患者和治疗师装置之间建立视频聊天。在视频聊天期间，治疗师可以展示或指令患者如何正确地执行练习。替代地或共同地，可以向用户显示指导性视频片段。应注意，治疗师可以使用任何数字内容的手段来展示或指令患者如何正确地执行练习。这包含(例如)文本文件、图像、音频片段等等。如上文所述，治疗师可以进一步改变练习的难度水平以使它们更容易或更难。

在S960处，记录在治疗会话期间的患者表现且发送到数据库(例如，数据库140)。作为非限制性实例，这允许就过去的表现进行离线处理、确定患者的进度、修改用户的当前练习、添加新的练习，和/或确定用户实践的频率和每个实践会话的长度。

应了解，对患者对各种练习的表现的定性分析使得能够确定患者反复出现的错误和困难的类型。该确定使得能够创建个性化治疗程序，鼓励在需要时检视内容且使练习中的刺激与用户体验的特定困难匹配。

在实施方案中，可以通过使用电子游戏来提供本文公开的视觉反馈，通过所述电子游戏通过参考与言语流畅性塑造相关的不同参数而将声能转化为视觉输出(通过分析强度和频率)。使用电子游戏进行学习和实践会促进(例如)儿童之间的积极性和协作，并且使它们可访问生成流畅言语所需的各种重要元素，进而允许更好地学习和同化。

已经参考响应于患者的表现而提供视觉反馈论述了各种公开的实施方案。应注意，响应于患者的表现而生成的反馈可以通过听觉反馈、触觉反馈等的形式生成。

应注意，为了简单起见，本文仅就单个患者装置和单个治疗师装置描述了图9，并不是对所公开的实施方案进行限制。可以利用多个患者装置和/或治疗师装置。另外，不需要治疗师装置，且患者装置可以在无治疗师的情况下执行图9中的方法。

此外，仅仅为了简单起见，以特定顺序示出了方法900的步骤，并不是对所公开的实施方案进行限制。在不脱离本公开的范围的情况下，可以以不同序列执行该方法步骤。可以重复方法900的任何或者所有步骤，优选地响应于指示希望重新访问一个或者多个步骤的用户输入而重复。

可以将本文公开的各种实施方案实施为硬件、固件、软件或其任何组合。另外，优选将软件实施为应用程序，所述应用程序有形地体现于程序存储单元、非暂时性计算机可读介质或非暂时性机器可读存储介质上，其可以呈数字电路、模拟电路、磁性介质或其组合的形式。可以将应用程序上传到包括任何合适的架构的机器，且由所述机器执行。优选的是，在具有例如一个或多个中央处理单元(“CPU”)、存储器和输入/输出接口等硬件的计算机平台上实施所述机器。所述计算机平台还可以包含操作系统和微指令代码。本文中所描述的各种过程和功能可以是可以由CPU执行的微指令代码的部分或应用程序的部分，或其任何组合，无论是否明确展示此类计算机或处理器。另外，各种其它外围单元可以连接到计算机平台，例如附加的数据存储单元和打印单元。此外，非暂时性计算机可读介质是除了暂时性传播信号之外的任何计算机可读介质。

虽然已经相对于若干所描述的实施方案详细地且具体地描述了所公开的实施方案，但不希望所公开的实施方案将受限于任何此类细节或实施方案或任何特定实施方案，而是将参考所附权利要求书进行理解，以便提供鉴于现有技术对此类权利要求的最可能广的解释，且因此实际上涵盖本公开的既定范围。此外，前述内容依据发明人预见的、具有启用性描述的实施方案描述了本公开，但尽管如此，目前未预见的对所公开的实施方案的非实质性修改可以表示其等效物。

Claims

1.一种用于实现远程言语障碍治疗的方法，包括：

使用将在当前治疗会话期间执行的至少一项练习来设置第一装置，其中每项练习包含至少一个难度参数；

接收所述第一装置的用户的发声；

处理所接收的发声以评估与所述至少一个难度参数相应的所述发声的正确执行；

基于所述分析生成反馈；以及

向所述第一装置输出所生成的反馈。

2.根据权利要求1所述的方法，进一步包括：

建立所述第一装置与一第二装置之间的网络通信通道；以及

向所述第二装置输出所述所生成的反馈，进而使得所述第二装置的用户能够远程地监视所述至少一个练习的执行。

3.根据权利要求2所述的方法，进一步包括：

从所述第二装置接收指令，其中所述指令包含以下至少之一：视频流、视频片段、文本文件、图像和音频片段。

4.根据权利要求2所述的方法，其中所述第一装置的用户是患者，而所述第二装置的用户是治疗师。

5.根据权利要求1所述的方法，其中所述所生成的反馈至少是视觉反馈。

6.根据权利要求5所述的方法，进一步包括：

再现与所述至少一个练习和所述所接收的发声相应的目标模板；以及

至少在所述第一装置上显示对应于所述所接收的发声的所述目标模板。

7.根据权利要求6所述的方法，其中所显示的目标模板包含以下至少之一：开始边界、结束边界和顶部边界。

8.根据权利要求7所述的方法，其中在接收到所述发声时显示所述目标模板和至少所述开始边界。

9.根据权利要求5所述的方法，其中基于分析生成反馈进一步包括：

至少使用第一色彩和第二色彩对所述发声着色，其中所述第一色彩表示由用户发出的高声音，而所述第二色彩表示由用户发出的轻柔声音；以及

显示以下至少之一：在执行正确执行之后的积极指示，和在执行不正确的执行之后的指导性指示。

10.根据权利要求5所述的方法，其中所述至少一个练习包含具有需要用户产生发声序列的多个目标模板的序列。

11.根据权利要求10所述的方法，进一步包括：

提供呼吸指示符，其中所述呼吸指示符表示用户在尝试后续目标模板之前需要呼吸的持续时间，其中所述持续时间是基于所述至少一个难度参数来确定。

12.根据权利要求1所述的方法，进一步包括：

测量与所述分析相应的语速；以及

显示与所测得的语速相应的语速计。

13.根据权利要求1所述的方法，进一步包括：

执行所述第一用户装置的音频校准过程，其中所述音频校准过程至少提供正常言语能量水平、安静能量水平和校准能量水平。

14.根据权利要求13所述的方法，其中处理所述所接收的发声进一步包括：

对所述所接收的发声进行采样以生成语音样本；

缓冲所述语音样本以生成语音块；

将所述语音块从时域转换为频域；

从所述频域语音块中的每一个提取频谱特征，其中所述频谱特征至少包含主频率，其中每个主频率对应于一个语音块；

针对每个语音块计算对应的主频率的能量水平；以及

针对每个语音块基于所述对应的主频率的能量水平来确定所述语音块的能量水平。

15.根据权利要求14所述的方法，进一步包括：

基于所述语音块的能量水平和以下至少之一来确定所述发声的执行的正确性：所述正常言语能量水平、所述安静能量水平和所述校准能量水平。

16.根据权利要求15所述的方法，其中所述正确性确定导致与所述发声的不正确执行相关的至少一个错误，其中每个错误是以下任一个：缓和开始、轻柔峰、缓和偏移、音量控制、图案使用、丢失后续发声、发声存在不对称性、短吸气、较慢发声、较快发声、较短发声、较长发声以及密集峰发声。

17.根据权利要求1所述的方法，其中所述至少一个练习与流畅性塑造相关。

18.根据权利要求17所述的方法，其中所述至少一个练习与定制内容相关。

19.根据权利要求1所述的方法，进一步包括：

生成一报告，所述报告概括在当前治疗会话中的发声的执行；以及

保存所述报告。

20.根据权利要求1所述的方法，其中所述言语障碍治疗是针对以下至少之一：口吃、语言错乱和发音。

21.一种非暂时性计算机可读介质，在上面存储有用于致使一个或多个处理单元执行根据权利要求1所述的方法的指令。

22.一种用于实现远程言语障碍治疗的装置，包括：

用于接收第一装置的用户的发声的接口；

处理单元；以及

存储器，耦合到所述处理单元，所述存储器包含指令，所述指令在由所述处理单元执行时将所述装置配置为：

使用将在当前治疗会话期间执行的至少一项练习来设置所述第一装置，其中每项练习包含至少一个难度参数；

接收所述第一装置的用户的发声；

分析所接收的发声以评估与所述至少一个难度参数相应的发声的正确执行；

生成与所述分析相应的反馈；以及

向所述第一装置输出所生成的反馈。

23.根据权利要求22所述的装置，其中所述装置进一步配置成：

建立所述第一装置与一第二装置之间的网络通信通道；以及

24.根据权利要求23所述的装置，其中所述装置进一步配置成：

25.根据权利要求23所述的装置，其中所述第一装置的用户是患者，而所述第二装置的用户是治疗师。

26.根据权利要求22所述的装置，其中所述所生成的反馈至少是视觉反馈。

27.根据权利要求26所述的装置，其中所述装置进一步配置成：

28.根据权利要求27所述的装置，其中所显示的目标模板包含以下至少之一：开始边界、结束边界和顶部边界。

29.根据权利要求28所述的装置，其中在接收到所述发声时显示所述目标模板和至少所述开始边界。

30.根据权利要求26所述的装置，其中所述装置进一步配置成：

至少使用第一色彩和第二色彩对所述发声着色，其中所述第一色彩表示由用户发出的高的声音，而所述第二色彩表示由用户发出的轻柔声音；以及

31.根据权利要求26所述的装置，其中所述至少一个练习包含具有需要用户产生发声序列的多个目标模板的序列。

32.根据权利要求31所述的装置，其中所述装置进一步配置成：

33.根据权利要求22所述的装置，其中所述装置进一步配置成：

测量与所述分析相应的语速；以及

显示与所述所测得的语速相应的语速计。

34.根据权利要求22所述的装置，其中所述装置进一步配置成：

35.根据权利要求34所述的装置，其中所述装置进一步配置成：

对所述所接收的发声进行采样以生成语音样本；

缓冲所述语音样本以生成语音块；

将所述语音块从时域转换为频域；

针对每个语音块计算对应的主频率的能量水平；以及

36.根据权利要求35所述的装置，其中所述装置进一步配置成：

37.根据权利要求36所述的装置，其中所述正确性确定导致与所述发声的不正确执行相关的至少一个错误，其中每个错误是以下任一个：缓和开始、轻柔峰、缓和偏移、音量控制、图案使用、丢失后续发声、发声存在不对称性、短吸气、较慢发声、较快发声、较短发声、较长发声以及密集峰发声。

38.根据权利要求22所述的装置，其中所述至少一个练习与流畅性塑造相关。

39.根据权利要求38所述的装置，其中所述至少一个练习与定制内容相关。

40.根据权利要求22所述的装置，其中所述装置进一步配置成：

保存所述报告。

41.根据权利要求22所述的装置，其中所述言语障碍治疗是针对以下至少之一：口吃、语言错乱和发音。

42.一种用于监视用户的言语的方法，包括：

由用户装置在所述用户对话期间捕获发声；分析所述发声以检测至少流畅性塑造错误；以及在检测到所述流畅性塑造错误时，生成用于改进所述用户在所述对话期间的言语的指导性通知。

43.根据权利要求42所述的方法，其中所述流畅性塑造错误是异常语速。

44.根据权利要求43所述的方法，进一步包括：

分析所述发声以测量所述用户的语速；

使所测得的语速与指示正常语速的阈值进行比较，以确定所测得的语速是否满足所述阈值；以及

在确定所测得的语速不满足所述阈值之后，生成所述指导性通知以指示与所述阈值相应的所测得的语速。

45.根据权利要求42所述的方法，进一步包括：

让所述用户实践与检测到的错误相应的流畅性塑造练习。

46.根据权利要求42所述的方法，其中所述流畅性塑造错误是以下任一个：缓和开始、轻柔峰、缓和偏移、音量控制、图案使用、丢失后续发声、发声存在不对称性、短吸气、较慢发声、较快发声、较短发声、较长发声以及密集峰发声。

47.一种非暂时性计算机可读介质，在上面存储有用于致使一个或多个处理单元执行根据权利要求42所述的方法的指令。

48.一种用于监视用户的言语的装置，包括：

用于接收第一用户装置的用户的发声的接口；

处理单元；以及

存储器，耦合到所述处理单元，所述存储器包含指令，所述指令在由处理单元执行时将装置配置为：

由所述第一用户装置捕获在用户对话期间的发声；

分析所述发声以检测至少流畅性塑造错误；

在检测到所述流畅性塑造错误时，生成用于改进所述用户在对话期间的言语的指导性通知。

49.根据权利要求48所述的装置，其中所述流畅性塑造错误是异常语速。

50.根据权利要求48所述的装置，进一步包括：

分析所述发声以测量所述用户的语速；

51.根据权利要求48所述的装置，进一步配置成：

让所述用户实践与检测到的错误相应的流畅性塑造练习。

52.根据权利要求18所述的装置，其中所述流畅性塑造错误是以下任一个：缓和开始、轻柔峰、缓和偏移、音量控制、图案使用、丢失后续发声、发声存在不对称性、短吸气、较慢发声、较快发声、较短发声、较长发声以及密集峰发声。