CN102469961B

CN102469961B - 语音清晰度评价系统和方法

Info

Publication number: CN102469961B
Application number: CN201180002701.3A
Authority: CN
Inventors: 足立信夫; 森川幸治
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2010-01-28
Filing date: 2011-01-05
Publication date: 2015-05-13
Anticipated expiration: 2031-01-05
Also published as: US8849391B2; CN102469961A; JPWO2011093005A1; US20120072213A1; JP4838401B2; WO2011093005A1

Abstract

本发明提供一种语音清晰度评价系统，其具备：呈现语音控制部，其参照保持了多个语音的语音数据库来决定所要呈现的语音；输出部，其将所决定的语音呈现给用户；生物体信号测量部，其测量用户的脑波信号；阳性成分判定部，其判定脑波信号的、以输出部呈现语音的时刻为起点从起点开始600ms以上800ms以下的区间中的事件相关电位有无阳性成分；阴性成分判定部，其判定脑波信号的、以输出部呈现语音的时刻为起点从起点开始100ms以上300ms以下的区间中的事件相关电位有无阴性成分；和语音清晰度评价部，其根据有无阳性成分的判定结果和有无阴性成分的各判定结果，来评价用户是否清晰地听到所呈现的语音。由此，对于用户而言不需要繁琐的回答输入，并且可确定听不清晰的原因。

Description

语音清晰度评价系统和方法

技术领域

本发明涉及用于评价语音能否被听清的技术。更为具体而言，本发明涉及在助听器等中用于调整声音的不同频率的放大量从而对于各个用户而言可获得合适大小的声音的“调试(fitting)”的、评价用户能否听清语音的程度的语音清晰度的评价系统。

背景技术

近年来，随着社会的老龄化，老年性的听力障碍者在增加。此外，即便在青年人中，由于长时间听大音量的音乐的机会增加等的影响，音响性的听力障碍者(头戴式耳机听力障碍)在增加。

另外，随着助听器的小型化/高性能化，用户针对配戴助听器的抵触心理在减少，利用助听器的用户在增加。

助听器是用于通过对构成用户难以听清的声音的各种频率声音之中的特定频率声音的信号振幅进行放大，来弥补用户下降的听力的装置。配戴助听器的目的在于提高会话的听懂能力。用户对助听器要求的声音放大量根据每个用户的听力下降程度而不同。因此，在开始利用助听器之前，首先需要按照每个用户的听力来调整声音的放大量“调试”。

“调试”是以按照助听器的不同频率使输出的声压(作为声音可被感知的大气的压力变动)适合于用户舒服地感觉到的声压水平(Most comfortable level：以下简记为“MCL”)为目的进行的。在调试不合适的情况下，例如在放大量不足时无法充分听到声音。此外，在过分放大的情况下，用户会感觉吵闹。无论在哪种情况下，都会发生无法长时间使用助听器的问题。

调试一般是基于每个用户的听力敏度图来进行的。所谓“听力敏度图”是评价纯音听力的最小声压的结果。例如，听力敏度图是针对多个频率的声音根据频率(例如250Hz、500Hz、1000Hz、2000Hz、4000Hz)来描绘该用户能够听到的最小声压水平(数字值)的图。

为了进行调试，首先需要按照每个用户制作听力敏度图。然后，根据所制作的听力敏度图的结果，基于用户估计每个用户的MCL的调试理论来进行调试。

然而，在现实状况中，在所有用户当中仅根据听力敏度图来决定提高会话的听懂清晰度的最佳声音的放大量的调试方法尚未确立。作为其原因例如有：听力敏度图和会话的听懂能力并不是一一对应、听力障碍者感觉合适大小的声压范围较窄。

因此，为了评价调试的程度，需要语音清晰度评价。所谓“语音清晰度评价”(speech discriminability assessment)是在实际能否听到语音的评价中对能否听清单音节的语音进行评价的听力评价。所谓单音节的语音表示一个元音或者辅音和元音的组合(例如，“あ”/“だ”/“し”)。由于配戴助听器的目的是听懂会话，因此语音清晰度的评价结果能更好地反映出会话时的听力。

在日本，现有的语音清晰度评价可按照以下的顺序进行(《助听器调试的方法》，小寺一兴，诊断和治疗公司，1999年，166页)。首先，利用日本听觉医学会制定的57S式语音表(50单音节)、或67S式语音表(20单音节)将单音节的语音一个一个地通过口头或CD让用户听。接着，让用户以发声或记述等的方法回答其将所呈现的语音是作为哪个语音听到的。然后评价者通过比对语音表和回答来计算答对率，该答对率是所有的单音节之中被正确听到的单音节的比例。

但是，在上述的评价方法中，用户需要进行基于发声或记述的回答，而评价者也需要通过手动操作来进行用户回答的正误判定。因此，这种检查无论对于用户还是评价者来说都负担较大且耗费时间。

为此，例如在专利文献1中公开了一种为了减少评价者的负担利用个人计算机(PC)来自动进行正误判定的语音清晰度评价方法。具体而言，在专利文献1中提出了如下的方法，即：利用PC向用户以声音的方式呈现单音节的语音，让用户通过鼠标点击或触摸笔(touch the pen to the display)进行回答，将回答作为PC的输入接受，自动进行呈现的声音和回答输入之间的正误判定。通过鼠标点击或触摸笔来受理回答输入，不需要评价者读解/识别用户的回答(发声或描述)，实现了评价者劳力和时间的削减。

此外，例如在专利文献2中公开了一种语音清晰度评价方法，其为了减少用户回答输入的负担，在声音呈现之后以文字来呈现相应语音的候选。在专利文献2中，将候选归结为几个，从几个文字之中选择相应的语音从而能够减少用户查找文字的劳动和时间。其中，在专利文献2中，也利用PC受理回答输入以实现评价者的负担降低。

现有技术文献

专利文献

专利文献1：JP特开平9-038069号公报

专利文献2：JP特开平6-114038号公报

然而，在专利文献1和专利文献2记载的语音清晰度评价方法中，都需要用户的回答输入，回答输入的动作作为用户的负担依然存在。特别是对于不习惯PC操作的听力障碍者和老年人来说，基于鼠标点击或触摸笔的回答输入并不容易。其结果，在检查中需要时间或者由于操作错误而错误选择了不同的单音节矩阵，结果有可能无法正确评价语音清晰度。此外，每个语音的评价结果是以是否清晰的二值来表示的(例如表示清晰的“○”或者表示不清晰的“△”)，但无法确定不清晰时的原因。由此，难以对具体的调试的步骤进行应用。

发明内容

本发明的目的在于实现对于用户而言不需要繁琐的回答输入就能够确定不清晰原因的语音清晰度评价系统。

本发明所涉及的语音清晰度评价系统具备：语音数据库，其保持多个语音；呈现语音控制部，其参照所述语音数据库来决定所要呈现的语音；输出部，其将所决定的所述语音呈现给用户；生物体信号测量部，其测量所述用户的脑波信号；阳性成分判定部，其判定所述脑波信号的、以所述输出部呈现语音的时刻为起点从所述起点开始600ms以上800ms以下的区间中的事件相关电位有无阳性成分；阴性成分判定部，其判定所述脑波信号的、以所述输出部呈现语音的时刻为起点从所述起点开始100ms以上300ms以下的区间中的事件相关电位有无阴性成分；和语音清晰度评价部，其根据从所述阳性成分判定部所取得的有无所述阳性成分的判定结果、和从所述阴性成分判定部所取得的有无所述阴性成分的判定结果，来评价所述用户是否清晰地听到所呈现的所述语音。

所述语音清晰度评价部可以在所述阳性成分判定部的判定结果表示不存在所述阳性成分的情况下，评价为所述用户清晰地听到了所呈现的语音，在所述阳性成分判定部的判定结果表示存在所述阳性成分，且所述阴性成分判定部的判定结果表示不存在所述阴性成分的情况下，评价为由于整体的声压不足所述用户没有清晰地听到所呈现的语音；在所述阳性成分判定部的判定结果表示存在所述阳性成分，且所述阴性成分判定部的判定结果表示存在所述阴性成分的情况下，评价为由于辅音频率的声压不足所述用户没有清晰地听到所呈现的语音。

所述阳性成分判定部可以将以所述输出部呈现语音的时刻为起点从所述起点开始600ms以上800ms以下的区间中的事件相关电位的区间平均电位与规定的阈值进行比较，在所述区间平均电位为所述阈值以上的情况下，判定为存在阳性成分，在所述区间平均电位小于所述阈值的情况下，判定为不存在阳性成分。

所述阴性成分判定部可以将以所述输出部呈现语音的时刻为起点从所述起点开始100ms以上300ms以下的区间中的事件相关电位的阴性的峰值的绝对值与规定阈值进行比较，在所述峰值的绝对值为所述阈值以上的情况下，判定为存在阴性成分，在所述峰值的绝对值小于所述阈值的情况下，判定为不存在阴性成分。

所述语音数据库可以针对所保持的多个语音分别对应地保持语音的种类、辅音信息的种类及与听错发生概率相关的组。

所述语音清晰度评价系统还可以具备事件相关电位处理部，该事件相关电位处理部参照在所述语音数据库中存储的语音的种类、辅音信息的种类及与听错发生概率相关的组的对应关系，针对所述语音的种类、所述辅音信息的种类及与所述听错发生概率相关的每个组，生成对与呈现的所述语音相对应的事件相关电位进行算术平均之后的脑波数据。

所述输出部可以呈现多个语音，所述阳性成分判定部及所述阴性成分判定部接收针对所呈现的所述多个语音所涉及的每个语音的种类、每个辅音的种类、或每个与所述听错发生概率相关的组进行事件相关电位的算术平均之后得到的脑波数据，所述阳性成分判定部基于所述脑波数据，针对每个所述语音的种类、每个所述辅音的种类、或每个与所述听错发生概率相关的组判定所述事件相关电位有无阳性成分，所述阴性成分判定部基于所述脑波数据，针对每个所述语音的种类、每个所述辅音的种类、或每个与所述听错发生概率相关的组判定所述事件相关电位有无阴性成分。

所述语音数据库还可以保持有增益信息，该增益信息规定了与所述多个语音相关的每个频带的增益，所述语音清晰度评价系统还具备刺激语音增益调整部，所述刺激语音增益调整部针对由所述语音清晰度评价部评价为由于整体的声压不足所述用户没有清晰地听到的语音，按照提高频带整体的增益的方式改写所述语音数据库保持的与语音相关的每个频率的增益信息，此外，针对由所述语音清晰度评价部评价为由于辅音频率的声压不足所述用户没有清晰地听到的语音，计算所述语音的辅音频带，并按照提高所述辅音频带的增益的方式改写所述语音数据库保持的与语音相关的每个频率的增益信息。

本发明所涉及的语音清晰度评价方法包括如下步骤：准备保持了多个语音的语音数据库；参照所述语音数据库决定所要呈现的语音；将所决定的所述语音呈现给用户；测量所述用户的脑波信号；判定所述脑波信号的、以所述输出部呈现语音的时刻为起点从所述起点开始600ms以上800ms以下的区间中的事件相关电位有无阳性成分；判定所述脑波信号的、以所述输出部呈现语音的时刻为起点从所述起点开始100ms以上300ms以下的区间中的事件相关电位有无阴性成分；和根据有无所述阳性成分的判定结果和有无所述阴性成分的判定结果，来评价所述用户是否清晰地听到所呈现的所述语音。

在进行评价的所述步骤中，在有无所述阳性成分的判定结果表示不存在所述阳性成分的情况下，评价为所述用户清晰地听到了所呈现的语音，在有无所述阳性成分的判定结果表示存在所述阳性成分，且有无所述阴性成分的判定结果表示不存在所述阴性成分的情况下，评价为由于整体的声压不足所述用户没有清晰地听到所呈现的语音；在有无所述阳性成分的判定结果表示存在所述阳性成分，且有无所述阴性成分的判定结果表示存在所述阴性成分的情况下，评价为由于辅音频率的声压不足所述用户没有清晰地听到所呈现的语音。

本发明所涉及的计算机程序是由具备保持了多个语音的语音数据库的语音清晰度评价系统的计算机来执行的计算机程序，所述计算机程序使安装于所述语音清晰度评价系统的计算机执行如下步骤：参照所述语音数据库决定所要呈现的语音；将所决定的所述语音呈现给用户；测量所述用户的脑波信号；判定所述脑波信号的、以所述输出部呈现语音的时刻为起点从所述起点开始600ms以上800ms以下的区间中的事件相关电位有无阳性成分；判定所述脑波信号的、以所述输出部呈现语音的时刻为起点从所述起点开始100ms以上300ms以下的区间中的事件相关电位有无阴性成分；和根据有无所述阳性成分的判定结果和有无所述阴性成分的判定结果，来评价所述用户是否清晰地听到所呈现的所述语音。

本发明所涉及的所述语音清晰度评价装置呈现语音控制部，其参照保持了多个语音的所述语音数据库来决定所要呈现的语音；阳性成分判定部，其判定生物体信号测量部测量出的所述用户的所述脑波信号的、以呈现所述语音的时刻为起点从所述起点开始600ms以上800ms以下的区间中的事件相关电位有无阳性成分；阴性成分判定部，其判定所述脑波信号的、以所述输出部呈现语音的时刻为起点从所述起点开始100ms以上300ms以下的区间中的事件相关电位有无阴性成分；和语音清晰度评价部，基于从所述阳性成分判定部所取得的有无所述阳性成分的判定结果、和从所述阴性成分判定部所取得的有无所述阴性成分的判定结果，来评价所述用户是否清晰地听到所呈现的所述语音。

本发明所涉及的语音清晰度评价系统的工作方法包括如下步骤：提示语音控制部参照保持了多个语音的语音数据库来决定所要呈现的语音；输出部将所决定的所述语音呈现给用户；脑波测量部测量所述用户的脑波信号；阳性成分判定部判定所述脑波信号的、以所述输出部呈现语音的时刻为起点从所述起点开始600ms以上800ms以下的区间中的所述事件相关电位有无阳性成分；阴性成分判定部判定所述脑波信号的、以所述输出部呈现语音的时刻为起点从所述起点开始100ms至300ms的区间中的所述事件相关电位有无阴性成分；和语音清晰度评价部根据有无所述阳性成分的判定结果和有无所述阴性成分的判定结果，来评价所述用户是否清晰地听到所呈现的所述语音。

发明效果

根据本发明，根据声音呈现后的用户的潜伏时间约700ms的阳性成分及潜伏时间约200ms的阴性成分的有无，能够自动地评价语音清晰度以及确定不清晰的原因是否为声压不足。由于对于用户而言不需要繁琐的回答输入，因此无论对于评价者还是用户而言都能够通过更少的负担来评价用户是否清晰地听到所呈现的语音。此外，通过判定不清晰的原因是否为声压不足，能够实现容易应用于具体的调试步骤的语音清晰度评价。

附图说明

图1是表示行动实验的实验步骤的概要的图。

图2(a)表示四个条件各自下不同频率的增益调整量，(b)表示由噪音计测量出的每个条件下的声压水平。

图3是表示一次测试的步骤的流程图。

图4是表示根据按下按钮的结果分类的参加者的声音听懂自信度和按下按钮的正误概率的图。

图5是表示国际10-20法(10-20系统)的电极位置的图。

图6是表示脑波测量实验的实验步骤的概要的图。

图7是表示一次测试的步骤的流程图。

图8是表示基于听懂自信度对以呈现的时刻为起点的Pz处的事件相关电位进行总算术平均之后的波形图。

图9是表示按照声音刺激的每个声压水平对以呈现声音的时刻为起点的Pz处的事件相关电位进行算术平均之后的波形图。

图10(a)是表示阳性成分的有无与听懂自信度及听难易度之间的对应关系的图，(b)表示在听不清晰的情况下阴性成分的有无、声压水平的判定结果以及能够推定的不清晰的原因之间的对应关系的图。

图11是表示实施方式1的语音清晰度评价系统100的结构及利用环境的图。

图12是表示实施方式1的语音清晰度评价装置1的硬件结构图。

图13是表示实施方式1的语音清晰度评价系统100的功能模块的结构图。

图14是表示语音DB71的例子的图。

图15(a)及(b)是表示使用了实施方式1的方法的语音清晰度评价结果的例子。

图16是表示在语音清晰度评价系统100中进行的处理的步骤的流程图。

图17是表示每个单音节的单词的评价结果的一例。

图18是表示实施方式2的语音清晰度评价系统200的功能模块的结构图。

图19是表示在刺激语音增益调整部90中保存的频率-增益特性的初始特性、针对初始特性提高整体增益的调整方法A的频率-增益特性、以及针对调整方法A提高对象语音的辅音频带增益的调整方法B的频率-增益特性的图。

图20(a)是表示在听到按照规定的初始特性进行增益调整之后的声音刺激时的、用户的语音清晰度评价结果，(b)是表示在听到按照调整方法A进行调整之后的声音刺激时的、语音清晰度评价部80中的用户的语音清晰度评价结果的例子，(c)是表示针对按照调整方法B调整之后的语音的语音清晰度评价结果的例子。

图21是表示实施方式2的语音清晰度系统200的处理步骤的流程图。

具体实施方式

以下，参照附图说明本发明的语音清晰度评价系统的实施方式。

本发明的语音清晰度评价系统被用于，利用了脑波的语音清晰度的评价。更为具体而言，语音清晰度评价系统用于如下情况：以声音来呈现单音节的语音，在使用户听清楚声音的设定中，以将呈现声音的时刻作为起点的用户的脑波信号的事件相关电位为指标，来评价语音的听懂情况。其中，在本说明书中，“呈现声音”是指输出听觉刺激(也称为“声音刺激”)、例如从扬声器输出声音。另外，扬声器的种类是任意的，既可以是设置在地板或座位上的扬声器，也可以是头戴式的扬声器，但为了正确进行语音清晰度评价需要能够正确地呈现所指定的声压。

本申请发明者为了确定用于实现不需要用户回答输入的语音清晰度评价的脑波特征成分，实施了以下两种实验。

首先，实施了研究与声音的听懂相关的自信度和听错发生概率之间的关系的行动实验。在此，所谓“听错”表示将某个声音听成了不同的声音。在行动实验中，以声音和文字(平假名)顺序呈现单音节的语音，让用户确认声音和文字是否相同，以按钮来回答声音听懂的自信度。其结果，可确认在声音的听懂自信度高的情况下听错的发生概率低于10％以下，在听懂自信度低的情况下听错的发生概率变高达到40％左右。

接着，本申请发明者实施了如下的实验，以声音呈现单音节的语音，在使用户回想与声音对应的语音的设定中，以呈现声音的时刻为起点测量事件相关电位。然后，基于在行动实验中预先取得的听懂自信度和刺激声压的大小进行事件相关电位的算术平均。其结果发现：在以呈现声音刺激的时刻为起点测量的事件相关电位中，(1)与针对声音听懂的自信度较低的情况相比，在较高的情况下，在头顶部引起潜伏时间(latent time)约700ms的阳性成分；(2)伴随着与上述阳性成分独立地刺激声音的声压水平的增加，潜伏时间约200ms的阴性成分的振幅增大。此处的“潜伏时间约700ms的阳性成分”是指以呈现声音刺激的时刻为起点在600ms以上800ms以下的区间出现的阳性成分，所谓“潜伏时间约200ms的阴性成分”是指以呈现声音刺激的时刻为起点在100ms以上300ms以下的区间中出现的阴性成分。

根据这些确认和发现可知，(1)基于按照以呈现声音的时刻为起点的事件相关电位的潜伏时间约700ms的阳性成分的有无能够判定的声音听懂自信度，可评价语音清晰度；(2)能够根据潜伏时间约200ms的阴性成分的有无来确定不清晰的原因是否是声压不足。现有技术中，语音清晰度评价仅仅是基于用户的回答是否正确来进行评价，但通过本方法能够基于用户是否感觉听清楚了声音来实现详细的语音清晰度评价。

以下，对其进行更加详细的说明。首先，说明为了实现不需要用户回答输入的语音清晰度评价本申请发明者所实施的行动实验和脑波测量实验。然后，说明作为实施方式的、评价语音的听懂情况的语音清晰度评价装置的概要和包括语音清晰度评价装置的语音清晰度评价系统的结构及动作。

1、行动实验

本申请发明者为了研究与声音的听懂相关的自信度和听错发生概率之间的关系，实施了行动实验。以下，参照图1至图3说明所实施的行动实验的实验设定及实验结果。

实验参加者是具有正常听力的11名大学生/研究生。

图1表示行动实验的实验步骤的概要情况。

首先，在步骤A中呈现单音节的声音。所呈现的声音参照《助听器的调试方法》(小寺一兴，诊断和治疗公司，1999年，172页)，从彼此容易听错的“ラ行”/“ヤ行”一组、“カ行”/“タ行”一组中选择。

告诉实验参加者在听到声音之后脑中回想与其对应的平假名。按照在具有正常听力的参加者中获得各种的听懂自信度的方式，呈现加工了频率增益的四个条件的声音。“频率增益”是指针对多个频带的每个频带的增益(电路的增益、放大率)。

(1)LF(Large Flat)条件：作为声压大容易听清楚的声音不进行频率增益的加工。(2)SF(Small Flat)条件：作为声压小但容易听清楚的声音在所有的频带使增益降低20dB。(3)SD(Small Distorted)条件：作为声压小难以听清楚的声音，将250Hz-16kHz频率的增益逐渐地调整(降低)至-50dB。(4)LD(Large Distorted)条件：作为声压大但难以听清楚的声音，使SD条件的频率增益整体提高15dB。

图2(a)表示条件(1)～(4)各自中的针对每个频率的增益调整量。之所以降低高频率的频率增益，是为了再现高龄者的听力障碍的典型模型，针对听力正常者也模拟出与高龄听力障碍者的听力困难同样的听力。图2(b)是由噪音计测量的不同条件下的声压水平。根据图2(b)可知，LF条件和LD条件是相同程度的大的声压，SF条件和SD条件是相同程度的小的声压。

接下来，在步骤B中让实验参加者按下键盘的空格键。步骤B是用于进入步骤C的按钮按压，是为了在实验中按照参加者的步调来呈现步骤C的文字刺激而附加的。该按钮也称为“下一个”按钮。

在步骤C中在显示器上呈现平假名的一个文字。作为一致测试以0.5的概率呈现与步骤A中所呈现的声音相一致的文字，作为不一致测试以0.5的概率呈现与声音不一致的平假名。不一致的平假名一般将容易听错的“ラ行”和“ヤ行”、“カ行”和“タ行”作为一组选择元音一致而声音不同的一行的文字。例如，在步骤A中呈现了平假名“や”的情况下，在一致测试中在步骤C中呈现“や”，在不一致测试中在步骤C中呈现“ら”。

步骤D是参加者针对在步骤A中呈现的声音和在步骤C中呈现的文字确认感觉有多不一致的按钮按压(键盘的数字1至4)。在感觉绝对一致的情况下按下4，在感觉大概一致的情况下按下3，在感觉大概不一致的情况下按下2，在感觉绝对不一致的情况下按下1。在该按钮按下过程中，在按下4或1时，虽然参加者作为结果在步骤C的阶段了解到正确和不正确(发生听错)，但可以说在听到步骤A的阶段中呈现的声音的时间点对于听清楚是有自信的。同样，在按下2或3的情况下，可以说参加者对于声音听清楚是没有自信的。

进行了反复96次上述的步骤A至步骤D的实验(96次测试)。

图3是表示一次测试的步骤的流程图。在该流程图中，为了方便说明，记载了装置的动作和实验参加者的动作的双方。

在步骤S11中，向实验参加者呈现单音节的声音。声音是在LF条件、SF条件、LD条件、SD条件的四个条件中按照随机的顺序呈现(步骤A)。

在步骤S12中，参加者听到单音节的声音脑中回想所对应的平假名。

在步骤S13中，参加者作为“下一个”按钮按下空格键(步骤B)。

在步骤S14中，以步骤S13的执行为起点按照50％的概率在显示器上以文字呈现与声音一致或不一致的平假名(步骤C)。

在步骤S15中，参加者确认在步骤S12中想到的平假名和在步骤S14中所呈现的平假名是否一致。

步骤S16参加者使用1至5的数字键回答在步骤S15中感觉有多少一致/不一致(步骤D)。

以下，表示行动实验的实验结果。

图4是表示根据按钮按下的结果分类出的参加者的声音听清楚的自信度和按钮按下的正误概率的图。听清楚的自信度以如下方式进行分类。将按下4(绝对一致)或1(绝对不一致)的情况设为听清楚自信度“高”。自信度“高”的概率站整体测试之中的82.3％(1056测试中的869测试)。将按下3(大概一致)、2(大概不一致)的情况设为听清楚自信度“低”。自信度“低”的概率占整体测试之中的17.7％(1056测试中的187测试)。按钮按下的正误根据按下声音和文字的一致/不一致的按钮来判定。将在一致测试中按下4(绝对一致)或3(大部分一致)的情况、和在不一致测试中按下1(绝对不一致)或2(大概不一致)的情况设定为正确，将此外的情况设定为错误。

图4(a)是听清楚自信度高的测试中的按钮按下的正误结果。可知在几乎全部的测试(90.2％)中选择了正确的按钮。这表示在听清楚自信度高的情况下可正确地听懂声音。根据该结果，可将听清楚自信度高的情况评价为语音清晰度高。

图4(b)是听清楚自信度低的测试中的按钮按下的正误结果。可知按下错误的按钮的概率较高(40.1％)。这表示在听清楚自信度低的情况下容易发生听错。根据该结果，可将听清楚自信度低的情况评价为语音清晰度低。

其中，不同参加者的听错发生概率在听清楚自信度高的情况下有意义地变高(p＜.01)。

以上，通过行动实验明确了能够基于针对声音的用户的听清楚自信度来实现语音清晰度评价的可能性。由此，如果能够通过按下按钮以外的方法来测量听清楚自信度，则基于其指标能够实现没有回答输入的语音清晰度评价。本申请发明者着眼于脑波的事件相关电位，实施脑波测量实验来研究是否存在反映出针对声音的听清楚自信度的不同的成分。以下，说明脑波测量实验。

2、脑波测量实验

本申请发明者为了研究声音的听清楚自信度及声音刺激的声压水平、和声音呈现之后的事件相关电位之间的关系，实施了脑波测量实验。以下，参照图5至图9说明所实施的脑波测量实验的实验设定及实验结果。

实验参加者是与行动实验相同的11名大学生/研究生。

脑波是从头皮上的Fz、Cz、Pz、C3、C4(国际10-20法)以右乳突为基准记录的。“乳突”是耳朵背面的耳根的下部的头盖骨的乳状突起。图5是表示国际10-20法(10-20System)的电极位置的图。采样频率设定为200Hz，时间常数设定为1秒。在离线方式实施1-6Hz的数字带通滤波。作为针对声音呈现的事件相关电位，以呈现声音的时刻为起点切取-200ms至1000ms的波形。事件相关电位的算术平均是在上述行动实验的所有条件(LF·SF·LD·SD)下进行。

图6表示脑波测量实验的实验步骤的概要。

在步骤X中呈现单音节的声音。刺激语音与行动实验同样从“ラ行/ヤ行”、“カ行/タ行”中选择。告诉实验参加者在听到声音之后在脑中回想所对应的平假名。此外，按照在具有正常听力的参加者中听清楚自信度和刺激声音的声压水平分别变化的方式，呈现加工了频率增益之后的四个条件的声音。

(1)LF(Large Flat)条件：作为声压大且容易听清楚的声音，未进行频率增益的加工。(2)SF(Small Flat)条件：作为声压小但容易听清楚的声音，在所有的频带中使增益下降20dB。(3)SD(Small Distorted)条件：作为声压小且难以听清楚的声音，使250Hz-16kHz的频率的增益逐渐地调整(降低)至-50dB。(4)LD(Large Distorted)条件：作为声压大但难以听清楚的声音，以SD条件为基础整体提高15dB。图2(a)表示四个条件的频率增益调整量，图2(b)表示使用噪音计测量的四个条件的声压水平。

将反复进行192次上述步骤X的实验分为各96次的两组来实施。

图7是表示一次测试的步骤的流程图。针对与图3相同的模块赋予相同的参照符号，并省略其说明。与图3的不同点在于，没有步骤S13至步骤S16，不要求实验参加者进行明示的行动。

以下，表示脑波测量实验的实验结果。

图8是基于听清楚自信度对以呈现声音的时刻为起点的Pz处的事件相关电位进行总算术平均之后的波形。算术平均基于上述行动实验的、全部条件(LF·SF·LD·SD)中的每个参加者每个语音的听清楚自信度来进行。图8的横轴是时间，单位为ms，纵轴是电位，单位为μV。根据图8所示的刻度可知，曲线的下方向对应于正(阳极)，上方向对应于负(阴性)。基线是将-200ms至0ms的平均电位对准0。

图8所示的虚线是在行动实验中听清楚自信度高的情况下的电极位置Pz处的事件相关电位的算术平均波形，实线是在听清楚自信度低的情况下的电极位置Pz处的事件相关电位的算术平均波形。根据图8可知，与表示听清楚自信度高的虚线相比，在听清楚自信度低的实线中，在潜伏时间约700ms处出现平缓的阳性成分。针对0ms至1000ms的所有的采样分别实施t检验之后的结果，因上述听清楚自信度的不同引起的有意义差异持续20ms以上的时间带为608ms至668ms。

作为阳性电位的峰值的以潜伏时间700ms为中心的每个参加者的600ms以上800ms以下的区间的平均电位(区间平均电位)，在听清楚自信度高的情况下为-0.24μV，在自信度低的情况下为0.74μV。对区间平均电位进行t检验之后的结果，在听清楚自信度低的情况下区间平均电位有意义地变大(p＜.05)。

图9表示按照声音刺激的每个声压水平对以呈现了声音的时刻为起点的Pz处的事件相关电位进行算术平均之后的波形。更为详细说明的话，对用户的听清楚自信度进行统一核算，分别求出应用声压水平为较大的60-65dB的LF·LD条件来呈现声音刺激时的事件相关电位的算术平均、和应用声压水平为较小的40-45dB的SF·SD条件来呈现声音刺激时的事件相关电位的算术平均。图9的横轴是时间，单位为ms，纵轴是电位，单位为μV。根据图9所示的刻度可明确，曲线的下方向对应于正(阳性)，上方向对应于负(阴性)。基线与-200ms至0ms的平均电位对准。

图9所示的实线表示声压大的LF条件和LD条件的算术平均波形，虚线表示声压小的SF条件和SD条件的算术平均波形。根据图9可知，与表示声压小的虚线相比，在表示声压大的实线中，潜伏时间约200ms的阴性成分的阴性方向的振幅较大。

在声压大的条件(LF·LD)中，每个参加者的100ms以上300ms以下的区间处的阴性的峰值为-2.19μV，在声压小的条件(SF·SD)中为-1.41μV。对每个采样点的波形进行t检验之后的结果，在218ms至238ms以及272ms至332ms的区间中存在有意义差异(p＜.05)。

鉴于这些结果，本申请发明者针对以呈现了声音的时刻为起点的事件相关电位导出了如下的结论：(1)在潜伏时间约700ms处具有峰值的阳性电位反映了听清楚自信度，该电位可作为听清楚自信度的指标来利用；(2)潜伏时间约200ms的电位表示声压的大小，除了听清楚自信度以外可用于刺激声音的声压是否足够的判定。

对于阴性成分而言，此前认为在作为刺激呈现纯音的情况下伴随着刺激音的声压増加从而N1成分(潜伏时间100ms前后的阴性成分)的振幅增大(例如、Naatanen，R.，&Picton，T.W.(1987).The N1 wave of the human electric and magnetic response to sound：a review and an analysis of the component structure.Psychophysiology，24，375-425.)。

然而，N1成分的振幅除了声压以外还由于刺激音的启动、持续时间而变化。因此，作为刺激使用了启动、频率、力度(power)随时间变化的“语音”时的声压水平和阴性成分之间的关系性尚不明确。

此外，通常如果提高声压水平，则由于语音清晰度提高，因此表示听清楚自信度的潜伏时间约700ms的阳性成分和潜伏时间约200ms的阴性成分是否是独立的成分、以及能否用于各自的状态判定将尚不明确。

由此，本申请发明者通过实施实验首次明确的发现包括：伴随着声音刺激的声压増大潜伏时间约200ms的阴性成分的振幅増大；潜伏时间约200ms的阴性成分是与反映了自信度的潜伏时间约700ms的阳性成分独立的。上述实验中，利用分别操作听清楚难易度和声压的四种的声音刺激实施。

例如通过对相应区间的峰值大小(振幅)进行阈值处理的方法、和典型的根据上述成分的波形制作模板并计算与该模板之间的相似度的方法等，能够识别上述的电极位置Pz处的潜伏时间约700ms的阳性成分(图8)及每个声压水平的潜伏时间约200ms的阴性成分(图9)。其中，对于阈值/模板而言，即可以利用预先保持的典型的用户的阈值/模板，也可以按照个人来制作。

此外，在本次的实验中，对11人的参加者的数据进行算术平均，以确认在以呈现了声音的时刻为起点的事件相关电位中是否出现反映了听清楚自信度和声压水平的成分。但是，通过在特征量提取方法(例如波形的小波变换)或识别方法(例如支持向量机学习)方面下工夫，即便是不进行加法运算或者仅几次的少数加法运算也能够识别阳性成分。

在本说明书中，为了定义事件相关电位的成分，将从某个时间点其经过规定时间之后的时刻表述为例如“潜伏时间约700ms”。这是指能够包含以700ms这一特定时刻为中心的范围。根据“以事件相关电位(ERP)手册-P300为中心”(加我君孝等编辑、篠原出版新社、1995)的30页所记载的表1，一般在事件相关电位的波形中，不同个体会出现30ms至50ms的差异(偏差)。因此，“约Xms”或“Xms附近”这种表述，意味着以Xms为中心其前后可存在30至50ms的幅度(例如，300ms±30ms、700ms±50ms)。

其中，尽管上述的“30ms至50ms的幅度”是P300成分的一般性的个人差异的例子，但是上述潜伏时间约700ms的阳性成分与P300相比由于潜伏时间延迟，因此用户的个人差异会进一步变大。因此，优选处理更宽的幅度、例如在前后各100ms左右的幅度。这样，在本实施方式中，“潜伏时间约700ms”表示潜伏时间600ms以上800ms以下。

此外，对于“潜伏时间200ms附近”或“潜伏时间约200ms”而言，既可以针对潜伏时间200ms在前后各具有30至50ms的幅度，也可以具有比它宽一些的幅度、例如在其前后各具有50ms至100ms的幅度。也就是说，在本实施方式中“潜伏时间约200ms”也可以设定为潜伏时间100ms以上300ms以下。

以上，本申请发明者通过行动实验发现了能够基于针对声音的用户的听清楚自信度来进行语音清晰度评价。此外，通过脑波测量实验发现：(1)以呈现声音的时刻为起点的事件相关电位的潜伏时间约700ms的阳性成分反映听清楚自信度；(2)与表示听清楚自信度的潜伏时间约700ms的阳性成分独立地以呈现声音的时刻为起点的潜伏时间约200ms的阴性成分反映了声压水平。

因此，通过以事件相关电位的阳性成分为指标估计针对声音的听清楚自信度、和以阴性成分为指标来估计刺激声音的声压是否充足的方法，能够实现没有回答输入的详细的语音清晰度评价。

图10(a)表示由本申请发明者总结的、阳性成分的有无与听清楚自信度及听懂难易度之间的对应关系。首先，基于阳性成分的有无，在没有阳性成分的情况下(没有出现阳性成分的情况下)判定为听得清晰，在有阳性成分的情况下(出现了阳性成分的情况下)判定为不清晰。在有阳性成分判定为听不清晰的情况下，基于阴性成分的有无来判定刺激声音的声压是否充足。

其中，一般情况下“阳性成分”是指大于0μV的电位。然而，在本申请说明书中“阳性成分”不需要绝对地是阳性(大于0μV)。在本申请说明书中，由于为了识别出听清楚自信度的高低要识别“阳性成分”的有无，因此只要能够判别出听清楚自信度的有意义高低，则区间平均电位等也可以是0μV以下。

图10(b)表示在听不清晰的情况下阴性成分的有无、声压水平的判定结果及能够估计的不清晰的原因之间的对应关系。对于声压是否充足而言，在有阴性成分的情况下判定为声压充足，在没有阴性成分的情况下判定为声压不足。

其中，一般情况下“阴性成分”是指小于0μV的电位。但是，在本申请说明书中“阴性成分”不需要是绝对的阴性(小于0μV)。在本申请说明书中，由于为了识别声压水平是否不足而识别“阴性成分”的有无，因此只要能够辨别出声压不足，则区间平均电位等也可以是0μV以上。在能够判定阴性成分的大小的情况下，作为阴性成分的有无来进行叙述。

无论声压充足与否听不清楚时的不清晰的原因，多数情况是存在与元音相比力度小且频率不同的辅音，例如能够推定为呈现语音的辅音频率的增益不足。此外，在声压不足的情况下作为整体的增益不足，能够分别推定听不清晰的原因。由此，能够转化为例如在不清晰的原因是辅音频率的增益不足的情况下就提高辅音频率的增益，或者在整体的增益不足的情况下提高整体的增益这种具体的调试步骤。

以下，说明本发明的实施方式所涉及的语音清晰度评价系统。语音清晰度评价系统以声音顺序地呈现单音节的语音，基于以呈现声音的时刻为起点的事件相关电位的潜伏时间约700ms的阳性成分和潜伏时间约200ms 的阴性成分的有无，来实现语音的听力评价。这是基于本申请发明者的上述两个发现而首次实现的、不需要用户回答输入的语音清晰度评价系统。

3、实施方式1

以下，首先说明语音清晰度评价系统的概要。然后，说明包括语音清晰度评价装置在内的语音清晰度评价系统的结构及动作。

本实施方式的语音清晰度评价系统顺序呈现声音，分别以各声音呈现时刻为起点测量事件相关电位。然后，检测在声音的听清楚自信度低的情况下出现的潜伏时间约700ms的阳性成分和、随着刺激声音的声压从而阴性的振幅増大的潜伏时间200ms前后的阴性成分，来评价语音的听懂程度。上述的事件相关电位的阳性成分反映了听清楚自信度，此外阴性成分反映了声压水平。

在本实施方式中，将探查电极设置在头顶部的Pz处，将基准电极设置在左右任意一个的乳突处，测量探查电极与基准电极之间的电位差即脑波。其中，事件相关电位的特征成分的水平和极性有可能随着安装脑波测量用的电极的部位、或基准电极及探查电极的设定方式的不同而发生变化。但是，根据以下的说明，本领域技术人员能够根据此时的基准电极及探查电极的设定方式来进行适当的改变以检测事件相关电位的特征成分，可进行语音清晰度的评价。这种的改变例也属于本发明的范畴。

其中，在上述脑波测量实验的说明中，实验性地针对具有正常听力的参加者改变频率增益的强弱，再现了接近于听力障碍者的听力状况。但是，在实施听力障碍者的语音清晰度评价的情况下，不需要特意呈现难以听清楚的语音。本实施方式中的前提是，根据预先测量的听力障碍者的听力敏度图基于调试方法，呈现每个频率的增益被调整为最佳的语音。

图11是表示本实施方式的语音清晰度评价系统100的结构及利用环境。该语音清晰度评价系统100对应于后述的实施方式1的系统结构来例示的。

语音清晰度评价系统100具备：语音清晰度评价装置1、声音输出部11、生物体信号测量部50。生物体信号测量部50至少连接两个电极A和B。电极A贴附于用户5的乳突处，电极B被贴附于用户5的头皮上的位置(所谓的Pz)处。

语音清晰度评价系统100以某个声压的声音向用户5呈现单音节的语音，判定在以声音呈现时刻为起点测量的用户5的脑波(事件相关电位)中有无潜伏时间约700ms的阳性成分、以及有无潜伏时间约200ms的阴性成分。然后，基于呈现声音和阳性成分/阴性成分的有无，不需要用户5的回答输入就可自动实现语音清晰度评价。

用户5的脑波是基于电极A与电极B之间的电位差由生物体信号测量部50所获取的。生物体信号测量部50以无线或有线的方式将对应于电位差的信息(脑波信号)发送至语音清晰度评价装置1。图11例示了生物体信号测量部50以无线方式将该信息发送至语音清晰度评价装置1中。

语音清晰度评价装置1进行用于语音清晰度评价的声音的声压控制、声音及文字的呈现定时的控制，针对用户5经由声音输出部11(例如扬声器)呈现声音。

图12表示本实施方式的语音清晰度评价装置1的硬件结构。语音清晰度评价装置1具有：CPU30、存储器31、音频控制器32。它们彼此之间由总线34连接，相互之间能够传输数据。

CPU30是由半导体元件构成的计算机，执行在存储器31中保存的计算机程序35。在计算机程序35中描述了后述的流程图所示的处理步骤。语音清晰度评价装置1按照该计算机程序35利用在同一存储器31中存储的语音DB71，进行控制语音清晰度评价系统100整体的处理。该处理在后面详细叙述。

音频控制器32按照CPU30的命令分别生成应该呈现的声音及文字，使用指定的声压将生成的声音信号输出至声音输出部11中。

其中，语音清晰度评价装置1可以作为在一个半导体电路中植入了计算机程序得到的DSP等的硬件来实现。这种DSP在一个集成电路上就能够全部实现上述的CPU30、存储器31、音频控制器32的功能。

上述的计算机程序35记录在CD-ROM等的记录介质中作为商品在市场上流通，或者能够通过网络等的电子通信电路进行传输。具备图12所示硬件的设备(例如PC)通过读取该计算机程序35，能够作为本实施方式的语音清晰度评价装置1发挥功能。其中，语音DB71可以不保持在存储器31中，例如也可以保存在连接于总线34的硬盘(未图示)中。

图13表示本实施方式的语音清晰度评价系统100的功能模块的结构。语音清晰度评价系统100具有：声音输出部11、生物体信号测量部50、语音清晰度评价装置1。图13还表示语音清晰度评价装置1的详细功能模块。也就是说，语音清晰度评价装置1具备：事件相关电位处理部55、阳性成分判定部60、阴性成分判定部65、呈现语音控制部70、语音DB71、语音清晰度评价部80。其中，用户5的框图是为了方便说明而示出的。

语音清晰度评价装置1的各功能模块(除语音DB71以外)分别执行与图12关联说明的程序，可对应于由CPU30、存储器31、音频控制器32作为整体在各个时刻实现的功能。

语音DB71是为了进行语音清晰度评价而准备的语音的数据库。图14表示语音DB71的例子。在图14所示的语音DB71中，根据所呈现的声音文件、辅音标记、发生听错可能性(发生听错的难易度)进行分组之后的数据建立对应。所保存的声音是根据预先测量的听力障碍者的听力敏度图基于调试方法完成每个频率的增益调整之后的结果。所保存的语音的种类可以是在57S语音表、67S语音表中列举的语音。辅音标记被用于评价用户5对于哪个辅音发生听错的概率较高。分组的数据被用于评级用户5在哪个组中发生听错的概率高。对于分组而言，例如设定为大分类、中分类、小分类。

大分类是按照元音、无声辅音、有声辅音的分类分别记为0、1、2。中分类是无声辅音内、有声辅音内的分类。无声辅音内能够分类为サ行(中分类：1)和タ/カ/ハ行(中分类：2)，有声辅音内能够分类为ラ/ヤ/ワ行(中分类：1)和ナ/マ/ガ/ザ/ダ/バ行(中分类：2)。小分类能够按照ナ/マ行(小分类：1)和ザ/ガ/ダ/バ行(小分类：2)的方式进行分类。对于发生听错可能性而言，可参照《助听器的调试方法》(小寺一兴，诊断和治疗公司，1999年，172页)。

再次参照图13。呈现语音控制部70参照语音DB71决定所呈现的语音。语音例如可以按照随机的顺序选择、决定，也可以从语音清晰度评价部100接受未评价/再评价的语音的信息来决定。此外，呈现语音控制部70为了获得在哪个辅音中或者在哪个语音组中听错发生概率高的信息，也可以选择特定的辅音或语音组的声音。

呈现语音控制部70将这样决定的声音经由声音输出部11呈现给用户 5。此外，配合声音呈现时刻将触发发送至生物体信号测量部50，将呈现声音的内容发送至阳性成分判定部60和阴性成分判定部65中。

声音输出部11对由呈现语音控制部70所指定的单音节的声音进行再现，并呈现给用户5。

生物体信号测量部50是测量用户5的生物体信号的脑波计，作为生物体信号测量脑波。并且，以从呈现语音控制部70接受的触发为起点切取规定区间(例如-200ms至1000ms的区间)的事件相关电位，并将其发送至事件相关电位处理部55。假设用户事先配戴脑波计。脑波测量用的电极例如安装于头顶部的Pz处。

事件相关电位处理部55，根据从呈现语音控制部70接受的呈现声音的内容，对从生物体信号测量部50接收的事件相关电位进行算术平均。事件相关电位处理部55例如仅选择相同语音的事件相关电位，然后针对语音的每个种类进行事件相关电位的算术平均。按照相同的语音对事件相关电位进行算术平均的情况下，能够进行每个语音的听清楚评价。

事件相关电位处理部55，将按照每个语音执行规定次数的算术平均之后得到的脑波数据发送至阳性成分判定部60和阴性成分判定部65中。在此，按照脑波数据的发送目的地不同，也可以针对事件相关电位进行不同的处理。例如，可以根据发送目的地变更执行算术平均的次数，也可以根据发送目的地切换截止频率不同的两种滤波处理从而对事件相关电位的波形实施滤波处理。根据图8及图9可知，与阳性成分相比阴性成分为高频率，阳性成分和阴性成分的频率不同。因此，根据发送目的地来进行不同的滤波处理，由此能够获得信噪比高的脑波数据。

阳性成分判定部60及阴性成分判定部65从事件相关电位处理部55接收脑波数据，进行后述的不同的解析。

其中，算术平均既可以选择具有相同辅音的语音来进行，也可以按照图14所示的分组的大分类、中分类、小分类来进行。按照具有相同辅音的语音来进行算术平均的情况下，能够针对每个辅音的种类评价听力的清晰度是否低。此外，在按照每个分组进行算术平均的情况下，例如按照在有声辅音和无声辅音中对于无声辅音而言听力的清晰度较低的方式，来进行组中的听力评价。在针对每个辅音、每个组的算术平均中，可分别获得确保了某种程度的加法次数的加法波形。

阳性成分判定部60根据从事件相关电位处理部55接收到的脑波数据，判定有无潜伏时间约700ms的阳性成分。如之前说明的脑波测量实验的项目中所说明过的那样，所谓“潜伏时间约700ms”例如是指以声音输出部11呈现语音的时刻为起点、从起点开始600ms以上800ms以下的区间。

由阳性成分判定部60进行的有无阳性成分的识别方法如下所示。例如，阳性成分判定部60将潜伏时间700ms的最大振幅或者潜伏时间700ms的区间平均电位与规定阈值进行比较。并且，在区间平均电位大于阈值的情况下，阳性成分判定部60识别出“有阳性成分”，在小于阈值的情况下识别为“无阳性成分”。或者，也可以根据与基于潜伏时间约700ms的典型的阳性成分信号的波形制作的规定模板之间的相似度(例如相关系数)，在其相似的情况下，阳性成分判定部60识别为“有阳性成分”，在不相似的情况下识别为“无阳性成分”。规定阈值和模板既可以根据预先保持的一般性用户的阳性成分的波形进行计算、制作，也可以根据每个个人的阳性成分的波形进行计算制作。

阴性成分判定部65，对从事件相关电位处理部55接收的脑波数据识别在潜伏时间约200ms处是否具有阴性成分。如之前所说明的脑波测量实验的项目中说明过的那样，所谓“潜伏时间约200ms”例如是指以声音输出部11呈现语音的时刻为起点、从起点起100ms以上300ms以下的区间。

由阴性成分判定部65进行的有无阴性成分的识别方法如下所示。例如，阴性成分判定部65将潜伏时间200ms的阴性的峰值的绝对值(振幅)与规定阈值进行比较。并且，在阴性的峰值的绝对值(振幅)为阈值以上的情况下识别为“有阴性成分”，在峰值的绝对值小于阈值的情况下识别为“无阴性成分”。或者，阴性成分判定部60也可以根据与基于潜伏时间约200ms的典型的阴性成分信号的波形所制作的规定的模板之间的相似度(例如相关系数)，在其相似的情况下识别为“有阴性成分”，而将不相似的情况识别为“无阴性成分”。规定阈值和模板既可以根据预先保持的一般性用户的阴性成分的波形进行计算制作，也可以根据每个个人的阴性成分的波形进行计算制作。

语音清晰度评价部80从阳性成分判定部60接收每个语音的有无阳性成分的信息，从阴性成分判定部65接收每个语音的有无阴性成分的信息。语音清晰度评价部100基于所接收的信息评价语音清晰度。

清晰度的评价例如可按照图10所示的规则依据有无阳性成分和有无阴性成分来进行。如图10(a)所示，首先，将在脑波数据中没有阳性成分、听清楚自信度高的情况设定为“○”(＝清晰度高)，将有阳性成分听清楚自信度低的情况设定为“△”(＝清晰度低)。所谓“清晰度高”表示用户能清晰地听到语音，所谓“清晰度低”表示用户无法清晰地听到语音。

现在，假设语音清晰度评价部80评价为有阳性成分、清晰度低。

语音清晰度评价部80判定脑波数据中有无阴性成分。基于有无阴性成分的判定结果及图10(b)所示的基准，语音清晰度评价部80在有阴性成分的情况下判定为刺激声音的声压水平充足，在没有阴性成分的情况下判定为刺激声音的声压水平不足。

图15表示使用本实施方式所涉及的方法的语音清晰度评价结果的例子。图15(a)及(b)表示分别针对用户A及用户B通过每个语音的算术平均来评价每个语音的清晰度的例子。首先，根据脑波数据的潜伏时间约700ms的阳性成分的有无，按照无阳性成分为○、有阳性成分为△的方式进行清晰度评价。进而，在有阳性成分而不清晰的情况下，根据脑波数据有无潜伏时间约200ms的阴性成分来判定不清晰的原因。对于不清晰的原因而言，将有阴性成分的情况作为声压充足，而将没有阴性成分的情况作为声压不足。根据图15可知，尽管对于各用户而言语音清晰度相同，但不清晰的原因有所不同。表示出用户A是整体的增益不足，而用户B是辅音频率的增益不足。在图15所示的例子中，可提出具体的调试步骤，即：针对用户A提高整体增益，针对用户B仅提高“な、ま、ら、だ”的辅音频率的增益。

接下来，参照图16说明在图13的语音清晰度评价系统100中进行的整体处理的步骤。图16是表示在语音清晰度评价系统100中进行的处理的步骤的流程图。

在步骤S101中，呈现语音控制部70参照语音DB71决定所要呈现的单音节的语音，并经由声音输出部11向用户5呈现声音，向阳性成分判定部60发送所呈现的声音的信息及触发。所呈现的语音既可以从DB71 中随机选择，也可以集中选择特定的辅音或成组的语音。

在步骤S102中，生物体信号测量部50从呈现语音控制部70接受触发，切取所测量的脑波之中、以触发为起点例如-200ms至1000ms为止的事件相关电位。然后，求出-200ms至0ms的平均电位，按照该平均电位为0μV的方式对所得到的事件相关电位进行基线修正。

在步骤S103中，事件相关电位处理部55基于从呈现语音控制部70接收的呈现语音的信息按照每个语音对在步骤S102中切取的事件相关电位进行算术平均。对于算术平均而言，尽管也可以针对每个辅音或每个组进行，但在此针对每个语音进行。

在步骤S104中，事件相关电位处理部55判定针对在步骤S101中所呈现的语音的事件相关电位的加法次数是否达到了规定的加法次数。在加法次数为规定次数以下的情况下，处理返回步骤S101，反复进行声音的呈现。在加法次数为规定次数以上的情况下，处理就进入步骤S105。

在步骤S105中，事件相关电位处理部55将进行了规定次数的算术平均之后的脑波数据发送至阳性成分判定部60及阴性成分判定部65中。

在步骤S106中，阳性成分判定部60判定脑波数据的潜伏时间约700ms处是否存在阳性成分。在没有判定存在阳性成分的情况下，处理进入步骤S108，在判定为存在阳性成分的情况下，处理进入步骤S107。阳性成分的识别如上述那样既可以通过与阈值的比较来进行，也可以通过与模板之间的比较来进行。

在步骤S107中，阴性成分判定部65判定在脑波数据的潜伏时间约200ms处是否存在阴性成分。在没有判定为存在阴性成分的情况下，处理进入步骤S109，在判定检测出存在阴性成分的情况下，处理进入步骤S110。阴性成分的识别如上述那样既可以通过与阈值的比较来进行，也可以通过与模板的比较来进行。

在步骤S108中，语音清晰度评价部100，针对在步骤S101中所呈现的语音从阳性成分判定部60接收表示不存在潜伏时间约700ms的阳性成分的信息从而评价为是能听清楚的，并存储评价结果。

在步骤S109中，语音清晰度评价部100若针对在步骤S101中所呈现的语音从阳性成分判定部60接收到表示存在潜伏时间约700ms的阳性成分的信息、从阴性成分判定部65接收到表示不存在潜伏时间约200ms的阴性成分的信息，则评价为因声压不足引起听不清楚，并存储评价结果。

在步骤S110中，语音清晰度评价部100若针对在步骤S101中所呈现的语音从阳性成分判定部60接收到表示存在潜伏时间约700ms的阳性成分的信息、从阴性成分判定部65接收到表示存在潜伏时间约200ms的阴性成分的信息，则评价为尽管声压足够但听不清楚，并存储评价结果。

在步骤S111中，语音清晰度评价部100判定针对清晰度评价预定的所有语音是否完成了清晰度评价。在尚未完成的情况下，处理返回至步骤S101，在已完成的情况下结束语音清晰度评价。

对于语音清晰度评价的基准而言，首先如图10(a)所示那样基于阳性成分来进行，接下来如图10(b)所示那样在听不清晰的情况下基于有无阴性成分来评价不清晰的原因。

通过这种处理，通过以声音来呈现单音节的语音的设定，利用以呈现声音的时刻为起点的事件相关电位的潜伏时间约700ms的阳性成分和潜伏时间约200ms的阴性成分，不需要用户回答输入就能够实现某声压水平处的语音清晰度评价。此外，作为不清晰的原因，由于可以区分为是在整个频率中的声压不足或者是辅音频率的增益不足，因此容易将评价结果应用于具体的调试步骤中。

其中，由于本实施方式中的语音清晰度评价装置1是可以携带的，因此即便在用户利用助听器的声音环境中也能够实现语音清晰度评价。

在本实施方式中假设了日语的语音清晰度评价来进行说明。然而，只要是单音节的语音即可，也可以是英语或中文。例如在英语的情况下，可以呈现单音节的单词，进行每个单词的评价。图17表示了针对每个单音节单词的评价结果的一例。

根据本实施方式的语音清晰度评价系统100，不需要进行回答输入仅仅通过用户听声音然后想象相应的平假名就可实现语音清晰度评价。由此，例如在助听器商店中的语音清晰度评价过程中，能够减少在评价所需的助听器用户的负担和时间。此外，作为不清晰的原因，可以区分出是在整个频率中的声压不足还是辅音频率的增益不足。由此，可将语音清晰度评价结果容易应用于具体的调试步骤中，能够实现容易听清楚会话的调试。

其中，尽管在图11中将声音输出部11设定为扬声器，但声音输出部11也可以是头戴式耳机。通过使用头戴式耳机，将有利于携带且能够在用户利用的环境中评价语音清晰度。

4、实施方式2

在实施方式1的语音清晰度评价系统100中，针对基于在语音DB71中预先保存的一种调试方法进行调整之后的规定声压水平的声音，根据有无潜伏时间约700ms的阳性成分来评价清晰度，在听不清晰的情况下基于有无潜伏时间约200ms的阴性成分来评价不清晰的原因。在语音清晰度评价系统100中的特征在于，由于能够确定不清晰的原因是整体的增益不足还是辅音频率的增益不足，因此例如能够实现是提高整体的音量还是加强辅音频率这种具体的调试步骤的切换。

然而，仅仅根据针对一个声压水平的评价结果，由于难以求出例如整体的音量或辅音频率的最佳增益调节量，因此无法充分进行最佳调试。

为此，在本实施方式中，设置了基于不清晰的原因来调整语音DB的声音、并针对调整后的语音再次评价语音清晰度的这种环路，说明使调试参数最佳化的语音清晰度评价系统。

图18表示本实施方式的语音清晰度评价系统200的功能模块的结构。语音清晰度评价系统200具有：声音输出部11、生物体信号测量部50、语音清晰度评价装置2。对于与图13相同的模块赋予相同的参照符号，并省略其说明。其中，语音清晰度评价装置2的硬件结构如图12所示。通过执行规定了与实施方式1中所说明的程序35(图12)不同的处理的程序，来实现图18所示的本实施方式的语音清晰度评价装置2。

本实施方式的语音清晰度评价装置2与实施方式1的语音清晰度评价装置1之间的不同点在于，新设置了刺激语音增益调整部90。

以下，说明刺激语音增益调整部90。

刺激语音增益调整部90接收在语音清晰度评价部80中存储的清晰度(例如每个语音的清晰度)、与图15所示的不清晰的原因相关的评价结果。并且，在不清晰的情况下针对每个不清晰的原因决定刺激语音的增益调整量，并更新语音DB71的语音数据。

例如在不清晰的原因是“整体的增益不足”的情况下，将整体的频率增益提高5dB。或者，在不清晰的原因是“辅音频率的增益不足”的情况下，首先计算对象语音的辅音频带，将该频带的增益提高5dB。在由语音清晰度评价部80针对图14所示的每个辅音标记、每个分组进行了清晰度评价的情况下，也能够针对每个辅音标记、每个分组计算辅音频带。增益调整量并不限于5dB，也可以是3dB或7dB。此外，也可以配合语音数据的更新次数来减少增益调整量。

其中，在语音DB71中保存的声音数据的初始值是基于每个用户的听力敏度图和调试理论对频率-增益特性调整之后的声音数据的情况下，作为在刺激语音增益调整部90中保存的频率-增益特性的初始值，也可以保存其调整方法的频率-增益特性。

参照图19、图20说明刺激语音增益调整部90中的刺激语音增益调整方法的例子。首先，图19的实线(初始特性)，作为在刺激语音增益调整部90中保存的频率-增益特性的初始值，表示根据听力敏度图和调试理论求出的频率-增益特性。假设高音的听觉不佳的用户，例示了进一步加权高音增益的调整模式。

图20(a)表示听到以该初始特性进行增益调整之后的声音刺激时、用户的语音清晰度评价结果。如图20(a)所示，假设听不听清楚语音的不清晰原因都是“整体的增益不足”。在这种情况下，刺激语音增益调整部90作为调整方法选择“提高整体的增益”。并且，制作例如将整个频率的增益提高5dB之后的语音刺激并覆盖语音DB71的语音数据。图19的点划线表示针对初始特性通过调整方法A提高了整体的增益之后的频率-增益特性。

接下来，图20(b)表示听到按照调整方法A调整之后的声音刺激时的、语音清晰度评价部80中的用户的语音清晰度评价结果的例子。图20(b)表示通过调整方法A大部分的听不清晰被消除、以及剩余的听不清晰的原因是“辅音频率增益不足”。

接收图20(b)的清晰度评价结果，刺激语音增益调整部90首先计算作为对象的语音(图21中的“さ”)的辅音频带，并将计算出的辅音频带的增益提高例如5dB。图19的虚线(调整方法B)表示针对调整方法A提高对象语音的辅音频带增益之后的频率-增益特性。刺激语音增益调整部90将语音DB的语音数据改写成通过调整方法B的频率-增益特性调整之后的声音。

图20(c)表示针对由调整方法B调整之后的语音的语音清晰度评价结果的例子。图20(c)表示通过两个阶段的调整方法全部的语音都能被清楚地听到。

接下来，参照图21的流程图说明语音清晰度评价系统200中进行的整体处理的步骤。

图21表示本实施方式的语音清晰度系统200的处理步骤。在图21中，对于进行与语音清晰度评价系统100的处理(图16)相同处理的步骤赋予相同的参照符号，并省略其说明。

本实施方式的语音清晰度评价系统200的处理与实施方式1的语音清晰度评价系统200的处理的不同点在于，追加了步骤S201和步骤S202至步骤S205，步骤S201是基于在语音清晰度评价结果中是否存在不清晰的分支步骤，在步骤S202至步骤S205中将语音DB的语音数据改写为针对每个不清晰的原因调整之后的刺激声音。对于所追加的步骤以外的步骤，由于已经与图16相关联地进行了说明，因此省略说明。

在步骤S201中，刺激语音增益调整部90判定从语音清晰度评价部80接收到的语音清晰度评价结果中是否包含不清晰。在语音清晰度评价结果中包含不清晰的情况下，处理进入步骤S202，在不包含不清晰的情况下进入“结束”。

在步骤S202中，刺激语音增益调整部90判定从语音清晰度评价部80接收到的语音清晰度评价结果的不清晰原因是否为整体增益不足。在整体增益不足的情况下，处理进入步骤S203，在辅音频率增益不足的情况下，处理进入步骤S204。

在步骤S203中，刺激语音增益调整部90生成将整体的增益提高例如5dB之后的刺激语音，并覆盖改写语音DB71的声音数据。

在步骤S204中，刺激语音增益调整部90计算因辅音频率增益不足的原因而不清晰的语音的辅音频带。

在步骤S205中，刺激语音增益调整部90生成将步骤S204中计算出的辅音频带的增益提高例如5dB之后的刺激声音，并覆盖改写语音DB71 的声音数据。

基于这种处理，通过语音清晰度评价、每个不清晰的原因的频率增益调整、针对完成调整的刺激语音的语音清晰度评价这种的环路，能够实现自动的调试参数的最优化。其中，在刺激语音增益调整部90中仅将覆盖了声音数据的语音作为对象再次实施再度清晰度评价，能够缩短清晰度评价的时间。

由于本实施方式中的语音清晰度评价装置2能够携带，因此即便在用户利用助听器的声音环境中也能够实现语音清晰度评价。

根据本实施方式的语音清晰度评价系统200，能够简单且自动地确定每个用户的最佳调试参数。由此，因为不需要探查性的调试，因此能够格外缩短在调试中所需的时间。

其中，在上述的实施方式中，按照语音DB被设置在语音清晰度评价装置内来进行的说明。但是，这仅仅是一例。语音DB也可以设置在语音清晰度评价装置的外部，通过无线或有线的方式由语音清晰度评价装置进行参照。例如语音DB可以保存在存储卡中，在语音清晰度评价系统使用时插入语音清晰度评价装置中。或者，语音DB保存在网络上的服务器中，在语音清晰度评价系统使用时由语音清晰度评价装置经由网络进行参照。在这种情况下，语音DB并不作为语音清晰度评价装置的构成要素。此外，语音DB也可以不作为语音清晰度评价系统的构成要素。

产业上的可利用性

根据本发明的语音清晰度评价装置及组装了语音清晰度评价装置的语音清晰度评价系统，由于能够自动进行语音清晰度的评价，因此不仅是针对行动不方便的用户或幼儿那样无法进行基于发生或按钮的回答的用户，在针对所有人的助听器调试中都能利用。

符号说明：

5 用户

1 语音清晰度评价装置

11 声音输出部

50 生物体信号测量部

60 阳性成分判定部

65 阴性成分判定部

70 呈现语音控制部

71 语音DB

80 语音清晰度评价部

90 刺激语音增益调整部

100 语音清晰度评价系统

200 语音清晰度评价系统

Claims

1.一种语音清晰度评价系统，其具备：

语音数据库，其保持多个语音；

呈现语音控制部，其参照所述语音数据库来决定所要呈现的语音；

输出部，其将所决定的所述语音呈现给用户；

生物体信号测量部，其测量所述用户的脑波信号；

阳性成分判定部，其判定所述脑波信号的、以所述输出部呈现语音的时刻为起点从所述起点开始600ms以上800ms以下的区间中的事件相关电位有无阳性成分；

阴性成分判定部，其判定所述脑波信号的、以所述输出部呈现语音的时刻为起点从所述起点开始100ms以上300ms以下的区间中的事件相关电位有无阴性成分；和

语音清晰度评价部，其根据从所述阳性成分判定部所取得的有无所述阳性成分的判定结果、和从所述阴性成分判定部所取得的有无所述阴性成分的判定结果，来评价所述用户是否清晰地听到所呈现的所述语音，

其中阳性成分是指大于0μV的电位，阴性成分是指小于0μV的电位。

2.根据权利要求1所述的语音清晰度评价系统，其中，

所述语音清晰度评价部，

在所述阳性成分判定部的判定结果表示不存在所述阳性成分的情况下，评价为所述用户清晰地听到了所呈现的语音，

在所述阳性成分判定部的判定结果表示存在所述阳性成分，且所述阴性成分判定部的判定结果表示不存在所述阴性成分的情况下，评价为由于整体的声压不足所述用户没有清晰地听到所呈现的语音；

在所述阳性成分判定部的判定结果表示存在所述阳性成分，且所述阴性成分判定部的判定结果表示存在所述阴性成分的情况下，评价为由于辅音频率的声压不足所述用户没有清晰地听到所呈现的语音。

3.根据权利要求1所述的语音清晰度评价系统，其中，

所述阳性成分判定部将以所述输出部呈现语音的时刻为起点从所述起点开始600ms以上800ms以下的区间中的事件相关电位的区间平均电位与规定的阈值进行比较，

在所述区间平均电位为所述阈值以上的情况下，判定为存在阳性成分，

在所述区间平均电位小于所述阈值的情况下，判定为不存在阳性成分。

4.根据权利要求1所述的语音清晰度评价系统，其中，

所述阴性成分判定部将以所述输出部呈现语音的时刻为起点从所述起点开始100ms以上300ms以下的区间中的事件相关电位的阴性的峰值的绝对值与规定阈值进行比较，

在所述峰值的绝对值为所述阈值以上的情况下，判定为存在阴性成分，

在所述峰值的绝对值小于所述阈值的情况下，判定为不存在阴性成分。

5.根据权利要求1所述的语音清晰度评价系统，其中，

所述语音数据库针对所保持的多个语音，分别对应地保持语音的种类、辅音信息的种类及与听错发生概率相关的组。

6.根据权利要求5所述的语音清晰度评价系统，其中，

所述语音清晰度评价系统还具备事件相关电位处理部，该事件相关电位处理部参照在所述语音数据库中存储的语音的种类、辅音信息的种类及与听错发生概率相关的组的对应关系，针对所述语音的种类、所述辅音信息的种类或者与所述听错发生概率相关的每个组，生成对与呈现的所述语音相对应的事件相关电位进行算术平均之后的脑波数据。

7.根据权利要求6所述的语音清晰度评价系统，其中，

所述输出部呈现多个语音，

所述阳性成分判定部及所述阴性成分判定部接收针对所呈现的所述多个语音所涉及的每个语音的种类、每个辅音的种类、或每个与所述听错发生概率相关的组进行事件相关电位的算术平均之后得到的脑波数据，

所述阳性成分判定部基于所述脑波数据，针对每个所述语音的种类、每个所述辅音的种类、或每个与所述听错发生概率相关的组判定所述事件相关电位有无阳性成分，

所述阴性成分判定部基于所述脑波数据，针对每个所述语音的种类、每个所述辅音的种类、或每个与所述听错发生概率相关的组判定所述事件相关电位有无阴性成分。

8.根据权利要求2所述的语音清晰度评价系统，其中，

所述语音数据库还保持有增益信息，该增益信息规定了与所述多个语音相关的每个频带的增益，

所述语音清晰度评价系统还具备刺激语音增益调整部，所述刺激语音增益调整部针对由所述语音清晰度评价部评价为由于整体的声压不足所述用户没有清晰地听到的语音，按照提高频带整体的增益的方式改写所述语音数据库保持的所述增益信息，此外，针对由所述语音清晰度评价部评价为由于辅音频率的声压不足所述用户没有清晰地听到的语音，计算所述语音的辅音频带，并按照提高所述辅音频带的增益的方式改写所述语音数据库保持的所述增益信息。

9.一种语音清晰度评价方法，其包括如下步骤：

准备保持了多个语音的语音数据库；

参照所述语音数据库决定所要呈现的语音；

将所决定的所述语音呈现给用户；

测量所述用户的脑波信号；

判定所述脑波信号的、以在进行呈现的步骤中呈现语音的时刻为起点从所述起点开始600ms以上800ms以下的区间中的事件相关电位有无阳性成分；

判定所述脑波信号的、以在进行呈现的步骤中呈现语音的时刻为起点从所述起点开始100ms以上300ms以下的区间中的事件相关电位有无阴性成分；和

根据有无所述阳性成分的判定结果和有无所述阴性成分的判定结果，来评价所述用户是否清晰地听到所呈现的所述语音，

10.根据权利要求9所述的语音清晰度评价方法，其中，

在进行评价的所述步骤中，

在有无所述阳性成分的判定结果表示不存在所述阳性成分的情况下，评价为所述用户清晰地听到了所呈现的语音，

在有无所述阳性成分的判定结果表示存在所述阳性成分，且有无所述阴性成分的判定结果表示不存在所述阴性成分的情况下，评价为由于整体的声压不足所述用户没有清晰地听到所呈现的语音；

在有无所述阳性成分的判定结果表示存在所述阳性成分，且有无所述阴性成分的判定结果表示存在所述阴性成分的情况下，评价为由于辅音频率的声压不足所述用户没有清晰地听到所呈现的语音。

11.一种语音清晰度评价装置，其具备：

呈现语音控制部，其参照保持了多个语音的语音数据库来决定所要呈现的语音；

阳性成分判定部，其判定生物体信号测量部测量出的用户的脑波信号的、以呈现所述语音的时刻为起点从所述起点开始600ms以上800ms以下的区间中的事件相关电位有无阳性成分；

阴性成分判定部，其判定所述脑波信号的、以呈现出所述语音的时刻为起点从所述起点开始100ms以上300ms以下的区间中的事件相关电位有无阴性成分；和

语音清晰度评价部，基于从所述阳性成分判定部所取得的有无所述阳性成分的判定结果、和从所述阴性成分判定部所取得的有无所述阴性成分的判定结果，来评价所述用户是否清晰地听到所呈现的所述语音，

12.一种语音清晰度评价系统的工作方法，该语音清晰度评价系统包括语音数据库、提示语音控制部、输出部、生物体信号测量部、阳性成分判定部、阴性成分判定部以及语音清晰度评价部，该工作方法包括如下步骤：

所述提示语音控制部参照保持了多个语音的所述语音数据库来决定所要呈现的语音；

所述输出部将所决定的所述语音呈现给用户；

所述生物体信号测量部测量所述用户的脑波信号；

所述阳性成分判定部判定所述脑波信号的、以所述输出部呈现语音的时刻为起点从所述起点开始600ms以上800ms以下的区间中的事件相关电位有无阳性成分；

所述阴性成分判定部判定所述脑波信号的、以所述输出部呈现语音的时刻为起点从所述起点开始100ms至300ms的区间中的所述事件相关电位有无阴性成分；和

所述语音清晰度评价部根据有无所述阳性成分的判定结果和有无所述阴性成分的判定结果，来评价所述用户是否清晰地听到所呈现的所述语音，

13.一种语音清晰度评价系统，其具备：

语音数据库，其保持多个语音；

输出部，其将所决定的所述语音呈现给用户；

生物体信号测量部，其测量所述用户的脑波信号；

阴性成分判定部，其判定所述脑波信号的、以所述输出部呈现语音的时刻为起点从所述起点开始100ms以上300ms以下的区间中的事件相关电位有无阴性成分；

语音清晰度评价部，其根据从所述阳性成分判定部所取得的有无所述阳性成分的判定结果、和从所述阴性成分判定部所取得的有无所述阴性成分的判定结果，来评价所述用户是否清晰地听到所呈现的所述语音；和

刺激语音增益调整部，在存在所述阳性成分且不存在所述阴性成分的情况下，提高频带整体的增益，在存在所述阳性成分且存在所述阴性成分的情况下，计算所述语音的辅音频带，提高所述辅音频带的增益，