CN102667926A

CN102667926A - 声音控制装置以及声音控制方法

Info

Publication number: CN102667926A
Application number: CN2009801630621A
Authority: CN
Inventors: 外川太郎; 大谷猛; 铃木政直; 大田恭士
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-12-21
Filing date: 2009-12-21
Publication date: 2012-09-12
Also published as: US20120259640A1; JP5331901B2; EP2518723A1; WO2011077509A1; EP2518723A4; JPWO2011077509A1

Abstract

使用控制并输出第1声音信号的声音控制装置，该声音控制装置具备：分析单元，其对输入的第2声音信号的声音特性进行分析；和控制单元，其基于由上述分析单元分析出的声音特性，来对输入的上述第1声音信号的频谱的放大进行控制。

Description

声音控制装置以及声音控制方法

技术领域

本发明涉及控制声音信号的声音控制装置以及声音控制方法。

背景技术

在声音增强技术中存在变更接听声音的声音特性来使接听声音易于听取的技术。例如，公开了一种从预先录入的患者信息数据库中获取患者的年龄，并根据年龄来改变接听声音的放大量，从而使接听声音易于听取的系统。

另外，公开了一种通过用户进行的开关操作来切换接听声音的频率特性，从而使接听声音易于听取的内部通话设备（interphone）。另外，公开了由年龄、性别的差异而产生的听觉特性的差异。

专利文献1：日本特开2007－318577号公报

专利文献2：日本特开平11－261709号公报

非专利文献1：山本泰四郎著“面向高龄者的建筑环境”，彰国社发行，1994年1月10日发行，p．72－73

在前述的现有技术中，需要向数据库录入年龄信息和向增强装置录入用户识别信息，为了对大多数用户实现效果，需要大数据容量，非常麻烦。另外，因为需要预先录入，所以对不特定的用户而言不能发挥效果，并且由于未考虑按每个增强装置来变更用户识别信息，所以在中途更换用户的情况下也不能发挥效果。

另外，在前述的其他现有技术中，需要手动进行切换频率特性的操作，对于不习惯切换操作的用户来说不能发挥效果。

发明内容

于是，本发明的目的在于，分析用户的通话信号，并基于分析结果使得向用户输出的声音易于听取。

本发明公开的声音控制装置是控制并输出第1声音信号的声音控制装置，该声音控制装置具备分析单元，其对输入的第2声音信号的声音特性进行分析；和控制单元，其基于由上述分析单元分析出的声音特性，来对输入的上述第1声音信号的频谱的放大进行控制。

另外，本发明公开的声音控制方法是控制并输出第1声音信号的声音控制装置中的声音控制方法，该声音控制方法具有：对输入的第2声音信号的声音特性进行分析的分析步骤；和基于由上述分析步骤分析出的声音特性，来对输入的上述第1声音信号的频谱的放大进行控制的控制步骤。

根据本发明公开的声音控制装置，能够控制成分析用户的通话信号，并基于分析结果使得向用户输出的声音易于听取。

附图说明

图1是表示由年龄、性别产生的听觉特性的差异的图。

图2是表示实施例1所涉及的声音控制装置10的功能构成的一个例子的框图。

图3是表示实施例2所涉及的声音控制装置20的功能构成的一个例子的框图。

图4是说明功率（power）在高频处的斜率因性别而产生的差异的图。

图5是表示实施例2中的放大信息的一个例子的图。

图6是表示实施例2中的声音控制处理的一个例子的流程图。

图7是表示实施例3所涉及的声音控制装置30的功能构成的一个例子的框图。

图8是说明共振峰频率因性别产生的差异的图。

图9是表示实施例3中的放大信息的一个例子的图。

图10是表示实施例3中的声音控制处理的一个例子的流程图。

图11是表示实施例4所涉及的声音控制装置40的功能构成的一个例子的框图。

图12是表示实施例4中的放大信息407的一个例子的图。

图13是表示实施例4中的声音控制处理的一个例子的流程图。

图14是表示实施例5所涉及的移动电话的一个例子的图。

附图标记说明

10、20、30、40…声音控制装置；101、201、301…特征分析部；103、205、305…控制部；203…斜率计算部；207、307、403…决定部；209、309、405…判定部；211…放大部；213、311、407…放大信息；303…共振峰计算部；401…噪声检测部。

具体实施方式

以下，基于附图对实施例进行说明。

[实施例1]

首先，对非专利文献1中记载的听觉特性由年龄产生的差异、由性别产生的差异进行说明。图1是表示以20多岁为基准的、由年龄、性别产生的听觉特性的差异的图（非专利文献1）。如图1所示，存在男性与女性相比声音更难以听取，尤其是越高频，由性别产生的差越大的特征。

以下说明利用图1所示那样的由性别产生的听觉特性的差异，基于用户说话发出的声音信号（以下，也称为“通话信号”。），控制成易于听取的输出音的声音控制装置。

〈功能构成〉

图2是表示实施例1所涉及的声音控制装置10的功能构成的一个例子的框图。图2所示的声音增强装置10包括特征分析部101和控制部103。声音控制装置10对输入到声音控制装置10的第2声音信号（例如，通话信号）的声音特性进行分析，并基于分析出的声音特性对从声音控制装置10输出的第1声音信号（例如，接听信号）进行放大。

图2所示的特征分析部101对用户的通话信号的声音特征量进行计算。声音特征量例如是频谱在规定频带中的斜率、共振峰频率等。特征分析部101将计算出的声音特征量输出给控制部103。

控制部103基于获取到的声音特征量，对从声音控制装置10输出的声音信号的频谱进行放大。关于声音信号的频谱的放大，事先在存储器中存储与声音特征量的值对应的放大频带、放大量，控制部103参照该存储器，决定与声音特征量对应的放大频带、放大量。

接下来，控制部103对输入的声音信号（接听信号）的频谱，以决定的放大量来放大决定的放大频带的频谱并输出。

由此，基于用户说话发出的声音的声音特性，进行输出的接听声音的控制，从而能够根据用户说话发出的声音特性，使输出音易于听取。

[实施例2]

接下来，对实施例2的声音控制装置20进行说明。在实施例2中，在特征分析部201中，计算出功率谱的斜率。另外，在实施例2中，基于功率谱的斜率来决定放大频带以及放大量，对输出的声音信号的频谱进行放大。

〈功能构成〉

图3是表示实施例2所涉及的声音控制装置20的功能构成的一个例子的框图。如图3所示，声音控制装置20包括特征分析部201和控制部205。另外，特征分析部201包括斜率计算部203，控制部205包括决定部207、放大部211、和放大信息213。

斜率计算部203获取用户从话筒217发出的通话信号，逐帧地对通话信号进行频谱变换。接下来，斜率计算部203对功率在功率谱（以下，也简称为“功率”）的高频处的斜率进行计算。此处，如图4所示，功率在高频中的斜率出现男女差异。

图4是说明功率在高频处的斜率因性别而产生差异的图。图4的实验条件如下。

·对男女各7名的对话（使用记录在出售的DB中的对话）进行频谱变换，取其平均

·1帧采用160样本（8kHz取样）

·逐帧地求出高频的功率的斜率（2250～2750的平均功率－2750～3250的平均功率）

·计算高频的功率的斜率在2秒间的平均值

图4以简略的波形表示上述实验结果。如图4所示，可知男性的斜率a1的绝对值比女性的斜率a2的绝对值大。在实施例2中，使用该斜率的差异来判定男女的性别。以下，斜率表示斜率的绝对值。

返回图3，斜率计算部203向决定部207输出根据图4所示的条件计算出的功率的斜率。此外，计算功率的斜率的条件并不限于利用图4说明的条件，只要是斜率出现男女的差异这样的条件即可。

此外，斜率计算部203可以在每次获取通话信号时计算斜率，也可以按每个规定时间计算斜率。如果按每个规定时间计算斜率，则能够减少斜率计算中的运算。另外，斜率计算部203在一开始计算斜率后，只在斜率以规定的阈值（后述的阈值TH1）为界变化时，将计算出的斜率输出给决定部207即可。由此，决定部207能够只在需要时决定放大频带以及放大量。

决定部207基于从特征分析部201获取的功率的斜率，来决定放大频带以及放大量。具体而言，决定部207通过参照图5所示的放大信息213来决定放大频带以及放大量。

图5是表示实施例2中的放大信息的一个例子的图。如图5所示，放大信息中，对应于斜率的值，使放大频带以及放大量相关联。例如，如果斜率的值比阈值TH1小，则放大频带为3～4kHz、放大量为5dB。此处，基于图1所示的数据决定放大频带以及放大量，但是并不局限于此，通过实验等设定为适当的值即可。在决定部207外部的存储器存储放大信息213，或者在决定部207内部保持放大信息213即可。

返回图3，决定部207包括判定部209，判定部209判定功率的斜率是否是阈值TH1以上。此处，阈值TH1例如设为4（dB／kHz）。此外，判定部207也可以判定为斜率是TH1以上则为男性，斜率比TH1小则为女性。

决定部207根据判定部209的判定结果，参照放大信息213来决定放大频带以及放大量。例如，如果斜率是TH1以上，则放大频带作为2～4kHz，放大量作为10dB。决定部207将决定的放大频带以及放大量输出给放大部211。

若放大部211从决定部211获取放大频带以及放大量，则对获取的声音信号进行时间频率变换来生成频谱。接下来，放大部211对生成的频谱，在放大频带中放大放大量，对放大的频谱进行频率时间变换。接下来，放大部211向扬声器215输出被放大的声音信号。此外，放大部211进行时间频率变换以及频率时间变换，但这些处理也可以在放大部211外部进行。

扬声器215输出被增强的声音。

〈动作〉

接下来，对实施例2的声音控制装置20的动作进行说明。图6是表示实施例2的声音控制处理的一个例子的流程图。在图6所示的步骤S101中，放大部211读入接听信号。

在步骤S102中，斜率计算部203读入通话信号。此外，不限步骤S101与S102的顺序。在步骤S103中，斜率计算部203对通话信号的高频的功率谱的斜率进行计算。此处，所谓高频，例如为2250kHz以上的频谱。2250kHz前后是在男性的频谱中开始出现特征的分支点（参照图4）。

在步骤S104中，决定部207基于功率谱的斜率，参照放大信息来决定放大频带以及放大量。

在步骤S105中，放大部211对接听信号的高频的频谱，以决定的放大量来放大决定的放大频带的频谱。对被放大的频谱进行频率时间变换，再输出。

此外，步骤S103的斜率计算处理、步骤S104的放大频带以及放大量的决定处理可以如前述那样，在需要时处理。此外，接听信号包含预先存储在存储部中的声音信号、经由网络接收的声音信号。

以上，根据实施例2，基于用户的通话信号计算出高频的谱功率的斜率，根据该斜率来放大接听信号，从而能够输出被增强的声音。

[实施例3]

接下来，对实施例3的声音控制装置30进行说明。实施例3中，在特征分析部301中计算共振峰频率。而且，实施例3中，基于共振峰频率，决定放大频带以及放大量，并对输出的声音信号的频谱进行放大。

〈功能构成〉

图7是表示实施例3所涉及的声音控制装置30的功能构成的一个例子的框图。在图7所示的功能中，与图3所示的功能相同的功能的部分标注相同的附图标记，省略其说明。

特征分析部301包括共振峰计算部303，共振峰计算部303例如对通话信号进行线性预测（LPC）分析，提取峰值，从而提取共振峰频率。另外，共振峰计算部303也能够进行线谱对（LSP）分析来提取共振峰频率。此外，共振峰计算部303使用任意的现有技术来计算出共振峰频率即可。此处，如图8所示，在共振峰频率中出现男女的差异。

图8是说明共振峰频率因性别产生的差异的图。图8的实验条件如下。

·男女各1名

·对于各母音目测功率谱的优势频率（共振峰频率）

图8表示上述实验结果的一个例子。此外，希望参考URL（http://www.mars.dti.ne.jp/～stamio/sound.htm）作为上述实验的参考。图8所示的例子中，是分男女从低频依次表示第1共振峰、第2共振峰、和第3共振峰的图。如图8所示，可知在第2共振峰、第3共振峰中，男性与女性相比共振峰频率小。在实施例3中，使用该共振峰频率的差异来判定男女的性别。

返回图7，共振峰计算部303向决定部307输出对2秒左右的声音数据，逐帧地提取出的共振峰频率。

此外，共振峰计算部303也可以按每个规定时间来计算共振峰频率。如果按每个规定时间计算共振峰频率，则能够减少共振峰频率计算中的运算。另外，共振峰计算部303在一开始计算共振峰频率之后，只在满足以下的条件时，向决定部307输出共振峰频率即可。条件是第1规定频带中的共振峰频率的总数与第2规定频带中的共振峰频率的总数的大小逆转。由此，决定部307能够只在需要时决定放大频带以及放大量。

决定部307基于从特征分析部301获取到的共振峰频率，来决定放大频带以及放大量。具体而言，决定部307通过参照图9所示的放大信息311，来决定放大频带以及放大量。

图9是表示实施例3的放大信息的一个例子的图。如图9所示，放大信息中根据以TH2为界的2个规定频带中的共振峰频率的总数的大小，使放大频带以及放大量相关联。例如，在TH2以上的规定频带（第1频带）的共振峰频率的总数与比TH2小的规定频带（第2频带）中的共振峰频率的总数相比多的情况下，放大频带是3～4kHz，放大量是5dB。在决定部307外部的存储器存储放大信息311，或者在决定部307内部保持放大信息311即可。

TH2例如是2750Hz。如果TH2是2750Hz，则第2频带例如是2250～2750Hz，第1频带是2750～3250Hz的频带。此外，上述例子仅仅是一个例子。

返回图7，决定部307包括判定部309，判定部309判定第1频带中的共振峰频率的总数与第2频带中的共振峰频率的总数哪个多。此外，判定部207还可以判定为第1频带的总数多则是女性，第2频带的总数多则是男性。这是利用如图8所示，女性在3000Hz存在母音的共振峰频率，而男性几乎不存在3000Hz的共振峰频率。

决定部307根据判定部309的判定结果，参照放大信息311来决定放大频带以及放大量。例如，如果第2频带的总数多，则放大频带设为2～4kHz，放大量设为10dB。决定部307向放大部211输出所决定的放大频带以及放大量。放大部211如前述。

〈动作〉

接下来，对实施例3中的声音控制装置的动作进行说明。图10是表示实施例3的声音控制处理的一个例子的流程图。在图10所示的处理中，进行与图6所示的处理相同的处理的部分标注相同的附图标记，省略其说明。

在步骤S201中，共振峰计算部303计算通话信号的共振峰频率。

在步骤S202中，决定部307基于共振峰频率，参照放大信息来决定放大频带以及放大量。具体的决定处理如前述。

在步骤S105中，与实施例2相同，放大部211对接听信号的高频的频谱，以决定的放大量放大所决定的放大频带的频谱。

以上，根据实施例3，根据用户的通话信号来计算共振峰频率，并根据该共振峰频率来放大接听信号，从而能够输出被增强的声音。

[实施例4]

接下来，对实施例4的声音控制装置40进行说明。实施例4中，在实施例1的构成的基础上，新添加了噪声检测部401。而且，实施例4中，还考虑由噪声检测部401检测出的噪声水平来决定放大频带以及放大量，对输出的声音信号的频谱进行放大。

〈功能构成〉

图11是表示实施例4所涉及的声音控制装置40的功能构成的一个例子的框图。在图11所示的功能中，与图3所示的功能相同的功能的部分标注相同的附图标记，省略其说明。

噪声检测部401使用现有的噪声检测技术，根据通话信号来检测周围的噪声水平。作为现有的噪声检测技术的一个例子，有计算长时间平均大小，根据该值和大小比较结果，将声音与噪声分离的方法。噪声检测部401将检测出的噪声水平输出给决定部403。

决定部403基于从斜率计算部203获取的斜率、和从噪声检测部401获取的噪声水平，来决定放大频带以及放大量。决定部403包括判定部405，判定部405除了实施例2的功能之外，还判定噪声水平是否是阈值3以上。阈值TH3通过实验设定为适当的值即可。

决定部403基于判定部405的判定结果，参照放大信息407来决定放大频带以及放大量。图12是表示实施例4中的放大信息407的一个例子的图。图12所示的例子中，基于噪声水平是否是TH3以上、和斜率是否是TH1以上来变更放大频带以及放大量。例如，如果噪声水平是TH3以上、并且斜率是TH1以上，则放大频带设为1～4kHz，放大量设为15dB。

如果通过决定部403决定了放大频带以及放大量，则放大部211如前述，基于所决定的放大频带以及放大量来放大接听信号。

关于TH3，例如，设定为无法进行基于斜率的判定的程度的大小的值。此时，如果噪声水平是TH3以上，则可以与斜率无关地将规定频带作为放大频带以及将规定的量作为放大量。这是因为如果噪声水平为一定以上则不能进行基于斜率的判定。此时的规定频带可以为噪声水平比HT3小的情况下的平均的频带，规定的放大量可以为噪声水平比TH3小的情况下的平均的放大量。

由此，在无法进行基于斜率的性别判定时，对接听信号放大男女的平均值，从而能够应对男性女性这两种情况。

〈动作〉

接下来，对实施例4中的声音控制装置40的动作进行说明。图13是表示实施例4中的声音控制处理的一个例子的流程图。在图13所示的处理中，进行与图6所示的处理相同的处理的部分标注相同的附图标记，省略其说明。

在步骤S301中，噪声检测部401对通话信号的噪声水平进行检测。

在步骤S302中，决定部403基于斜率以及噪声水平，参照放大信息来决定放大频带以及放大量。具体的决定处理如前述。

在步骤S105中，与实施例2相同，放大部211对接听信号的高频的频谱以决定的放大量放大所决定的放大频带的频谱。

以上，根据实施例4，根据用户的通话信号来检测噪声水平以及计算功率谱在高频处的斜率，并根据该噪声水平以及斜率来放大接听信号，从而能够输出被增强的声音。

此外，在实施例4中，对在实施例2的声音控制装置20的构成中添加噪声检测部401的构成进行了说明，但也可以在实施例1、实施例3所涉及的声音控制装置30的构成中添加噪声检测部401。

此外，上述各实施例说明了对放大频带一律放大放大量的例子，但也可以对放大频带，越高频越增加放大量。另外，基于图1所示的数据、其他的实验结果来适当地设定放大频带、放大量即可。另外，关于放大信息407，也可以使噪声水平的阈值增加至2以上。另外，放大部未必需要只放大高频，也可以在低频放大需要量。

[实施例5]

接下来，对实施例5所涉及的移动电话进行说明。在实施例5中，表示将实施例1的声音控制装置10作为硬件的声音控制部设置在移动电话中的例子。其中，并不局限于实施例1，可以将实施例2至4中任意一个声音控制装置设置在移动电话中。在实施例5中，也可以将前述的声音控制处理作为软件设置在移动电话中，而并不是将上述实施例的声音控制装置作为硬件的声音控制部来设置。

图14是表示实施例5所涉及的移动电话的一个例子的图。图5所示的移动电话50对基站60收发编码后的通话信号。

图14所示的移动电话50包括A／D变换部501、编码部502、发送部503、接收部504、解码部505、声音控制装置10、和D／A变换部506。

A／D变换部501对从话筒217输出的通话音进行模拟数字变换。变换后的信号（通话信号）输出给声音控制装置10以及编码部502。

编码部502使用移动电话的一般的声音编码技术来生成编码信号。发送部503向基站60发送被编码部502编码的编码信号。

接收部504从基站60接收编码信号。解码部505解码编码信号，并变换为声音信号（接听信号）。

此处，声音控制装置10根据通话信号求出声音特性，并基于求出的声音特性来放大接听信号。而且，声音控制装置10将被放大的声音信号输出给D／A变换部506。

D／A变换部506对被放大的声音信号进行数字模拟变换。变换为模拟信号的声音信号作为被增强的接听音通过扬声器215输出。

在实施例5中，说明了在移动电话中设置声音控制装置10的例子，但设置的设备并不只限于移动电话。例如，前述的各声音控制装置或者前述的各声音控制处理能够用于电视电话会议装置、用户发声自动响应装置等信息处理装置。也可以包括移动电话、电视电话会议、自动响应装置的各功能而称之为声音控制装置。

此外，在实施例5中，如果解码部505和声音控制装置10作为一个构成，则能够省略在声音控制装置10内进行的时间频率变换。另外，在上述各实施例中，对增强声音的例子进行了说明，但根据情况，不光使频谱放大，也能够使频谱的增益减小。另外，在上述各实施例中，关于接听声音，不光是声音，也可以控制音乐等的频谱成分，控制为使用户易于听取的输出音。

另外，在前述的各实施例所说明的声音控制处理也可以作为用于使计算机执行的程序来实现。从服务器等安装该程序来使计算机执行，从而能够实现前述的声音控制处理。

另外，也能够在记录介质（CD－ROM、SD卡等）记录该程序，并使计算机、移动终端读取记录该程序的记录介质，实现前述的声音控制处理。其中，记录介质是如CD－ROM、软盘、光磁盘等，光学性、电气性或者磁性地记录信息的记录介质，如ROM、闪存等，电气性地记录信息的半导体存储器等，能够使用各种类型的记录介质。另外，前述的各实施例所说明的声音控制处理可以安装在一个或者多个集成电路中。

以上，详述了实施例，但并不限于特定的实施例，能够在在权利要求书所记载的范围内进行各种变形以及变更。

Claims

1.一种声音控制装置，控制并输出第1声音信号，该声音控制装置的特征在于，具备：

分析单元，其对输入的第2声音信号的声音特性进行分析；和

控制单元，其基于由所述分析单元分析出的声音特性，来对输入的所述第1声音信号的频谱的放大进行控制。

2.根据权利要求1所述的声音控制装置，其特征在于，

所述分析单元具备计算单元，该计算单元计算频谱在所述第2声音信号的高频处的斜率作为所述声音特性，

所述控制单元具备：

决定单元，其基于所述斜率来决定所述第1声音信号的频谱的放大频带以及放大量；和

放大单元，其根据所决定的所述放大频带以及所述放大量，来对所述第2声音信号的频谱进行放大。

3.根据权利要求1所述的声音控制装置，其特征在于，

所述分析单元具备计算单元，该计算单元计算所述第2声音信号的共振峰频率作为所述声音特性，

所述控制单元具备：

决定单元，其基于所述共振峰频率来决定所述第1声音信号的频谱的放大频带以及放大量；和

放大单元，其根据所决定的所述放大频带以及所述放大量，来对所述第1声音信号的频谱进行放大。

4.根据权利要求1～3中任意一项所述的声音控制装置，其特征在于，

所述第2声音信号是输入到所述声音控制装置的通话信号，所述第1声音信号是从所述声音控制装置输出的接听信号。

5.根据权利要求2～4中任意一项所述的声音控制装置，其特征在于，

所述决定单元基于使所述放大频带以及所述放大量与所述声音特性对应后的放大信息，来决定所述第1声音信号的频谱的放大频带以及放大量。

6.根据权利要求2～5中任意一项所述的声音控制装置，其特征在于，

所述决定单元基于所述声音特性来判定性别，并根据所述性别的判定结果来决定所述放大频带以及所述放大量。

7.根据权利要求1～6中任意一项所述的声音控制装置，其特征在于，

还具备噪声检测单元，该噪声检测单元检测所述第2声音信号所包含的噪声，

所述控制单元基于检测出的所述噪声以及分析出的所述声音特性，来对所述第1声音信号的频谱的放大进行控制。

8.一种声音控制方法，是控制并输出第1声音信号的声音控制装置中的声音控制方法，该声音控制方法的特征在于，具有：

分析步骤，对输入的第2声音信号的声音特性进行分析；和

控制步骤，基于由所述分析步骤分析出的声音特性，来对输入的所述第1声音信号的频谱的放大进行控制。