CN110495184B

CN110495184B - 拾音装置及拾音方法

Info

Publication number: CN110495184B
Application number: CN201780088827.4A
Authority: CN
Inventors: 鹈饲训史; 川合窒登; 村松未辉雄; 井上贵之
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2021-12-03
Anticipated expiration: 2037-03-24
Also published as: EP3905718A1; EP3606090A4; US20200021932A1; WO2018173267A1; CN110495184A; JPWO2018173267A1; EP3606090A1; US10979839B2; JP6838649B2; EP3905718B1

Abstract

拾音装置具有：指向性的第1传声器、无指向性的第2传声器和电平控制部。电平控制部求出所述第1传声器的第1拾音信号及所述第2传声器的第2拾音信号的相关性，与该相关性的计算结果相应地进行所述第1拾音信号或者所述第2拾音信号的电平控制。

Description

拾音装置及拾音方法

技术领域

本发明的一个实施方式涉及使用传声器而取得声源的声音的拾音装置及拾音方法。

背景技术

在专利文献1至专利文献3中公开了下述方法，即，求出2个传声器的相干性，对说话者的声音等目标声音进行强调。

例如，专利文献2的方法使用2个无指向性传声器而求出2个信号的平均相干性，基于求出的平均相干性的值，对是否是目标语音进行判定。

专利文献1：日本特开2016－042613号公报

专利文献2：日本特开2013－061421号公报

专利文献3：日本特开2006－129434号公报

发明内容

但是，在使用2个无指向性传声器的情况下，特别是在低频成分难以产生相位差，精度降低。

因此，本发明的一个实施方式的目的在于，提供与以往相比能够高精度地降低远方的杂音的拾音装置及拾音方法。

发明的效果

根据本发明的一个实施方式，能够与以往相比高精度地降低远方的杂音。

附图说明

图1是表示拾音装置1的结构的概略图。

图2是表示传声器10A及传声器10B的指向性的俯视图。

图3是表示拾音装置1的结构的框图。

图4是表示电平控制部15的结构的一个例子的图。

图5的(A)及图5的(B)是表示增益表的一个例子的图。

图6是表示变形例1所涉及的电平控制部15的结构的图。

图7的(A)是表示指向性形成部25及指向性形成部26的功能的结构的框图，图7的(B)是表示指向性的俯视图。

图8是表示变形例2所涉及的电平控制部15的结构的图。

图9是表示强调处理部50的功能的结构的框图。

图10是表示电平控制部15的动作的流程图。

图11是表示变形例所涉及的电平控制部15的动作的流程图。

具体实施方式

本实施方式的拾音装置具有：指向性的第1传声器、无指向性的第2传声器和电平控制部。电平控制部求出所述第1传声器的第1拾音信号及所述第2传声器的第2拾音信号的相关性，与该相关性的计算结果相应地进行所述第1拾音信号或者所述第2拾音信号的电平控制。

如专利文献2(日本特开2013－061421号公报)这样，在使用2个无指向性传声器和第1指向性形成部11的情况下，期待将从θ方向到来的声音去除，但需要传声器的灵敏度一致以及在传声器的安装位置没有误差。特别地，低频成分难以产生相位差，指向性形成后的信号变得非常小，因此由于传声器的灵敏度差、设置位置等的误差而精度容易降低。

另外，远方的声音是回响音成分多，到来方向不定的声音。指向性传声器高灵敏度地对特定的方向的声音进行拾音，无指向性传声器以均等的灵敏度对全方向进行拾音。即，在指向性传声器和无指向性传声器中，针对远方的声音的拾音性能大幅地不同。拾音装置使用指向性的第1传声器和无指向性的第2传声器，因此在被输入了远方的声源的声音的情况下第1拾音信号和第2拾音信号的相关性变小，在被输入了与装置接近的声源的声音的情况下相关性的值变大。在该情况下，传声器的指向性本身任何频率下都不同，因此例如在被输入了难以产生相位差的低频成分的情况下，在远方的声源的情况下相关性也变小，不易受到传声器的灵敏度的差、配置等的误差的影响。

因此，拾音装置能够稳定且高精度地强调与装置接近的声源的声音，能够降低远方的杂音。

图1是表示拾音装置1的结构的外观的概略图。在图1中，记载拾音所涉及的主结构，没有记载其他结构。拾音装置1具有：圆筒形状的框体70、传声器10A及传声器10B。

传声器10A及传声器10B配置于框体70的上表面。但是，框体70的形状及传声器的配置方式为一个例子，并不限定于本例。

图2是表示传声器10A及传声器10B的指向性的俯视图。如图2所示，传声器10A是装置的前方(图中的左方向)的灵敏度最强，在后方(图中的右方向)没有灵敏度的指向性传声器。传声器10B是在全方向具有均一的灵敏度的无指向性传声器。

图3是表示拾音装置1的结构的框图。拾音装置1具有：传声器10A、传声器10B、电平控制部15及接口(I/F)19。

对电平控制部15输入传声器10A的拾音信号S1及传声器10B的拾音信号S2。电平控制部15对传声器10A的拾音信号S1或者传声器10B的拾音信号S2进行电平控制，输出至I/F19。

图4是表示电平控制部15的结构的一个例子的图。图10是表示电平控制部15的动作的流程图。电平控制部15具有：相干性计算部20、增益控制部21及增益调整部22。此外，电平控制部15的功能也能够由个人计算机等的一般性的信息处理装置实现。在该情况下，信息处理装置通过将在闪存等存储介质中存储的程序读出而执行，从而实现电平控制部15的功能。

对相干性计算部20输入传声器10A的拾音信号S1及传声器10B的拾音信号S2。相干性计算部20作为相关性的一个例子，对拾音信号S1及拾音信号S2的相干性进行计算。

增益控制部21基于相干性计算部20的计算结果，决定增益调整部22的增益。对增益调整部22输入拾音信号S2。增益调整部22对拾音信号S2的增益进行调整，输出至I/F 19。

此外，在本例中，成为对传声器10B的拾音信号S2的增益进行调整，输出至I/F 19的方式，但也可以设为对传声器10A的拾音信号S1的增益进行调整，输出至I/F 19的方式。但是，传声器10B是无指向性传声器，因此能够对整个周围的声音进行拾音。由此，优选对传声器10B的拾音信号S2的增益进行调整，输出至I/F 19。

相干性计算部20对拾音信号S1及拾音信号S2分别进行傅立叶变换，变换为频率轴的信号X(f，k)及Y(f，k)(S11)。“f”表示频率，“k”表示帧编号。相干性计算部20通过下面的算式1，对相干性(复交叉谱的时间平均值)进行计算(S12)。

【式1】

C_xy(f，k)＝（1-α)C_xy(f，k-1)+aX(f，k)Y(f，k)^*

P_x(f，k)＝(1-α)P_x(f，k-1)+α|X(f，k)|²

P_y(f，k)＝(1-α)P_y(f，k-1)+α|Y(f，k)|²

但是，上述算式1是一个例子。例如，相干性计算部20也可以按照下面的算式2或者算式3对相干性进行计算。

【式2】

【式3】

此外，“m”表示周期编号(表示由规定帧数构成的信号的汇总的识别编号)，“T”表示1个周期的帧数。

增益控制部21基于上述相干性，决定增益调整部22的增益。例如，增益控制部21针对全频率(频率仓的数)，求出相干性的振幅超过规定的阈值γth的频率仓的比例R(k)(S13)。

【式4】

阈值γth设定为例如γth＝0.6。此外，上述算式4中的f0为下限频率仓，f1为上限频率仓。

增益控制部21根据该比例R(k)，决定增益调整部22的增益(S14)。更具体地说，增益控制部21针对每个频率仓对相干性是否超过阈值γth进行判定，对超过该阈值的频率仓数进行合计，根据合计结果而决定增益。图5的(A)是表示增益表的一个例子的图。根据图5的(A)所示的例子的增益表，增益控制部21在比例R大于或等于规定值R1时，不衰减(增益＝1)。增益控制部21设定为在比例R从规定值R1至R2为止，随着比例R的降低，增益衰减。增益控制部21在比例R小于R2的情况下，以最小增益值维持。最小增益值可以为0，但也可以设为比0稍大的值，设为稍微能够听到声音的状态。由此，用户不会误会为由于故障等而声音中断。

相干性在2个信号的相关性高的情况下，表示高的值。远方的声音是回响音成分多、到来方向不定的声音。在本实施方式的指向性的传声器10A和无指向性的传声器10B中，针对远方的声音的拾音性能大幅地不同。因此，相干性在被输入了远方的声源的声音的情况下变小，在被输入与装置接近的声源的声音的情况下变大。

由此，拾音装置1不对从装置远离的声源的声音进行拾音，能够将与装置接近的声源的声音作为目标声音而进行强调。

此外，在上述例子中，示出了增益控制部21针对全频率求出相干性超过规定的阈值γth的频率的比例R(k)，与该比例相应地进行增益控制的例子，但例如增益控制部21也可以设为求出相干性的平均值，与该平均值相应地进行增益控制的方式。但是，在附近的声音及远方的声音中至少包含有反射音，因此存在相干性极端地降低的频率。如果包含上述的极端地低的值，则有时平均值降低。但是，上述比例R(k)仅对大于或等于阈值的频率成分以何种程度存在产生影响，是小于阈值的相干性的值本身低的值、还是为高的值，这对增益控制完全没有影响，因此通过与比例R(k)相应地进行增益控制，从而能够降低远方的杂音，能够高精度地强调目标声音。

此外，规定值R1及规定值R2可以设定为任意的值，但规定值R1与希望不衰减而拾音的最大范围相应地设定。例如，在声源的位置比半径约30cm远的情况下，在相干性的比例R的值降低的情况下，将距离成为约40cm时的相干性的比例R的值设定为规定值R1，至半径约40cm为止，能够不衰减地拾音。另外，规定值R2与希望衰减的最小范围相应地设定。例如，将距离成为100cm时的比例R的值设定为规定值R2，由此在距离大于或等于100cm时几乎不拾音，如果距离与100cm相比近，则增益逐渐地上升而被拾音。

另外，规定值R1及规定值R2可以不是固定值，而动态地变化。例如，电平控制部15求出在规定时间内的过去计算出的比例R的平均值R0(或者最大的值)，设为规定值R1＝R0+0.1、规定值R2＝R0－0.1。由此，成为以当前的声源的位置为基准，比该声源的位置接近的范围的声音被拾音，比声源的位置远的范围的声音不被拾音的状态。

此外，图5的(A)的例子为从规定距离(例如30cm)起增益急剧地降低，大于或等于规定距离(例如100cm)的声源几乎不被拾音的方式，类似于限制器的功能。但是，增益表除此以外如图5的(B)所示，还可以考虑各种方式。在图5的(B)的例子中，是与比例R相应地增益逐渐地降低，从规定值R1起增益的降低程度变大，在大于或等于规定值R2时，增益再次逐渐地降低的方式，类似于压缩器的功能。

接下来，图6是表示变形例1所涉及的电平控制部15的结构的图。电平控制部15具有指向性形成部25及指向性形成部26。图11是表示变形例1所涉及的电平控制部15的动作的流程图。图7的(A)是表示指向性形成部25及指向性形成部26的功能的结构的框图。

指向性形成部25将传声器10B的输出信号M2直接作为拾音信号S2而输出。指向性形成部26如图7的(A)所示，具有减法部261及选择部262。

减法部261从传声器10B的输出信号M2减去传声器10A的输出信号M1而输入至选择部262。

选择部262将传声器10A的输出信号M1的电平与从传声器10B的输出信号M2减去传声器10A的输出信号M1得到的差分信号的电平进行比较，将高电平侧的信号作为拾音信号S1而输出(S101)。如图7的(B)所示，从传声器10B的输出信号M2减去传声器10A的输出信号M1得到的差分信号，成为将传声器10B的指向性反转后的状态。

设为上述方式，变形例1所涉及的电平控制部15即使在使用具有指向性(不对特定的方向的声音具有灵敏度)的传声器的情况下，也能针对装置的整个周围而具有灵敏度。在该情况下，拾音信号S1具有指向性，拾音信号S2为无指向性，因此针对远方的声音的拾音性能也不同。由此，变形例1所涉及的电平控制部15针对装置的整个周围具有灵敏度，并且不对从装置远离的声源的声音进行拾音，能够将与装置接近的声源的声音作为目标声音而进行强调。

接下来，图8是表示变形例2所涉及的电平控制部15的结构的图。电平控制部15具有强调处理部50。对强调处理部50输入拾音信号S1，执行对目标声音(由与装置接近的说话者发出的声音)进行强调的处理。强调处理部50例如对噪声成分进行推定，通过使用该推定出的噪声成分的谱减法，将噪声成分去除，由此强调目标声音。

或者，强调处理部50也可以进行以下所示的强调处理。图9是表示强调处理部50的功能的结构的框图。

人声成为针对每个规定的频率而具有峰值成分的谐波构造。因此，梳状滤波器设定部75如以下的算式5所示，求出使人声的峰值成分通过、将除了峰值成分以外的成分去除的增益特性G(f，t)，作为梳状滤波器76的增益特性而设定。

【式5】

z(c，t)＝DFT_f→c{log|X(f，t)|}

c_peak(t)＝argmax_c{z(c，t)}

C(f，t)＝G(f，t)^ηZ(f，t)

即，梳状滤波器设定部75对拾音信号S2进行傅立叶变换，将对振幅进行了对数运算后的结果进一步进行傅立叶变换而求出倒谱z(c，t)。梳状滤波器设定部75对将该倒谱z(c，t)设为最大的c的值c_peak(t)＝argmax_c{z(c，t)}进行提取。梳状滤波器设定部75在c的值为c_peak(t)及其近旁以外的情况下，设为倒谱值z(c，t)＝0，对倒谱的峰值成分进行提取。梳状滤波器设定部75将该峰值成分z_peak(c，t)恢复为频率轴的信号，设为梳状滤波器76的增益特性G(f，t)。由此，梳状滤波器76成为对人声的谐波成分进行强调的滤波器。

此外，增益控制部21可以基于相干性计算部20的计算结果，对通过梳状滤波器76实现的强调处理的强度进行调整。例如，增益控制部21在上述的比例R(k)的值大于或等于规定值R1的情况下，将通过梳状滤波器76实现的强调处理开启，在上述的比例R(k)的值小于规定值R1的情况下，将通过梳状滤波器76实现的强调处理关闭。在该情况下，通过梳状滤波器76实现的强调处理也包含于与相关性的计算结果相应地进行拾音信号S2(或者拾音信号S1)的电平控制的一个方式。因此，拾音装置1也可以仅进行通过梳状滤波器76实现的目标声音的强调处理。

此外，电平控制部15例如可以对噪声成分进行推定，通过使用该推定出的噪声成分的谱减法，将噪声成分去除，由此执行对目标声音进行强调的处理。并且，电平控制部15也可以基于相干性计算部20的计算结果，对噪声去除处理的强度进行调整。例如，电平控制部15在上述的比例R(k)的值大于或等于规定值R1的情况下，将通过噪声去除处理实现的强调处理开启，在上述的比例R(k)的值小于规定值R1的情况下，将通过噪声去除处理实现的强调处理关闭。在该情况下，通过噪声去除处理实现的强调处理也包含于与相关性的计算结果相应地进行拾音信号S2(或者拾音信号S1)的电平控制的一个方式。

最后，应该认为本实施方式的说明的所有方面都是例示，且并不是限制性的内容。本发明的范围不是由上述的实施方式表示，而是由权利要求书表示。并且，本发明的范围包含与权利要求书等同的范围。

标号的说明

1…拾音装置

10A、10B…传声器

15…电平控制部

19…I/F

20…相干性计算部

21…增益控制部

22…增益调整部

25、26…指向性形成部

50…强调处理部

57…频带分割部

59…频带合成部

70…框体

75…梳状滤波器设定部

76…梳状滤波器

261…减法部

262…选择部。

Claims

1.一种拾音装置，其具有：

指向性的第1传声器；

无指向性的第2传声器；以及

电平控制部，其求出从所述第1传声器生成的第1拾音信号及从所述第2传声器生成的第2拾音信号的相关性，与该相关性的计算结果相应地进行所述第1拾音信号或者所述第2拾音信号的电平控制，

所述相关性包含相干性，

所述电平控制部基于所述相干性超过规定的阈值的频率成分的比例，进行所述电平控制，从而降低远方的杂音。

2.根据权利要求1所述的拾音装置，其中，

所述电平控制部具有选择部，该选择部将所述第1传声器的输出信号和从所述第2传声器的输出信号减去所述第1传声器的输出信号得到的差分信号中的高电平的信号的任一信号作为所述第1拾音信号而选择。

3.根据权利要求1或2所述的拾音装置，其中，

所述电平控制部对噪声成分进行推定，作为所述电平控制，进行将该推定出的噪声成分从所述第1拾音信号或者所述第2拾音信号去除的处理。

4.根据权利要求3所述的拾音装置，其中，

所述电平控制部与所述相关性的计算结果相应地，将去除所述噪声成分的处理开启或者关闭。

5.根据权利要求1或2所述的拾音装置，其中，

所述电平控制部具有梳状滤波器，该梳状滤波器将基于人声的谐波成分去除。

6.根据权利要求5所述的拾音装置，其中，

所述电平控制部与所述相关性的计算结果相应地，将通过所述梳状滤波器实现的处理开启或者关闭。

7.根据权利要求1或2所述的拾音装置，其中，

所述电平控制部具有增益控制部，该增益控制部对所述第1拾音信号或者所述第2拾音信号的增益进行控制。

8.根据权利要求7所述的拾音装置，其中，

所述电平控制部基于所述相干性超过规定的阈值的频率成分的比例，对所述增益控制部的增益进行变更。

9.根据权利要求8所述的拾音装置，其中，

所述电平控制部在所述比例小于第1阈值的情况下，与所述比例相应地使所述增益衰减。

10.根据权利要求9所述的拾音装置，其中，

所述第1阈值是基于在规定时间内计算出的所述比例而决定的。

11.根据权利要求8至10中任一项所述的拾音装置，其中，

所述电平控制部在所述比例小于第2阈值的情况下，将所述增益设定为最小增益。

12.根据权利要求1所述的拾音装置，其中，

所述电平控制部针对每个频率对所述相关性是否超过所述阈值进行判定，作为将超过该阈值的频率的数进行合计得到的合计结果，求出所述频率成分的比例，与所述合计结果相应地进行所述电平控制。

13.一种拾音方法，其求出指向性的第1传声器的第1拾音信号及无指向性的第2传声器的第2拾音信号的相关性，与该相关性的计算结果相应地进行所述第1拾音信号或者所述第2拾音信号的电平控制，

在所述拾音方法中，

所述相关性包含相干性，

基于所述相干性超过规定的阈值的频率成分的比例，进行所述电平控制，从而降低远方的杂音。

14.根据权利要求13所述的拾音方法，其中，

将所述第1传声器的输出信号和从所述第2传声器的输出信号减去所述第1传声器的输出信号得到的差分信号中的高电平的信号的任一信号作为所述第1拾音信号而选择。

15.根据权利要求13或14所述的拾音方法，其中，

对噪声成分进行推定，作为所述电平控制，进行将该推定出的噪声成分从所述第1拾音信号或者所述第2拾音信号去除的处理。

16.根据权利要求15所述的拾音方法，其中，

与所述相关性的计算结果相应地，将去除所述噪声成分的处理开启或者关闭。

17.根据权利要求13或14所述的拾音方法，其中，

使用将基于人声的谐波成分去除的梳状滤波器。

18.根据权利要求17所述的拾音方法，其中，

与所述相关性的计算结果相应地，将通过所述梳状滤波器实现的处理开启或者关闭。