JP6577930B2 - Feature extraction device, acoustic model learning device, acoustic model selection device, feature extraction method, and program - Google Patents
Feature extraction device, acoustic model learning device, acoustic model selection device, feature extraction method, and program Download PDFInfo
- Publication number
- JP6577930B2 JP6577930B2 JP2016225632A JP2016225632A JP6577930B2 JP 6577930 B2 JP6577930 B2 JP 6577930B2 JP 2016225632 A JP2016225632 A JP 2016225632A JP 2016225632 A JP2016225632 A JP 2016225632A JP 6577930 B2 JP6577930 B2 JP 6577930B2
- Authority
- JP
- Japan
- Prior art keywords
- impulse response
- acoustic
- feature amount
- acoustic model
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 31
- 230000004044 response Effects 0.000 claims description 106
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000005259 measurement Methods 0.000 claims description 14
- 238000013500 data storage Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 7
- 238000005094 computer simulation Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- User Interface Of Digital Computer (AREA)
Description
この発明は、ユーザ環境の音響特性を表すインパルス応答から特徴量を抽出し、インパルス応答の類似性を評価する技術に関する。 The present invention relates to a technique for extracting a feature amount from an impulse response representing an acoustic characteristic of a user environment and evaluating the similarity of the impulse response.
音声を入力インターフェースとして扱うシステムにおいて、その性能はユーザ利用環境に大きく影響される。性能劣化の要因としては、発話による要因と音環境による要因とが考えられる。音環境による要因を改善するためには、ユーザ環境をシステム上で再現する必要がある。そのような従来技術としては、実環境で収録したデータを用いて再現する手法と、計算機シミュレーション上でユーザ環境を模擬する手法とがある。非特許文献1には、人工残響インパルス応答をクリーン音声に畳み込んで生成した学習用音声から音響モデルを学習し、音声認識性能を測定する手法が記載されている。 In a system that handles audio as an input interface, its performance is greatly affected by the user usage environment. As a factor of performance deterioration, a factor due to speech and a factor due to sound environment can be considered. In order to improve the factors caused by the sound environment, it is necessary to reproduce the user environment on the system. As such conventional technologies, there are a method of reproducing using data recorded in an actual environment and a method of simulating a user environment on a computer simulation. Non-Patent Document 1 describes a method of learning an acoustic model from learning speech generated by convolving an artificial reverberation impulse response with clean speech and measuring speech recognition performance.
実環境で音声データを収録する場合、大きなコストがかかるという問題がある。計算機シミュレーション上でユーザ環境を模擬する場合、コストを削減することが可能であるが、模擬するための指針を決める必要がある。ユーザ環境で取得される情報(インパルス応答)から特徴量を抽出し、その特徴量に基づいて音響特性の類似度を算出することができれば、ユーザ環境を模擬するための適切なデータを選択することができると考えられる。しかしながら、どのような特徴量であれば適切に音響特性の類似度を評価できるかは明らかでなかった。 When recording audio data in a real environment, there is a problem that it costs a lot. When simulating a user environment on a computer simulation, it is possible to reduce costs, but it is necessary to determine guidelines for simulating. If a feature amount is extracted from information (impulse response) acquired in the user environment and the similarity of the acoustic characteristics can be calculated based on the feature amount, appropriate data for simulating the user environment is selected. It is thought that you can. However, it has not been clear what feature quantity can appropriately evaluate the similarity of acoustic characteristics.
この発明の目的は、上述のような点に鑑みて、インパルス応答の特徴量に基づいてユーザ環境に適合したデータを選択することができる特徴量抽出技術を提供することである。 In view of the above points, an object of the present invention is to provide a feature amount extraction technique that can select data suitable for a user environment based on a feature amount of an impulse response.
上記の課題を解決するために、この発明の第一の態様の特徴量抽出装置は、インパルス応答における後部残響のパワーが全体のパワーに占める割合を表す特徴量を算出する特徴量算出部と、ユーザ環境のインパルス応答を測定するインパルス応答測定部と、複数の相異なる音響環境に関連するデータとその音響環境で測定したインパルス応答から算出した特徴量とを関連付けて記憶するデータ記憶部と、ユーザ環境のインパルス応答から算出した特徴量と音響環境のインパルス応答から算出した特徴量との距離に基づいてユーザ環境に対応する音響環境に関連するデータを選択するデータ選択部と、を含む。 In order to solve the above-described problem, the feature quantity extraction device according to the first aspect of the present invention includes a feature quantity calculation unit that calculates a feature quantity that represents a ratio of the power of the rear reverberation in the impulse response to the total power, An impulse response measurement unit that measures an impulse response of a user environment, a data storage unit that stores data related to a plurality of different acoustic environments and feature quantities calculated from the impulse responses measured in the acoustic environment, and a user And a data selection unit that selects data related to the acoustic environment corresponding to the user environment based on a distance between the feature amount calculated from the impulse response of the environment and the feature amount calculated from the impulse response of the acoustic environment.
この発明の第二の態様の音響モデル学習装置は、クリーン音声を記憶するクリーン音声記憶部と、複数の相異なる音響環境で測定したインパルス応答を記憶するインパルス応答記憶部と、インパルス応答における後部残響のパワーが全体のパワーに占める割合を表す特徴量を算出する特徴量算出部と、音響環境のインパルス応答の特徴量間の距離に基づいてインパルス応答を複数のグループに分類するインパルス応答分類部と、各グループに分類されたインパルス応答それぞれをクリーン音声にたたみ込んで各グループに対応する学習用音声を生成する学習データ生成部と、各グループに対応する学習用音声を用いて各グループに対応する音響モデルを学習する音響モデル学習部と、を含む。 The acoustic model learning device according to the second aspect of the present invention includes a clean speech storage unit that stores clean speech, an impulse response storage unit that stores impulse responses measured in a plurality of different acoustic environments, and a posterior reverberation in the impulse response. A feature amount calculation unit that calculates a feature amount that represents a ratio of the total power to the power, an impulse response classification unit that classifies the impulse responses into a plurality of groups based on the distance between the feature amounts of the impulse response in the acoustic environment, and A learning data generation unit that generates a learning voice corresponding to each group by convolving each impulse response classified into each group into a clean voice, and a learning voice corresponding to each group is used to correspond to each group. An acoustic model learning unit that learns an acoustic model.
この発明の第三の態様の音響モデル選択装置は、インパルス応答における後部残響のパワーが全体のパワーに占める割合を表す特徴量を算出する特徴量算出部と、ユーザ環境のインパルス応答を測定するインパルス応答測定部と、複数の相異なる音響環境に対応する学習用音声を用いて学習した音響モデルとその音響環境で測定したインパルス応答から算出した特徴量とを関連付けて記憶する音響モデル記憶部と、ユーザ環境のインパルス応答の特徴量と各音響モデルに対応するインパルス応答の特徴量との距離に基づいてユーザ環境に対応する音響モデルを選択する音響モデル選択部と、を含む。 According to a third aspect of the present invention, there is provided an acoustic model selection device including a feature amount calculation unit that calculates a feature amount that represents a ratio of the power of rear reverberation in an impulse response to the total power, and an impulse that measures an impulse response in a user environment. An acoustic model storage unit that associates and stores a response measurement unit, an acoustic model learned using learning speech corresponding to a plurality of different acoustic environments, and a feature amount calculated from an impulse response measured in the acoustic environment; An acoustic model selection unit that selects an acoustic model corresponding to the user environment based on a distance between the characteristic amount of the impulse response of the user environment and the characteristic amount of the impulse response corresponding to each acoustic model.
この発明によれば、インパルス応答から算出した特徴量間の距離により音響特性の類似度を評価することができるため、ユーザ環境に適合したデータを選択することができる。特に、音声認識で用いる音響モデルをユーザ環境の音響特性に合わせて学習して利用することができるため、音声認識の精度を向上することができる。 According to the present invention, since the similarity of the acoustic characteristics can be evaluated based on the distance between the feature amounts calculated from the impulse response, data suitable for the user environment can be selected. In particular, since the acoustic model used for speech recognition can be learned and used according to the acoustic characteristics of the user environment, the accuracy of speech recognition can be improved.
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the component which has the same function in drawing, and duplication description is abbreviate | omitted.
<第一実施形態>
この発明の第一実施形態は、ユーザ環境で測定したインパルス応答から算出した特徴量に基づいて、そのユーザ環境を模擬するためのデータを選択する特徴量抽出装置および方法である。第一実施形態の特徴量抽出装置は、図1に示すように、インパルス応答測定部1、特徴量算出部2、データ選択部3、およびデータ記憶部9を含む。この特徴量抽出装置が図2に示す各ステップの処理を行うことにより第一実施形態の特徴量抽出方法が実現される。
<First embodiment>
1st Embodiment of this invention is the feature-value extraction apparatus and method which select the data for simulating the user environment based on the feature-value calculated from the impulse response measured in the user environment. As shown in FIG. 1, the feature quantity extraction device of the first embodiment includes an impulse response measurement unit 1, a feature
特徴量抽出装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知または専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。特徴量抽出装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。特徴量抽出装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、特徴量抽出装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。特徴量抽出装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。特徴量抽出装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。 The feature quantity extraction device is, for example, a special configuration in which a special program is read into a known or dedicated computer having a central processing unit (CPU), a main storage device (RAM), and the like. Device. For example, the feature quantity extraction device executes each process under the control of the central processing unit. The data input to the feature quantity extraction device and the data obtained in each process are stored, for example, in the main storage device, and the data stored in the main storage device is read out as necessary and used for other processing. Is done. In addition, at least a part of each processing unit of the feature quantity extraction device may be configured by hardware such as an integrated circuit. Each storage unit included in the feature quantity extraction device includes, for example, a main storage device such as a RAM (Random Access Memory), an auxiliary storage device configured by a semiconductor memory element such as a hard disk, an optical disk, or a flash memory, or It can be configured with middleware such as a relational database or key-value store. Each storage unit included in the feature quantity extraction device may be logically divided, and may be stored in one physical storage device.
特徴量抽出装置のデータ記憶部9には、複数の音響環境を模擬するためのデータが、各音響環境で測定したインパルス応答から算出した特徴量と関連付けられて記憶されている。この特徴量は、後述する特徴量抽出部2により算出されたものである。音響環境を模擬するためのデータは、従来技術において計算機シミュレーションを行うために必要とされるデータであり、その内容は計算機シミュレーションの仕様により異なる。ここでは、音響環境で測定したインパルス応答の波形データであるものとする。
The
ステップS1において、特徴量抽出装置のインパルス応答測定部1は、ユーザ環境の空間音響特性を表すインパルス応答を測定する。以下、測定したインパルス応答をh(t)と表す。なお、tは時間を表す。インパルス応答は、公知のインパルス応答測定技術を用いて測定すればよい。測定したインパルス応答h(t)は特徴量算出部2へ送られる。
In step S1, the impulse response measurement unit 1 of the feature quantity extraction device measures an impulse response representing the spatial acoustic characteristics of the user environment. Hereinafter, the measured impulse response is represented as h (t). Note that t represents time. The impulse response may be measured using a known impulse response measurement technique. The measured impulse response h (t) is sent to the feature
ステップS2において、特徴量抽出装置の特徴量算出部2は、インパルス応答測定部1からインパルス応答h(t)を受け取り、インパルス応答h(t)を直接音成分、初期反射成分、後部残響成分に分離して、後部残響成分のパワーが全体のパワーに占める割合を特徴量として算出する。以下、算出した特徴量をDと表す。特徴量Dは、例えば、式(1)により算出することができる。
In step S2, the feature
ただし、t1は後部残響が開始する時間を表す。算出したインパルス応答h(t)の特徴量Dはデータ選択部3へ送られる。
Where t 1 represents the time at which rear reverberation starts. The calculated feature value D of the impulse response h (t) is sent to the
ステップS3において、特徴量抽出装置のデータ選択部3は、特徴量算出部2からインパルス応答h(t)の特徴量Dを受け取り、インパルス応答h(t)から算出した特徴量Dとデータ記憶部9に記憶されている各インパルス応答から算出した特徴量との距離に基づいて、ユーザ環境を模擬するためのデータを選択し、出力する。出力されたデータは、計算シミュレーション上でユーザ環境を模擬するために用いられ、ユーザ環境を分析することが可能となる。特徴量間の距離の算出方法は、特徴量間の差分の絶対値を用いてもよいし、ユークリッド距離を用いてもよい。データの選択にあたっては、距離が0のもののみを選択するのではなく、一定の拡がりを持たせて選択するようにする。例えば、特徴量間の距離が予め定めた閾値よりも短い場合にも特徴量が一致するものとみなす。これにより、ユーザ環境の軽微な変化による性能劣化を防ぐことができる。
In step S3, the
上記のように構成することにより、第一実施形態の特徴量抽出装置によれば、空間音響特性を表すインパルス応答の類似性を評価することが可能な特徴量を抽出することができる。そのため、インパルス応答の特徴量間の類似性(距離)に基づいて、予め用意した様々な音響環境を模擬するデータの中からユーザ環境を模擬するためのデータを適切に選択することができる。 With the configuration as described above, according to the feature quantity extraction device of the first embodiment, it is possible to extract a feature quantity that can evaluate the similarity of impulse responses representing spatial acoustic characteristics. Therefore, data for simulating the user environment can be appropriately selected from data prepared for simulating various acoustic environments prepared in advance based on the similarity (distance) between the feature quantities of the impulse response.
<第二実施形態>
この発明の第二実施形態は、様々な音響環境を模擬した学習用音声を生成し、それらを用いて様々な音響環境に対応した音響モデルを学習する音響モデル学習装置および方法と、様々な音響環境に対応した音響モデルからユーザ環境に適した音響モデルを選択する音響モデル選択装置および方法である。
<Second embodiment>
The second embodiment of the present invention generates a learning speech that simulates various acoustic environments, and uses them to learn acoustic models corresponding to various acoustic environments, and various acoustics. An acoustic model selection apparatus and method for selecting an acoustic model suitable for a user environment from an acoustic model corresponding to an environment.
第二実施形態の音響モデル学習装置は、図3に示すように、インパルス応答記憶部11、特徴量算出部12、インパルス応答分類部13、学習データ生成部14、音響モデル学習部15、音響モデル記憶部16、およびクリーン音声記憶部19を含む。第二実施形態の音響モデル選択装置は、図4に示すように、音響モデル記憶部16、インパルス応答測定部21、特徴量算出部22、および音響モデル選択部23を含む。この音響モデル学習装置および音響モデル選択装置が図5に示す各ステップを実行することで第二実施形態の音声認識方法が実現される。
As shown in FIG. 3, the acoustic model learning device according to the second embodiment includes an impulse
音響モデル学習装置のインパルス応答記憶部11には、様々な音響環境において測定された複数のインパルス応答が記憶されている。
The impulse
音響モデル学習装置のクリーン音声記憶部19には、事前に用意しておいたクリーン音声が記憶されている。
A clean voice prepared in advance is stored in the clean
ステップS12において、音響モデル学習装置の特徴量算出部12は、インパルス応答記憶部11に記憶されている各インパルス応答から後部残響成分のパワーが全体のパワーに占める割合を特徴量として算出する。特徴量の算出方法は、第一実施形態の特徴量算出部2と同様である。算出した各インパルス応答の特徴量はインパルス応答分類部13へ送られる。
In step S <b> 12, the feature
ステップS13において、音響モデル学習装置のインパルス応答分類部13は、特徴量算出部12から複数のインパルス応答の特徴量を受け取り、特徴量間の距離に基づいてインパルス応答を複数のグループに分類する。各インパルス応答はグループ毎に学習データ生成部14へ送られる。
In step S <b> 13, the impulse
ステップS14において、音響モデル学習装置の学習データ生成部14は、インパルス応答分類部13からグループ毎にインパルス応答を受け取り、各グループに含まれるインパルス応答それぞれをクリーン音声記憶部19に記憶されたクリーン音声に畳み込んで、各グループに対応する学習用音声を生成する。例えば、10個のクリーン音声が存在し、グループに含まれるインパルス応答が5個あったとしたら、50個の学習用音声が生成されることになる。生成した学習用音声はグループ毎に音響モデル学習部15へ送られる。
In step S <b> 14, the learning
ステップS15において、音響モデル学習装置の音響モデル学習部15は、学習データ生成部14からグループ毎に学習用音声を受け取り、各グループに対応する学習用音声を用いてグループ毎に音響モデルを学習する。学習した各グループに対応する音響モデルは各グループに含まれるインパルス応答と関連付けて音響モデル記憶部16へ記憶される。
In step S15, the acoustic
ステップS21において、音響モデル選択装置のインパルス応答測定部21は、ユーザ環境の空間音響特性を表すインパルス応答h(t)を測定する。インパルス応答の測定方法は、第一実施形態のインパルス応答測定部1と同様である。測定したインパルス応答h(t)は特徴量算出部22へ送られる。
In step S21, the impulse
ステップS22において、音響モデル選択装置の特徴量算出部22は、インパルス応答測定部21からインパルス応答h(t)を受け取り、インパルス応答h(t)を直接音成分、初期反射成分、後部残響成分に分離して、後部残響成分のパワーが全体のパワーに占める割合を特徴量Dとして算出する。特徴量の算出方法は、第一実施形態の特徴量算出部2と同様である。算出したインパルス応答h(t)の特徴量Dは音響モデル選択部23へ送られる。
In step S22, the feature
ステップS23において、音響モデル選択装置の音響モデル選択部23は、特徴量算出部22からインパルス応答h(t)の特徴量Dを受け取り、インパルス応答h(t)から算出した特徴量Dと音響モデル記憶部16に記憶されている各音響モデルに対応するインパルス応答から算出した特徴量との距離に基づいて、ユーザ環境に対応する音響モデルを選択し、出力する。出力された音響モデルは、ユーザ環境で収音した音声を音声認識するために用いられる。特徴量間の距離の算出方法やデータの選択方法は、第一実施形態のデータ選択部3と同様であり、ユーザ環境の軽微な変化による性能劣化を防ぐために、一定の拡がりを持たせて選択するようにする。
In step S23, the acoustic
上記のように構成することにより、第二実施形態の音響モデル学習装置および音響モデル選択装置によれば、インパルス応答の特徴量が近い音響モデルを選択することにより、ユーザ環境に適切な音響モデルを用いることができるため、音声認識の精度を向上することが可能である。 By configuring as described above, according to the acoustic model learning device and the acoustic model selection device of the second embodiment, an acoustic model suitable for the user environment can be obtained by selecting an acoustic model having a close impulse response feature amount. Therefore, it is possible to improve the accuracy of speech recognition.
<実験結果>
複数の音響環境に対応する学習データを計算機シミュレーション上で生成し、音声認識実験を実施した。図6−7に、その実験結果を示す。
<Experimental result>
Learning data corresponding to multiple acoustic environments was generated on a computer simulation and a speech recognition experiment was conducted. FIG. 6-7 shows the experimental results.
図6は、特徴量間の距離と認識率との関係を表した実験結果である。様々な音響環境に対応する学習用音声(学習データ)から各音響環境に対応する音響モデルを学習し、各音響モデルを用いてあるユーザ環境で収録した音声(評価データ)を音声認識したときの認識率をグラフ上にプロットした。横軸は学習データと評価データとの特徴量間の距離であり、縦軸は認識率である。特徴量間の距離と認識率との間には高い相関がみられ、特徴量間の距離が近いほど認識率が高くなることがわかる。 FIG. 6 is an experimental result showing the relationship between the distance between feature amounts and the recognition rate. When learning acoustic models corresponding to each acoustic environment from learning speech corresponding to various acoustic environments (learning data), and recognizing speech (evaluation data) recorded in a user environment using each acoustic model The recognition rate was plotted on the graph. The horizontal axis is the distance between the feature amounts of the learning data and the evaluation data, and the vertical axis is the recognition rate. A high correlation is observed between the distance between the feature amounts and the recognition rate, and it can be seen that the recognition rate increases as the distance between the feature amounts is closer.
図7は、あるユーザ環境で収録した音声(評価データ)を複数種類の音響環境に対応する学習用音声(学習データ)から学習した音響モデルを用いて音声認識したときの認識率の変化を表した実験結果である。4種類の音声(クリーン音声、D=0.028となる音響環境の音声、D=0.056となる音響環境の音声、D=0.075となる音響環境の音声)を、特徴量が合致する音響環境の音声で学習した音響モデルと、特徴量が合致しない音響環境の音声で学習した音響モデルとで音声認識したときの認識率をグラフに表している。太い点線で表す認識率のレベル(80%)は、音声認識が実用的と考えられる性能を表している。例えば、D=0.028となる音響環境の音声を、クリーン音声で学習した音響モデル(クリーン音声モデル)と、D=0.028となる音響環境の音声で学習した音響モデル(D=0.028のモデル)とで音声認識した場合、後者の方が認識率は高くなっている。すなわち、特徴量が合致する、もしくは類似する音響モデルを用いて音声認識を行う方が高い認識率を達成できることがわかる。また、すべてのパターンで特徴量が合致する場合に実用的な音声認識精度が達成されていることがわかる。D=0.056となる環境の音声については、クリーン音声モデルと、D=0.075のモデルとを用いて実験を行った(すなわち、いずれも特徴量が合致しない)が、より特徴量が近いD=0.075のモデルの方が高い認識率となっていることがわかる。これは、必ずしも特徴量が合致しなくても一定の拡がりをもって音響モデルを選択すれば実用上十分に適切な音響モデルを選択できることを意味している。 FIG. 7 shows a change in recognition rate when speech (evaluation data) recorded in a certain user environment is recognized by speech using an acoustic model learned from learning speech (learning data) corresponding to a plurality of types of acoustic environments. It is an experimental result. Four types of sound (clean sound, sound in an acoustic environment with D = 0.028, sound in an acoustic environment with D = 0.056, sound in an acoustic environment with D = 0.075) The graph shows the recognition rate when speech recognition is performed between the learned acoustic model and the acoustic model learned with speech in an acoustic environment where the feature amounts do not match. The recognition rate level (80%) indicated by a thick dotted line represents the performance at which speech recognition is considered practical. For example, an acoustic model (clean speech model) trained with clean speech for an acoustic environment with D = 0.028 and an acoustic model (model with D = 0.028) trained with speech in an acoustic environment with D = 0.028 In the case of voice recognition, the latter has a higher recognition rate. That is, it can be seen that a higher recognition rate can be achieved by performing speech recognition using an acoustic model with matching or similar feature amounts. It can also be seen that practical speech recognition accuracy is achieved when the feature values match in all patterns. For the voice in the environment where D = 0.056, an experiment was performed using a clean voice model and a model with D = 0.075 (that is, none of the feature quantities match), but the feature quantity is closer to D = 0.075. It can be seen that the model has a higher recognition rate. This means that even if the feature quantity does not necessarily match, if an acoustic model is selected with a certain spread, a practically adequate acoustic model can be selected.
上記のように構成することにより、この発明の特徴量抽出技術によれば、ユーザが利用環境を選択するだけで、ユーザ環境を模擬することが可能であるため、利便性が向上する。音声認識システムに適用した場合、実際のユーザ環境で収録すべき音声データ量を削減できるため、音響モデルの学習に伴うコストを大幅に低減することができる。また、実際のユーザ環境に近い音響モデルを学習できるため、実環境における音声認識率を向上することができる。 With the configuration as described above, according to the feature amount extraction technique of the present invention, the user environment can be simulated only by the user selecting the usage environment, so that convenience is improved. When applied to a speech recognition system, the amount of speech data to be recorded in an actual user environment can be reduced, so the cost associated with learning an acoustic model can be greatly reduced. Moreover, since the acoustic model close to the actual user environment can be learned, the speech recognition rate in the actual environment can be improved.
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。 As described above, the embodiments of the present invention have been described, but the specific configuration is not limited to these embodiments, and even if there is a design change or the like as appropriate without departing from the spirit of the present invention, Needless to say, it is included in this invention. The various processes described in the embodiments are not only executed in time series according to the description order, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes.
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
[Program, recording medium]
When various processing functions in each device described in the above embodiment are realized by a computer, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 This program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads the program stored in its own recording medium and executes the process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. A configuration in which the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition without transferring a program from the server computer to the computer. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
1 インパルス応答測定部
2 特徴量抽出部
3 データ選択部
9 データ記憶部
11 インパルス応答記憶部
12 特徴量抽出部
13 インパルス応答分類部
14 学習データ生成部
15 音響モデル学習部
19 クリーン音声記憶部
21 インパルス応答測定部
22 特徴量抽出部
23 音響モデル選択部
DESCRIPTION OF SYMBOLS 1 Impulse
Claims (5)
インパルス応答における後部残響のパワーが全体のパワーに占める割合を表す特徴量を算出する特徴量算出部と、
ユーザ環境のインパルス応答を測定するインパルス応答測定部と、
複数の相異なる音響環境に関連するデータとその音響環境で測定したインパルス応答から算出した上記特徴量とを関連付けて記憶するデータ記憶部と、
上記ユーザ環境のインパルス応答から算出した上記特徴量と上記音響環境のインパルス応答から算出した上記特徴量との距離に基づいて上記ユーザ環境に対応する音響環境に関連するデータを選択するデータ選択部と、
を含む特徴量抽出装置。 A feature quantity extraction device for extracting feature quantities in the user environment in order to appropriately select data for simulating the user environment from data prepared to simulate various acoustic environments,
A feature amount calculation unit that calculates a feature amount that represents the ratio of the power of the rear reverberation in the impulse response to the total power; and
An impulse response measurement unit for measuring the impulse response of the user environment;
A data storage unit that stores data related to a plurality of different acoustic environments and the feature amount calculated from the impulse response measured in the acoustic environment in association with each other;
A data selection unit that selects data related to the acoustic environment corresponding to the user environment based on a distance between the feature amount calculated from the impulse response of the user environment and the feature amount calculated from the impulse response of the acoustic environment; ,
A feature amount extraction device.
クリーン音声を記憶するクリーン音声記憶部と、
複数の相異なる音響環境で測定したインパルス応答を記憶するインパルス応答記憶部と、
インパルス応答における後部残響のパワーが全体のパワーに占める割合を表す特徴量を算出する特徴量算出部と、
上記音響環境のインパルス応答の特徴量間の距離に基づいて上記インパルス応答を複数のグループに分類するインパルス応答分類部と、
各グループに分類されたインパルス応答それぞれを上記クリーン音声にたたみ込んで各グループに対応する学習用音声を生成する学習データ生成部と、
各グループに対応する学習用音声を用いて各グループに対応する音響モデルを学習する音響モデル学習部と、
を含む音響モデル学習装置。 An acoustic model learning device that learns an acoustic model suitable for each acoustic environment from learning speech generated using an impulse response selected from impulse responses measured in various acoustic environments prepared in advance,
A clean sound storage unit for storing clean sound;
An impulse response storage unit for storing impulse responses measured in a plurality of different acoustic environments;
A feature amount calculation unit that calculates a feature amount that represents the ratio of the power of the rear reverberation in the impulse response to the total power; and
An impulse response classifying unit that classifies the impulse responses into a plurality of groups based on the distance between the feature values of the impulse response of the acoustic environment;
A learning data generating unit that convolves each of the impulse responses classified into each group into the clean sound and generates a learning sound corresponding to each group;
An acoustic model learning unit that learns an acoustic model corresponding to each group using learning speech corresponding to each group;
An acoustic model learning device.
インパルス応答における後部残響のパワーが全体のパワーに占める割合を表す特徴量を算出する特徴量算出部と、
ユーザ環境のインパルス応答を測定するインパルス応答測定部と、
複数の相異なる音響環境に対応する学習用音声を用いて学習した音響モデルとその音響環境で測定したインパルス応答から算出した上記特徴量とを関連付けて記憶する音響モデル記憶部と、
上記ユーザ環境のインパルス応答の特徴量と各音響モデルに対応するインパルス応答の特徴量との距離に基づいて上記ユーザ環境に対応する音響モデルを選択する音響モデル選択部と、
を含む音響モデル選択装置。 An acoustic model selection device for selecting an acoustic model suitable for a user environment from acoustic models suitable for each acoustic environment learned using learning speech corresponding to various acoustic environments prepared in advance,
A feature amount calculation unit that calculates a feature amount that represents the ratio of the power of the rear reverberation in the impulse response to the total power; and
An impulse response measurement unit for measuring the impulse response of the user environment;
An acoustic model storage unit that associates and stores an acoustic model learned using learning speech corresponding to a plurality of different acoustic environments and the feature amount calculated from the impulse response measured in the acoustic environment;
An acoustic model selection unit that selects an acoustic model corresponding to the user environment based on a distance between the characteristic amount of the impulse response of the user environment and the characteristic amount of the impulse response corresponding to each acoustic model;
An acoustic model selection device including:
データ記憶部に、複数の相異なる音響環境に関連するデータが記憶されており、
インパルス応答測定部が、ユーザ環境のインパルス応答を測定し、
特徴量算出部が、ユーザ環境のインパルス応答における後部残響のパワーが全体のパワーに占める割合を表す特徴量を算出し、
上記特徴量算出部が、上記音響環境で測定したインパルス応答における後部残響のパワーが全体のパワーに占める割合を表す特徴量を算出し、
データ選択部が、上記ユーザ環境のインパルス応答から算出した上記特徴量と上記音響環境のインパルス応答から算出した上記特徴量との距離に基づいて上記ユーザ環境に対応する音響環境に関連するデータを選択する
を含む特徴量抽出方法。 A feature amount extraction method for extracting feature amounts in the user environment in order to appropriately select data for simulating the user environment from data prepared to simulate various acoustic environments,
The data storage unit stores data related to a plurality of different acoustic environments,
The impulse response measurement unit measures the impulse response of the user environment,
The feature amount calculation unit calculates a feature amount that represents the ratio of the power of the rear reverberation in the impulse response of the user environment to the total power,
The feature amount calculation unit calculates a feature amount that represents the ratio of the power of rear reverberation in the impulse response measured in the acoustic environment to the total power,
A data selection unit selects data related to the acoustic environment corresponding to the user environment based on a distance between the feature amount calculated from the impulse response of the user environment and the feature amount calculated from the impulse response of the acoustic environment. A feature extraction method including
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016225632A JP6577930B2 (en) | 2016-11-21 | 2016-11-21 | Feature extraction device, acoustic model learning device, acoustic model selection device, feature extraction method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016225632A JP6577930B2 (en) | 2016-11-21 | 2016-11-21 | Feature extraction device, acoustic model learning device, acoustic model selection device, feature extraction method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018084594A JP2018084594A (en) | 2018-05-31 |
JP6577930B2 true JP6577930B2 (en) | 2019-09-18 |
Family
ID=62238322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016225632A Active JP6577930B2 (en) | 2016-11-21 | 2016-11-21 | Feature extraction device, acoustic model learning device, acoustic model selection device, feature extraction method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6577930B2 (en) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016002358A1 (en) * | 2014-06-30 | 2016-01-07 | ソニー株式会社 | Information-processing device, information processing method, and program |
-
2016
- 2016-11-21 JP JP2016225632A patent/JP6577930B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018084594A (en) | 2018-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105810193B (en) | Method and apparatus for training language model and method and apparatus for recognizing language | |
CN107564513B (en) | Voice recognition method and device | |
CN113314144B (en) | Voice recognition and power equipment fault early warning method, system, terminal and medium | |
CN110047512B (en) | Environmental sound classification method, system and related device | |
US11880411B2 (en) | Named entity recognition in search queries | |
US20190050723A1 (en) | Methods and apparatus for training a neural network | |
JP5634959B2 (en) | Noise / dereverberation apparatus, method and program thereof | |
CN109326270A (en) | Generation method, terminal device and the medium of audio file | |
CN111540346A (en) | Far-field sound classification method and device | |
WO2020015411A1 (en) | Method and device for training adaptation level evaluation model, and method and device for evaluating adaptation level | |
CN116052725A (en) | A fine-grained bowel sound recognition method and device based on deep neural network | |
JP5881454B2 (en) | Apparatus and method for estimating spectral shape feature quantity of signal for each sound source, apparatus, method and program for estimating spectral feature quantity of target signal | |
WO2023093029A1 (en) | Wake-up word energy calculation method and system, and voice wake-up system and storage medium | |
US20190385590A1 (en) | Generating device, generating method, and non-transitory computer readable storage medium | |
AU2021251463B2 (en) | Generating performance predictions with uncertainty intervals | |
JP6577930B2 (en) | Feature extraction device, acoustic model learning device, acoustic model selection device, feature extraction method, and program | |
JP6216809B2 (en) | Parameter adjustment system, parameter adjustment method, program | |
CN113742461A (en) | Dialogue system test method and device and statement rewriting method | |
JP2014206382A (en) | Target type identification device | |
JP6728083B2 (en) | Intermediate feature amount calculation device, acoustic model learning device, speech recognition device, intermediate feature amount calculation method, acoustic model learning method, speech recognition method, program | |
JP7395446B2 (en) | Speech recognition device, method and program | |
Pan et al. | An Audio Based Piano Performance Evaluation Method Using Deep Neural Network Based Acoustic Modeling. | |
US20210350820A1 (en) | Techniques for computing perceived audio quality based on a trained multitask learning model | |
Serrano | A neural analysis-synthesis approach to learning procedural audio models | |
CN113468771B (en) | Vibration estimation method using structure intrinsic parameters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180302 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190415 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190820 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190823 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6577930 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |