JP4594885B2 - Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium - Google Patents
Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium Download PDFInfo
- Publication number
- JP4594885B2 JP4594885B2 JP2006070961A JP2006070961A JP4594885B2 JP 4594885 B2 JP4594885 B2 JP 4594885B2 JP 2006070961 A JP2006070961 A JP 2006070961A JP 2006070961 A JP2006070961 A JP 2006070961A JP 4594885 B2 JP4594885 B2 JP 4594885B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- utterance
- sequence
- acoustic model
- likelihood score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
Description
本発明は、音響モデルの適応を行う技術に関し、特に、音声認識結果の信頼度を利用して音響モデルの教師なし適応を行う技術に関する。 The present invention relates to a technique for adapting an acoustic model, and more particularly, to a technique for performing unsupervised adaptation of an acoustic model using reliability of a speech recognition result.
一般に、音声認識では、音声ファイルと音声ファイルの発話内容を表す正解テキストとを学習データとして音響モデルの適応を行う。なお「音響モデルの適応」とは、学習処理により、学習データ中の事例ができるだけ多く成り立つように、音響モデルのパラメータを最適化する処理を意味する。また、この音響モデルの適応は、音声ファイルに対応する読みを人間が書き起こすこと等によって作成される正解テキストを学習データとして用いる教師あり適応と、音声認識結果等を正解テキストとした学習データとして用いる教師なし適応とに大別される。 In general, in speech recognition, an acoustic model is adapted using a speech file and correct text representing the utterance content of the speech file as learning data. “Adaptation of the acoustic model” means a process of optimizing the parameters of the acoustic model so that as many cases as possible in the learning data are established by the learning process. In addition, the adaptation of the acoustic model is performed as supervised adaptation using correct text created as a learning data by human writing and the like corresponding to an audio file, and learning data using correct text as a speech recognition result. It is roughly divided into the unsupervised adaptation used.
ここで、教師なし適応によって音響モデルの適応を行う場合、認識精度の高い音声認識結果を正解テキストとして用いる必要がある。認識精度の低い音声認識結果を正解テキストとして用いた場合、音響モデルの誤った適応によって、音響モデルの精度を低下させてしまう可能性があるからである。
このような問題に対し、音声認識結果に信頼度を付与し、信頼度の高さに応じて音声認識結果を選択し、選択した音声認識結果を用いて音響モデルの適応を行う手法が考えられる。これにより、認識精度の低い音声認識結果が正解テキストとして用いられ、音響モデルの精度が低下してしまうことを回避できる。
Here, when the acoustic model is adapted by unsupervised adaptation, it is necessary to use a speech recognition result with high recognition accuracy as the correct text. This is because if the speech recognition result with low recognition accuracy is used as the correct text, the accuracy of the acoustic model may be reduced due to incorrect adaptation of the acoustic model.
For such a problem, a method may be considered in which reliability is given to the speech recognition result, the speech recognition result is selected according to the high reliability, and the acoustic model is adapted using the selected speech recognition result. . Thereby, it can avoid that the speech recognition result with low recognition accuracy is used as a correct text, and the accuracy of an acoustic model falls.
例えば、非特許文献1では、音声認識結果に対し、音素事後確率に基づいた信頼度を付与し、閾値以上の信頼度が付与された音声認識結果を用いて音響モデルの適応を行う手法が開示されている。この手法では、0から1の範囲で閾値を設定し、異なる値を闘値とした複数のデータ選択モデルを用意して、音響モデルの適応・評価を行っている。
しかし、非特許文献1のような既存の技術では、どの値を闘値として設定し、音響モデルの適応に用いる音声認識結果を選択するのがよいかを判断することが非常に困難であった。
本発明はこのような点に鑑みてなされたものであり、容易に音響モデルの教師なし適応に適した精度の高い音声認識結果を選択し、選択した音声認識結果を用い、精度の高い音響モデルを構築できる技術を提供することを目的とする。
However, in the existing technology such as Non-Patent
The present invention has been made in view of such points, and easily selects a highly accurate speech recognition result suitable for unsupervised adaptation of an acoustic model, and uses the selected speech recognition result to provide a highly accurate acoustic model. The purpose is to provide technology that can build
本発明では上記課題を解決するために、信頼度付与部が、音声認識結果を用い、当該音声認識結果の単語系列を分割した発話系列毎に、認識率の推定値である信頼度を算出し、発話選択部が、音響モデルの認識率と発話系列毎の信頼度とを用い、音響モデルの適応に用いる発話系列を選択し、音響モデル適応部が、発話選択部が選択した発話系列及び当該発話系列に対応する特徴量を用い、音響モデルの適応を行う。なお、「発話系列」とは、音声認識結果の単語系列(読みの単語系列)を所定の基準に従って区分して得られる各系列を意味する。また、「発話系列」は1以上の単語からなる。また、「信頼度」は、認識率の推定値であるが、これは、認識率そのものを推定した値(例えば、認識率をα%と推定した場合のα)のみならず、認識率が属する範囲を推定した値(例えば、認識率がα%以上であると推定した場合のαや、認識率がα%以上β%未満であると推定した場合のα及びβ等)をも含む概念である。 In the present invention, in order to solve the above-described problem, the reliability providing unit calculates the reliability that is the estimated value of the recognition rate for each utterance sequence obtained by dividing the word sequence of the speech recognition result using the speech recognition result. The utterance selection unit uses the recognition rate of the acoustic model and the reliability of each utterance sequence to select an utterance sequence to be used for adaptation of the acoustic model, and the acoustic model adaptation unit selects the utterance sequence selected by the utterance selection unit and the utterance sequence The acoustic model is adapted using the feature quantity corresponding to the utterance series. The “utterance sequence” means each sequence obtained by dividing a word sequence (reading word sequence) of a speech recognition result according to a predetermined standard. Further, the “utterance series” is composed of one or more words. The “reliability” is an estimated value of the recognition rate, and this includes not only a value that estimates the recognition rate itself (for example, α when the recognition rate is estimated as α%) but also the recognition rate. A concept that includes a value that estimates a range (for example, α when the recognition rate is estimated to be α% or more, and α and β when the recognition rate is estimated to be α% or more and less than β%). is there.
ここで、本発明では、音響モデルの認識率を基準として発話系列の信頼度を評価し、音響モデルの適応に用いる発話系列を選択する。これにより、適応によって音響モデルの認識率を低下させてしまうような発話系列が選択されることを防止できる。また、音響モデルの適応に用いる発話系列の選択は、音響モデルの認識率を基準に行われるため、従来のように適切な閾値を設定するための試行錯誤も必要もない。
また、本発明において好ましくは、発話選択部は、音響モデルの認識率以上の値に設定される基準値と発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する。
Here, in the present invention, the reliability of the utterance sequence is evaluated with reference to the recognition rate of the acoustic model, and the utterance sequence used for adaptation of the acoustic model is selected. As a result, it is possible to prevent an utterance sequence that would reduce the recognition rate of the acoustic model from being selected. In addition, since the selection of the utterance sequence used for the adaptation of the acoustic model is performed based on the recognition rate of the acoustic model, there is no need for trial and error for setting an appropriate threshold as in the prior art.
Preferably, in the present invention, the utterance selection unit compares the reference value set to a value equal to or higher than the recognition rate of the acoustic model and the reliability for each utterance sequence, and the utterance sequence whose reliability is equal to or higher than the reference value. Or an utterance sequence whose reliability exceeds the reference value is selected.
このように発話系列を選択することにより、適応によって音響モデルの認識率を低下させてしまうような発話系列が選択されることを防止できる。
また、本発明において好ましくは、適応データ入力部に、教師あり正解テキストが入力され、音響モデル適応部は、発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、音響モデルの適応を行う。なお、「教師あり正解テキスト」とは、音声ファイルに対応する読みを人間が書き起こすことによって作成又は訂正された正解テキストを意味する。ここで好ましくは、正解テキスト選択部が、発話選択部が選択しなかった発話系列の少なくとも一部に対応する教師あり正解テキストを選択し、正解テキスト出力部が、選択された教師あり正解テキストを出力する。また好ましくは、適応データ入力部に入力される教師あり正解テキストは、正解テキスト出力部から出力された教師あり正解テキストである。このように信頼度が低い発話系列を、教師あり正解テキストに置き換えてモデル適応を行うことにより、教師なし適応の長所を維持しつつ、音響モデルの精度をさらに向上させることができる。
By selecting the utterance sequence in this way, it is possible to prevent the selection of the utterance sequence that reduces the recognition rate of the acoustic model due to adaptation.
Preferably, in the present invention, the supervised correct text is input to the adaptive data input unit, and the acoustic model adaptation unit selects the utterance sequence selected by the utterance selection unit, the feature amount corresponding to the utterance sequence, and the adaptive data. The acoustic model is adapted using the supervised correct text input to the input unit and the feature amount corresponding to the supervised correct text. The “supervised correct answer text” means a correct answer text created or corrected by a person writing up a reading corresponding to an audio file. Preferably, the correct text selection unit selects a supervised correct text corresponding to at least a part of an utterance sequence that is not selected by the utterance selection unit, and the correct text output unit selects the selected supervised correct text. Output. Preferably, the supervised correct text input to the adaptive data input unit is a supervised correct text output from the correct text output unit. By replacing the utterance sequence with low reliability in this way with the supervised correct text and performing model adaptation, the accuracy of the acoustic model can be further improved while maintaining the advantages of unsupervised adaptation.
さらに好ましくは、正解テキスト選択部は、発話選択部が選択しなかった発話系列であって、なおかつ、信頼度が所定の基準を満たすだけ良好な発話系列に対応する教師あり正解テキストを選択する。これにより、信頼度が極端に低く、データ自体に問題がある可能性がある音声ファイルが音響モデルの適応に用いられ、音響モデルの精度に悪影響を与えてしまうことを防止できる。 More preferably, the correct text selection unit selects a supervised correct text that corresponds to an utterance sequence that has not been selected by the utterance selection unit and that has a reliability that satisfies a predetermined criterion. As a result, it is possible to prevent an audio file having extremely low reliability and possibly having a problem with the data itself from being used for adaptation of the acoustic model and adversely affecting the accuracy of the acoustic model.
以上説明した通り、本発明では、容易に音響モデルの教師なし適応に適した精度の高い音声認識結果を選択し、選択した音声認識結果を用い、精度の高い音響モデルを構築することが可能となる。 As described above, according to the present invention, it is possible to easily select a highly accurate speech recognition result suitable for unsupervised adaptation of an acoustic model, and to construct a highly accurate acoustic model using the selected speech recognition result. Become.
以下、本発明を実施するための最良の形態を図面を参照して説明する。
〔第1の実施の形態〕
<ハードウェア構成>
図1は、第1の実施の形態における音響モデル適応装置1のハードウェア構成を例示したブロック図である。
図1に例示するように、この例の音響モデル適応装置1は、CPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
The best mode for carrying out the present invention will be described below with reference to the drawings.
[First Embodiment]
<Hardware configuration>
FIG. 1 is a block diagram illustrating a hardware configuration of an acoustic
As illustrated in FIG. 1, the acoustic
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、この例の入力部12は、データが入力される入力ポート、キーボード、マウス等であり、出力部13は、データを出力する出力ポート、ディスプレイ等である。補助記憶装置14は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、本形態の処理を実行するためのプログラムを格納したプログラム領域14a及びタグ出力情報等の各種データが格納されるデータ領域14bを有している。また、RAM16は、例えば、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、上記のプログラムが書き込まれるプログラム領域16a及び各種データが書き込まれるデータ領域16bを有している。また、この例のバス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を、データのやり取りが可能なように接続する。
The CPU 11 in this example includes a
<ハードウェアとソフトウェアとの協働>
この例のCPU11は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置14のプログラム領域14aに格納されているプログラムを、RAM16のプログラム領域16aに書き込む。同様にCPU11は、補助記憶装置14のデータ領域14bに格納されている各種データをRAM16のデータ領域16bに書き込む。さらに、CPU11は、当該プログラムや各種データが書き込まれたRAM16上のアドレスをレジスタ11cに格納する。そして、CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
<Cooperation between hardware and software>
The CPU 11 in this example writes a program stored in the
図2は、このようにCPU11にプログラムが読み込まれることにより構成される音響モデル適応装置1のブロック図の例示である。なお、図2における矢印はデータの流れを示すが、制御部190に入出力されるデータの流れの記載は省略してある。
図2に示すように、本形態の音響モデル適応装置1は、メモリ110、音声認識結果入力部130、情報変換部140、信頼度付与部150、発話選択部160、音響モデル適応部170、一時メモリ180及び制御部190を有している。ここで、メモリ110は、各種データを格納する格納部111〜119を有している。また、信頼度付与部150は、特徴量ベクトル生成部151及び特徴量ベクトル評価部152を有している。なお、メモリ110及び一時メモリ180は、例えば、図1に記載したレジスタ11c、補助記憶装置14、RAM16、或いはこれらの少なくとも一部を結合した記憶領域に相当する。また、情報変換部140、信頼度付与部150、発話選択部160、音響モデル適応部170及び制御部190は、例えば、図1に記載したCPU11にプログラムが読み込まれることにより構成されるものである。さらに、音声認識結果入力部130は、例えば、プログラムが読み込まれたCPU11の制御のもと動作する入力部12である。また、音響モデル適応装置1は、制御部190の制御のもと各処理を実行する。また、特に明記しない限り、各処理のデータは、逐一、一時メモリ180に読み書きされる。
FIG. 2 is an example of a block diagram of the acoustic
As shown in FIG. 2, the acoustic
<処理>
次に、本形態の音響モデル適応装置1の処理について説明する。
図3は、第1の実施の形態における音響モデル適応装置1の処理を説明するためのフローチャートである。また、図4は、図3におけるステップS3の処理の詳細を説明するためのフローチャートである。以下、これらの図を用いて本形態の処理を説明する。
[前処理]
前処理として、メモリ110の格納部114に識別モデルを、格納部118に音声ファイルを、格納部119に音響モデルを、格納部116(「認識率格納部」に相当)に当該音響モデルの認識率を、それぞれ格納しておく。なお、識別モデルとは、音声認識結果から得られた特徴量を用い、認識率の推定値(信頼度)を求めるためのモデルを意味する(詳細は後述)。また、音響モデルは、音声の統計的な性質を表現するモデルであり、例えば、隠れマルコフモデル(HMM:Hidden Markov Model)等を例示できる。また、音響モデルの認識率は、音響モデルを用いて実際の評価用データの音声認識を行い、その認識率を算出したものである。
<Processing>
Next, the process of the acoustic
FIG. 3 is a flowchart for explaining processing of the acoustic
[Preprocessing]
As preprocessing, the identification model is stored in the
[音響モデル適応処理]
以上のような前処理を前提に音響モデル適応処理が実行される。
まず、図示していない音声認識部が、メモリ110の格納部119に格納された音響モデルを用い、格納部118に格納された音声ファイルの音声認識を行う。この音声認識結果は、音声認識結果入力部130に入力され、対応する各音声ファイルに関連付けられて、メモリ110の格納部111に格納される(ステップS1)。なお、この音声認識結果は、音声認識により得られた読みの単語系列と、音声認識により各単語に付与される付加情報(例えば、各単語の品詞情報、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長等)とを含む。
[Acoustic model adaptation processing]
The acoustic model adaptation process is executed on the premise of the preprocessing as described above.
First, a voice recognition unit (not shown) performs voice recognition of a voice file stored in the
次に、情報変換部140が、メモリ110の格納部111から音声認識結果を読み込み、ある一定の基準に基づいて当該音声認識結果の単語系列を発話系列ごとに区分し、得られた各単語系列を各音声ファイル及び音声認識結果の各付加情報に関連付けてメモリ110の格納部112に格納する(ステップS2)。なお、「発話系列」の定義は前述の通りである。単語系列を区切るための基準の例としては、単語間の無音区間の長さや単語の品詞情報などを例示できる。また、発話系列の具体例を示すと以下のようになる。
『その辺ではかなり収益も上がるんじゃないかなと思います。』
『なるほどね。』
『今、あの韓国に買い物行くツアーとか、そういうのが非常に流行ってるんですが、』
『んー』
次に、信頼度付与部150が、音声認識結果を用い、発話系列毎に、認識率の推定値である信頼度を算出する。算出された各信頼度は、対応する発話系列に関連付けられて、メモリ110の格納部115に格納される(ステップS3)。なお、「信頼度」は、認識率の推定値であるが、これは、認識率そのものを推定した値(例えば、認識率をα%と推定した場合のα)のみならず、認識率が属する範囲を推定した値(例えば、認識率がα%以上であると推定した場合のαや、認識率がα%以上β%未満であると推定した場合のα及びβ等)をも含む概念である。この処理の詳細については後述する。
Next, the
“I think there will be a lot of profits in that area. ]
"I see. ]
“Now that tour to go shopping in Korea is very popular,”
"Hmm"
Next, the
次に、発話選択部160が、メモリ110の格納部115から発話系列毎の信頼度を読み込み、格納部116から音響モデルの認識率を読み込む。そして、発話選択部160は、これらを用い、音響モデルの適応に用いる発話系列を選択し、その選択内容を示す選択情報を格納部117に格納する(ステップS4)。好ましくは、発話選択部160は、音響モデルの認識率に基づき設定される基準値と発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する。より好ましくは、この基準値は、音響モデルの認識率以上に設定される値である。具体的には、例えば、以下のように発話系列を選択する。
Next, the
[例1]
基準値を音響モデルの認識率とし、信頼度が音響モデルの認識率以上である発話系列を選択するか、信頼度が音響モデルの認識率を超える発話系列を選択する。
[例2]
音響モデルの認識率に定数を加算又は乗算した値を基準値とし、信頼度が基準値以上である発話系列を選択するか、信頼度が基準値を超える発話系列を選択する。
[例3]
音響モデルの認識率から定数を減算した値を基準値とし、信頼度が基準値以上である発話系列を選択するか、信頼度が基準値を超える発話系列を選択する。
[例4]
音響モデルの認識率を所定の関数に代入した関数値を基準値とし、信頼度が基準値以上である発話系列を選択するか、信頼度が基準値を超える発話系列を選択する。
[Example 1]
The reference value is the recognition rate of the acoustic model, and an utterance sequence whose reliability is equal to or higher than the recognition rate of the acoustic model is selected, or an utterance sequence whose reliability exceeds the recognition rate of the acoustic model is selected.
[Example 2]
A value obtained by adding or multiplying the recognition rate of the acoustic model by a constant is used as a reference value, and an utterance sequence having a reliability equal to or higher than the reference value is selected, or an utterance sequence having a reliability exceeding the reference value is selected.
[Example 3]
A value obtained by subtracting a constant from the recognition rate of the acoustic model is used as a reference value, and an utterance sequence having a reliability higher than the reference value is selected, or an utterance sequence having a reliability higher than the reference value is selected.
[Example 4]
A function value obtained by substituting the recognition rate of the acoustic model into a predetermined function is used as a reference value, and an utterance sequence having a reliability greater than or equal to the reference value is selected, or an utterance sequence having a reliability higher than the reference value is selected.
次に、音響モデル適応部170が、メモリ110の格納部117から選択情報を読み込み、選択情報を用いて発話選択部160が選択した発話系列を特定する。その後、音響モデル適応部170は、特定した発話系列を格納部112から読み込み、読み込んだ発話系列に対応する音声ファイルを格納部118から読み込む。そして、音響モデル適応部170は、読み込んだ音声ファイルの特徴量と発話系列とを用い、既存の音響モデル適応手法を用い、音響モデルの適応を行う(ステップS5)。この際、発話系列は教師なし正解テキストとして機能する。また、音響モデル適応手法には限定はなく、例えば、バームウェルチ(Baum-Weltch)のアルゴリズム等を用いればよいが、データ量に応じ、最適な音響モデル適応手法を選択することにより、適応精度を向上させることができる。このように適応が行われた音響モデルは、メモリ110の格納部119に格納される。
Next, the acoustic model adaptation unit 170 reads the selection information from the
[ステップS3の処理の詳細]
次に、前述したステップS3の処理の詳細について説明する。
まず、信頼度付与部150の特徴量ベクトル生成部151が、メモリ110の格納部112から1つの発話系列を読み込み、一時メモリ180に格納する(ステップS11)。次に、特徴量ベクトル生成部151が、一時メモリ180から当該発話系列を読み込み、この発話系列に関連付けられている付加情報を格納部111から読み込む。そして、特徴量ベクトル生成部151は、読み込んだ付加情報を用いて発話系列毎の特徴量ベクトルを生成し、これを当該発話系列に関連付けて格納部113に格納する(ステップS12)。なお、特徴量ベクトルの各要素としては、付加情報のうち、特徴量ベクトル評価部152で認識率を推定するために役立つ情報を用いる。例えば、発話系列が具備する各単語の品詞情報、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長の全部または一部を特徴量ベクトルの要素とする。
[Details of Step S3 Processing]
Next, details of the processing in step S3 described above will be described.
First, the feature vector generation unit 151 of the
図5は、このように生成される特徴量ベクトル200の構成を例示した概念図である。
図5の例の特徴量ベクトル200は、品詞情報210、音響尤度スコア220、…、音素継続時間長230から構成される。ここで、品詞情報210は、発話系列に含まれる複数の単語を1つのシンボルで表した特徴量である。図5の例の品詞情報210は、各品詞211−1〜mに対応するm個の要素(0又は1)から構成される。そして、発話系列が含む単語の品詞に対応する要素を1とし、それ以外の品詞に対応する要素を0とする。また、図5の例の音響尤度スコア220、…、音素継続時間長230は、発話系列に含まれる各単語に付与された音響尤度スコア、…、音素継続時間長毎の統計情報(この例では、平均値221,231、分散値222,232、最大値223,233、最小値224,234)を、それぞれ0〜1に正規化した値(S1〜S4,…,S5〜S8)からなる。例えば、37種類(m=37)の品詞を具備する品詞情報、並びに、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長それぞれについての発話系列毎の平均・分散・最大・最小要素によって特徴量ベクトルを構成した場合、その特徴量ベクトルは61{=37+(6×4)}次元となる。なお、特徴量ベクトルは、単語単位の情報を発話系列単位に変換した情報であればよく、図5に例示した構成に限定されるものではない。
FIG. 5 is a conceptual diagram illustrating the configuration of the feature quantity vector 200 generated in this way.
The feature quantity vector 200 in the example of FIG. 5 includes part-of-
次に、特徴量ベクトル評価部152が、メモリ110の格納部113から特徴量ベクトルを読み込み、格納部114から識別モデルを読み込む。そして、特徴量ベクトル評価部152は、特徴量ベクトルと識別モデルとを用いた統計的な評価を行い、特徴量ベクトルに対応する発話系列の信頼度(認識率の推定値)を算出する。算出された信頼度は、対応する発話系列に関連付けられてメモリ110の格納部115に格納される(ステップS13)。以下に、ステップS13の処理の詳細を例示する。
[ステップS13の処理の詳細]
まず、識別モデルについて説明する。本形態の識別モデルは、特徴量ベクトルを用い、対応する発話系列の信頼度を求めるためのモデルである。すなわち、特徴量ベクトルの各要素を識別モデルに代入することにより、対応する発話系列の信頼度を特定するための情報を算出することができる。このような識別モデルは、学習データ(特徴量ベクトルと発話系列の信頼度を特定するための情報とを具備)を用いて生成される。すなわち、学習によって、学習データ中のより多くの事例が成り立つようにモデルパラメータを設定し、識別モデルを構成する。このような識別モデルとしては、SVM(サポートベクターマシーン)やブーステイングといった機械学習に基づくもの、最尤推定法や最大エントロピー法といった確率モデルに基づくもの、ニューラルネットワークに基づくもの等を例示できる。
Next, the feature
[Details of processing in step S13]
First, the identification model will be described. The identification model of this embodiment is a model for obtaining the reliability of a corresponding utterance sequence using a feature vector. That is, by substituting each element of the feature vector into the identification model, information for specifying the reliability of the corresponding utterance sequence can be calculated. Such an identification model is generated using learning data (comprising a feature vector and information for specifying the reliability of an utterance sequence). In other words, model parameters are set so that more cases can be established in the learning data by learning, and an identification model is configured. Examples of such an identification model include those based on machine learning such as SVM (support vector machine) and boosting, those based on a probability model such as a maximum likelihood estimation method and a maximum entropy method, and those based on a neural network.
通常、特徴量ベクトルの次元数が非常に大きい場合、統計的な識別モデルの学習には大量の学習データが必要となり、学習データが少ないと過学習の問題が発生することが多い。これに対し、SVMは「マージン最大化」という基準から自動的に識別平面付近の少数の学習サンプルのみを選択して識別面を構成するため、少数の学習データでも比較的良い識別性能が得られる。この理由から、SVMは、本発明に適している。
SVMに基づく識別モデルは、入力された特徴量ベクトルに対する認識率が閾値(n%)以上であるか否か、の2クラスのパターン認識を行うモデルである。このような識別モデルは、予め、学習データ(クラスの帰属が既知の特徴量ベクトル)を用意し、これらから特徴ベクトルとクラスとの確率的な対応関係を学習することによって生成される。また、SVMに基づく識別モデルが推定できるのは、特徴量ベクトルに対する認識率が閾値(n%)以上であるか否かのみである。そのため、このような識別モデルは、0≦n≦100の範囲で必要とされる密度で作成する。例えば、認識率の推定値がどの範囲に属するのかを10%間隔の精度で必要とする場合(例えば、認識率の推定値が70〜80%である等)は、11個の識別モデル(n=0,10,…,100)を作成する必要がある。一方、認識率の推定値がn%以上であるか否かの情報のみでよい場合(例えば、認識率の推定値が70%以上であるか否か等)は、1個の識別モデル(n=70)のみを作成すればよい([ステップS13の処理の詳細]の説明終わり)。
Normally, when the number of dimensions of the feature vector is very large, learning of a statistical identification model requires a large amount of learning data, and if there is little learning data, an overlearning problem often occurs. On the other hand, since SVM automatically selects only a small number of learning samples near the identification plane based on the criterion of “maximizing margin” to form the identification plane, relatively good identification performance can be obtained even with a small amount of learning data. . For this reason, SVM is suitable for the present invention.
The identification model based on SVM is a model that performs two-class pattern recognition of whether or not the recognition rate for an input feature vector is equal to or greater than a threshold value (n%). Such an identification model is generated by preparing learning data (a feature vector whose class membership is known) in advance and learning a probabilistic correspondence between the feature vector and the class. Further, the identification model based on the SVM can only be estimated whether or not the recognition rate for the feature vector is equal to or higher than a threshold value (n%). Therefore, such an identification model is created with a required density in the range of 0 ≦ n ≦ 100. For example, when it is necessary to determine to which range the estimated value of the recognition rate belongs with an accuracy of 10% intervals (for example, the estimated value of the recognition rate is 70 to 80%), the 11 identification models (n = 0,10, ..., 100) must be created. On the other hand, when only the information indicating whether or not the estimated value of the recognition rate is n% or more (for example, whether or not the estimated value of the recognition rate is 70% or more), one identification model (n = 70) need only be created (end of description of [Details of processing in step S13]).
次に、制御部190は、メモリ110の格納部112,115に格納された発話系列及び信頼度を参照し、全ての発話系列の信頼度が算出済みであるか否かを判断する(ステップS14)。ここで、全ての発話系列の信頼度が算出済みでなかった場合、制御部190は、処理をステップS11に戻す。一方、全ての発話系列の信頼度が算出済みであった場合、制御部190は、ステップS3の処理を終了する([ステップS3の処理の詳細]の説明終わり)。
〔第2の実施の形態〕
次に、本発明における第2の実施の形態について説明する。
Next, the
[Second Embodiment]
Next, a second embodiment of the present invention will be described.
第2の実施の形態は、第1の実施の形態の変形例であり、信頼度が低い発話系列に対しては、教師あり正解テキストを用いて音響モデル適応を行う形態である。以下では、第1の実施の形態との相違点を中心に説明し、第1の実施の形態と共通する事項については説明を省略する。
<構成>
図6は、第1の実施の形態と同様な公知のコンピュータに所定のプログラムが読み込まれることにより構成される音響モデル適応装置301のブロック図の例示である。なお、図6における矢印はデータの流れを示すが、制御部190に入出力されるデータの流れの記載は省略してある。また、図6において図2と共通する部分については、図2と同じ符号を付し、説明を簡略化する。
The second embodiment is a modification of the first embodiment, in which an acoustic model adaptation is performed using a supervised correct text for an utterance sequence with low reliability. Below, it demonstrates centering around difference with 1st Embodiment, and abbreviate | omits description about the matter which is common in 1st Embodiment.
<Configuration>
FIG. 6 is an example of a block diagram of an acoustic model adaptation apparatus 301 configured by reading a predetermined program into a known computer similar to the first embodiment. The arrows in FIG. 6 indicate the flow of data, but the description of the flow of data input to and output from the
図6に示すように、本形態の音響モデル適応装置301は、メモリ110、音声認識結果入力部130、情報変換部140、信頼度付与部150、発話選択部160、音響モデル適応部170、一時メモリ180、制御部190、正解テキスト選択部330、正解テキスト出力部340及び適応データ入力部350を有している。ここで、メモリ110は、各種データを格納する格納部111〜119の他、格納部311,312を有している。また、正解テキスト選択部330は、図1のCPU11にプログラムが読み込まれることにより構成されるものである。また、正解テキスト出力部340及び適応データ入力部350は、例えば、図1のCPU11にプログラムが読み込まれることにより構成されるもの、或いは、プログラムが読み込まれたCPU11の制御のもと動作する出力部13及び入力部12である。また、音響モデル適応装置301は、制御部190の制御のもと各処理を実行する。また、特に明記しない限り、各処理のデータは、逐一、一時メモリ180に読み書きされる。
As shown in FIG. 6, the acoustic model adaptation apparatus 301 of this embodiment includes a
<処理>
次に、本形態の音響モデル適応装置301の処理について説明する。
図7は、第2の実施の形態における音響モデル適応装置301の処理を説明するためのフローチャートである。以下、この図を用いて本形態の処理を説明する。
[前処理]
前処理として、メモリ110の格納部114に識別モデルを、格納部118に音声ファイルを、格納部119に音響モデルを、格納部116に当該音響モデルの認識率を格納しておく。また、格納部311に、格納部118に格納された音声ファイルに対応する教師あり正解テキストの集合である教師あり正解テキストファイルを格納しておく。
<Processing>
Next, the process of the acoustic model adaptation apparatus 301 of this form is demonstrated.
FIG. 7 is a flowchart for explaining the processing of the acoustic model adaptation apparatus 301 in the second embodiment. Hereinafter, the processing of this embodiment will be described with reference to FIG.
[Preprocessing]
As preprocessing, an identification model is stored in the
[音響モデル適応処理]
以上のような前処理を前提に音響モデル適応処理が実行される。
ステップS21〜S24は、第1の実施の形態のステップ1〜S4と同じである。すなわち、まず、音声認識結果が、音声認識結果入力部130に入力され、対応する各音声ファイルに関連付けられ、メモリ110の格納部111に格納される(ステップS21)。次に、情報変換部140が、ある一定の基準に基づいて音声認識結果の単語系列を発話系列ごとに区分し、得られた各単語系列を各音声ファイル及び音声認識結果の各付加情報に関連付けてメモリ110の格納部112に格納する(ステップS22)。そして、信頼度付与部150が、音声認識結果を用い、発話系列毎に、認識率の推定値である信頼度を算出し、算出された各信頼度を、対応する発話系列に関連付けて、メモリ110の格納部115に格納する(ステップS23)。次に、発話選択部160が、発話系列毎の信頼度と音響モデルの認識率とを用い、音響モデルの適応に用いる発話系列を選択し、その選択内容を示す選択情報を格納部117に格納する(ステップS24)。
[Acoustic model adaptation processing]
The acoustic model adaptation process is executed on the premise of the preprocessing as described above.
Steps S21 to S24 are the same as
次に、正解テキスト選択部330が、メモリ110の格納部117から各選択情報を読み込み、格納部115から各信頼度を読み込む。そして、正解テキスト選択部330は、発話選択部160が選択しなかった発話系列であって、なおかつ、信頼度が所定の基準を満たすだけ良好な発話系列に対応する教師あり正解テキストを、格納部311の教師あり正解テキストファイルから選択する(ステップS25)。なお、「信頼度が所定の基準を満たすだけ良好な発話系列」は、例えば以下のように選択される。
[例1]
発話選択部160が選択しなかった発話系列を信頼度が高い順序で並び替え、信頼度が高い方から順番に所定個の発話系列を選択する。
Next, the correct text selection unit 330 reads each selection information from the
[Example 1]
The utterance sequences not selected by the
[例2]
発話選択部160が用いた基準値よりも値が小さな値を閾値とし、この閾値よりも大きな信頼度を有する発話系列を選択する。
選択された教師あり正解テキストは、正解テキスト出力部340から出力され、メモリ110の格納部312に格納される。次に、格納部312に格納された教師あり正解テキストが、適応データ入力部350に入力され、音響モデル適応部170に送られる。音響モデル適応部170は、送られた教師あり正解テキストに対応する音声ファイルを格納部118から読み込む。
[Example 2]
The threshold value is a value smaller than the reference value used by the
The selected supervised correct text is output from the correct text output unit 340 and stored in the
さらに、音響モデル適応部170は、メモリ110の格納部117から選択情報を読み込み、選択情報を用いて発話選択部160が選択した発話系列を特定し、特定した発話系列を格納部112から読み込み、読み込んだ発話系列に対応する音声ファイルを格納部118から読み込む。そして、音響モデル適応部170は、読み込んだ音声ファイルの特徴量と発話系列と教師あり正解テキストとを用い(すなわち、発話選択部160が選択した発話系列及び当該発話系列に対応する特徴量、並びに、適応データ入力部350に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い)音響モデルの適応を行う(ステップS26)。このように適応が行われた音響モデルは、メモリ110の格納部119に格納される。
Furthermore, the acoustic model adaptation unit 170 reads the selection information from the
〔変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の実施の形態では、1つのコンピュータにプログラムを読み込ませて音響モデル適応装置を構成することとしたが、音響モデル装置の各機能を複数のコンピュータやCPUに分散させて構成してもよい。例えば、第2の実施の形態における正解テキスト選択部330を、別のコンピュータ(別装置)によって実現してもよいし、複数のコンピュータによってそれぞれ構成される複数の正解テキスト選択部330を用いてもよい。なお、別装置で選択された教師あり正解テキストは、適応データ入力部350(この場合、プログラムが読み込まれたCPU11の制御のもと動作する入力部12に相当)から入力される。
[Modifications, etc.]
The present invention is not limited to the embodiment described above. For example, in the above-described embodiment, the acoustic model adaptation apparatus is configured by reading a program into one computer. However, each function of the acoustic model apparatus may be distributed to a plurality of computers and CPUs. Good. For example, the correct text selection unit 330 in the second embodiment may be realized by another computer (separate apparatus), or a plurality of correct text selection units 330 each configured by a plurality of computers may be used. Good. The supervised correct text selected by another apparatus is input from an adaptive data input unit 350 (in this case, corresponding to the
また、上述の各実施の形態では、格納部118に音声ファイルを格納しておき、音響モデル適応部170が、音響ファイルから特徴量と抽出し、音響モデルの適応を行うこととした。しかし、格納部118に特徴量自体を格納しておき、音響モデル適応部170が、格納部118から読み込んだ特徴量を直接利用する構成であってもよい。
また、上述の第2の実施の形態では、正解テキスト選択部330が、発話選択部160が選択しなかった発話系列であって、なおかつ、信頼度が所定の基準を満たすだけ良好な発話系列に対応する教師あり正解テキストを選択することとした。しかし、正解テキスト選択部330が、発話選択部160が選択しなかった発話系列の少なくとも一部に対応する教師あり正解テキストを任意に選択する構成であってもよい。さらには、発話選択部160の選択内容にかかわらず、正解テキスト選択部330が、任意に教師あり正解テキストを選択する構成であってもよい。
Further, in each of the above-described embodiments, the audio file is stored in the
In the second embodiment described above, the correct text selection unit 330 is an utterance sequence that is not selected by the
また、上述の各実施の形態のように適応が行われた音響モデルを用いて音声認識を行い、その音声認識結果を再び音声認識結果入力部130への入力とし、同様な処理を繰り返すこととしてもよい。これにより、高精度のモデル適応が可能となる。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
In addition, speech recognition is performed using an acoustic model that has been adapted as in each of the above-described embodiments, the speech recognition result is input to the speech recognition result
In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Needless to say, other modifications are possible without departing from the spirit of the present invention.
Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. The computer-readable recording medium may be any medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory. Specifically, for example, the magnetic recording device may be a hard disk device or a flexible Discs, magnetic tapes, etc. as optical disks, DVD (Digital Versatile Disc), DVD-RAM (Random Access Memory), CD-ROM (Compact Disc Read Only Memory), CD-R (Recordable) / RW (ReWritable), etc. As the magneto-optical recording medium, MO (Magneto-Optical disc) or the like can be used, and as the semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory) or the like can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、各形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In each embodiment, the apparatus is configured by executing a predetermined program on a computer. However, at least a part of the processing contents may be realized by hardware.
本発明の産業上の利用分野としては、例えば、コンピュータと人間とが音声対話によってコミュニケーションを行う音声対話システムを例示できる。このような音声対話システムでは、コンピュータが人間と対話を行いながら音声を収集・選択・学習し、逐次自律適応を行う。本発明では、少量の適応データ即ち短い適応時間で、容易かつ効率的に高精度な音響モデルが構築できるため、容易に高精度な音声対話システムを構成できる。 As an industrial application field of the present invention, for example, a voice dialogue system in which a computer and a person communicate by voice dialogue can be exemplified. In such a spoken dialogue system, a computer collects, selects and learns speech while interacting with humans, and performs sequential autonomous adaptation. According to the present invention, since a highly accurate acoustic model can be constructed easily and efficiently with a small amount of adaptation data, that is, with a short adaptation time, a highly accurate spoken dialogue system can be configured easily.
1,301 音響モデル適応装置 1,301 Acoustic model adaptation device
Claims (14)
上記音響モデルの認識率を格納する認識率格納部と、
上記音響モデルを用いた音声認識により得られた、単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長が入力される音声認識結果入力部と、
上記単語系列とは別の単語系列の各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した認識率が既知の特徴量ベクトルを用いて生成された識別モデルにより、上記音声認識結果入力部に入力された単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した特徴量ベクトルを評価することで上記音響モデルを用いた音声認識により得られた上記単語系列を分割した発話系列毎の認識率を推定し、認識率の推定値である信頼度として算出する信頼度付与部と、
上記音響モデルの上記認識率を基準値とし、上記基準値と上記発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する発話選択部と、
上記発話選択部が選択した発話系列及び当該発話系列に対応する上記音声認識による結果から得られた特徴量を用い、上記音響モデルの教師なし適応を行う音響モデル適応部と、
上記発話選択部が選択しなかった発話系列のうち上記信頼度の大きい順に所定個の発話系列に対応する教師あり正解テキストが入力される適応データ入力部とを有し、
上記音響モデル適応部は、
上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、上記適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、上記音響モデルの適応を行い、
上記特徴量ベクトルは、
上記単語系列及び各単語の品詞情報と、上記各単語の音響尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記言語尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記単語尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記単語継続時間長の平均値、分散値、最大値及び最小値の各正規化値と、上記音素数の平均値、分散値、最大値及び最小値の各正規化値と、音素継続時間長の平均値、分散値、最大値及び最小値の各正規化値と、を要素とするベクトルである、
ことを特徴とする音響モデル適応装置。 An acoustic model adaptation device for adapting an acoustic model,
A recognition rate storage for storing the recognition rate of the acoustic model;
Obtained by speech recognition using the acoustic model, word sequence and part-of-speech information of each word, acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration, phoneme number, phoneme continuation A voice recognition result input unit for inputting a time length;
Generated using part-of-speech information for each word in a word sequence different from the above word sequence, acoustic likelihood score, language likelihood score, word likelihood score, word duration length, phoneme number, phoneme duration length of each word the identification model recognition rate was generated using a known feature quantity vectors, and the speech recognition result is input to the input unit the word sequence and part-of-speech information for each word, the acoustic likelihood score of each word, the language likelihood score Utterance obtained by dividing the word sequence obtained by speech recognition using the acoustic model by evaluating a feature vector generated using a word likelihood score, a word duration, a phoneme number, and a phoneme duration A reliability granting unit that estimates the recognition rate for each series and calculates the reliability that is an estimated value of the recognition rate;
The recognition rate of the acoustic model is used as a reference value, the reference value is compared with the reliability for each utterance sequence, and an utterance sequence having a reliability equal to or higher than the reference value is selected, or the reliability is the reference value An utterance selection unit for selecting an utterance sequence exceeding
An acoustic model adaptation unit that performs unsupervised adaptation of the acoustic model using the utterance sequence selected by the utterance selection unit and the feature amount obtained from the result of the speech recognition corresponding to the utterance sequence;
And an adaptive data input unit supervised correct text corresponding to a predetermined number of utterances series in descending order of the reliability of the speech sequence the speech selection unit does not select is input,
The acoustic model adaptation unit is
Using the utterance sequence selected by the utterance selection unit and the feature amount corresponding to the utterance sequence, and the supervised correct text input to the adaptive data input unit and the feature amount corresponding to the supervised correct text, the sound have line adaptation of the model,
The feature vector is
The word series and the part of speech information of each word, the average value, variance value, maximum value and minimum value of the acoustic likelihood score of each word, the average value of the language likelihood score, the variance value, Normalized values of maximum value and minimum value, average value, variance value, maximum value and minimum value of word likelihood score, average value, variance value, maximum value of word duration time And each normalized value of the phoneme number, each normalized value of the phoneme number, each of the normalized values of the maximum value and the minimum value, and each of the average value of the phoneme duration, the variance value, the maximum value, and the minimum value Is a vector whose elements are normalized values,
An acoustic model adaptation device characterized by that.
上記音響モデルの認識率を格納する認識率格納部と、
上記音響モデルを用いた音声認識により得られた、単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長が入力される音声認識結果入力部と、
上記単語系列とは別の単語系列の各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した認識率が既知の特徴量ベクトルを用いて生成された識別モデルにより、上記音声認識結果入力部に入力された単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した特徴量ベクトルを評価することで上記音響モデルを用いた音声認識により得られた上記単語系列を分割した発話系列毎の認識率を推定し、認識率の推定値である信頼度として算出する信頼度付与部と、
上記音響モデルの上記認識率を基準値とし、上記基準値と上記発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する発話選択部と、
上記発話選択部が選択した発話系列及び当該発話系列に対応する上記音声認識による結果から得られた特徴量を用い、上記音響モデルの教師なし適応を行う音響モデル適応部と、
上記発話選択部が選択しなかった発話系列のうち上記発話選択部が用いた上記基準値よりも値が小さな閾値よりも大きな信頼度を有する発話系列に対応する教師あり正解テキストが入力される適応データ入力部とを有し、
上記音響モデル適応部は、
上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、上記適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、上記音響モデルの適応を行い、
上記特徴量ベクトルは、
上記単語系列及び各単語の品詞情報と、上記各単語の音響尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記言語尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記単語尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記単語継続時間長の平均値、分散値、最大値及び最小値の各正規化値と、上記音素数の平均値、分散値、最大値及び最小値の各正規化値と、音素継続時間長の平均値、分散値、最大値及び最小値の各正規化値と、を要素とするベクトルである、
ことを特徴とする音響モデル適応装置。 An acoustic model adaptation device for adapting an acoustic model,
A recognition rate storage for storing the recognition rate of the acoustic model;
Obtained by speech recognition using the acoustic model, word sequence and part-of-speech information of each word, acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration, phoneme number, phoneme continuation A voice recognition result input unit for inputting a time length;
Generated using part-of-speech information for each word in a word sequence different from the above word sequence, acoustic likelihood score, language likelihood score, word likelihood score, word duration length, phoneme number, phoneme duration length of each word the identification model recognition rate was generated using a known feature quantity vectors, and the speech recognition result is input to the input unit the word sequence and part-of-speech information for each word, the acoustic likelihood score of each word, the language likelihood score Utterance obtained by dividing the word sequence obtained by speech recognition using the acoustic model by evaluating a feature vector generated using a word likelihood score, a word duration, a phoneme number, and a phoneme duration A reliability granting unit that estimates the recognition rate for each series and calculates the reliability that is an estimated value of the recognition rate;
The recognition rate of the acoustic model is used as a reference value, the reference value is compared with the reliability for each utterance sequence, and an utterance sequence having a reliability equal to or higher than the reference value is selected, or the reliability is the reference value An utterance selection unit for selecting an utterance sequence exceeding
An acoustic model adaptation unit that performs unsupervised adaptation of the acoustic model using the utterance sequence selected by the utterance selection unit and the feature amount obtained from the result of the speech recognition corresponding to the utterance sequence;
Adaptation in which a supervised correct text corresponding to an utterance sequence having a reliability greater than a threshold value smaller than the reference value used by the utterance selection unit among utterance sequences not selected by the utterance selection unit is input and a data input unit,
The acoustic model adaptation unit is
Using the utterance sequence selected by the utterance selection unit and the feature amount corresponding to the utterance sequence, and the supervised correct text input to the adaptive data input unit and the feature amount corresponding to the supervised correct text, the sound have line adaptation of the model,
The feature vector is
The word series and the part of speech information of each word, the average value, variance value, maximum value and minimum value of the acoustic likelihood score of each word, the average value of the language likelihood score, the variance value, Normalized values of maximum value and minimum value, average value, variance value, maximum value and minimum value of word likelihood score, average value, variance value, maximum value of word duration time And each normalized value of the phoneme number, each normalized value of the phoneme number, each of the normalized values of the maximum value and the minimum value, and each of the average value of the phoneme duration, the variance value, the maximum value, and the minimum value Is a vector whose elements are normalized values,
An acoustic model adaptation device characterized by that.
上記音響モデルの認識率を格納する認識率格納部と、
上記音響モデルを用いた音声認識により得られた、単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長が入力される音声認識結果入力部と、
上記単語系列とは別の単語系列の各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した認識率が既知の特徴量ベクトルを用いて生成された識別モデルにより、上記音声認識結果入力部に入力された単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した特徴量ベクトルを評価することで上記音響モデルを用いた音声認識により得られた上記単語系列を分割した発話系列毎の認識率を推定し、認識率の推定値である信頼度として算出する信頼度付与部と、
上記音響モデルの上記認識率より大きい値を基準値とし、上記基準値と上記発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する発話選択部と、
上記発話選択部が選択した発話系列及び当該発話系列に対応する上記音声認識による結果から得られた特徴量を用い、上記音響モデルの教師なし適応を行う音響モデル適応部と、
上記発話選択部が選択しなかった発話系列のうち上記信頼度の大きい順に所定個の発話系列に対応する教師あり正解テキストが入力される適応データ入力部とを有し、
上記音響モデル適応部は、
上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、上記適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、上記音響モデルの適応を行い、
上記特徴量ベクトルは、
上記単語系列及び各単語の品詞情報と、上記各単語の音響尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記言語尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記単語尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記単語継続時間長の平均値、分散値、最大値及び最小値の各正規化値と、上記音素数の平均値、分散値、最大値及び最小値の各正規化値と、音素継続時間長の平均値、分散値、最大値及び最小値の各正規化値と、を要素とするベクトルである、
ことを特徴とする音響モデル適応装置。 An acoustic model adaptation device for adapting an acoustic model,
A recognition rate storage for storing the recognition rate of the acoustic model;
Obtained by speech recognition using the acoustic model, word sequence and part-of-speech information of each word, acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration, phoneme number, phoneme continuation A voice recognition result input unit for inputting a time length;
Generated using part-of-speech information for each word in a word sequence different from the above word sequence, acoustic likelihood score, language likelihood score, word likelihood score, word duration length, phoneme number, phoneme duration length of each word the identification model recognition rate was generated using a known feature quantity vectors, and the speech recognition result is input to the input unit the word sequence and part-of-speech information for each word, the acoustic likelihood score of each word, the language likelihood score Utterance obtained by dividing the word sequence obtained by speech recognition using the acoustic model by evaluating a feature vector generated using a word likelihood score, a word duration, a phoneme number, and a phoneme duration A reliability granting unit that estimates the recognition rate for each series and calculates the reliability that is an estimated value of the recognition rate;
A value larger than the recognition rate of the acoustic model is used as a reference value, the reference value is compared with the reliability for each utterance sequence, and an utterance sequence having a reliability equal to or higher than the reference value is selected, or the reliability is An utterance selection unit for selecting an utterance sequence exceeding the reference value;
An acoustic model adaptation unit that performs unsupervised adaptation of the acoustic model using the utterance sequence selected by the utterance selection unit and the feature amount obtained from the result of the speech recognition corresponding to the utterance sequence;
And an adaptive data input unit supervised correct text corresponding to a predetermined number of utterances series in descending order of the reliability of the speech sequence the speech selection unit does not select is input,
The acoustic model adaptation unit is
Using the utterance sequence selected by the utterance selection unit and the feature amount corresponding to the utterance sequence, and the supervised correct text input to the adaptive data input unit and the feature amount corresponding to the supervised correct text, the sound have line adaptation of the model,
The feature vector is
The word series and the part of speech information of each word, the average value, variance value, maximum value and minimum value of the acoustic likelihood score of each word, the average value of the language likelihood score, the variance value, Normalized values of maximum value and minimum value, average value, variance value, maximum value and minimum value of word likelihood score, average value, variance value, maximum value of word duration time And each normalized value of the phoneme number, each normalized value of the phoneme number, each of the normalized values of the maximum value and the minimum value, and each of the average value of the phoneme duration, the variance value, the maximum value, and the minimum value Is a vector whose elements are normalized values,
An acoustic model adaptation device characterized by that.
上記音響モデルの認識率を格納する認識率格納部と、
上記音響モデルを用いた音声認識により得られた、単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長が入力される音声認識結果入力部と、
上記単語系列とは別の単語系列の各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した認識率が既知の特徴量ベクトルを用いて生成された識別モデルにより、上記音声認識結果入力部に入力された単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した特徴量ベクトルを評価することで上記音響モデルを用いた音声認識により得られた上記単語系列を分割した発話系列毎の認識率を推定し、認識率の推定値である信頼度として算出する信頼度付与部と、
上記音響モデルの上記認識率より大きい値を基準値とし、上記基準値と上記発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する発話選択部と、
上記発話選択部が選択した発話系列及び当該発話系列に対応する上記音声認識による結果から得られた特徴量を用い、上記音響モデルの教師なし適応を行う音響モデル適応部と、
上記発話選択部が選択しなかった発話系列のうち上記発話選択部が用いた上記基準値よりも値が小さな閾値よりも大きな信頼度を有する発話系列に対応する教師あり正解テキストが入力される適応データ入力部とを有し、
上記音響モデル適応部は、
上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、上記適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、上記音響モデルの適応を行い、
上記特徴量ベクトルは、
上記単語系列及び各単語の品詞情報と、上記各単語の音響尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記言語尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記単語尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記単語継続時間長の平均値、分散値、最大値及び最小値の各正規化値と、上記音素数の平均値、分散値、最大値及び最小値の各正規化値と、音素継続時間長の平均値、分散値、最大値及び最小値の各正規化値と、を要素とするベクトルである、
ことを特徴とする音響モデル適応装置。 An acoustic model adaptation device for adapting an acoustic model,
A recognition rate storage for storing the recognition rate of the acoustic model;
Obtained by speech recognition using the acoustic model, word sequence and part-of-speech information of each word, acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration, phoneme number, phoneme continuation A voice recognition result input unit for inputting a time length;
Generated using part-of-speech information for each word in a word sequence different from the above word sequence, acoustic likelihood score, language likelihood score, word likelihood score, word duration length, phoneme number, phoneme duration length of each word the identification model recognition rate was generated using a known feature quantity vectors, and the speech recognition result is input to the input unit the word sequence and part-of-speech information for each word, the acoustic likelihood score of each word, the language likelihood score Utterance obtained by dividing the word sequence obtained by speech recognition using the acoustic model by evaluating a feature vector generated using a word likelihood score, a word duration, a phoneme number, and a phoneme duration A reliability granting unit that estimates the recognition rate for each series and calculates the reliability that is an estimated value of the recognition rate;
A value larger than the recognition rate of the acoustic model is used as a reference value, the reference value is compared with the reliability for each utterance sequence, and an utterance sequence having a reliability equal to or higher than the reference value is selected, or the reliability is An utterance selection unit for selecting an utterance sequence exceeding the reference value;
An acoustic model adaptation unit that performs unsupervised adaptation of the acoustic model using the utterance sequence selected by the utterance selection unit and the feature amount obtained from the result of the speech recognition corresponding to the utterance sequence;
Adaptation in which a supervised correct text corresponding to an utterance sequence having a reliability greater than a threshold value smaller than the reference value used by the utterance selection unit among utterance sequences not selected by the utterance selection unit is input and a data input unit,
The acoustic model adaptation unit is
Using the utterance sequence selected by the utterance selection unit and the feature amount corresponding to the utterance sequence, and the supervised correct text input to the adaptive data input unit and the feature amount corresponding to the supervised correct text, the sound have line adaptation of the model,
The feature vector is
The word series and the part of speech information of each word, the average value, variance value, maximum value and minimum value of the acoustic likelihood score of each word, the average value of the language likelihood score, the variance value, Normalized values of maximum value and minimum value, average value, variance value, maximum value and minimum value of word likelihood score, average value, variance value, maximum value of word duration time And each normalized value of the phoneme number, each normalized value of the phoneme number, each of the normalized values of the maximum value and the minimum value, and each of the average value of the phoneme duration, the variance value, the maximum value, and the minimum value Is a vector whose elements are normalized values,
An acoustic model adaptation device characterized by that.
上記音響モデルの認識率を格納する認識率格納部と、
上記音響モデルを用いた音声認識により得られた、単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長が入力される音声認識結果入力部と、
上記単語系列とは別の単語系列の各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した認識率が既知の特徴量ベクトルを用いて生成された識別モデルにより、上記音声認識結果入力部に入力された単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した特徴量ベクトルを評価することで上記音響モデルを用いた音声認識により得られた上記単語系列を分割した発話系列毎の認識率を推定し、認識率の推定値である信頼度として算出する信頼度付与部と、
上記音響モデルの上記認識率より小さい値を基準値とし、上記基準値と上記発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する発話選択部と、
上記発話選択部が選択した発話系列及び当該発話系列に対応する上記音声認識による結果から得られた特徴量を用い、上記音響モデルの教師なし適応を行う音響モデル適応部と、
上記発話選択部が選択しなかった発話系列のうち上記信頼度の大きい順に所定個の発話系列に対応する教師あり正解テキストが入力される適応データ入力部とを有し、
上記音響モデル適応部は、
上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、上記適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、上記音響モデルの適応を行い、
上記特徴量ベクトルは、
上記単語系列及び各単語の品詞情報と、上記各単語の音響尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記言語尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記単語尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記単語継続時間長の平均値、分散値、最大値及び最小値の各正規化値と、上記音素数の平均値、分散値、最大値及び最小値の各正規化値と、音素継続時間長の平均値、分散値、最大値及び最小値の各正規化値と、を要素とするベクトルである、
ことを特徴とする音響モデル適応装置。 An acoustic model adaptation device for adapting an acoustic model,
A recognition rate storage for storing the recognition rate of the acoustic model;
Obtained by speech recognition using the acoustic model, word sequence and part-of-speech information of each word, acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration, phoneme number, phoneme continuation A voice recognition result input unit for inputting a time length;
Generated using part-of-speech information for each word in a word sequence different from the above word sequence, acoustic likelihood score, language likelihood score, word likelihood score, word duration length, phoneme number, phoneme duration length of each word the identification model recognition rate was generated using a known feature quantity vectors, and the speech recognition result is input to the input unit the word sequence and part-of-speech information for each word, the acoustic likelihood score of each word, the language likelihood score Utterance obtained by dividing the word sequence obtained by speech recognition using the acoustic model by evaluating a feature vector generated using a word likelihood score, a word duration, a phoneme number, and a phoneme duration A reliability granting unit that estimates the recognition rate for each series and calculates the reliability that is an estimated value of the recognition rate;
A value smaller than the recognition rate of the acoustic model is set as a reference value, the reference value is compared with the reliability for each utterance sequence, and an utterance sequence having a reliability equal to or higher than the reference value is selected, or the reliability is An utterance selection unit for selecting an utterance sequence exceeding the reference value;
An acoustic model adaptation unit that performs unsupervised adaptation of the acoustic model using the utterance sequence selected by the utterance selection unit and the feature amount obtained from the result of the speech recognition corresponding to the utterance sequence;
And an adaptive data input unit supervised correct text corresponding to a predetermined number of utterances series in descending order of the reliability of the speech sequence the speech selection unit does not select is input,
The acoustic model adaptation unit is
Using the utterance sequence selected by the utterance selection unit and the feature amount corresponding to the utterance sequence, and the supervised correct text input to the adaptive data input unit and the feature amount corresponding to the supervised correct text, the sound have line adaptation of the model,
The feature vector is
The word series and the part of speech information of each word, the average value, variance value, maximum value and minimum value of the acoustic likelihood score of each word, the average value of the language likelihood score, the variance value, Normalized values of maximum value and minimum value, average value, variance value, maximum value and minimum value of word likelihood score, average value, variance value, maximum value of word duration time And each normalized value of the phoneme number, each normalized value of the phoneme number, each of the normalized values of the maximum value and the minimum value, and each of the average value of the phoneme duration, the variance value, the maximum value, and the minimum value Is a vector whose elements are normalized values,
An acoustic model adaptation device characterized by that.
上記音響モデルの認識率を格納する認識率格納部と、
上記音響モデルを用いた音声認識により得られた、単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長が入力される音声認識結果入力部と、
上記単語系列とは別の単語系列の各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した認識率が既知の特徴量ベクトルを用いて生成された識別モデルにより、上記音声認識結果入力部に入力された単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した特徴量ベクトルを評価することで上記音響モデルを用いた音声認識により得られた上記単語系列を分割した発話系列毎の認識率を推定し、認識率の推定値である信頼度として算出する信頼度付与部と、
上記音響モデルの上記認識率より小さい値を基準値とし、上記基準値と上記発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する発話選択部と、
上記発話選択部が選択した発話系列及び当該発話系列に対応する上記音声認識による結果から得られた特徴量を用い、上記音響モデルの教師なし適応を行う音響モデル適応部と、
上記発話選択部が選択しなかった発話系列のうち上記発話選択部が用いた上記基準値よりも値が小さな閾値よりも大きな信頼度を有する発話系列に対応する教師あり正解テキストが入力される適応データ入力部とを有し、
上記音響モデル適応部は、
上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、上記適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、上記音響モデルの適応を行い、
上記特徴量ベクトルは、
上記単語系列及び各単語の品詞情報と、上記各単語の音響尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記言語尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記単語尤度スコアの平均値、分散値、最大値及び最小値の各正規化値と、上記単語継続時間長の平均値、分散値、最大値及び最小値の各正規化値と、上記音素数の平均値、分散値、最大値及び最小値の各正規化値と、音素継続時間長の平均値、分散値、最大値及び最小値の各正規化値と、を要素とするベクトルである、
ことを特徴とする音響モデル適応装置。 An acoustic model adaptation device for adapting an acoustic model,
A recognition rate storage for storing the recognition rate of the acoustic model;
Obtained by speech recognition using the acoustic model, word sequence and part-of-speech information of each word, acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration, phoneme number, phoneme continuation A voice recognition result input unit for inputting a time length;
Generated using part-of-speech information for each word in a word sequence different from the above word sequence, acoustic likelihood score, language likelihood score, word likelihood score, word duration length, phoneme number, phoneme duration length of each word the identification model recognition rate was generated using a known feature quantity vectors, and the speech recognition result is input to the input unit the word sequence and part-of-speech information for each word, the acoustic likelihood score of each word, the language likelihood score Utterance obtained by dividing the word sequence obtained by speech recognition using the acoustic model by evaluating a feature vector generated using a word likelihood score, a word duration, a phoneme number, and a phoneme duration A reliability granting unit that estimates the recognition rate for each series and calculates the reliability that is an estimated value of the recognition rate;
A value smaller than the recognition rate of the acoustic model is set as a reference value, the reference value is compared with the reliability for each utterance sequence, and an utterance sequence having a reliability equal to or higher than the reference value is selected, or the reliability is An utterance selection unit for selecting an utterance sequence exceeding the reference value;
An acoustic model adaptation unit that performs unsupervised adaptation of the acoustic model using the utterance sequence selected by the utterance selection unit and the feature amount obtained from the result of the speech recognition corresponding to the utterance sequence;
Adaptation in which a supervised correct text corresponding to an utterance sequence having a reliability greater than a threshold value smaller than the reference value used by the utterance selection unit among utterance sequences not selected by the utterance selection unit is input and a data input unit,
The acoustic model adaptation unit is
Using the utterance sequence selected by the utterance selection unit and the feature amount corresponding to the utterance sequence, and the supervised correct text input to the adaptive data input unit and the feature amount corresponding to the supervised correct text, the sound have line adaptation of the model,
The feature vector is
The word series and the part of speech information of each word, the average value, variance value, maximum value and minimum value of the acoustic likelihood score of each word, the average value of the language likelihood score, the variance value, Normalized values of maximum value and minimum value, average value, variance value, maximum value and minimum value of word likelihood score, average value, variance value, maximum value of word duration time And each normalized value of the phoneme number, each normalized value of the phoneme number, each of the normalized values of the maximum value and the minimum value, and each of the average value of the phoneme duration, the variance value, the maximum value, and the minimum value Is a vector whose elements are normalized values,
An acoustic model adaptation device characterized by that.
(A) 上記音響モデルを用いた音声認識により得られた、単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長が音声認識結果入力部に入力される過程と、
(B) 信頼度付与部が、上記単語系列とは別の単語系列の各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した認識率が既知の特徴量ベクトルを用いて生成された識別モデルにより、上記音声認識結果入力部に入力された単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した特徴量ベクトルを評価することで上記音響モデルを用いた音声認識により得られた上記単語系列を分割した発話系列毎の認識率を推定し、認識率の推定値である信頼度として算出する過程と、
(C) 発話選択部が、上記音響モデルの上記認識率を基準値とし、上記基準値と上記発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する過程と、
(D) 音響モデル適応部が、上記発話選択部が選択した発話系列及び当該発話系列に対応する上記音声認識による結果から得られた特徴量を用い、上記音響モデルの教師なし適応を行う過程と、
(E) 上記発話選択部が選択しなかった発話系列のうち上記信頼度の大きい順に所定個の発話系列に対応する教師あり正解テキストが適応データ入力部に入力される過程とを有し、
上記過程(D)は、上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、上記適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、上記音響モデルの適応を行う過程である、
ことを特徴とする音響モデル適応方法。 An acoustic model adaptation method for adapting an acoustic model,
(A) word sequence and part-of-speech information of each word, acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration length, phoneme number obtained by speech recognition using the acoustic model , The process in which the phoneme duration is input to the speech recognition result input unit,
(B) Part of speech information of each word sequence different from the above word sequence, the reliability giving unit, the acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration, phoneme number , recognition rate generated using the phoneme duration are known by the identification model generated using a feature vector, the speech recognition result a word sequence is input to the input unit and the part of speech information for each word, each word Obtained by speech recognition using the above acoustic model by evaluating feature vectors generated using acoustic likelihood score, language likelihood score, word likelihood score, word duration length, phoneme number, phoneme duration length. Estimating a recognition rate for each utterance sequence obtained by dividing the above-described word sequence, and calculating the reliability as an estimation value of the recognition rate;
(C) The utterance selection unit uses the recognition rate of the acoustic model as a reference value, compares the reference value with the reliability for each utterance sequence, and selects an utterance sequence with a reliability equal to or higher than the reference value. Or a process of selecting an utterance sequence whose reliability exceeds the reference value,
(D) a process in which the acoustic model adaptation unit performs unsupervised adaptation of the acoustic model using the utterance sequence selected by the utterance selection unit and the feature amount obtained from the result of the speech recognition corresponding to the utterance sequence. ,
(E) and a process supervised the correct text corresponding to a predetermined number of utterances series in descending order of the reliability of the speech sequence that was not the speech selection unit selects is input to the adaptive data input unit,
The process (D) corresponds to the utterance sequence selected by the utterance selection unit and the feature amount corresponding to the utterance sequence, the supervised correct text and the supervised correct text input to the adaptive data input unit. This is the process of adapting the acoustic model using features.
An acoustic model adaptation method characterized by the above.
(A) 上記音響モデルを用いた音声認識により得られた、単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長が音声認識結果入力部に入力される過程と、
(B) 信頼度付与部が、上記単語系列とは別の単語系列の各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した認識率が既知の特徴量ベクトルを用いて生成された識別モデルにより、上記音声認識結果入力部に入力された単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した特徴量ベクトルを評価することで上記音響モデルを用いた音声認識により得られた上記単語系列を分割した発話系列毎の認識率を推定し、認識率の推定値である信頼度として算出する過程と、
(C) 発話選択部が、上記音響モデルの上記認識率を基準値とし、上記基準値と上記発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する過程と、
(D) 音響モデル適応部が、上記発話選択部が選択した発話系列及び当該発話系列に対応する上記音声認識による結果から得られた特徴量を用い、上記音響モデルの教師なし適応を行う過程と、
(E) 上記発話選択部が選択しなかった発話系列のうち上記発話選択部が用いた上記基準値よりも値が小さな閾値よりも大きな信頼度を有する発話系列に対応する教師あり正解テキストが適応データ入力部に入力される過程とを有し、
上記過程(D)は、上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、上記適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、上記音響モデルの適応を行う過程である、
ことを特徴とする音響モデル適応方法。 An acoustic model adaptation method for adapting an acoustic model,
(A) word sequence and part-of-speech information of each word, acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration length, phoneme number obtained by speech recognition using the acoustic model , The process in which the phoneme duration is input to the speech recognition result input unit,
(B) Part of speech information of each word sequence different from the above word sequence, the reliability giving unit, the acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration, phoneme number , recognition rate generated using the phoneme duration are known by the identification model generated using a feature vector, the speech recognition result a word sequence is input to the input unit and the part of speech information for each word, each word Obtained by speech recognition using the above acoustic model by evaluating feature vectors generated using acoustic likelihood score, language likelihood score, word likelihood score, word duration length, phoneme number, phoneme duration length. Estimating a recognition rate for each utterance sequence obtained by dividing the above-described word sequence, and calculating the reliability as an estimation value of the recognition rate;
(C) The utterance selection unit uses the recognition rate of the acoustic model as a reference value, compares the reference value with the reliability for each utterance sequence, and selects an utterance sequence with a reliability equal to or higher than the reference value. Or a process of selecting an utterance sequence whose reliability exceeds the reference value,
(D) a process in which the acoustic model adaptation unit performs unsupervised adaptation of the acoustic model using the utterance sequence selected by the utterance selection unit and the feature amount obtained from the result of the speech recognition corresponding to the utterance sequence. ,
(E) Supervised correct text corresponding to an utterance sequence having a reliability greater than a threshold value smaller than the reference value used by the utterance selection unit among utterance sequences not selected by the utterance selection unit is adapted and a process input to the data input unit,
The process (D) corresponds to the utterance sequence selected by the utterance selection unit and the feature amount corresponding to the utterance sequence, the supervised correct text and the supervised correct text input to the adaptive data input unit. This is the process of adapting the acoustic model using features.
An acoustic model adaptation method characterized by the above.
(A) 上記音響モデルを用いた音声認識により得られた、単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長が音声認識結果入力部に入力される過程と、
(B) 信頼度付与部が、上記単語系列とは別の単語系列の各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した認識率が既知の特徴量ベクトルを用いて生成された識別モデルにより、上記音声認識結果入力部に入力された単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した特徴量ベクトルを評価することで上記音響モデルを用いた音声認識により得られた上記単語系列を分割した発話系列毎の認識率を推定し、認識率の推定値である信頼度として算出する過程と、
(C) 発話選択部が、上記音響モデルの上記認識率より大きい値を基準値とし、上記基準値と上記発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する過程と、
(D) 音響モデル適応部が、上記発話選択部が選択した発話系列及び当該発話系列に対応する上記音声認識による結果から得られた特徴量を用い、上記音響モデルの教師なし適応を行う過程と、
(E) 上記発話選択部が選択しなかった発話系列のうち上記信頼度の大きい順に所定個の発話系列に対応する教師あり正解テキストが適応データ入力部に入力される過程とを有し、
上記過程(D)は、上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、上記適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、上記音響モデルの適応を行う過程である、
ことを特徴とする音響モデル適応方法。 An acoustic model adaptation method for adapting an acoustic model,
(A) word sequence and part-of-speech information of each word, acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration length, phoneme number obtained by speech recognition using the acoustic model , The process in which the phoneme duration is input to the speech recognition result input unit,
(B) Part of speech information of each word sequence different from the above word sequence, the reliability giving unit, the acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration, phoneme number , recognition rate generated using the phoneme duration are known by the identification model generated using a feature vector, the speech recognition result a word sequence is input to the input unit and the part of speech information for each word, each word Obtained by speech recognition using the above acoustic model by evaluating feature vectors generated using acoustic likelihood score, language likelihood score, word likelihood score, word duration length, phoneme number, phoneme duration length. Estimating a recognition rate for each utterance sequence obtained by dividing the above-described word sequence, and calculating the reliability as an estimation value of the recognition rate;
(C) The utterance selection unit uses a value larger than the recognition rate of the acoustic model as a reference value, compares the reference value with the reliability for each utterance sequence, and the utterance sequence whose reliability is equal to or higher than the reference value. Or selecting an utterance sequence whose reliability exceeds the reference value,
(D) a process in which the acoustic model adaptation unit performs unsupervised adaptation of the acoustic model using the utterance sequence selected by the utterance selection unit and the feature amount obtained from the result of the speech recognition corresponding to the utterance sequence. ,
(E) and a process supervised the correct text corresponding to a predetermined number of utterances series in descending order of the reliability of the speech sequence that was not the speech selection unit selects is input to the adaptive data input unit,
The process (D) corresponds to the utterance sequence selected by the utterance selection unit and the feature amount corresponding to the utterance sequence, the supervised correct text and the supervised correct text input to the adaptive data input unit. This is the process of adapting the acoustic model using features.
An acoustic model adaptation method characterized by the above.
(A) 上記音響モデルを用いた音声認識により得られた、単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長が音声認識結果入力部に入力される過程と、
(B) 信頼度付与部が、上記単語系列とは別の単語系列の各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した認識率が既知の特徴量ベクトルを用いて生成された識別モデルにより、上記音声認識結果入力部に入力された単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した特徴量ベクトルを評価することで上記音響モデルを用いた音声認識により得られた上記単語系列を分割した発話系列毎の認識率を推定し、認識率の推定値である信頼度として算出する過程と、
(C) 発話選択部が、上記音響モデルの上記認識率より大きい値を基準値とし、上記基準値と上記発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する過程と、
(D) 音響モデル適応部が、上記発話選択部が選択した発話系列及び当該発話系列に対応する上記音声認識による結果から得られた特徴量を用い、上記音響モデルの教師なし適応を行う過程と、
(E) 上記発話選択部が選択しなかった発話系列のうち上記発話選択部が用いた上記基準値よりも値が小さな閾値よりも大きな信頼度を有する発話系列に対応する教師あり正解テキストが適応データ入力部に入力される過程とを有し、
上記過程(D)は、上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、上記適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、上記音響モデルの適応を行う過程である、
ことを特徴とする音響モデル適応方法。 An acoustic model adaptation method for adapting an acoustic model,
(A) word sequence and part-of-speech information of each word, acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration length, phoneme number obtained by speech recognition using the acoustic model , The process in which the phoneme duration is input to the speech recognition result input unit,
(B) Part of speech information of each word sequence different from the above word sequence, the reliability giving unit, the acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration, phoneme number , recognition rate generated using the phoneme duration are known by the identification model generated using a feature vector, the speech recognition result a word sequence is input to the input unit and the part of speech information for each word, each word Obtained by speech recognition using the above acoustic model by evaluating feature vectors generated using acoustic likelihood score, language likelihood score, word likelihood score, word duration length, phoneme number, phoneme duration length. Estimating a recognition rate for each utterance sequence obtained by dividing the above-described word sequence, and calculating the reliability as an estimation value of the recognition rate;
(C) The utterance selection unit uses a value larger than the recognition rate of the acoustic model as a reference value, compares the reference value with the reliability for each utterance sequence, and the utterance sequence whose reliability is equal to or higher than the reference value. Or selecting an utterance sequence whose reliability exceeds the reference value,
(D) a process in which the acoustic model adaptation unit performs unsupervised adaptation of the acoustic model using the utterance sequence selected by the utterance selection unit and the feature amount obtained from the result of the speech recognition corresponding to the utterance sequence. ,
(E) Supervised correct text corresponding to an utterance sequence having a reliability greater than a threshold value smaller than the reference value used by the utterance selection unit among utterance sequences not selected by the utterance selection unit is adapted and a process input to the data input unit,
The process (D) corresponds to the utterance sequence selected by the utterance selection unit and the feature amount corresponding to the utterance sequence, the supervised correct text and the supervised correct text input to the adaptive data input unit. This is the process of adapting the acoustic model using features.
An acoustic model adaptation method characterized by the above.
(A) 上記音響モデルを用いた音声認識により得られた、単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長が音声認識結果入力部に入力される過程と、
(B) 信頼度付与部が、上記単語系列とは別の単語系列の各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した認識率が既知の特徴量ベクトルを用いて生成された識別モデルにより、上記音声認識結果入力部に入力された単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した特徴量ベクトルを評価することで上記音響モデルを用いた音声認識により得られた上記単語系列を分割した発話系列毎の認識率を推定し、認識率の推定値である信頼度として算出する過程と、
(C) 発話選択部が、上記音響モデルの上記認識率より小さい値を基準値とし、上記基準値と上記発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する過程と、
(D) 音響モデル適応部が、上記発話選択部が選択した発話系列及び当該発話系列に対応する上記音声認識による結果から得られた特徴量を用い、上記音響モデルの教師なし適応を行う過程と、
(E) 上記発話選択部が選択しなかった発話系列のうち上記信頼度の大きい順に所定個の発話系列に対応する教師あり正解テキストが適応データ入力部に入力される過程とを有し、
上記過程(D)は、上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、上記適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、上記音響モデルの適応を行う過程である、
ことを特徴とする音響モデル適応方法。 An acoustic model adaptation method for adapting an acoustic model,
(A) word sequence and part-of-speech information of each word, acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration length, phoneme number obtained by speech recognition using the acoustic model , The process in which the phoneme duration is input to the speech recognition result input unit,
(B) Part of speech information of each word sequence different from the above word sequence, the reliability giving unit, the acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration, phoneme number , recognition rate generated using the phoneme duration are known by the identification model generated using a feature vector, the speech recognition result a word sequence is input to the input unit and the part of speech information for each word, each word Obtained by speech recognition using the above acoustic model by evaluating feature vectors generated using acoustic likelihood score, language likelihood score, word likelihood score, word duration length, phoneme number, phoneme duration length. Estimating a recognition rate for each utterance sequence obtained by dividing the above-described word sequence, and calculating the reliability as an estimation value of the recognition rate;
(C) The utterance selection unit uses a value smaller than the recognition rate of the acoustic model as a reference value, compares the reference value with the reliability of each utterance sequence, and the utterance sequence whose reliability is equal to or higher than the reference value Or selecting an utterance sequence whose reliability exceeds the reference value,
(D) a process in which the acoustic model adaptation unit performs unsupervised adaptation of the acoustic model using the utterance sequence selected by the utterance selection unit and the feature amount obtained from the result of the speech recognition corresponding to the utterance sequence. ,
(E) and a process supervised the correct text corresponding to a predetermined number of utterances series in descending order of the reliability of the speech sequence that was not the speech selection unit selects is input to the adaptive data input unit,
The process (D) corresponds to the utterance sequence selected by the utterance selection unit and the feature amount corresponding to the utterance sequence, the supervised correct text and the supervised correct text input to the adaptive data input unit. This is the process of adapting the acoustic model using features.
An acoustic model adaptation method characterized by the above.
(A) 上記音響モデルを用いた音声認識により得られた、単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長が音声認識結果入力部に入力される過程と、
(B) 信頼度付与部が、上記単語系列とは別の単語系列の各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した認識率が既知の特徴量ベクトルを用いて生成された識別モデルにより、上記音声認識結果入力部に入力された単語系列及び各単語の品詞情報、各単語の音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長を用いて生成した特徴量ベクトルを評価することで上記音響モデルを用いた音声認識により得られた上記単語系列を分割した発話系列毎の認識率を推定し、認識率の推定値である信頼度として算出する過程と、
(C) 発話選択部が、上記音響モデルの上記認識率より小さい値を基準値とし、上記基準値と上記発話系列毎の信頼度とを比較し、信頼度が当該基準値以上である発話系列を選択するか、信頼度が当該基準値を超える発話系列を選択する過程と、
(D) 音響モデル適応部が、上記発話選択部が選択した発話系列及び当該発話系列に対応する上記音声認識による結果から得られた特徴量を用い、上記音響モデルの教師なし適応を行う過程と、
(E) 上記発話選択部が選択しなかった発話系列のうち上記発話選択部が用いた上記基準値よりも値が小さな閾値よりも大きな信頼度を有する発話系列に対応する教師あり正解テキストが適応データ入力部に入力される過程とを有し、
上記過程(D)は、上記発話選択部が選択した発話系列及び当該発話系列に対応する特徴量、並びに、上記適応データ入力部に入力された教師あり正解テキスト及び当該教師あり正解テキストに対応する特徴量を用い、上記音響モデルの適応を行う過程である、
ことを特徴とする音響モデル適応方法。 An acoustic model adaptation method for adapting an acoustic model,
(A) word sequence and part-of-speech information of each word, acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration length, phoneme number obtained by speech recognition using the acoustic model , The process in which the phoneme duration is input to the speech recognition result input unit,
(B) Part of speech information of each word sequence different from the above word sequence, the reliability giving unit, the acoustic likelihood score of each word, language likelihood score, word likelihood score, word duration, phoneme number , recognition rate generated using the phoneme duration are known by the identification model generated using a feature vector, the speech recognition result a word sequence is input to the input unit and the part of speech information for each word, each word Obtained by speech recognition using the above acoustic model by evaluating feature vectors generated using acoustic likelihood score, language likelihood score, word likelihood score, word duration length, phoneme number, phoneme duration length. Estimating a recognition rate for each utterance sequence obtained by dividing the above-described word sequence, and calculating the reliability as an estimation value of the recognition rate;
(C) The utterance selection unit uses a value smaller than the recognition rate of the acoustic model as a reference value, compares the reference value with the reliability of each utterance sequence, and the utterance sequence whose reliability is equal to or higher than the reference value Or selecting an utterance sequence whose reliability exceeds the reference value,
(D) a process in which the acoustic model adaptation unit performs unsupervised adaptation of the acoustic model using the utterance sequence selected by the utterance selection unit and the feature amount obtained from the result of the speech recognition corresponding to the utterance sequence. ,
(E) Supervised correct text corresponding to an utterance sequence having a reliability greater than a threshold value smaller than the reference value used by the utterance selection unit among utterance sequences not selected by the utterance selection unit is adapted and a process input to the data input unit,
The process (D) corresponds to the utterance sequence selected by the utterance selection unit and the feature amount corresponding to the utterance sequence, the supervised correct text and the supervised correct text input to the adaptive data input unit. This is the process of adapting the acoustic model using features.
An acoustic model adaptation method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006070961A JP4594885B2 (en) | 2006-03-15 | 2006-03-15 | Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006070961A JP4594885B2 (en) | 2006-03-15 | 2006-03-15 | Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007248730A JP2007248730A (en) | 2007-09-27 |
JP4594885B2 true JP4594885B2 (en) | 2010-12-08 |
Family
ID=38593111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006070961A Active JP4594885B2 (en) | 2006-03-15 | 2006-03-15 | Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4594885B2 (en) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5005492B2 (en) * | 2007-10-17 | 2012-08-22 | 富士重工業株式会社 | Safe driving support system |
US20110224985A1 (en) * | 2008-10-31 | 2011-09-15 | Ken Hanazawa | Model adaptation device, method thereof, and program thereof |
JP5161183B2 (en) * | 2009-09-29 | 2013-03-13 | 日本電信電話株式会社 | Acoustic model adaptation apparatus, method, program, and recording medium |
JP4922377B2 (en) * | 2009-10-01 | 2012-04-25 | 日本電信電話株式会社 | Speech recognition apparatus, method and program |
JP5749186B2 (en) * | 2012-02-06 | 2015-07-15 | 日本電信電話株式会社 | Acoustic model adaptation device, speech recognition device, method and program thereof |
JP5852550B2 (en) * | 2012-11-06 | 2016-02-03 | 日本電信電話株式会社 | Acoustic model generation apparatus, method and program thereof |
US20170323644A1 (en) * | 2014-12-11 | 2017-11-09 | Nec Corporation | Speaker identification device and method for registering features of registered speech for identifying speaker |
JP6637332B2 (en) * | 2015-08-24 | 2020-01-29 | 日本放送協会 | Spoken language corpus generation device and program thereof |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000122689A (en) * | 1998-10-20 | 2000-04-28 | Mitsubishi Electric Corp | Speaker adopting device, and speech reconizer |
JP2000181482A (en) * | 1998-12-17 | 2000-06-30 | Sony Internatl Europ Gmbh | Voice recognition device and noninstruction and/or on- line adapting method for automatic voice recognition device |
JP2003162293A (en) * | 2001-09-14 | 2003-06-06 | Fujitsu Ltd | Voice recognition device and method |
-
2006
- 2006-03-15 JP JP2006070961A patent/JP4594885B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000122689A (en) * | 1998-10-20 | 2000-04-28 | Mitsubishi Electric Corp | Speaker adopting device, and speech reconizer |
JP2000181482A (en) * | 1998-12-17 | 2000-06-30 | Sony Internatl Europ Gmbh | Voice recognition device and noninstruction and/or on- line adapting method for automatic voice recognition device |
JP2003162293A (en) * | 2001-09-14 | 2003-06-06 | Fujitsu Ltd | Voice recognition device and method |
Also Published As
Publication number | Publication date |
---|---|
JP2007248730A (en) | 2007-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4594885B2 (en) | Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium | |
US20080077404A1 (en) | Speech recognition device, speech recognition method, and computer program product | |
US20080082337A1 (en) | Using Child Directed Speech to Bootstrap a Model Based Speech Segmentation and Recognition System | |
WO2019156101A1 (en) | Device for estimating deterioration factor of speech recognition accuracy, method for estimating deterioration factor of speech recognition accuracy, and program | |
JP5072206B2 (en) | Hidden conditional random field model for speech classification and speech recognition | |
CN112668317A (en) | Method and apparatus for determining output lexical units | |
JP5180800B2 (en) | Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program | |
US12136435B2 (en) | Utterance section detection device, utterance section detection method, and program | |
JP5376341B2 (en) | Model adaptation apparatus, method and program thereof | |
JP2009086581A (en) | Apparatus and program for creating speaker model of speech recognition | |
JP4829871B2 (en) | Learning data selection device, learning data selection method, program and recording medium, acoustic model creation device, acoustic model creation method, program and recording medium | |
JP5253317B2 (en) | Summary sentence creation device, summary sentence creation method, program | |
JP4705557B2 (en) | Acoustic model generation apparatus, method, program, and recording medium thereof | |
JP4897737B2 (en) | Word addition device, word addition method, and program thereof | |
JP4950600B2 (en) | Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media | |
JP6788077B2 (en) | Dialogue destruction feature extraction device, dialogue destruction feature extraction method, program | |
JP4881357B2 (en) | Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media | |
JP5980101B2 (en) | Acoustic model learning text creation apparatus, method and program thereof | |
JP4537970B2 (en) | Language model creation device, language model creation method, program thereof, and recording medium thereof | |
JP6612277B2 (en) | Turn-taking timing identification device, turn-taking timing identification method, program, and recording medium | |
JP2009103962A (en) | Device, method and program for clustering phoneme model | |
JP6546070B2 (en) | Acoustic model learning device, speech recognition device, acoustic model learning method, speech recognition method, and program | |
JP7279800B2 (en) | LEARNING APPARATUS, ESTIMATION APPARATUS, THEIR METHOD, AND PROGRAM | |
JP2014092750A (en) | Acoustic model generating device, method for the same, and program | |
JP4801107B2 (en) | Voice recognition apparatus, method, program, and recording medium thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100706 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100917 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130924 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4594885 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |