[go: up one dir, main page]

JP4897737B2 - 単語追加装置、単語追加方法、そのプログラム - Google Patents

単語追加装置、単語追加方法、そのプログラム Download PDF

Info

Publication number
JP4897737B2
JP4897737B2 JP2008124295A JP2008124295A JP4897737B2 JP 4897737 B2 JP4897737 B2 JP 4897737B2 JP 2008124295 A JP2008124295 A JP 2008124295A JP 2008124295 A JP2008124295 A JP 2008124295A JP 4897737 B2 JP4897737 B2 JP 4897737B2
Authority
JP
Japan
Prior art keywords
word
appearance probability
additional word
additional
language dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008124295A
Other languages
English (en)
Other versions
JP2009271465A (ja
Inventor
明夫 神
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008124295A priority Critical patent/JP4897737B2/ja
Publication of JP2009271465A publication Critical patent/JP2009271465A/ja
Application granted granted Critical
Publication of JP4897737B2 publication Critical patent/JP4897737B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声認識処理などに用いる言語モデルにおける言語辞書に不足な単語を追加する場合に、適切なクラス内単語出現確率を求めて、当該単語を追加する単語追加装置、単語追加方法、そのプログラムに関する。
非特許文献1に統計的言語モデル(以下、単に言語モデルという。)を使った一般的な音声認識の原理が記載されている(以下、従来技術1という。)。そして、言語モデルにおける言語辞書に登録されていない未登録単語を追加したい場合がある。図1に言語辞書の概念図を示す。図1に示すように、言語辞書は単語クラス毎に、単語が登録されている。図1の例では、人名クラス(クラス1)、地名クラス(クラス2)食品名クラス(クラス3)で分けられている。図1の例では、クラス3には、「ラーメン」「刺身」などの食品名が登録されている。
この場合に、クラス3には、「ラーメン」「刺身」などの単語は既に登録されているので、認識したい音声内に「ラーメンを食べたい」とか「刺身はおいしい」などの発話があった場合には、音声認識の結果、「ラーメン」「刺身」という単語が適切な場所に認識結果として出現させることができる。しかし、図1の例のように、「豆腐」という単語が未登録であった場合に、「豆腐を食べたい」と発話しても適切な場所に「豆腐」という単語を出現させることができない。また、このような場合に「甲府を食べたい」や「を食べたい」などと誤認識してしまうことが多い。従って、認識させたい単語が未登録単語の場合には、言語辞書に新たに追加登録することが重要になる。未登録単語のそのほかの例としては、特殊な用語、専門用語などである。
ところで、言語辞書では上述のように単語クラス毎に単語が登録されているが、各単語には単語を識別する番号、読み、品詞、クラス内単語出現確率(以下、単に「単語出現確率」という。)などが記述(付与)されている。ここで、単語出現確率とは、ある単語クラス内において、クラス内に登録されている単語の出現する確率を表す値であり、そのクラス内での総和は1になることが望ましい。
また、各クラスにおいてはクラス同士の連続する出現確率をN−gramモデルとして事前に学習して計算している。例えば、ある単語Wが属するクラスCと、あるクラスCとのクラスバイグラムの出現確率は、P(C│C)として事前に学習によって求められている。また、クラスCに属する単語Wについて、2つの連鎖する単語W、Wi−1が出現する確率P(W│Wi−1)は、バイグラムのみで考えた場合には、一般に次式で表すことができる。
P(W│Wi−1)=P(W│C)P(C│Ci−1) (1)
ただし、W∈Cとする。従って、単語Wの単語出現確率P(W│C)は非常に重要な要素になる。
また、特許文献1には、少ない処理量で自動的に不足している単語辞書を追加することが出来、未登録単語の数を減らす技術が記載されている(以下、従来技術2という。)。
中川聖一著「確率モデルによる音声認識」、コロナ社、p109−120 特開2005−250071号
図2に、未登録単語を追加する模式図を示す。図2に示すように、従来技術1、2では追加した単語のクラスを人間が決定し、そのクラスに追加単語の単語出現確率を既定値で与えて追加していた。ここで、図2に示すようにある単語クラスに含まれている単語の数をmとすると、単語出現確率の既定値として単語出現確率を1/mにしたり、経験的に良い値とされる定数値にしていた。この場合であると、本来正しい単語が認識されにくくなったり、湧き出し誤り(意図しない単語が不正解として出現すること)が多く発生しており、単語の認識精度を確実に向上させることはできなかった。
この発明の単語追加装置は、誤り値計算部と、判定部と、出現確率出力部と、言語辞書出力部と、を備える。誤り値計算部は、追加前言語辞書に追加単語と当該追加単語の第1出現確率とを対応付けて追加した言語辞書と、評価音声データベースとを用いて、追加単語の第1誤り値を求める。判定部は、第1誤り値を用いて、音声認識処理において追加単語の湧き出し誤りが生じない傾向にある(以下、「第1関係を満たす」という。)か否かを判定する。出現確率出力部は、第1関係を満たすと判定されると、追加単語の単語出現確率として、第1中出現確率、第2中出現確率より大きい大出現確率を出力する。言語辞書出力部は、追加単語と単語出現確率とを対応付けて追加前言語辞書に追加した言語辞書を出力する。
以下の説明では、「追加単語の正解」とは、追加単語Aを追加した言語辞書を用いた音声認識処理において、追加単語Aが意図する場所に出現することであり、「追加単語の湧き出し誤り」とは、追加単語Aを追加した言語辞書を用いた音声認識処理において、追加単語Aが意図しない場所に出現することである。また、追加単語Aの「正解率」とは、追加単語Aの正解が生じる傾向(生じやすさ)の度合いを示し、「誤り率」とは、追加単語あの湧き出し誤りが生じる傾向(生じやすさ)の度合いを示す。上記の構成によれば、予め用意した評価音声データベースを用いることで、評価音声データベースに対する追加単語の誤り率の傾向を知ることが出来るため湧き出し誤りの出やすい追加単語は誤り率を少なくし、かつ当該追加単語の正解率を上げるような単語出現確率を決定できる。
以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。
まず、この発明の目的を簡単に説明する。以下の説明では、追加単語Aの追加される前の言語辞書を「追加前言語辞書」という。HMMを用いた連続音声認識のための言語モデルにおいて、言語辞書に登録されていない未登録単語を追加前言語辞書に追加登録する際に、追加単語Aの単語クラスにおける単語出現確率を理想的な値に調整して決定する。ここで、単語出現確率の理想的な値とは、追加単語Aの正解値が高く、誤り値が低い状態を指す。すなわち、音声認識処理において、出てほしい場所に高い確率で正解単語が出て、出てほしくない場所には、不要な単語がなるべく出ないようにする状態のことである。
図3に発明を実施するための単語追加装置100の最良の形態の機能構成例を示し、図4に処理フローを示す。図3記載の単語追加装置100は、入力部2、音声認識部4、誤り値計算部6、出現確率出力部14、判定部15、言語辞書出力部16、記憶部10、制御部12、を有する。また、利用者が追加を所望する単語を追加単語Aとすると、上記式(1)からも理解されるように、追加単語Aの単語出現確率が大きくなると、追加単語Aの正解率は大きくなることに留意されたい。また、本実施例1の単語追加装置100は、追加単語Aの誤り率をなるべく小さくしつつ、大きな値の単語出現確率を決定して、追加単語Aを追加前言語辞書に追加することを目的とする。
前準備として、追加単語Aの追加の対象となる追加前言語辞書、その他音声認識処理に必要な情報(言語モデル情報、音響モデル情報など)も用意しておき、追加前言語辞書、言語モデル情報は言語モデル記憶部18に記憶させ、音響モデル情報は音響モデル記憶部20に記憶させる。
まず、入力部2から追加単語Aと、単語出現確率の決定の基準となる、任意の大きな値である第1出現確率P1(例えば、0.1)が入力される。そして、追加前言語辞書に追加単語Aと第1出現確率P1とが対応付けられて追加される。また、第1出現確率P1は記憶部10に記憶される。ここで、追加単語Aの属するクラスは利用者が決定して当該追加単語Aを追加する。追加単語Aと第1出現確率P1が追加された言語辞書を第1追加後言語辞書という。そして、誤り値計算部6は、第1追加後言語辞書と評価音声データベースとを用いて、追加単語Aの第1誤り値E1(A)を求める(ステップS2)。
まず、評価音声データベースについて説明する。評価音声データベースは評価音声データベース記憶部22に記憶されている。そして、評価音声データベースは、認識結果を正しく評価できる大量の音声データαと、当該音声データαの正解テキストを予め書き起こした書き起こし文データβと、が対応付けられている。音声データα、書き起こし文データβは、どのような音声データでも良いが分量は多いほどよく、少なくとも数時間程度の発話量があることが好ましい。また、この実施例1の単語追加装置100で用いる評価音声データベースは、当該音声データαには、追加単語Aの発話音声を含む必要はないが、以下で説明する単語追加装置200では追加単語Aの発話音声をなるべく多く含ませることが好ましい(理由は実施例4で述べる)。
次に、第1誤り値の具体的な計算手法を説明する。図3に示すように、音声認識部4が、第1追加後言語辞書を含む言語モデル(言語モデル記憶部18に記憶)と、音響モデル(音響モデル記憶部20に記憶)を用いて、評価音声データベース記憶部22に記憶されている音声データαに対して音声認識処理を行い、音声テキストデータγを生成する。当該音声認識処理は公知の技術を用いれば良い。そして、誤り値計算部6が評価音声データベース記憶部22内の書き起こし文βと音声テキストデータγとを比較し、追加単語Aの湧き出し誤り数(つまり、追加単語Aが意図しない場所に出てきている箇所の数)をカウントする。誤り値計算部6は「(湧き出し誤り数/評価音声データベース内の単語数)*100」を計算し、当該計算結果を追加単語Aの第1誤り値E1(A)として出力する。ただし、「*」は乗算を示す。また、誤り値計算部6は追加単語Aの第1誤り値E1(A)として、追加単語Aの湧き出し誤り数をそのまま出力しても良い。第1誤り値E1(A)は、記憶部10に記憶される。また、以下で説明する第2誤り値E2(A)、第1正解値C1(A)、第2正解値C2(A)、第1閾値Th1、第2閾値Th2、第3閾値Th3等も記憶部10に記憶される。
次に、判定部15は、第1誤り値E1(A)を用いて、追加単語Aの単語出現確率を第1出現確率P1とした場合の音声認識処理において、追加単語Aの湧き出し誤りが生じない傾向にある(生じにくい)か否かを判定する。以下では、「追加単語Aの湧き出し誤りが生じにくい」という条件を満たすことを「第1関係を満たす」という。第1関係を満たすか否かの判定は、第1誤り値E1(A)の他に第1閾値Th1を用いる。ここで、第1閾値Th1は予め定められているものであり、記憶部10に予め記憶されている。また、第1関係を満たすか否かとは、例えば
E1(A)<Th1 (2)
であるか否かということである。第1誤り値E1(A)が「(湧き出し誤り数/評価音声データベース内の単語数)*100」である場合には、第1閾値Th1は例えば0以上100未満の定数であり、例えばTh1=1(%)などと設定すればよい。第1誤り値E1(A)が上記式(2)を満たすということは、追加単語Aの単語出現確率が第1出現確率P1である場合の音声認識処理において、追加単語Aの湧き出し誤りが生じない傾向にある(生じにくい)ということである。
また、第1関係を満たすか否かは、上記式(1)を満たすか否かに限られず、追加単語Aの単語出現確率が第1出現確率P1である場合の音声認識処理において、追加単語Aの湧き出し誤りが生じない傾向にあるか否かを判定できれば何でも良い。つまり、音声認識部4、誤り値計算部6、判定部15の処理により、音声認識処理を事前に実験的に行うことで、単語出現確率を第1出現確率P1とした場合の追加単語Aの誤り率の傾向を知ることが出来るということである。このことは、実施例2〜4でも同様であり、実施例4では正解率の傾向を知ることが出来る。
判定部15が第1関係を満たすと判定すると、出現確率出力部14は大出現確率Lを出力する(ステップS6)。ここで、大出現確率Lは、以下で説明する第1中出現確率M1、第2中出現確率M2、小出現確率Sより大きければよいが、大出現確率Lは、第1出現確率P1以上の値であることが好ましい。何故なら、上述したように、追加単語Aの湧き出し誤りが生じない傾向にある(第1関係を満たす)と判定されているので、単語出現確率を高くすることで、追加単語Aの正解率が上げることが出来るからである。大出現確率Lは言語辞書出力部16に入力される。そして、言語辞書出力部16は追加単語Aと大出現確率Lとを対応付けて追加前言語辞書に追加した言語辞書を出力する(ステップS30)。また、図4に示してはいないが、ステップS4において、判定部15がE1(A)≧Th1と判定すれば、その時点で処理を終了しても良いし、実施例2で説明する次の処理に進んでもよい。
このように、追加単語Aについて、事前に任意に設定した十分大きい第1出現確率P1を単語出現確率として、事前に音声認識処理を行い、追加単語Aの第1誤り値E1(A)が第1閾値Th1より高いか否かを判定することで、追加単語Aの誤り率の傾向を知ることが出来る。そして、追加単語Aの湧き出し誤りが生じない傾向にある(湧き出し誤りが生じにくい)と判定されると、追加単語Aの単語出現確率を大出現確率Lとして決定できる。また、上述のように、単語出現確率を大きくすると、追加単語Aの正解率も上げることが出来る。従って、この実施例1の単語追加装置100であると、誤り率が低くかつ正解率が高くなるような、追加単語Aの単語出現確率を決定できる。
実施例2の単語追加装置は、実施例1で説明したステップS4において、判定部15がE1(A)≧Th1と判定した場合に、次の処理を行うものである。ステップS4でE1(A)≧Th1と判定された場合には、当該判定は追加単語Aの単語出現確率がP1の場合であると追加単語Aの湧き出し誤りが生じる傾向にある(生じやすい)ということである。従って、追加単語Aの単語出現確率の基準として、第1出現確率P1未満である第2出現確率P2(例えば0.01)が設定される。具体的には、第2出現確率P2は、入力部2から入力されて、言語モデル記憶部18に入力されて、記憶部10に記憶される。
誤り値計算部6は、追加前言語辞書に追加単語Aと第2出現確率P2とを対応付けて追加した言語辞書(以下、「第2追加後言語辞書」という。)と、評価音声データベースとを用いて、第2誤り値E2(A)を求める(ステップS10)。第2誤り値E2(A)の求め方は第1誤り値E1(A)と同様に、音声認識部4と評価音声データベースとを用いて求められるので、詳細は省略する。求められた第2誤り値E2(A)は記憶部10に記憶される。
次に、判定部15は、第1誤り値E1(A)および第2誤り値E2(A)を用いて、追加単語Aの出現確率を下げる(つまり、単語出現確率をP1からP2に変更する)と、音声認識処理において追加単語Aの湧き出し誤りが生じない傾向にある(生じにくくなる)か否かを判定する。ここで、「追加単語Aの出現確率を下げると音声認識処理において追加単語Aの湧き出し誤りが生じない傾向にある」という条件を満たすことを「第2関係を満たす」という。判定部15の判定処理は、E1(A)、E2(A)の他、第2閾値Th2を用いる。例えば、第2関係を満たすか否かの判定とは、
(E2(A)/E1(A))*100<Th2 (3)
を満たすかどうかの判定である。この場合にはTh2とは0以上100未満の定数であり、例えば10(%)である。
ここで、上述のように、式(3)中の第1誤り値E1(A)、第2誤り値E2(A)はそれぞれ、第1出現確率P1を付与した第1追加後言語辞書、第2出現確率P2を付与した第2追加後言語辞書について求められるものである。上述のように、P1>P2であることから、式(3)を満たすということは、「追加単語Aの単語出現確率を下げると追加単語Aは湧き出し誤りが生じない傾向にある」ということである。また、判定部15は、第2関係を満たすか否かを判定できれば良いので、他の判定式として、E2(A)−E1(A)<Th2を満たすか否か等で判定しても良い。
そして、追加単語Aの単語出現確率を下げると音声認識処理において追加単語Aの湧き出し誤りが生じない傾向にある(つまり、第2関係を満たす)ことが判定されると、追加単語Aの単語出現確率を大出現確率Lより小さくする必要がある。従って、出現確率出力部14は、追加単語Aの単語出現確率として、大出現確率L未満の値である中出現確率M1(例えば、0.01)を出力する。(ステップS16)。また中出現確率M1は、第2出現確率P2以上であることが好ましい。
また、図4には示していないが、ステップS12において、判定部15がE2(A)/E1(A)≧Th2と判定すれば、その時点で処理を終了しても良いし、次の実施例3、4で説明する次の処理(ステップS28またはステップS20))に進んでもよい。
このように、実施例2の単語追加装置は、追加単語Aの単語出現確率を下げると追加単語Aは湧き出し誤りが生じない傾向にあると判定された場合には、単語出現確率として大出現確率L未満の第1出現確率M1を設定することで追加単語Aの誤り率を下げることが出来る。
実施例3の単語追加装置100は、実施例1で説明したステップS12において、判定部15がE2(A)/E1(A)≧Th2と判定した(第2関係を満たさない)場合に、次の処理を行うものである。E2(A)/E1(A)≧Th2の場合というのは、単語出現確率を小さくすると(第1出現確率P1から第2出現確率P2に変更)、追加単語Aはまだ湧き出し誤りが生じる傾向にある(生じやすい)ということである。この場合には、追加単語Aの単語出現確率を、第1中出現確率Mより更に小さくしなければならない。従って、出現確率出力部14は、追加単語Aの単語出現確率として第1中出現確率M1未満の値である小出現確率Sを出力する(ステップS28)。
この実施例3の単語追加装置100により、追加単語Aの単語出現確率を小さくしても追加単語Aはまだ湧き出し誤りが生じる傾向にあるという状況であれば、追加単語Aの単語出現確率を小さくして、湧き出し誤りを生じにくくすることができる。
実施例4の単語追加装置200は、ステップS12において、判定部15がE2(A)/E1(A)≧Th2と判定した場合に、実施例3で説明したステップS12とステップS28の間に更なる処理を行うものである。図4では、破線で示されているステップS20、S22、S24である。この実施例4の単語追加装置200は追加単語Aの正解値の概念を用いて、実施例1〜3と比較して単語出現確率の更なる微調整を行うものである。追加単語Aの単語出現確率を下げると(第1出現確率P1から第2出現確率P2に変更すると)、追加単語Aの正解が生じない傾向にある(生じにくい)状況である場合に、追加単語Aの単語出現確率を下げすぎず、やや大きい値に設定する。以下、具体的に説明する。
実施例4の単語追加装置200は、実施例1〜3で説明した単語追加装置100と比較して、正解値計算部8(図3では、破線で示す)を更に有する点で異なる。
正解値計算部8は、追加前言語辞書に、追加単語Aと第1出現確率とを対応付けて追加した言語辞書(第1追加後言語辞書)と、評価音声データベースを用いて、追加単語Aの第1正解値C1(A)を求める。求め方は、上記第1誤り値E1(A)、第2誤り値E2(A)と同様であるが、念のため説明する。音声認識部4が第1追加後言語辞書を含む、言語モデル記憶部18中の言語モデルと、音響モデル記憶部20中の音響モデルを用いて、評価音声データベース記憶部22に記憶されている音声データαに対して音声認識処理を行い、音声テキストデータγを生成する。そして、正解値計算部8が評価音声データベース記憶部22内の書き起こし文βと音声テキストデータγとを比較し、追加単語Aの正解数をカウントする。第1正解値は、追加単語Aのカウントされた正解数でも良いし、(正解数/評価音声データベース内の全単語数)*100でも良いし、(正解数/評価音声データベース内の正解すべき数)*100等で良い。このことは第2正解値C2(A)についても同様である。同様に、正解値計算部8は、第2追加後言語辞書(追加前言語辞書に追加単語Aと第2出現確率とを対応付けて追加した言語辞書)等や評価音声データベースを用いて、第2正解値C2(A)についても同様に求める(ステップS20)。なお、評価音声データベース(音声データαと書き起こし文データβ)には、追加単語Aがなるべく多く含まれていなければならない。なぜなら正解値計算部8は正解数をカウントできないからである。また、実施例1〜3で説明した単語追加装置100では正解率の概念を用いないので、評価音声データベースには追加単語Aが含まれている必要はない。
そして、判定部15は、第1正解値C1(A)および第2正解値C2(A)を用いて、「追加単語Aの単語出現確率を下げると、音声認識処理において追加単語Aの正解が生じない傾向にある」か否かを判定する。ここで、「追加単語Aの単語出現確率を下げると、音声認識処理において追加単語Aの正解が生じない傾向にある」という条件を満たすことを「第3関係を満たす」という。
判定部15の判定処理は、第1正解値C1(A)および第2正解値C2(A)の他に、第3閾値Th3を用いる。第3関係を満たすか否かの判定は、例えば、
(C2(A)/C1(A))*100<Th3 (4)
の式を満たすかどうかの判定を行えばよい。この場合にはTh3とは0以上100未満の定数であり、例えば10(%)である。
ここで、上述のように、式(4)中の第1正解値C1(A)、第2正解値C2(A)はそれぞれ、第1出現確率P1を付与した第1追加後言語辞書、第2出現確率P2を付与した第2追加後言語辞書について求められるものである。P1>P2であることから、式(4)を満たすということは、「追加単語Aの単語出現確率を下げると、追加単語Aは正解が生じない傾向にある。」ということである。その他、判定部15は例えば、C2(A)−C1(A)<Th3を満たすか否かを判定しても良い。
そして、「追加単語Aの単語出現確率を下げると追加単語Aの正解が生じない傾向にある(第3関係を満たす)」ということが判定されると、追加単語Aの単語出現確率を下げることは妥当でない。従って、出現確率出力部14は、追加単語の単語出現確率として小出現確率Sまで下げずに、前記大出現確率L未満の値である中出現確率M2を出力する(ステップS24)。当該M2は、小出現確率Sより大きいことが好ましく、M2は上記M1と同値でもよい。
また、「追加単語Aの単語出現確率を下げると追加単語Aの正解が生じる傾向にある(生じやすくなる)」ことが判定されれば、そこで処理を終了しても良い(図4には示さず)。また、ステップS12において第2関係を満たしていない(つまり、追加単語の単語出現確率が下がると、音声認識処理において前記追加単語の湧き出し誤りが生じやすくなる)と判定されているので、ステップS28に移動し、更に単語出現確率を小さくしてもよい(つまり、出現確率出力部14が小出現確率Sを出力する)。
この実施例4の単語追加装置200であれば、正解値という概念を用いることで、正解率が低い追加単語Aであれば正解率を高くでき、誤り率が高い追加単語Aであれば誤り率を低くなるような単語出現確率を設定でき、実施例1〜3と比較して更なる単語出現確率の微調整を行うことが出来る。
[変形例]
次に、単語追加装置200の変形例を説明する。図5に変形例の単語追加装置200’の処理フローを示す。単語追加装置200’の処理フローは、単語追加装置200の処理フロー(図4参照)と比較して、ステップS4の処理において、例えば、E1(A)≧Th1と判定された場合に、ステップS20、S22、S24の処理(実施例4で説明)が行われ、ステップS22の処理の後、ステップS10の処理が行われる。つまり、単語追加装置200の処理は、ステップS4において、E1(A)≧Th1と判定されると、E1(A)/E2(A)<Th2か否かの判定を行っていたが、単語追加装置200’の処理は、ステップS4において、E1(A)≧Th1と判定されると、C1(A)/C2(A)<Th3か否かの判定を行っている。また、C1(A)/C2(A)≧Th3と判定された場合には、その時点で処理を終了をしてもよく、次のステップS10に移っても良い。
このような単語追加装置200’の構成にしても、単語追加装置200と同様の効果を得れる。
<ハードウェア構成>
本発明は上述の実施の形態に限定されるものではない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、単語追加装置100、200、200’が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、本実施例で説明した単語追加装置は、CPU(Central Processing Unit)、入力部、出力部、補助記憶装置、RAM(Random Access Memory)、ROM(Read Only Memory)及びバスを有している(何れも図示せず)。
CPUは、読み込まれた各種プログラムに従って様々な演算処理を実行する。補助記憶装置は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、RAMは、SRAM(Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等である。また、バスは、CPU、入力部、出力部、補助記憶装置、RAM及びROMを通信可能に接続している。
<ハードウェアとソフトウェアとの協働>
本実施例の単語追加装置は、上述のようなハードウェアに所定のプログラムが読み込まれ、CPUがそれを実行することによって構築される。以下、このように構築される各装置の機能構成を説明する。
入力部2、言語辞書出力部16は、所定のプログラムが読み込まれたCPUの制御のもと駆動するLANカード、モデム等の通信装置である。音声認識部4、誤り値計算部6、正解値計算部8、出現確率出力部14、は所定のプログラムがCPUに読み込まれ、実行されることによって構築される演算部である。評価音声データベース記憶部22、言語モデル記憶部18、音響モデル記憶部20は上記補助記憶装置として機能する。
言語辞書の模式図。 未登録単語を追加することを示した模式図。 本実施例の単語追加装置の機能構成例を示したブロック図。 本実施例の単語追加装置の処理フローを示した図。 本実施例の単語追加装置の変形例の処理フローを示した図。

Claims (10)

  1. 追加前言語辞書に追加単語と当該追加単語の第1出現確率とを対応付けて追加した言語辞書と、評価音声データベースとを用いて、前記追加単語の第1誤り値を求める誤り値計算部と、
    前記第1誤り値を用いて、音声認識処理において前記追加単語の湧き出し誤りが生じない傾向にある(以下、「第1関係を満たす」という。)か否かを判定する判定部と、
    前記第1関係を満たすと判定されると、前記追加単語の単語出現確率として、第1中出現確率より大きい値である大出現確率を出力する出現確率出力部と、
    前記追加単語と前記単語出現確率とを対応付けて前記追加前言語辞書に追加した言語辞書を出力する言語辞書出力部と、を備え、
    前記誤り値計算部は、前記第1関係を満たさないと判定されると、前記追加前言語辞書に前記追加単語と前記第1出現確率未満である第2出現確率とを対応付けて追加した言語辞書と、前記評価音声データベースとを用いて、第2誤り値を求めるものであり、
    前記判定部は、前記第1誤り値および前記第2誤り値を用いて、前記追加単語の単語出現確率が下がると、音声認識処理において前記追加単語の湧き出し誤りが生じない傾向にある(以下、「第2関係を満たす」という。)か否かを判定するものであり、
    前記出現確率出力部は、前記第1関係を満たさず、前記第2関係を満たすと判定されると、追加単語の単語出現確率として前記大出現確率未満の値である前記第1中出現確率を出力するものであることを特徴とする単語追加装置。
  2. 請求項記載の単語追加装置であって、
    前記出現確率出力部は、前記第1関係および前記第2関係を満たさないと判定されると、追加単語の単語出現確率として前記第1中出現確率未満の値である小出現確率を出力するものであることを特徴とする単語追加装置。
  3. 請求項記載の単語追加装置であって、
    更に、前記追加前言語辞書に、追加単語と前記第1出現確率とを対応付けて追加した言語辞書と、評価音声データベースを用いて、前記追加単語の第1正解値を求め、
    前記追加前言語辞書に、追加単語と前記第2出現確率とを対応付けて追加した言語辞書と、評価音声データベースを用いて、前記追加単語の第2正解値を求める正解値計算部と、を具備し、
    前記判定部は、前記第1正解値および前記第2正解値を用いて、前記追加単語の単語出現確率が下がると、音声認識処理において前記追加単語の正解が生じない傾向にある(以下、「第3関係を満たす」という。)か否かを判定するものであり、
    前記出現確率出力部は、前記第1関係および前記第2関係を満たさず、前記第3関係を満たすと判定されると、追加単語の単語出現確率として前記大出現確率未満の値である第2中出現確率を出力するものであることを特徴とする単語追加装置。
  4. 請求項記載の単語追加装置であって、
    前記出現確率出力部は、前記第1関係、前記第2関係、前記第3関係を全て満たさないと判定されると、追加単語の単語出現確率として前記第2中出現確率未満の値である小出現確率を出力するものであることを特徴とする単語追加装置。
  5. 追加前言語辞書に追加単語と当該追加単語の第1出現確率とを対応付けて追加した言語辞書と、評価音声データベースとを用いて、前記追加単語の第1誤り値を求める誤り値計算部と、
    前記第1誤り値を用いて、音声認識処理において前記追加単語の湧き出し誤りが生じない傾向にある(以下、「第1関係を満たす」という。)か否かを判定する判定部と、
    前記第1関係を満たすと判定されると、前記追加単語の単語出現確率として、第2中出現確率より大きい値である大出現確率を出力する出現確率出力部と、
    前記追加単語と前記単語出現確率とを対応付けて前記追加前言語辞書に追加した言語辞書を出力する言語辞書出力部と、
    前記追加前言語辞書に、追加単語と前記第1出現確率とを対応付けて追加した言語辞書と、評価音声データベースを用いて、前記追加単語の第1正解値を求め、
    追加前言語辞書に、追加単語と第1出現確率未満である第2出現確率とを対応付けて追加した言語辞書と、評価音声データベースを用いて、前記追加単語の第2正解値を求める正解値計算部と、を備え、
    前記判定部は、前記第1正解値および前記第2正解値を用いて、前記追加単語の出現確率が下がると、音声認識処理において前記追加単語の正解が生じない傾向にある(以下、「第3関係を満たす」という。)か否かを判定するものであり、
    前記出現確率出力部は、前記第1関係を満たさず、前記第3関係を満たすと判定されると、前記追加単語の単語出現確率として、前記大出現確率未満の値である前記第2中出現確率を出力するものであることを特徴とする単語追加装置。
  6. 請求項記載の単語追加装置であって、
    前記誤り値計算部は、前記第3関係を満たさないと判定されると、前記追加前言語辞書に前記追加単語と前記第2出現確率とを対応付けて追加した言語辞書と、前記評価音声データベースとを用いて、第2誤り値を求めるものであり、
    前記判定部は、前記第1誤り値および前記第2誤り値を用いて、前記追加単語の出現確率が下がると、音声認識処理において前記追加単語の湧き出し誤りが生じない傾向にある(以下、「第2関係を満たす」という。)か否かを判定するものであり、
    前記出現確率出力部は、前記第1関係および前記第3関係を満たさず、前記第2関係を満たすと判定されると、前記追加単語の単語出現確率として、前記大出現確率未満の値である中出現確率を出力するものであることを特徴とする単語追加装置。
  7. 請求項記載の単語追加装置であって、
    前記出現確率出力部は、前記第1関係、前記第2関係、前記第3関係を全て満たさないと判定されると、前記追加単語の単語出現確率として、前記第2中出現確率未満の値である小出現確率を出力するものであることを特徴とする単語追加装置。
  8. 追加前言語辞書に追加単語と当該追加単語の第1出現確率とを対応付けて追加した言語辞書と、評価音声データベースとを用いて、前記追加単語の第1誤り値を求める過程と、
    前記第1誤り値を用いて、音声認識処理において前記追加単語の湧き出し誤りが生じない傾向にある(以下、「第1関係を満たす」という。)か否かを判定する過程と、
    前記第1関係を満たすと判定されると、前記追加単語の単語出現確率として、第1中出現確率より大きい値である大出現確率を出力する過程と、
    前記第1関係を満たさないと判定されると、前記追加前言語辞書に前記追加単語と前記第1出現確率未満である第2出現確率とを対応付けて追加した言語辞書と、前記評価音声データベースとを用いて、第2誤り値を求める過程と、
    前記第1誤り値および前記第2誤り値を用いて、前記追加単語の単語出現確率が下がると、音声認識処理において前記追加単語の湧き出し誤りが生じない傾向にある(以下、「第2関係を満たす」という。)か否かを判定する過程と、
    前記第1関係を満たさず、前記第2関係を満たすと判定されると、追加単語の単語出現確率として前記大出現確率未満の値である前記第1中出現確率を出力する過程と、
    前記追加単語と前記単語出現確率とを対応付けて前記追加前言語辞書に追加した言語辞書を出力する過程と、を有する単語追加方法。
  9. 追加前言語辞書に追加単語と当該追加単語の第1出現確率とを対応付けて追加した言語辞書と、評価音声データベースとを用いて、前記追加単語の第1誤り値を求める過程と、
    前記第1誤り値を用いて、音声認識処理において前記追加単語の湧き出し誤りが生じない傾向にある(以下、「第1関係を満たす」という。)か否かを判定する過程と、
    前記第1関係を満たすと判定されると、前記追加単語の単語出現確率として、第2中出現確率より大きい値である大出現確率を出力する過程と、
    前記追加前言語辞書に、追加単語と前記第1出現確率とを対応付けて追加した言語辞書と、評価音声データベースを用いて、前記追加単語の第1正解値を求める過程と、
    追加前言語辞書に、追加単語と第1出現確率未満である第2出現確率とを対応付けて追加した言語辞書と、評価音声データベースを用いて、前記追加単語の第2正解値を求める過程と、
    前記第1正解値および前記第2正解値を用いて、前記追加単語の出現確率が下がると、音声認識処理において前記追加単語の正解が生じない傾向にある(以下、「第3関係を満たす」という。)か否かを判定する過程と、
    前記第1関係を満たさず、前記第3関係を満たすと判定されると、前記追加単語の単語出現確率として、前記大出現確率未満の値である前記第2中出現確率を出力する過程と、
    前記追加単語と前記単語出現確率とを対応付けて前記追加前言語辞書に追加した言語辞書を出力する過程と、を有する単語追加方法。
  10. 請求項1〜何れかに記載の単語追加装置としてコンピュータを動作させるプログラム。
JP2008124295A 2008-05-12 2008-05-12 単語追加装置、単語追加方法、そのプログラム Active JP4897737B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008124295A JP4897737B2 (ja) 2008-05-12 2008-05-12 単語追加装置、単語追加方法、そのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008124295A JP4897737B2 (ja) 2008-05-12 2008-05-12 単語追加装置、単語追加方法、そのプログラム

Publications (2)

Publication Number Publication Date
JP2009271465A JP2009271465A (ja) 2009-11-19
JP4897737B2 true JP4897737B2 (ja) 2012-03-14

Family

ID=41438042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008124295A Active JP4897737B2 (ja) 2008-05-12 2008-05-12 単語追加装置、単語追加方法、そのプログラム

Country Status (1)

Country Link
JP (1) JP4897737B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5480844B2 (ja) * 2011-05-16 2014-04-23 日本電信電話株式会社 単語追加装置、単語追加方法及びそのプログラム
JP5713963B2 (ja) * 2012-06-18 2015-05-07 日本電信電話株式会社 音声認識単語追加装置とその方法とプログラム
JP6276516B2 (ja) * 2013-05-08 2018-02-07 日本放送協会 辞書作成装置、及び辞書作成プログラム
US10140983B2 (en) 2015-08-28 2018-11-27 International Business Machines Corporation Building of n-gram language model for automatic speech recognition (ASR)
US20220277731A1 (en) * 2019-08-06 2022-09-01 Ntt Docomo, Inc. Word weight calculation system

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3907880B2 (ja) * 1999-09-22 2007-04-18 日本放送協会 連続音声認識装置および記録媒体
JP4089861B2 (ja) * 2001-01-31 2008-05-28 三菱電機株式会社 音声認識文章入力装置
JP2003186494A (ja) * 2001-12-17 2003-07-04 Sony Corp 音声認識装置および方法、記録媒体、並びにプログラム
JP4528540B2 (ja) * 2004-03-03 2010-08-18 日本電信電話株式会社 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP4554272B2 (ja) * 2004-05-25 2010-09-29 三菱電機株式会社 音声対話装置
JP4245530B2 (ja) * 2004-08-19 2009-03-25 三菱電機株式会社 言語モデル作成装置及び方法並びにプログラム
US8719021B2 (en) * 2006-02-23 2014-05-06 Nec Corporation Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
CN101454826A (zh) * 2006-05-31 2009-06-10 日本电气株式会社 语音识别词典/语言模型制作系统、方法、程序,以及语音识别系统
US20090313017A1 (en) * 2006-07-07 2009-12-17 Satoshi Nakazawa Language model update device, language Model update method, and language model update program

Also Published As

Publication number Publication date
JP2009271465A (ja) 2009-11-19

Similar Documents

Publication Publication Date Title
US10957312B2 (en) Scalable dynamic class language modeling
US20170140754A1 (en) Dialogue apparatus and method
TWI455111B (zh) 使用聲音資料之用於字素至音素轉換的方法、電腦系統,及與其相關的電腦可讀取媒體
US20030195739A1 (en) Grammar update system and method
US10410622B2 (en) Systems and methods for automatic repair of speech recognition engine output using a sliding window mechanism
WO2019065263A1 (ja) 発音誤り検出装置、発音誤り検出方法、プログラム
JP4897737B2 (ja) 単語追加装置、単語追加方法、そのプログラム
JPWO2008004666A1 (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
US20080281598A1 (en) Method and system for prompt construction for selection from a list of acoustically confusable items in spoken dialog systems
JP6738436B2 (ja) 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム
WO2019156101A1 (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
JP4594885B2 (ja) 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP5713963B2 (ja) 音声認識単語追加装置とその方法とプログラム
KR20060044753A (ko) 삭제된 보간 n-그램 언어 모델의 arpa 표준 형식 표현
JP5376341B2 (ja) モデル適応装置、その方法及びそのプログラム
JPWO2019107170A1 (ja) 緊急度推定装置、緊急度推定方法、プログラム
JP5290218B2 (ja) 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム
JP5852550B2 (ja) 音響モデル生成装置とその方法とプログラム
JP5986883B2 (ja) 言語モデル評価方法とその装置とプログラム
JP6549064B2 (ja) 音声認識装置、音声認識方法、プログラム
JP2009075249A (ja) 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
JP5982265B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP5089651B2 (ja) 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体
JP2014102345A (ja) 音響モデル学習用テキスト作成装置とその方法とプログラム
JP5762365B2 (ja) 音声認識装置、音声認識方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110720

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111213

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111222

R150 Certificate of patent or registration of utility model

Ref document number: 4897737

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350