JP2005275348A - 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 - Google Patents
音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2005275348A JP2005275348A JP2004259584A JP2004259584A JP2005275348A JP 2005275348 A JP2005275348 A JP 2005275348A JP 2004259584 A JP2004259584 A JP 2004259584A JP 2004259584 A JP2004259584 A JP 2004259584A JP 2005275348 A JP2005275348 A JP 2005275348A
- Authority
- JP
- Japan
- Prior art keywords
- reliability
- speech recognition
- speech
- word
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】入力される音声信号から抽出した音響特徴パラメータに対して、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識装置において、音声認識部1と、音声認識部1から得られた認識結果の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与部3と、信頼度付与部3で求めた信頼度と音声認識結果とを出カさせる信頼度付認識結果出力部4とを有し、音声認識結果の言語的妥当性に基づいて信頼度を求める音声認識装置。
【選択図】 図1
Description
以上の問題に対して、音声認識結果に認識結果の信頼度を付与することにより、信頼度の高さにより認識結果を受理、棄却若しくは結果の確認を行うことが可能となり、音声認識結果を用いる種々の装置において音声認識誤りに起因する発声者の想定外の動作を抑制することができる。
そして、認識結果の信頼度を計算するに、N-best候補を用いて計算することが行われている(非特許文献1 参照)。この方法は、音響尤度、言語尤度などを用いて認識結果候補をN位まで作成し、作成された候補を用いて信頼度を算出する。この方法は、複数の候補に多く出現している単語は信頼度が高いとしている。
また、認識結果の信頼度を決定するに、競合モデルを用いて決定することも行われている(特許文献1 参照)。この方法は、音声認識に用いたモデルと競合モデルの2種類のモデルを使用する。各モデルにおいてそれぞれ尤度を求め、得られた尤度から尤度比を算出し、認識結果の信頼度として付与する。
ところで、誤認識された音声認識結果の様な文法的に誤りのある文章を読んだ場合、人間は認識した音声を聞かなくてもこの単語の系列を判別材料としてその文章が誤っていることを判別することができる。更に、その文章のどの部分が誤っているかを判別することができる場合も多く存在する。このことは、単語系列の言語的妥当性および/或いは意味的妥当性に各単語の信頼度の判別材料が含まれていることを意味している。
また、請求項3:請求項2に記載される音声認識方法において、信頼度付与ステップについて、音声認識時に得られた各単語の品詞をシンボルとして用いて信頼度を付与する音声認識方法を構成した。
更に、請求項4:請求項1ないし請求項3の内の何れかに記載される音声認識方法において、信頼度付与ステップについて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与する音声認識方法を構成した。
また、請求項7:請求項6に記載される音声認識装置において、信頼度付与部3について、音声認識時に得られた各単語の品詞をシンボルとして用いて信頼度を付与する音声認識装置を構成した。
更に、請求項8:請求項5ないし請求項7の内の何れかに記載される音声認識装置において、信頼度付与部3について、音声認識時に得られた音響尤度スコア、言語尤度スゴアの内の一方或いは双方を用いて信頼度を付与する音声認識装置を構成した。
また、請求項11:請求項9及び請求項10に記載される音声認識プログラムにおいて、信頼度付与ステップについて、認識時に得られた各単語の品詞を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。
そして、請求項13:請求項9ないし請求項12の内の何れかに記載される音声認識プログラムを記録した記録媒体を構成した。
請求項14:入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、音声認識ステップから得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および/或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、信頼度付与ステップで求めた信頼度と音声認識結果とを出力させる信頼度付認識結果出力ステップとを有し、音声認識結果の言語的妥当性および/或いは意味的妥当性に基づいて信頼度を求める音声認識方法を構成した。
請求項15:請求項2に記載される音声認識方法において、信頼度付与ステップについて、音声認識時に得られた各単語の品詞細分類をシンボルとして用いて、信頼度を付与する音声認識方法を構成した。
請求項16:請求項2に記載される音声認識方法において、信頼度付与ステップについて、音声認識時に得られた各単語の概念情報をシンボルとして用いて、信頼度を付与する音声認識方法を構成した。
請求項17:請求項2に記載される音声認識方法において、信頼度付与ステップについて、音声認識時に得られた各単語の品詞、品詞再分類、概念情報の1つ以上をシンボルとして用いて、信頼度を付与する音声認識方法を構成した。
請求項18:請求項1ないし請求項3、請求項14ないし請求項17の内の何れかに記載される音声認識方法において、信頼度付与ステップについて、認識時に得られた各単語の音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与する音声認識方法を構成した。
請求項19:入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識装置において、入力された音声を認識して認識結果として単語系列を得る音声認識部と、音声認識部から得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および/或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与部と、信頼度付与部で求めた信頼度と音声認識結果とを出カさせる信頼度付認識結果出力部とを有し、音声認識結果の言語的妥当性および/或いは意味的妥当性に基づいて信頼度を求める音声認識装置を構成した。
請求項20:請求項19に記載される音声認識装置において、信頼度付与部において、音声認識時に得られた各単語の品詞細分類をシンボルとして用いて、信頼度を付与する音声認識装置を構成した。
請求項21:請求項19に記載される音声認識装置において、信頼度付与部において、音声認識時に得られた各単語の概念情報をシンボルとして用いて、信頼度を付与する音声認識装置を構成した。
請求項22:請求項19に記載される音声認識装置において、信頼度付与部において、音声認識時に得られた各単語の品詞、品詞再分類、概念情報の1つ以上をシンボルとして用いて信頼度を付与する音声認識装置を構成した。
請求項23:請求項5ないし請求項7、請求項19ないし請求項22の内の何れかに記載される音声認識装置において、信頼度付与部において、認識時に得られた各単語の音響尤度スコア、言語尤度スコアの内の一方或いは双方をシンボルとして用いて信頼度を付与する音声認識装置を構成した。
請求項24:入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力することをコンピュータに実行させるための音声認識プログラムにおいて、入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、前記音声認識ステップから得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および/或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、前記信頼度付与ステップで求めた信頼度と音声認識結果を出力させる信頼度付認識結果出カステップと、をコンピュータに実行させ、音声認識結果の言語的妥当性および/或いは意味的妥当性に基づいて信頼度を求める音声認識プログラムを構成した。
請求項25:請求項24に記載される音声認識プログラムにおいて、信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。
請求項26:請求項24および請求項25の内の何れかに記載される音声認識プログラムにおいて、信頼度付与ステップについて、認識時に得られた各単語の品詞を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。
請求項27:請求項24および請求項25の内の何れかに記載される音声認識プログラムにおいて、信頼度付与ステップについて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。
そして、以上の単語系列における言語的妥当性に代えて、単語系列における意味的妥当性或いは単語系列における言語的妥当性および意味的妥当性を使用することに依っても、同様に精度の高い認識結果の信頼度を付与することができる。
音声認識部1は、入力音声信号11を音響分析部51において音響特徴パラメータ13に変換する。音響特徴パラメータとは、入力音声を数10msecのフレームと呼ばれる単位で分析して得られるLPCケプストラム、MFCCその他のパラメータである。この音響特徴パラメータ13について、音響モデル格納部5と辞書・言語モデル格納部6とを用いて、或る一定の基準に基づいて区切られた発話単位毎に、認識結果候補の探索を、探索部52において行う。探索の結果、上位N位までのN−best候補と候補に対するスコアを算出する。即ち、HMMを用いて音響スコア15を算出し、単語n−gramを用いて言語スコア16を算出し、音響スコア15と言語スコア16の和である単語スコア17を出力する。その結果、認識結果の単語系列12、及び単語系列に含まれる各単語の品詞情報14、音響スコア15、言語スコア16、単語スコア17を出力する。但し、次の信頼度付与部3で信頼度を算出する際に用いないものは出力しなくてもよい。或る一定の基準に基づいて区切られた発話単位の例を例1に示す。
・ 『その辺ではかなり収益も上がるんじゃないかなと思います。』
・ 『なるほどね。』
・ 『今、あの韓国に買い物行くツアーとか、そういうのが非常に流行ってるんですが、』
・ 『ん一』
信頼度付与部3では、音声認識部1で得られた単語系列12の各単語に対して、先行若しくは後続単語の1語以上の並びとの接続を評価することで、言語的妥当性の評価を行い、信頼度を算出、付与し、信頼度付認識結果130を得る。信頼度を算出する要素の一例として、単語系列12に含まれる各単語の、品詞情報14、音響スコアユ5、言語スコア16、単語スコア17の全部または一部が入力される。また、信頼度を算出する要素の一例として、信頼度付与の対象となる当該単語の先行語及び後続語のそれぞれ少なくとも1語について当該単語と同様の要素を用いる。ここで、信頼度を付与する具体的な手法として、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することが行われる。シンボル化とは、一例として、「品詞」という観点から複数の単語に品詞を付与して複数の単語を品詞により表し、或いは、「文字数」という観点から各単語の文字数を数えて複数の各単語を文字数により表すことをいう。信頼度付与部3について、更に具体的に説明するに、信頼度付与部3において、単語系列においてn語目に位置する単語Wn の信頼度を算出する際に、音声認識部1から得た出力情報(認識結果の単語系列12、及びこの単語系列に含まれる各単語の品詞情報14、音響スコア15、言語スコア16、単語スコア17)について、信頼度を付与する当該単語Wn の音声認識部1から得た出力情報に加えて、先行語M語(Wn-M,・・・,Wn-1)及び後続語L語(Wn+1,・・・,Wn+L)それぞれの音声認識部1から得た出力情報を用いて特徴量ベクトルを作成する。ただし、音響スコア15、言語スコア16、単語スコア17については、0〜1の値に正規化したものを用いる。また、単語Wn が単語系列において文頭からM語或いは文末からL語以内に位置する場合、音声認識部1から得た出力情報を得るために充分な数の先行語或いは後続語が存在しない状況となる。この場合、文頭処理或いは文末処理として、存在しない先行語或いは後続語の音響スコア、言語スコア、単語スコアとして予め定義した固定値を与える。
以上の様にして得た特徴量ベクトルについて、機械学習を用いて分析を行う。1単語にいて、37種類の品詞情報、音響スコア、言語スコア、単語スコアを用いた計40次元の素性とし、信頼度の算出時には合計で[情報を使用する単語数×40]次元の素性を用いて評価を行う。先ず、学習データを用意して上述の素性と単語の正誤を学習し、識別モデルを作成する。次に、評価データを用意し、識別モデルを用いて評価を行うことにより、単語系列における各単語の認識の正誤の判別結果を出力する。この実施例は、先行語および後続語共に1語づつ、計120次元を素性とする。
音声認識部1は、入力音声信号11を音響分析部51において音響特徴パラメータ13に変換する。音響特徴パラメータとは、入力音声を数10msecのフレームと呼ばれる単位で分析して得られるLPCケプストラム、MFCCその他のパラメータである。この音響特徴パラメータ13について、音響モデル格納部5と辞書・言語モデル格納部6とを用いて、或る一定の基準に基づいて区切られた発話単位毎に、認識結果候補の探索を、探索部52において行う。探索の結果、上位N位までのN−best候補と候補に対するスコアを算出する。即ち、HMMを用いて音響スコア15を算出し、単語n-gramを用いて言語スコア16を算出し、音響スコア15と言語スコア16の和である単語スコア17を出力する。その結果、認識結果の単語系列12、及び単語系列に含まれる各単語の品詞情報14、音響スコア15、言語スコア16、単語スコア17、品詞細分類20、意味カテゴリ21を出力する。意味カテゴリ付与部53では、探索部52より得られた単語系列に含まれる各単語について、意味カテゴリ情報を意味情報格納部8より検索し、意味カテゴリ21を付与する。但し、言語モデル・辞書格納部6に意味カテゴリ情報が含まれていてその意味カテゴリ情報を各単語に付与できる場合は、意味カテゴリ付与部53を音声認識部1に含める必要および意味情報格納部8を使用する必要は無い。但し、次の信頼度付与部3で信頼度を算出する際に用いないものは出力しなくてもよい。或る一定の基準に基づいて区切られた発話単位の例を例1に示す。
例1:音声認識部から発話単位に出力される認識結果の単語系列
・ 『その辺ではかなり収益も上がるんじゃないかなと思います。』
・ 『なるほどね。』
・ 『今、あの韓国に買い物行くツアーとか、そういうのが非常に流行ってるんですが、』
・ 『ん一』
この発明による効果を41本の放送ニュースデータおよび7本の会議音声データの連続単語認識において、語彙数約3万のtrigram言語モデル、性別非依存、状態数約5000、各状態の混合数8(ニュース)および12(会議)の状態共有triphone音響モデルを用いて評価した。用いたデータの概要を表4に示す。
コンピュータと人間とが音声対話を用いてコミュニケーションを取る音声対話システムでは、認識した情報において、信頼度の高い部分に重みをつけて用いたり、信頼度の低い部分を再度確認したりなど、より効率的な対話を行うことができる。
上記例のように、この発明による音声認識方法を用いることにより、効率的な音声認識装置を開発することができる。
12 単語系列 13 音響特徴パラメータ
14 品詞情報 15 音響スコア
16 言語スコア 17 単語スコア
20 品詞細分類 21 意味カテゴリ
3 信頼度付与部 4 信頼度付認識結果出力部
5 音響モデル格納部 6 辞書・言語モデル格納部
52 探索部 51 音響分析部
130 信頼度付認識結果
Claims (27)
- 入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、
入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、
音声認識ステップから得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、
信頼度付与ステップで求めた信頼度と音声認識結果とを出力させる信頼度付認識結果出力ステップとを有し、
音声認識結果の言語的妥当性に基づいて信頼度を求めることを特徴とする音声認識方法。 - 請求項1に記載される音声認識方法において、
信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することを特徴とする音声認識方法。 - 請求項2に記載される音声認識方法において、
信頼度付与ステップについて、音声認識時に得られた各単語の品詞をシンボルとして用いて信頼度を付与することを特徴とする音声認識方法。 - 請求項1ないし請求項3の内の何れかに記載される音声認識方法において、
信頼度付与ステップについて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することを特徴とする音声認識方法。 - 入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識装置において、
入力された音声を認識して認識結果として単語系列を得る音声認識部と、
音声認識部から得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与部と、
信頼度付与部で求めた信頼度と音声認識結果とを出カさせる信頼度付認識結果出力部とを有し、
音声認識結果の言語的妥当性に基づいて信頼度を求めることを特徴とする音声認識装置。 - 請求項5に記載される音声認識装置において、
信頼度付与部について、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することを特徴とする音声認識装置。 - 請求項6に記載される音声認識装置において、
信頼度付与部について、音声認識時に得られた各単語の品詞をシンボルとして用いて信頼度を付与することを特徴とする音声認識装置。 - 請求項5ないし請求項7の内の何れかに記載される音声認識装置において、
信頼度付与部について、音声認識時に得られた音響尤度スコア、言語尤度スゴアの内の一方或いは双方を用いて信頼度を付与することを特徴とする音声認識装置。 - 入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力することをコンピュータに実行させるための音声認識プログラムにおいて、
入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、
前記音声認識ステップから得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、
前記信頼度付与ステップで求めた信頼度と音声認識結果を出力させる信頼度付認識結果出カステップと、
をコンピュータに実行させ、
音声認識結果の言語的妥当性に基づいて信頼度を求めることを特徴とする音声認識プログラム。 - 請求項9に記載される音声認識プログラムにおいて、
信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム。 - 請求項9及び請求項10に記載される音声認識プログラムにおいて、
信頼度付与ステップについて、認識時に得られた各単語の品詞を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム。 - 請求項9及び請求項10の内の何れかに記載される音声認識プログラムにおいて、
信頼度付与ステップにっいて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム、 - 請求項9ないし請求項12の内の何れかに記載される音声認識プログラムを記録した記録媒体。
- 入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、
入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、
音声認識ステップから得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および/或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、
信頼度付与ステップで求めた信頼度と音声認識結果とを出力させる信頼度付認識結果出力ステップとを有し、
音声認識結果の言語的妥当性および/或いは意味的妥当性に基づいて信頼度を求めることを特徴とする音声認識方法。 - 請求項2に記載される音声認識方法において、
信頼度付与ステップについて、音声認識時に得られた各単語の品詞細分類をシンボルとして用いて、信頼度を付与する音声認識方法。 - 請求項2に記載される音声認識方法において、
信頼度付与ステップについて、音声認識時に得られた各単語の概念情報をシンボルとして用いて、信頼度を付与する音声認識方法。 - 請求項2に記載される音声認識方法において、
信頼度付与ステップについて、音声認識時に得られた各単語の品詞、品詞再分類、概念情報の1つ以上をシンボルとして用いて、信頼度を付与する音声認識方法。 - 請求項1ないし請求項3、請求項14ないし請求項17の内の何れかに記載される音声認識方法において、
信頼度付与ステップについて、認識時に得られた各単語の音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することを特徴とする音声認識方法。 - 入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識装置において、
入力された音声を認識して認識結果として単語系列を得る音声認識部と、
音声認識部から得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および/或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与部と、
信頼度付与部で求めた信頼度と音声認識結果とを出カさせる信頼度付認識結果出力部とを有し、
音声認識結果の言語的妥当性および/或いは意味的妥当性に基づいて信頼度を求めることを特徴とする音声認識装置。 - 請求項19に記載される音声認識装置において、
信頼度付与部において、音声認識時に得られた各単語の品詞細分類をシンボルとして用いて、信頼度を付与することを特徴とする音声認識装置。 - 請求項19に記載される音声認識装置において、
信頼度付与部において、音声認識時に得られた各単語の概念情報をシンボルとして用いて、信頼度を付与することを特徴とする音声認識装置。 - 請求項19に記載される音声認識装置において、
信頼度付与部において、音声認識時に得られた各単語の品詞、品詞再分類、概念情報の1つ以上をシンボルとして用いて信頼度を付与する音声認識装置。 - 請求項5ないし請求項7、請求項19ないし請求項22の内の何れかに記載される音声認識装置において、
信頼度付与部において、認識時に得られた各単語の音響尤度スコア、言語尤度スコアの内の一方或いは双方をシンボルとして用いて信頼度を付与する音声認識装置。 - 入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力することをコンピュータに実行させるための音声認識プログラムにおいて、
入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、
前記音声認識ステップから得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および/或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、
前記信頼度付与ステップで求めた信頼度と音声認識結果を出力させる信頼度付認識結果出カステップと、
をコンピュータに実行させ、
音声認識結果の言語的妥当性および/或いは意味的妥当性に基づいて信頼度を求めることを特徴とする音声認識プログラム。 - 請求項24に記載される音声認識プログラムにおいて、
信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム。 - 請求項24および請求項25の内の何れかに記載される音声認識プログラムにおいて、
信頼度付与ステップについて、認識時に得られた各単語の品詞を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム。 - 請求項24および請求項25の内の何れかに記載される音声認識プログラムにおいて、
信頼度付与ステップについて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004259584A JP2005275348A (ja) | 2004-02-23 | 2004-09-07 | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004046824 | 2004-02-23 | ||
JP2004259584A JP2005275348A (ja) | 2004-02-23 | 2004-09-07 | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005275348A true JP2005275348A (ja) | 2005-10-06 |
Family
ID=35175038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004259584A Pending JP2005275348A (ja) | 2004-02-23 | 2004-09-07 | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005275348A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007240589A (ja) * | 2006-03-06 | 2007-09-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識信頼度推定装置、その方法、およびプログラム |
WO2008001486A1 (fr) * | 2006-06-29 | 2008-01-03 | Nec Corporation | Dispositif et programme de traitement vocal, et procédé de traitement vocal |
JP2008122927A (ja) * | 2006-09-13 | 2008-05-29 | Honda Motor Co Ltd | モータ雑音下におけるロボット用音声認識方法 |
WO2009147745A1 (ja) * | 2008-06-06 | 2009-12-10 | 三菱電機株式会社 | 検索装置 |
JP2010039539A (ja) * | 2008-07-31 | 2010-02-18 | Ntt Docomo Inc | 言語モデル作成装置および言語モデル作成方法 |
JP2010231149A (ja) * | 2009-03-30 | 2010-10-14 | Kddi Corp | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム |
JP2010237351A (ja) * | 2009-03-31 | 2010-10-21 | Nec Corp | ユーザ辞書作成システム、方法、及び、プログラム |
JP2012022070A (ja) * | 2010-07-13 | 2012-02-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法とその装置とプログラム |
CN112262430A (zh) * | 2018-08-23 | 2021-01-22 | 谷歌有限责任公司 | 自动确定经由自动助理界面接收到的口头话语的语音识别的语言 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09134192A (ja) * | 1995-11-10 | 1997-05-20 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 統計的言語モデル生成装置及び音声認識装置 |
JP2000132549A (ja) * | 1998-10-26 | 2000-05-12 | Sony Corp | 自然言語処理装置及び方法 |
JP2002358097A (ja) * | 2001-06-01 | 2002-12-13 | Mitsubishi Electric Corp | 音声認識装置 |
JP2003029782A (ja) * | 2001-07-19 | 2003-01-31 | Mitsubishi Electric Corp | 対話処理装置及び対話処理方法並びにプログラム |
JP2005084436A (ja) * | 2003-09-09 | 2005-03-31 | Advanced Telecommunication Research Institute International | 音声認識装置及びコンピュータプログラム |
-
2004
- 2004-09-07 JP JP2004259584A patent/JP2005275348A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09134192A (ja) * | 1995-11-10 | 1997-05-20 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 統計的言語モデル生成装置及び音声認識装置 |
JP2000132549A (ja) * | 1998-10-26 | 2000-05-12 | Sony Corp | 自然言語処理装置及び方法 |
JP2002358097A (ja) * | 2001-06-01 | 2002-12-13 | Mitsubishi Electric Corp | 音声認識装置 |
JP2003029782A (ja) * | 2001-07-19 | 2003-01-31 | Mitsubishi Electric Corp | 対話処理装置及び対話処理方法並びにプログラム |
JP2005084436A (ja) * | 2003-09-09 | 2005-03-31 | Advanced Telecommunication Research Institute International | 音声認識装置及びコンピュータプログラム |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007240589A (ja) * | 2006-03-06 | 2007-09-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識信頼度推定装置、その方法、およびプログラム |
WO2008001486A1 (fr) * | 2006-06-29 | 2008-01-03 | Nec Corporation | Dispositif et programme de traitement vocal, et procédé de traitement vocal |
US8751226B2 (en) | 2006-06-29 | 2014-06-10 | Nec Corporation | Learning a verification model for speech recognition based on extracted recognition and language feature information |
JP2008122927A (ja) * | 2006-09-13 | 2008-05-29 | Honda Motor Co Ltd | モータ雑音下におけるロボット用音声認識方法 |
WO2009147745A1 (ja) * | 2008-06-06 | 2009-12-10 | 三菱電機株式会社 | 検索装置 |
JPWO2009147745A1 (ja) * | 2008-06-06 | 2011-10-20 | 三菱電機株式会社 | 検索装置 |
JP2010039539A (ja) * | 2008-07-31 | 2010-02-18 | Ntt Docomo Inc | 言語モデル作成装置および言語モデル作成方法 |
JP2010231149A (ja) * | 2009-03-30 | 2010-10-14 | Kddi Corp | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム |
JP2010237351A (ja) * | 2009-03-31 | 2010-10-21 | Nec Corp | ユーザ辞書作成システム、方法、及び、プログラム |
JP2012022070A (ja) * | 2010-07-13 | 2012-02-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法とその装置とプログラム |
CN112262430A (zh) * | 2018-08-23 | 2021-01-22 | 谷歌有限责任公司 | 自动确定经由自动助理界面接收到的口头话语的语音识别的语言 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
JP6066354B2 (ja) | 信頼度計算の方法及び装置 | |
US7254529B2 (en) | Method and apparatus for distribution-based language model adaptation | |
US7634406B2 (en) | System and method for identifying semantic intent from acoustic information | |
EP0834862A2 (en) | Method of key-phrase detection and verification for flexible speech understanding | |
US20140207457A1 (en) | False alarm reduction in speech recognition systems using contextual information | |
WO2013163494A1 (en) | Negative example (anti-word) based performance improvement for speech recognition | |
JP4769098B2 (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
JP4950024B2 (ja) | 会話システムおよび会話ソフトウェア | |
JP4499389B2 (ja) | 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 | |
JP2004198597A (ja) | 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体 | |
JP3660512B2 (ja) | 音声認識方法、その装置及びプログラム記録媒体 | |
JP3819896B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP2005275348A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JPH10274996A (ja) | 音声認識装置 | |
JP3444108B2 (ja) | 音声認識装置 | |
JP4475628B2 (ja) | 会話制御装置、会話制御方法並びにこれらのプログラム | |
JP2000250593A (ja) | 話者認識装置及び方法 | |
JP2006189730A (ja) | 音声対話方法および音声対話装置 | |
KR100366703B1 (ko) | 인간 반응형 음성인식장치 | |
JP4313267B2 (ja) | 対話理解結果の信頼度算出処理方法 | |
JPH08241096A (ja) | 音声認識方法 | |
JP4236502B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060726 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060726 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081216 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090407 |