[go: up one dir, main page]

JP4297349B2 - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP4297349B2
JP4297349B2 JP2004098760A JP2004098760A JP4297349B2 JP 4297349 B2 JP4297349 B2 JP 4297349B2 JP 2004098760 A JP2004098760 A JP 2004098760A JP 2004098760 A JP2004098760 A JP 2004098760A JP 4297349 B2 JP4297349 B2 JP 4297349B2
Authority
JP
Japan
Prior art keywords
phoneme
recognition result
unit
likelihood
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004098760A
Other languages
English (en)
Other versions
JP2005284018A (ja
Inventor
顕吾 藤田
正樹 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2004098760A priority Critical patent/JP4297349B2/ja
Publication of JP2005284018A publication Critical patent/JP2005284018A/ja
Application granted granted Critical
Publication of JP4297349B2 publication Critical patent/JP4297349B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は音声認識システムに関し、特に発声途中で音声認識結果候補を逐次出力できる音声認識システムに関する。
従来の音声認識システムの一例(従来法1)を図3を参照して説明する。音声入力部1は、ユーザの音声である音声信号を入力し音声検出部2へ送る。次に、音声検出部2は、音声入力部1より得られる音声信号を、音声区間の始端から順次図4に示すようにフレーム長T毎にΔTずつずらして切り出し、それぞれを音響分析部3へ送る。また、音声区間の終端を検出した時刻に、認識結果候補決定部6へ終端検出信号を送る。音響分析部3は、フレーム毎に切り出された音声信号から音声信号の特徴を表す音響パラメータを抽出し、照合部4へ送る。照合部4は、音素の特徴を表すモデルを連結して得た認識語彙標準パタン5と、第1フレームから現時刻までの音響パラメータとを照合し、認識語彙を構成する音素列の尤度を計算する。なお、各時刻の尤度は1時刻前までの照合結果を基にViterbiアルゴリズムを用い計算することが可能である。このことは、例えば、中川聖一著「確率モデルによる音声認識」に記されている。認識結果候補決定部6は、前記音声検出部2からの終端検出信号を受け取った時刻において尤度の高い音素列仮説を認識結果候補として出力する。
次に、従来システムの他の例(従来法2)を、図5を参照して説明する。図中の図3と同一または同等物には、同じ符号が付されている。この従来例は、音声入力部1、音声検出部2、音響分析部3、照合部4の機能は図3と同じである。図3の従来例と異なるのは、照合部4から各時刻で尤度の高い音素列を認識結果候補として出力するようにしている点である。
前記従来システム係る技術を記載した文献として、例えば下記の特許文献1,2等がある。
特開2003−255972号公報 特開2003−345386号公報 1988年7月1日、コロナ社発光、中川聖一著「確率モデルによる音声認識」
前記従来法1,2には、次のような課題があった。すなわち、従来法1では、発声が終了するまで認識結果候補を得ることができず、認識結果に基づき情報を提示するまでに時間を要する。
従来法2では、照合途中の各時刻に尤度の高い音素列を認識結果候補とするため、照合開始から間もない音素も認識結果候補に含まれる恐れがあり、そのような音素を含む類似した音素列が認識結果候補として多く出力される恐れがある。
例えば、第1フレームからある時刻までの音響パラメータを照合した結果、得られる尤度の高い音素列の例を図6に示す。実際に発声した音素列が「o/NN/s/e/i」である場合でも、図6のように発声した音素列の一部分である「o/NN/s/e」、あるいは辞書登録単語上発声した音素列に続く音素が加わっている「o/NN/s/e/i/n」、「o/NN/s/e/i/g」、「o/NN/s/e/i/s」といった発声した音素列に類似した音素列が尤度の高い音素列として挙がる場合が多く見られる。
本発明は、前記した従来技術の課題に鑑みてなされたものであり、その目的は、発声途中で、精度の良い認識結果候補を得ることができる音声認識システムを提供することにある。
前記した目的を達成するために、本発明は、発声途中で音声認識結果候補を逐次出力できる音声認識システムにおいて、音声信号をフレーム長T毎にΔTずつずらして切り出す音声検出部と、該音声検出部から得られた切り出し音声信号から音声信号の特徴を表す音響パラメータを抽出する音響分析部と、発声開始から発声途中までの音響パラメータから、音素列の尤度を計算する照合部と、該照合部から得られる音素列の照合結果を基に、発声途中で認識結果候補を決定する認識結果候補決定手段とを具備し、前記照合部は、前記音響分析部から抽出された第1フレームから現時刻までの音響パラメータを、認識語彙のもつ音素の並びに従い音素の特徴を表すモデルによる連結を構成した認識語彙標準パタンと照合し、認識結果音素列候補と第1の尤度を出力する第1照合部と、前記第1フレームから現時刻までの音響パラメータを、日本語全般をモデル化するようなバックグランドパタンと照合し、第2の尤度を出力する第2照合部とからなり、前記認識結果候補決定手段は、
前記照合部から得られた音素列の第1、第2の尤度の差を取り、該差を音声認識処理の実行区間で除することにより得られた値である正規化スコアを演算し、該正規化スコアが予め定めた閾値より高い音素列と該音素列の前記第1の尤度m を出力する正規化スコア計算部と、前記閾値より高い音素列の尤度m を指数化して第1の事後確率を求め、該第1の事後確率を基に発声開始から発声途中までの入力音声に含まれる音素列の第2の事後確率を求め、該第2の事後確率が予め定められた基準値以上の音素列を認識結果候補と決定する認識結果候補決定部とからなる点に特徴がある。
請求項1,2の発明によれば、発声途中に、精度の良い認識結果候補を得ることが可能であり、情報の提示までの時間を短縮することができる。
また、正規化スコアと事後確率を用いて詳細に認識結果候補の選定を行うことができるので、不要な認識結果候補の出力を低減することが可能になる。
以下に、図面を参照して、本発明を詳細に説明する。図1は、本発明の一実施形態の構成を示すブロック図である。図1において、図3と同一または同等物には、同じ符号が付されている。
図において、音声入力部1は、ユーザからの音声信号を入力し音声検出部2へ送る。音声検出部2は、音声入力部1より得られる音声信号を、順次図4に示すようにフレーム長T(時間)毎にΔT(時間)ずつずらして切り出し、それぞれを音響分析部3へ送る。音響分析部3は、フレーム毎に切り出された音声信号から音声信号の特徴を表す音響パラメータを抽出し、第1照合部4および第2照合部へ送る。
第1照合部4は、音素の特徴を表すモデルを連結して得た認識語彙標準パタン5と第1フレームから現時刻までの音響パラメータを照合し、認識結果音素列候補とその尤度mKを認識結果候補決定手段10に送る。第2照合部7は、日本語全般をモデル化するようなバックグランドパタン8と第1フレームから現時刻までの音響パラメータを照合し、尤度mBを認識結果候補決定手段10に送る。
該認識結果候補決定手段10は、第1照合部4から得られた音素列のうち尤度の高い音素列を選択し、各音素列の尤度を基に発声開始から発声途中までの入力音声の音素列である可能性の高い音素列のみを認識結果候補と決定する働きをするものであり、一具体例として、正規化スコア計算部11と認識結果候補決定部12とから構成することができる。
正規化スコア計算部11では、第1照合部4で得られる尤度mK及び第2照合部で得られる尤度mBより、下記に示す式により正規化スコアSを計算する。そして、該スコアが予め定めた閾値より高い音素列仮説(以下、N-best音素列と呼ぶ)と各音素列の尤度 (=前記閾値より高い尤度m を認識結果候補決定部12へ送る。
S=(mK−mB)/(t−t
ここに、tは第1フレームの開始時刻、tは現時刻を示す。すなわち、t−tは照合に用いた区間の長さである。なお、該正規化スコアSについては、本出願人による特許出願である特願平2003−048608号に詳細に説明されている。
次に、認識結果候補決定部12は、N-best音素列と各音素の尤度を用いて、以下に示す方法で各音素列に対する事後確率を算出する。
(1)N-best音素列の尤度m(1≦i≦N)を指数化し、i番目の尤度mの事後確率(第1の事後確率)を下式から求める。
Figure 0004297349
(2)次に、ある音素列xがi番目の候補に含まれるときδx,i=1、含まれないときδx,i=0とすると、入力音声に音素列xが含まれている事後確率(第2の事後確率)は、次式で計算される。
Figure 0004297349
その後、認識結果候補決定部12は、音素列中の事後確率の最大値からのある範囲θに含まれる音素列を認識結果候補と決定する。
図2には、「音声」、「音声認識」、「音声合成」、「音声操作」といった単語を含む認識辞書を用いた認識を行い、時刻tまでの入力音声「おんせい」と認識語彙標準パタンを照合した際に得られる音素列の例を示した。ここでは正規化スコアの高い5つの音素列が挙がり、それぞれの音素列の尤度から事後確率p(i=1,2,・・・,5)が算出されたとする。
本来時刻tまでの音声「おんせい」に対応する音素列は「o/NN/s/e/i」(p=0.22)であるが、その他にも、音素列「o/NN/s/e/i」の一部分をなす「o/NN/s/e」(p=0.18)、あるいは、認識辞書上で「o/NN/s/e/i」に続く「音声認識」、「音声合成」、「音声操作」という単語内の音素が加わった音素列「o/NN/s/e/i/n」(p=0.21)、「o/NN/s/e/i/g」(p=0.20)、「o/NN/s/e/i/s」(p=0.19)も正規化スコアの高い音素列として挙がっている。
このとき上記事後確率pの定義より、音素列「o/NN/s/e」の事後確率po/NN/s/e=1.0となる。また、同様に音素列「o/NN/s/e/i」の事後確率po/NN/s/e/i=0.82と算出される。また、「o/NN/s/e/i/n」、「o/NN/s/e/i/g」、「o/NN/s/e/i/s」など類似した音素列が候補中に存在する場合、事後確率はそれぞれ、po/NN/s/e/i/n=0.21、po/NN/s/e/i/g=0.20、po/NN/s/e/i/s=0.19と低い値をとると予想される。
ここで、前記候補選択の基準として、例えばθ=0.50を使用すると、事後確率の高い音素列「o/NN/s/e」及び「o/NN/s/e/i」が認識結果候補として出力され、「o/NN/s/e/i/n」、「o/NN/s/e/i/g」、「o/NN/s/e/i/s」などは認識結果候補から除外される。
このように、本実施形態によれば、発声途中で、精度の良い認識結果候補を出力できるようになる。
本発明の一実施形態の構成を示すブロック図である。 発声した音素列が「o/NN/s/e/i」である場合の正規化スコアの高い音素列の例を示す説明図である。 従来の音声認識システムの一例の構成を示すブロック図である。 音声区間検出と特徴パラメータ抽出の説明図である。 従来の音声認識システムの他の例の構成を示すブロック図である。 図5の音声認識システムにより出力される認識結果候補の説明図である。
符号の説明
1・・・音声入力部、2・・・音声検出部、3・・・音響分析部、4・・・第1照合部、5・・・認識語彙標準パタン、7・・・第2照合部、8・・・バックグランドパタン、10・・・認識結果候補決定手段、11・・・正規化スコア計算部、12・・・認識結果候補決定部。

Claims (2)

  1. 発声途中で音声認識結果候補を逐次出力できる音声認識システムにおいて、
    音声信号をフレーム長T毎にΔTずつずらして切り出す音声検出部と、
    該音声検出部から得られた切り出し音声信号から音声信号の特徴を表す音響パラメータを抽出する音響分析部と、
    発声開始から発声途中までの音響パラメータから、音素列の尤度を計算する照合部と、
    該照合部から得られる音素列の照合結果を基に、発声途中で認識結果候補を決定する認識結果候補決定手段とを具備し、
    前記照合部は、前記音響分析部から抽出された第1フレームから現時刻までの音響パラメータを、認識語彙のもつ音素の並びに従い音素の特徴を表すモデルによる連結を構成した認識語彙標準パタンと照合し、認識結果音素列候補と第1の尤度を出力する第1照合部と、前記第1フレームから現時刻までの音響パラメータを、日本語全般をモデル化するようなバックグランドパタンと照合し、第2の尤度を出力する第2照合部とからなり、
    前記認識結果候補決定手段は、
    前記照合部から得られた音素列の第1、第2の尤度の差を取り、該差を音声認識処理の実行区間で除することにより得られた値である正規化スコアを演算し、該正規化スコアが予め定めた閾値より高い音素列と該音素列の前記第1の尤度m を出力する正規化スコア計算部と、
    前記閾値より高い音素列の尤度m を指数化して第1の事後確率を求め、該第1の事後確率を基に発声開始から発声途中までの入力音声に含まれる音素列の第2の事後確率を求め、該第2の事後確率が予め定められた基準値以上の音素列を認識結果候補と決定する認識結果候補決定部とからなる音声認識システム。
  2. 請求項に記載の音声認識システムにおいて、
    前記認識結果候補決定部は、前記閾値より高い音素列の尤度m(1≦i≦N)を指数化し、i番目の尤度mの第1の事後確率pを下記の(1)式から求め、前記発声開始から発声途中までの入力音声に含まれる音素列xの第2の事後確率pを、該音素列xがi番目の候補に含まれるときδx,i=1、含まれないときδx,i=0として、下記の(2)式で計算することを特徴とする音声認識システム。
    Figure 0004297349
    Figure 0004297349
JP2004098760A 2004-03-30 2004-03-30 音声認識システム Expired - Fee Related JP4297349B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004098760A JP4297349B2 (ja) 2004-03-30 2004-03-30 音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004098760A JP4297349B2 (ja) 2004-03-30 2004-03-30 音声認識システム

Publications (2)

Publication Number Publication Date
JP2005284018A JP2005284018A (ja) 2005-10-13
JP4297349B2 true JP4297349B2 (ja) 2009-07-15

Family

ID=35182450

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004098760A Expired - Fee Related JP4297349B2 (ja) 2004-03-30 2004-03-30 音声認識システム

Country Status (1)

Country Link
JP (1) JP4297349B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101208166B1 (ko) * 2010-12-16 2012-12-04 엔에이치엔(주) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2808906B2 (ja) * 1991-02-07 1998-10-08 日本電気株式会社 音声認識装置
JP3039095B2 (ja) * 1992-01-30 2000-05-08 日本電気株式会社 音声認識装置
JP3440840B2 (ja) * 1998-09-18 2003-08-25 松下電器産業株式会社 音声認識方法及びその装置
JP2002041082A (ja) * 2000-07-28 2002-02-08 Hitachi Ltd 音声認識装置
JP2002358097A (ja) * 2001-06-01 2002-12-13 Mitsubishi Electric Corp 音声認識装置
JP4219603B2 (ja) * 2002-03-04 2009-02-04 三菱電機株式会社 音声認識装置

Also Published As

Publication number Publication date
JP2005284018A (ja) 2005-10-13

Similar Documents

Publication Publication Date Title
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US8612223B2 (en) Voice processing device and method, and program
EP1936606B1 (en) Multi-stage speech recognition
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
CN103426428A (zh) 语音识别方法及系统
TW201349222A (zh) 語音識別方法及系統
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
CN101452701B (zh) 基于反模型的置信度估计方法及装置
KR101317339B1 (ko) 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치 및 방법
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
CN108806691B (zh) 语音识别方法及系统
JP2004325635A (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP2002358097A (ja) 音声認識装置
EP1734509A1 (en) Method and system for speech recognition
JPWO2005096271A1 (ja) 音声認識装置及び音声認識方法
JP2000250593A (ja) 話者認識装置及び方法
JP4297349B2 (ja) 音声認識システム
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
JPH06266386A (ja) ワードスポッティング方法
KR100669244B1 (ko) 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
JPH11249688A (ja) 音声認識装置およびその方法
JP6497651B2 (ja) 音声認識装置および音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050831

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080430

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090401

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090409

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150424

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees