[go: up one dir, main page]

JP2002156995A - 音声処理システム - Google Patents

音声処理システム

Info

Publication number
JP2002156995A
JP2002156995A JP2001341085A JP2001341085A JP2002156995A JP 2002156995 A JP2002156995 A JP 2002156995A JP 2001341085 A JP2001341085 A JP 2001341085A JP 2001341085 A JP2001341085 A JP 2001341085A JP 2002156995 A JP2002156995 A JP 2002156995A
Authority
JP
Japan
Prior art keywords
word
sequence
sub
subword
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001341085A
Other languages
English (en)
Inventor
Jason Peter Andrew Charlesworth
ピーター アンドリュー チャールズワース ジェイソン
Jacob Rajan Jebb
ジェイコブ ラジャン ジェブ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2002156995A publication Critical patent/JP2002156995A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 ユーザが単語モデルを音声認識システムに加
えることを可能にするシステムを提供すること。 【解決手段】 登録しようとする新たな単語に対応する
音声をユーザが入力し、その単語を表す音素列の代表シ
ーケンスを例えば動的計画法を用いて生成する。この音
素の代表シーケンスは、その後で音声認識システムで使
用するために、その単語のスペルと共に単語−音素辞書
に記憶される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、単語(word)辞書
またはコマンド辞書に加えることができ、音声認識など
の音声処理関連の応用例で使用することができる単語ま
たはコマンドに対する音素モデル(phoneme model)ま
たは擬音韻モデル(phoneme like model)の決定に関す
る。具体的には、本発明は、入力単語の発音を表し、か
つそのシーケンスを音声処理の応用例で使用することが
できる標準音素列および非標準音素列の生成に関する。
【0002】
【従来の技術】音声認識システムの使用は、認識処理を
実行するために利用可能な処理能力が向上したために、
ますます一般的になっている。音声認識システムは一般
に、小語彙システムおよび大語彙システムに分類するこ
とができる。小語彙システムでは、音声認識エンジンは
通常、システムに既知の単語(word)を表す音響パター
ンと、認識すべき入力音声とを比較する。大語彙システ
ムの場合、システムに既知の各単語についての単語モデ
ルを記憶することは実際的ではない。そのかわりに、標
準パターンは所与の言語の音素または音韻(phoneme)
を通常表す。このようにして、入力音声が音素パターン
と比較され、入力音声を表す音素列が生成される。そし
て、単語デコーダにより、単語−音素辞書を用いて音素
列内の単語が識別される。
【0003】
【発明が解決しようとする課題】大語彙音声認識システ
ムにおける問題は、ユーザが単語辞書にない単語を発声
した場合に誤認識が生じ、音声認識システムが、実際に
発声された、その語彙にない単語に最も近い発音の単語
を出力してしまうことである。この問題は、ユーザが語
彙にない単語についての新たな単語モデルを加えること
が可能にするメカニズムを提供することによって解決す
ることができる。このことは現在、語彙にない単語を表
す音響パターンを生成することによってほぼ達成されて
いる。
【0004】しかし、このことにより、音声認識システ
ムが、入力音声と、2つの異なるタイプのモデル(すな
わち、音素モデルおよび単語モデル)とを突き合わせる
ことが必要となり、そのために認識処理速度が遅くな
る。あるシステムでは、語彙にない単語に対し、認識要
求に応えるために、ユーザが音声綴りを単語辞書に加え
ることを可能としている。しかし、このことによりユー
ザは、登録しようとする新たな単語についての各音素を
明示的に入力することが必要となり、これは、音声認識
システムの知識が乏しく、単語を構成する音素について
もよく知らないユーザを考えると実際的ではない。別の
技法は、音声認識システムを用いて新たな単語を音素列
に復号化し、復号化した音素列を正しいものとして扱
う。しかし、今日の最良のシステムでも80%未満の認
識精度しかないので、この方法でもある程度の誤差が入
り込み、それによって最終的にはシステムの認識率が低
下する。
【0005】したがって、本発明の目的は、例えば音声
認識システムで用いられる単語辞書またはコマンド辞書
に加えるべき新たな単語を表す音素列または擬音韻系列
を生成する代替技法を提供することである。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、例えば本発明による装置の一例は、音声認識システ
ムの辞書に加えるべき新たな単語を表すサブワードシー
ケンスを生成する装置であって、前記新たな単語に対応
する第1および第2の音声部分を表す信号を受信する第
1の受信手段と、受信した前記第1および第2の音声部
分と、あらかじめ記憶したサブワードモデルとを比較
し、前記第1および第2の音声部分のそれぞれを表す第
1および第2のサブワードシーケンスを生成する音声認
識手段と、前記第1のサブワードシーケンスと前記第2
のサブワードシーケンスとをマッチングし、サブワード
単位のマッチングペアを形成するマッチング手段と、前
記マッチング手段によって決定された前記マッチングペ
アに応じて、前記新たな単語の前記音声部分を表す代表
シーケンスを決定する決定手段と、を備えることを特徴
とする。
【0007】
【発明の実施の形態】次に、添付の図面を参照しなが
ら、本発明の実施形態を詳細に説明する。
【0008】<実施形態1>本発明の実施形態は、専用
ハードウェア回路を用いて実現することができるが、こ
れから説明する実施形態は、パーソナルコンピュータと
協働して動作するコンピュータソフトウェアまたはコン
ピュータプログラムで実現される。代替の実施形態で
は、このソフトウェアは、ワークステーション、複写
機、ファクシミリ装置、携帯情報端末(PDA)、また
はウェブブラウザなどと協働して動作することが可能で
ある。
【0009】図1に、本発明の実施形態を実現するよう
にプログラムされるパーソナルコンピュータ(PC)1
を示す。
【0010】キーボード3、ポインティング・デバイス
5、マイクロフォン7、および電話線9は、インタフェ
ース11を介してPC1に接続される。キーボード3お
よびポインティング・デバイス5により、ユーザがシス
テムを制御することが可能となる。マイクロフォン7
は、ユーザの音響音声信号をそれに対応する電気的信号
に変換し、これを処理のためにPC1に供給する。内蔵
モデムおよび音声受信回路(図示せず)は、電話線9に
接続することができ、その結果PC1は、例えばリモー
ト・コンピュータまたはリモート・ユーザと通信するこ
とができる。
【0011】本発明に従ってPC1を動作させるプログ
ラム命令は、PC1と共に使用するために、例えば磁気
ディスク13などの記憶装置上から、または例えば内蔵
モデムおよび電話ユニット9を介し、インターネットを
介してリモート・コンピュータからソフトウェアをダウ
ンロードすることによって供給することができる。
【0012】次に、PC1内に実装される音声認識シス
テム14の処理を、図2を参照しながら詳細に説明す
る。
【0013】マイクロフォン7からのユーザの入力音声
を表す電気的信号は、入力音声信号をパラメータ・フレ
ームのシーケンスに変換する前処理部15に印加され
る。各パラメータ・フレームは、入力音声信号に対応す
る時間フレームを表す。次に、前処理部15によって出
力されるパラメータ・フレームのシーケンスは、音声認
識エンジン17に供給され、そこでパラメータ・フレー
ムの入力シーケンスが音素モデル19と比較されること
によって音声が認識され、入力発話を表すサブワード単
位のシーケンスとしての音素列が生成される。音声認識
システム14の処理の通常モードの間、この音素列は、
スイッチ20を介して単語デコーダ21に入力され、単
語デコーダ21は、音素列を単語−音素辞書23中に記
憶される音素列と比較することによって、生成された音
素列内の単語を識別する。次に、単語デコーダ21によ
って出力された単語25は、PC1上で稼働するソフト
ウェア・アプリケーションを制御するため、またはPC
1上で稼働する単語処理プログラム中のテキストとして
挿入するためにPC1で使用される。
【0014】単語−音素辞書23に単語を加えることが
できるようにするために、音声認識システム14は、認
識処理のトレーニング・モードも有する。これは、ユー
ザがキーボード3またはポインティング・デバイス5を
用いてユーザインタフェース27を介して適切なコマン
ドを適用することで起動する。トレーニング・モードに
入るためのこの要求は、スイッチ20に音声認識エンジ
ン17の出力を単語モデル生成ユニット31の入力に接
続させる制御ユニット29に渡される。
【0015】それに応じて制御ユニット29は、ユーザ
インターフェース27を介してプロンプトを出力しユー
ザの入力待ち状態として、加えるべき単語に対応する音
声を入力させる。入力されたこれらの音声はそれぞれ、
前処理部15および音声認識エンジン17によって処理
され、新たな単語に対応する音声のそれぞれを表す複数
の音素列を生成する。これらの音素列は、単語モデル生
成ユニット31に入力される。単語モデル生成ユニット
31は、すべてのトレーニングエグエグザンプルとして
誤認識される最尤音素列から区別できるように処理し、
この音素列は、ユーザによって入力された単語のスペル
と関連付けられて単語−音素辞書23に記憶される。ユ
ーザが辞書23への単語の追加を終了した後、制御ユニ
ット29は、音声認識エンジンの出力をスイッチ20を
介して単語デコーダ21に接続し戻すことによって、音
声認識システム14の処理を通常モードに戻す。
【0016】(単語トレーニング)図3は、上記の単語
モデル生成ユニット31の構成をより詳細に示す図であ
る。
【0017】図示するように、ユーザによって発話入力
された新たな単語に対応する音声部分ごとに、音声認識
エンジン17から出力された各音素列を受信するメモリ
41を備える。ユーザがトレーニングエグザンプルの入
力を終えた後(これは、ユーザインターフェース27を
介してユーザから受信した入力から決定される)、この
メモリ41に格納される音素列は、動的計画法(DP; Dy
namic Programming)整合ユニット(DPマッチングユ
ニット)43に印加される。
【0018】本実施形態では、DPマッチングユニット
43は、音素列を比較し、それらの間の最良の整合(マ
ッチング)を決定するために動的計画法による整合(D
Pマッチング)技法を使用する。本実施形態では、DP
マッチングユニット43は、すべての音素列の比較およ
びマッチングを同時に実行する。次いで入力系列の間の
特定されたマッチングは、音素列決定ユニット45に入
力され、音素列決定ユニット45は、このマッチングを
用いて、入力音素列と最もマッチする音素列を決定す
る。
【0019】当業者なら理解するであろうが、新たな単
語に対応する入力音声を表す各音素列は、すべての音素
の入力系列と最もマッチするこの未知の音素列に対し
て、挿入および削除を行うことが可能である。
【0020】このことを図4に示す。図4は、新たな単
語に対応する入力音声の第1の音声部分を表す第1の音
素列(d1 i, d1 i+1, d1 i+2 ...と符号を付けている)
と、その新たな単語に対応する入力音声の第2の音声部
分を表す第2の音素列(d2 j, d 2 j+1, d2 j+2 ...と符号
を付けている)と、2つの入力シーケンスに最もマッチ
するテキストの音素の標準シーケンスを表す音素列
(pn, pn+1, pn+2 ...と符号を付けている)との間の可
能なマッチングを示す。
【0021】図4に示すように、DPマッチングユニッ
ト43により、音素の標準シーケンスに対して、第1の
音素列および第2の音素列のどちらでも音素の挿入(挿
入された音素d1 i+3およびd2 j+1で表す)が可能とならな
ければならず、第1の音素列および第2の音素列からの
音素の削除(音素d1 i+1およびd2 j+2で表し、これらはど
ちらも、音素の標準シーケンスにおける2つの音素と共
にマッチングされる)も可能とならなければならない。
【0022】(DPマッチングの概要)音声処理の技術
分野の技術者は理解するように、動的計画法は、特徴量
シーケンス(本実施形態における特徴量は音素であると
する。)間の最適な整合を見つけるために使用される。
新たな単語に対応する入力音声の2つの音声部分がある
単純な場合(つまり、2つの音素列だけが整合される場
合)において、DPマッチングユニット43により、第
1のシーケンスからの音素列(第1の音声部分を表す)
と、第2のシーケンスからの音素列(第2の音素列を表
す)との間の可能なマッチングをそれぞれ表す複数の動
的計画法経路(DPパス)を同時に伝播させることによ
って、最適なマッチングが計算される。すべての経路
は、音素の2つの入力シーケンスの先頭である開始ヌル
・ノードで開始し、それらの経路が音素の2つのシーケ
ンスの終了である終了ヌル・ノードに達するまで伝播す
る。
【0023】図5および図6に、実行されるマッチング
と、この経路伝播の略図を示す。具体的には、図5は、
第1の音声部分を表す第1の音素列に対して提供される
水平軸と、第2の音声部分を表す第2の音素列に対して
提供される垂直軸とを有する直交座標プロットを示して
いる。開始ヌル・ノードφは左上のコーナで提供さ
れ、終了ヌル・ノードφは右下のコーナで提供されて
いる。
【0024】図6に示すように、第1の音素列は水平軸
に沿って提供され、第2の音素列は垂直軸下方に提供さ
れる。図6は、第1の音素列の音素と第2の音素列の音
素との間の可能なマッチング(または復号化)をそれぞ
れ表すいくつかの格子点も示す。例えば、格子点21
は、第1の音素列の音素d1 3と第2の音素列の音素d2 1
の間の可能なマッチングを表す。図6は、第1の音素列
と第2の音素列の間の3つの可能なマッチングを表し、
開始ヌル・ノードφで開始し、かつ格子点を介して終
了ヌル・ノードφまで伝播する3つのDPパスm1、
m2、およびm3も示す。
【0025】第1の音素列および第2の音素列の間の最
良マッチングを決定するために、DPマッチングユニッ
ト43は、伝播させるDPパスごとにスコアを保持す
る。そのスコアは、経路に沿ってマッチングされる音素
の全体の類似性に依存する。加えて、マッチングされる
音素列の削除および挿入の数を制限するために、動的計
画法による各DPパスの伝播に対してある制約が課され
る(DP制約)。
【0026】図7に、本実施形態で用いられるDP制約
を示す。具体的には、DPパスが第1の音素列の音素d1
iと第2の音素列の音素d2 jの間のマッチングを表す格子
点(i, j)で終了する場合、そのDPパスは、格子点(i+
1, j)、(i+2, j)、(i+3, j)、(i, j+1)、(i+1, j+1)、
(i+2,j+1)、(i,j+2)、(i+1,j+2)、そして(i,j+3)に伝播
し得る。したがって、これらの伝播により、実際に発声
された音素のテキストに対応する音素の未知の標準シー
ケンスに対して、第1の音素列および第2の音素列中の
音素の挿入および削除が可能となる。
【0027】前述と同様に、DPマッチングユニット7
8は、DPパスごとにスコアを保持する。そのスコアは
経路に沿ってマッチングされる音素の類似性に依存す
る。したがって、点(i, j)で終了する経路が、これら他
の点まで伝播するとき、動的計画法プロセスにより、そ
うすることのそれぞれの「コスト」が、点(i, j)で終了
する経路についての累積スコアに加えられ、その点に関
連するスコア(SCORE(i,j))中に記憶される。本実施形
態では、このコストは、任意の挿入される音素に対する
挿入確率、任意の削除に対する削除確率、および第1の
音素列からの音素と第2の音素列からの音素の間の新た
なマッチングに対する復号化確率を含む。具体的には、
挿入があるとき、累積スコアに所与の音素を挿入する確
率を乗じる。削除があるとき、累積スコアに音素を削除
する確率を乗じる。復号化があるとき、累積スコアに2
つの音素を復号化する確率を乗じる。
【0028】これらの確率計算を可能とするために、シ
ステムは、すべての可能な音素の結合に対する確率をメ
モリ47中に記憶する。本実施形態では、第1の音素列
または第2の音素列からの音素の削除は、復号化と同様
に扱われる。これは、単に削除を別の音素として扱うこ
とによって達成される。したがって、システムに既知の
43個の音素がある場合、システムは、可能な音素の復
号化および削除ごとに1892(=43×44)個の復
号化/削除確率を記憶することになる。
【0029】このことを図8に示す。図8は、音素/ax/
に対して記憶される可能な音素の復号化を示し、削除音
素(φ)を可能性のうちの1つとして含む。当業者は理
解するであろうが、所与の音素に対するすべての復号化
確率の合計は、他の確率がないので、1にならなければ
ならない。これらの復号化/削除確率に加えて、可能な
音素の挿入ごとに43個の挿入確率((PI( ))もメモ
リ47中に記憶される。後で説明するように、これらの
確率はあらかじめトレーニング・データから決定され
る。
【0030】本実施形態では、第2の音素列からの音素
(d2 j)を第1の音素列からの音素(d1 i)として復号化
する確率として計算するために、システムは、すべての
可能な音素pにわたって、無条件に発生する音素pの確
率によって重み付けされた、音素pを第1の音素列の音
素d1 iとして復号化する確率と、第2の音素列の音素d2 j
として復号化する確率とを合計する。すなわち、
【0031】
【0032】上式で、Npはシステムに既知の音素の合計
数であり、P(d1 i|pr)は、音素prを第1の音素列の音
素d1 iとして復号化する確率であり、p(d2 j|pr)は、音
素prを第2の音素列の音素d2 jとして復号化する確率で
あり、P(pr)は無条件に発生する音素prの確率である。
【0033】次いで、スコア伝播について説明するため
に、以下の例を検討する。具体的には、格子点(i, j)か
ら格子点(i+2,j+1)に伝播するとき、第1の音素列から
の音素d1 i+1が第2の音素列に対して挿入され、第1の
音素列からの音素d1 i+2と、第2の音素列からの音素d2
j+1の間に復号化がある。したがって、点(i+2,j+1)に伝
播するスコアは以下のように与えられる。
【0034】
【0035】当業者は理解するであろうが、この経路伝
播の間、いくつかの経路は、同じ格子点で遭遇すること
になる。最良の経路が伝播されるために、各格子点でス
コア間の比較が行われ、最良のスコアを有する経路が続
行し、他の経路は廃棄される。経路が遭遇し、経路が廃
棄される場合に2つの入力音素列の間の最良マッチング
を決定することができるために、廃棄されなかった経路
がそこから伝播した格子点を指すバックポインタが記憶
される。このようにして、DPマッチングユニット78
が終了ヌル・ノードまで経路を伝播し、全体の最良のス
コアを有する経路が決定された後、後戻りルーチンを使
用して2つの入力音素列中の音素の最良マッチングを特
定することができる。次いで音素列決定ユニット79に
よりこのマッチングが使用され、入力音素列を最も良く
表す音素のシーケンスが決定される。本実施形態でこの
ことが達成されることについては、後ほど説明する。
【0036】(DPマッチングの詳細な説明)次に、
(新たな単語の2つの音声部分についての)2つの音素
列がマッチングされるときの、DPマッチングユニット
43の処理について詳細に説明する。まず、すべてのノ
ードに関連するスコアが適切な初期値にセットされる。
次いでDPマッチングユニット43は、開始ヌル・ノー
ド(φ)から、上述したDP制約によって定義される
すべての可能な開始点に経路を伝播させる。次に、開始
した経路に対するDPスコアは、開始ヌル・ノードから
それぞれの開始点へ通過することに対する遷移スコアに
等しくセットされる。次いでこのようにして開始した経
路は、第1の音素列および第2の音素列によって定義さ
れる格子点の配列を介して、それらの経路が終了ヌル・
ノードφに達するまで伝播する。これを行うために、
DPマッチングユニット78は、ラスタ状技法で格子点
の配列を列ごとに処理する。
【0037】このラスタ処理の制御に使用される制御ア
ルゴリズムを図9に示す。
【0038】図に示すように、ステップs149では、
システムは第1の音素列ループポインタiおよび第2の
音素列ループポインタjを0に初期化する。次に、ステ
ップs151では、システムは、第1の音素列ループポ
インタiと第1の音素列中の音素の数(Nseq1)とを比
較する。当初の第1の音素列ループポインタiは0にセ
ットされ、したがって処理はステップs153に進み、
そこで類似の比較が、第2の音素列ループポインタjに
ついて第2の音素列(Nseq2)中の音素の合計数に対し
て行われる。当初のループポインタjも0にセットさ
れ、したがって処理はステップs155に進み、そこで
システムは、上記したDP制約を用いて、格子点(i, j)
で終了する経路を伝播させる。システムがステップs1
55で経路を伝播させる方式については後述する。
【0039】ステップs155の後、ループポインタj
はステップs157でインクリメントされ、処理はステ
ップs153に戻る。この処理が第2の音素列中のすべ
ての音素にわたってループした(それによって格子点の
現在の列を処理した)後、処理はステップs159に進
み、そこでループポインタjが0にリセットされ、ルー
プポインタiがインクリメントされる。次いで処理はス
テップs151に戻り、そこで格子点の次の列に対して
類似の手順が実行される。格子点の最後の列を処理した
後、処理はステップs161に進み、そこでループポイ
ンタiが0にリセットされ、処理は終了する。
【0040】(伝播)図9に示したステップs155で
は、システムは、上述したDP制約を用いて、格子点
(i, j)で終了する経路を伝播させる。図10は、この伝
播ステップの実行に係る処理ステップを示すフローチャ
ートである。
【0041】図に示すように、ステップs211では、
システムは2つの変数mxiおよびmxjの値をセットし、第
1の音素列ループポインタi2および第2の音素列ループ
ポインタj2を初期化する。ループポインタi2およびj2
は、点(i, j)で終了する経路がそこに伝播することがで
きるすべての格子点にわたってループするように提供さ
れ、変数mxiおよびmxjは、i2およびj2がDP制約によっ
て許可される値だけしか取ることができないことを保証
するために使用される。
【0042】具体的には、mxiは、第1の音素列中の音
素の数以下である場合にはiとmxhops(DP制約によっ
て許可された「ホップ(hops)」の最大数よりも1つ以
上大きい値を有する定数であり、経路はせいぜいシーケ
ンスに沿って3音素だけ離れた音素までしかジャンプす
ることができないので、本実施形態では値4にセットさ
れる)との和に等しくセットされ、そうでない場合は、
第1の音素列中の音素の数(Nseq1)にセットされる。
同様に、mxjは、第2の音素列中の音素の数以下である
場合にはjとmxhopsの和にセットされ、そうでない場合
は、第2の音素列中の音素の数(Nseq2)にセットされ
る。最後にステップs211では、システムは、第1の
音素列ループポインタi2が第1の音素列ループポインタ
iの現在値に等しくなるように初期化し、第2の音素列
ループポインタj2が第2の音素列ループポインタjの現
在値に等しくなるように初期化する。
【0043】次いで処理はステップs219に進み、そ
こでシステムは、第1の音素列ループポインタi2と変数
mxiとを比較する。ステップs211では、ループポイ
ンタi2はiにセットされ、mxiはi+4に等しくなるように
セットされるので、処理はステップs221に進み、そ
こで類似の比較が第2の音素列ループポインタj2に対し
て行われる。次いで処理はステップs223に進み、当
初i2がiに等しく、j2がjに等しいので、同じ格子点
(i, j)に経路がとどまらないことがこのステップs22
3により保証される。したがって、処理はステップs2
25に進み、そこで問合わせ音素ループポインタj2が1
だけインクリメントされる。
【0044】次いで処理はステップs221に戻り、そ
こでj2の増分された値がmxjと比較される。j2がmxjより
も小さい場合、処理はステップs223に戻り、次いで
ステップs227に進む。ステップs227は、両方の
音素列に沿った過大なホップを防止するように動作可能
である。このことはステップs227により、i2+j2が
i+j+mxhopsよりも小さい場合にだけ経路が伝播するこ
とを保証することによって行われる。これにより、図7
に示す点の三角形の組だけを処理することが保証され
る。この条件を満足する場合、処理はステップs229
に進み、そこでシステムは、格子点(i, j)から格子点
(i2,j2)への遷移スコア(TRANSCORE)を計算する。
本実施形態では、遷移スコアおよび累積スコアは確率ベ
ースであり、この確率を掛け合わせることによって結合
される。しかし本実施形態では、乗算演算の必要をなく
し、かつ高浮動小数点精度の使用を回避するために、こ
のシステムでは遷移スコアおよび累積スコアに対する対
数確率を使用する。したがって、ステップs231で
は、システムは、この遷移スコアを点(i, j)について記
憶される累積スコアに加え、これを一時ストアTEMPSCOR
Eにコピーする。
【0045】前述と同様に、本実施形態では、2つ以上
のDPパスが同じ格子点で遭遇する場合、経路のそれぞ
れに関連する累積スコアが比較され、最良の経路(すな
わち、最良のスコアを有する経路)以外のすべてが廃棄
される。したがってステップs233では、システム
は、TEMPSCOREと、点(i2, j2)について既に記憶して
いる累積スコアとを比較し、最大のスコアをscore(i2,
j2)中に記憶し、適切なバックポインタを記憶してど
の経路がより大きいスコアを有したかを識別する。次い
で処理はステップs225に戻り、そこでループポイン
タj2が1だけインクリメントされ、処理はステップs2
21に戻る。第2の音素列ループポインタj2が値mxjに
達した後、処理はステップs235に進み、そこでルー
プポインタj2が初期値jにリセットされ、第1の音素列
ループポインタi2が1だけインクリメントされる。次い
で処理はステップs219に戻り、そこで処理は図7に
示す点の次の列に対して再び開始される。経路が点(i,
j)から図7に示す他のすべての点に伝播した後、処理は
終了する。
【0046】(遷移スコア)ステップs229では、あ
る点(i, j)から別の点(i2, j2)への遷移スコアが計算
される。これには、遷移の開始点および終点に対する適
切な挿入確率、削除確率、および復号化確率を計算する
ことが含まれる。次に、本実施形態でこれを達成する方
式を図11および12を参照しながら説明する。
【0047】図11は、格子点(i, j)から格子点(i2,
j2)に伝播する経路に対する遷移スコアの計算に係る一
般的な処理ステップを示すフローチャートである。
【0048】ステップs291では、システムは、挿入
される音素を挿入することに対するスコア(前述の確率
PI( )の対数)を、点(i, j)と点(i2, j2)の間に挿入
される第1の音素列ごとに計算し、これを適切なストア
INSERTSCOREに加える。次いで処理はステップs293
に進み、そこでシステムは、点(i, j)から点(i2, j2)
の間に挿入される第2の音素列ごとに類似の計算を実行
し、これをINSERTSCOREに加える。前述と同様に、計算
されるスコアは対数ベースの確率であり、したがってIN
SERTSCORE中のスコアの追加は、対応する挿入確率の乗
算に対応する。次いで処理はステップs295に進み、
そこでシステムは、点(i, j)から点(i2, j2)に伝播す
る際の任意の削除および/または任意の復号化に対する
スコアを(上記の式(1)に従って)計算し、これらの
スコアを適切なストアDELSCOREに加え、記憶する。次い
で処理はステップs297に進み、そこでシステムは、
INSERTSCOREとDELSCOREを加え、その結果をTRANSCOREに
コピーする。
【0049】次に、点(i, j)から点(i2, j2)に伝播す
る際の削除スコアおよび/または復号化スコアを決定す
るためのステップs295に係る処理を、図12を参照
しながら詳細に説明する。
【0050】図に示すように、ステップs325では当
初、システムは、第1の音素列ループポインタi2が第1
の音素列ループポインタiに等しいかどうかを判定す
る。それらが等しい場合、処理はステップs327に進
み、そこで音素ループポインタrが1に初期設定され
る。音素ポインタrは、前述の式(1)の計算の間、シ
ステムに既知の可能な各音素にわたってループするため
に使用される。
【0051】次いで処理はステップs329に進み、そ
こでシステムは、音素ポインタrと、システムに既知の
音素の数Nphonemes(本実施形態では43に等しい)と
を比較する。当初rはステップs327で1にセットさ
れ、したがって処理はステップs331に進み、そこで
システムは、音素prが生じる対数確率(すなわちlogP(p
r))を決定し、これを一時スコアTEMPDELSCOREにコピー
する。第1の音素列ループポインタi2が注目音素iに等
しい場合、システムは、点(i, j)から点(i,j+1)、(i, j
+2)、または(i, j+3)のうちの1つで終了する経路を伝
播している。したがって、第1の音素列にない第2の音
素列の音素がある。その結果、ステップs333で、第
1の音素列から音素prが削除される対数確率(すなわち
log P(φ|pr))が、システムによりTEMPDELSCOREに加
えられる。
【0052】次いで処理はステップs335に進み、そ
こでシステムは、音素prを第2の音素列d2 j2として復
号化する対数確率(すなわちlog P(d2 j2|pr))を、TE
MPDELSCOREに加える。次いで処理はs337に進み、そ
こでTEMPDELSCOREとDELSCOREの「対数加算」が実行さ
れ、その結果がDELSCORE中に記憶される。
【0053】本実施形態では、(前述の式(1)によ
る)復号化確率の計算は確率の総和および乗算を含み、
かつ対数確率を用いているので、この「対数加算」オペ
レーションは、TEMPDELSCOEおよびDELSCOREを対数確率
から確率に効果的に変換して戻し、それらを加え、次い
でそれらを対数確率に再変換して戻す。この「対数加
算」は、音声処理の技術分野で周知の技法であり、例え
ばLee,Kai-Fu著“Automatic Speech Recognition. The
development of the (Sphinx) system”, Kluwer Acade
mic Publishers, pp28-29, (1989) に記載されている。
【0054】ステップs337の後、処理はステップs
339に進み、そこで音素ループポインタrが1だけイ
ンクリメントされ、次いで処理はステップs329に戻
り、そこで類似の処理がシステムに既知の次の音素に対
して実行される。この計算がシステムに既知の43個の
音素のそれぞれに対して実行された後、処理は終了す
る。
【0055】ステップs325で、システムがi2がiに
等しくないと判定した場合、処理はステップs341に
進み、そこでシステムは、第2の音素列ループポインタ
j2が第2の音素列ループポインタjに等しいかを判定す
る。それらが等しい場合、処理はステップs343に進
み、そこで音素ループポインタrが1に初期化される。
【0056】次いで処理はステップs345に進み、そ
こで音素ループポインタrがシステムに既知の音素の総
数(Nphonemes)と比較される。当初rはステップs3
43で1にセットされ、したがって処理はステップs3
47に進み、そこで音素prが発生する対数確率が決定さ
れ、一時ストアTEMPDELSTOREにコピーされる。次いで処
理はステップs349に進み、そこでシステムは、音素
prが第1の音素列d1 i2として復号化される対数確率を決
定し、これをTEMPDELSCOREに加える。第2の音素列ルー
プポインタj2がループポインタjに等しい場合、システ
ムは、点(i, j)から点(i+1, j)、(i+2, j)、または(i+
3, j)のうちの1つで終了する経路を伝播している。し
たがって、第2の音素列にない第1の音素列の音素があ
る。その結果ステップs351で、システムは、第2の
音素列から音素prが削除される対数確率を決定し、これ
をTEMPDELSCOREに加える。
【0057】次いで処理はステップs353に進み、そ
こでシステムは、TEMPDELSCOREとDELSCOREの対数加算を
実行し、その結果をDELSCORE中に記憶する。次に、音素
ループポインタrがステップs355で1だけ増分さ
れ、処理はステップs345に戻る。システムに既知の
すべての音素に対して処理ステップs347〜s353
を実行した後、処理は終了する。
【0058】ステップs341で、システムが第2の音
素列ループポインタj2がループポインタjに等しくない
と判定した場合、処理はs357に進み、そこで音素ル
ープポインタが1に初期化される。次いで処理はステッ
プs359に進み、そこで音素カウンタrがシステムに
既知の音素の数(Nphonemes)と比較される。当初rは
ステップs357で1にセットされ、したがって処理は
ステップs361に進み、そこで音素prが発生する対数
確率が決定され、これが一時ストアTEMPDELSTOREにコピ
ーされる。ループポインタj2がループポインタjに等し
くない場合、システムは、点(i, j)から点(i+1, j+1)、
(i+1, j+2)、または(i+2, j+1)のうちの1つで終了する
経路を伝播している。したがって、削除はなく、挿入と
復号化のみがある。したがって、処理はステップs36
3に進み、そこで音素prを第1の音素列d1 i2として復号
化する対数確率がTEMPDELSCOREに加えられる。
【0059】次いで処理はステップs365に進み、そ
こで音素prを第2の音素列d2 j2として復号化する対数確
率が決定され、TEMPDELSCOREに加えられる。次いでステ
ップs367で、システムは、TEMPDELSCOREとDELSCORE
の対数加算を実行し、その結果をDELSCORE中に記憶す
る。次いで音素カウンタrはステップs369で1だけ
インクリメントされ、処理はステップs359に戻る。
システムに既知のすべての音素に対して処理ステップs
361〜s367を実行した後、処理は終了する。
【0060】(後戻りおよび音素列生成)前述と同様
に、DPパスが終了ヌル・ノードφに伝播した後、最
良の累積スコアを有する経路が識別され、DPマッチン
グユニット43が、バックポインタを介して後戻り(ba
cktracking)する。そのバックポインタは、音素の2つ
の入力シーケンスの間の最良マッチングを特定するため
に、経路に対してステップs233で記憶される。本実
施形態では、音素列決定ユニット45は、メモリ81中
に記憶されている上述した復号化確率を用いて、最良マ
ッチングの音素のマッチングペア(d1 m、d2 n)ごとに、
【0061】P(d1 m|p)P(d2 n|p)P(p) (3)
【0062】を最大にする未知の音素pを決定する。こ
の音素pは、音素のマッチングペアを最良に表すように
取られた音素である。音素pを識別することにより、マ
ッチングペアごとに、2つの入力音素列を最良に表す標
準音素のシーケンスが決定ユニット45によって識別さ
れる。本実施形態では、次いでこの標準シーケンスが決
定ユニット45によって出力され、ユーザによって入力
された新たな単語のテキストと共に単語−音素辞書23
中に記憶される。
【0063】<実施形態2>上述の実施形態1では、D
Pマッチングユニット43が2つの音素列のマッチング
を行う方式と、音素列決定ユニット45がこの最良マッ
チングが与えられた2つの入力シーケンスを最良に表す
音素のシーケンスを得る方式を説明した。当業者は理解
するであろうが、新たな単語をトレーニングするとき、
ユーザは、2つ以上の音声部分を入力することができ
る。したがって、DPマッチングユニット43は、どん
な数の入力音素列もマッチングできることが好ましく、
決定ユニット45は、それらの間の最良マッチングが与
えられるどんな数の入力音素列も最良に表す音素列も導
出できることが好ましい。次に、DPマッチングユニッ
ト43が3つの入力音素列を共にマッチングを行う方式
と、決定ユニット45がこの3つの入力音素列を最良に
表す音素列を決定する方法とを説明する。
【0064】図13は、3つの音素列それぞれが各次元
に対応する3次元座標プロットを示す図である。この場
合において、3次元格子点はDPマッチングユニット4
3によって処理される。DPマッチングユニット43
は、図13に示すプロットの格子点の3次元ネットワー
クを介する経路のそれぞれを伝播し、スコア化するため
に、同じ遷移スコアおよび同じ音素確率と、類似のDP
制約とを使用する。
【0065】次に、図14〜17を参照しながら、この
場合にDPマッチングユニット43によって実施される
3次元DPマッチングについて詳細に説明する。当業者
は図14〜17と図9〜12を比較することによって理
解するであろうが、処理される3次元DPマッチング処
理は、余分の音素列を考慮に入れるためのいくつかの別
の制御ループの追加を除き、本質的に入力音素列が2つ
だけあるときの2次元DPマッチング処理と同じであ
る。
【0066】最初の場合と同様に、すべてのノードに関
連するスコアが初期化され、次いでDPマッチングユニ
ット43は、開始ヌル・ノードφからDP制約によっ
て定義される開始点のそれぞれに、DPパスを伝播させ
る。次いでDPマッチングユニット43は、これらの開
始点から終了ヌル・ノードφへのこれらの経路を、検
索空間中の点をラスタ状に処理することによって伝播さ
せる。
【0067】このラスタ処理を制御するために使用され
る制御アルゴリズムを図14に示す。図14と図9の比
較からわかるように、この制御アルゴリズムは、マッチ
ングすべき音素列が2つだけあるときに使用される制御
アルゴリズムと同じ一般形式を有する。これらの差は、
伝播ステップs419がより複雑になり、第3音素列に
よって引き起こされる追加の格子点を処理するために必
要な照会ブロックs421、ブロックs423、および
ブロックs425が提供されることだけである。図17
に示す制御アルゴリズムがどのように動作するかをより
良く理解するために、前述の図12の説明を参照された
い。
【0068】図15は、図10に示す伝播ステップs4
19に関係する処理ステップを示すフローチャートであ
る。図10に前述の2次元の場合についての対応するフ
ローチャートを示す。図15と図10の比較からわかる
ように、2つのフローチャートの主な差は、第3音素列
による追加の格子点を処理するのに必要な追加の変数
(mxkおよびk2)および追加の処理ブロック(s45
1、s453、s455、s457)である。図15に
示すフローチャートに関係する処理ステップをより良く
理解するために、図10の説明を参照されたい。
【0069】図16は、図15の処理ステップの間にD
Pパスが点(i, j, k)から点(i2, j2, k2)に伝播すると
きの遷移スコアの計算に係る処理ステップを示すフロー
チャートである。図11に前述の2次元の場合について
の対応するフローチャートを示す。図16と図11の比
較からわかるように、2つのフローチャートの主な差
は、第3音素列で挿入される音素についての挿入確率を
計算するための追加の処理ステップs461である。し
たがって、図16に示すフローチャートに関係する処理
ステップをより良く理解するために、図11の説明を参
照されたい。
【0070】次に、点(i, j, k)から点(i2, j2, k2)に
伝播する際の削除および/または復号化スコアを決定す
るための、図16のステップs463に関係する処理ス
テップを、図17を参照しながらより詳細に説明する。
【0071】まずシステムは、3つの音素列のうちのい
ずれかから何らかの音素の削除があったかを、i2、j2、
およびk2をそれぞれi、j、およびkと比較することに
よって(ステップs525〜s537で)判定する。図
17a〜17dに示すように、8つの可能な状況に対し
て適切な復号化確率および削除確率を決定するように動
作する8つの主な分岐がある。各状況で実行される処理
は非常に類似しているので、それらの状況のうちの1つ
だけを説明する。
【0072】具体的には、ステップs525、s52
7、およびs531で、システムが(i2=iであるの
で)第1の音素列から削除があり、(j2≠jおよびk2≠
kであるので)他の2つの音素列から削除がなかったと
判定した場合、処理はs541に進み、そこで音素ルー
プポインタrが1に初期化される。音素ループポインタ
rは、前述の式(1)に類似の式の計算の間、システム
に既知の可能な各音素にわたってループするために使用
される。
【0073】次いで処理はステップs543に進み、そ
こでシステムは、音素ポインタrとシステムに既知の音
素の数Nphonemes(本実施形態では43に等しい)とを
比較する。当初のrはステップs541で1にセットさ
れる。したがって処理はステップs545に進み、そこ
でシステムは、音素prが生じる対数確率を決定し、これ
を一時スコアTEMPDELSCOREにコピーする。
【0074】次に、処理はステップs547に進み、そ
こでシステムは、第1の音素列中の音素prが削除される
対数確率を決定し、これをTEMPDELSCOREに加える。次い
で処理はステップs549に進み、そこでシステムは、
音素prが第2の音素列d2 j2として復号化される対数確
率を決定し、これをTEMPDELSCOREに加える。次いで処理
はステップs551に進み、そこでシステムは、音素pr
が第3音素列d3 k2として復号化される対数確率を決定
し、これをTEMPDELSCOREに加える。
【0075】次に、処理はステップs553に進み、そ
こでシステムは、TEMPDELSCOREとDELSCOREの対数加算を
実行し、その結果をDELSCORE中に記憶する。次いで処理
はステップs555に進み、そこで音素ループポインタ
rが1だけインクリメントされる。次いで処理はステッ
プs543に戻り、そこでシステムに既知の次の音素に
対して類似の処理が実行される。システムに既知の43
個の音素それぞれに対してこの計算を実行した後、処理
は終了する。
【0076】図17で実行される処理ステップと図12
で実行されるステップとの比較からわかるように、復号
化および削除のためのDPマッチングアルゴリズム内で
計算される項は、式(1)と類似するが、第3音素列に
ついての追加の確率項を有する。具体的には、その追加
の確率項は以下の形式を有する。
【0077】
【0078】2次元の場合と同様に、DPパスが終了ヌ
ル・ノードφを通って伝播した後、DPマッチングユ
ニット78は、最良のスコアを有する経路を識別し、こ
の経路に対して記憶されたバックポインタを使用してこ
の最良の経路に沿う3つ組のマッチング音素(すなわ
ち、3つのシーケンスでのマッチング音素)を識別す
る。本実施形態では、音素列決定ユニット79は、3つ
の入力音素列を最良に表す音素の標準シーケンスを生成
するために、これらの3つ組のマッチング音素(d1 m、d2
n、d3 o)ごとに、
【0079】 P(d1 m|p)P(d2 n|p)P(d3 o|p)P(p) (5)
【0080】を最大にする音素pを決定する。
【0081】DPマッチングユニット43が音素の2つ
または3つのシーケンスのマッチングを行う方式を上記
で説明した。3つの音素列の場合に対して実証したよう
に、それ以上の音素列の追加は、単に、追加の音素列を
反映するための、制御アルゴリズム中へのいくつかのル
ープの追加しか必要としない。したがって当業者は理解
するであろうが、DPマッチングユニット43は、入力
されたシーケンスの数を識別し、次いで適切な制御変数
を各入力シーケンスに対して提供することを保証するこ
とによって、どんな数の入力音素列の間の最良マッチン
グも特定することができる。次いで決定ユニット45
は、これらのマッチング結果を用いて入力音素列を最良
に表す音素のシーケンスを識別することができる。
【0082】<実施形態3>音声認識システムで使用さ
れる単語−音素辞書にユーザが単語モデルを追加するこ
とが可能となるシステムを上記で説明した。入力された
新たな単語は、その新たな単語の音声部分と最も良く一
致するシーケンスすなわち音素と共に辞書に記憶され
る。
【0083】当業者は理解するであろうが、多くの単語
は異なる発音を有する。この場合、ユーザは、異なる発
音を異なる単語モデルとして入力することができる。あ
るいは、1つの単語に対して、異なる発音を表す音素列
の格子を生成し、記憶することもできる。
【0084】以下、新たな単語の異なる発音を表す音素
列を生成することのできる方式と、そのような音素列の
格子を生成することのできる方法とを示す第3の実施形
態を説明する。この第3実施形態では、前述の単語トレ
ーニングの方法が使用され、単語の多数の例示的音声復
号化から取得された単語に対する単一仮定音素列がまず
生成される。次いでこの仮定バージョンが使用されて、
単語のすべての復号化が、仮定形へのその類似性に従っ
てスコアリングされる。さらに、類似のスコアを有する
バージョンがクラスタ化される。複数のクラスタが現れ
る場合、各クラスタについての仮定表示が決定され、元
の復号化は新たな仮定表示に対して再スコアリングされ
再クラスタ化される。次いでこのプロセスは、ある収束
基準が達成されるまで反復される。以下では、図18〜
20を参照しながらこのプロセスをより詳細に説明す
る。
【0085】図18は、本実施形態の単語モデル生成ユ
ニット31の構成を示すブロック図である。
【0086】図に示すように、単語生成ユニット31
は、実施形態1の単語生成ユニットと同様である。具体
的には、単語生成ユニット31は、ユーザによって入力
された新たな単語に対応する入力音声部分ごとに音声認
識エンジン17から出力された各音素列(Di)を受信す
るメモリ41を含む。ユーザがトレーニングエグザンプ
ルの入力を終了した後、メモリ41中に記憶される音素
列は、音素列間の最良マッチングを前述の方式で決定す
るDPマッチングユニット43に印加される。
【0087】次いで音素列決定ユニット45は、入力音
素列に最良に一致する音素列を(やはり前述の方式で)
決定する。次いでこの最良の音素列(Dbest)および元
の入力音素列(Di)が分析ユニット61に渡され、分析
ユニット61は、最良の音素列と入力シーケンスのそれ
ぞれとを比較し、入力シーケンスのそれぞれがどの程度
最良のシーケンスに対応するかを判定する。入力シーケ
ンスが最良のシーケンスと同じ長さである場合、本実施
形態では、分析ユニットはこのことを次式に従い行う。
【0088】
【0089】上式で、di jおよびdbest jは、それぞれ現
在入力シーケンスからの対応する音素と、代表シーケン
スである。他方、入力シーケンスが最良のシーケンスと
同じ長さでない場合、本実施形態では、分析ユニット
は、前述の動的計画法など技法を用いて2つのシーケン
スを比較する。
【0090】次いで分析ユニット61は、クラスタ化ア
ルゴリズムを用いてこれらの確率のそれぞれを解析し、
これらの確率スコア内で異なるクラスタを見つけること
ができるかを識別する。これは、入力シーケンスが入力
単語に対して異なる発音を含むことを示す。
【0091】このことを図19を参照して説明する。図
19は、前述の方式で決定された確率スコアをx軸上に
プロットし、そのスコアを有するトレーニング・シーケ
ンスの数をy軸上にプロットしている(当業者は理解す
るであろうが、実際には、多くのスコアが正確に同じに
なる可能性が低いので、このプロットはヒストグラムで
ある)。このプロットの2つのピーク71および73
は、トレーニング単語の2つの異なる発音があることを
示す。分析ユニット61がクラスタ化アルゴリズムを実
行した後は、分析ユニット61は、入力音素列(Di)の
それぞれを、異なるクラスタのうちの1つに割り当て
る。次いで分析ユニット61は、各クラスタの入力音素
列をDPマッチングユニット43に出力して戻し、DP
マッチングユニット43は、各クラスタ中の入力音素列
を別々に処理し、その結果音素列決定ユニット45は、
クラスタごとに代表音素列を決定することができる。
【0092】本実施形態では、DPマッチングユニット
43があるクラスタの音素列を処理するとき、他のクラ
スタの音素列はメモリ47中に記憶される。クラスタご
との代表シーケンスが決定された後、次いで分析ユニッ
ト61は、入力音素列のそれぞれをクラスタ代表シーケ
ンスのすべてと比較し、次いで入力音素列を再クラスタ
化する。次いでこの全プロセスは、適切な収束基準が達
成されるまで反復される。
【0093】そして、このプロセスを用いて識別される
クラスタごとの代表シーケンスを、単語のスペル関連付
けて単語−音素辞書23中に記憶することができる。し
かし、図18に示すように、本実施形態では、クラスタ
表示は音素列結合ユニット63に入力され、音素列結合
ユニット63は、代表音素列を結合し、標準順方向/逆
方向打切り(satndard forward/backward truncation)
手法を用いて音素格子を生成する。
【0094】このことを図20および21に示す。具体
的には、図20は、シーケンスA−B−C−DおよびA
−E−C−Dによって表される音素の2つのシーケンス
75および77を示し、図21は、順方向/逆方向打切
り手法を用いて、図20に示す2つのシーケンスを結合
することによって得られた音素格子79を示している。
音素結合ユニット63によって出力される音素格子79
は、単語のスペルと共に単語−音素辞書23中に記憶さ
れる。
【0095】当業者は理解するであろうが、格子中の異
なる発音をこのようにして記憶することにより、音素列
に対して必要な単語−音素辞書中の記憶容量が低減され
る。
【0096】(トレーニング)前述の実施形態では、D
Pマッチングユニット78は、音素マッチング処理でD
Pパスをスコア化するために1892個の復号化/削除
確率および43個の挿入確率を使用した。本実施形態で
は、これらの確率はトレーニング・セッションの間にあ
らかじめ決定され、メモリ47中に記憶される。具体的
には、このトレーニング・セッションの間に、音声認識
システムが使用され、2つの方式で音声の音素復号化が
提供される。この第1の方式では、音声認識システムは
音声および発話された実際の単語の両方を備える。した
がって音声認識システムは、この情報を使用して、発話
された単語の標準音素列を生成し、音声の理想的な復号
化を得ることができる。次いで音声認識システムは同じ
音声を復号化するために使用されるが、今回は発話され
た実際の単語の知識なしに復号化する(以下、自由復号
化(free decoding)と呼ぶ)。自由復号化から生成さ
れた音素列は、標準音素列とは以下のように異なる。
【0097】(i)自由復号化は間違いを犯す可能性が
あり、標準シーケンス中に存在しない音素を復号化中に
挿入したり、あるいは標準シーケンス中に存在する復号
化中の音素を省略する可能性がある。 (ii)ある音素が別の音素と混同される可能性がある。 (iii)音声認識システムが音声を完全に復号化した場
合でも、会話の発音と標準発音の間の差のために、自由
復号化は標準復号化とは異なる可能性がある。例えば会
話の音声では単語“and”(その標準形は/ae/ /n/ /d/
および/ax/ /n/ /d/)は、よく/ax/ /n/、さらには/n/
に減じられる。
【0098】したがって、多数の発話がその標準形およ
び自由復号化形に復号化される場合、(前述の動的計画
法に類似の)動的計画法を使用してその2つのマッチン
グを行うことができる。これにより、音素が標準的には
pであるべきであったときに、dと復号化された発話の
カウントが提供される。これらのトレーニング結果よ
り、上記の復号化確率、削除確率、および挿入確率は、
以下のようにして近似することができる。
【0099】音素dが挿入である確率は、次式によって
与えられる。
【0100】
【0101】上式で、Idは自動音声認識システムが音素
dを挿入した回数であり、n0 dは標準シーケンスに対し
て挿入される復号化音素の合計数である。
【0102】音素pを音素dとして復号化する確率は、
次式によって与えられる。
【0103】
【0104】上式で、 Cdpは、pとすべきであったとき
に自動音声認識システムがdを復号化した回数であり、
npは、pとすべきであったときに自動音声認識システム
が任意の音素を復号化した(削除を含む)回数である。
【0105】音素pを復号化すべきであったときに何も
復号化しなかった(すなわち削除した)確率は、次式に
よって与えられる。
【0106】
【0107】上式で、Opは、自動音声認識システムがp
とすべきであったときに何も復号化しなかった回数であ
り、npは上記と同様である。
【0108】<その他の実施形態>なお、上述の説明全
体にわたって用語「音素(phoneme)」を使用したが、
その言語的な意味に限定されるものではなく、標準の音
声認識システムで通常識別され使用されるさまざまなサ
ブワード単位をも含む。具体的には、用語「音素」また
は「音韻」は、単音(phone)、音節(syllable)、ま
たは日本語かな表記等のいかなるサブワード単位もカバ
ーする。同様に、用語「単語(word)」もその言語的な
意味に限定されるものではなく、例えば形態素等の単位
を含むものである。
【0109】当業者は理解するであろうが、音素列のD
Pマッチングの上記の説明は、例示的なものとして与え
たに過ぎず、さまざまな修正形態を作成することができ
る。例えば、格子点を通って経路を伝播させるためにラ
スタ・スキャニング技法を利用したが、格子点を通って
経路を漸進的に伝播させる他の技法を利用することもで
きる。加えて、当業者は理解するであろうが、上述のD
P制約以外のDP制約を使用してマッチング・プロセス
を制御することもできる。
【0110】上記の実施形態では、DPマッチングユニ
ットが、上記の式(1)を使用して遷移ごとの復号化ス
コアを計算した。式(1)に従ってシステムに既知のす
べての可能な音素にわたって和をとるかわりに、総和内
の確率項を最大にする未知の音素pを識別し、この最大
確率項を入力シーケンス中の対応する音素を復号化する
確率として使用するようにDPマッチングユニットを配
置することもできる。そのような実施形態では、DPマ
ッチングユニットは、適切なバックポインタを用いて、
この確率が最大となった音素の表示も記憶することが好
ましく、その結果、入力音素列の間の最良マッチングを
決定した後、入力シーケンスを最良に表す音素列は、単
にこの記憶したデータから音素列決定ユニットによって
決定することができる。
【0111】上記の実施形態では、挿入確率、削除確
率、および復号化確率は、確率の最尤推定を用いて音声
認識システムの統計から計算された。当業者は理解する
であろうが、最大エントロピー技法などの他の技法を使
用してこれらの確率を推定することもできる。適切な最
大エントロピー技法の詳細は、John Skilling著“Maxim
um Entropy and Bayesian Methods”, Kluwer Academic
publishers, pp45-52から得られ、この内容は引用によ
り本明細書に含まれる。
【0112】上記の実施形態では、DPアルゴリズムを
使用して、音声認識エンジンで出力された音素列のマッ
チングを行った。当業者は理解するであろうが、どんな
マッチング手法も使用することができる。例えば、すべ
ての可能なマッチングを考慮する単純な技法を使用する
ことができる。しかし、動的計画法は、標準の処理ハー
ドウェアを用いて実装することが容易であるので、好ま
しい。加えて、上記の実施形態では、DPマッチングユ
ニットが音素の入力シーケンス間の「最良の」マッチン
グを決定したが、このことはある応用例では絶対に必要
であるわけではない。例えば2番目、3番目、または4
番目に良好なマッチングを代わりに使用することもでき
る。
【0113】上記の実施形態では、DPマッチングユニ
ットは、音素の複数の入力シーケンスの間の最良マッチ
ングを特定するために、それらを同時にマッチングする
ように動作可能であった。代替実施形態では、同時に入
力音素の2つのシーケンスを比較するようにDPマッチ
ングユニットを配置することができる。この場合、例え
ば、第3入力音素列は、音素の初めの2つのシーケンス
を最良に表す音素のシーケンスとマッチングされること
になる。
【0114】上記の実施形態では、DPアルゴリズムの
間、式(1)が音素のマッチングペアごとに計算され
た。式(1)の計算において、第1の音素列および第2
の音素列がシステムに既知の音素のそれぞれと比較され
た。当業者は理解するであろうが、所与の第1の音素列
と第2の音素列の対に対して、式(1)で与えられる確
率のうちの多くは、0に等しいか、または0に非常に近
い。したがって代替実施形態では、マッチング音素を、
トレーニング・データからあらかじめ決定される、既知
の音素すべてのサブセットのみと比較することができ
る。そのような実施形態を実装するために、マッチング
すべき入力音素を使用して、式(1)(またはその多重
入力シーケンス均等物)を用いてそれらの入力音素と比
較する必要のある音素を識別するルックアップテーブル
をアドレス指定することができる。
【0115】上記の実施形態では、ユーザは、新たな単
語に対応する入力音声部分と共にいくつかの新たな入力
単語の音声部分を入力する。代替実施形態では、新たな
単語の音声部分を入力するのではなく、手書きによって
入力することができ、その後で適切な手書き認識ソフト
ウェアを用いてテキストに変換することができる。
【0116】上記の実施形態では、音声認識システムで
使用するために新たな単語モデルが生成された。具体的
には、上で与えた例では、新たな単語モデルが単語のテ
キストバージョンと共に記憶され、その結果テキストを
単語処理アプリケーションで使用することができる。し
かし、冒頭で述べたように、単語モデルは、対応するテ
キストを生成する際に使用するためにではなく、制御コ
マンドとして使用することが可能である。この場合、新
たな単語モデルに対応するテキストを記憶するのではな
く、対応する制御処理またはコマンドが入力となり、記
憶される。
【0117】以上、いくつかの実施形態および修正形態
を説明した。この他にも多くの実施形態および修正形態
があることは当業者には明らかであろう。
【図面の簡単な説明】
【図1】本発明の実施形態を実現するためにプログラム
することのできるコンピュータを示す図である。
【図2】実施形態における音声認識システムを示す図で
ある。
【図3】実施形態における単語モデル生成ユニットの構
成を示すブロック図である。
【図4】実施形態における新たな単語に対応する2つの
音声部分を表す第1および第2の音素列と、第1および
第2の音素列を最良に表す第3の音素列とを示し、第3
の音素列に対して第1および第2の音素列からの音素の
挿入/削除の可能性を示す図である。
【図5】開始ヌル・ノードおよび終了ヌル・ノードと共
に、新たな単語に対応する2つの音声部分についての音
素列によって作成された探索空間を示す図である。
【図6】水平軸を新たな単語のある音声部分に対応する
音素、垂直軸を別の音声部分に対応する音素として、そ
れぞれが第1および第2の音声部分の音素との間の可能
な一致に対応する格子点を示す2次元プロットである。
【図7】実施形態における単語モデル生成ユニットの部
分を形成するDPマッチングユニットで利用されるDP
制約を示す図である。
【図8】実施形態におけるDPマッチング処理の間に、
音素に対するスコアリングで使用される削除確率および
復号化確率を示す図である。
【図9】実施形態におけるDPマッチングユニットで実
行される処理ステップを示すフローチャートである。
【図10】開始ヌル・ノードから終了ヌル・ノードへの
DPパスを伝播させるために使用される処理ステップを
示すフローチャートである。
【図11】DPマッチング処理における遷移スコアの決
定に係る処理ステップを示すフローチャートである。
【図12】第1および第2の音素列の削除および復号化
に係るスコアを計算する際に使用される処理ステップを
示すフローチャートである。
【図13】新たな単語の3つの音声部分に対して生成さ
れた3つの音素列によって作成される検索空間を示す略
図である。
【図14】ヌル開始ノードからヌル終了ノードへのDP
パスを伝播させるために使用される処理ステップを示す
フローチャートである。
【図15】DPパスを伝播する際に使用される処理ステ
ップを示すフローチャートである。
【図16】DPパスを伝播させるための遷移スコアの決
定に係る処理ステップを示すフローチャートである。
【図17a】DPマッチング処理における音素の削除お
よび復号化についてのスコアを計算する際に使用される
処理ステップの第1部分を示すフローチャートである。
【図17b】DPマッチング処理中における音素の削除
および復号化についてのスコアを計算する際に使用され
る処理ステップの第2部分を示すフローチャートであ
る。
【図17c】DPマッチング処理中における音素の削除
および復号化についてのスコアを計算する際に使用され
る処理ステップの第3部分を示すフローチャートであ
る。
【図17d】DPマッチング処理中における音素の削除
および復号化についてのスコアを計算する際に使用され
る処理ステップの第4部分を示すフローチャートであ
る。
【図18】実施形態における音声認識システムで使用さ
れ得る音素モデル生成ユニットの主構成要素を示す概略
ブロック図である。
【図19】確率スコアが入力単語の異なる発音とともに
変動する方式を示すプロットである。
【図20】2つの音素列を示す図である。
【図21】2つの音素列を結合して形成される音素格子
を示す図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジェブ ジェイコブ ラジャン イギリス国 アールジー12 2エックスエ イチ, バークシャー, ブラックネル, ロンドン ロード, ザ ブラカンズ キヤノン リサーチ センター ヨーロッ パ リミテッド 内 Fターム(参考) 5D015 GG03 GG04 HH05 HH07

Claims (54)

    【特許請求の範囲】
  1. 【請求項1】 音声認識システムの辞書に加えるべき新
    たな単語を表すサブワードシーケンスを生成する装置で
    あって、 前記新たな単語に対応する第1および第2の音声部分を
    表す信号を受信する第1の受信手段と、 受信した前記第1および第2の音声部分と、あらかじめ
    記憶したサブワードモデルとを比較し、前記第1および
    第2の音声部分のそれぞれを表す第1および第2のサブ
    ワードシーケンスを生成する音声認識手段と、 前記第1のサブワードシーケンスと前記第2のサブワー
    ドシーケンスとをマッチングし、サブワード単位のマッ
    チングペアを形成するマッチング手段と、 前記マッチング手段によって決定された前記マッチング
    ペアに応じて、前記新たな単語の前記音声部分を表す代
    表シーケンスを決定する決定手段と、を備えることを特
    徴とする装置。
  2. 【請求項2】 前記決定手段は、 各マッチングペアに対して、当該マッチングペアにおけ
    る前記第1および第2のサブワードシーケンスに混同す
    るほどに類似するサブワードを求めることで前記代表シ
    ーケンスを決定することを特徴とする請求項1に記載の
    装置。
  3. 【請求項3】 前記決定手段が、 各マッチングペアごとに、当該マッチングペアにおける
    前記第1のサブワードシーケンスと所定のサブワードの
    セットから取り出される複数のサブワードの各々とを比
    較し、前記第1のサブワードシーケンスと前記セットの
    各サブワードとの間のそれぞれの類似性を表す複数の比
    較スコアを供給する第1の比較手段と、 各マッチングペアごとに、当該マッチングペアにおける
    前記第2のサブワードシーケンスと前記セットからの前
    記複数のサブワードの各々とを比較し、前記第2のサブ
    ワードシーケンスと、前記セットの各サブワードとの間
    のそれぞれの類似度を表す複数の比較スコアを供給する
    第2の比較手段と、 前記マッチングペアにおける前記第1および第2のサブ
    ワードシーケンスと、前記セットからの同一のサブワー
    ドとを比較したときに得られる比較スコアを結合し、複
    数の結合比較スコアを生成する結合手段と、 各マッチングペアごとに、当該マッチングペアについて
    の前記結合手段で生成された前記結合比較スコアを比較
    する第3の比較手段と、 各マッチングペアごとに、当該マッチングペアについて
    の前記第3の比較手段による比較結果出力に応じて、当
    該マッチングペアにおける前記サブワードを表すサブワ
    ードを決定する手段と、 を備えることを特徴とする請求項1または2に記載の装
    置。
  4. 【請求項4】 前記第1および第2の比較手段はそれぞ
    れ、前記第1および第2のサブワードシーケンスと、前
    記セットにおけるサブワードとを比較することを特徴と
    する請求項3に記載の装置。
  5. 【請求項5】 前記第1および第2の比較手段は、前記
    セットから取り出されたサブワードと前記マッチングペ
    アにおけるサブワードとの類似度を示す比較スコアを供
    給することを特徴とする請求項3または4に記載の装
    置。
  6. 【請求項6】 前記結合手段は、前記類似度を乗算する
    ために、比較スコアを結合することを特徴とする請求項
    5に記載の装置。
  7. 【請求項7】 前記セットにおけるサブワードのそれぞ
    れが前記代表シーケンスにおいて発生する所定の確率を
    有し、 前記結合手段は、前記結合比較スコアを生成するために
    使用された前記セットのサブワードについてのそれぞれ
    の発生確率に応じて、前記結合比較スコアのそれぞれを
    評価することを特徴とする請求項6に記載の装置。
  8. 【請求項8】 第1および第2のサブワードシーケンス
    のマッチングペアをそれぞれ、d1 iおよびd2 jとし、 前記第1の比較手段によって出力された前記比較スコア
    であって、サブワードセットprと第1のサブワードシー
    ケンスd1 iとの類似度を表すものを、P(d1 i|pr)とし、 前記第2の比較手段によって出力された比較スコアであ
    って、サブワードセットprと第2のサブワードシーケン
    スd2 jとの類似度を表すものを、P(d2 j|pr)とし、ま
    た、 サブワードシーケンス内で発生するサブワードセットpr
    の確率を表す重みを、P(pr)とするとき、 前記結合手段は、 P(d1 i|pr)P(d2 j|pr)P(pr) を計算することによって前記比較スコアを結合すること
    を特徴とする請求項7に記載の装置。
  9. 【請求項9】 前記第3の比較手段は、最大の前記結合
    比較スコアを与えるサブワードセットを識別し、 前記決定手段は、前記マッチングペア内のサブワードを
    表す前記サブワードを、前記最大の結合比較スコアを供
    給するサブワードであると決定することを特徴とする請
    求項8に記載の装置。
  10. 【請求項10】 前記比較スコアは対数確率を表し、 前記結合手段は、それぞれの比較スコアを加えることに
    よって前記確率を増加させることを特徴とする請求項6
    ないし9のいずれかに記載の装置。
  11. 【請求項11】 前記第1および第2のサブワードシー
    ケンスにおける各サブワードは前記セットに属し、 前記第1および第2の比較手段は、前記セットにおける
    サブワードを互いに関係付ける所定のデータを用いて、
    前記比較スコアを供給することを特徴とする請求項3な
    いし10のいずれかに記載の装置。
  12. 【請求項12】 前記所定のデータは、前記セットにお
    けるサブワードごとに、そのサブワードと前記セットに
    おける他のサブワードのそれぞれとの類似度を含むこと
    を特徴とする請求項11に記載の装置。
  13. 【請求項13】 前記マッチング手段は、動的計画法を
    用いて前記第1および第2のサブワードシーケンスをマ
    ッチングするDPマッチング手段を含むことを特徴とす
    る請求項1ないし12のいずれかに記載の装置。
  14. 【請求項14】 前記DPマッチング手段が、前記第1
    および第2のシーケンスの間の最適なマッチングを決定
    することを特徴とする請求項13に記載の装置。
  15. 【請求項15】 前記サブワードはそれぞれ、音素を表
    すことを特徴とする請求項1ないし14のいずれかに記
    載の装置。
  16. 【請求項16】 前記受信手段は、前記新たな単語に対
    応する第3の音声部分を表す信号を受信し、 前記認識手段は、前記第3の音声部分と前記サブワード
    モデルとを比較し、前記第3の音声部分を表す第3のサ
    ブワードシーケンスを生成し、 前記マッチング手段は、前記第1、第2、および第3の
    サブワードシーケンスを同時にマッチングして、前記各
    音声部分からのサブワードを含む、サブワード単位のマ
    ッチンググループを生成し、 前記決定手段は、前記マッチンググループに応じて前記
    代表シーケンスを決定する、 ことを特徴とする請求項1ないし15のいずれかに記載
    の装置。
  17. 【請求項17】 前記受信手段は、前記新たな単語に対
    応する第3の音声部分を表す信号を受信し、 前記認識手段は、前記第3の音声部分と前記サブワード
    モデルとを比較し、前記第3の音声部分を表す第3のサ
    ブワードシーケンスを生成し、 前記マッチング手段は、同時に2つのサブワードシーケ
    ンスをマッチングする、 ことを特徴とする請求項1ないし15のいずれかに記載
    の装置。
  18. 【請求項18】 前記第1の受信手段は、前記新たな単
    語に対応する複数の音声部分を表す信号を受信し、 前記音声認識手段は、受信した前記音声部分と前記サブ
    ワードモデルとを比較し、前記複数の音声部分のそれぞ
    れについてのサブワードシーケンスを生成し、 前記マッチング手段は、前記複数のサブワードシーケン
    スのサブワードをマッチングし、前記各サブワードシー
    ケンスからのサブワードを含む、サブワード単位のマッ
    チンググループを形成し、 前記決定手段は、前記音声部分を表すサブワードシーケ
    ンスを決定し、 当該装置は、更に、 (i) 各サブワードシーケンスと前記代表シーケンスと
    を比較し、それらの間の類似性を表すスコアを決定する
    スコアリング手段と、 (ii)前記スコアリング手段によって出力される前記ス
    コアを処理して、前記音声部分の1つまたは複数の異な
    る発音を示す前記スコアにおけるクラスタを識別するク
    ラスタリング手段と、 を含み、 前記決定手段は、各クラスタ内の前記音声部分を表すサ
    ブワードシーケンスを決定することを特徴とする請求項
    1ないし17のいずれかに記載の装置。
  19. 【請求項19】 前記スコアリング手段、前記クラスタ
    リング手段、および前記決定手段が、所定の収束基準を
    満たすまで反復的に動作することを特徴とする請求項1
    8に記載の装置。
  20. 【請求項20】 更に、 前記クラスタのそれぞれについての前記サブワードシー
    ケンスを、サブワード単位格子内に組み込むための手段
    を備えることを特徴とする請求項18または19に記載
    の装置。
  21. 【請求項21】 生成された前記サブワードシーケンス
    は、前記音声認識システムのコマンド辞書に加えるべき
    新たなコマンドを表すことを特徴とする請求項1ないし
    20のいずれかに記載の装置。
  22. 【請求項22】 生成された前記サブワードシーケンス
    は、新たな単語に対応する入力テキストと共に音声認識
    システムの単語辞書に加えるべきその新たな単語を表す
    ことを特徴とする請求項1ないし20のいずれかに記載
    の装置。
  23. 【請求項23】 音声認識システムの辞書に加えるべき
    新たな単語を表すサブワードシーケンスを生成する装置
    であって、 前記新たな単語に対応する複数の音声部分を表す信号を
    受信する受信手段と、 受信した前記音声部分とあらかじめ記憶したサブワード
    モデルとを比較し、複数の前記音声部分を表すサブワー
    ドシーケンスを生成する音声認識手段と、 各音声部分のサブワードを、他の音声部分のサブワード
    とマッチングし、各音声部分からのサブワードを含む、
    サブワードのマッチンググループを形成するマッチング
    手段と、 前記マッチング手段によって決定される前記マッチング
    グループに応じて、前記新たな単語の音声部分を表すサ
    ブワードシーケンスを決定する決定手段と、 を備えることを特徴とする装置。
  24. 【請求項24】 新たな単語およびその新たな単語のサ
    ブワード表示を、音声認識システムの単語辞書に加える
    ための装置であって、 前記新たな単語の第1の音声部分を表す第1のサブワー
    ドシーケンスを受信し、前記新たな単語の第2の音声部
    分を表す第2のサブワードシーケンスを受信する受信手
    段と、 前記第1のサブワードシーケンスを、前記第2のサブワ
    ードシーケンスとマッチングし、サブワード単位のマッ
    チングペアを形成するマッチング手段と、 前記マッチング手段によって決定された前記マッチング
    ペアに応じて、前記新たな単語の音声部分を表す代表シ
    ーケンスを決定する決定手段と、 前記新たな単語および前記代表シーケンスを前記単語辞
    書に加える手段と、 を備えることを特徴とする装置。
  25. 【請求項25】 認識すべき音声信号を受信する受信手
    段と、 サブワードモデルを記憶する記憶手段と、 受信した前記音声信号と前記サブワードモデルとを比較
    し、前記音声信号を表す1つまたは複数のサブワードシ
    ーケンスを生成する比較手段と、 サブワードシーケンスを単語に関係付ける単語辞書と、 前記単語辞書を用いて前記比較手段によって生成された
    1つまたは複数の前記サブワードシーケンスを処理し、
    前記音声信号に対応する1つまたは複数の単語を生成す
    る単語デコーダと、 前記新たな単語およびそのサブワード表示を前記単語辞
    書に加える追加手段と、 前記比較手段の出力を、前記単語デコーダまたは前記追
    加手段のいずれかに制御可能に接続する接続手段と、 を備える音声認識システムであって、 前記追加手段は、 前記比較手段によって出力された前記新たな単語に対応
    する第1の音声部分を表す第1のサブワードシーケンス
    を受信し、前記比較手段によって出力された前記新たな
    単語に対応する第2の音声部分を表す第2のサブワード
    シーケンスを受信する手段と、 前記第1のサブワードシーケンスを前記第2のサブワー
    ドシーケンスとマッチングし、サブワード単位のマッチ
    ングペアを形成するマッチング手段と、 前記マッチング手段によって形成された前記マッチング
    ペアに応じて、前記新たな単語の音声部分を表す代表シ
    ーケンスを決定する決定手段と、 前記新たな単語に対応する入力テキストを受信する手段
    と、 前記入力テキストと前記代表シーケンスとを前記単語辞
    書に加える手段と、 を備えることを特徴とするシステム。
  26. 【請求項26】 認識すべき音声信号を受信する受信手
    段と、 サブワードモデルを記憶する記憶手段と、 受信した前記音声信号と前記サブワードモデルとを比較
    し、前記音声信号を表す1つまたは複数のサブワードシ
    ーケンスを生成する比較手段と、 前記サブワードシーケンスをコマンドに関係付けるコマ
    ンド辞書と、 前記コマンド辞書を用いて前記比較手段によって出力さ
    れた1つまたは複数の前記サブワードシーケンスを処理
    し、前記音声信号に対応する1つまたは複数のコマンド
    を生成するコマンド・デコーダと、 新たなコマンドおよびそのサブワード表示を前記コマン
    ド辞書に加える追加手段と、 前記比較手段の出力を、前記コマンド・デコーダまたは
    前記追加手段に制御可能に接続する接続手段と、 を備える音声認識システムであって、 前記追加装置は、 前記比較手段によって出力された前記新たなコマンドに
    対応する第1の音声部分を表す第1のサブワードシーケ
    ンスを受信し、前記比較手段によって出力された前記新
    たなコマンドに対応する第2の音声部分を表す第2のサ
    ブワードシーケンスを受信する手段と、 前記第1のサブワードシーケンスを前記第2のサブワー
    ドシーケンスとマッチングし、サブワード単位のマッチ
    ングペアを形成する手段と、 前記マッチング手段によって形成された前記マッチング
    ペアに応じて、前記新たなコマンドの音声部分を表す代
    表シーケンスを決定する決定手段と、 前記代表シーケンスを、対応する前記新たなコマンドと
    共に前記コマンド辞書に加える手段と、 を備えることを特徴とするシステム。
  27. 【請求項27】 音声認識システムの辞書に加えるべき
    新たな単語を表すサブワードシーケンスを生成する方法
    であって、 前記新たな単語に対応する第1の音声部分および第2の
    音声部分を表す信号を受信する第1の受信ステップと、 受信した前記第1および第2の音声部分と、あらかじめ
    記憶したサブワードモデルとを比較し、前記第1の音声
    部分を表す第1のサブワードシーケンスと、前記第2の
    音声部分を表す第2のサブワードシーケンスとを生成す
    る比較ステップと、 前記第1のサブワードシーケンスと、前記第2のシーケ
    ンスのサブワード単位とをマッチングし、サブワード単
    位のマッチングペアを形成するマッチングステップと、 前記マッチングステップによって決定された前記マッチ
    ングペアに応じて、前記新たな単語の音声部分を表す代
    表シーケンスを決定する決定ステップと、 を含むことを特徴とする方法。
  28. 【請求項28】 前記決定ステップは、 各マッチングペアに対して、当該マッチングペアにおけ
    る前記第1および第2のサブワードに混同するほどに類
    似するサブワードを求めることで前記代表シーケンスを
    決定することを特徴とする請求項27に記載の方法。
  29. 【請求項29】 前記決定ステップは、 各マッチングペアごとに、当該マッチングペアにおける
    前記第1のサブワードシーケンスと、所定のサブワード
    のセットから取り出された複数のサブワードのそれぞれ
    とを比較し、前記第1のサブワードシーケンスと前記セ
    ットのそれぞれのサブワードとの間の類似度を表す、対
    応する複数の比較スコアを供給する第1の比較ステップ
    と、 各マッチングペアごとに、当該マッチングペアにおける
    前記第2のサブワードシーケンスと、前記セットからの
    複数の前記サブワードのそれぞれとを比較し、前記第2
    のサブワードシーケンスと、前記セットのそれぞれのサ
    ブワードとの間の類似度を表す、対応する複数の比較ス
    コアを供給する第2の比較ステップと、 前記マッチングペアにおける前記第1および第2のサブ
    ワードシーケンスと、前記セットからの同一のサブワー
    ドとを比較したときに得られる比較スコアを結合し、複
    数の結合比較スコアを生成する結合ステップと、 各マッチングペアごとに、当該マッチングペアについて
    の前記結合ステップで生成された前記結合比較スコアを
    比較する第3の比較ステップと、 各マッチングペアごとに、当該マッチングペアについて
    の前記第3の比較ステップによる比較結果出力に応じ
    て、前記マッチングペアにおけるサブワードを表すサブ
    ワードを決定するステップと、 を含むことを特徴とする請求項27または28に記載の
    方法。
  30. 【請求項30】 前記第1および第2の比較ステップ
    は、前記第1および第2のサブワードシーケンスと、前
    記セットにおけるサブワードとをそれぞれ比較すること
    を特徴とする請求項29に記載の方法。
  31. 【請求項31】 前記第1および第2の比較ステップ
    は、前記セットから取り出された対応するサブワード
    と、前記マッチングペアにおけるサブワードとの類似度
    を示す比較スコアを供給することを特徴とする請求項2
    9または30に記載の方法。
  32. 【請求項32】 前記結合ステップは、前記セットから
    取り出された対応するサブワードとを前記マッチングペ
    アにおけるサブワードとの類似度を乗算するために、前
    記比較スコアを結合することを特徴とする請求項31に
    記載の方法。
  33. 【請求項33】 前記セットにおける前記サブワードの
    それぞれが、前記代表シーケンスにおいて発生する所定
    の確率を有し、 前記結合ステップは、前記結合比較スコアを生成するた
    めに使用された前記セットのサブワードについてのそれ
    ぞれの発生確率に応じて、前記結合比較スコアのそれぞ
    れを評価することを特徴とする請求項32に記載の方
    法。
  34. 【請求項34】 第1および第2のサブワードシーケン
    スのマッチングペアをそれぞれ、d1 iおよびd2 jとし、 前記第1の比較ステップによって出力された前記比較ス
    コアであって、サブワードセットprと第1のサブワード
    シーケンスd1 iとの類似度を表すものを、P(d1 i|pr)と
    し、 前記第2の比較ステップによって出力された比較スコア
    であって、サブワードセットprと第2のサブワードシー
    ケンスd2 jとの類似度を表すものを、P(d2 j|pr)とし、
    また、 サブワードシーケンス内で発生するサブワードセットpr
    の確率を表す重みを、P(pr)とするとき、 前記結合ステップは、 P(d1 i|pr)P(d2 j|pr)P(pr) を計算することによって前記比較スコアを結合すること
    を特徴とする請求項33に記載の方法。
  35. 【請求項35】 前記第3の比較ステップは、最大の前
    記結合比較スコアを与えるサブワードセットを識別し、 前記決定ステップは、前記マッチングペアにおけるサブ
    ワードを表す前記サブワードを、前記最大の結合比較ス
    コアを供給するサブワードであると決定することを特徴
    とする請求項34に記載の方法。
  36. 【請求項36】 前記比較スコアは対数確率を表し、前
    記結合ステップは、それぞれの前記比較スコアを加える
    ことによって前記確率を増加させることを特徴とする請
    求項32ないし35のいずれかに記載の方法。
  37. 【請求項37】 前記第1および第2のシーケンスにお
    けるサブワードのそれぞれが、前記セットに属し、 前記第1および第2の比較ステップは、前記セットにお
    けるサブワードを互いに関係付ける所定のデータを用い
    て、前記比較スコアを供給することを特徴とする請求項
    29ないし36のいずれかに記載の方法。
  38. 【請求項38】 前記所定のデータは、前記セットにお
    けるサブワードごとに、そのサブワードと前記サブワー
    ドセットにおける他のサブワードのそれぞれとの類似度
    を含むことを特徴とする請求項37に記載の方法。
  39. 【請求項39】 前記マッチングステップは、動的計画
    法を用いて前記第1および第2のシーケンスをマッチン
    グすることを特徴とする請求項27ないし38のいずれ
    かに記載の方法。
  40. 【請求項40】 前記動的計画法は、前記第1のシーケ
    ンスと前記第2のシーケンスとの間の最適なマッチング
    を決定することを特徴とする請求項39に記載の方法。
  41. 【請求項41】 前記サブワードのそれぞれは音素を表
    すことを特徴とする請求項27ないし40のいずれかに
    記載の方法。
  42. 【請求項42】 前記受信ステップは、前記新たな単語
    に対応する第3の音声部分を表す信号を受信し、 前記比較ステップは、前記第3音声部分と前記サブワー
    ドモデルとを比較し、前記第3の音声部分を表す第3シ
    ーケンスを生成し、 前記マッチングステップは、前記第1、第2、および第
    3のサブワードシーケンスを同時にマッチングして、前
    記各音声部分からのサブワードを含む、サブワード単位
    のマッチンググループを生成し、 前記決定ステップは、前記マッチンググループに応じて
    前記代表シーケンスを決定する、 ことを特徴とする請求項27ないし41のいずれかに記
    載の方法。
  43. 【請求項43】 前記受信ステップは、前記新たな単語
    に対応する第3の音声部分を表す信号を受信し、 前記比較ステップは、前記第3の音声部分と前記サブワ
    ードモデルとを比較し、前記第3の音声部分を表す第3
    のサブワードシーケンスを生成し、 前記マッチングステップは、同時に2つのサブワードシ
    ーケンスをマッチングする、 ことを特徴とする請求項27ないし41のいずれかに記
    載の方法。
  44. 【請求項44】 前記第1の受信ステップは、前記新た
    な単語に対応する複数の音声部分を表す信号を受信し、 前記比較ステップは、受信した音声部分と前記サブワー
    ドモデルとを比較し、前記複数の音声部分のそれぞれに
    ついてのサブワードシーケンスを生成し、 前記マッチングステップは、複数のサブワードシーケン
    スのサブワードをマッチングし、前記各サブワードシー
    ケンスからのサブワードを含む、サブワード単位のマッ
    チンググループを形成し、 前記決定ステップは、前記音声部分を表すサブワードシ
    ーケンスを決定し、 当該方法は、更に、 (i)各サブワードシーケンスと前記代表シーケンスと
    を比較し、それらの間の類似性を表すスコアを決定する
    スコアリングステップと、 (ii)前記スコアリングステップによって出力される前
    記スコアを処理して、前記音声部分の1つまたは複数の
    異なる発音を示す前記スコアにおけるクラスタを識別す
    るクラスタリングステップと、 を含み、 前記決定ステップは、各クラスタ内の前記音声部分を表
    すサブワードシーケンスを決定することを特徴とする請
    求項27ないし43のいずれかに記載の方法。
  45. 【請求項45】 前記スコアリングステップ、前記クラ
    スタリングステップ、および前記決定ステップが、所定
    の収束基準を満たすまで反復的に動作することを特徴と
    する請求項44に記載の方法。
  46. 【請求項46】 更に、 前記クラスタのそれぞれについての前記サブワードシー
    ケンスを、サブワード単位格子内に組み込むステップを
    有することを特徴とする請求項44または45に記載の
    方法。
  47. 【請求項47】 生成された前記サブワードシーケンス
    は、音声認識システムの単語辞書に加えるべき新たな単
    語を表すことを特徴とする請求項27ないし46のいず
    れかに記載の方法。
  48. 【請求項48】 生成された前記サブワードシーケンス
    は、新たな単語に対応する入力テキストと共に音声認識
    システムのコマンド辞書に加えるべきその新たな単語を
    表す請求項27ないし46のいずれかに記載の方法。
  49. 【請求項49】 音声認識システムの辞書に加えるべき
    新たな単語を表すサブワードシーケンスを生成する方法
    であって、 前記新たな単語に対応する複数の音声部分を表す信号を
    受信する受信ステップと、 受信した音声部分とあらかじめ記憶したサブワードモデ
    ルとを比較し、複数の前記音声部分を表すサブワードシ
    ーケンスを生成する比較ステップと、 各音声部分のサブワードを、他の音声部分のサブワード
    とマッチングし、各音声部分からのサブワードを含む、
    サブワードのマッチンググループを形成するマッチング
    ステップと、 前記マッチングステップによって決定される前記マッチ
    ンググループに応じて、前記新たな単語の音声部分を表
    すサブワードシーケンスを決定する決定ステップと、 を含むことを特徴とする方法。
  50. 【請求項50】 新たな単語および新たな単語のサブワ
    ード表示を、音声認識システムの単語辞書に加える方法
    であって、 前記新たな単語の第1の音声部分を表す第1のサブワー
    ドシーケンスを受信し、前記新たな単語の第2の音声部
    分を表す第2のシーケンスを受信する受信ステップと、 前記第1のサブワードシーケンスを、前記第2のサブワ
    ードシーケンスとマッチングし、サブワード単位のマッ
    チングペアを形成するマッチングステップと、 前記マッチングステップによって決定された前記マッチ
    ングペアに応じて、前記新たな単語の音声部分を表す代
    表シーケンスを決定する決定ステップと、 前記新たな単語および前記代表シーケンスを前記単語辞
    書に加えるステップと、 を含むことを特徴とする方法。
  51. 【請求項51】 認識すべき音声信号を受信する受信ス
    テップと、 サブワードモデルを記憶する記憶ステップと、 受信した前記音声信号と前記サブワードモデルとを比較
    し、前記音声信号を表す1つまたは複数のサブワードシ
    ーケンスを生成する比較ステップと、 サブワードシーケンスを単語に関係付ける単語辞書を記
    憶するステップと、 前記単語辞書を用いて前記比較ステップによって生成さ
    れた1つまたは複数の前記サブワードシーケンスを処理
    し、前記音声信号に対応する1つまたは複数の単語を生
    成する単語生成ステップと、 前記新たな単語およびそのサブワード表示を前記単語辞
    書に加える追加ステップと、 前記比較ステップの出力を、前記単語生成ステップまた
    は前記追加ステップに制御可能に供給する供給ステップ
    と、 を有する音声認識方法であって、 前記追加ステップは、 前記比較ステップによって出力された前記新たな単語に
    対応する第1の音声部分を表す第1のサブワードシーケ
    ンスを受信し、前記比較ステップによって出力された前
    記新たな単語に対応する第2の音声部分を表す第2のサ
    ブワードシーケンスを受信するステップと、 前記第1のサブワードシーケンスを前記第2のサブワー
    ドシーケンスとマッチングし、サブワード単位のマッチ
    ングペアを形成するマッチングステップと、 前記マッチングステップによって形成された前記マッチ
    ングペアに応じて、前記新たな単語の音声部分を表す代
    表シーケンスを決定する決定ステップと、 前記新たな単語に対応する入力テキストを受信するステ
    ップと、 前記入力テキストと前記代表シーケンスとを前記単語辞
    書に加えるステップと、 を含むことを特徴とする方法。
  52. 【請求項52】 認識すべき音声信号を受信する受信ス
    テップと、 受信した前記音声信号とあらかじめ記憶したサブワード
    モデルとを比較し、前記音声信号を表す1つまたは複数
    のサブワードシーケンスを生成する比較ステップと、 前記サブワードシーケンスをコマンドに関係付けて記憶
    したコマンド辞書を用いて、前記比較ステップによって
    出力された1つまたは複数の前記サブワードシーケンス
    を処理し、前記音声信号に対応する1つまたは複数のコ
    マンドを生成するコマンド生成ステップと、 新たなコマンドおよびそのサブワード表示を前記コマン
    ド辞書に加える追加ステップと、 前記比較ステップの出力を、前記コマンド生成ステップ
    または前記追加ステップに制御可能に供給する供給ステ
    ップと、 を含む音声認識方法であって、 前記追加ステップは、 前記比較ステップによって出力された前記新たなコマン
    ドに対応する第1の音声部分を表す第1のサブワードシ
    ーケンスを受信し、前記比較ステップによって出力され
    た前記新たなコマンドに対応する第2の音声部分を表す
    第2のサブワードシーケンスを受信するステップと、 前記第1のサブワードシーケンスを前記第2のサブワー
    ドシーケンスとマッチングし、サブワード単位のマッチ
    ングペアを形成するステップと、 前記マッチングステップによって形成された前記マッチ
    ングペアに応じて、前記新たな単語の音声部分を表す代
    表シーケンスを決定する決定ステップと、 前記代表シーケンスを、対応する前記新たなコマンドと
    共に前記コマンド辞書に加えるステップと、 を含むことを特徴とする方法。
  53. 【請求項53】 請求項27ないし52のいずれかの方
    法を実装する目的でプロセッサを制御するためのプロセ
    ッサ実装可能命令を記憶する記憶媒体。
  54. 【請求項54】 請求項27ないし52のいずれかの方
    法を実装する目的でプロセッサを制御するためのプロセ
    ッサ実装可能命令。
JP2001341085A 2000-11-07 2001-11-06 音声処理システム Pending JP2002156995A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0027178.3 2000-11-07
GBGB0027178.3A GB0027178D0 (en) 2000-11-07 2000-11-07 Speech processing system

Publications (1)

Publication Number Publication Date
JP2002156995A true JP2002156995A (ja) 2002-05-31

Family

ID=9902706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001341085A Pending JP2002156995A (ja) 2000-11-07 2001-11-06 音声処理システム

Country Status (5)

Country Link
US (1) US7337116B2 (ja)
EP (1) EP1205908B1 (ja)
JP (1) JP2002156995A (ja)
DE (1) DE60126722T2 (ja)
GB (1) GB0027178D0 (ja)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US7295982B1 (en) * 2001-11-19 2007-11-13 At&T Corp. System and method for automatic verification of the understandability of speech
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
US20030220788A1 (en) * 2001-12-17 2003-11-27 Xl8 Systems, Inc. System and method for speech recognition and transcription
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
DE10244169A1 (de) * 2002-09-23 2004-04-01 Infineon Technologies Ag Spracherkennungseinrichtung, Steuereinrichtung und Verfahren zum rechnergestützten Ergänzen eines elektronischen Wörterbuches für eine Spracherkennungseinrichtung
WO2004029931A1 (de) * 2002-09-23 2004-04-08 Infineon Technologies Ag Spracherkennungseinrichtung, steuereinrichtung und verfahren zum rechnergestützten ergänzen eines elektronischen wörterbuches für eine spracherkennungseinrichtung
JP4072718B2 (ja) * 2002-11-21 2008-04-09 ソニー株式会社 音声処理装置および方法、記録媒体並びにプログラム
EP1654727A4 (en) * 2003-07-23 2007-12-26 Nexidia Inc INTERROGATIONS FOR THE DETECTION OF WORDS
US8577681B2 (en) * 2003-09-11 2013-11-05 Nuance Communications, Inc. Pronunciation discovery for spoken words
US8954325B1 (en) * 2004-03-22 2015-02-10 Rockstar Consortium Us Lp Speech recognition in automated information services systems
GB0426347D0 (en) 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2007027989A2 (en) * 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
US7512574B2 (en) * 2005-09-30 2009-03-31 International Business Machines Corporation Consistent histogram maintenance using query feedback
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
US7693717B2 (en) * 2006-04-12 2010-04-06 Custom Speech Usa, Inc. Session file modification with annotation using speech recognition or text to speech
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US20080126093A1 (en) * 2006-11-28 2008-05-29 Nokia Corporation Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
EP2135231A4 (en) * 2007-03-01 2014-10-15 Adapx Inc SYSTEM AND METHOD FOR DYNAMIC LEARNING
US8024191B2 (en) * 2007-10-31 2011-09-20 At&T Intellectual Property Ii, L.P. System and method of word lattice augmentation using a pre/post vocalic consonant distinction
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8019604B2 (en) * 2007-12-21 2011-09-13 Motorola Mobility, Inc. Method and apparatus for uniterm discovery and voice-to-voice search on mobile device
US8015005B2 (en) * 2008-02-15 2011-09-06 Motorola Mobility, Inc. Method and apparatus for voice searching for stored content using uniterm discovery
JP5454469B2 (ja) * 2008-05-09 2014-03-26 富士通株式会社 音声認識辞書作成支援装置,処理プログラム,および処理方法
US9202460B2 (en) * 2008-05-14 2015-12-01 At&T Intellectual Property I, Lp Methods and apparatus to generate a speech recognition library
US9077933B2 (en) * 2008-05-14 2015-07-07 At&T Intellectual Property I, L.P. Methods and apparatus to generate relevance rankings for use by a program selector of a media presentation system
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
JP5377430B2 (ja) * 2009-07-08 2013-12-25 本田技研工業株式会社 質問応答データベース拡張装置および質問応答データベース拡張方法
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9275640B2 (en) * 2009-11-24 2016-03-01 Nexidia Inc. Augmented characterization for speech recognition
JP5633042B2 (ja) * 2010-01-28 2014-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識ロボット
US8527270B2 (en) 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
US9576570B2 (en) * 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
US9159319B1 (en) * 2012-12-03 2015-10-13 Amazon Technologies, Inc. Keyword spotting with competitor models
US9378733B1 (en) * 2012-12-19 2016-06-28 Google Inc. Keyword detection without decoding
WO2014176750A1 (en) * 2013-04-28 2014-11-06 Tencent Technology (Shenzhen) Company Limited Reminder setting method, apparatus and system
US20140350933A1 (en) * 2013-05-24 2014-11-27 Samsung Electronics Co., Ltd. Voice recognition apparatus and control method thereof
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US9837070B2 (en) 2013-12-09 2017-12-05 Google Inc. Verification of mappings between phoneme sequences and words
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
GB2544070B (en) * 2015-11-04 2021-12-29 The Chancellor Masters And Scholars Of The Univ Of Cambridge Speech processing system and method
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10586537B2 (en) * 2017-11-30 2020-03-10 International Business Machines Corporation Filtering directive invoking vocal utterances
JP7131518B2 (ja) * 2019-09-20 2022-09-06 カシオ計算機株式会社 電子機器、発音学習方法、サーバ装置、発音学習処理システムおよびプログラム
WO2022246782A1 (en) * 2021-05-28 2022-12-01 Microsoft Technology Licensing, Llc Method and system of detecting and improving real-time mispronunciation of words
CN115101063B (zh) * 2022-08-23 2023-01-06 深圳市友杰智新科技有限公司 低算力语音识别方法、装置、设备及介质

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4227176A (en) 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
JPS59226400A (ja) 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US4980918A (en) 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
JP2739945B2 (ja) 1987-12-24 1998-04-15 株式会社東芝 音声認識方法
US5075896A (en) 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
US6236964B1 (en) 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US5136655A (en) 1990-03-26 1992-08-04 Hewlett-Pacard Company Method and apparatus for indexing and retrieving audio-video data
US5202952A (en) 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5390278A (en) 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5333275A (en) 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
US5625554A (en) 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
DE69333422T2 (de) 1992-07-31 2004-12-16 International Business Machines Corp. Auffindung von Zeichenketten in einer Datenbank von Zeichenketten
EP0597798A1 (en) 1992-11-13 1994-05-18 International Business Machines Corporation Method and system for utilizing audible search patterns within a multimedia presentation
WO1994014270A1 (en) 1992-12-17 1994-06-23 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5467425A (en) 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
US5787414A (en) 1993-06-03 1998-07-28 Kabushiki Kaisha Toshiba Data retrieval system using secondary information of primary data to be retrieved as retrieval key
DE69423838T2 (de) 1993-09-23 2000-08-03 Xerox Corp., Rochester Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
SE513456C2 (sv) * 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
IT1272259B (it) 1994-05-30 1997-06-16 Texas Instruments Italia Spa Procedimento ed apparecchio per il riconoscimento dei caratteri
JP3260979B2 (ja) 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5799267A (en) 1994-07-22 1998-08-25 Siegel; Steven H. Phonic engine
US5737723A (en) 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5835667A (en) 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
NZ294659A (en) * 1994-11-01 1999-01-28 British Telecomm Method of and apparatus for generating a vocabulary from an input speech signal
US5680605A (en) 1995-02-07 1997-10-21 Torres; Robert J. Method and apparatus for searching a large volume of data with a pointer-based device in a data processing system
EP0813735B1 (en) 1995-03-07 2001-10-04 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
CA2170669A1 (en) 1995-03-24 1996-09-25 Fernando Carlos Neves Pereira Grapheme-to phoneme conversion with weighted finite-state transducers
US5675706A (en) 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5729741A (en) 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
JPH10503033A (ja) * 1995-05-03 1998-03-17 フィリップス エレクトロニクス ネムローゼ フェン ノートシャップ 新ワードのモデル化に基づく音声認識方法及びその装置
JPH0916598A (ja) 1995-07-03 1997-01-17 Fujitsu Ltd エラー・パターンを用いた文字列修正システムおよび方法
US5721939A (en) 1995-08-03 1998-02-24 Xerox Corporation Method and apparatus for tokenizing text
US5684925A (en) 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5737489A (en) 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
JPH09128396A (ja) 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
US6567778B1 (en) 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
GB2303955B (en) 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5870740A (en) 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US5708759A (en) 1996-11-19 1998-01-13 Kemeny; Emanuel S. Speech recognition using phoneme waveform parameters
US6172675B1 (en) 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US5852822A (en) 1996-12-09 1998-12-22 Oracle Corporation Index-only tables with nested group keys
EP0849723A3 (en) 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
WO1998047084A1 (en) 1997-04-17 1998-10-22 Sharp Kabushiki Kaisha A method and system for object-based video description and linking
WO1999005681A1 (de) 1997-07-23 1999-02-04 Siemens Aktiengesellschaft Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz
EP1018109B1 (en) 1997-09-24 2003-03-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for distinguishing similar-sounding utterances in speech recognition
US6026398A (en) 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6061679A (en) 1997-11-25 2000-05-09 International Business Machines Corporation Creating and searching a data structure ordered by ranges of key masks associated with the data structure
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6243680B1 (en) * 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6321226B1 (en) 1998-06-30 2001-11-20 Microsoft Corporation Flexible keyboard searching
US6192337B1 (en) 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US6490563B2 (en) 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
DE19842404A1 (de) 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
AU1520000A (en) * 1998-11-25 2000-06-13 Sony Electronics Inc. Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system
CA2366057C (en) 1999-03-05 2009-03-24 Canon Kabushiki Kaisha Database annotation and retrieval
GB2349260B (en) * 1999-04-23 2003-05-28 Canon Kk Training apparatus and method
US6662180B1 (en) 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
US6567816B1 (en) 2000-03-07 2003-05-20 Paramesh Sampatrai Desai Method, system, and program for extracting data from database records using dynamic code
US6535850B1 (en) 2000-03-09 2003-03-18 Conexant Systems, Inc. Smart training and smart scoring in SD speech recognition system with user defined vocabulary

Also Published As

Publication number Publication date
EP1205908A3 (en) 2003-11-19
US7337116B2 (en) 2008-02-26
US20020120447A1 (en) 2002-08-29
GB0027178D0 (en) 2000-12-27
DE60126722D1 (de) 2007-04-05
EP1205908A2 (en) 2002-05-15
DE60126722T2 (de) 2007-10-25
EP1205908B1 (en) 2007-02-21

Similar Documents

Publication Publication Date Title
JP2002156995A (ja) 音声処理システム
JP3747171B2 (ja) 音声処理システム
US11061644B2 (en) Maintaining context for voice processes
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
CN1121680C (zh) 语音识别
KR101237799B1 (ko) 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법
US8914286B1 (en) Speech recognition with hierarchical networks
US12159627B2 (en) Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP2007093789A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPH07219578A (ja) 音声認識方法
JP2005258443A (ja) 発音グラフを使用して新しい単語の発音学習を改善すること
US5706397A (en) Speech recognition system with multi-level pruning for acoustic matching
JPH08227298A (ja) クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識
US20170270923A1 (en) Voice processing device and voice processing method
JP4038023B2 (ja) 文法制約を有するラベル機能を使用する口頭発話拒否
KR20240122776A (ko) 뉴럴 음성 합성의 적응 및 학습
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP4392581B2 (ja) 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
JPH10247194A (ja) 自動通訳装置
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP4972660B2 (ja) 音声学習装置及びプログラム
Amdal et al. Pronunciation variation modeling in automatic speech recognition
JP2005091504A (ja) 音声認識装置
JP2731133B2 (ja) 連続音声認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040521

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040720

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050131