[go: up one dir, main page]

JPH10105189A - シーケンス取出し方法及びその装置 - Google Patents

シーケンス取出し方法及びその装置

Info

Publication number
JPH10105189A
JPH10105189A JP9259494A JP25949497A JPH10105189A JP H10105189 A JPH10105189 A JP H10105189A JP 9259494 A JP9259494 A JP 9259494A JP 25949497 A JP25949497 A JP 25949497A JP H10105189 A JPH10105189 A JP H10105189A
Authority
JP
Japan
Prior art keywords
word
sequence
words
graph
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP9259494A
Other languages
English (en)
Inventor
Bach-Hiep Tran
トラン バッハ−ヒープ
Frank Seide
シーデ フランク
Volker Dr Steinbiss
スタインビス ヴォルカー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JPH10105189A publication Critical patent/JPH10105189A/ja
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 話される表現に一致する可能性が減少する複
数の相違するワードシーケンスの発生により、スコアの
和を著しく増大させる。 【解決手段】 最初のワードグラフの情報を用いて認識
を行うとともに、最適なワードシーケンスを、一つのブ
ランチのみを有するツリーとして個別に記憶する。この
ワードシーケンスのワード境界は、このツリーにノード
を形成する。このツリーのノードのみを2番目に適切な
ワードシーケンスに対して考慮するので、計算は著しく
簡単になる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然な音声で話さ
れる表現を表す音声信号から少なくとも一つのワードシ
ーケンスを取り出し、その表現の個別のワードがそれに
挿入された音声間隔とともに話されるシーケンス取出し
方法に関するものである。語彙のみが与えられ、その結
果、この語彙のワードのみを取り出すことができる。取
り出されたワードのシーケンスは、話されるワードのシ
ーケンスに正確に一致する必要がある。したがって、こ
のような方法は、音声認識法とも称される。また、本発
明は、少なくとも一つのワードのシーケンスを取り出す
方法に関するものである。
【0002】
【従来の技術】特開平6-295198号公報から既知のこの種
の方法において、個別のワードは、基準信号との比較に
よって取り出され、このようなワードを結合して、ワー
ドグラフを形成する。基準値との完全な一致は実際には
ほとんど生じないので、複数の同様な音のワードが取り
出され、同時に又は時間的なオーバラップとともに、ワ
ードの各々は、基準値の一致の程度に応じて各スコアに
割り当てられる。スコアの最小の和が生じる連続的なワ
ードのシーケンスは、最も可能性の高い話されたワード
シーケンスとして出力される。
【0003】
【発明が解決しようとする課題】しかしながら、最適で
ない発音が原因で、実際に話されたワードシーケンスが
ワードグラフの好適ではない和を有するので、シーケン
スの出力が実際に話されたワードシーケンスでない場合
が生じる。それにもかかわらず、このような実際に話し
たワードシーケンスを出力するおそれがあるので、原理
的には、音声信号に一致する可能性が段階的に低くなる
音声信号から複数のワードシーケンスが取り出されるこ
とが知られている。例えば、オペレータは、この場合、
その複数のワードシーケンスから実際に話されたワード
シーケンスを選択することができる。音声信号が一致す
る可能性が減少する相違するワードシーケンスの出力に
対する別の用途は、ワードシーケンスの出力が自動的な
データベースの問い合わせに用いられる対話システムに
関する。この場合、最も可能性の高いものとして認識さ
れたワードシーケンスにより、感知することができない
すなわち解釈することができないデータベースの問い合
わせとなるおそれがあり、それに対して、より可能性の
低いワードシーケンスが有用なデータベースの問い合わ
せとなるおそれがある。したがって、このようなワード
シーケンスが実際に話されるシーケンスに最も一致する
と仮定されるおそれがある。
【0004】しかしながら、音声信号に対する一致の可
能性が相違する複数のワードシーケンスが発生すること
は、一般に計算の観点から非常に複雑である。1991年に
トロントで刊行されたThe Proceedings ICASSP-91 の70
1 〜704 頁は、複数の文章の仮定を見つける方法を記載
しており、この場合、種々の文章の仮定を後に追跡する
ことができるステップは複雑となる。
【0005】本発明の目的は、ワードグラフに基づき、
話される表現に一致する可能性が減少する複数の相違す
るワードシーケンスの発生により、スコアの和を簡単な
手段を用いて著しく増大させることができる方法及び装
置を提供することである。
【0006】
【課題を解決するための手段】この目的を、主に音声信
号に最も音響的に一致することを示すワードシーケンス
を基礎として用いる本発明によって達成される。本発明
は、音声信号の音響的な一致が減少するワードシーケン
スがこれら音響的に類似したワードシーケンスの一部を
含む必要があるという概念に基づくものである。したが
って、後に第1ワードシーケンスとも称されるこのワー
ドシーケンスが基礎として用いられる。この第1ワード
シーケンスを、本来一つのブランチのみを有するととも
に個別のワード間の境界を表す複数のノードを含むツリ
ーの形態で個別に記憶する。このツリーの各ノードは、
別の複数のノードを含むワードグラフのノードに一致す
る。次に大きなスコアの和を有する別のワードシーケン
スを見つけるために、ツリーの各ノードに対して、ワー
ドグラフの一致するノードを検索し、開始までのワード
グラフを通過する最適経路セグメント、すなわちスコア
の最小の和を有する経路セグメントも検索する。この和
は、エンドノードまでのツリーの残りのワードのスコア
だけ増分され、このように増分されたスコアの最小の和
を有する経路セグメントは、ツリーの残りのワードシー
ケンスとともに、スコアの次に大きい和を有するワード
シーケンスを提供する。決定すべき別のワードシーケン
スの各々に対してブランチがツリーに既に存在し、より
正確に言えば、サブシーケンスの最後のワードを除去す
る必要があるので、ツリーはワードのこのサブシーケン
スによって拡張される。ツリーが、ワードグラフに比べ
て少ない数のノードを具えるので、別のワードシーケン
スを、簡単な算術手段を用いて決定する必要がある。
【0007】好適には、ワードグラフを有する経路に沿
ったワードシーケンスのスコアの和の計算は、n≧1の
所定のワードの可能性を表す言語モデル値も考慮する。
n=1に対して、これらは、個別のワードの可能性のユ
ニグラム(Unigram) 言語モデル値となる。しかしなが
ら、バイグラム(Bigram)言語モデルの言語モデル値のn
=2に対して、より良好な結果が既に得られている。こ
れにより、ワードシーケンスが音声信号に音響的に比較
的強く一致することを示しても、感知できないワードシ
ーケンスが出力されるおそれが減少する。
【0008】計算量を以下のようにして更に減少させる
ことができる。第1及び別のワードシーケンスの各々の
決定後、グラフの開始を各ツリーノードに対して検索す
るまでワードグラフの最適経路セグメントが存在し、関
連のスコアの和が形成され及びツリーの残りのワードシ
ーケンスのスコアによって増分される場合、この増分さ
れたスコアの和が、関連のツリーノードで記憶される。
経路セグメント及びツリーのワードシーケンスの残りか
らなる別のワードシーケンスを決定する場合、この新た
な経路セグメントの個別のエッジがワードグラフにマー
クされて、この経路セグメントは別のワードシーケンス
の決定の際にもはや考慮されないようにする。他の全て
のツリーノードに対して記憶された値は、同一のままで
あり、次のワードシーケンスの決定の際に再び計算され
る必要がない。経路セグメントのノードのマーキングの
代わりに、関連のツリーノードに対して、ワードグラフ
の残りの全ての経路セグメントから最適経路を決定する
とともに、ツリーノードに対応するスコアを記憶させる
ことができ、その結果、次のワードシーケンスは、全て
のツリーノードに記憶されたスコアの和のうちの最小の
ものから直接続く。
【0009】このように決定された複数のワードシーケ
ンスが、実際に話したワードシーケンスを含む可能性
を、決定後により複雑な言語モデルを用いてこれらワー
ドシーケンスを更に評価することにより更に増大させる
ことができる。この結果、個別のワードシーケンスに対
して新たなスコアとなり、その結果ワードシーケンスの
オーダは変化しうる。例えば、2番目に適切なワードシ
ーケンスは追加の評価の値に4番目に適切なワードシー
ケンスとなり、それに対して、追加の評価の前に3番目
に適切なワードシーケンスは、例えば2番目に適切なワ
ードシーケンスとなる。その後、ワードシーケンスを出
力することができ、場合によってはワードシーケンス
を、修正したオーダで更に処理することもできる。
【0010】
【発明の実施の形態】図1に図示したワードグラフは、
明瞭のために行方向に示した複数のノードN0〜N10
を具える。ノードN0〜N10は、エッジK1〜K17
によって付されたワード間の境界を表す。ワードの境界
は、相違する瞬時t0〜t8で生じる。このグラフを、
音声信号を基準信号と比較することによって形成し、基
準信号の相違するシーケンスを、相違するワードに関連
させる。ワードが音声信号のセグメントに十分類似して
いることを示す場合、このワードをワードグラフに加え
る。実際には、このようなワードグラフは、連続する他
のワードを有する複数の別のノードも具えるが、これら
他のワードを明瞭のために省略する。図3に図示したツ
リーのノードに対応するノードのみを示す。
【0011】ノードN0は、音声信号の開始、例えば、
話を開始するためにユーザに対してシステムが行う要求
を表す。先ず、ノードN0では沈黙がある。その理由
は、ユーザは話を瞬時に開始しないからである。
【0012】しばしば雑音が音声信号に重ね合わされる
ので、瞬時t1では、エッジK3によって表される沈黙
がノードN1で終了し、エッジK6で始まるワードの開
始を認識する。他の仮説によれば、エッジK2で表され
た沈黙は、ノードN2の瞬時t2で終了したものと考え
られ、エッジK4及びK5を付した二つのあり得るワー
ドの開始を認識する。関連のセグメントの音声信号に対
する個々のワードの類似に依存して、これら個々のワー
ドがスコアに割り当てられるが、そのスコアを図1に示
さない。最後に、第3の仮説により、エッジK1によっ
て示した沈黙は、ノードN3の瞬時t3でのみ終了した
と仮定され、ノードK7及びK8を付した二つの適切な
ワードの開始が認識される。図1に示す全体のワードグ
ラフをこのようにして形成する。
【0013】あり得る次の沈黙を示さない場合、音声信
号の終了がノードN10に到達すると、図1に示さない
が実際には存在するノード及びエッジを通過する経路で
あっても、ワードグラフを通過する全てのあり得る経路
に続き、これら経路沿いのワードに関連するスコアが加
えられる。好適には、言語モデル値、特にバイグラム言
語モデルの言語モデル値をこの際に考慮する。これによ
り、音声信号又は音声信号の対応するセグメントに対す
る適切な音響的な類似をワード文章が有する場合、実際
には通常の文章に生じないワード文があり得るワード文
として出力されるおそれが減少する。最後に、全ての適
切な経路はノードN10で終了し、スコアの最適合計を
有する経路が第1のワードシーケンスとして出力され
る。
【0014】同時に、この第1のワードシーケンスを、
図2に示したツリーとして個別に記憶し、そのツリー
は、最初は単一ブランチのみからなる。このツリーは、
図1のワードグラフのエッジK1,K8,K10及びK
12に対応するワードK’1,K’8,K’10及び
K’12を含む。ワード間のワード境界に、ノードT0
〜T4を配置し、この場合これらノードにエンドノード
T0から番号を付し、これらノードは図1のワードグラ
フのノードN10,N7,N5及びN3に対応する。図
2は、2番目に適切なワードシーケンスに対するあり得
る候補を見つける方法も示し、したがってその候補は、
最適のワードシーケンスの和よりも大きいがワードグラ
フの他のあり得る全てのワードシーケンスの和より小さ
いスコアの和を有する。2番目に適切なワードシーケン
スはサブシーケンスのみを含むことができ、そのサブシ
ーケンスは、任意の場合ツリーのノードのうちの一つで
終了する必要がある。本例では、ノードT2に対して、
それを、ワードグラフのエッジK9に対応するワード
K’9で終了するサブシーケンスのみとすることができ
る。ノードT1に対して、一つのみのワードシーケンス
が適切であり、そのシーケンスは、二つのエッジK10
及びK11のみがワードグラフのノードN7に集まるの
で、ワードK’11で終了する。しかしながら、エッジ
K10は、最適ワードシーケンスによって既に用いられ
ている。三つの相違するワードシーケンスが可能である
のは、2番目に適切なワードシーケンスに対してもあり
得るノードを構成するエンドノードに対してのみであ
り、それは、ワードK’15,K’16及びK’17で
終了する。全てのあり得るワードシーケンスのうちのい
ずれが2番目に適切なワードシーケンスであるかを、あ
り得るサブシーケンスの各々に対して配置されたワード
のスコアの和を形成するとともに、既に存在するツリー
の残りのワードのスコアをこの和に加算することによっ
て、決定する。複数のあり得るサブシーケンスが2番目
に適切なワードシーケンスとしてツリーのノードで終了
することができる限り、スコアの最小の和を有するこの
ような複数の適切なサブシーケンスの間からのサブシー
ケンスを、2番目に適切なワードシーケンスに対してあ
り得る候補とすることができる。各ツリーノードで、す
なわち本例ではツリーノードT2,T1及びT0で、ス
コアの関連の増分した和を記憶する。他のステップの
間、記憶された値を比較し、最小値は、2番目に適切な
ワードシーケンスが最適ワードシーケンスで終了するノ
ードを表す。
【0015】図3は、四つの最適ワードシーケンスに対
する一例を示す。オーダを、個別のブランチの左端の番
号で表す。図2で既に示したように、最適ワードシーケ
ンスは、ワードK’1,K’8,K’10及びK’12
を含む。2番目に適切なワードシーケンスは、エンドノ
ードT0でのみ最適ワードシーケンスを終了し、ワード
K’1,K’8,K’10,K’13及びK’15を含
む。このワードシーケンスは、追加的にノードT5〜T
9を含む。3番目に適切なワードシーケンスは、ノード
T2で最適ワードシーケンスを終了し、ワードK’2,
K’4,K’9,K’10及びK’12を含む。これに
より、追加のノードT10〜T12が生じる。4番目に
適切なワードシーケンスは、本例では、2番目に適切な
ワードシーケンスのノードT7で終了し、ワードK’
3,K’6,K’9,K’10,K’13及びK’15
を含む。
【0016】概して、エッジK1,K2及びK3に関連
する沈黙は、ワードのように思われる。その理由は、こ
の方法を実現するに当たり、沈黙も、できるだけ簡単に
処理されるために形式上ワードとして取り扱われるから
である。
【0017】例えば、ワードグラフのエッジK10に対
応するワードK’10も、最適及び2番目に適切なワー
ドシーケンスで発生する。これら二つのワードシーケン
スがエンドノードT0のみで出くわすので、2番目に適
切なワードシーケンスから、ラストワードとしてワード
K’12を含むシーケンスが除外され、すなわちエッジ
K12を含む全てのサブシーケンスは、ワードグラフで
ブロックされる。
【0018】図4は、上記方法を実施する装置の一例を
線図的に示す。ここで、マイクロホン10によって拾わ
れる音声は、装置12で繰り返しサンプリングされ、サ
ンプリングされた音声信号を特徴づける検査信号は、サ
ンプルから取り出される。これら検査信号は認識装置1
4に供給され、その検査信号が、メモリ16からの複数
の基準信号と比較される。これら基準信号は、複数のシ
ーケンスを形成し、その各々を、語彙のワードと関連さ
せる。したがって、認識装置14は、音声信号の音響認
識を行い、認識する間、複数の仮定が形成され、十分な
可能性で音声信号に一致して形成したワードが出力され
る。このような可能性の目安は、ワードに関連するスコ
アの出力に含まれる。
【0019】ワード出力は、ノード及びエッジとともに
ワードグラフを形成する。エッジはワードに対応し、ノ
ードを、少なくとも一つのワードエンド及び少なくとも
一つの別のワードの開始の瞬時に関連させる。種々の経
路は、このワードグラフによって実現可能となり、ワー
ドの和のスコアができるだけ小さい経路を検索し、全て
の実現可能な経路のうちの最小の和のスコアを有する経
路から開始する。
【0020】この経路上で決定されたワードチェーンに
対して、それが音声信号に一致する音響的な可能性が最
も高いが、例えば不明瞭な発音のために、実際には僅か
に高いスコアを有する他のワードチェーンが、音声信号
を発する人が言いたいことを表すおそれがある。グラフ
中のワードシーケンスを決定する間に言語モデルを用い
ることにより、エラーのおそれを減少させることができ
るが、完全に除去することはできない。このようなエラ
ーは、例えばデータベースに対してアクセスを行う必要
がある質問をユーザが話す情報システムの場合、非常に
煩わしい。あり得る最適スコアを有するワードシーケン
スは不一致すなわち矛盾を含む。すなわち、そのワード
シーケンスは、対応するデータがデータベースに存在し
ないために実行することができないデータベースアクセ
スとなる。したがって、所定の要件を満足するワードシ
ーケンスを見つけるまで、順次やや劣るスコアを有する
複数のワードシーケンスを、形成されたワードグラフか
ら適切に取り出す。
【0021】この動作を、ワードグラフを受け取る処理
装置20で実行する。この装置は、先ず、ワードが最適
な和のスコアを有するグラフの経路を決定する。このワ
ードチェーンは、メモリ24に記憶される。次のやや劣
るスコアを有する次のワードチェーンを決定するに当た
り、ワードグラフの始めから開始するワードグラフを介
したワードのサブシーケンスを考慮し、それは、最適な
全体に亘るスコアを有するワードシーケンスが見つけら
れる経路と共通の少なくとも一つのサブノードを有す
る。このために、好適には、この経路のノードから開始
し、そこまで延在するサブシーケンスを後方に追跡す
る。その結果、全ワードグラフを別のワードシーケンス
の各々に対して検索する必要がある場合、別のワードシ
ーケンスの各々を取り出すには演算動作がほとんど要求
されない。
【0022】メモリ24にまだ存在しない別のワードシ
ーケンスの各々のサブシーケンスは、メモリ24に記憶
される。したがって、共通のワードグラフの少なくとも
一つの終了点を有するワードシーケンスのツリー構造が
メモリ24に形成される。サブシーケンスを、メモリ2
4に存在するノードから後方に追跡すべき場合、メモリ
24に既に存在するサブシーケンスは当然除去される。
このために、各ノードの開始から、このノードの方向で
メモリ24に既に存在する各ワードを除去するだけで十
分である。
【0023】次のやや劣るスコアを有するワードシーケ
ンスを決定するに当たり、最適スコアを有するシーケン
スを決定する場合のように、一般に、処理装置20に結
合したメモリ26に記憶された言語モデルを考慮する。
【0024】例えば、データベース22に対するデータ
ベースの問い合わせの情報を、このように決定したワー
ドシーケンスから発生させる。種々のワードシーケンス
を、最初に決定し、データベースの問い合わせに対して
連続的に用いることができる。すなわち、最適なワード
シーケンスのみを決定し、それを、矛盾がなく適切な情
報アイテムをデータベースの問い合わせに対して形成す
ることができるか否か検査する。できない場合は、やや
劣るスコアを有する次のワードシーケンスを形成する場
合のみである。
【0025】最後に、処理装置20は、データベースの
問い合わせに起因する答えを出力装置28に供給するこ
とができる。しかしながら、関連するシステムが情報シ
ステムではなく、例えば音声信号を書込み文章に変換す
る口述システムの場合、処理装置20によって決定され
るワードシーケンスは、出力装置28に直接供給され
る。この装置を、例えば表示スクリーンとし、ユーザは
この際、表示スクリーン上に生じた検査が音声信号に一
致するか否か検査し、そうでない場合、信号が、例えば
キーボードを介して処理装置20に供給されて、次のワ
ードシーケンスを決定し又は出力する。
【図面の簡単な説明】
【図1】ワードグラフの一例の一部を示す。
【図2】最適ワードシーケンスの決定後のツリーを示
す。
【図3】四つのワードシーケンスの決定後のツリーの拡
張を示す。
【図4】本発明による装置のブロック図を示す。
【符号の説明】
10 マイクロホン 12 装置 14 認識装置 16,24,26 メモリ 20 処理装置 22 データベース 28 出力装置 K1,K2,...,K17,K’1,K’2,...
K’17 エッジ N1,N2,...,N10,K’1,T0,T
1,...,T15 ノード t1,...t8 瞬時
フロントページの続き (72)発明者 フランク シーデ ドイツ連邦共和国 52066 アーヘン ヘ イスベルクシュトラーセ 8 (72)発明者 ヴォルカー スタインビス ドイツ連邦共和国 52070 アーヘン ス トリーヴェルヴェーク 75

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声信号から予め決定された語彙のワー
    ドの少なくとも一つのシーケンスを取り出すシーケンス
    取出し方法であって、 a) 前記音声信号から検査信号を取り出すステップ
    と、 b) 前記検査信号を基準信号と比較し、相違するワー
    ドを、前記基準信号の相違するシーケンスに関連させる
    ステップと、 c) 前記比較により、スコアを有するワードを決定す
    るとともに、ワード境界としてのノード及びエッジとし
    てのワードを含むワードグラフを形成するステップと、 d) 前記ワードのシーケンスとしてスコアの最小和を
    有するワードグラフを通過する第1経路に前記ワードを
    出力するステップとを含むシーケンス取出し方法におい
    て、 e) 次に大きいスコアの和を有する他のワードのシー
    ケンスを出力するために、ワード境界のツリーノード及
    び一つのエンドノードを有するツリーに基づいて、前記
    第1経路のワードのシーケンスを個別に記憶するステッ
    プと、 f) 各ツリーノード及び対応するグラフノードに延在
    するワードグラフの経路セグメントに対して、ワードグ
    ラフの開始から配置したワードのスコアの全体に亘る和
    を形成し、このようにしてそれまで決定したワードのシ
    ーケンスを有する経路セグメントを、それから除去する
    ステップと、 g) 前記グラフノードがツリーノードに対応するとと
    もにグラフノードから前記ツリーの最終ノードまでの間
    に、ワードグラフの経路セグメント上のワードのスコア
    の和が最小であるワードのシーケンスを出力し、既に記
    憶されているツリーを、この経路セグメントのワードの
    シーケンスによって拡張するステップと、 h) 上記ステップf)及びg)を繰り返し実行するス
    テップとを更に含むことを特徴とするシーケンス取出し
    方法。
  2. 【請求項2】 前記スコアの各和に対して、n≧1の所
    定のワードのシーケンスの可能性を表す追加の言語モデ
    ル値を、追加的に考慮することを特徴とする請求項1記
    載のシーケンス取出し方法。
  3. 【請求項3】 各ツリーノードに対して、前記グラフモ
    ードがこのツリーモードに対応するとともにこのツリー
    ノードから前記ツリーの最終ノードまで、前記ワードグ
    ラフの最適経路セグメントのワードのスコアの和を記憶
    し、全てのノードの最小和に関連するワードのシーケン
    スを別のシーケンスとして出力し、前記ワードの出力を
    有する経路セグメントに関連して、スコアの関連の和を
    有するツリーノードをマークし、次の別のシーケンスの
    決定に対して、前記スコアの和を、マークしたツリーノ
    ードに対してのみ決定し及び記憶することを特徴とする
    請求項1又は2記載のシーケンス取出し方法。
  4. 【請求項4】 予め決定した語彙のワードの少なくとも
    一つのシーケンスを音声信号から取り出すシーケンス取
    出し装置であって、ワードグラフを取り出すとともにス
    コアの最小和を有する少なくとも一つのワードシーケン
    スを出力する認識装置と、ツリーの形態の各出力ワード
    シーケンスを記憶するために処理装置に結合したメモリ
    とを含み、新たな出力ワードの各々から、既に記憶した
    ワードシーケンスと異なる部分のみを記憶し、前記処理
    装置が、第1のワードシーケンスの出力の後に、前記ワ
    ードグラフから、既に記憶したワードシーケンスと共通
    の少なくとも一つのワード境界を有するワードシーケン
    スのみを取り出し、前記ワードグラフの始めから開始す
    るワードのサブシーケンスを除去し、そのサブシーケン
    スの少なくとも最後のワードが、前記メモリに記憶した
    サブシーケンスに対応するようにしたことを特徴とする
    シーケンス取出し装置。
JP9259494A 1996-09-27 1997-09-25 シーケンス取出し方法及びその装置 Ceased JPH10105189A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19639844:4 1996-09-27
DE19639844A DE19639844A1 (de) 1996-09-27 1996-09-27 Verfahren zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal

Publications (1)

Publication Number Publication Date
JPH10105189A true JPH10105189A (ja) 1998-04-24

Family

ID=7807136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9259494A Ceased JPH10105189A (ja) 1996-09-27 1997-09-25 シーケンス取出し方法及びその装置

Country Status (4)

Country Link
US (1) US5987409A (ja)
EP (1) EP0836175B1 (ja)
JP (1) JPH10105189A (ja)
DE (2) DE19639844A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009139230A1 (ja) * 2008-05-16 2009-11-19 日本電気株式会社 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1060471A1 (en) * 1999-01-05 2000-12-20 Koninklijke Philips Electronics N.V. Speech recognition device including a sub-word memory
JP2002539482A (ja) 1999-03-08 2002-11-19 シーメンス アクチエンゲゼルシヤフト 見本音声を決定するための方法及び装置
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
US6856956B2 (en) * 2000-07-20 2005-02-15 Microsoft Corporation Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
TW495736B (en) 2001-02-21 2002-07-21 Ind Tech Res Inst Method for generating candidate strings in speech recognition
KR20030046434A (ko) * 2001-07-06 2003-06-12 코닌클리케 필립스 일렉트로닉스 엔.브이. 스피치 인식의 빠른 검색
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
EP1363271A1 (de) 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE602004020738D1 (de) * 2003-02-21 2009-06-04 Voice Signal Technologies Inc Verfahren zum produzieren abwechselnder äusserungs bezüglich nahen konkurrenten
US8577681B2 (en) * 2003-09-11 2013-11-05 Nuance Communications, Inc. Pronunciation discovery for spoken words
US7280963B1 (en) * 2003-09-12 2007-10-09 Nuance Communications, Inc. Method for learning linguistically valid word pronunciations from acoustic data
JP4652737B2 (ja) * 2004-07-14 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
US9060683B2 (en) 2006-05-12 2015-06-23 Bao Tran Mobile wireless appliance
US20110182866A1 (en) * 2008-05-15 2011-07-28 University Of Miami Isolation of stem cell precursors and expansion in non-adherent conditions
US11157564B2 (en) 2018-03-02 2021-10-26 Thoughtspot, Inc. Natural language question answering systems
US11442932B2 (en) * 2019-07-16 2022-09-13 Thoughtspot, Inc. Mapping natural language to queries using a query grammar

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
DE4306508A1 (de) * 1993-03-03 1994-09-08 Philips Patentverwaltung Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal
US5623609A (en) * 1993-06-14 1997-04-22 Hal Trust, L.L.C. Computer system and computer-implemented process for phonology-based automatic speech recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009139230A1 (ja) * 2008-05-16 2009-11-19 日本電気株式会社 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
JP5447373B2 (ja) * 2008-05-16 2014-03-19 日本電気株式会社 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
US8682668B2 (en) 2008-05-16 2014-03-25 Nec Corporation Language model score look-ahead value imparting device, language model score look-ahead value imparting method, and program storage medium

Also Published As

Publication number Publication date
DE59709257D1 (de) 2003-03-13
EP0836175B1 (de) 2003-02-05
EP0836175A3 (de) 1998-12-09
DE19639844A1 (de) 1998-04-02
US5987409A (en) 1999-11-16
EP0836175A2 (de) 1998-04-15

Similar Documents

Publication Publication Date Title
JPH10105189A (ja) シーケンス取出し方法及びその装置
US10152971B2 (en) System and method for advanced turn-taking for interactive spoken dialog systems
JP4322815B2 (ja) 音声認識システム及び方法
US8694317B2 (en) Methods and apparatus relating to searching of spoken audio data
US9361879B2 (en) Word spotting false alarm phrases
JP3860613B2 (ja) 音声信号中の発声単語列の認識方法及び装置
JP3834169B2 (ja) 連続音声認識装置および記録媒体
JP2000075895A (ja) 連続音声認識用n最良検索方法
US20090012792A1 (en) Speech recognition system
JP2002215187A (ja) 音声認識方法及びその装置
JP5271299B2 (ja) 音声認識装置、音声認識システム、及び音声認識プログラム
US20170270923A1 (en) Voice processing device and voice processing method
US8682668B2 (en) Language model score look-ahead value imparting device, language model score look-ahead value imparting method, and program storage medium
US10553205B2 (en) Speech recognition device, speech recognition method, and computer program product
US20110119052A1 (en) Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method
JP4220151B2 (ja) 音声対話装置
KR100704508B1 (ko) N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법
JPH08328580A (ja) 単語列認識方法及び装置
JP2000056795A (ja) 音声認識装置
JP2006243673A (ja) データ検索装置および方法
KR20110119478A (ko) 음성 인식 장치 및 음성 인식 방법
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JPH09281989A (ja) 音声認識装置および方法
JP3818154B2 (ja) 音声認識方法
JPH08202384A (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060523

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060612

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060615

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060814

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080228

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20080619