JP4867654B2

JP4867654B2 - 音声認識装置、および音声認識方法

Info

Publication number: JP4867654B2
Application number: JP2006354945A
Authority: JP
Inventors: 大介斎藤; 景子桂川; 実冨樫; 健大野; 英治外塚
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2006-12-28
Filing date: 2006-12-28
Publication date: 2012-02-01
Anticipated expiration: 2026-12-28
Also published as: US20080162137A1; JP2008164975A; US7949524B2

Description

本発明は、音声を認識するための音声認識装置、および音声認識方法に関する。

次のような音声認識装置が知られている。この音声認識装置は、認識対象語が複数の語を階層的に繋ぎ合わせたものである場合に、上位階層テンプレートを用いて上位階層の語を認識した後に、上位階層の語に対応する下位階層テンプレートを用いて下位階層の語を認識することで、入力された音声を認識するものである（例えば、特許文献１）。

特開２００１−３０６０８８号公報

しかしながら、従来の音声認識装置は、上位階層の語を認識した後に、上位階層の語に対応する下位階層テンプレートを用いて下位階層の語を認識するため、上位階層の語を認識する際に誤認識が発生した場合には、下位階層の語も正しく認識できないという問題が生じていた。

本発明は、複数の認識対象語彙に含まれるキーワードの集合を待ち受け単語として、入力された発話音声に含まれるキーワードを認識し、認識結果のキーワードを使用者に提示し、提示されたキーワードの選択による訂正に基づいて、認識結果のキーワードを訂正し、訂正されたキーワード、及び認識されたキーワードのうち訂正されていないキーワードの集合を待ち受け単語とする待ち受け単語辞書を構築し、待ち受け単語辞書を用いて、入力された発話音声を認識することを特徴とする。

本発明によれば、キーワードの認識結果を使用者に提示し、提示した内容の訂正を受け付けて、キーワードの認識結果を訂正するようにした。そして、その訂正結果を加味して、発話音声を認識するための待ち受け単語辞書を構築して発話音声を認識するようにした。これによって、キーワードの認識結果に誤りがあった場合でも、それを訂正して発話音声を正しく認識することができる。

―第１の実施の形態―
図１は、第１の実施の形態における音声認識装置の一実施の形態の構成を模式的に示した図である。音声認識装置１００は、マイクロフォン２０１と、ＡＤ変換部２０２と、演算装置２０３と、記憶装置２０４と、ＤＡ変換部２０５と、スピーカ２０６とで構成される。

図２は、第１の実施の形態における音声認識装置１００の一実施の形態の構成を示すブロック図である。音声認識装置１００は、音声入力部１０１と、前段認識部１０２と、前段辞書記憶部１０３と、辞書切替部１０４と、前段認識結果提示部１０５と、訂正受理部１０６と、訂正用語彙記憶部１０７と、後段認識部１０８と、後段辞書記憶部１０９とを備えている。以下、図２に示す各要素について、図１との対応を示しながら説明する。

音声入力部１０１は、使用者の発話音声Ａ、および訂正音声Ｂを取得する。この音声入力部１０１は、図１に示したマイクロフォン２０１と、ＡＤ変換部２０２とで構成され、発話音声Ａ、および訂正音声Ｂのアナログ音声信号をデジタル音声信号に変換して、前段認識部１０２へ出力する。

前段認識部１０２は、音声入力部１０１から入力される発話音声Ａの一部、あるいは全てを対象として、公知のキーワードスポット認識を実行して、発話音声Ａに含まれるキーワード候補を認識する。この前段認識部１０２は、図１に示した演算装置２０３によって実現される。前段辞書記憶部１０３は、前段認識部１０２によるキーワードスポット認識で使用されるキーワードスポット辞書（前段辞書）を記憶した記憶媒体であり、記憶装置２０４によって実現される。前段認識部１０２は、前段辞書記憶部１０３からキーワードスポット辞書を読み込んで、キーワードスポット認識を実行する。以下、キーワードスポット辞書を用いたキーワードスポット認識処理の具体例について、図３を用いて説明する。

図３（ａ）は、発話者が「東京タワー」と発話した場合のキーワードスポッティングと単語認識から構成される多段認識処理の具体例を示した図である。すなわち、前段認識部１０２による前段認識処理と、後述する後段認識部１０８による後段認識処理とを実行して入力された発話音声を認識する場合の具体例を示している。

前段認識部１０２は、前段辞書記憶部１０３からキーワードを認識語彙としたキーワードスポット辞書を読み込んで、発話音声「東京タワー」に含まれるキーワード「トウキョウ」を認識する。なお、キーワードスポット辞書は、図３（ｂ）に示すように、Ｇａｒｂａｇｅ＋キーワード＋Ｇａｒｂａｇｅという接続構成となっており、キーワードを語頭、語中、語尾のいずれかに含む語彙からキーワードのみを認識することが可能である。ここで、Ｇａｒｂａｇｅは、キーワードに含まれない語彙を吸収する為のモデルであり、一般的には、「えーと」等の不要語や「東京都の○○ホテル」における「の」のような間投詞を適切に吸収する為に用いられることが多い。

例えば、語彙「東京タワー」が入力された場合には、前段認識部１０２は、図３（ｂ）に示すキーワードスポット辞書を用いて前段処理を実行し、「トウキョウ」をキーワード候補（認識キーワード候補）として選択する。前段認識処理においては、「タワー」の部分はＧａｒｂａｇｅで吸収される。そして、後述する後段認識部１０８による後段認識処理で、前段認識部１０２が認識した認識キーワード候補を含む語彙、例えば「東京タワー」や「○○東京」等を集約した認識辞書を後述する後段辞書記憶部１０９から読み込んで、再度発話音声を認識する。これによって、最終的に発話された語彙「東京タワー」が認識される。

また、本方式におけるキーワードの選定基準としては、所定以上の認識語が含む共通音素とすることが考えられる。例えば「とうきょう」、「よこはま」といった地名から構成される共通音素や、「ホテル」、「インター」等施設の種別から構成される共通音素をキーワードとする。あるいは、単純に文字列としての共通音素、例えば、「文化センター」と「ショッピングセンター」に共通する「センター」をキーワードとしてもよく、さらには音素列としての共通部分、例えば「ｙｏｋｏｈａｍａｉｉＮ(横浜医院)」や「ａｔｓｕｇｉｉＮｔａ^〜(厚木インター)」に共通する「ｉｉＮ（イイン）」をキーワードとしてもよい。

辞書切替部１０４は、前段認識部１０２による前段認識処理にて得られた認識キーワード候補に基づいて、後述する後段認識部１０８による後段認識処理時に使用する待ち受け単語辞書（後段辞書）を切替える。なお、辞書切替部１０４は、基本的には前段認識処理で得られた認識キーワード候補に基づいて辞書切替を行うが、後述するように、訂正受理部１０６で訂正音声Ｂが受理された場合には、該訂正内容を反映した辞書切替を行う。辞書切替部１０４は、演算装置２０３によって実現される。

前段認識結果提示部１０５は、前段認識部１０２によって認識された前段認識結果（前段認識結果候補）、すなわち認識キーワード候補を使用者に対して音声で出力して提示する。また、後述する訂正受理部１０６で前段認識結果の訂正を受理した場合には、訂正後の前段認識結果の候補を提示する。この前段認識結果提示部１０５は、ＤＡ変換部２０５とスピーカ２０６とを組み合わせることで実現される。

訂正受理部１０６は、使用者の訂正音声Ｂを認識して訂正情報を生成し、生成した訂正情報を辞書切替部１０４、および前段認識結果提示部１０５へ出力する。訂正音声Ｂとは、前段認識結果提示部１０５によって、発話音声Ａの前段認識結果候補が出力されたときに、その出力内容に基づいて使用者が認識結果に誤りがあると判断した場合に、再度入力される訂正発話の発話音声をいう。なお、訂正受理部１０６は、後述するように、訂正用語彙記憶部１０７に記憶された語彙（訂正語彙）と前段認識結果候補とを組み合わせて、訂正音声Ｂを認識するための訂正用認識辞書を動的に生成し、当該訂正用認識辞書を用いて訂正音声Ｂを認識する。この訂正受理部１０６は、演算装置２０３によって実現される。

訂正用語彙記憶部１０７は、訂正受理部１０６で訂正音声Ｂを認識するための訂正用認識辞書を生成するための語彙を記憶している。この訂正用語彙記憶部１０７は、記憶装置２０４により実現される。

後段認識部１０８は、辞書切替部１０４による辞書切替結果に基づいて、対応する後段辞書を後段辞書記憶部１０９から読み込む。そして、読み込んだ後段辞書を用いて、発話音声Ａに対して再認識処理を施す。後段認識部１０８は、演算装置２０３によって実現される。

後段辞書記憶部１０９は、後段認識部１０８が初期発話Ａを認識するために使用する認識対象語彙を記憶している。すなわち、辞書切替部１０４によって切替対象となる後段辞書群を記憶している。この後段辞書記憶部１０９は、記憶装置２０４により実現される。なお、本実施の形態においては、後段辞書記憶部１０９に、あらかじめ全てのキーワードに対応する辞書を静的に保持し、後段認識部１０８は、辞書切替部１０４による切替結果に応じて対応する後段辞書を読み込む形態としても良いし、キーワードが取得される都度、新たに当該キーワードを含む後段辞書を動的に構築（構成）する形態としてもよい。

第１の実施の形態における音声認識装置１００の具体的な処理の流れを図４および図５を用いて説明する。なお、図５は、図４に示すフローチャートに即して使用者の発話内容とシステムの応答内容の関係を具体的に示したものである。図５（ａ）〜（ｌ）はシステムと使用者のやり取り、およびシステムの内部処理状態を示しており、図５（ｍ）、（ｎ）、および（ｏ）は、それぞれ図５（ａ）、（ｅ）、および（ｊ）の段階でシステムが認識対象として展開している辞書の内容を示している。

ステップＳ１０１において、前段認識部１０２は、図５（ａ）に示すように、前段辞書記憶部１０３から前段辞書を読み込む。前段辞書としては、上述したように、例えば図５（ｍ）に示すようなキーワードスポット辞書が読み込まれる。その後、ステップＳ１０２へ進み、前段認識部１０２は、音声入力部１０１を介して入力される使用者の発話音声Ａを取得する。例えば、図５（ｂ）に示すように、使用者が発話した「パークハイアット東京」の音声データを発話音声Ａとして取得する。その後、ステップＳ１０３へ進む。

ステップＳ１０３では、前段認識部１０２は、キーワードスポット辞書を用いて前段認識処理を行って、ｎ個の認識キーワード、すなわち前段認識結果候補Ｘｉ（ｉ＝１〜ｎ）を取得する。例えば、図５（ｃ）に示すように、「パーク」、「ヨット」、「トウキョウ」、「トウキュウ」、「キョウト」、および「コウコウ」の６個の認識キーワード候補を、前段認識結果候補Ｘｉとして取得する。前段認識部１０２は、取得した前段認識結果候補Ｘｉを、辞書切替部１０４および前段認識結果提示部１０５へ出力して、ステップＳ１０４へ進む。

ステップＳ１０４では、前段認識結果提示部１０５は、前段認識部１０２で取得された前段認識結果候補Ｘｉから、使用者に対して提示するキーワード、すなわち提示対象認識結果Ｘｊ(ｊ＝対象となる認識結果のインデックス)を選択する。前段認識結果提示部１０５は、認識スコアや認識順位等の指標から前段認識結果候補Ｘｉに対し優先度を付け、優先度の高いキーワードを一つもしくは複数選択して提示対象認識結果Ｘｊとする。本実施の形態では、後述するように前段認識結果候補Ｘｉから各キーワードの認識スコアに基づいて優先度を付けて、提示対象認識結果Ｘｊを選択する。

なお、提示対象認識結果Ｘｊとして複数のキーワードを選択する場合には、使用者に対して多くのキーワードを提示すると、使用者の混乱を招く恐れがあるため、例えば優先度の高いものから２、３個程度に留めることが望ましい。例えば、前段認識結果提示部１０５は、認前段識結果Ｘｉの中から、図５（ｄ）に示すように、１．「パーク」、２．「ヨット」３．「トウキョウ」の３つのキーワードを提示対象認識結果Ｘｊとして選択する。前段認識結果提示部１０５は、選択した提示対象認識結果Ｘｊを訂正受理部１０６へ出力する。その後、ステップＳ１０５へ進む。

ステップＳ１０５では、訂正受理部１０６は、後述するように使用者によって発話される訂正音声Ｂを待ち受けるための辞書として、入力された提示対象認識結果Ｘｊと、訂正用語彙記憶部１０７に記憶された訂正語彙とを組み合わせた訂正用認識辞書を構築し、これを読み込む（図５（ｅ））。使用者が発話する可能性が高い最も単純な訂正音声Ｂとしては、提示対象認識結果Ｘｊから誤認識となったキーワードを除外するための「取り消し」が考えられる。

例えば、訂正音声Ｂとして「ヨットを取り消し」などが入力されることが考えられる。したがって、訂正受理部１０６は、例えば、図５（ｎ）に示すように、提示対象認識結果Ｘｊとして選択された「パーク」、「ヨット」、「トウキョウ」、訂正語彙「取り消し」、およびＧａｒｂａｇｅを組み合わせた訂正用認識辞書を構築する。これによって、訂正受理部１０６は、訂正音声Ｂとして「ヨットを取り消し」が入力された場合に、この訂正用辞書を用いて当該訂正音声Ｂを認識することができる。

また、これとは逆に、使用者が、提示対象認識結果Ｘｊから確実なキーワードを選択するために、訂正音声Ｂとして「確定」を発話する可能性もある。よって、訂正用認識辞書を構成する訂正語彙に「確定」も含めておけば、「トウキョウを確定」といった訂正音声Ｂが入力された場合に、これを受理することができる。あるいは、システムの側が「取り消し」のみを訂正音声Ｂとして受け付ける構成とした場合に、例えば「取り消し項目があれば発話してください」のように提示するならば、訂正用認識辞書としては、単純に提示対象認識結果Ｘｊを受理するものとしても良い。

なお、音声のみで訂正発話を受け付ける場合には、訂正発話にも誤認識のリスクが伴う。このため、上述した「取り消し」や「確定」のような単純な語彙のみを訂正語彙として受理できるように訂正用認識辞書を構築することが望ましい。より高度な訂正、例えば語頭や語尾といった出現位置の訂正や、複数キーワードの論理和、論理積といったキーワードの含有条件等の訂正に関しては、不図示の表示装置（ディスプレイ）等との併用を前提とした場合に有効と考えられる。表示装置の併用を用いた高度な訂正については第３の実施の形態で後述する。

その後、ステップＳ１０６へ進み、前段認識結果提示部１０５は、前段認識結果候補Ｘｉのうち、ステップＳ１０４で選択した提示対象認識結果Ｘｊを用いて使用者への提示を行う。提示内容としては、例えば、図５（ｆ）に示す「パーク、ヨット、トウキョウの何れかを含む施設からお調べします」のように、提示対象認識結果Ｘｊを単純に列挙したシステム発話を出力して、使用者に提示対象認識結果Ｘｊを提示する。

あるいは、提示対象認識結果Ｘｊを列挙した後、「〜でよろしいですか？」と使用者の返答を求めるようにしてもよく、上述したように「取り消し」や「確定」のみを訂正音声Ｂとして受け付けることを前提とし、提示対象認識結果Ｘｊを列挙した後、「訂正または確定項目があれば発話してください」のようなシステム発話を出力するようにしてもよい。この他、「○○ですか、××ですか？」のように、複数の提示対象認識結果Ｘｊから単一のＸｊを選択させるようなシステム発話を出力するようにしてもよい。

その後、ステップＳ１０７へ進み、訂正受理部１０６は、訂正音声Ｂが入力されたか、すなわち訂正音声Ｂを取得したか否かを判断する。訂正音声Ｂが入力されたと判断した場合には、ステップＳ１０８へ進む。ステップＳ１０８では、訂正受理部１０６は、上述した訂正用認識辞書を用いて訂正音声Ｂに対する音声認識処理を行う。例えば、図５（ｇ）に示すように、「ヨットを取り消し」という訂正音声Ｂが入力された場合には、図５（ｎ）に示す訂正用認識辞書を用いて、「ヨット−(Ｇａｒｂａｇｅ)−取り消し」という認識結果を得る。その後、ステップＳ１０９へ進む。

ステップＳ１０９では、訂正受理部１０６は、訂正音声Ｂの認識結果に基づいて訂正情報を生成する。例えば、「ヨット−(Ｇａｒｂａｇｅ)−取り消し」を認識した場合には、訂正情報として、Ｘｊ´「キーワード＝ヨット、訂正内容＝取り消し」を生成して取得する。そして、生成した訂正情報Ｘｊ´を、辞書切替部１０４および前段認識結果提示部１０５へ出力する。その後、ステップＳ１０４へ戻り、前段認識結果提示部１０５は、入力された訂正情報Ｘｊ´に基づいて、提示対象認識結果Ｘｊを修正する。例えば図５（ｈ）に示すように、提示対象認識結果Ｘｊから、「２．ヨット」を取り消して新たな提示対象認識結果Ｘｊとする。

これに対して、訂正音声Ｂが入力されないと判断した場合には、訂正受理部１０６は、提示対象認識結果Ｘｊを辞書切替部１０４へ出力して、ステップＳ１１０へ進む。なお、ステップＳ１０６で、前段認識結果提示部１０５が「パーク、ヨット、トウキョウの何れかを含む施設から検索してよろしいですか？」等の質問形式のシステム発話を出力して提示対象認識結果Ｘｊを提示した場合には、肯定発話、例えば「はい」が認識された場合に、ステップＳ１１０へ進むようにしてもよい。

ステップＳ１１０では、辞書切替部１０４は、入力された提示対象認識結果Ｘｊに基づいて、後段辞書を展開する。例えば、図５（ｊ）に示すように、訂正情報Ｘｊ´「キーワード＝キョウト、訂正内容＝取り消し」を反映させた提示対象認識結果Ｘｊ、すなわちキーワード「パーク」および「トウキョウ」を含む語彙で構成される後段辞書を構築する。具体的には、辞書切替部１０４は、図７（ｏ）に示すように、後段認識処理で使用する後段辞書を、キーワード「パーク」を含む語彙の集合であるパーク後段辞書と、キーワード「トウキョウ」を含む語彙の集合であるトウキョウ後段辞書とを後段辞書記憶部１０９から読み込むことで、後段認識辞書を切り替える。

そして、後段認識部１０８は、このパーク後段辞書とトウキョウ後段辞書とを読み込んで、発話音声Ａに対して後段認識を行う。すなわち、発話音声Ａをパーク後段辞書を用いて認識した結果と、トウキョウ後段辞書を用いて認識した結果とのそれぞれの認識結果を得る。その後、ステップＳ１１１へ進み、後段認識部１０８は、各後段辞書から得られた認識結果を整理し、最終的な認識結果である理解結果を生成する。例えば、図５（ｋ）に示すように、理解結果「パークハイアット東京」を生成する。その後、処理を終了する。

なお、音声認識装置１００をナビゲーション装置に適用した場合には、図５（ｌ）に示すように、ナビゲーション装置側で、後段認識部１０８によって生成された理解結果に基づいて、使用者が発話した目的地が特定され、目的地設定の音声提示、および目的地へのルート計算が行なわれる。

以下、上述のステップＳ１０６における提示対象認識結果Ｘｊを選択するための優先度付与方法と、該優先度に基づくＸｊの提示方法について、１．認識スコアを利用する方法、２．誤認識しやすい語彙の組み合わせに着目した方法、３．後段辞書の絞込み効率性に着目した方法、４．前段認識候補の競合性の解消を目的とした方法の４つの例を用いて具体的に説明する。

１．認識スコアを利用した優先度付与方法（第１の方法）
第1の方法は、認識スコアが所定範囲内の語彙に対し、高い優先度を与えるものである。ここで言う認識スコアとは、音声認識システムが認識候補として抽出した語彙（前段認識結果候補Ｘｉ）に対する確信度合いを示す指標である。認識スコアが高い候補ほど、訂正の可能性が低い語彙ということになる。認識スコアとしては、例えば信頼度が利用できる。信頼度の算出方法としては、一般的な音声認識システムの出力する尤度(音響尤度や言語尤度)を用いるものや、競合単語(同時に出力された候補語彙)間の尤度差や尤度比に着目した正規化尤度、あるいは単語事後確率を用いるもの等がある。これらの信頼度算出方法は公知の方法のため、説明を省略する。

この方法を用いた場合、前段認識結果提示部１０５は、信頼度に基づく認識スコアが所定の範囲内に含まれる前段認識結果候補Ｘｉについて高い優先度を設定して提示対象認識結果Ｘｊとして選択する。所定の範囲とは、例えば認識率が４０％以上９５％以下となる場合の認識スコアとすればよい。認識率と認識スコアの対応は、音声コーパス等を用いて統計的に決定することができる。また、上限値及び下限値は、システムが適用される環境やシステム自体の素性に合わせて調整されることが望ましい。

認識スコアの上限及び下限で制限した場合には、たとえば上限(認識率９５％)を上回る認識スコアの前段認識結果候補Ｘｉが検出された場合には、その前段認識結果候補Ｘｉは、訂正の可能性が極めて低いと予想して、使用者への提示を省略して、自動的に辞書切替の対象語彙とするようにしてもよい。一方、下限(認識率４０％)を下回る認識スコアの前段認識結果候補Ｘｉが検出された場合には、その前段認識結果候補Ｘｉは誤認識である可能性が高いと予想し、使用者への提示及び訂正発話の受理を省略して、該語彙を自動的に辞書切替の対象語彙から除外するようにしてもよい。このようにした場合には、認識率が４０％から９５％の範囲内となる認識スコアの前段認識結果候補Ｘｉが検出された場合にのみ、訂正の可能性があるとして提示対象認識結果Ｘｊに選択され、訂正発話を促すための提示が行われる。

なお、上述の例では、上限値、下限値の２つの閾値を用いる例を示しているが、片方のみを閾値として設定し、該閾値を上回る、もしくは下回るものを提示対象認識結果Ｘｊとしてもよい。前段認識結果提示部１０５は、当該第１の方法で算出した優先度が高い前段認識結果候補Ｘｉを提示対象認識結果Ｘｊとして選択した後、提示対象認識結果Ｘｊを用いて訂正を受理するための情報提示を行う。

２．誤認識しやすい語彙の組み合わせに着目した方法（第２の方法）
第２の方法は、誤認識され易い語彙の組み合わせに着目し、誤認識され易い語彙に該当するキーワードが前段認識結果候補Ｘｉに含まれる場合には、そのキーワードの優先度を高く設定し、設定した優先度に基づいて提示対象認識結果Ｘｊを決定するものである。誤認識され易い語彙の組み合わせとは、音響的な特徴が類似する語彙を指す。例えば、音響モデルに登録された全語彙の音素列(サブワード列)に対する出力確率分布について考慮し、分布間の距離を語彙間の類似度として利用することが出来る。該類似度は、音素間距離とも呼ばれる。

この時、分布間の距離としては、公知のバタチャリヤ距離やＫＬ距離等を用いることができる。そして、前段辞書に登録された全ての語彙について、この音素間距離から、音響的に類似する語彙の組み合わせに基づきクラスタリングを行い、該語彙の組み合わせをテーブルとして保持しておく。テーブルの記憶例を図６に示す。なお、複数のキーワードが連接して別のキーワードと音響的に類似するパターンもあるため、これについてもクラスタリングを行い該テーブルにて網羅することが望ましい。例えば、図６では、クラスタＮｏ．２の「語彙１」が「イイン(ｉｉｎ)」＋「タワー(ｔａｗａ−)」の組み合わせとして登録されている。

前段認識結果提示部１０５は、このクラスタリング結果を反映したテーブルを参照し、前段認識結果候補Ｘｉの中に該当する語彙（キーワード）が含まれている場合に、その前段認識結果候補Ｘｉの優先度を高く設定し、提示対象認識結果Ｘｊとする。これと共に、その提示対象認識結果Ｘｊが訂正を受けた場合に、類似する語彙を追加提示する。以上の手順により、誤認識されやすいキーワードが提示対象認識結果Ｘｊに含まれた場合で、かつ当該提示対象認識結果Ｘｊを取り消す訂正情報が得られた場合（例えば、「キーワード＝トウキョウ、訂正情報＝取り消し」が取得された場合等）に、追加提示として、「トウキョウをトウキュウに置き換えますか？」のような提示を行うことにより、使用者が誤認識を訂正し易い提示を行うことができる。

３．後段辞書の絞込み効率性に着目した方法（第３の方法）
第３の方法は、前段認識結果候補Ｘｉのうち、訂正情報が得られた場合に、後段認識の絞込みが効率よく行われる語彙に対して高い優先度を与えるものである。上述したように、本発明で用いる多段認識手法では、前段認識辞書に含まれる各語彙(キーワード)に、後段認識辞書に含まれる語彙（後段認識語彙）が関連付けられている。例えば、キーワード「トウキョウ」という前段認識辞書の語彙については、後段認識語彙「東京タワー」や「○○東京」等が登録された後段辞書が対応する。すなわち、各キーワードに対する後段認識辞書のデータサイズが既知であるため、訂正対象とする語彙の選択によって、ある程度後段認識の語彙サイズを制御することができる。

前段認識結果提示部１０５は、この点に着目して、提示対象認識結果Ｘｊを選択する。例えば、図５（ｃ）に示した例のように、前段認識結果候補Ｘｉ「１．パーク、２．ヨット、３．トウキョウ、４．トウキュウ、５．キョウト、６．コウコウ」の各キーワードが取得されたとする。ただし、簡単のため、この例では、上記６つのキーワードが同等の確信度で取得されているものとする。この時の各結果に対応する後段辞書のサイズの対応が、図７に示すようになっている場合に、提示対象認識結果Ｘｊの選択方法としては、例えば以下の（Ａ）および（Ｂ）の２通りがある。

（Ａ）訂正音声Ｂとして「取り消し」を受理する場合
「取り消し」を受理する場合には、取り消し対象となる語彙に関連する後段辞書のサイズが大きいほど認識の効率が高い。よって、前段認識結果提示部１０５は、後段辞書のサイズの大きな語彙に対して高い優先度を与える。例えば、上述の６つのキーワードが取得された場合には、前段認識結果提示部１０５は、優先度上位３位として、コウコウ(サイズ＝５６４５)、トウキョウ(サイズ＝２４５４)、キョウト(サイズ＝２０５２)を選択して、これらを提示対象認識結果Ｘｊとする。そして、使用者に対して「コウコウ、トウキョウ、キョウトのいずれかを含む施設からお調べします。取り消し項目があれば発話してください。」のように提示を行う。その結果、使用者からの訂正音声Ｂとして「コウコウを取り消し」を取得した場合には、後段認識対象から、コウコウに対応する辞書を除外できるため、後段認識の効率が向上する。

（Ｂ）訂正音声Ｂとして「確定」を受理する場合
「確定」を受理する場合には、取り消しとは逆に、確定対象となる語彙に関連する後段辞書のサイズが小さいほど認識の効率が高い。よって、前段認識結果提示部１０５は、後段辞書のサイズの小さな語彙に対して高い優先度を与える。例えば、上述の６つのキーワードが取得された場合には、前段認識結果提示部１０５は、優先度上位３位として、パーク(サイズ＝１３４１)、ヨット(サイズ＝１６４)、トウキュウ(サイズ＝２０４)を選択して提示対象認識結果Ｘｊとする。そして、使用者に対して「パーク、ヨット、トウキュウの何れかを含む施設からお調べします」のように提示を行う。その結果、使用者からの訂正音声Ｂとして「パークを確定」を取得した場合には、後段認識対象を「パーク」に対応する辞書に限定できるため、効率が向上する。

なお、訂正音声Ｂとして「取り消し」と「確定」の両方を受理する構成とした場合には、前段認識結果提示部１０５は、後段辞書のサイズの大きいもの、及び小さいものから各々１つを提示対象認識結果Ｘｊとして選択して提示するようにすればよい。

４．前段認識候補の競合性の解消を目的とした方法（第４の方法）
第４の方法は、前段認識候補の競合性に着目した提示方法である。上述したように、多段認識手法では、前段認識結果に基づき後段辞書を選択する。従って、対象となる後段辞書の全語彙を考えた場合、同時に出現する可能性が低い、または同時に出現する可能性が無いキーワードが複数考えられる。目的地の施設名称を認識語彙とした本実施の形態では、仮に施設の種別に関連の高いキーワード「ゴルフ」と「コウコウ」を双方含む施設が存在しないにもかかわらず、この２つが前段認識候補として検出された場合、少なくとも１つは誤認識である可能性が高い。同様に、地域に関連の高いキーワード「フクシマ」と「トクシマ」を双方含む施設が存在しない場合も同様である。

この同時出現可能性の有無については、事前に対象とする全語彙を解析することで知ることができる。なお、複数の競合キーワードが同時に出現する例外的な施設名称としては、「○○県庁前駅」(キーワード＝「ケンチョウ」＋「エキ」)や「神奈川銀行東京○○支店」（キーワード＝「カナガワ」＋「トウキョウ」、「東京都○○」(キーワード＝「トウキョウ」＋「キョウト」)等がある。

前段認識結果提示部１０５は、このような同時に出現する可能性が低い語彙「ゴルフ」、「コウコウ」が同時に検出された場合に、双方の優先度を高く設定して提示対象認識結果Ｘｊする。そして、使用者に対して、「ゴルフ、コウコウを含む施設からお探しします」や、「ゴルフ、コウコウ、どちらを含む施設でしょうか？」のような提示を行い、「確定」もしくは「取り消し」の訂正音声Ｂの入力を促す。

また、上記の例外的な施設による競合キーワード出現の場合でも、その意味的な競合性に着目して訂正音声Ｂの入力を促す方法も考えられる。すなわち「東京都○○」という発話に対し、「トウキョウ」、「キョウト」が検出された場合に、「トウキョウ、キョウトいずれを含む施設でしょうか？」のような音素の並びとしての提示ではなく、意味的な競合性を強調して、「東京、京都、どちらを含む施設でしょうか？」のような提示を行う。仮に「京都」を取り消された場合も、音素列の並び「キョウト」を含む後段語彙のうち、「京都」に対応するもののみを除外するようにして辞書切替を行う。例えば、東京都を含む施設は音素列「キョウト」を含むが、除外せずに認識対象に残す。

以上説明した第１〜第４の方法は、単独で用いても良いが、組み合わせて使うことでより効率的に訂正情報を得ることができる。そして、これらの各方法を用いることによって、前段認識結果に基づいて辞書の切り替えを行って、後段認識の対象語彙を効果的に絞り込むことができる。このため、再認識に必要な計算リソースが削減されるのに加え、前段認識結果に含まれる誤認識に起因した後段認識の誤認識を低減でき、認識性能を向上させることができる。

以上説明した第１の実施の形態によれば、以下のような作用効果を得ることができる。
（１）前段認識処理によって発話音声Ａに含まれるキーワード（前段認識結果候補Ｘｉ）を認識し、前段認識結果候補Ｘｉの中から選択した提示対象認識結果Ｘｊを使用者に提示するようにした。そして、提示対象認識結果Ｘｊの使用者からの訂正を受け付け、訂正結果を加味して構築した後段辞書を用いて発話音声を認識するようにした。これによって、キーワード認識の結果に誤りがある場合でも、それを訂正して発話音声を正しく認識することができる。

（２）音声入力によって使用者による提示対象認識結果Ｘｊの訂正を受け付けるようにした。これによって、使用者は容易に提示対象認識結果Ｘｊを訂正することができる。

（３）前段認識処理で認識された前段認識結果候補Ｘｉのうち、その認識スコアが所定の範囲内にあるキーワードを抽出して、提示対象認識結果Ｘｊとして選択するようにした。これによって、明らかに誤認識しているものや、明らかに誤認識ではないものを除いた提示対象認識結果Ｘｊを使用者に提示することができ、使用者が訂正対象を選択しやすくなる。

（４）前段認識処理で認識された前段認識結果候補Ｘｉのうち、音響的な特徴が類似するキーワードを抽出して、提示対象認識結果Ｘｊとして選択するようにした。これによって、システムが誤認識しやすい提示対象認識結果Ｘｊを使用者に提示することができ、使用者が訂正対象を選択しやすくなる。

（５）前段認識処理で認識された前段認識結果候補Ｘｉのうち、後段辞書のデータサイズを小さくできるキーワードを抽出して、提示対象認識結果Ｘｊとして選択するようにした。これによって、後段辞書のデータサイズを小さくして、後段認識時のシステム負荷を低下させることができる。

（６）前段認識処理で認識された前段認識結果候補Ｘｉのうち、認識対象語彙内に同時に出現する可能性の無い前記認識キーワードを優先して抽出して、提示対象認識結果Ｘｊとして選択するようにした。これによって、誤って認識されている可能性が高いキーワードを使用者に提示することができ、使用者が訂正対象を選択しやすくなる。

―第２の実施の形態―
上述した第１の実施の形態では、前段認識処理を行なって認識結果を提示し、使用者による前段認識結果の訂正を受理を完了した後、後段認識処理を行う例について説明した。これに対して、第２の実施の形態では、前段認識処理が完了した後、すぐに後段認識処理を開始し、後段認識処理を行っている最中、または後段認識結処理が完了した後に、使用者による前段認識結果の訂正を受理する場合について説明する。なお、図１および図３については、第１の実施の形態と同様のため説明を省略する。

図８は、第２の実施の形態における音声認識装置１００の一実施の形態の構成を示すブロック図である。なお、図８においては、第１の実施の形態で上述した図２と同じ構成要素には同じ符号を付加し、相違点を中心に説明する。前段認識結果提示部１０５は、選択した提示対象認識結果Ｘｊを辞書切替部１０４および訂正受理部１０６へ出力する。また、訂正受理部１０６は、訂正情報を生成し、生成した訂正情報を辞書切替部１０４、前段認識結果提示部１０５、および後段認識部１０８へ出力する。

第２の実施の形態における音声認識装置１００の具体的な処理の流れを図９および図１０を用いて説明する。図９のフローチャートでは、ステップＳ２０５〜ステップＳ２０７が前段認識結果に基づく後段認識処理であり、ステップＳ２０８〜ステップＳ２１３は訂正発話に基づく提示対象認識結果Ｘｊ及び後段認識結果の変更処理（訂正受理及び認識結果修正処理）である。双方の処理はそれぞれ独立してなされる点が本実施の形態の特徴である。また、図１０は、図９に示すフローチャートに即して使用者の発話内容とシステムの応答内容の関係を具体的に示したものである。図１０（ａ）〜（ｋ）はシステムと使用者のやり取り、および前段認識処理と訂正認識処理の流れを示しており、図１０（ｌ）〜（ｐ）は後段認識処理の流れを示している。

ステップＳ２０１では、前段認識部１０２は、図１０（ａ）に示すように、前段辞書記憶部１０３から前段辞書を読み込む。その後、ステップＳ２０２へ進み、前段認識部１０２は、音声入力部１０１を介して入力される使用者の発話音声Ａを取得する。例えば、図１０（ｂ）に示すように、使用者が発話した「パークハイアット東京」の音声データを発話音声Ａとして取得する。その後、ステップＳ２０３へ進む。

ステップＳ２０３では、前段認識部１０２は、前段辞書を用いて前段認識処理を行って、ｎ個の前段認識結果候補Ｘｉ（ｉ＝１〜ｎ）を取得する。例えば、図１０（ｃ）に示すように、「パーク」、「ヨット」、「トウキョウ」、「トウキュウ」、「キョウト」、および「コウコウ」の６個の認識キーワード候補を、前段認識結果候補Ｘｉとして取得する。前段認識部１０２は、取得した前段認識結果候補Ｘｉを、辞書切替部１０４および前段認識結果提示部１０５へ出力して、ステップＳ２０４へ進む。

ステップＳ２０４では、前段認識結果提示部１０５は、前段認識部１０２で取得された前段認識結果候補Ｘｉから、使用者に対して提示するキーワード、すなわち提示対象認識結果Ｘｊ(ｊ＝対象となる認識結果のインデックス)を選択する。なお、前段認識結果提示部１０５は、第１の実施の形態と同様に、前段認識結果候補Ｘｉに対して優先度を付けることによって、提示対象認識結果Ｘｊを選択する。例えば、図１０（ｄ）に示すように、１．「パーク」、２．「ヨット」３．「トウキョウ」の３つのキーワードを提示対象認識結果Ｘｊとして選択する。そして、前段認識結果提示部１０５は、選択した提示対象認識結果Ｘｊを辞書切替部１０４および訂正受理部１０６へ出力する。

その後、ステップＳ２０５〜ステップＳ２０７の後段認識処理、およびステップＳ２０８〜ステップＳ２１３の訂正受理及び認識結果修正処理のそれぞれに進む。まず、ステップＳ２０５〜ステップＳ２０７の後段認識処理について説明する。

ステップＳ２０５では、辞書切替部１０４は、前段認識結果提示部１０５から入力された提示対象認識結果Ｘｊを順次読み込み、提示対象認識結果Ｘｊに対応する後段認識辞書を後段辞書記憶部１０９から読み込むことで、後段認識辞書を切り替える。そして、後段認識部１０８は、この後段認識辞書を読み込んで、ステップＳ２０６へ進む。ステップＳ２０６では、後段認識部１０８は、読み込んだ後段認識辞書を用いて、ステップＳ２０２で取得した発話音声Ａに対して後段認識処理を行う。

具体的には、「確定」情報が得られている場合には、そのまま認識を行い、「取り消し」情報が得られている場合には、取り消されたキーワードに対応する後段認識を行わないようにする。あるいはいずれの場合も後段認識を行い、後述の認識結果統合処理にて訂正情報を反映させてもよい。例えば、図１０（ｌ）〜（ｏ）に示すように、提示対象認識結果Ｘｊのそれぞれに対応する認識処理を行い、「パーク辞書認識結果」、「ヨット辞書認識結果」、および「トウキョウ辞書認識結果」を取得する。その後、ステップＳ２０７へ進む。

ステップＳ２０７では、全ての提示対象認識結果Ｘｊについて、後段認識が終了しているか否かを判断する。終了していると判断した場合には、後述するステップＳ２１４へ進む。これに対して、終了していないと判断した場合には、ステップＳ２０５へ戻って残りの提示対象認識結果Ｘｊに対する後段認識処理を行う。

次に、ステップＳ２０８〜ステップＳ２１３の訂正受理及び認識結果修正処理について説明する。ステップＳ２０８では、訂正受理部１０６は、入力された提示対象認識結果Ｘｊと、訂正用語彙記憶部１０７に記憶された訂正語彙とを組み合わせた訂正用認識辞書を構築し、これを読み込む（図１０（ｅ））。なお、使用者が発話する可能性が高い訂正音声Ｂとしては、第１の実施の形態と同様に「取り消し」や「確定」が考えられる。このため、訂正受理部１０６は、提示対象認識結果Ｘｊとして選択された「パーク」、「ヨット」、「トウキョウ」、訂正語彙「取り消し」、「確定」、およびＧａｒｂａｇｅを組み合わせた訂正用認識辞書を構築する。その後、ステップＳ２０９へ進む。

ステップＳ２０９では、前段認識結果提示部１０５は、提示対象認識結果Ｘｊを用いて使用者に対する提示を行う。例えば、図１０（ｆ）に示すように、「パーク、ヨット、トウキョウの何れかを含む施設でお調べ中です。」というシステム発話を出力する。その後、ステップＳ２１０へ進み、訂正受理部１０６は、訂正音声Ｂが入力されたか、すなわち訂正音声Ｂを取得したか否かを判断し、訂正音声Ｂが入力されたと判断した場合には、ステップＳ２１１へ進む。

ステップＳ２１１では、訂正受理部１０６は、訂正用認識辞書を用いて訂正音声Ｂに対する音声認識処理を行って、訂正情報Ｘｊ´を生成して取得する。例えば、使用者が、図１０（ｇ）に示すように、訂正音声Ｂとして「ヨットを取り消し」を発話した場合には、第１の実施の形態と同様に、訂正受理部１０６は、「ヨット−(Ｇａｒｂａｇｅ)−取り消し」の認識結果に基づいて、訂正情報Ｘｊ´「キーワード＝ヨット、訂正内容＝取り消し」を生成する。訂正受理部１０６は、生成した訂正情報を辞書切替部１０４、前段認識結果提示部１０５、および後段認識部１０８へ出力する。その後、ステップＳ２１２へ進む。

ステップＳ２１２では、後段認識部１０８は、入力された訂正情報Ｘｊ´の訂正元となった提示対象認識結果Ｘｊに関する後段認識が終了しているか否かを判断する。提示対象認識結果Ｘｊに関する後段認識が終了していないと判断した場合には、ステップＳ２０４へ戻り、前段認識結果提示部１０５は、入力された訂正情報Ｘｊ´を反映して提示対象認識結果Ｘｊを修正する。例えば、前段認識結果提示部１０５は、訂正情報Ｘｊ´として「キーワード＝ヨット、訂正内容＝取り消し」が入力された場合には、図１０（ｈ）に示すように、提示対象認識結果Ｘｊから、「２．ヨット」を取り消して新たな提示対象認識結果Ｘｊとする。

そして、ステップＳ２０９では、前段認識結果提示部１０５は、取消後の提示対象認識結果Ｘｊを用いて使用者に対する提示を再度行う。例えば、図１０（ｉ）に示すように、「パーク、トウキョウを含む施設からお調べ中です」を再提示する。

これに対して、提示対象認識結果Ｘｊに関する後段認識が終了していると判断した場合には、ステップＳ２１３へ進む。ステップＳ１１３では、後段認識部１０８は、入力された訂正情報Ｘｊ´を用いて、後段認識結果を修正する。具体的には、訂正情報Ｘｊ´として「確定」情報、例えば「パークを確定」が入力された場合には、確定されたキーワードに関する後段認識結果の認識スコアに対してボーナスを与え、認識結果の上位へと押し上げる。一方、訂正情報Ｘｊ´として「取り消し」情報、例えば「キーワード＝ヨット、訂正内容＝取り消し」が入力された場合には、取り消されたキーワードに関する後段認識結果の認識スコアに対してペナルティを与え、認識結果の下位へと押し下げる。

訂正情報Ｘｊ´として「キーワード＝ヨット、訂正内容＝取り消し」が入力された場合の具体例を図１０（ｐ）に示す。この例では、後段認識部１０８は、提示対象認識結果Ｘｊ「パーク」、「ヨット」、「トウキョウ」それぞれに対応する後段認識結果のうち、「ヨット」に対応する認識結果（ヨット辞書）にペナルティ(×印)を与えている。その後、上述したステップＳ２０７へ進み、全ての提示対象認識結果Ｘｊについて、後段認識が終了していると判断した場合には、ステップＳ２１４へ進む。

ステップＳ２１４では、後段認識部１０８は、全ての提示対象認識結果Ｘｊに対する後段認識結果を統合して最終的な認識結果を取得する。すなわち、各後段辞書から得られた認識結果を整理し、最終的な認識結果である理解結果を生成する。例えば、図１０（ｐ）に示すように、提示対象認識結果Ｘｊ「パーク」に対する後段認識結果（「パーク」辞書を用いた認識結果）と、提示対象認識結果Ｘｊ「トウキョウ」に対する後段認識結果（「トウキョウ」辞書を用いた認識結果）が得られているため、これらの認識結果を統合して理解結果を生成する。例えば、図１０（ｊ）に示すように、「パークハイアット東京」を理解結果として生成する。その後、処理を終了する。

なお、音声認識装置１００をナビゲーション装置に適用した場合には、図１０（ｋ）に示すように、ナビゲーション装置側で、後段認識部１０８によって生成された理解結果に基づいて、使用者が発話した目的地が特定され、目的地設定の音声提示、および目的地へのルート計算が行なわれる。

以上説明した第２の実施の形態によれば、第１の実施の形態における作用効果に加えて、以下のような効果を得ることができる。すなわち、前段認識結果に基づき辞書切替を行って後段辞書による再認識を行う多段認識手法において、後段認識の最中に、前段認識結果に対する訂正を受理することができる。このため、訂正情報の取得時点で対応する後段認識が終了していない場合には、後段認識の対象語彙を絞り込み、再認識に必要な計算リソースが削減できる。また、対応する後段認識が終了していた場合であっても、適宜訂正情報を認識結果に反映させることができるため、認識性能を向上させることができる。

―第３の実施の形態―
上述した第１および第２実施形態では、音声のみ(音声合成及び音声認識)を用いたシステムと使用者とのやり取りについて示した。これに対して、第３の実施の形態では、音声と表示装置及びスイッチ類との併用による、より多様な訂正を可能とする方法について説明する。なお、図３については、第１の実施の形態と同様のため、また図９については、第２の実施の形態と同様のため、それぞれの説明を省略する。

図１１は、第３の実施の形態における音声認識装置の一実施の形態の構成を模式的に示した図である。なお、図１１においては、図１に示した音声認識装置１００が備える構成要素と同じものについては、同じ符号を付加し、相違点を中心に説明する。音声錦装置１００は、マイクロフォン２０１と、ＡＤ変換部２０２と、演算装置２０３と、記憶装置２０４と、ＤＡ変換部２０５と、スピーカ２０６と、スイッチ２０７と、ディスプレイ１０８とで構成される。

図１２は、第３の実施の形態における音声認識装置１００の一実施の形態の構成を示すブロック図である。なお、図１１においては、図２に示した音声認識装置１００が備える構成要素と同じものについては、同じ符号を付加するものとし、相違点を中心に各要素について図１１との対応を示しながら説明する。

音声認識装置１００は、手操作入力部１１０をさらに備えている。手操作入力部１１０は、図１１に示したスイッチ２０７、およびＡＤ変換部２０２を組み合わせることにより実現され、前段認識結果の訂正のために使用者が行うスイッチ２０７の操作信号を訂正受理部１０６へ出力する。スイッチ２０７を操作することによる訂正は、第１および第２の実施の形態で上述した音声による訂正と同様に行えることが望ましい。これにより、使用者は、音声による訂正あるいはスイッチ操作による訂正のいずれかを任意に選択することが可能となる。なお、手操作入力部１１０を用いた具体的な訂正方法については後述する。

前段認識結果提示部１０５は、前段認識の結果を、音声および画面表示により使用者に提示するためのものであり、図１１のＤＡ変換部２０５、スピーカ２０６、およびディスプレイ２０８を組み合わせることで実現される。すなわち、前段認識結果提示部１０５は、上述した第１および第２の実施の形態と同様に、提示対象認識結果Ｘｊをスピーカ２０６を介して音声で提示するとともに、ディスプレイ２０８を介して画面表示により提示する。これによって、使用者は、画面を通じて提示対象認識結果Ｘｊおよび訂正方法を把握することができ、音声のみの場合に比べより直感的に提示対象認識結果Ｘｊおよび訂正方法を知ることが可能である。

訂正受理部１０６は、音声入力部１０１を介して入力される使用者の訂正音声Ｂ、または手操作入力部１１０を介して入力される訂正スイッチ操作のいずれかの信号を受理して訂正情報を生成する。そして、生成した訂正情報を辞書切替部１０４、および後段認識部１０８へ出力する。

なお、図１１においては、ディスプレイ２０８にタッチパネルを搭載することによって、スイッチ２０７とディスプレイ２０８とを統合することも可能である。以下の説明では、使用者は、ディスプレイ２０８に搭載されたタッチパネルを操作することで、訂正スイッチ操作を行う場合について説明する。

これ以外に、使用者は、タッチパネル操作による訂正に代えて、音声で訂正することも可能である。例えば、「○○の「取り消し」ボタンを押下する」ことに代えて、「『○○を取り消す』と発話する」ことによって、タッチパネルを操作した場合と同様の訂正をすることができる。ただし、タッチパネルを手で操作する場合には認識率がほぼ１００％であるのに対し、音声で応答した場合には音声認識時に誤認識が発生する可能性がある。

したがって、手操作によって訂正が行われた場合には、入力された情報を完全に信用して訂正処理を行う。これに対して、音声によって訂正が行われた場合には、誤認識の可能性も加味して確信度に応じた訂正処理を行うようにする必要である。例えば、「取り消し」に関する情報が手操作で入力された場合には、取り消し対象となるキーワードを完全に削除する一方で、音声により入力された場合には、ペナルティを与えて計算する等して、誤認識の場合でも完全に削除されることを防ぐための方策をとる必要がある。

図１３に、第３の実施の形態における具体的な処理の流れを示す。なお、使用者による発話音声Ａの内容、前段認識結果候補Ｘｉ、提示対象認識結果Ｘｊ、および一連の処理の流れについては、第２の実施の形態で上述した図１０と同様のため説明を省略し、本実施の形態の特徴部分であるスイッチ２０７およびディスプレイ２０８を用いた提示対象認識結果Ｘｊの提示および訂正の受理について、詳細に説明する。

図１３（ｂ）に示すように、使用者によって発話音声Ａ「パークハイアット東京」が入力された場合には、前段認識部１０２はこれを音声認識して、図１３（ｃ）に示すように前段認識結果候補Ｘｉを選択する。そして、図１３（ｆ）に示すように、前段認識結果提示部１０５は、提示対象認識結果Ｘｊを選択して、使用者に提示する。このとき、前段認識結果提示部１０５は、提示対象認識結果Ｘｊを音声で提示すると共に、図１３（ｌ）に示すように画面に表示して提示する。

直後に、後段認識部１０８は、バックグラウンド処理として、キーワード「パーク」、「ヨット」、「トウキョウ」のそれぞれに対応する後段辞書を用いて後段認識を実行する。すなわち、図１３（ｎ）〜（ｐ）に示すように「パーク」辞書、「ヨット」辞書、および「トウキョウ」辞書のそれぞれを用いて発話音声Ａを再認識する。ここで、後段認識処理の最中に、使用者がタッチパネルを操作して、図１３（ｍ）に示すように、画面上に表示された「ヨット」を取り消すための「取り消し」のボタンを押下したとする。この場合には、図１３（ｇ）に示すように、訂正受理部１０６は、提示対象認識結果Ｘｊから「ヨット」を取り消すための訂正を受理して、第１および第２の実施の形態と同様に訂正情報Ｘｊ´「キーワード＝ヨット、訂正内容＝取り消し」を生成する。

そして、訂正受理部１０６は、第２の実施の形態で上述した図９におけるステップＳ２１２およびＳ２１３と同様に処理を行って、訂正内容を反映する。すなわち、キーワード「ヨット」に関する後段認識が完了していない場合は、キーワード「ヨット」を後段認識対象から除外し、関連する後段認識を取り消す。一方、キーワード「ヨット」に関する後段認識が完了している場合には、キーワード「ヨット」に関連する認識結果を削除し、図１３（ｑ）に示すように、認識結果の統合処理の段階でキーワード「ヨット」に関連する認識結果が含まれないようにする。こうした一連の操作の結果、後段認識部１０８は、図１３（ｊ）に示すように、「パークハイアット東京」を理解結果として生成する。

以下、図１４〜図１８を用いて、画面表示と手操作入力を用いた訂正処理について、具体的に説明する。なお、図１４〜図１８に示す例では、訂正されたキーワードに関する後段認識が未完了の場合について説明するが、訂正されたキーワードに関する後段認識が完了している場合でも、第２の実施の形態と同様に、認識結果を統合する際の認識スコアに対しボーナスやペナルティを付与することによって対処可能である。

図１４〜図１８においては、特に説明のない限り、いずれの場合も使用者の発話音声Ａは「パークハイアット東京」であるものとし、前段認識部１０２は、前段認識結果候補Ｘｉとして「パーク」、「ヨット」、「トウキョウ」、「トウキュウ」、「キョウト」、および「コウコウ」の６個の認識キーワード候補を取得したものとする。また、前段認識結果提示部１０５は、提示対象認識結果Ｘｊとして「パーク」、「ヨット」、および「トウキョウ」を選択したものとする。

図１４は、使用者がタッチパネルを操作して提示対象認識結果Ｘｊのいずれかを「確定」した場合（確定操作）、および提示対象認識結果Ｘｊのいずれかを「取り消し」した場合（取り消し操作）の画面遷移例、および後段辞書切替例を示した図である。なお、図１４（ａ−１）〜（ａ−３）は、確定操作時の画面遷移例をしており、図１４（ｂ−１）〜（ｂ−３）は、確定操作時の各画面での操作内容に対応して切り替えられた後段認識辞書の状態(集合演算)を示している。また、図１４（ｃ−１）〜（ｃ−３）は、取り消し操作時の画面遷移例をしており、図１４（ｄ−１）〜（ｄ−３）は、取り消し操作時の各画面での操作内容に対応して切り替えられた後段認識辞書の状態(集合演算)を示している。

まず、使用者が確定操作を行った場合について説明する。前段認識結果提示部１０５は、図１４（ａ−１）に示すように、提示対象認識結果Ｘｊとなった３つのキーワード「パーク」、「ヨット」、「トウキョウ」をディスプレイ２０８に表示し、各キーワードに対応付けて「確定」および「取り消し」の訂正操作用ボタン（「確定」ボタン、「取り消し」ボタン」を表示する。この時点での後段認識辞書は、図１４（ｂ−１）に示すように３つのキーワードに対応する辞書の和集合（ＯＲ演算）となる。

ここで、図１４（ａ−２）に示すように、使用者が「パーク」を確定するために、ディスプレイ２０８上で「パーク」に対応する「確定」ボタンを押下したとする。この場合には、辞書切替部１０４は、図１４（ｂ−２）に示すように、「パーク」辞書以外の後段辞書を除外して、「パーク」辞書のみを後段辞書とする。

その後、さらに、図１４（ａ−３）に示すように、「トウキョウ」を追加で確定するために、使用者がディスプレイ２０８上で「トウキョウ」に対応する「確定」ボタンを押下したとする。この場合には、辞書切替部１０４は、図１４（ｂ−３）に示すように、「パーク」辞書と「トウキョウ」辞書の共通部分を抽出して後段辞書とする。すなわち、「パーク」辞書と「トウキョウ」辞書の中から、「パーク」と「トウキョウ」を共通に含む語彙を抽出して後段辞書(パーク)∩(トウキョウ)を動的に構築する。なお、図１４（ｂ−３）に示すような後段辞書を構築するには、あらかじめ全ての後段認識語彙に対して、含有するキーワードを対応付けておき、上記の論理式に従って語彙を選択した上で動的に辞書を生成する方法を用いるのが望ましい。

次に、使用者が取り消し操作を行った場合について説明する。前段認識結果提示部１０５は、図１４（ｃ−１）に示すように、提示対象認識結果Ｘｊ、すなわち「パーク」、「ヨット」、「トウキョウ」をディスプレイ２０８に表示し、各キーワードに対応付けて「確定」および「取り消し」の訂正操作用ボタン（「確定」ボタン、「取り消し」ボタン」を表示する。この時点での後段認識辞書は、図１４（ｄ−１）に示すように３つのキーワードに対応する辞書の和集合（ＯＲ演算）となる。

ここで、図１４（ｃ−２）に示すように、使用者が「ヨット」を取り消すために、ディスプレイ２０８上で「ヨット」に対応する「取り消し」ボタンを押下したとする。この場合には、辞書切替部１０４は、図１４（ｃ−２）に示すように、「ヨット」辞書を除外する。そして、図１４（ｃ−３）に示すように、辞書切替部１０４は、「パーク」辞書と「トウキョウ」辞書の中から、「パーク」と「ヨット」を共通に含む語彙(パーク)∩(ヨット)、および「トウキョウ」と「ヨット」を共通に含む語彙(トウキョウ)∩(ヨット)を取り除いた後段辞書｛(パーク)− (パーク)∩(ヨット)｝∪｛(トウキョウ)− (トウキョウ)∩(ヨット)｝を動的に構築する。

図１５は、提示対象認識結果Ｘｊに対する「取り消し」と「追加」を受理するための画面遷移例を示している。この例では、前段認識結果提示部１０５は、図１５（ａ）に示すように、前段認識結果候補Ｘｉを全てディスプレイ２０８上に表示し、その中の提示対象認識結果Ｘｊのみを濃色表示して、後段認識対象であることを示している。そして、提示対象認識結果Ｘｊのそれぞれについて、後段認識処理の実行状態を、後段認識処理が完了したことを示す「認識完」、後段認識処理の実行中であることを示す「認識中」、および講談認識処理の認識待ち状態であることを示す「認識開始」の３つに分類して表示している。

これに対して、提示対象認識結果Ｘｊとして選択されなかった残りの３キーワードについては、淡色表示となっており、後段認識対象外であることを示している。なお、図１５（ａ）では、認識対象となる辞書のサイズ（辞書サイズ）及び検索に要する残り時間（所要時間）を視覚的に表示することで、使用者に対するシステム内部状態の提示も行っている。すなわち、後段認識処理の実行状態表示するための円柱の長さて辞書サイズと所要時間を表しており、円柱の長さが長いほど辞書サイズが大きく所要時間が長いことを意味している。

ここで、図１５（ｂ）に示すように、使用者がキーワード「ヨット」の取り消し操作を行ったとする。この場合、後段認識部１０８は、取り消し操作が行われた「ヨット」についての後段認識処理を中止する。そして、前段認識結果提示部１０５は、図１５（ｃ）に示すように、キーワード「ヨット」の表示を淡色表示に変更することで、「ヨット」が後段認識対象外になったことを明示する。

次に、使用者が、提示対象認識結果Ｘｊとして選択されていなかったキーワード「キョウト」を提示対象認識結果Ｘｊに追加するために、図１５（ｄ）に示すようにディスプレイ２０８上で「追加」ボタンを押下したとする。この場合には、前段認識結果提示部１０５は、図１５（ｅ）に示すように、「キョウト」の表示を濃色表示に変更して、「キョウト」が提示対象認識結果Ｘｊに追加され、新たに後段認識対象となったことを明示する。そして、「キョウト」についての後段認識処理の実行状態、および上述した辞書サイズ、所要時間をディスプレイ２０８上に表示する。

その後、図１５（ｆ）に示すように、使用者がキーワード「キョウト」の取り消し操作を行ったことにより、図１５（ｇ）に示すように「キョウト」が後段認識対象から除外されている。そして、後段認識部１０８によって、キーワード「パーク」及び「トウキョウ」に対応する後段認識が行われ、図１５（ｈ）に示すように、理解結果として「パークハイアット東京」生成される。

図１６は、提示対象認識結果Ｘｊのうち、別の語彙に置き換わる誤認識、すなわち置換誤りが発生した場合のキーワードの訂正方法を示す図である。置換誤りが発生しやすいキーワードについては、第１の実施の形態で上述したように、音素間距離尺度を用いることによって特定することができる。図１６（ａ）に示すように、前段認識結果提示部１０５は、提示対象認識結果Ｘｊをディスプレイ２０８上に表示する。ここで、図１６（ｂ）に示すように、使用者が画面上の「トウキョウ」部分を押下すると、前段認識結果提示部１０５は、図１６（ｃ）に示すように、前段認識結果候補Ｘｉの中から「トウキョウ」に音響的に類似するキーワードの候補「トウキュウ」および「コウコウ」と、「トウキョウ」に対する確定操作および取り消し操作を行うための「確定」および「取り消し」とをリスト表示する。

ここで、使用者が、リスト内から「トウキュウ」を選択した場合には、前段認識結果提示部１０５は、図１６（ｄ）に示すように、「トウキュウ」を提示対象認識結果Ｘｊに追加して、新たに後段認識対象とする。このとき、辞書切替部１０４は、後段認識辞書を「トウキョウ」辞書から「トウキュウ」辞書に切り替える。また、使用者が、リスト内から「トウキュウ」を選択したことにより、使用者は「トウキュウ」を「確定」したと捉えることも出来るため、訂正受理部１０６は、「トウキュウ」＋「確定」を確定情報として生成するようにしてもよい。この場合には、図１６（ｅ）に示すように、前段認識結果提示部１０５は、他のキーワード「パーク」および「ヨット」に関する表示を淡色表示に変更し、後段認識部１０８は、後段認識結果から対応する認識結果を除外する処理を行う。

図１７は、各提示対象認識結果Ｘｊの発話音声Ａ内における出現位置、すなわち提示対象認識結果Ｘｊが発話音声Ａの「語頭」、「語中」、「語尾」のいずれに含まれているかを考慮した訂正方法を示す図である。なお、図１７に示す例では、各提示対象認識結果Ｘｊ（各キーワード）に対応する後段辞書が、それぞれ「語頭用」、「語中用」、および「語尾用」に分類されて保持されているものとする。

図１７（ａ）に示すように、前段認識結果提示部１０５は、提示対象認識結果Ｘｊ「パーク」、「ヨット」、「トウキョウ」をディスプレイ２０８上に表示すると共に、各提示対象認識結果Ｘｊの前後に、提示対象認識結果Ｘｊの出現位置を表す「＋」、「／」、「？」のいずれかのマークを付加する。一般的な音声認識装置では、認識した提示対象認識結果Ｘｊの出現位置を推定することができる為、他の提示対象認識結果Ｘｊの出現位置との関係を鑑みた場合、その提示対象認識結果Ｘｊが「語頭」、「語中」、「語尾」のいずれに位置するかを特定できる場合がある。

ここでは、提示対象認識結果Ｘｊの前に「＋」が付加された場合には、その提示対象認識結果Ｘｊの前に語彙が存在することを表し、提示対象認識結果Ｘｊの後に「＋」が付加された場合には、その提示対象認識結果Ｘｊの後に語彙が存在することを表す。また、提示対象認識結果Ｘｊの前に「／」が付加された場合には、その提示対象認識結果Ｘｊの前には語彙が存在しない、すなわち当該提示対象認識結果Ｘｊが語頭に位置することを表し、提示対象認識結果Ｘｊの後に「／」が付加された場合には、その提示対象認識結果Ｘｊの後に語彙が存在しない、すなわち当該提示対象認識結果Ｘｊが語尾に位置することを表す。また、提示対象認識結果Ｘｊの前後に「？」が付加された場合には、その提示対象認識結果Ｘｊの前後に語彙が存在するか否かが不明であることを洗わしている。

図１７（ａ）に示す例では、「パーク」は、前に「／」が付加され、後に「＋」が付加されていることから、「語頭」に位置すると判断することができる。この場合、辞書切替部１０４は、「パーク」に対応する後段辞書を、「パーク」を語頭に含む認識対象語彙で構成される語頭用の後段辞書に切り替える。そして、後段認識部１０８は、語頭用の後段辞書を用いて後段認識処理を行う。

「ヨット」は、前後に「？」が付加されていることから、判断が不能となっている。この場合、辞書切替部１０４は、「ヨット」に対応する後段辞書を、「ヨット」を語頭に含む認識対象語彙で構成される語頭用の後段辞書、「ヨット」を語中に含む認識対象語彙で構成される語中用の後段辞書、および「ヨット」を語尾に含む認識対象語彙で構成される語尾用の後段辞書の全ての後段辞書に切り替える。そして、後段認識部１０８は、これらの後段辞書を用いて後段認識処理を行う。

「トウキョウ」は、前に「＋」が付加され、後に「？」が付加されていることから、「語中」または「語尾」に位置すると判断することができる。この場合、辞書切替部１０４は、「トウキョウ」に対応する後段辞書を、「トウキョウ」を語中に含む認識対象語彙で構成される語中用の後段辞書、および「トウキョウ」を語尾に含む認識対象語彙で構成される語尾用の後段辞書に切り替える。そして、後段認識部１０８は、これらの後段辞書を用いて後段認識処理を行う。

このとき、使用者は、ディスプレイ２０８上に表示された「＋」、「／」、「？」のマークを選択して、表示内容を訂正することができる。すなわち、各提示対象認識結果Ｘｊの出現位置を訂正することができる。例えば、図１７（ｂ）に示すように、使用者が、「トウキョウ」の後に表示されている「？」を押下することにより、置き換え候補として「／」と「＋」がリスト表示される。使用者は、リスト表示された「／」と「＋」の中から、訂正したいマークを選択して押下することで、「トウキョウ」の出現位置を訂正することができる。例えば、図１７（ｃ）に示すように、「トウキョウ」の後に付加するマークを「／」に訂正することにより、「トウキョウ」の出現位置を「語尾」に訂正することができる。

この場合には、辞書切替部１０４は、「トウキョウ」に対応する後段辞書から語中用の後段辞書を除外して語尾用の後段辞書のみに切り替える。そして、後段認識部１０８は、この語尾用の後段辞書を用いて後段認識処理を行う。

図１８は、上述した図１７と同様に、各提示対象認識結果Ｘｊの発話音声Ａ内における出現位置を表示し、訂正を受理する場合の訂正方法を示す図である。この図１８に示す例では、使用者が、さらに出現位置を視覚的に直感できるよう、図１７とはその表示方法を異ならせている。

前段認識結果提示部１０５は、図１８（ａ−１）に示すように、提示対象認識結果Ｘｊとして、「パーク」、「ヨット」、および「トウキョウ」の３キーワードを後段認識対象として濃色表示する。同時に、後段認識対象外であるが、修正可能な候補として、提示対象認識結果Ｘｊ以外の前段認識結果候補Ｘｉ、すなわち「トウキュウ」、「キョウト」、「コウコウ」の３つの候補外キーワードを淡色表示する。このとき、前段認識結果提示部１０５は、３つの候補外キーワードを、その出現位置に応じた位置に表示する。例えば、図１８（ａ−１）に示す例では、３つの候補外キーワードのそれぞれは、その出現位置が提示対象認識結果Ｘｊ「トウキョウ」の出現位置に最も近いため、「トウキョウ」の近傍にこれらの３つの候補外キーワードを表示している。

この図１８（ａ−１）に示す画面上では、使用者が濃色表示された後段認識対象のいずれかを押下すると、訂正受理部１０６は、押下された後段認識対象の取り消し訂正を受理して、そのキーワードを後段認識対象外に変更する。また、逆に、使用者が淡色表示された後段認識対象外のキーワードを押下すると、訂正受理部１０６は、押下された後段認識対象外のキーワードの確定訂正を受理して、そのキーワードを後段認識対象に変更する。

例えば、図１８（ａ−２）に示すように、使用者が「ヨット」の表示部分を押下することにより、訂正受理部１０６が「ヨット」の取り消し訂正を受理した場合には、後段認識結果提示部１０５は、図１８（ａ−３）に示すように「ヨット」を淡色表示に変更して、「ヨット」が後段認識対象外になったことを明示する。そして、辞書切替部１０４は、「ヨット」に対応する後段辞書を除外して、「パーク」に対応する後段辞書、および「トウキョウ」に対応する後段辞書に切り替える。そして、後段認識部１０８は、これらの後段辞書を用いて後段認識処理を実行する。

一方、使用者が、発話音声Ａとして「横浜町田インター」を発話した場合には、例えば図１８（ｂ−１）に示すように「ヨコハマ」、「ハチマン」、「イイン」の３つのキーワードが提示対象認識結果Ｘｊとして表示されている。また、候補外キーワードとして、「ヨコスカ」、「ハママツ」、「タワー」、「インター」、「センター」の各キーワードが、その出現位置に応じた表示位置に表示されている。

ここで、図１８（ｂ−２）に示すように、使用者がキーワード「ハチマン」の表示部分が押下すると、訂正受理部１０６は、「ハチマン」の取り消し訂正を受理する。そして、後段認識結果提示部１０５は、図１８（ｂ−３）に示すように、「ハチマン」を淡色表示に変更して、「ハチマン」が後段認識対象外になったことを明示する。さらに、図１８（ｂ−４）に示すように、使用者によって候補外キーワードである「インター」の表示部分が押下されると、訂正受理部１０６は、「インター」の確定訂正を受理する。そして、後段認識結果提示部１０５は、図１８（ｂ−５）に示すように、「インター」を濃色表示に変更して「インター」が後段認識対象になったことを明示する。さらに、後段認識結果提示部１０５は、「インター」に対応する出現位置で認識され、提示対象認識結果Ｘｊとして選択されていた「イイン」を後段認識対象外に変更して、「イイン」と「インター」の表示位置を入れ替える。

そして、辞書切替部１０４は、取り消した「ハチマン」および「イイン」に対応する後段辞書を除外して、後段認識対象である「ヨコハマ」および「インター」に対応する後段辞書に切り替える。そして、後段認識部１０８は、これらの後段辞書を用いて後段認識処理を実行する。

以上説明した第３の実施の形態によれば、第１の実施の形態における作用効果に加えて、以下のような効果を得ることができる。
（１）前段認識結果に基づいて後段辞書を切替え、後段辞書による再認識を行う多段認識手法において、使用者の発話に対する前段認識結果を、表示とスイッチ操作により効率的に訂正し、後段認識処理に反映することができる。このため、後段認識処理のための後段辞書の絞込みが効率的に行われ、再認識に必要な計算リソースが削減できるのに加え、適宜訂正情報を前段認識結果に反映させることができるため、認識性能を向上させることができる。

（２）辞書切替部１０４は、訂正が行なわれた後の各提示対象認識結果Ｘｊを含む認識対象語彙の和集合で後段辞書を構築するようにした。これによって、後段辞書に含む認識対象語彙を必要な語彙のみに抑えてメモリ使用量を抑制した上で、訂正が行われた結果得られる提示対象認識結果Ｘｊを含む発話音声Ａを正しく認識することができる。

（３）訂正受理部１０６は、提示対象認識結果Ｘｊから誤認識となったキーワードを除外するための「取り消し」を受け付けて提示対象認識結果Ｘｊの訂正を行ったり、提示対象認識結果Ｘｊに前段認識結果候補Ｘｉに含まれる他のキーワードの追加するための「追加」を受け付けて提示対象認識結果Ｘｊの訂正を行ったりできるようにした。そして、辞書切替部１０４は、これらの「取り消し」または「追加」の訂正結果に基づいて、後段辞書を構築するようにした。これによって、使用者の訂正結果を反映した後段辞書を構築して、精度高く後段認識を行うことができる。

（４）発話音声Ａ内における提示対象認識結果Ｘｊの出現位置を特定し、各提示対象認識結果Ｘｊの出現位置に応じた後段辞書を構築して後段認識を行うようにした。これによって、後段認識の精度をさらに向上させることができる。

―第４の実施の形態―
上述した第１〜第３実施の形態では、前段認識結果に基づいて後段辞書を切り替え、再認識、すなわち後段認識を行う「多段認識手法」による音声認識方法について説明した。これに対して、第４の実施の形態では、前段認識結果に基づいてデータベース(以下ＤＢ)検索式を生成し、これを用いてＤＢを検索することによって音声認識を行う「複合音声検索手法」による音声認識方法について説明する。なお、図１１については、第３の実施の形態と同様のため、説明を省略する。

図１９は、第４の実施の形態における音声認識装置１００の一実施の形態の構成を示すブロック図である。なお、図１９においては、図１２に示した第３の実施の形態における音声認識装置１００が備える構成要素と同じものについては、同じ符号を付加するものとし、相違点を中心に説明する。

前段辞書記憶部１０３は、前段認識処部１０２にて発話音声とマッチングを行うための前段辞書を記憶したものであり、前段辞書は、図２０に示すように、Ｇａｒｂａｇｅモデルとキーワードから構成される。なお、第４の実施の形態では、キーワードを用いた検索式によって対象データを特定するため、前段辞書に登録するキーワードは、単独もしくは複数の組み合わせによって、全てのＤＢ内データを一意に決定できるよう選択するべきである。具体的には、全データが含む形態素を全て抽出してキーワードとして登録する方法や、出現頻度の多い形態素を所定数のみ抽出してキーワードとして登録し、残りはデータ自体(施設名称そのもの)をキーワードとして登録する等の方法が考えられる。

検索式生成部１１１は、前段認識部１０２で選択された提示対象認識結果Ｘｊのうち、優先度の高い１つ以上のキーワードを提示対象キーワードとして抽出し、当該提示対象キーワードを用いて検索式を生成する。検索式は、提示対象キーワードが複数ある場合、その全ての組み合わせを網羅するように生成される。詳しくは後述する。

ＤＢ検索部１１２は、検索式生成部１１１で生成された検索式を用いて、ＤＢ１１３に記憶されているデータベースを対象としたキーワード検索処理を実行して、データベースに記憶されているキーワードの検索、およびスコアリングを実行する。なお、キーワードの検索、およびスコアリングについては、後述する。

ＤＢ１１３は、ＤＢ検索部１１２による検索の対象となるデータベースを記憶するものである。具体的なＤＢの記憶例を図２１に示す。図２１に示すデータベースにおいては、都道府県、市区町村、施設名称、および施設名読みデータが記憶されている。ＤＢ検索部１１２によるキーワード検索処理では、「施設名読み」データに対して、検索式生成部１１１から取得した検索式に基づくキーワード検索及びスコアリングを行う。

第４の実施の形態における音声認識装置１００の具体的な処理の流れを図２２および図２３を用いて説明する。図２２のフローチャートでは、ステップＳ３０５〜ステップＳ３０７が前段認識結果に基づくＤＢ検索処理であり、ステップＳ３０８〜ステップＳ３１３は訂正発話もしくは訂正操作に基づく提示対象認識結果Ｘｊ及び後段認識結果の変更処理（訂正受理及び認識結果修正処理）である。双方の処理は、第２の実施の形態と同様に、それぞれが独立してなされる。

図２３は、図２２に示すフローチャートに即して使用者の発話内容とシステムの応答内容の関係を具体的に示したものである。図２３（ａ）〜（ｋ）はシステムと使用者とのやり取りを示している。また、図２３（ｌ）および（ｍ）は、使用者に訂正を促す画面の遷移を、図２３（ｎ）は、ＤＢ検索の状態(検索式の発行状態)を示している。

ステップＳ３０１では、図２３（ａ）に示すように、前段辞書記憶部１０３から前段辞書を読み込む。その後、ステップＳ３０２へ進み、前段認識部１０２は、音声入力部１０１を介して入力される使用者の発話音声Ａを取得する。例えば、図２３（ｂ）に示すように、使用者が発話した「横浜ランドマークタワー」の音声データを発話音声Ａとして取得する。その後、ステップＳ３０３へ進む。

ステップＳ３０３では、前段認識部１０２は、前段辞書を用いて前段認識処理を行って、ｎ個の前段認識結果候補Ｘｉ（ｉ＝１〜ｎ）を取得する。例えば、図２３（ｃ）に示すように、「ヨコハマ」、「ヨコスカ」、「ランド」、「パーク」、「マーク」、「タワー」、および「ナラ」の７個の認識キーワード候補を、前段認識結果候補Ｘｉとして取得する。なお、このときの認識した音素列は、「ｏｋｏｈａｍａａｎｄｏ：ｋｕａｗａ：」となっている(「：」は長音音素の記号)。前段認識部１０２は、取得した前段認識結果候補Ｘｉを、前段認識結果提示部１０５、および検索式生成部１１１へ出力して、ステップＳ３０４へ進む。

ステップＳ３０４では、前段認識結果提示部１０５は、前段認識部１０２で取得された前段認識結果候補Ｘｉから、上述した提示対象認識結果Ｘｊ(ｊ＝対象となる認識結果のインデックス)を選択する。なお、前段認識結果提示部１０５は、第１〜第３の実施の形態と同様に、前段認識結果候補Ｘｉに対して優先度を付けることによって、提示対象認識結果Ｘｊを選択する。例えば、図２３（ｄ）に示すように、１．「ヨコハマ」、２．「ランド」、３．「パーク」、４．「タワー」の４つのキーワードを提示対象認識結果Ｘｊとして選択する。そして、前段認識結果提示部１０５は、選択した提示対象認識結果Ｘｊを訂正受理部１０６、および検索式生成部１１１へ出力する。

その後、ステップＳ３０５〜ステップＳ３０７の前段認識結果に基づくＤＢ検索処理、およびステップＳ３０８〜ステップＳ３１３の訂正受理及び認識結果修正処理のそれぞれに進む。まず、ステップＳ３０５〜ステップＳ３０７のＤＢ検索処理について説明する。

ステップＳ３０５では、検索式生成部１１１は、前段認識結果提示部１０５から入力された提示対象認識結果Ｘｊに基づいて、提示対象認識結果Ｘｊに含まれるキーワードの全ての組み合わせを網羅する検索式を順次生成する。例えば、検索式生成部１１１は、図２３（ｎ）に示すように、「ヨコハマ」、「ランド」、「パーク」、「タワー」の４つのキーワードを組み合わせて、検索式１〜１５を順次生成していく。そして、検索式生成部１１１は、生成した検索式をＤＢ検索部１１２へ出力して、ステップＳ３０６へ進む。

ステップＳ３０６では、ＤＢ検索部１１２は、検索式生成部１１１で生成された検索式に基づいて、ＤＢ１１３に記憶されているデータベースを検索する。このとき、ＤＢ検索部１１２は、各検索式に対してスコアを付与しておき、この付与されたスコア（付与スコア）と、各検索式を用いた検索結果とに基づいて、各検索結果をスコアリングする。図２３（ｎ）に示した各検索式と、それぞれに付与された付与スコアの具体例を図２４に示す。

この図２４の例では、検索式の拘束条件が強いほど、付与スコアが大きく設定されている。例えば、検索式１２に示す１つのキーワード「ヨコハマ」のみを検索キーワードとした検索式の付与スコアは５ポイントなのに対し、検索式６に示す２つのキーワードを組み合わせた「ヨコハマ∩ランド」を検索キーワードとした検索式の付与スコアは２０ポイントとなっている。

図２４に示した合計１５の検索式を実行した場合には、施設名「横浜ランドマークタワー」が、検索式３、６、８、１０、１２、１３、１５のそれぞれでヒットする。よって、ＤＢ検索部１１２は、検索結果としての「横浜ランドマークタワー」に対して、各検索式に付与された付与スコアを積算することでスコアリングを行ない、「横浜ランドマークタワー」の認識スコアを算出する。例えば、次式（１）によって、「横浜ランドマークタワー」の認識スコアを算出する。
「横浜ランドマークタワー」の認識スコア＝検索式３の付与スコア（４０）＋検索式６の付与スコア（２０）＋検索式８の付与スコア（２０）＋検索式１０の付与スコア（２０）＋検索式１２の付与スコア（５）＋検索式１３の付与スコア（５）＋検索式１５の付与スコア（５）＝１１５・・・（１）

また、別のスコアリング方法として、各検索式に対してスコアの原資、例えば１ポイントを確保し、これをヒットした件数で等分して各検索式の認識スコアとし、これを合計することによって「横浜ランドマークタワー」の認識スコアを算出してもよい。例えば、図２４に示す例では、検索式３は１件のみヒットしているため、スコアの原資（１）をヒット件数（１）で割った１が検索式３の認識スコアとなる。また、検索式１２は１１５６件がヒットしたため、スコアの原資（１）をヒット件数（１１５６）で割った０．０００８７が検索式１２の認識スコアとなる。

その後、ステップＳ３０７へ進み、ＤＢ検索部１１２は、全ての検索式が発行済みか否か、すなわち、検索式生成部１１１で生成された検索式を用いたＤＢ検索が完了したか否かを判断する。全て発行済みであると判断した場合には、後述するステップＳ３１４へ進む。これに対して、未発行の検索式が残っていると判断した場合には、ステップＳ３０５へ戻って、残りの検索式に基づくＤＢ検索を行う。

次に、ステップＳ３０８〜ステップＳ３１３の訂正受理及び認識結果修正処理について説明する。ステップＳ３０８では、訂正受理部１０６は、入力された提示対象認識結果Ｘｊと、訂正用語彙記憶部１０７に記憶された訂正語彙とを組み合わせた訂正用認識辞書を構築し、これを読み込む（図２３（ｅ））。なお、使用者が発話する可能性が高い訂正音声Ｂとしては、第１〜第３の実施の形態と同様に「取り消し」や「確定」が考えられる。このため、訂正受理部１０６は、提示対象認識結果Ｘｊとして選択された「ヨコハマ」、「ランド」、「パーク」、「タワー」、訂正語彙「取り消し」、「確定」、およびＧａｒｂａｇｅを組み合わせた訂正用認識辞書を構築する。その後、ステップＳ３０９へ進む。

ステップＳ３０９では、前段認識結果提示部１０５は、提示対象認識結果Ｘｊを用いて使用者に対する提示を行う。例えば、図２３（ｌ）に示すように、提示対象認識結果Ｘｊと各提示対象認識結果Ｘｊを「取り消し」または「確定」するための画面を表示すると同時に、「訂正がある場合はボタンを押すか発話してください。」というシステム発話を出力する。その後、ステップＳ３１０へ進み、訂正受理部１０６は、訂正音声Ｂ、または訂正スイッチ操作の入力があるまで待機する。なお、この間、上述したステップＳ３０５〜ステップＳ３０７の処理が独立して実行されており、順次検索式が展開され検索が行われている。

そして、訂正受理部１０６が訂正音声Ｂ、または訂正スイッチ操作の入力があったと判断した場合には、ステップＳ３１１へ進む。ここでは、図２３（ｇ）に示すように、使用者によって、提示対象認識結果Ｘｊの中から「パーク」を取り消すための訂正発話Ｂとして、「パークを取り消し」が発話されたものとする。なお、訂正スイッチ操作が入力されるのは、使用者が図２３（ｌ）に示す画面上で、「パーク」に対応する「取り消し」ボタンが押下することにより、「パークを取り消し」を行った場合である。

ステップＳ３１１では、訂正受理部１０６は、訂正発話Ｂ、または訂正操作Ｂに対する認識処理を行い、訂正情報Ｘｊ´を生成する。図２３（ｇ）に示す「パークを取り消し」の訂正発話Ｂが行われた場合には、訂正受理部１０６は、訂正情報Ｘｊ´として「キーワード＝パーク、訂正情報＝取り消し」を生成して取得する。訂正受理部１０６は、生成した訂正情報を前段認識結果提示部１０５、検索式生成部１１１、およびＤＢ検索部１１２へ出力する。その後、ステップＳ２１２へ進む。

ステップＳ３１２では、ＤＢ検索部１１２は、入力された訂正情報Ｘｊ´の訂正元となった提示対象認識結果Ｘｊに関する検索式を用いたＤＢ検索処理が終了しているか否かを判断する。検索が終了していないと判断した場合には、ステップＳ３０４へ戻り、前段認識結果提示部１０５は、図２３（ｈ）に示すように、入力された訂正情報Ｘｊ´を反映して提示対象認識結果Ｘｊを修正する。そして、前段認識結果提示部１０５は、その結果を画面表示にも反映する。例えば、前段認識結果提示部１０５は、訂正情報Ｘｊ´に基づいて提示対象認識結果Ｘｊから、「パーク」を取り消した場合には、「パーク」とそれに対応する「取り消し」および「確定」の各ボタンを淡色表示に変更する。

また、検索式生成部１１１は、訂正情報Ｘｊ´を反映して、生成した検索式を訂正する。例えば、検索式生成部１１１は、図２３（ｎ）で網掛け表示で表している検索式、すなわち検索式に「パーク」を含む検索式を削除する。

一方、ステップＳ３１２で、既に検索が終了していると判断した場合には、ステップＳ３１３へ進む。ステップＳ３１３では、訂正情報Ｘｊ´に基づいて、訂正された提示対象認識結果Ｘｊを含む検索式によって得られた認識結果に対し、付与スコアを相殺するようなペナルティを与えて、認識結果に訂正内容を反映する。あるいは、訂正された提示対象認識結果Ｘｊを含まない検索式によって得られた認識結果に対して、付与スコアを加算するようにボーナスを与える等の処理を行うことで、認識結果に訂正内容を反映してもよい。また、対応する検索結果を一旦削除した上で、訂正情報Ｘｊ´を反映した検索式で再度ＤＢを検索し、スコアリングする方法をとってもよい。

その後、上述したステップＳ３０７へ進み、全ての検索式が発行済みであると判断した場合には、ステップＳ３１４へ進む。ステップＳ３１４では、ＤＢ検索部１１２は、ここまでの一連のＤＢ検索の結果、確信度が高い結果が得られたか否かを判断する。ここでは、上述したＤＢ検索部１１２が算出した認識スコアが所定の条件を満たす認識結果があるか否かを判断する。なお、「所定の条件」としては、例えば「第１位と第２位のスコア比が２倍以上」等とすればよい。所定の条件を満たす認識結果があると判断した場合には、他の候補に比べて十分有意差のある認識結果が得られたと判断し、ＤＢ検索部１１２は、図２３（ｊ）に示すように、その認識結果を理解結果として生成して、処理を終了する。

なお、音声認識装置１００をナビゲーション装置に適用した場合には、図２３（ｋ）に示すように、ナビゲーション装置側で、ＤＢ検索部１１２によって生成された理解結果に基づいて、使用者が発話した目的地が特定され、目的地設定の音声提示、および目的地へのルート計算が行なわれる。

これに対して、所定の条件を満たす認識結果がないと判断した場合には、ステップＳ３１５へ進む。ステップＳ３１５では、十分な確信度をもつ結果が得られなかったため、新たなキーワードを取得するため、使用者に対して新たな発話を促す提示が行われる。例えば、キーワードとして「ヨコハマ」のみが得られており、ＤＢ検索の結果、大量の「横浜○○」「××横浜」といった施設が抽出されているにも関わらず、その中に確信度が高い施設が無い場合には、「横浜のなんと言う施設ですか？」といった質問を使用者に提示して、ステップＳ３０１へ戻る。

これに対応して、使用者が「ランドマークタワー」と発話し、新たなキーワード「ランド」や「タワー」が提示対象認識結果Ｘｊとして選択された場合には、この提示対象認識結果Ｘｊに基づいて再度検索式を生成し、ＤＢ検索及びスコアリングを行う。そして、ＤＢ検索部１１２は、一度目のスコアリング結果とスコアを重ね合わせた上で、確信度の判定を行う。

なお、ステップＳ３１５の別の方法として、音素認識結果を用いたスコアリングも考えられる。これは、キーワード認識と共に音素認識(サブワード)結果を並列して取得する構成とし、キーワードに基づくＤＢ検索から確信度の高い結果が得られない場合に、音素列とＤＢ中の音素列データとを照合してスコアリングを行うものである。この場合の前段辞書の構築例を図２５（ａ）に、ＤＢの記憶例を図２５（ｂ）に示す。

図２５（ｂ）に示すＤＢ中には、各データ(施設名称)に対応する音素列データ２５ａが記録されており、キーワード検索で十分な確信度が得られない場合、この音素列と、前段認識結果の音素列とを照合して、公知のＤＰマッチングやＳｈｉｆｔＣＤＰ等を行うことによりスコアリングを施して、スコアリング結果２５ｂを得る。このスコアリング結果２５ｂに基づいて、最も適合する音素系列を見つけ出すことができる。

この音素列比較手法では、ＤＢ側の任意の音素部分系列に対し、認識音素列との最適整合性が計算されるため、発話音声ＡがＤＢに登録されたデータに完全に一致した言い回しでない場合であっても、適合する音素系列部分を抽出することが可能である。なお、これを発展させた方法として、音素列の変わりに言語依存性の少ないユニバーサル中間符号系という音声記号を用いた、語彙フリー音声検索方法も公知の手法として知られている。

例えば、図２５（ａ）に示す例では、発話音声Ａとして「東京タワー」が入力された場合の処理の流れを示している。この発話音声Ａからは、キーワード系列「トウキョウ」および音素系列「ｔｏ：ｃｈｏ：ｔｏｗａ：（トウチョウトワー）」が得られる(「：」は長音音素の記号)。まず、ＤＢ検索部１１２は、キーワードに基づくＤＢ検索、およびスコアリングを行う。このとき、キーワード「トウキョウ」からは「東京○○」のようなデータが大量に検出され十分な確信度の結果を取得できない(尚、この時キーワードとして「タワー」が同時に取得されていた場合は、検索式「トウキョウ∩タワー」により、「東京タワー」に高スコアが付与される)。

そこで、ＤＢ検索部１１２は、音素列「ｔｏ：ｃｈｏ：ｔｏｗａ：（トウチョウトワー）」に対して照合及びスコアリングが行われる。結果として「東京タワー」が高スコアとなり、確信度が、上羽した所定の条件を満たしていれば、結果の提示及び機器の制御が行われる。

以上説明した第４の実施の形態によれば、第１の実施の形態における作用効果に加えて、以下のような効果を得ることができる。すなわち、前段認識結果に基づいて生成した検索式を用いてデータベース検索を行う複合音声検索手法において、前段認識結果の使用者による訂正を受容する構成とすることによって、後段のＤＢ検索の検索式を効率的に訂正することができる。このため、検索対象を適切に絞り込むことができ、検索に必要なリソースが削減できると共に、検索結果の正解精度も向上させることができる。

―変形例―
なお、上述した実施の形態の音声認識装置は、以下のように変形することもできる。
（１）上述した第１〜第４の実施の形態では、前段認識部１０２は、キーワードスポット認識を行って、発話音声Ａに含まれるキーワードを認識する例について説明した。しかしながら、前段認識部１０２は、公知の単語認識処理を行って、発話音声Ａに含まれる単語をキーワードとして認識するようにしてもよい。

（２）上述した第１〜第４の実施の形態では、前段認識結果提示部１０５は、前段認識処理で認識した前段認識結果候補Ｘｉの中から選択した提示対象認識結果Ｘｊを使用者に提示するようにした。しかしながら、前段認識結果提示部１０５は、前段認識処理で認識した前段認識結果候補Ｘｉを使用者に提示するようにしてもよい。

なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。

特許請求の範囲の構成要素と実施の形態との対応関係について説明する。音声入力部１０１は音声入力手段に、前段認識部１０２はキーワード認識手段に、前段認識結果提示部１０５は提示手段に相当する。訂正受理部１０６は訂正手段に、辞書切替部１０４は辞書構築手段に相当する。後段認識部１０８は発話音声認識手段に、手操作入力部１１０は操作手段に相当する。なお、以上の説明はあくまでも一例であり、発明を解釈する際、上記の実施形態の記載事項と特許請求の範囲の記載事項の対応関係に何ら限定も拘束もされない。

第１の実施の形態における音声認識装置の一実施の形態の構成を模式的に示した図である。第１の実施の形態における音声認識装置１００の一実施の形態の構成を示すブロック図である。キーワードスポット認識処理の具体例を示す図である。第１の実施の形態における音声認識装置１００の具体的な処理の流れを示す第１の図である。第１の実施の形態における音声認識装置１００の具体的な処理の流れを示す第２の図である。第１の実施の形態における音響的に類似する語彙の組み合わせを記憶したテーブルの具体例を示す図である。第１の実施の形態における各キーワードに対する後段認識辞書のサイズの具体例を示す図である。第２の実施の形態における音声認識装置１００の一実施の形態の構成を示すブロック図である。第２の実施の形態における音声認識装置１００の具体的な処理の流れを示す第１の図である。第２の実施の形態における音声認識装置１００の具体的な処理の流れを示す第２の図である。第３の実施の形態における音声認識装置の一実施の形態の構成を模式的に示した図である。第３の実施の形態における音声認識装置１００の一実施の形態の構成を示すブロック図である。第３の実施の形態における音声認識装置１００の具体的な処理の流れを示す図である。第３の実施の形態における、画面表示と手操作入力を用いた訂正処理の具体例を示す第１の図である。第３の実施の形態における、画面表示と手操作入力を用いた訂正処理の具体例を示す第２の図である。第３の実施の形態における、画面表示と手操作入力を用いた訂正処理の具体例を示す第３の図である。第３の実施の形態における、画面表示と手操作入力を用いた訂正処理の具体例を示す第４の図である。第３の実施の形態における、画面表示と手操作入力を用いた訂正処理の具体例を示す第５の図である。第４の実施の形態における音声認識装置１００の一実施の形態の構成を示すブロック図である。第４の実施の形態における前段辞書の具体例を示す図である。第４の実施の形態におけるＤＢの記憶例を示す図である。第４の実施の形態における音声認識装置１００の具体的な処理の流れを示す第１の図である。第４の実施の形態における音声認識装置１００の具体的な処理の流れを示す第２の図である。第４の実施の形態における検索式と付与スコアの具体例を示す図である。第４の実施の形態における音素認識結果を用いたスコアリング方法の具体例を示す図である。

符号の説明

１００音声認識装置
１０１音声入力部
１０２前段認識部
１０３前段辞書記憶部
１０４辞書切替部
１０５前段認識結果提示部
１０６訂正受理部
１０７訂正用語彙記憶部
１０８後段認識部
１０９後段辞書記憶部
１１０手操作入力部
１１１検索式生成部
１１２ＤＢ検索部
１１３ＤＢ
２０１マイクロフォン
２０２ＡＤ変換部
２０３演算装置
２０４記憶装置
２０５ＤＡ変換部
２０６スピーカ

Claims

使用者の発話音声を入力する音声入力手段と、
複数の認識対象語彙に含まれるキーワードの集合を待ち受け単語として、入力された前記発話音声に含まれるキーワードを認識するキーワード認識手段と、
前記キーワード認識手段による認識結果のキーワードを使用者に提示する提示手段と、
前記提示されたキーワードの選択による訂正に基づいて、前記キーワード認識手段による認識結果のキーワードを訂正する訂正手段と、
前記訂正手段で訂正されたキーワード、及び前記認識されたキーワードのうち前記訂正手段で訂正されていないキーワードの集合を待ち受け単語とする待ち受け単語辞書を構築する辞書構築手段と、
前記辞書構築手段で構築された前記待ち受け単語辞書を用いて、前記入力された発話音声を認識する発話音声認識手段とを備えることを特徴とする音声認識装置。
請求項１に記載の音声認識手段において、
前記訂正手段は、使用者による前記音声入力手段を介した音声入力により、前記訂正を受け付けることを特徴とする音声認識装置。
請求項１に記載の音声認識手段において、
使用者によって操作される操作手段をさらに備え、
前記訂正手段は、使用者による前記操作手段の操作により、前記訂正を受け付けることを特徴とする音声認識装置。
請求項１〜３のいずれか一項に記載の音声認識装置において、
前記提示手段は、前記キーワード認識手段によって認識された認識キーワードのうち、その認識スコアが所定の範囲内にある前記認識キーワードを抽出して、使用者に提示することを特徴とする音声認識装置。
請求項１〜３のいずれか一項に記載の音声認識装置において、
前記提示手段は、前記キーワード認識手段によって認識された認識キーワードのうち、音響的な特徴が類似する前記認識キーワードを優先して抽出し、使用者に提示することを特徴とする音声認識装置。
請求項１〜３のいずれか一項に記載の音声認識装置において、
前記提示手段は、前記キーワード認識手段によって認識された認識キーワードのうち、前記待ち受け単語辞書のデータサイズを小さくできる前記認識キーワードを優先して抽出し、使用者に提示することを特徴とする音声認識装置。
請求項１〜３のいずれか一項に記載の音声認識装置において、
前記提示手段は、前記キーワード認識手段によって認識された認識キーワードのうち、前記認識対象語彙内に同時に出現する可能性が低い前記認識キーワードを優先して抽出し、使用者に提示することを特徴とする音声認識装置。
請求項１〜７のいずれか一項に記載の音声認識装置において、
前記提示手段および前記訂正手段による処理と、前記辞書構築手段および前記発話音声認識手段による処理を並行して実行することを特徴とする音声認識装置。
請求項１〜８のいずれか一項に記載の音声認識装置において、
前記辞書構築手段は、前記キーワード認識手段で認識された認識キーワードが複数ある場合には、前記訂正手段によって訂正された後の各キーワードを含む前記認識対象語彙の和集合により、前記待ち受け単語辞書を構築することを特徴とする音声認識装置。
請求項１〜８のいずれか一項に記載の音声認識装置において、
前記訂正手段は、前記認識キーワードの取り消しまたは追加を受け付け、
前記辞書構築手段は、前記取り消しまたは追加された後の前記認識キーワードに基づいて、前記待ち受け単語辞書を構築することを特徴とする音声認識装置。
請求項１〜８のいずれか一項に記載の音声認識装置において、
前記辞書構築手段は、前記キーワード認識手段で認識された認識キーワードの前記発話音声内における出現位置を特定し、前記認識キーワードの出現位置に基づいて、前記待ち受け単語辞書を構築することを特徴とする音声認識装置。
請求項１〜８のいずれか一項に記載の音声認識装置において、
前記辞書構築手段は、前記訂正手段で訂正されたキーワードを加味して、前記発話音声を認識するための待ち受け単語辞書を検索するための検索式を生成し、前記検索式を用いて検索した前記認識対象語彙を含むように、前記待ち受け単語辞書を構築することを特徴とする音声認識装置。
複数の認識対象語彙に含まれるキーワードの集合を待ち受け単語として、入力された発話音声に含まれるキーワードを認識し、
前記認識結果のキーワードを使用者に提示し、
前記提示されたキーワードの選択による訂正に基づいて、前記認識結果のキーワードを訂正し、
前記訂正されたキーワード、及び前記認識されたキーワードのうち前記訂正手段で訂正されていないキーワードの集合を待ち受け単語とする待ち受け単語辞書を構築し、
前記構築された前記待ち受け単語辞書を用いて、前記入力された発話音声を認識することを特徴とする音声認識方法。