[go: up one dir, main page]

JP4867654B2 - 音声認識装置、および音声認識方法 - Google Patents

音声認識装置、および音声認識方法 Download PDF

Info

Publication number
JP4867654B2
JP4867654B2 JP2006354945A JP2006354945A JP4867654B2 JP 4867654 B2 JP4867654 B2 JP 4867654B2 JP 2006354945 A JP2006354945 A JP 2006354945A JP 2006354945 A JP2006354945 A JP 2006354945A JP 4867654 B2 JP4867654 B2 JP 4867654B2
Authority
JP
Japan
Prior art keywords
recognition
keyword
dictionary
correction
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006354945A
Other languages
English (en)
Other versions
JP2008164975A (ja
Inventor
大介 斎藤
景子 桂川
実 冨樫
健 大野
英治 外塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2006354945A priority Critical patent/JP4867654B2/ja
Priority to US11/938,802 priority patent/US7949524B2/en
Publication of JP2008164975A publication Critical patent/JP2008164975A/ja
Application granted granted Critical
Publication of JP4867654B2 publication Critical patent/JP4867654B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Description

本発明は、音声を認識するための音声認識装置、および音声認識方法に関する。
次のような音声認識装置が知られている。この音声認識装置は、認識対象語が複数の語を階層的に繋ぎ合わせたものである場合に、上位階層テンプレートを用いて上位階層の語を認識した後に、上位階層の語に対応する下位階層テンプレートを用いて下位階層の語を認識することで、入力された音声を認識するものである(例えば、特許文献1)。
特開2001−306088号公報
しかしながら、従来の音声認識装置は、上位階層の語を認識した後に、上位階層の語に対応する下位階層テンプレートを用いて下位階層の語を認識するため、上位階層の語を認識する際に誤認識が発生した場合には、下位階層の語も正しく認識できないという問題が生じていた。
本発明は、複数の認識対象語彙に含まれるキーワードの集合を待ち受け単語として、入力された発話音声に含まれるキーワードを認識し、認識結果のキーワードを使用者に提示し、提示されたキーワードの選択による訂正に基づいて、認識結果のキーワードを訂正し、訂正されたキーワード、及び認識されたキーワードのうち訂正されていないキーワードの集合を待ち受け単語とする待ち受け単語辞書を構築し、待ち受け単語辞書を用いて、入力された発話音声を認識することを特徴とする。
本発明によれば、キーワードの認識結果を使用者に提示し、提示した内容の訂正を受け付けて、キーワードの認識結果を訂正するようにした。そして、その訂正結果を加味して、発話音声を認識するための待ち受け単語辞書を構築して発話音声を認識するようにした。これによって、キーワードの認識結果に誤りがあった場合でも、それを訂正して発話音声を正しく認識することができる。
―第1の実施の形態―
図1は、第1の実施の形態における音声認識装置の一実施の形態の構成を模式的に示した図である。音声認識装置100は、マイクロフォン201と、AD変換部202と、演算装置203と、記憶装置204と、DA変換部205と、スピーカ206とで構成される。
図2は、第1の実施の形態における音声認識装置100の一実施の形態の構成を示すブロック図である。音声認識装置100は、音声入力部101と、前段認識部102と、前段辞書記憶部103と、辞書切替部104と、前段認識結果提示部105と、訂正受理部106と、訂正用語彙記憶部107と、後段認識部108と、後段辞書記憶部109とを備えている。以下、図2に示す各要素について、図1との対応を示しながら説明する。
音声入力部101は、使用者の発話音声A、および訂正音声Bを取得する。この音声入力部101は、図1に示したマイクロフォン201と、AD変換部202とで構成され、発話音声A、および訂正音声Bのアナログ音声信号をデジタル音声信号に変換して、前段認識部102へ出力する。
前段認識部102は、音声入力部101から入力される発話音声Aの一部、あるいは全てを対象として、公知のキーワードスポット認識を実行して、発話音声Aに含まれるキーワード候補を認識する。この前段認識部102は、図1に示した演算装置203によって実現される。前段辞書記憶部103は、前段認識部102によるキーワードスポット認識で使用されるキーワードスポット辞書(前段辞書)を記憶した記憶媒体であり、記憶装置204によって実現される。前段認識部102は、前段辞書記憶部103からキーワードスポット辞書を読み込んで、キーワードスポット認識を実行する。以下、キーワードスポット辞書を用いたキーワードスポット認識処理の具体例について、図3を用いて説明する。
図3(a)は、発話者が「東京タワー」と発話した場合のキーワードスポッティングと単語認識から構成される多段認識処理の具体例を示した図である。すなわち、前段認識部102による前段認識処理と、後述する後段認識部108による後段認識処理とを実行して入力された発話音声を認識する場合の具体例を示している。
前段認識部102は、前段辞書記憶部103からキーワードを認識語彙としたキーワードスポット辞書を読み込んで、発話音声「東京タワー」に含まれるキーワード「トウキョウ」を認識する。なお、キーワードスポット辞書は、図3(b)に示すように、Garbage+キーワード+Garbageという接続構成となっており、キーワードを語頭、語中、語尾のいずれかに含む語彙からキーワードのみを認識することが可能である。ここで、Garbageは、キーワードに含まれない語彙を吸収する為のモデルであり、一般的には、「えーと」等の不要語や「東京都の○○ホテル」における「の」のような間投詞を適切に吸収する為に用いられることが多い。
例えば、語彙「東京タワー」が入力された場合には、前段認識部102は、図3(b)に示すキーワードスポット辞書を用いて前段処理を実行し、「トウキョウ」をキーワード候補(認識キーワード候補)として選択する。前段認識処理においては、「タワー」の部分はGarbageで吸収される。そして、後述する後段認識部108による後段認識処理で、前段認識部102が認識した認識キーワード候補を含む語彙、例えば「東京タワー」や「○○東京」等を集約した認識辞書を後述する後段辞書記憶部109から読み込んで、再度発話音声を認識する。これによって、最終的に発話された語彙「東京タワー」が認識される。
また、本方式におけるキーワードの選定基準としては、所定以上の認識語が含む共通音素とすることが考えられる。例えば「とうきょう」、「よこはま」といった地名から構成される共通音素や、「ホテル」、「インター」等施設の種別から構成される共通音素をキーワードとする。あるいは、単純に文字列としての共通音素、例えば、「文化センター」と「ショッピングセンター」に共通する「センター」をキーワードとしてもよく、さらには音素列としての共通部分、例えば「yokohamaiiN(横浜医院)」や「atsugiiNta(厚木インター)」に共通する「iiN(イイン)」をキーワードとしてもよい。
辞書切替部104は、前段認識部102による前段認識処理にて得られた認識キーワード候補に基づいて、後述する後段認識部108による後段認識処理時に使用する待ち受け単語辞書(後段辞書)を切替える。なお、辞書切替部104は、基本的には前段認識処理で得られた認識キーワード候補に基づいて辞書切替を行うが、後述するように、訂正受理部106で訂正音声Bが受理された場合には、該訂正内容を反映した辞書切替を行う。辞書切替部104は、演算装置203によって実現される。
前段認識結果提示部105は、前段認識部102によって認識された前段認識結果(前段認識結果候補)、すなわち認識キーワード候補を使用者に対して音声で出力して提示する。また、後述する訂正受理部106で前段認識結果の訂正を受理した場合には、訂正後の前段認識結果の候補を提示する。この前段認識結果提示部105は、DA変換部205とスピーカ206とを組み合わせることで実現される。
訂正受理部106は、使用者の訂正音声Bを認識して訂正情報を生成し、生成した訂正情報を辞書切替部104、および前段認識結果提示部105へ出力する。訂正音声Bとは、前段認識結果提示部105によって、発話音声Aの前段認識結果候補が出力されたときに、その出力内容に基づいて使用者が認識結果に誤りがあると判断した場合に、再度入力される訂正発話の発話音声をいう。なお、訂正受理部106は、後述するように、訂正用語彙記憶部107に記憶された語彙(訂正語彙)と前段認識結果候補とを組み合わせて、訂正音声Bを認識するための訂正用認識辞書を動的に生成し、当該訂正用認識辞書を用いて訂正音声Bを認識する。この訂正受理部106は、演算装置203によって実現される。
訂正用語彙記憶部107は、訂正受理部106で訂正音声Bを認識するための訂正用認識辞書を生成するための語彙を記憶している。この訂正用語彙記憶部107は、記憶装置204により実現される。
後段認識部108は、辞書切替部104による辞書切替結果に基づいて、対応する後段辞書を後段辞書記憶部109から読み込む。そして、読み込んだ後段辞書を用いて、発話音声Aに対して再認識処理を施す。後段認識部108は、演算装置203によって実現される。
後段辞書記憶部109は、後段認識部108が初期発話Aを認識するために使用する認識対象語彙を記憶している。すなわち、辞書切替部104によって切替対象となる後段辞書群を記憶している。この後段辞書記憶部109は、記憶装置204により実現される。なお、本実施の形態においては、後段辞書記憶部109に、あらかじめ全てのキーワードに対応する辞書を静的に保持し、後段認識部108は、辞書切替部104による切替結果に応じて対応する後段辞書を読み込む形態としても良いし、キーワードが取得される都度、新たに当該キーワードを含む後段辞書を動的に構築(構成)する形態としてもよい。
第1の実施の形態における音声認識装置100の具体的な処理の流れを図4および図5を用いて説明する。なお、図5は、図4に示すフローチャートに即して使用者の発話内容とシステムの応答内容の関係を具体的に示したものである。図5(a)〜(l)はシステムと使用者のやり取り、およびシステムの内部処理状態を示しており、図5(m)、(n)、および(o)は、それぞれ図5(a)、(e)、および(j)の段階でシステムが認識対象として展開している辞書の内容を示している。
ステップS101において、前段認識部102は、図5(a)に示すように、前段辞書記憶部103から前段辞書を読み込む。前段辞書としては、上述したように、例えば図5(m)に示すようなキーワードスポット辞書が読み込まれる。その後、ステップS102へ進み、前段認識部102は、音声入力部101を介して入力される使用者の発話音声Aを取得する。例えば、図5(b)に示すように、使用者が発話した「パークハイアット東京」の音声データを発話音声Aとして取得する。その後、ステップS103へ進む。
ステップS103では、前段認識部102は、キーワードスポット辞書を用いて前段認識処理を行って、n個の認識キーワード、すなわち前段認識結果候補Xi(i=1〜n)を取得する。例えば、図5(c)に示すように、「パーク」、「ヨット」、「トウキョウ」、「トウキュウ」、「キョウト」、および「コウコウ」の6個の認識キーワード候補を、前段認識結果候補Xiとして取得する。前段認識部102は、取得した前段認識結果候補Xiを、辞書切替部104および前段認識結果提示部105へ出力して、ステップS104へ進む。
ステップS104では、前段認識結果提示部105は、前段認識部102で取得された前段認識結果候補Xiから、使用者に対して提示するキーワード、すなわち提示対象認識結果Xj(j=対象となる認識結果のインデックス)を選択する。前段認識結果提示部105は、認識スコアや認識順位等の指標から前段認識結果候補Xiに対し優先度を付け、優先度の高いキーワードを一つもしくは複数選択して提示対象認識結果Xjとする。本実施の形態では、後述するように前段認識結果候補Xiから各キーワードの認識スコアに基づいて優先度を付けて、提示対象認識結果Xjを選択する。
なお、提示対象認識結果Xjとして複数のキーワードを選択する場合には、使用者に対して多くのキーワードを提示すると、使用者の混乱を招く恐れがあるため、例えば優先度の高いものから2、3個程度に留めることが望ましい。例えば、前段認識結果提示部105は、認前段識結果Xiの中から、図5(d)に示すように、1.「パーク」、2.「ヨット」3.「トウキョウ」の3つのキーワードを提示対象認識結果Xjとして選択する。前段認識結果提示部105は、選択した提示対象認識結果Xjを訂正受理部106へ出力する。その後、ステップS105へ進む。
ステップS105では、訂正受理部106は、後述するように使用者によって発話される訂正音声Bを待ち受けるための辞書として、入力された提示対象認識結果Xjと、訂正用語彙記憶部107に記憶された訂正語彙とを組み合わせた訂正用認識辞書を構築し、これを読み込む(図5(e))。使用者が発話する可能性が高い最も単純な訂正音声Bとしては、提示対象認識結果Xjから誤認識となったキーワードを除外するための「取り消し」が考えられる。
例えば、訂正音声Bとして「ヨットを取り消し」などが入力されることが考えられる。したがって、訂正受理部106は、例えば、図5(n)に示すように、提示対象認識結果Xjとして選択された「パーク」、「ヨット」、「トウキョウ」、訂正語彙「取り消し」、およびGarbageを組み合わせた訂正用認識辞書を構築する。これによって、訂正受理部106は、訂正音声Bとして「ヨットを取り消し」が入力された場合に、この訂正用辞書を用いて当該訂正音声Bを認識することができる。
また、これとは逆に、使用者が、提示対象認識結果Xjから確実なキーワードを選択するために、訂正音声Bとして「確定」を発話する可能性もある。よって、訂正用認識辞書を構成する訂正語彙に「確定」も含めておけば、「トウキョウを確定」といった訂正音声Bが入力された場合に、これを受理することができる。あるいは、システムの側が「取り消し」のみを訂正音声Bとして受け付ける構成とした場合に、例えば「取り消し項目があれば発話してください」のように提示するならば、訂正用認識辞書としては、単純に提示対象認識結果Xjを受理するものとしても良い。
なお、音声のみで訂正発話を受け付ける場合には、訂正発話にも誤認識のリスクが伴う。このため、上述した「取り消し」や「確定」のような単純な語彙のみを訂正語彙として受理できるように訂正用認識辞書を構築することが望ましい。より高度な訂正、例えば語頭や語尾といった出現位置の訂正や、複数キーワードの論理和、論理積といったキーワードの含有条件等の訂正に関しては、不図示の表示装置(ディスプレイ)等との併用を前提とした場合に有効と考えられる。表示装置の併用を用いた高度な訂正については第3の実施の形態で後述する。
その後、ステップS106へ進み、前段認識結果提示部105は、前段認識結果候補Xiのうち、ステップS104で選択した提示対象認識結果Xjを用いて使用者への提示を行う。提示内容としては、例えば、図5(f)に示す「パーク、ヨット、トウキョウの何れかを含む施設からお調べします」のように、提示対象認識結果Xjを単純に列挙したシステム発話を出力して、使用者に提示対象認識結果Xjを提示する。
あるいは、提示対象認識結果Xjを列挙した後、「〜でよろしいですか?」と使用者の返答を求めるようにしてもよく、上述したように「取り消し」や「確定」のみを訂正音声Bとして受け付けることを前提とし、提示対象認識結果Xjを列挙した後、「訂正または確定項目があれば発話してください」のようなシステム発話を出力するようにしてもよい。この他、「○○ですか、××ですか?」のように、複数の提示対象認識結果Xjから単一のXjを選択させるようなシステム発話を出力するようにしてもよい。
その後、ステップS107へ進み、訂正受理部106は、訂正音声Bが入力されたか、すなわち訂正音声Bを取得したか否かを判断する。訂正音声Bが入力されたと判断した場合には、ステップS108へ進む。ステップS108では、訂正受理部106は、上述した訂正用認識辞書を用いて訂正音声Bに対する音声認識処理を行う。例えば、図5(g)に示すように、「ヨットを取り消し」という訂正音声Bが入力された場合には、図5(n)に示す訂正用認識辞書を用いて、「ヨット−(Garbage)−取り消し」という認識結果を得る。その後、ステップS109へ進む。
ステップS109では、訂正受理部106は、訂正音声Bの認識結果に基づいて訂正情報を生成する。例えば、「ヨット−(Garbage)−取り消し」を認識した場合には、訂正情報として、Xj´「キーワード=ヨット、訂正内容=取り消し」を生成して取得する。そして、生成した訂正情報Xj´を、辞書切替部104および前段認識結果提示部105へ出力する。その後、ステップS104へ戻り、前段認識結果提示部105は、入力された訂正情報Xj´に基づいて、提示対象認識結果Xjを修正する。例えば図5(h)に示すように、提示対象認識結果Xjから、「2.ヨット」を取り消して新たな提示対象認識結果Xjとする。
これに対して、訂正音声Bが入力されないと判断した場合には、訂正受理部106は、提示対象認識結果Xjを辞書切替部104へ出力して、ステップS110へ進む。なお、ステップS106で、前段認識結果提示部105が「パーク、ヨット、トウキョウの何れかを含む施設から検索してよろしいですか?」等の質問形式のシステム発話を出力して提示対象認識結果Xjを提示した場合には、肯定発話、例えば「はい」が認識された場合に、ステップS110へ進むようにしてもよい。
ステップS110では、辞書切替部104は、入力された提示対象認識結果Xjに基づいて、後段辞書を展開する。例えば、図5(j)に示すように、訂正情報Xj´「キーワード=キョウト、訂正内容=取り消し」を反映させた提示対象認識結果Xj、すなわちキーワード「パーク」および「トウキョウ」を含む語彙で構成される後段辞書を構築する。具体的には、辞書切替部104は、図7(o)に示すように、後段認識処理で使用する後段辞書を、キーワード「パーク」を含む語彙の集合であるパーク後段辞書と、キーワード「トウキョウ」を含む語彙の集合であるトウキョウ後段辞書とを後段辞書記憶部109から読み込むことで、後段認識辞書を切り替える。
そして、後段認識部108は、このパーク後段辞書とトウキョウ後段辞書とを読み込んで、発話音声Aに対して後段認識を行う。すなわち、発話音声Aをパーク後段辞書を用いて認識した結果と、トウキョウ後段辞書を用いて認識した結果とのそれぞれの認識結果を得る。その後、ステップS111へ進み、後段認識部108は、各後段辞書から得られた認識結果を整理し、最終的な認識結果である理解結果を生成する。例えば、図5(k)に示すように、理解結果「パークハイアット東京」を生成する。その後、処理を終了する。
なお、音声認識装置100をナビゲーション装置に適用した場合には、図5(l)に示すように、ナビゲーション装置側で、後段認識部108によって生成された理解結果に基づいて、使用者が発話した目的地が特定され、目的地設定の音声提示、および目的地へのルート計算が行なわれる。
以下、上述のステップS106における提示対象認識結果Xjを選択するための優先度付与方法と、該優先度に基づくXjの提示方法について、1.認識スコアを利用する方法、2.誤認識しやすい語彙の組み合わせに着目した方法、3.後段辞書の絞込み効率性に着目した方法、4.前段認識候補の競合性の解消を目的とした方法の4つの例を用いて具体的に説明する。
1.認識スコアを利用した優先度付与方法(第1の方法)
第1の方法は、認識スコアが所定範囲内の語彙に対し、高い優先度を与えるものである。ここで言う認識スコアとは、音声認識システムが認識候補として抽出した語彙(前段認識結果候補Xi)に対する確信度合いを示す指標である。認識スコアが高い候補ほど、訂正の可能性が低い語彙ということになる。認識スコアとしては、例えば信頼度が利用できる。信頼度の算出方法としては、一般的な音声認識システムの出力する尤度(音響尤度や言語尤度)を用いるものや、競合単語(同時に出力された候補語彙)間の尤度差や尤度比に着目した正規化尤度、あるいは単語事後確率を用いるもの等がある。これらの信頼度算出方法は公知の方法のため、説明を省略する。
この方法を用いた場合、前段認識結果提示部105は、信頼度に基づく認識スコアが所定の範囲内に含まれる前段認識結果候補Xiについて高い優先度を設定して提示対象認識結果Xjとして選択する。所定の範囲とは、例えば認識率が40%以上95%以下となる場合の認識スコアとすればよい。認識率と認識スコアの対応は、音声コーパス等を用いて統計的に決定することができる。また、上限値及び下限値は、システムが適用される環境やシステム自体の素性に合わせて調整されることが望ましい。
認識スコアの上限及び下限で制限した場合には、たとえば上限(認識率95%)を上回る認識スコアの前段認識結果候補Xiが検出された場合には、その前段認識結果候補Xiは、訂正の可能性が極めて低いと予想して、使用者への提示を省略して、自動的に辞書切替の対象語彙とするようにしてもよい。一方、下限(認識率40%)を下回る認識スコアの前段認識結果候補Xiが検出された場合には、その前段認識結果候補Xiは誤認識である可能性が高いと予想し、使用者への提示及び訂正発話の受理を省略して、該語彙を自動的に辞書切替の対象語彙から除外するようにしてもよい。このようにした場合には、認識率が40%から95%の範囲内となる認識スコアの前段認識結果候補Xiが検出された場合にのみ、訂正の可能性があるとして提示対象認識結果Xjに選択され、訂正発話を促すための提示が行われる。
なお、上述の例では、上限値、下限値の2つの閾値を用いる例を示しているが、片方のみを閾値として設定し、該閾値を上回る、もしくは下回るものを提示対象認識結果Xjとしてもよい。前段認識結果提示部105は、当該第1の方法で算出した優先度が高い前段認識結果候補Xiを提示対象認識結果Xjとして選択した後、提示対象認識結果Xjを用いて訂正を受理するための情報提示を行う。
2.誤認識しやすい語彙の組み合わせに着目した方法(第2の方法)
第2の方法は、誤認識され易い語彙の組み合わせに着目し、誤認識され易い語彙に該当するキーワードが前段認識結果候補Xiに含まれる場合には、そのキーワードの優先度を高く設定し、設定した優先度に基づいて提示対象認識結果Xjを決定するものである。誤認識され易い語彙の組み合わせとは、音響的な特徴が類似する語彙を指す。例えば、音響モデルに登録された全語彙の音素列(サブワード列)に対する出力確率分布について考慮し、分布間の距離を語彙間の類似度として利用することが出来る。該類似度は、音素間距離とも呼ばれる。
この時、分布間の距離としては、公知のバタチャリヤ距離やKL距離等を用いることができる。そして、前段辞書に登録された全ての語彙について、この音素間距離から、音響的に類似する語彙の組み合わせに基づきクラスタリングを行い、該語彙の組み合わせをテーブルとして保持しておく。テーブルの記憶例を図6に示す。なお、複数のキーワードが連接して別のキーワードと音響的に類似するパターンもあるため、これについてもクラスタリングを行い該テーブルにて網羅することが望ましい。例えば、図6では、クラスタNo.2の「語彙1」が「イイン(iin)」+「タワー(tawa−)」の組み合わせとして登録されている。
前段認識結果提示部105は、このクラスタリング結果を反映したテーブルを参照し、前段認識結果候補Xiの中に該当する語彙(キーワード)が含まれている場合に、その前段認識結果候補Xiの優先度を高く設定し、提示対象認識結果Xjとする。これと共に、その提示対象認識結果Xjが訂正を受けた場合に、類似する語彙を追加提示する。以上の手順により、誤認識されやすいキーワードが提示対象認識結果Xjに含まれた場合で、かつ当該提示対象認識結果Xjを取り消す訂正情報が得られた場合(例えば、「キーワード=トウキョウ、訂正情報=取り消し」が取得された場合等)に、追加提示として、「トウキョウをトウキュウに置き換えますか?」のような提示を行うことにより、使用者が誤認識を訂正し易い提示を行うことができる。
3.後段辞書の絞込み効率性に着目した方法(第3の方法)
第3の方法は、前段認識結果候補Xiのうち、訂正情報が得られた場合に、後段認識の絞込みが効率よく行われる語彙に対して高い優先度を与えるものである。上述したように、本発明で用いる多段認識手法では、前段認識辞書に含まれる各語彙(キーワード)に、後段認識辞書に含まれる語彙(後段認識語彙)が関連付けられている。例えば、キーワード「トウキョウ」という前段認識辞書の語彙については、後段認識語彙「東京タワー」や「○○東京」等が登録された後段辞書が対応する。すなわち、各キーワードに対する後段認識辞書のデータサイズが既知であるため、訂正対象とする語彙の選択によって、ある程度後段認識の語彙サイズを制御することができる。
前段認識結果提示部105は、この点に着目して、提示対象認識結果Xjを選択する。例えば、図5(c)に示した例のように、前段認識結果候補Xi「1.パーク、2.ヨット、3.トウキョウ、4.トウキュウ、5.キョウト、6.コウコウ」の各キーワードが取得されたとする。ただし、簡単のため、この例では、上記6つのキーワードが同等の確信度で取得されているものとする。この時の各結果に対応する後段辞書のサイズの対応が、図7に示すようになっている場合に、提示対象認識結果Xjの選択方法としては、例えば以下の(A)および(B)の2通りがある。
(A)訂正音声Bとして「取り消し」を受理する場合
「取り消し」を受理する場合には、取り消し対象となる語彙に関連する後段辞書のサイズが大きいほど認識の効率が高い。よって、前段認識結果提示部105は、後段辞書のサイズの大きな語彙に対して高い優先度を与える。例えば、上述の6つのキーワードが取得された場合には、前段認識結果提示部105は、優先度上位3位として、コウコウ(サイズ=5645)、トウキョウ(サイズ=2454)、キョウト(サイズ=2052)を選択して、これらを提示対象認識結果Xjとする。そして、使用者に対して「コウコウ、トウキョウ、キョウトのいずれかを含む施設からお調べします。取り消し項目があれば発話してください。」のように提示を行う。その結果、使用者からの訂正音声Bとして「コウコウを取り消し」を取得した場合には、後段認識対象から、コウコウに対応する辞書を除外できるため、後段認識の効率が向上する。
(B)訂正音声Bとして「確定」を受理する場合
「確定」を受理する場合には、取り消しとは逆に、確定対象となる語彙に関連する後段辞書のサイズが小さいほど認識の効率が高い。よって、前段認識結果提示部105は、後段辞書のサイズの小さな語彙に対して高い優先度を与える。例えば、上述の6つのキーワードが取得された場合には、前段認識結果提示部105は、優先度上位3位として、パーク(サイズ=1341)、ヨット(サイズ=164)、トウキュウ(サイズ=204)を選択して提示対象認識結果Xjとする。そして、使用者に対して「パーク、ヨット、トウキュウの何れかを含む施設からお調べします」のように提示を行う。その結果、使用者からの訂正音声Bとして「パークを確定」を取得した場合には、後段認識対象を「パーク」に対応する辞書に限定できるため、効率が向上する。
なお、訂正音声Bとして「取り消し」と「確定」の両方を受理する構成とした場合には、前段認識結果提示部105は、後段辞書のサイズの大きいもの、及び小さいものから各々1つを提示対象認識結果Xjとして選択して提示するようにすればよい。
4.前段認識候補の競合性の解消を目的とした方法(第4の方法)
第4の方法は、前段認識候補の競合性に着目した提示方法である。上述したように、多段認識手法では、前段認識結果に基づき後段辞書を選択する。従って、対象となる後段辞書の全語彙を考えた場合、同時に出現する可能性が低い、または同時に出現する可能性が無いキーワードが複数考えられる。目的地の施設名称を認識語彙とした本実施の形態では、仮に施設の種別に関連の高いキーワード「ゴルフ」と「コウコウ」を双方含む施設が存在しないにもかかわらず、この2つが前段認識候補として検出された場合、少なくとも1つは誤認識である可能性が高い。同様に、地域に関連の高いキーワード「フクシマ」と「トクシマ」を双方含む施設が存在しない場合も同様である。
この同時出現可能性の有無については、事前に対象とする全語彙を解析することで知ることができる。なお、複数の競合キーワードが同時に出現する例外的な施設名称としては、「○○県庁前駅」(キーワード=「ケンチョウ」+「エキ」)や「神奈川銀行東京○○支店」(キーワード=「カナガワ」+「トウキョウ」、「東京都○○」(キーワード=「トウキョウ」+「キョウト」)等がある。
前段認識結果提示部105は、このような同時に出現する可能性が低い語彙「ゴルフ」、「コウコウ」が同時に検出された場合に、双方の優先度を高く設定して提示対象認識結果Xjする。そして、使用者に対して、「ゴルフ、コウコウを含む施設からお探しします」や、「ゴルフ、コウコウ、どちらを含む施設でしょうか?」のような提示を行い、「確定」もしくは「取り消し」の訂正音声Bの入力を促す。
また、上記の例外的な施設による競合キーワード出現の場合でも、その意味的な競合性に着目して訂正音声Bの入力を促す方法も考えられる。すなわち「東京都○○」という発話に対し、「トウキョウ」、「キョウト」が検出された場合に、「トウキョウ、キョウトいずれを含む施設でしょうか?」のような音素の並びとしての提示ではなく、意味的な競合性を強調して、「東京、京都、どちらを含む施設でしょうか?」のような提示を行う。仮に「京都」を取り消された場合も、音素列の並び「キョウト」を含む後段語彙のうち、「京都」に対応するもののみを除外するようにして辞書切替を行う。例えば、東京都を含む施設は音素列「キョウト」を含むが、除外せずに認識対象に残す。
以上説明した第1〜第4の方法は、単独で用いても良いが、組み合わせて使うことでより効率的に訂正情報を得ることができる。そして、これらの各方法を用いることによって、前段認識結果に基づいて辞書の切り替えを行って、後段認識の対象語彙を効果的に絞り込むことができる。このため、再認識に必要な計算リソースが削減されるのに加え、前段認識結果に含まれる誤認識に起因した後段認識の誤認識を低減でき、認識性能を向上させることができる。
以上説明した第1の実施の形態によれば、以下のような作用効果を得ることができる。
(1)前段認識処理によって発話音声Aに含まれるキーワード(前段認識結果候補Xi)を認識し、前段認識結果候補Xiの中から選択した提示対象認識結果Xjを使用者に提示するようにした。そして、提示対象認識結果Xjの使用者からの訂正を受け付け、訂正結果を加味して構築した後段辞書を用いて発話音声を認識するようにした。これによって、キーワード認識の結果に誤りがある場合でも、それを訂正して発話音声を正しく認識することができる。
(2)音声入力によって使用者による提示対象認識結果Xjの訂正を受け付けるようにした。これによって、使用者は容易に提示対象認識結果Xjを訂正することができる。
(3)前段認識処理で認識された前段認識結果候補Xiのうち、その認識スコアが所定の範囲内にあるキーワードを抽出して、提示対象認識結果Xjとして選択するようにした。これによって、明らかに誤認識しているものや、明らかに誤認識ではないものを除いた提示対象認識結果Xjを使用者に提示することができ、使用者が訂正対象を選択しやすくなる。
(4)前段認識処理で認識された前段認識結果候補Xiのうち、音響的な特徴が類似するキーワードを抽出して、提示対象認識結果Xjとして選択するようにした。これによって、システムが誤認識しやすい提示対象認識結果Xjを使用者に提示することができ、使用者が訂正対象を選択しやすくなる。
(5)前段認識処理で認識された前段認識結果候補Xiのうち、後段辞書のデータサイズを小さくできるキーワードを抽出して、提示対象認識結果Xjとして選択するようにした。これによって、後段辞書のデータサイズを小さくして、後段認識時のシステム負荷を低下させることができる。
(6)前段認識処理で認識された前段認識結果候補Xiのうち、認識対象語彙内に同時に出現する可能性の無い前記認識キーワードを優先して抽出して、提示対象認識結果Xjとして選択するようにした。これによって、誤って認識されている可能性が高いキーワードを使用者に提示することができ、使用者が訂正対象を選択しやすくなる。
―第2の実施の形態―
上述した第1の実施の形態では、前段認識処理を行なって認識結果を提示し、使用者による前段認識結果の訂正を受理を完了した後、後段認識処理を行う例について説明した。これに対して、第2の実施の形態では、前段認識処理が完了した後、すぐに後段認識処理を開始し、後段認識処理を行っている最中、または後段認識結処理が完了した後に、使用者による前段認識結果の訂正を受理する場合について説明する。なお、図1および図3については、第1の実施の形態と同様のため説明を省略する。
図8は、第2の実施の形態における音声認識装置100の一実施の形態の構成を示すブロック図である。なお、図8においては、第1の実施の形態で上述した図2と同じ構成要素には同じ符号を付加し、相違点を中心に説明する。前段認識結果提示部105は、選択した提示対象認識結果Xjを辞書切替部104および訂正受理部106へ出力する。また、訂正受理部106は、訂正情報を生成し、生成した訂正情報を辞書切替部104、前段認識結果提示部105、および後段認識部108へ出力する。
第2の実施の形態における音声認識装置100の具体的な処理の流れを図9および図10を用いて説明する。図9のフローチャートでは、ステップS205〜ステップS207が前段認識結果に基づく後段認識処理であり、ステップS208〜ステップS213は訂正発話に基づく提示対象認識結果Xj及び後段認識結果の変更処理(訂正受理及び認識結果修正処理)である。双方の処理はそれぞれ独立してなされる点が本実施の形態の特徴である。また、図10は、図9に示すフローチャートに即して使用者の発話内容とシステムの応答内容の関係を具体的に示したものである。図10(a)〜(k)はシステムと使用者のやり取り、および前段認識処理と訂正認識処理の流れを示しており、図10(l)〜(p)は後段認識処理の流れを示している。
ステップS201では、前段認識部102は、図10(a)に示すように、前段辞書記憶部103から前段辞書を読み込む。その後、ステップS202へ進み、前段認識部102は、音声入力部101を介して入力される使用者の発話音声Aを取得する。例えば、図10(b)に示すように、使用者が発話した「パークハイアット東京」の音声データを発話音声Aとして取得する。その後、ステップS203へ進む。
ステップS203では、前段認識部102は、前段辞書を用いて前段認識処理を行って、n個の前段認識結果候補Xi(i=1〜n)を取得する。例えば、図10(c)に示すように、「パーク」、「ヨット」、「トウキョウ」、「トウキュウ」、「キョウト」、および「コウコウ」の6個の認識キーワード候補を、前段認識結果候補Xiとして取得する。前段認識部102は、取得した前段認識結果候補Xiを、辞書切替部104および前段認識結果提示部105へ出力して、ステップS204へ進む。
ステップS204では、前段認識結果提示部105は、前段認識部102で取得された前段認識結果候補Xiから、使用者に対して提示するキーワード、すなわち提示対象認識結果Xj(j=対象となる認識結果のインデックス)を選択する。なお、前段認識結果提示部105は、第1の実施の形態と同様に、前段認識結果候補Xiに対して優先度を付けることによって、提示対象認識結果Xjを選択する。例えば、図10(d)に示すように、1.「パーク」、2.「ヨット」3.「トウキョウ」の3つのキーワードを提示対象認識結果Xjとして選択する。そして、前段認識結果提示部105は、選択した提示対象認識結果Xjを辞書切替部104および訂正受理部106へ出力する。
その後、ステップS205〜ステップS207の後段認識処理、およびステップS208〜ステップS213の訂正受理及び認識結果修正処理のそれぞれに進む。まず、ステップS205〜ステップS207の後段認識処理について説明する。
ステップS205では、辞書切替部104は、前段認識結果提示部105から入力された提示対象認識結果Xjを順次読み込み、提示対象認識結果Xjに対応する後段認識辞書を後段辞書記憶部109から読み込むことで、後段認識辞書を切り替える。そして、後段認識部108は、この後段認識辞書を読み込んで、ステップS206へ進む。ステップS206では、後段認識部108は、読み込んだ後段認識辞書を用いて、ステップS202で取得した発話音声Aに対して後段認識処理を行う。
具体的には、「確定」情報が得られている場合には、そのまま認識を行い、「取り消し」情報が得られている場合には、取り消されたキーワードに対応する後段認識を行わないようにする。あるいはいずれの場合も後段認識を行い、後述の認識結果統合処理にて訂正情報を反映させてもよい。例えば、図10(l)〜(o)に示すように、提示対象認識結果Xjのそれぞれに対応する認識処理を行い、「パーク辞書認識結果」、「ヨット辞書認識結果」、および「トウキョウ辞書認識結果」を取得する。その後、ステップS207へ進む。
ステップS207では、全ての提示対象認識結果Xjについて、後段認識が終了しているか否かを判断する。終了していると判断した場合には、後述するステップS214へ進む。これに対して、終了していないと判断した場合には、ステップS205へ戻って残りの提示対象認識結果Xjに対する後段認識処理を行う。
次に、ステップS208〜ステップS213の訂正受理及び認識結果修正処理について説明する。ステップS208では、訂正受理部106は、入力された提示対象認識結果Xjと、訂正用語彙記憶部107に記憶された訂正語彙とを組み合わせた訂正用認識辞書を構築し、これを読み込む(図10(e))。なお、使用者が発話する可能性が高い訂正音声Bとしては、第1の実施の形態と同様に「取り消し」や「確定」が考えられる。このため、訂正受理部106は、提示対象認識結果Xjとして選択された「パーク」、「ヨット」、「トウキョウ」、訂正語彙「取り消し」、「確定」、およびGarbageを組み合わせた訂正用認識辞書を構築する。その後、ステップS209へ進む。
ステップS209では、前段認識結果提示部105は、提示対象認識結果Xjを用いて使用者に対する提示を行う。例えば、図10(f)に示すように、「パーク、ヨット、トウキョウの何れかを含む施設でお調べ中です。」というシステム発話を出力する。その後、ステップS210へ進み、訂正受理部106は、訂正音声Bが入力されたか、すなわち訂正音声Bを取得したか否かを判断し、訂正音声Bが入力されたと判断した場合には、ステップS211へ進む。
ステップS211では、訂正受理部106は、訂正用認識辞書を用いて訂正音声Bに対する音声認識処理を行って、訂正情報Xj´を生成して取得する。例えば、使用者が、図10(g)に示すように、訂正音声Bとして「ヨットを取り消し」を発話した場合には、第1の実施の形態と同様に、訂正受理部106は、「ヨット−(Garbage)−取り消し」の認識結果に基づいて、訂正情報Xj´「キーワード=ヨット、訂正内容=取り消し」を生成する。訂正受理部106は、生成した訂正情報を辞書切替部104、前段認識結果提示部105、および後段認識部108へ出力する。その後、ステップS212へ進む。
ステップS212では、後段認識部108は、入力された訂正情報Xj´の訂正元となった提示対象認識結果Xjに関する後段認識が終了しているか否かを判断する。提示対象認識結果Xjに関する後段認識が終了していないと判断した場合には、ステップS204へ戻り、前段認識結果提示部105は、入力された訂正情報Xj´を反映して提示対象認識結果Xjを修正する。例えば、前段認識結果提示部105は、訂正情報Xj´として「キーワード=ヨット、訂正内容=取り消し」が入力された場合には、図10(h)に示すように、提示対象認識結果Xjから、「2.ヨット」を取り消して新たな提示対象認識結果Xjとする。
そして、ステップS209では、前段認識結果提示部105は、取消後の提示対象認識結果Xjを用いて使用者に対する提示を再度行う。例えば、図10(i)に示すように、「パーク、トウキョウを含む施設からお調べ中です」を再提示する。
これに対して、提示対象認識結果Xjに関する後段認識が終了していると判断した場合には、ステップS213へ進む。ステップS113では、後段認識部108は、入力された訂正情報Xj´を用いて、後段認識結果を修正する。具体的には、訂正情報Xj´として「確定」情報、例えば「パークを確定」が入力された場合には、確定されたキーワードに関する後段認識結果の認識スコアに対してボーナスを与え、認識結果の上位へと押し上げる。一方、訂正情報Xj´として「取り消し」情報、例えば「キーワード=ヨット、訂正内容=取り消し」が入力された場合には、取り消されたキーワードに関する後段認識結果の認識スコアに対してペナルティを与え、認識結果の下位へと押し下げる。
訂正情報Xj´として「キーワード=ヨット、訂正内容=取り消し」が入力された場合の具体例を図10(p)に示す。この例では、後段認識部108は、提示対象認識結果Xj「パーク」、「ヨット」、「トウキョウ」それぞれに対応する後段認識結果のうち、「ヨット」に対応する認識結果(ヨット辞書)にペナルティ(×印)を与えている。その後、上述したステップS207へ進み、全ての提示対象認識結果Xjについて、後段認識が終了していると判断した場合には、ステップS214へ進む。
ステップS214では、後段認識部108は、全ての提示対象認識結果Xjに対する後段認識結果を統合して最終的な認識結果を取得する。すなわち、各後段辞書から得られた認識結果を整理し、最終的な認識結果である理解結果を生成する。例えば、図10(p)に示すように、提示対象認識結果Xj「パーク」に対する後段認識結果(「パーク」辞書を用いた認識結果)と、提示対象認識結果Xj「トウキョウ」に対する後段認識結果(「トウキョウ」辞書を用いた認識結果)が得られているため、これらの認識結果を統合して理解結果を生成する。例えば、図10(j)に示すように、「パークハイアット東京」を理解結果として生成する。その後、処理を終了する。
なお、音声認識装置100をナビゲーション装置に適用した場合には、図10(k)に示すように、ナビゲーション装置側で、後段認識部108によって生成された理解結果に基づいて、使用者が発話した目的地が特定され、目的地設定の音声提示、および目的地へのルート計算が行なわれる。
以上説明した第2の実施の形態によれば、第1の実施の形態における作用効果に加えて、以下のような効果を得ることができる。すなわち、前段認識結果に基づき辞書切替を行って後段辞書による再認識を行う多段認識手法において、後段認識の最中に、前段認識結果に対する訂正を受理することができる。このため、訂正情報の取得時点で対応する後段認識が終了していない場合には、後段認識の対象語彙を絞り込み、再認識に必要な計算リソースが削減できる。また、対応する後段認識が終了していた場合であっても、適宜訂正情報を認識結果に反映させることができるため、認識性能を向上させることができる。
―第3の実施の形態―
上述した第1および第2実施形態では、音声のみ(音声合成及び音声認識)を用いたシステムと使用者とのやり取りについて示した。これに対して、第3の実施の形態では、音声と表示装置及びスイッチ類との併用による、より多様な訂正を可能とする方法について説明する。なお、図3については、第1の実施の形態と同様のため、また図9については、第2の実施の形態と同様のため、それぞれの説明を省略する。
図11は、第3の実施の形態における音声認識装置の一実施の形態の構成を模式的に示した図である。なお、図11においては、図1に示した音声認識装置100が備える構成要素と同じものについては、同じ符号を付加し、相違点を中心に説明する。音声錦装置100は、マイクロフォン201と、AD変換部202と、演算装置203と、記憶装置204と、DA変換部205と、スピーカ206と、スイッチ207と、ディスプレイ108とで構成される。
図12は、第3の実施の形態における音声認識装置100の一実施の形態の構成を示すブロック図である。なお、図11においては、図2に示した音声認識装置100が備える構成要素と同じものについては、同じ符号を付加するものとし、相違点を中心に各要素について図11との対応を示しながら説明する。
音声認識装置100は、手操作入力部110をさらに備えている。手操作入力部110は、図11に示したスイッチ207、およびAD変換部202を組み合わせることにより実現され、前段認識結果の訂正のために使用者が行うスイッチ207の操作信号を訂正受理部106へ出力する。スイッチ207を操作することによる訂正は、第1および第2の実施の形態で上述した音声による訂正と同様に行えることが望ましい。これにより、使用者は、音声による訂正あるいはスイッチ操作による訂正のいずれかを任意に選択することが可能となる。なお、手操作入力部110を用いた具体的な訂正方法については後述する。
前段認識結果提示部105は、前段認識の結果を、音声および画面表示により使用者に提示するためのものであり、図11のDA変換部205、スピーカ206、およびディスプレイ208を組み合わせることで実現される。すなわち、前段認識結果提示部105は、上述した第1および第2の実施の形態と同様に、提示対象認識結果Xjをスピーカ206を介して音声で提示するとともに、ディスプレイ208を介して画面表示により提示する。これによって、使用者は、画面を通じて提示対象認識結果Xjおよび訂正方法を把握することができ、音声のみの場合に比べより直感的に提示対象認識結果Xjおよび訂正方法を知ることが可能である。
訂正受理部106は、音声入力部101を介して入力される使用者の訂正音声B、または手操作入力部110を介して入力される訂正スイッチ操作のいずれかの信号を受理して訂正情報を生成する。そして、生成した訂正情報を辞書切替部104、および後段認識部108へ出力する。
なお、図11においては、ディスプレイ208にタッチパネルを搭載することによって、スイッチ207とディスプレイ208とを統合することも可能である。以下の説明では、使用者は、ディスプレイ208に搭載されたタッチパネルを操作することで、訂正スイッチ操作を行う場合について説明する。
これ以外に、使用者は、タッチパネル操作による訂正に代えて、音声で訂正することも可能である。例えば、「○○の「取り消し」ボタンを押下する」ことに代えて、「『○○を取り消す』と発話する」ことによって、タッチパネルを操作した場合と同様の訂正をすることができる。ただし、タッチパネルを手で操作する場合には認識率がほぼ100%であるのに対し、音声で応答した場合には音声認識時に誤認識が発生する可能性がある。
したがって、手操作によって訂正が行われた場合には、入力された情報を完全に信用して訂正処理を行う。これに対して、音声によって訂正が行われた場合には、誤認識の可能性も加味して確信度に応じた訂正処理を行うようにする必要である。例えば、「取り消し」に関する情報が手操作で入力された場合には、取り消し対象となるキーワードを完全に削除する一方で、音声により入力された場合には、ペナルティを与えて計算する等して、誤認識の場合でも完全に削除されることを防ぐための方策をとる必要がある。
図13に、第3の実施の形態における具体的な処理の流れを示す。なお、使用者による発話音声Aの内容、前段認識結果候補Xi、提示対象認識結果Xj、および一連の処理の流れについては、第2の実施の形態で上述した図10と同様のため説明を省略し、本実施の形態の特徴部分であるスイッチ207およびディスプレイ208を用いた提示対象認識結果Xjの提示および訂正の受理について、詳細に説明する。
図13(b)に示すように、使用者によって発話音声A「パークハイアット東京」が入力された場合には、前段認識部102はこれを音声認識して、図13(c)に示すように前段認識結果候補Xiを選択する。そして、図13(f)に示すように、前段認識結果提示部105は、提示対象認識結果Xjを選択して、使用者に提示する。このとき、前段認識結果提示部105は、提示対象認識結果Xjを音声で提示すると共に、図13(l)に示すように画面に表示して提示する。
直後に、後段認識部108は、バックグラウンド処理として、キーワード「パーク」、「ヨット」、「トウキョウ」のそれぞれに対応する後段辞書を用いて後段認識を実行する。すなわち、図13(n)〜(p)に示すように「パーク」辞書、「ヨット」辞書、および「トウキョウ」辞書のそれぞれを用いて発話音声Aを再認識する。ここで、後段認識処理の最中に、使用者がタッチパネルを操作して、図13(m)に示すように、画面上に表示された「ヨット」を取り消すための「取り消し」のボタンを押下したとする。この場合には、図13(g)に示すように、訂正受理部106は、提示対象認識結果Xjから「ヨット」を取り消すための訂正を受理して、第1および第2の実施の形態と同様に訂正情報Xj´「キーワード=ヨット、訂正内容=取り消し」を生成する。
そして、訂正受理部106は、第2の実施の形態で上述した図9におけるステップS212およびS213と同様に処理を行って、訂正内容を反映する。すなわち、キーワード「ヨット」に関する後段認識が完了していない場合は、キーワード「ヨット」を後段認識対象から除外し、関連する後段認識を取り消す。一方、キーワード「ヨット」に関する後段認識が完了している場合には、キーワード「ヨット」に関連する認識結果を削除し、図13(q)に示すように、認識結果の統合処理の段階でキーワード「ヨット」に関連する認識結果が含まれないようにする。こうした一連の操作の結果、後段認識部108は、図13(j)に示すように、「パークハイアット東京」を理解結果として生成する。
以下、図14〜図18を用いて、画面表示と手操作入力を用いた訂正処理について、具体的に説明する。なお、図14〜図18に示す例では、訂正されたキーワードに関する後段認識が未完了の場合について説明するが、訂正されたキーワードに関する後段認識が完了している場合でも、第2の実施の形態と同様に、認識結果を統合する際の認識スコアに対しボーナスやペナルティを付与することによって対処可能である。
図14〜図18においては、特に説明のない限り、いずれの場合も使用者の発話音声Aは「パークハイアット東京」であるものとし、前段認識部102は、前段認識結果候補Xiとして「パーク」、「ヨット」、「トウキョウ」、「トウキュウ」、「キョウト」、および「コウコウ」の6個の認識キーワード候補を取得したものとする。また、前段認識結果提示部105は、提示対象認識結果Xjとして「パーク」、「ヨット」、および「トウキョウ」を選択したものとする。
図14は、使用者がタッチパネルを操作して提示対象認識結果Xjのいずれかを「確定」した場合(確定操作)、および提示対象認識結果Xjのいずれかを「取り消し」した場合(取り消し操作)の画面遷移例、および後段辞書切替例を示した図である。なお、図14(a−1)〜(a−3)は、確定操作時の画面遷移例をしており、図14(b−1)〜(b−3)は、確定操作時の各画面での操作内容に対応して切り替えられた後段認識辞書の状態(集合演算)を示している。また、図14(c−1)〜(c−3)は、取り消し操作時の画面遷移例をしており、図14(d−1)〜(d−3)は、取り消し操作時の各画面での操作内容に対応して切り替えられた後段認識辞書の状態(集合演算)を示している。
まず、使用者が確定操作を行った場合について説明する。前段認識結果提示部105は、図14(a−1)に示すように、提示対象認識結果Xjとなった3つのキーワード「パーク」、「ヨット」、「トウキョウ」をディスプレイ208に表示し、各キーワードに対応付けて「確定」および「取り消し」の訂正操作用ボタン(「確定」ボタン、「取り消し」ボタン」を表示する。この時点での後段認識辞書は、図14(b−1)に示すように3つのキーワードに対応する辞書の和集合(OR演算)となる。
ここで、図14(a−2)に示すように、使用者が「パーク」を確定するために、ディスプレイ208上で「パーク」に対応する「確定」ボタンを押下したとする。この場合には、辞書切替部104は、図14(b−2)に示すように、「パーク」辞書以外の後段辞書を除外して、「パーク」辞書のみを後段辞書とする。
その後、さらに、図14(a−3)に示すように、「トウキョウ」を追加で確定するために、使用者がディスプレイ208上で「トウキョウ」に対応する「確定」ボタンを押下したとする。この場合には、辞書切替部104は、図14(b−3)に示すように、「パーク」辞書と「トウキョウ」辞書の共通部分を抽出して後段辞書とする。すなわち、「パーク」辞書と「トウキョウ」辞書の中から、「パーク」と「トウキョウ」を共通に含む語彙を抽出して後段辞書(パーク)∩(トウキョウ)を動的に構築する。なお、図14(b−3)に示すような後段辞書を構築するには、あらかじめ全ての後段認識語彙に対して、含有するキーワードを対応付けておき、上記の論理式に従って語彙を選択した上で動的に辞書を生成する方法を用いるのが望ましい。
次に、使用者が取り消し操作を行った場合について説明する。前段認識結果提示部105は、図14(c−1)に示すように、提示対象認識結果Xj、すなわち「パーク」、「ヨット」、「トウキョウ」をディスプレイ208に表示し、各キーワードに対応付けて「確定」および「取り消し」の訂正操作用ボタン(「確定」ボタン、「取り消し」ボタン」を表示する。この時点での後段認識辞書は、図14(d−1)に示すように3つのキーワードに対応する辞書の和集合(OR演算)となる。
ここで、図14(c−2)に示すように、使用者が「ヨット」を取り消すために、ディスプレイ208上で「ヨット」に対応する「取り消し」ボタンを押下したとする。この場合には、辞書切替部104は、図14(c−2)に示すように、「ヨット」辞書を除外する。そして、図14(c−3)に示すように、辞書切替部104は、「パーク」辞書と「トウキョウ」辞書の中から、「パーク」と「ヨット」を共通に含む語彙(パーク)∩(ヨット)、および「トウキョウ」と「ヨット」を共通に含む語彙(トウキョウ)∩(ヨット)を取り除いた後段辞書{(パーク)− (パーク)∩(ヨット)}∪{(トウキョウ)− (トウキョウ)∩(ヨット)}を動的に構築する。
図15は、提示対象認識結果Xjに対する「取り消し」と「追加」を受理するための画面遷移例を示している。この例では、前段認識結果提示部105は、図15(a)に示すように、前段認識結果候補Xiを全てディスプレイ208上に表示し、その中の提示対象認識結果Xjのみを濃色表示して、後段認識対象であることを示している。そして、提示対象認識結果Xjのそれぞれについて、後段認識処理の実行状態を、後段認識処理が完了したことを示す「認識完」、後段認識処理の実行中であることを示す「認識中」、および講談認識処理の認識待ち状態であることを示す「認識開始」の3つに分類して表示している。
これに対して、提示対象認識結果Xjとして選択されなかった残りの3キーワードについては、淡色表示となっており、後段認識対象外であることを示している。なお、図15(a)では、認識対象となる辞書のサイズ(辞書サイズ)及び検索に要する残り時間(所要時間)を視覚的に表示することで、使用者に対するシステム内部状態の提示も行っている。すなわち、後段認識処理の実行状態表示するための円柱の長さて辞書サイズと所要時間を表しており、円柱の長さが長いほど辞書サイズが大きく所要時間が長いことを意味している。
ここで、図15(b)に示すように、使用者がキーワード「ヨット」の取り消し操作を行ったとする。この場合、後段認識部108は、取り消し操作が行われた「ヨット」についての後段認識処理を中止する。そして、前段認識結果提示部105は、図15(c)に示すように、キーワード「ヨット」の表示を淡色表示に変更することで、「ヨット」が後段認識対象外になったことを明示する。
次に、使用者が、提示対象認識結果Xjとして選択されていなかったキーワード「キョウト」を提示対象認識結果Xjに追加するために、図15(d)に示すようにディスプレイ208上で「追加」ボタンを押下したとする。この場合には、前段認識結果提示部105は、図15(e)に示すように、「キョウト」の表示を濃色表示に変更して、「キョウト」が提示対象認識結果Xjに追加され、新たに後段認識対象となったことを明示する。そして、「キョウト」についての後段認識処理の実行状態、および上述した辞書サイズ、所要時間をディスプレイ208上に表示する。
その後、図15(f)に示すように、使用者がキーワード「キョウト」の取り消し操作を行ったことにより、図15(g)に示すように「キョウト」が後段認識対象から除外されている。そして、後段認識部108によって、キーワード「パーク」及び「トウキョウ」に対応する後段認識が行われ、図15(h)に示すように、理解結果として「パークハイアット東京」生成される。
図16は、提示対象認識結果Xjのうち、別の語彙に置き換わる誤認識、すなわち置換誤りが発生した場合のキーワードの訂正方法を示す図である。置換誤りが発生しやすいキーワードについては、第1の実施の形態で上述したように、音素間距離尺度を用いることによって特定することができる。図16(a)に示すように、前段認識結果提示部105は、提示対象認識結果Xjをディスプレイ208上に表示する。ここで、図16(b)に示すように、使用者が画面上の「トウキョウ」部分を押下すると、前段認識結果提示部105は、図16(c)に示すように、前段認識結果候補Xiの中から「トウキョウ」に音響的に類似するキーワードの候補「トウキュウ」および「コウコウ」と、「トウキョウ」に対する確定操作および取り消し操作を行うための「確定」および「取り消し」とをリスト表示する。
ここで、使用者が、リスト内から「トウキュウ」を選択した場合には、前段認識結果提示部105は、図16(d)に示すように、「トウキュウ」を提示対象認識結果Xjに追加して、新たに後段認識対象とする。このとき、辞書切替部104は、後段認識辞書を「トウキョウ」辞書から「トウキュウ」辞書に切り替える。また、使用者が、リスト内から「トウキュウ」を選択したことにより、使用者は「トウキュウ」を「確定」したと捉えることも出来るため、訂正受理部106は、「トウキュウ」+「確定」を確定情報として生成するようにしてもよい。この場合には、図16(e)に示すように、前段認識結果提示部105は、他のキーワード「パーク」および「ヨット」に関する表示を淡色表示に変更し、後段認識部108は、後段認識結果から対応する認識結果を除外する処理を行う。
図17は、各提示対象認識結果Xjの発話音声A内における出現位置、すなわち提示対象認識結果Xjが発話音声Aの「語頭」、「語中」、「語尾」のいずれに含まれているかを考慮した訂正方法を示す図である。なお、図17に示す例では、各提示対象認識結果Xj(各キーワード)に対応する後段辞書が、それぞれ「語頭用」、「語中用」、および「語尾用」に分類されて保持されているものとする。
図17(a)に示すように、前段認識結果提示部105は、提示対象認識結果Xj「パーク」、「ヨット」、「トウキョウ」をディスプレイ208上に表示すると共に、各提示対象認識結果Xjの前後に、提示対象認識結果Xjの出現位置を表す「+」、「/」、「?」のいずれかのマークを付加する。一般的な音声認識装置では、認識した提示対象認識結果Xjの出現位置を推定することができる為、他の提示対象認識結果Xjの出現位置との関係を鑑みた場合、その提示対象認識結果Xjが「語頭」、「語中」、「語尾」のいずれに位置するかを特定できる場合がある。
ここでは、提示対象認識結果Xjの前に「+」が付加された場合には、その提示対象認識結果Xjの前に語彙が存在することを表し、提示対象認識結果Xjの後に「+」が付加された場合には、その提示対象認識結果Xjの後に語彙が存在することを表す。また、提示対象認識結果Xjの前に「/」が付加された場合には、その提示対象認識結果Xjの前には語彙が存在しない、すなわち当該提示対象認識結果Xjが語頭に位置することを表し、提示対象認識結果Xjの後に「/」が付加された場合には、その提示対象認識結果Xjの後に語彙が存在しない、すなわち当該提示対象認識結果Xjが語尾に位置することを表す。また、提示対象認識結果Xjの前後に「?」が付加された場合には、その提示対象認識結果Xjの前後に語彙が存在するか否かが不明であることを洗わしている。
図17(a)に示す例では、「パーク」は、前に「/」が付加され、後に「+」が付加されていることから、「語頭」に位置すると判断することができる。この場合、辞書切替部104は、「パーク」に対応する後段辞書を、「パーク」を語頭に含む認識対象語彙で構成される語頭用の後段辞書に切り替える。そして、後段認識部108は、語頭用の後段辞書を用いて後段認識処理を行う。
「ヨット」は、前後に「?」が付加されていることから、判断が不能となっている。この場合、辞書切替部104は、「ヨット」に対応する後段辞書を、「ヨット」を語頭に含む認識対象語彙で構成される語頭用の後段辞書、「ヨット」を語中に含む認識対象語彙で構成される語中用の後段辞書、および「ヨット」を語尾に含む認識対象語彙で構成される語尾用の後段辞書の全ての後段辞書に切り替える。そして、後段認識部108は、これらの後段辞書を用いて後段認識処理を行う。
「トウキョウ」は、前に「+」が付加され、後に「?」が付加されていることから、「語中」または「語尾」に位置すると判断することができる。この場合、辞書切替部104は、「トウキョウ」に対応する後段辞書を、「トウキョウ」を語中に含む認識対象語彙で構成される語中用の後段辞書、および「トウキョウ」を語尾に含む認識対象語彙で構成される語尾用の後段辞書に切り替える。そして、後段認識部108は、これらの後段辞書を用いて後段認識処理を行う。
このとき、使用者は、ディスプレイ208上に表示された「+」、「/」、「?」のマークを選択して、表示内容を訂正することができる。すなわち、各提示対象認識結果Xjの出現位置を訂正することができる。例えば、図17(b)に示すように、使用者が、「トウキョウ」の後に表示されている「?」を押下することにより、置き換え候補として「/」と「+」がリスト表示される。使用者は、リスト表示された「/」と「+」の中から、訂正したいマークを選択して押下することで、「トウキョウ」の出現位置を訂正することができる。例えば、図17(c)に示すように、「トウキョウ」の後に付加するマークを「/」に訂正することにより、「トウキョウ」の出現位置を「語尾」に訂正することができる。
この場合には、辞書切替部104は、「トウキョウ」に対応する後段辞書から語中用の後段辞書を除外して語尾用の後段辞書のみに切り替える。そして、後段認識部108は、この語尾用の後段辞書を用いて後段認識処理を行う。
図18は、上述した図17と同様に、各提示対象認識結果Xjの発話音声A内における出現位置を表示し、訂正を受理する場合の訂正方法を示す図である。この図18に示す例では、使用者が、さらに出現位置を視覚的に直感できるよう、図17とはその表示方法を異ならせている。
前段認識結果提示部105は、図18(a−1)に示すように、提示対象認識結果Xjとして、「パーク」、「ヨット」、および「トウキョウ」の3キーワードを後段認識対象として濃色表示する。同時に、後段認識対象外であるが、修正可能な候補として、提示対象認識結果Xj以外の前段認識結果候補Xi、すなわち「トウキュウ」、「キョウト」、「コウコウ」の3つの候補外キーワードを淡色表示する。このとき、前段認識結果提示部105は、3つの候補外キーワードを、その出現位置に応じた位置に表示する。例えば、図18(a−1)に示す例では、3つの候補外キーワードのそれぞれは、その出現位置が提示対象認識結果Xj「トウキョウ」の出現位置に最も近いため、「トウキョウ」の近傍にこれらの3つの候補外キーワードを表示している。
この図18(a−1)に示す画面上では、使用者が濃色表示された後段認識対象のいずれかを押下すると、訂正受理部106は、押下された後段認識対象の取り消し訂正を受理して、そのキーワードを後段認識対象外に変更する。また、逆に、使用者が淡色表示された後段認識対象外のキーワードを押下すると、訂正受理部106は、押下された後段認識対象外のキーワードの確定訂正を受理して、そのキーワードを後段認識対象に変更する。
例えば、図18(a−2)に示すように、使用者が「ヨット」の表示部分を押下することにより、訂正受理部106が「ヨット」の取り消し訂正を受理した場合には、後段認識結果提示部105は、図18(a−3)に示すように「ヨット」を淡色表示に変更して、「ヨット」が後段認識対象外になったことを明示する。そして、辞書切替部104は、「ヨット」に対応する後段辞書を除外して、「パーク」に対応する後段辞書、および「トウキョウ」に対応する後段辞書に切り替える。そして、後段認識部108は、これらの後段辞書を用いて後段認識処理を実行する。
一方、使用者が、発話音声Aとして「横浜町田インター」を発話した場合には、例えば図18(b−1)に示すように「ヨコハマ」、「ハチマン」、「イイン」の3つのキーワードが提示対象認識結果Xjとして表示されている。また、候補外キーワードとして、「ヨコスカ」、「ハママツ」、「タワー」、「インター」、「センター」の各キーワードが、その出現位置に応じた表示位置に表示されている。
ここで、図18(b−2)に示すように、使用者がキーワード「ハチマン」の表示部分が押下すると、訂正受理部106は、「ハチマン」の取り消し訂正を受理する。そして、後段認識結果提示部105は、図18(b−3)に示すように、「ハチマン」を淡色表示に変更して、「ハチマン」が後段認識対象外になったことを明示する。さらに、図18(b−4)に示すように、使用者によって候補外キーワードである「インター」の表示部分が押下されると、訂正受理部106は、「インター」の確定訂正を受理する。そして、後段認識結果提示部105は、図18(b−5)に示すように、「インター」を濃色表示に変更して「インター」が後段認識対象になったことを明示する。さらに、後段認識結果提示部105は、「インター」に対応する出現位置で認識され、提示対象認識結果Xjとして選択されていた「イイン」を後段認識対象外に変更して、「イイン」と「インター」の表示位置を入れ替える。
そして、辞書切替部104は、取り消した「ハチマン」および「イイン」に対応する後段辞書を除外して、後段認識対象である「ヨコハマ」および「インター」に対応する後段辞書に切り替える。そして、後段認識部108は、これらの後段辞書を用いて後段認識処理を実行する。
以上説明した第3の実施の形態によれば、第1の実施の形態における作用効果に加えて、以下のような効果を得ることができる。
(1)前段認識結果に基づいて後段辞書を切替え、後段辞書による再認識を行う多段認識手法において、使用者の発話に対する前段認識結果を、表示とスイッチ操作により効率的に訂正し、後段認識処理に反映することができる。このため、後段認識処理のための後段辞書の絞込みが効率的に行われ、再認識に必要な計算リソースが削減できるのに加え、適宜訂正情報を前段認識結果に反映させることができるため、認識性能を向上させることができる。
(2)辞書切替部104は、訂正が行なわれた後の各提示対象認識結果Xjを含む認識対象語彙の和集合で後段辞書を構築するようにした。これによって、後段辞書に含む認識対象語彙を必要な語彙のみに抑えてメモリ使用量を抑制した上で、訂正が行われた結果得られる提示対象認識結果Xjを含む発話音声Aを正しく認識することができる。
(3)訂正受理部106は、提示対象認識結果Xjから誤認識となったキーワードを除外するための「取り消し」を受け付けて提示対象認識結果Xjの訂正を行ったり、提示対象認識結果Xjに前段認識結果候補Xiに含まれる他のキーワードの追加するための「追加」を受け付けて提示対象認識結果Xjの訂正を行ったりできるようにした。そして、辞書切替部104は、これらの「取り消し」または「追加」の訂正結果に基づいて、後段辞書を構築するようにした。これによって、使用者の訂正結果を反映した後段辞書を構築して、精度高く後段認識を行うことができる。
(4)発話音声A内における提示対象認識結果Xjの出現位置を特定し、各提示対象認識結果Xjの出現位置に応じた後段辞書を構築して後段認識を行うようにした。これによって、後段認識の精度をさらに向上させることができる。
―第4の実施の形態―
上述した第1〜第3実施の形態では、前段認識結果に基づいて後段辞書を切り替え、再認識、すなわち後段認識を行う「多段認識手法」による音声認識方法について説明した。これに対して、第4の実施の形態では、前段認識結果に基づいてデータベース(以下DB)検索式を生成し、これを用いてDBを検索することによって音声認識を行う「複合音声検索手法」による音声認識方法について説明する。なお、図11については、第3の実施の形態と同様のため、説明を省略する。
図19は、第4の実施の形態における音声認識装置100の一実施の形態の構成を示すブロック図である。なお、図19においては、図12に示した第3の実施の形態における音声認識装置100が備える構成要素と同じものについては、同じ符号を付加するものとし、相違点を中心に説明する。
前段辞書記憶部103は、前段認識処部102にて発話音声とマッチングを行うための前段辞書を記憶したものであり、前段辞書は、図20に示すように、Garbageモデルとキーワードから構成される。なお、第4の実施の形態では、キーワードを用いた検索式によって対象データを特定するため、前段辞書に登録するキーワードは、単独もしくは複数の組み合わせによって、全てのDB内データを一意に決定できるよう選択するべきである。具体的には、全データが含む形態素を全て抽出してキーワードとして登録する方法や、出現頻度の多い形態素を所定数のみ抽出してキーワードとして登録し、残りはデータ自体(施設名称そのもの)をキーワードとして登録する等の方法が考えられる。
検索式生成部111は、前段認識部102で選択された提示対象認識結果Xjのうち、優先度の高い1つ以上のキーワードを提示対象キーワードとして抽出し、当該提示対象キーワードを用いて検索式を生成する。検索式は、提示対象キーワードが複数ある場合、その全ての組み合わせを網羅するように生成される。詳しくは後述する。
DB検索部112は、検索式生成部111で生成された検索式を用いて、DB113に記憶されているデータベースを対象としたキーワード検索処理を実行して、データベースに記憶されているキーワードの検索、およびスコアリングを実行する。なお、キーワードの検索、およびスコアリングについては、後述する。
DB113は、DB検索部112による検索の対象となるデータベースを記憶するものである。具体的なDBの記憶例を図21に示す。図21に示すデータベースにおいては、都道府県、市区町村、施設名称、および施設名読みデータが記憶されている。DB検索部112によるキーワード検索処理では、「施設名読み」データに対して、検索式生成部111から取得した検索式に基づくキーワード検索及びスコアリングを行う。
第4の実施の形態における音声認識装置100の具体的な処理の流れを図22および図23を用いて説明する。図22のフローチャートでは、ステップS305〜ステップS307が前段認識結果に基づくDB検索処理であり、ステップS308〜ステップS313は訂正発話もしくは訂正操作に基づく提示対象認識結果Xj及び後段認識結果の変更処理(訂正受理及び認識結果修正処理)である。双方の処理は、第2の実施の形態と同様に、それぞれが独立してなされる。
図23は、図22に示すフローチャートに即して使用者の発話内容とシステムの応答内容の関係を具体的に示したものである。図23(a)〜(k)はシステムと使用者とのやり取りを示している。また、図23(l)および(m)は、使用者に訂正を促す画面の遷移を、図23(n)は、DB検索の状態(検索式の発行状態)を示している。
ステップS301では、図23(a)に示すように、前段辞書記憶部103から前段辞書を読み込む。その後、ステップS302へ進み、前段認識部102は、音声入力部101を介して入力される使用者の発話音声Aを取得する。例えば、図23(b)に示すように、使用者が発話した「横浜ランドマークタワー」の音声データを発話音声Aとして取得する。その後、ステップS303へ進む。
ステップS303では、前段認識部102は、前段辞書を用いて前段認識処理を行って、n個の前段認識結果候補Xi(i=1〜n)を取得する。例えば、図23(c)に示すように、「ヨコハマ」、「ヨコスカ」、「ランド」、「パーク」、「マーク」、「タワー」、および「ナラ」の7個の認識キーワード候補を、前段認識結果候補Xiとして取得する。なお、このときの認識した音素列は、「okohamaando:kuawa:」となっている(「:」は長音音素の記号)。前段認識部102は、取得した前段認識結果候補Xiを、前段認識結果提示部105、および検索式生成部111へ出力して、ステップS304へ進む。
ステップS304では、前段認識結果提示部105は、前段認識部102で取得された前段認識結果候補Xiから、上述した提示対象認識結果Xj(j=対象となる認識結果のインデックス)を選択する。なお、前段認識結果提示部105は、第1〜第3の実施の形態と同様に、前段認識結果候補Xiに対して優先度を付けることによって、提示対象認識結果Xjを選択する。例えば、図23(d)に示すように、1.「ヨコハマ」、2.「ランド」、3.「パーク」、4.「タワー」の4つのキーワードを提示対象認識結果Xjとして選択する。そして、前段認識結果提示部105は、選択した提示対象認識結果Xjを訂正受理部106、および検索式生成部111へ出力する。
その後、ステップS305〜ステップS307の前段認識結果に基づくDB検索処理、およびステップS308〜ステップS313の訂正受理及び認識結果修正処理のそれぞれに進む。まず、ステップS305〜ステップS307のDB検索処理について説明する。
ステップS305では、検索式生成部111は、前段認識結果提示部105から入力された提示対象認識結果Xjに基づいて、提示対象認識結果Xjに含まれるキーワードの全ての組み合わせを網羅する検索式を順次生成する。例えば、検索式生成部111は、図23(n)に示すように、「ヨコハマ」、「ランド」、「パーク」、「タワー」の4つのキーワードを組み合わせて、検索式1〜15を順次生成していく。そして、検索式生成部111は、生成した検索式をDB検索部112へ出力して、ステップS306へ進む。
ステップS306では、DB検索部112は、検索式生成部111で生成された検索式に基づいて、DB113に記憶されているデータベースを検索する。このとき、DB検索部112は、各検索式に対してスコアを付与しておき、この付与されたスコア(付与スコア)と、各検索式を用いた検索結果とに基づいて、各検索結果をスコアリングする。図23(n)に示した各検索式と、それぞれに付与された付与スコアの具体例を図24に示す。
この図24の例では、検索式の拘束条件が強いほど、付与スコアが大きく設定されている。例えば、検索式12に示す1つのキーワード「ヨコハマ」のみを検索キーワードとした検索式の付与スコアは5ポイントなのに対し、検索式6に示す2つのキーワードを組み合わせた「ヨコハマ∩ランド」を検索キーワードとした検索式の付与スコアは20ポイントとなっている。
図24に示した合計15の検索式を実行した場合には、施設名「横浜ランドマークタワー」が、検索式3、6、8、10、12、13、15のそれぞれでヒットする。よって、DB検索部112は、検索結果としての「横浜ランドマークタワー」に対して、各検索式に付与された付与スコアを積算することでスコアリングを行ない、「横浜ランドマークタワー」の認識スコアを算出する。例えば、次式(1)によって、「横浜ランドマークタワー」の認識スコアを算出する。
「横浜ランドマークタワー」の認識スコア=検索式3の付与スコア(40)+検索式6の付与スコア(20)+検索式8の付与スコア(20)+検索式10の付与スコア(20)+検索式12の付与スコア(5)+検索式13の付与スコア(5)+検索式15の付与スコア(5)=115 ・・・(1)
また、別のスコアリング方法として、各検索式に対してスコアの原資、例えば1ポイントを確保し、これをヒットした件数で等分して各検索式の認識スコアとし、これを合計することによって「横浜ランドマークタワー」の認識スコアを算出してもよい。例えば、図24に示す例では、検索式3は1件のみヒットしているため、スコアの原資(1)をヒット件数(1)で割った1が検索式3の認識スコアとなる。また、検索式12は1156件がヒットしたため、スコアの原資(1)をヒット件数(1156)で割った0.00087が検索式12の認識スコアとなる。
その後、ステップS307へ進み、DB検索部112は、全ての検索式が発行済みか否か、すなわち、検索式生成部111で生成された検索式を用いたDB検索が完了したか否かを判断する。全て発行済みであると判断した場合には、後述するステップS314へ進む。これに対して、未発行の検索式が残っていると判断した場合には、ステップS305へ戻って、残りの検索式に基づくDB検索を行う。
次に、ステップS308〜ステップS313の訂正受理及び認識結果修正処理について説明する。ステップS308では、訂正受理部106は、入力された提示対象認識結果Xjと、訂正用語彙記憶部107に記憶された訂正語彙とを組み合わせた訂正用認識辞書を構築し、これを読み込む(図23(e))。なお、使用者が発話する可能性が高い訂正音声Bとしては、第1〜第3の実施の形態と同様に「取り消し」や「確定」が考えられる。このため、訂正受理部106は、提示対象認識結果Xjとして選択された「ヨコハマ」、「ランド」、「パーク」、「タワー」、訂正語彙「取り消し」、「確定」、およびGarbageを組み合わせた訂正用認識辞書を構築する。その後、ステップS309へ進む。
ステップS309では、前段認識結果提示部105は、提示対象認識結果Xjを用いて使用者に対する提示を行う。例えば、図23(l)に示すように、提示対象認識結果Xjと各提示対象認識結果Xjを「取り消し」または「確定」するための画面を表示すると同時に、「訂正がある場合はボタンを押すか発話してください。」というシステム発話を出力する。その後、ステップS310へ進み、訂正受理部106は、訂正音声B、または訂正スイッチ操作の入力があるまで待機する。なお、この間、上述したステップS305〜ステップS307の処理が独立して実行されており、順次検索式が展開され検索が行われている。
そして、訂正受理部106が訂正音声B、または訂正スイッチ操作の入力があったと判断した場合には、ステップS311へ進む。ここでは、図23(g)に示すように、使用者によって、提示対象認識結果Xjの中から「パーク」を取り消すための訂正発話Bとして、「パークを取り消し」が発話されたものとする。なお、訂正スイッチ操作が入力されるのは、使用者が図23(l)に示す画面上で、「パーク」に対応する「取り消し」ボタンが押下することにより、「パークを取り消し」を行った場合である。
ステップS311では、訂正受理部106は、訂正発話B、または訂正操作Bに対する認識処理を行い、訂正情報Xj´を生成する。図23(g)に示す「パークを取り消し」の訂正発話Bが行われた場合には、訂正受理部106は、訂正情報Xj´として「キーワード=パーク、訂正情報=取り消し」を生成して取得する。訂正受理部106は、生成した訂正情報を前段認識結果提示部105、検索式生成部111、およびDB検索部112へ出力する。その後、ステップS212へ進む。
ステップS312では、DB検索部112は、入力された訂正情報Xj´の訂正元となった提示対象認識結果Xjに関する検索式を用いたDB検索処理が終了しているか否かを判断する。検索が終了していないと判断した場合には、ステップS304へ戻り、前段認識結果提示部105は、図23(h)に示すように、入力された訂正情報Xj´を反映して提示対象認識結果Xjを修正する。そして、前段認識結果提示部105は、その結果を画面表示にも反映する。例えば、前段認識結果提示部105は、訂正情報Xj´に基づいて提示対象認識結果Xjから、「パーク」を取り消した場合には、「パーク」とそれに対応する「取り消し」および「確定」の各ボタンを淡色表示に変更する。
また、検索式生成部111は、訂正情報Xj´を反映して、生成した検索式を訂正する。例えば、検索式生成部111は、図23(n)で網掛け表示で表している検索式、すなわち検索式に「パーク」を含む検索式を削除する。
一方、ステップS312で、既に検索が終了していると判断した場合には、ステップS313へ進む。ステップS313では、訂正情報Xj´に基づいて、訂正された提示対象認識結果Xjを含む検索式によって得られた認識結果に対し、付与スコアを相殺するようなペナルティを与えて、認識結果に訂正内容を反映する。あるいは、訂正された提示対象認識結果Xjを含まない検索式によって得られた認識結果に対して、付与スコアを加算するようにボーナスを与える等の処理を行うことで、認識結果に訂正内容を反映してもよい。また、対応する検索結果を一旦削除した上で、訂正情報Xj´を反映した検索式で再度DBを検索し、スコアリングする方法をとってもよい。
その後、上述したステップS307へ進み、全ての検索式が発行済みであると判断した場合には、ステップS314へ進む。ステップS314では、DB検索部112は、ここまでの一連のDB検索の結果、確信度が高い結果が得られたか否かを判断する。ここでは、上述したDB検索部112が算出した認識スコアが所定の条件を満たす認識結果があるか否かを判断する。なお、「所定の条件」としては、例えば「第1位と第2位のスコア比が2倍以上」等とすればよい。所定の条件を満たす認識結果があると判断した場合には、他の候補に比べて十分有意差のある認識結果が得られたと判断し、DB検索部112は、図23(j)に示すように、その認識結果を理解結果として生成して、処理を終了する。
なお、音声認識装置100をナビゲーション装置に適用した場合には、図23(k)に示すように、ナビゲーション装置側で、DB検索部112によって生成された理解結果に基づいて、使用者が発話した目的地が特定され、目的地設定の音声提示、および目的地へのルート計算が行なわれる。
これに対して、所定の条件を満たす認識結果がないと判断した場合には、ステップS315へ進む。ステップS315では、十分な確信度をもつ結果が得られなかったため、新たなキーワードを取得するため、使用者に対して新たな発話を促す提示が行われる。例えば、キーワードとして「ヨコハマ」のみが得られており、DB検索の結果、大量の「横浜○○」「××横浜」といった施設が抽出されているにも関わらず、その中に確信度が高い施設が無い場合には、「横浜のなんと言う施設ですか?」といった質問を使用者に提示して、ステップS301へ戻る。
これに対応して、使用者が「ランドマークタワー」と発話し、新たなキーワード「ランド」や「タワー」が提示対象認識結果Xjとして選択された場合には、この提示対象認識結果Xjに基づいて再度検索式を生成し、DB検索及びスコアリングを行う。そして、DB検索部112は、一度目のスコアリング結果とスコアを重ね合わせた上で、確信度の判定を行う。
なお、ステップS315の別の方法として、音素認識結果を用いたスコアリングも考えられる。これは、キーワード認識と共に音素認識(サブワード)結果を並列して取得する構成とし、キーワードに基づくDB検索から確信度の高い結果が得られない場合に、音素列とDB中の音素列データとを照合してスコアリングを行うものである。この場合の前段辞書の構築例を図25(a)に、DBの記憶例を図25(b)に示す。
図25(b)に示すDB中には、各データ(施設名称)に対応する音素列データ25aが記録されており、キーワード検索で十分な確信度が得られない場合、この音素列と、前段認識結果の音素列とを照合して、公知のDPマッチングやShiftCDP等を行うことによりスコアリングを施して、スコアリング結果25bを得る。このスコアリング結果25bに基づいて、最も適合する音素系列を見つけ出すことができる。
この音素列比較手法では、DB側の任意の音素部分系列に対し、認識音素列との最適整合性が計算されるため、発話音声AがDBに登録されたデータに完全に一致した言い回しでない場合であっても、適合する音素系列部分を抽出することが可能である。なお、これを発展させた方法として、音素列の変わりに言語依存性の少ないユニバーサル中間符号系という音声記号を用いた、語彙フリー音声検索方法も公知の手法として知られている。
例えば、図25(a)に示す例では、発話音声Aとして「東京タワー」が入力された場合の処理の流れを示している。この発話音声Aからは、キーワード系列「トウキョウ」および音素系列「to:cho:towa:(トウチョウトワー)」が得られる(「:」は長音音素の記号)。まず、DB検索部112は、キーワードに基づくDB検索、およびスコアリングを行う。このとき、キーワード「トウキョウ」からは「東京○○」のようなデータが大量に検出され十分な確信度の結果を取得できない(尚、この時キーワードとして「タワー」が同時に取得されていた場合は、検索式「トウキョウ∩タワー」により、「東京タワー」に高スコアが付与される)。
そこで、DB検索部112は、音素列「to:cho:towa:(トウチョウトワー)」に対して照合及びスコアリングが行われる。結果として「東京タワー」が高スコアとなり、確信度が、上羽した所定の条件を満たしていれば、結果の提示及び機器の制御が行われる。
以上説明した第4の実施の形態によれば、第1の実施の形態における作用効果に加えて、以下のような効果を得ることができる。すなわち、前段認識結果に基づいて生成した検索式を用いてデータベース検索を行う複合音声検索手法において、前段認識結果の使用者による訂正を受容する構成とすることによって、後段のDB検索の検索式を効率的に訂正することができる。このため、検索対象を適切に絞り込むことができ、検索に必要なリソースが削減できると共に、検索結果の正解精度も向上させることができる。
―変形例―
なお、上述した実施の形態の音声認識装置は、以下のように変形することもできる。
(1)上述した第1〜第4の実施の形態では、前段認識部102は、キーワードスポット認識を行って、発話音声Aに含まれるキーワードを認識する例について説明した。しかしながら、前段認識部102は、公知の単語認識処理を行って、発話音声Aに含まれる単語をキーワードとして認識するようにしてもよい。
(2)上述した第1〜第4の実施の形態では、前段認識結果提示部105は、前段認識処理で認識した前段認識結果候補Xiの中から選択した提示対象認識結果Xjを使用者に提示するようにした。しかしながら、前段認識結果提示部105は、前段認識処理で認識した前段認識結果候補Xiを使用者に提示するようにしてもよい。
なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。
特許請求の範囲の構成要素と実施の形態との対応関係について説明する。音声入力部101は音声入力手段に、前段認識部102はキーワード認識手段に、前段認識結果提示部105は提示手段に相当する。訂正受理部106は訂正手段に、辞書切替部104は辞書構築手段に相当する。後段認識部108は発話音声認識手段に、手操作入力部110は操作手段に相当する。なお、以上の説明はあくまでも一例であり、発明を解釈する際、上記の実施形態の記載事項と特許請求の範囲の記載事項の対応関係に何ら限定も拘束もされない。
第1の実施の形態における音声認識装置の一実施の形態の構成を模式的に示した図である。 第1の実施の形態における音声認識装置100の一実施の形態の構成を示すブロック図である。 キーワードスポット認識処理の具体例を示す図である。 第1の実施の形態における音声認識装置100の具体的な処理の流れを示す第1の図である。 第1の実施の形態における音声認識装置100の具体的な処理の流れを示す第2の図である。 第1の実施の形態における音響的に類似する語彙の組み合わせを記憶したテーブルの具体例を示す図である。 第1の実施の形態における各キーワードに対する後段認識辞書のサイズの具体例を示す図である。 第2の実施の形態における音声認識装置100の一実施の形態の構成を示すブロック図である。 第2の実施の形態における音声認識装置100の具体的な処理の流れを示す第1の図である。 第2の実施の形態における音声認識装置100の具体的な処理の流れを示す第2の図である。 第3の実施の形態における音声認識装置の一実施の形態の構成を模式的に示した図である。 第3の実施の形態における音声認識装置100の一実施の形態の構成を示すブロック図である。 第3の実施の形態における音声認識装置100の具体的な処理の流れを示す図である。 第3の実施の形態における、画面表示と手操作入力を用いた訂正処理の具体例を示す第1の図である。 第3の実施の形態における、画面表示と手操作入力を用いた訂正処理の具体例を示す第2の図である。 第3の実施の形態における、画面表示と手操作入力を用いた訂正処理の具体例を示す第3の図である。 第3の実施の形態における、画面表示と手操作入力を用いた訂正処理の具体例を示す第4の図である。 第3の実施の形態における、画面表示と手操作入力を用いた訂正処理の具体例を示す第5の図である。 第4の実施の形態における音声認識装置100の一実施の形態の構成を示すブロック図である。 第4の実施の形態における前段辞書の具体例を示す図である。 第4の実施の形態におけるDBの記憶例を示す図である。 第4の実施の形態における音声認識装置100の具体的な処理の流れを示す第1の図である。 第4の実施の形態における音声認識装置100の具体的な処理の流れを示す第2の図である。 第4の実施の形態における検索式と付与スコアの具体例を示す図である。 第4の実施の形態における音素認識結果を用いたスコアリング方法の具体例を示す図である。
符号の説明
100 音声認識装置
101 音声入力部
102 前段認識部
103 前段辞書記憶部
104 辞書切替部
105 前段認識結果提示部
106 訂正受理部
107 訂正用語彙記憶部
108 後段認識部
109 後段辞書記憶部
110 手操作入力部
111 検索式生成部
112 DB検索部
113 DB
201 マイクロフォン
202 AD変換部
203 演算装置
204 記憶装置
205 DA変換部
206 スピーカ

Claims (13)

  1. 使用者の発話音声を入力する音声入力手段と、
    複数の認識対象語彙に含まれるキーワードの集合を待ち受け単語として、入力された前記発話音声に含まれるキーワードを認識するキーワード認識手段と、
    前記キーワード認識手段による認識結果のキーワードを使用者に提示する提示手段と、
    前記提示されたキーワードの選択による訂正に基づいて、前記キーワード認識手段による認識結果のキーワードを訂正する訂正手段と、
    前記訂正手段で訂正されたキーワード、及び前記認識されたキーワードのうち前記訂正手段で訂正されていないキーワードの集合を待ち受け単語とする待ち受け単語辞書を構築する辞書構築手段と、
    前記辞書構築手段で構築された前記待ち受け単語辞書を用いて、前記入力された発話音声を認識する発話音声認識手段とを備えることを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識手段において、
    前記訂正手段は、使用者による前記音声入力手段を介した音声入力により、前記訂正を受け付けることを特徴とする音声認識装置。
  3. 請求項1に記載の音声認識手段において、
    使用者によって操作される操作手段をさらに備え、
    前記訂正手段は、使用者による前記操作手段の操作により、前記訂正を受け付けることを特徴とする音声認識装置。
  4. 請求項1〜3のいずれか一項に記載の音声認識装置において、
    前記提示手段は、前記キーワード認識手段によって認識された認識キーワードのうち、その認識スコアが所定の範囲内にある前記認識キーワードを抽出して、使用者に提示することを特徴とする音声認識装置。
  5. 請求項1〜3のいずれか一項に記載の音声認識装置において、
    前記提示手段は、前記キーワード認識手段によって認識された認識キーワードのうち、音響的な特徴が類似する前記認識キーワードを優先して抽出し、使用者に提示することを特徴とする音声認識装置。
  6. 請求項1〜3のいずれか一項に記載の音声認識装置において、
    前記提示手段は、前記キーワード認識手段によって認識された認識キーワードのうち、前記待ち受け単語辞書のデータサイズを小さくできる前記認識キーワードを優先して抽出し、使用者に提示することを特徴とする音声認識装置。
  7. 請求項1〜3のいずれか一項に記載の音声認識装置において、
    前記提示手段は、前記キーワード認識手段によって認識された認識キーワードのうち、前記認識対象語彙内に同時に出現する可能性が低い前記認識キーワードを優先して抽出し、使用者に提示することを特徴とする音声認識装置。
  8. 請求項1〜7のいずれか一項に記載の音声認識装置において、
    前記提示手段および前記訂正手段による処理と、前記辞書構築手段および前記発話音声認識手段による処理を並行して実行することを特徴とする音声認識装置。
  9. 請求項1〜8のいずれか一項に記載の音声認識装置において、
    前記辞書構築手段は、前記キーワード認識手段で認識された認識キーワードが複数ある場合には、前記訂正手段によって訂正された後の各キーワードを含む前記認識対象語彙の和集合により、前記待ち受け単語辞書を構築することを特徴とする音声認識装置。
  10. 請求項1〜8のいずれか一項に記載の音声認識装置において、
    前記訂正手段は、前記認識キーワードの取り消しまたは追加を受け付け、
    前記辞書構築手段は、前記取り消しまたは追加された後の前記認識キーワードに基づいて、前記待ち受け単語辞書を構築することを特徴とする音声認識装置。
  11. 請求項1〜8のいずれか一項に記載の音声認識装置において、
    前記辞書構築手段は、前記キーワード認識手段で認識された認識キーワードの前記発話音声内における出現位置を特定し、前記認識キーワードの出現位置に基づいて、前記待ち受け単語辞書を構築することを特徴とする音声認識装置。
  12. 請求項1〜8のいずれか一項に記載の音声認識装置において、
    前記辞書構築手段は、前記訂正手段で訂正されたキーワードを加味して、前記発話音声を認識するための待ち受け単語辞書を検索するための検索式を生成し、前記検索式を用いて検索した前記認識対象語彙を含むように、前記待ち受け単語辞書を構築することを特徴とする音声認識装置。
  13. 複数の認識対象語彙に含まれるキーワードの集合を待ち受け単語として、入力された発話音声に含まれるキーワードを認識し、
    前記認識結果のキーワードを使用者に提示し、
    前記提示されたキーワードの選択による訂正に基づいて、前記認識結果のキーワードを訂正し、
    前記訂正されたキーワード、及び前記認識されたキーワードのうち前記訂正手段で訂正されていないキーワードの集合を待ち受け単語とする待ち受け単語辞書を構築し、
    前記構築された前記待ち受け単語辞書を用いて、前記入力された発話音声を認識することを特徴とする音声認識方法。
JP2006354945A 2006-12-28 2006-12-28 音声認識装置、および音声認識方法 Expired - Fee Related JP4867654B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006354945A JP4867654B2 (ja) 2006-12-28 2006-12-28 音声認識装置、および音声認識方法
US11/938,802 US7949524B2 (en) 2006-12-28 2007-11-13 Speech recognition correction with standby-word dictionary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006354945A JP4867654B2 (ja) 2006-12-28 2006-12-28 音声認識装置、および音声認識方法

Publications (2)

Publication Number Publication Date
JP2008164975A JP2008164975A (ja) 2008-07-17
JP4867654B2 true JP4867654B2 (ja) 2012-02-01

Family

ID=39585203

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006354945A Expired - Fee Related JP4867654B2 (ja) 2006-12-28 2006-12-28 音声認識装置、および音声認識方法

Country Status (2)

Country Link
US (1) US7949524B2 (ja)
JP (1) JP4867654B2 (ja)

Families Citing this family (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2006083020A1 (ja) * 2005-02-04 2008-06-26 株式会社日立製作所 抽出された音声データを用いて応答音声を生成する音声認識システム
US8676582B2 (en) * 2007-03-14 2014-03-18 Nec Corporation System and method for speech recognition using a reduced user dictionary, and computer readable storage medium therefor
US8429171B2 (en) * 2007-08-20 2013-04-23 Nexidia Inc. Consistent user experience in information retrieval systems
US20090144056A1 (en) * 2007-11-29 2009-06-04 Netta Aizenbud-Reshef Method and computer program product for generating recognition error correction information
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
JP5454469B2 (ja) * 2008-05-09 2014-03-26 富士通株式会社 音声認識辞書作成支援装置,処理プログラム,および処理方法
US10496753B2 (en) * 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8180641B2 (en) * 2008-09-29 2012-05-15 Microsoft Corporation Sequential speech recognition with two unequal ASR systems
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
EP2405423B1 (en) * 2009-03-03 2013-09-11 Mitsubishi Electric Corporation Voice recognition device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
US9275640B2 (en) * 2009-11-24 2016-03-01 Nexidia Inc. Augmented characterization for speech recognition
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
JP5590549B2 (ja) * 2010-02-23 2014-09-17 国立大学法人豊橋技術科学大学 音声検索装置および音声検索方法
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9188456B2 (en) * 2011-04-25 2015-11-17 Honda Motor Co., Ltd. System and method of fixing mistakes by going back in an electronic device
TWI406266B (zh) * 2011-06-03 2013-08-21 Univ Nat Chiao Tung 語音辨識裝置及其辨識方法
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
JPWO2013005248A1 (ja) * 2011-07-05 2015-02-23 三菱電機株式会社 音声認識装置およびナビゲーション装置
US9514737B2 (en) * 2011-09-13 2016-12-06 Mitsubishi Electric Corporation Navigation apparatus
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
CN104584118B (zh) * 2012-06-22 2018-06-15 威斯通全球技术公司 多遍车辆语音识别系统和方法
KR101636902B1 (ko) * 2012-08-23 2016-07-06 에스케이텔레콤 주식회사 문법의 오류 검출 방법 및 이를 위한 장치
US8612211B1 (en) * 2012-09-10 2013-12-17 Google Inc. Speech recognition and summarization
CN103714048B (zh) * 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
KR101892734B1 (ko) * 2013-01-04 2018-08-28 한국전자통신연구원 음성 인식 시스템에서의 오류 수정 방법 및 그 장치
IL224482B (en) * 2013-01-29 2018-08-30 Verint Systems Ltd System and method for keyword spotting using representative dictionary
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
TWI508057B (zh) * 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6165619B2 (ja) * 2013-12-13 2017-07-19 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
DE112014006795B4 (de) * 2014-07-08 2018-09-20 Mitsubishi Electric Corporation Spracherkennungssystem und Spracherkennungsverfahren
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
DE102014114845A1 (de) * 2014-10-14 2016-04-14 Deutsche Telekom Ag Verfahren zur Interpretation von automatischer Spracherkennung
DE102014017384B4 (de) * 2014-11-24 2018-10-25 Audi Ag Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
CN104409075B (zh) * 2014-11-28 2018-09-04 深圳创维-Rgb电子有限公司 语音识别方法和系统
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
EP3089159B1 (en) * 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
IL242219B (en) 2015-10-22 2020-11-30 Verint Systems Ltd System and method for keyword searching using both static and dynamic dictionaries
IL242218B (en) 2015-10-22 2020-11-30 Verint Systems Ltd A system and method for maintaining a dynamic dictionary
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10331402B1 (en) * 2017-05-30 2019-06-25 Amazon Technologies, Inc. Search and knowledge base question answering for a voice user interface
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
TWI698857B (zh) 2018-11-21 2020-07-11 財團法人工業技術研究院 語音辨識系統及其方法、與電腦程式產品
CN110033769B (zh) * 2019-04-23 2022-09-06 施永兵 一种录入语音处理方法、终端及计算机可读存储介质
CN110415679B (zh) * 2019-07-25 2021-12-17 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
US11438452B1 (en) 2019-08-09 2022-09-06 Apple Inc. Propagating context information in a privacy preserving manner
CN110956959B (zh) * 2019-11-25 2023-07-25 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
CN112581958B (zh) * 2020-12-07 2024-04-09 中国南方电网有限责任公司 一种应用于电力领域的简短语音智能导航方法
US12002451B1 (en) * 2021-07-01 2024-06-04 Amazon Technologies, Inc. Automatic speech recognition

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU7529981A (en) * 1980-09-19 1982-03-25 Hitachi Limited Language analysis by pattern recognition
JPH0816603A (ja) * 1994-06-27 1996-01-19 Fuji Xerox Co Ltd ファイル情報の検索装置
JPH10162008A (ja) * 1996-11-28 1998-06-19 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
JPH11259085A (ja) * 1998-03-13 1999-09-24 Toshiba Corp 音声認識装置及び認識結果提示方法
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
US6138099A (en) * 1998-10-19 2000-10-24 International Business Machines Corp. Automatically updating language models
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
JP3718088B2 (ja) * 1999-09-24 2005-11-16 アルパイン株式会社 音声認識修正方式
US6581033B1 (en) * 1999-10-19 2003-06-17 Microsoft Corporation System and method for correction of speech recognition mode errors
JP2001175280A (ja) * 1999-12-17 2001-06-29 Nippon Hoso Kyokai <Nhk> 字幕表示装置および字幕制御用記憶媒体
JP2001268669A (ja) * 2000-03-21 2001-09-28 Ricoh Co Ltd 移動電話端末を利用した機器制御装置、方法、及び記録媒体
JP3700533B2 (ja) * 2000-04-19 2005-09-28 株式会社デンソー 音声認識装置及び処理システム
EP1162602B1 (en) * 2000-06-07 2004-12-15 Sony International (Europe) GmbH Two pass speech recognition with active vocabulary restriction
JP3982289B2 (ja) * 2002-03-13 2007-09-26 日産自動車株式会社 音声認識装置
CN1871638B (zh) * 2003-10-21 2012-01-25 皇家飞利浦电子股份有限公司 采用用户接口的智能语音识别
JP3944159B2 (ja) * 2003-12-25 2007-07-11 株式会社東芝 質問応答システムおよびプログラム
JP2005275228A (ja) * 2004-03-26 2005-10-06 Equos Research Co Ltd ナビゲーション装置
WO2006028171A1 (ja) * 2004-09-09 2006-03-16 Pioneer Corporation データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体
JP4738847B2 (ja) * 2005-03-07 2011-08-03 キヤノン株式会社 データ検索装置および方法
JP2006277676A (ja) * 2005-03-30 2006-10-12 Toshiba Corp 情報検索装置、情報検索方法および情報検索プログラム
US20060293889A1 (en) * 2005-06-27 2006-12-28 Nokia Corporation Error correction for speech recognition systems
DE102005030963B4 (de) * 2005-06-30 2007-07-19 Daimlerchrysler Ag Verfahren und Vorrichtung zur Bestätigung und/oder Korrektur einer einem Spracherkennungssystems zugeführten Spracheingabe
US20070208567A1 (en) * 2006-03-01 2007-09-06 At&T Corp. Error Correction In Automatic Speech Recognition Transcripts
US20080154600A1 (en) * 2006-12-21 2008-06-26 Nokia Corporation System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition

Also Published As

Publication number Publication date
US20080162137A1 (en) 2008-07-03
JP2008164975A (ja) 2008-07-17
US7949524B2 (en) 2011-05-24

Similar Documents

Publication Publication Date Title
JP4867654B2 (ja) 音声認識装置、および音声認識方法
JP5089955B2 (ja) 音声対話装置
US7672846B2 (en) Speech recognition system finding self-repair utterance in misrecognized speech without using recognized words
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4734155B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
KR101383552B1 (ko) 다중 명령어가 포함된 단일 문장의 음성인식방법
US8200491B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
US20100191520A1 (en) Text and speech recognition system using navigation information
US20090112593A1 (en) System for recognizing speech for searching a database
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
KR101526918B1 (ko) 다언어 이국 음성 인식
JP2008064885A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
US8108215B2 (en) Speech recognition apparatus and method
JPH10133685A (ja) 連続音声認識中にフレーズを編集する方法及びシステム
US8566091B2 (en) Speech recognition system
JP4236597B2 (ja) 音声認識装置、音声認識プログラムおよび記録媒体。
JP5274191B2 (ja) 音声認識装置
JP2010139826A (ja) 音声認識システム
US11688394B1 (en) Entity language models for speech processing
JP4736962B2 (ja) キーワード選択方法、音声認識方法、キーワード選択システム、およびキーワード選択装置
JP2003108551A (ja) 携帯型機械翻訳装置、翻訳方法及び翻訳プログラム
JP2009116075A (ja) 音声認識装置
JP4661239B2 (ja) 音声対話装置及び音声対話方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111031

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141125

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees