WO2011096015A1

WO2011096015A1 - 認識辞書作成装置及び音声認識装置

Info

Publication number: WO2011096015A1
Application number: PCT/JP2010/000709
Authority: WO
Inventors: 山崎道弘; 石井純; 石川泰
Original assignee: 三菱電機株式会社
Priority date: 2010-02-05
Filing date: 2010-02-05
Publication date: 2011-08-11
Also published as: US8868431B2; JP5318230B2; CN102725790B; US20120226491A1; DE112010005226T5; JPWO2011096015A1; CN102725790A

Abstract

　入力された登録対象テキストの読みの言語を同定し、同定された言語の音素で登録対象テキストに読みを付与するとともに、登録対象テキストの読みを、同定された言語の読みから、音声認識で扱う認識対象言語へ変換した読みを登録した認識辞書を生成する。

Description

認識辞書作成装置及び音声認識装置

　この発明は、音声認識の対象となる語彙の辞書を作成する認識辞書作成装置及びこれを用いた音声認識装置に関するものである。

　特許文献１には、音声認識の対象となる複数の言語の音響モデルを同時に使用することにより、多言語に対応した音声認識を行うことができる音声認識装置が開示されている。

　しかしながら、この特許文献１の発明では、音声認識の対象となる複数の言語の全てに対応した多言語用の音響モデルを持つ必要があり、一般的な一言語のみに対応した音声認識には適用できないという問題点があった。
　また、特許文献１の発明は、認識語彙がどの言語で記載されているのかを予め特定して読みを付与しておく必要がある。
　一方、一言語のみに対応する音声認識では、読みが付与されていない登録対象テキストに対して、認識対象言語の読みを自動で生成して認識が行われる。このとき、認識対象言語とは別の言語で記載されたテキストについては読みを付与できない。

　この発明は、上記のような課題を解決するためになされたもので、認識辞書へ登録する対象となる語彙の言語が不明な場合であっても、当該語彙から音声認識の言語の音素体系に読みを変換した認識辞書を作成できる認識辞書作成装置及びこれを用いた音声認識装置を得ることを目的とする。

特許第３７７６３９１号公報

　この発明に係る認識辞書作成装置は、入力された登録対象のテキストの読みの言語を同定する言語同定部と、言語同定部によって同定された言語の音素で登録対象のテキストに読みを付与する読み付与部と、登録対象のテキストの読みを、言語同定部によって同定された言語の音素から音声認識で扱う認識対象言語の音素へ変換する読み変換部と、読み変換部によって変換された登録対象のテキストの読みを登録した認識辞書を生成する認識辞書生成部とを備えるものである。

　この発明によれば、入力された登録対象のテキストの読みの言語を同定し、同定された言語の音素で登録対象のテキストに読みを付与するとともに、登録対象のテキストの読みを、同定された言語の読みから、音声認識で扱う認識対象言語へ変換した読みを登録した認識辞書を生成する。このようにすることで、認識辞書への登録対象のテキスト（語彙）がどの言語で記述されているか不明である場合であっても、音声認識の言語の音素体系に即した認識辞書を得ることができるという効果がある。

この発明の実施の形態１による認識辞書作成装置を用いた登録型の音声認識装置の構成を示すブロック図である。実施の形態１の認識辞書作成装置による認識辞書の作成動作の流れを示すフローチャートである。ドイツ語と英語で発音が類似する音素の対応表の一例を示す図である。実施の形態１の認識辞書作成装置による認識辞書の作成動作の流れを示すフローチャートである。この発明の実施の形態２による認識辞書作成装置を用いた登録型の音声認識装置の構成を示すブロック図である。実施の形態２の認識辞書作成装置による認識辞書の作成動作の流れを示すフローチャートである。

　以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　図１は、この発明の実施の形態１による認識辞書作成装置を用いた登録型の音声認識装置の構成を示すブロック図である。図１において、実施の形態１による音声認識装置１００は、言語同定部１０１、読み付与部１０２、読み変換部１０３、認識辞書生成部１０４、認識辞書記憶部１０５及び音声認識部１０６を備える。これら構成部のうち、言語同定部１０１、読み付与部１０２、読み変換部１０３、認識辞書生成部１０４及び認識辞書記憶部１０５が、実施の形態１による認識辞書作成装置の構成である。

　言語同定部１０１は、認識辞書への登録対象となる語彙のテキスト文字列（以下、登録対象テキストと呼ぶ）の言語を同定する構成部である。登録対象テキストには、言語を特定しにくい語彙のテキスト文字列も含まれ、例えば、携帯音楽プレーヤに登録されている楽曲のタイトルやアーティスト名等の書誌データ、携帯電話に登録されている地名や人名等が挙げられる。読み付与部１０２は、言語同定部１０１によって同定された言語で登録対象テキストに読みを音素で付与する構成部である。読み変換部１０３は、読み付与部１０２によって付与された読みを、音声認識部１０６が行う音声認識で使用する言語へ音素変換する構成部である。

　認識辞書生成部１０４は、読み変換部１０３により変換された音素を、音声認識の対象となる語彙（以下、認識対象語彙と呼ぶ）として生成し、認識辞書記憶部１０５の認識辞書へ登録する構成部である。認識辞書記憶部１０５は、認識辞書生成部１０４及び音声認識部１０６によって読み書き可能な記憶部であって、認識辞書生成部１０４により生成された認識対象語彙を登録する認識辞書が記憶される。音声認識部１０６は、認識辞書記憶部１０５に記憶された認識辞書の認識対象語彙を用いて音声認識を実行し、認識結果を出力する構成部である。

　また、言語同定部１０１、読み付与部１０２、読み変換部１０３、認識辞書生成部１０４、認識辞書記憶部１０５及び音声認識部１０６は、この発明の趣旨に従う認識辞書作成プログラムをコンピュータに記憶し、ＣＰＵに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として当該コンピュータ上で実現することができる。さらに、認識辞書記憶部１０５及び音声認識部１０６で用いる記憶領域は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。

　次に動作について説明する。
　図２は、実施の形態１の認識辞書作成装置による認識辞書の作成動作の流れを示すフローチャートであり、１つの登録対象テキストに対する、言語同定部１０１、読み付与部１０２、読み変換部１０３及び認識辞書生成部１０４による動作の詳細を述べる。
　先ず、言語同定部１０１が、登録対象テキストの文字列に言語同定処理を開始し、当該文字列がどの言語で記載されたものであるかを判定する（ステップＳＴ２０１）。具体的には、言語同定部１０１に設定される複数の言語のうち、入力された登録対象テキストの文字列が、どの言語に該当するかが判定される。
　例えば、言語同定部１０１において、英語、ドイツ語、フランス語、イタリア語、スペイン語、オランダ語の欧州６言語が、言語同定の対象として設定されている場合、入力された登録対象テキストの文字列が“Ｇｕｔｅｎ　Ｍｏｒｇｅｎ”であると、言語同定部１０１は、当該文字列の言語がドイツ語であるとの言語同定の結果を出力する。
　言語の同定に失敗する等して言語が同定できなかった場合、言語同定部１０１は、音声認識部１０６が音声認識の対象として受理可能な言語を同定結果として出力する。

　また、言語同定部１０１の言語同定には、例えば、文字のＮ－ｇｒａｍが使用される。Ｎ－ｇｒａｍ自体は、Ｃｌａｕｄｅ　Ｅｌｗｏｏｄ　Ｓｈａｎｎｏｎにより確立された言語情報に関する分析モデルであり、音声認識のための言語モデルや全文検索等に使用されている。これらの一般的なＮ－ｇｒａｍの利用方法については、下記の参考文献１に記載されている。
（参考文献１）“A Mathematical Theory of Communication”,C.E.SHANNON,The Bell System Technical Journal,Vol.27,pp.379-423,623-656,July,October,1948.

　このように、Ｎ－ｇｒａｍの概念をテキスト文字列の言語同定に取り入れることで、精度良く言語を同定することが可能である。例えば、Ｎを３として、文字のＴｒｉｇｒａｍを用いた言語同定について説明する。
　言語同定部１０１は、言語同定の対象となる各言語で記載された学習用テキスト文字列を有しており、学習用文字列中に現れる文字の３連鎖の出現確率を求める。例えば、文字列“ＭＩＴＳＵＢＩＳＨＩ”の場合、“＄＄Ｍ”、“＄ＭＩ”、“ＭＩＴ”、“ＩＴＳ”、“ＴＳＵ”、“ＳＵＢ”、“ＵＢＩ”、“ＢＩＳ”、“ＩＳＨ”、“ＳＨＩ”、“ＨＩ＄”、“Ｉ＄＄”の各連鎖に分解できる。なお、“＄”は、語頭、語尾を表す文字を意味する。

　言語ｉ（ｉ＝１，２，・・・，Ｎ）の全学習文字列中に各連鎖が出現する頻度を求めた後、言語同定部１０１は、学習された言語ごとに連鎖の出現確率の上位ｎ個をモデルとして採用し、文字の連鎖とその出現頻度を各言語の言語同定モデルに記憶する。例えば、言語ｉの言語同定モデルには、文字連鎖（Ｔｒｉｇｒａｍ）“＄＄Ｍ”と、そのときの出現確率Ｐｉ（＄，＄，Ｍ）等が記憶される。

　言語同定部１０１は、登録対象テキストの文字列に対して、各言語の言語同定モデルを用いて言語ごとに文字連鎖（Ｔｒｉｇｒａｍ）の連鎖確率を求めていき、連鎖確率値が最も大きくなる言語を言語の同定結果として採用する。例えば、“Ｂｅｓｔ”に対する言語ｉの連鎖確率Ｐｉは、Ｐｉ＝Ｐｉ（＄，＄，Ｂ）×Ｐｉ（＄，Ｂ，Ｅ）×Ｐｉ（Ｂ，Ｅ，Ｓ）×Ｐｉ（Ｅ，Ｓ，Ｔ）×Ｐｉ（Ｓ，Ｔ，＄）×Ｐｉ（Ｔ，＄，＄）で求められる。この連鎖確率Ｐｉが最大となる言語ｉが、言語の同定結果となる。

　なお、言語同定部１０１は、Ｎ－ｇｒａｍが言語同定モデルに記憶されていない場合には、出現確率として予め定めた一定確率を与えて計算を行う。
　Ｎ－ｇｒａｍを求めるにあたり、言語同定の対象となる複数の言語で共通に記述され、言語同定に寄与しない文字（例えば、数字、括弧やピリオド等の記号）については、これらの文字を特殊文字を表す文字に予め置き換えてＮ－ｇｒａｍを求めても構わない。例えば、＃、＠等の特殊文字を使用する。

　また、言語同定において、使用される言語が限定される文字が使用されていた場合は、当該文字が使用されている言語のうち、尤度が最も高い言語を同定結果として出力してもよい。使用される言語が限定される文字としては、例えば、ウムラウトを用いた文字等が挙げられる。
　なお、Ｎ－ｇｒａｍの学習に用いるテキスト文字列（言語同定モデルに用いるテキスト文字列）を、認識対象語彙と同じタスクの語彙を用いて学習を行うことにより、言語の同定精度を向上させることが可能である。タスクとは、例えば音楽検索や住所認識等の認識対象語彙が使用される処理を意味する。言語同定部１０１は、タスクごとの学習用文字列を備え、登録対象テキストが使用されるタスクに対応する学習用文字列を言語同定に用いる。

　次に、読み付与部１０２は、言語同定部１０１から同定結果を入力すると、音声認識装置１００に設定されている複数の言語のうち、当該同定結果がいずれの言語であるかを判定し（ステップＳＴ２０２）、入力された登録対象テキストの文字列に対して、判定結果の言語による音素で読みを付与する（ステップＳＴ２０３）。音声認識部１０６にて現在音声認識の対象とされている認識対象言語であると、この認識対象言語による音素で読みが付与される。同様に、判定結果の言語が、認識対象言語以外の言語１，２，・・・，Ｎのいずれかであっても、図２に示すように、当該言語の音素で読みが付与される。
　なお、音素の付与には、例えばＧ２Ｐ（Grapheme to Phoneme）を用いる。また、この読み付与処理において、省略語の判定や記号等の処理のように言語に依存した処理も併せて行う。

　読み変換部１０３は、ステップＳＴ２０３において、認識対象言語以外の言語の音素で読みが付与された登録対象テキストに対して、各言語による音素の読みを、認識対象言語による音素の読みに変換する（ステップＳＴ２０４）。
　このように音素体系を変換する理由は、音声認識部１０６にて受理可能な音素体系が、音声認識の対象としている認識対象言語のみであり、言語が異なる音素体系は受理されない音素が存在するためである。
　このような音素（読み）の変換方法としては、例えば、読み変換部１０３が、音声認識部１０６で受理できない言語の音素又は音素の系列に対して、認識対象言語のうち、最も近い音素又は音素の系列を、対応表として予め用意しておき、ステップＳＴ２０３で得られたテキスト文字列の読みに対して、上記対応表に応じて読みの変換（音素マッピング）を行う。

　図３は、上述のような対応表の一例を示す図であり、ドイツ語と英語の間での対応関係を示している。ドイツ語における発音／ａ／（非円唇前舌広母音）や／Ｙ／（円唇前舌め広めの狭母音）等は、イギリス英語の発音体系にない。このため、音声認識部１０６が、イギリス英語を受理する場合、当該読みに対応していない。
　そこで、ドイツ語の発音／ａ／や／Ｙ／については、図３に示す対応表のように、音声認識部１０６にて受理可能なイギリス英語に存在する音素のうち、発音が最も近い音素、例えば、／｛／（非円唇前舌狭めの広母音）や／｝／（円唇前舌半狭母音）と対応付けておく。なお、ここでの発音表記は、Ｘ－ＳＡＭＰＡ表記を用いている。
　この対応表は、言語的に近いもの同士を対応付けてもよいが、例えば、各言語の発音がどの音素表記で認識しやすいか等に基づいて対応関係を決定してもよい。

　認識辞書生成部１０４は、ステップＳＴ２０３で読み付与部１０２によって登録対象テキストの文字列に付与された音素、又はステップＳＴ２０４で読み変換部１０３によって変換された音素を入力し、音声認識部１０６が参照可能な形式の認識辞書を生成する（ステップＳＴ２０５）。例えば、認識語彙をバイナリデータに変換する他、必要に応じて形態素解析、単語分割を行って言語制約の作成等を行って認識辞書を得る。
　登録対象テキストである語彙が複数ある場合、各登録対象テキストに対して、上述までの処理を繰り返す。なお、認識辞書の生成は、一語彙ずつの追加登録ではなく、全ての登録対象テキストの語彙に読みを付与した後にまとめて行うようにしても構わない。
　認識辞書生成部１０４によって生成された認識辞書は、認識辞書記憶部１０５に記憶される。

　音声認識部１０６は、認識辞書記憶部１０５に記憶された認識辞書に記載の認識語彙や文法を参照して入力音声の音声認識を行い、認識結果を出力する。例えば、音声認識部１０６が、特定の言語の音素体系の音素で記載された認識辞書を読み込み、特定の言語の入力音声を音声認識する。音声認識のアルゴリズムとしては、例えばＨＭＭ（隠れマルコフモデル）やＤＰ（Dynamic Programming）マッチング等を用いる。

　上述まででは、言語同定部１０１で同定された言語が１言語である場合の動作を説明したが、続いて、入力された登録対象テキストの文字列から、言語同定部１０１により複数の言語が同定された場合の動作について説明する。
　図４は、実施の形態１の認識辞書作成装置による認識辞書の作成動作の流れを示すフローチャートであり、言語同定部１０１にＮ個の言語が同定された場合を示している。
　言語同定部１０１は、登録対象テキストの文字列に対して言語同定処理を開始し、当該文字列がどの言語で記載されたものであるかを判定して、当該文字列の言語として確からしい上位Ｎ個の言語を言語同定結果とする（ステップＳＴ３０１）。
　なお、ここで、Ｎ個は固定値としてもよいが、言語同定部１０１で信頼度を表すスコアを出力し、このスコアが予め定めた閾値以上の信頼度である候補の数や、１位の信頼度に対する一定の信頼度差以内の候補の数としても構わない。
　例えば、登録対象テキストとして“Ｈａｍｂｕｒｇ”が入力された場合、言語同定部１０１は、このテキストから同定される言語がドイツ語と英語である（Ｎ＝２）との結果を出力する。また、言語の同定に失敗する等して言語が同定できなかった場合や、信頼度のスコアが閾値未満である場合、言語同定部１０１は、音声認識部１０６で受理可能な言語（認識対象言語）を、言語の同定結果として出力する。

　次に、言語同定部１０１は、同定結果として得られた言語の数、すなわち言語ごとに行われる後述の処理の回数を示すカウンタｉをｉ＝０に初期化（ステップＳＴ３０１－１）し、ｉ番目の同定結果に相当する言語を読み付与部１０２に設定する。これにより、読み付与部１０２、読み変換部１０３及び認識辞書生成部１０４が、ｉ（ｉ＝０～Ｎ）番目の同定結果に相当する言語で、ステップＳＴ３０２からステップＳＴ３０６までの処理を実行する。なお、ステップＳＴ３０２は、図２で示したステップＳＴ２０２と同様の処理であり、ステップＳＴ３０３は、図２で示したステップＳＴ２０３と同様の処理、ステップＳＴ３０４は、図２で示したステップＳＴ２０４と同様の処理、ステップＳＴ３０５は、図２で示したステップＳＴ２０５と同様の処理である。

　ステップＳＴ３０６において、言語同定部１０１は、カウンタｉを＋１インクリメントして次の同定結果の言語で上記一連の処理を繰り返す。ステップＳＴ３０７において、言語同定部１０１が、カウンタｉのカウント値に基づいて、全ての同定結果の言語に対して上記一連の処理が完了（ｉ≧Ｎ＋１）したと判定すると、入力された登録対象テキストに対する登録処理を終了する。これにより、１つの登録対象テキストが、複数の言語で記述される場合であっても、これらの言語を同定しその音素で読みをそれぞれ付与してから、認識対象言語の音素による読みにそれぞれ変換することで、認識語彙として認識辞書に登録できる。従って、ユーザが、言語同定部１０１が同定したいずれの言語で当該テキスト文字列の発話を行っても、認識辞書に登録された対応する認識語彙で音声認識することが可能である。

　なお、登録対象テキストが複数ある場合は、同定結果として１つの言語が得られた場合と同様に、各登録対象テキストに対して、上述の処理を繰り返す。
　認識辞書の生成は、１つの登録対象テキストに対する言語同定結果として得られた言語ごとに追加登録するのではなく、１つの登録対象テキストの語彙で同定された全ての言語をまとめて追加登録してもよい。若しくは、全ての登録対象テキストの語彙に対して読みを付与した後にまとめて行っても構わない。

　以上のように、この実施の形態１によれば、入力された登録対象テキストの読みの言語を同定し、同定された言語の音素で登録対象テキストに読みを付与するとともに、登録対象テキストの読みを、同定された言語の読みから、音声認識で扱う認識対象言語へ変換した読みを登録した認識辞書を生成する。
　このようにすることで、登録対象テキストがどの言語が不明である場合（例えば、携帯音楽プレーヤに登録されている楽曲に対するタイトルやアーティスト名などの書誌データや、携帯電話に登録されている地名や人名等）であっても、Ｎ－ｇｒａｍを用いた言語同定モデルで登録対象テキストの言語を同定し、同定された言語による音素の付与を行い、音声認識で受理可能な言語の音素に変換することにより、音声認識で参照される認識語彙として登録することができる。

　また、この実施の形態１によれば、言語同定部１０１が、登録対象テキストから複数の言語を同定することで、登録対象テキストが複数の言語に該当する可能性がある場合に、各言語での読みを付与して認識語彙として登録する。このようにすることで、ユーザが、どちらの言語での発音をしても音声認識が可能である。

　さらに、この実施の形態１によれば、言語同定部１０１が、言語の同定結果に対して、各言語に対する信頼度を表すスコアを設定し、このスコアに関する所定の閾値と比較して信頼度が高い言語を最終的な同定結果として出力する。このようにすることで、ユーザに発声される可能性が高い言語の発音のみを採用でき、音声認識性能を向上させることができる。

　さらに、この実施の形態１によれば、Ｎ－ｇｒａｍを用いて言語同定を行うので、言語ごとに単語辞書等を用意して言語判定を行う場合と比較して、安定した言語同定性能を得ることができる。また、同時に、辞書サイズを小さくすることができ、演算量やメモリ消費量を削減することが可能となる。

　さらに、この実施の形態１によれば、Ｎ－ｇｒａｍを用いた言語同定において、言語の同定に寄与しない文字（例えば、数字や、括弧、ピリオド等の記号）を、特殊文字を表す１文字に置き換えたＮ－ｇｒａｍを用いる。これにより、言語同定モデルの記憶領域のサイズを低減でき、言語同定モデルの検索時間やメモリ消費量を削減することができるので、組み込み型の装置等の演算速度やメモリサイズに制限がある装置への本発明の適用が容易である。

　さらに、この実施の形態１によれば、ウムラウト等のように、使用される言語が限定される文字が登録対象テキストに存在する場合には、当該文字が使用される言語のうちから言語を同定することにより、言語同定の精度を向上させることが可能となる。

　さらに、この実施の形態１によれば、Ｎ－ｇｒａｍを用いた言語同定において、言語同定モデルを、認識対象語彙と同じタスク（認識対象語彙が使用された処理）の語彙を用いて作成することにより、言語同定の精度を向上させることが可能である。

実施の形態２．
　図５は、この発明の実施の形態２による認識辞書作成装置を用いた登録型の音声認識装置の構成を示すブロック図である。図５において、実施の形態２による音声認識装置１００Ａは、上記実施の形態１による音声認識装置の構成に加え、言語同定前処理部１０７、定型文字列記憶部（除外対象記憶部）１０８、分割文字列記憶部（分割対象記憶部）１０９及び変換処理記憶部（処理内容記憶部）１１０を備える。
　言語同定前処理部１０７は、言語同定部１０１の前段に配置され、登録対象テキストが入力される構成部であり、言語同定処理を行う前処理として、入力された登録対象テキストの文字列における、特定の文字又は文字列（以下、定型文字又は定型文字列と呼ぶ）を言語同定の対象から除外したり、所定の文字又は文字列（以下、分割文字又は分割文字列と呼ぶ）を基準として、当該登録対象テキストを分割する。

　定型文字列記憶部１０８は、言語同定の対象から除外する定型文字又は定型文字列及びその記述言語と読みが記憶された記憶部である。分割文字列記憶部１０９は、登録対象テキストを分割する際の分割位置となる分割文字又は分割文字列及びその記述言語と読みが記憶された記憶部である。変換処理記憶部１１０は、言語同定前処理部１０７によって登録対象テキストに施された前処理の内容（文字列除外や分割）を記憶する記憶部である。

　なお、図５において、図１と同一又は同様に動作する構成部には、同一符号を付して説明を省略する。ただし、言語同定部１０１は、言語同定前処理部１０７によって前処理が施された登録対象テキストの文字列に対して言語の同定を行う。また、認識辞書生成部１０４は、認識辞書を生成するにあたり、変換処理記憶部１１０に記憶されている前処理内容、つまり登録対象テキストの分割された各分割部分間の接続関係や、登録対象テキストから除外された文字列及びその読みを用いて、当該登録対象テキストの文字列にあった認識辞書を生成する。

　また、言語同定前処理部１０７、定型文字列記憶部１０８、分割文字列記憶部１０９及び変換処理記憶部１１０は、この発明の趣旨に従う認識辞書作成プログラムをコンピュータに記憶し、ＣＰＵに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として当該コンピュータ上で実現することができる。さらに、定型文字列記憶部１０８、分割文字列記憶部１０９及び変換処理記憶部１１０で用いる記憶領域は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。

　次に動作について説明する。
　図６は、実施の形態２の認識辞書作成装置による認識辞書の作成動作の流れを示すフローチャートであり、言語同定前処理部１０７、言語同定部１０１、読み付与部１０２、読み変換部１０３及び認識辞書生成部１０４による動作の詳細を述べる。
　先ず、言語同定前処理部１０７は、登録対象テキストを入力すると、定型文字列記憶部１０８の記憶内容を参照して、当該登録対象テキストの文字列に含まれる定型文字又は定型文字列を検出し、言語同定の対象から除外する（ステップＳＴ５０１）。定型文字又は定型文字列としては、複数の言語に共通して現れる特定の言語による記述が挙げられる。

　楽曲の書誌データを対象とするシステムにおいて、“Ｄｉｓｃ”や“Ｂｅｓｔ　ｏｆ”等は、言語に依らずに、複数の言語で共通に記載（英語表記）される。そこで、このような文字又は文字列及びその記述言語（上記例では英語）を定型文字列記憶部１０８に記憶しておく。例えば、“Ｂｅｓｔ　Ｏｆ　Ｃｅ　ｎ’ｅｓｔ　ｑｕｅ　ｍｏｉ”という登録対象テキストが入力された場合、“Ｂｅｓｔ　Ｏｆ”は、定型文字列記憶部１０８の記憶内容から英語とその読みが得られるため、言語同定前処理部１０７により言語同定の対象から削除され、言語同定対象の文字列として、“Ｃｅ　ｎ’ｅｓｔ　ｑｕｅ　ｍｏｉ”が残る。

　続いて、言語同定前処理部１０７は、分割文字列記憶部１０９の記憶内容を参照して、登録対象テキストの文字列に含まれる分割文字又は分割文字列を検出し、分割文字又は分割文字列を基準として、登録対象テキストの文字列を分割する（ステップＳＴ５０２）。分割文字又は分割文字列としては、登録対象テキストの記述を区切る文字である“（”や“）”、“－”等が挙げられる。
　例えば、“Ｊｅ　ｖｉｖｒａｉ　ｓａｎｓ　ｔｏｉ（Ｉ　Ｗｉｌｌ　Ｓａｙ　Ｇｏｏｄｂｙｅ）”という登録対象テキストが入力された場合、分割文字列記憶部１０９の記憶内容を参照して、言語同定前処理部１０７は、当該登録対象テキストの文字列に含まれる、括弧“（”や“）”を検出し、これらの文字を基準として当該登録対象テキストの文字列を分割する。これにより、“Ｊｅ　ｖｉｖｒａｉ　ｓａｎｓ　ｔｏｉ”と“Ｉ　Ｗｉｌｌ　Ｓａｙ　Ｇｏｏｄｂｙｅ”の２つの文字列に分割される。

　次に、言語同定前処理部１０７は、分割文字列記憶部１０９の記憶内容を参照して、登録対象テキストの文字列に含まれる、例えば、大文字列（スペル）や数字等のように表記言語によらず、認識対象言語で読み上げられる文字列を特定し、この文字列を登録対象テキストから除外して分割する（ステップＳＴ５０３）。この文字列部分では、言語同定の結果として言語が特定されず、認識対象言語となるため、認識対象言語による読みが付与される。

　なお、この文字列部分（大文字列（スペル）や数字等の文字列）に対して、分割文字列記憶部１０９に予め認識対象言語での読みを付与して記憶しておくとともに、登録対象テキストにおける、この文字列部分を境とした前後の文字列に対して言語同定部１０１が同定した言語で読み付与部１０２が当該文字列部分に読みを付与するようにしてもよい。
　このように、大文字列（スペル）や数字等の文字列部分に対して、認識対象言語と同定結果の言語との２種類の読みを付与することで、登録対象テキストにおける、この文字列部分以外の部分を記述する言語（同定結果の言語）に依らず、認識対象言語で発話される文字列部分に正しく読みを付与することが可能となる。

　言語同定前処理部１０７は、ステップＳＴ５０１からステップＳＴ５０３までの前処理の内容を変換処理記憶部１１０に記憶する。前処理の内容として、登録対象テキストから除外された定型文字又は定型文字列、その記述言語及びこの言語の音素による読み、登録対象テキストの分割位置となる分割文字又は分割文字列、各分割部分間の接続関係等が、変換処理記憶部１１０に記憶される。

　この後、言語同定前処理部１０７は、登録対象テキストを分割した分割数Ｋをカウントするカウンタｊを初期化（ｊ＝０）する（ステップＳＴ５０４）。続いて、言語同定前処理部１０７は、ｊ番目の分割部分を言語同定の対象となる文字列に設定して言語同定部１０１へ出力する（ステップＳＴ５０５）。

　言語同定部１０１は、言語同定前処理部１０７から入力したｊ番目の分割部分の文字列に対して、上記実施の形態１と同様な手順で言語同定処理を開始し、当該文字列がどの言語で記載されたものであるかを判定して、当該文字列の言語として確からしい上位Ｎ個の言語（尤度の高い上位Ｎ個の言語）を言語同定結果とする（ステップＳＴ５０６）。

　次に、言語同定部１０１は、同定結果として得られた言語の数、すなわち言語ごとに行われる後述の処理の回数を示すカウンタｉをｉ＝０に初期化（ステップＳＴ５０７）し、ｉ番目の同定結果に相当する言語を読み付与部１０２に設定する。
　このようにして、読み付与部１０２及び読み変換部１０３が、ｉ（ｉ＝０～Ｎ）番目の同定結果に相当する言語でステップＳＴ５０８からステップＳＴ５１０までの処理を実行する。なお、ステップＳＴ５０８は、図２で示したステップＳＴ２０２と同様の処理であり、ステップＳＴ５０９は、図２で示したステップＳＴ２０３と同様の処理であり、ステップＳＴ５１０は、図２で示したステップＳＴ２０４と同様の処理である。

　ステップＳＴ５１１において、言語同定部１０１は、カウンタｉを＋１インクリメントして次の同定結果の言語で上記一連の処理を繰り返し、ステップＳＴ５１２において、全ての同定結果の言語に対して上記一連の処理が完了（ｉ≧Ｎ＋１）したと判定されると、カウンタｊを＋１インクリメントする（ステップＳＴ５１３）。ステップＳＴ５１４で、言語同定部１０１が、カウンタｊのカウント値に基づいて、全ての分割部分の文字列に対して処理が完了（ｊ≧Ｋ）したと判定するまで、分割部分の文字列のそれぞれに対して、ステップＳＴ５０５からステップＳＴ５１４までの一連の処理が繰り返される。

　認識辞書生成部１０４は、変換処理記憶部１１０に記憶された前処理内容を参照して、登録対象テキストの文字列から除外された文字列に対する読みを特定し、当該言語同定の対象から除外された文字列の読みと、読み変換部１０３から入力した各分割部分の文字列に付与された読みとを合成し、音声認識部１０６が参照可能な形式の認識辞書を生成する（ステップＳＴ５１５）。例えば、認識語彙をバイナリデータに変換する他、必要に応じて形態素解析、単語分割を行って言語制約の作成等を行って認識辞書を得る。

　以上のように、この実施の形態２によれば、定型文字列記憶部１０８、分割文字列記憶部１０９、これら記憶部１０８，１０９に記憶された内容に基づいて、登録対象テキストに前処理を行う言語同定前処理部１０７と、言語同定前処理部１０７による前処理の内容を記憶する変換処理記憶部１１０とを備え、認識辞書生成部１０４が、変換処理記憶部１１０の記憶内容に基づいて、言語同定前処理部１０７によって前処理が施された登録対象テキストの読みを表す音素を求め、これを登録した認識辞書を生成する。
　このように、特定文字列により入力テキストを分割し、分割部分に対してそれぞれ言語同定処理、読み付与処理を行うことで、登録対象テキストに複数の言語が含まれる場合であっても、登録対象テキストの各分割部分を正しく言語同定することが可能となる。
　また、複数の言語に含んで使用される特定言語の単語／フレーズを、特定文字列として予め記憶し、言語同定の対象から除外することにより、言語に関係なく使用される言語のフレーズ（例えば、音楽のアルバムタイトルで“Ｄｉｓｃ　１”、“Ｂｅｓｔ　ｏｆ”等）を含む場合においても、当該フレーズ以外の文字列部分で言語同定を行うことで各文字列部分の読みの言語を正しく言語同定することが可能となる。
　また、認識対象言語に依存した読みをする箇所を分割することにより、当該箇所についても、正しく読みを付与することが可能となる。

　この発明に係る認識辞書作成装置によれば、記述言語が不明な語彙から音声認識の音素体系における認識辞書を作成することができるので、複数の言語の語彙が混在するデータが扱われる、携帯音楽プレーヤ、携帯電話、車載ナビゲーションシステムなどの音声認識装置に適している。

Claims

　入力された登録対象のテキストの読みの言語を同定する言語同定部と、
　前記言語同定部によって同定された言語の音素で前記登録対象のテキストに読みを付与する読み付与部と、
　前記登録対象のテキストの読みを、前記言語同定部によって同定された言語の音素から音声認識で扱う認識対象言語の音素へ変換する読み変換部と、
　前記読み変換部によって変換された前記登録対象のテキストの読みを登録した認識辞書を生成する認識辞書生成部とを備えた認識辞書作成装置。
　前記言語同定部は、言語同定の対象となる複数の言語のうち、前記登録対象のテキストの読みの言語としての確からしさを示すスコアの上位から所定数の言語を同定結果として出力し、
　前記読み付与部は、前記言語同定部によって同定された前記所定数の各言語の音素で前記登録対象のテキストに読みをそれぞれ付与し、
　前記読み変換部は、前記登録対象のテキストの読みを、前記言語同定部によって同定された前記所定数の言語の音素から前記認識対象言語の音素へそれぞれ変換することを特徴とする請求項１記載の認識辞書作成装置。
　前記言語同定部は、前記スコアが所定の閾値未満である場合、前記認識対象言語を同定結果として出力することを特徴とする請求項２記載の認識辞書作成装置。
　言語同定の除外対象の文字又は文字列を記憶する除外対象記憶部と、
　前記登録対象のテキストから、前記除外対象記憶部に記憶した前記除外対象の文字又は文字列に相当する部分を除外する言語同定前処理部と、
　前記言語同定前処理部によって前記登録対象のテキストに施された前記除外対象の文字又は文字列の除外処理の内容を記憶する処理内容記憶部とを備え、
　前記言語同定部は、前記言語同定前処理部により前記除外対象の文字又は文字列が除外された前記登録対象のテキストの読みの言語を同定し、
　前記認識辞書生成部は、前記処理内容記憶部に記憶された除外処理の内容を参照して、前記除外対象の文字又は文字列の読み及び前記除外対象の文字又は文字列を除外した前記登録対象のテキストの読みから、当該登録対象のテキストの読みを求め、これを登録した認識辞書を生成することを特徴とする請求項１記載の認識辞書作成装置。
　分割対象の文字又は文字列を記憶する分割対象記憶部を備え、
　前記言語同定前処理部は、前記分割対象記憶部に記憶した前記分割対象の文字又は文字列で前記登録対象のテキストの文字列を分割し、
　前記処理内容記憶部には、前記言語同定前処理部によって前記登録対象のテキストに施された分割処理の内容が記憶され、
　前記言語同定部は、前記言語同定前処理部によって分割された前記登録対象のテキストの分割部分ごとに読みの言語を同定し、
　前記認識辞書生成部は、前記処理内容記憶部に記憶された分割処理の内容を参照して、前記分割部分ごとの読みから前記登録対象のテキストの読みを求め、これを登録した認識辞書を生成することを特徴とする請求項４記載の認識辞書作成装置。
　前記分割対象記憶部は、数字又は大文字列を含む分割対象の文字又は文字列及びその認識対象言語の読みを記憶しており、
　前記言語同定前処理部は、前記登録対象のテキストから、前記数字又は大文字列を含む分割対象の文字又は文字列を除外して、当該登録対象のテキストの文字列を分割し、
　前記言語同定部は、前記言語同定前処理部によって分割された前記登録対象のテキストの分割部分ごとに読みの言語を同定し、
　前記読み付与部は、前記数字又は大文字列を含む分割対象の文字又は文字列に対して、前記言語同定部によって同定された前記分割部分の言語の読みを付与し、
　前記認識辞書生成部は、前記処理内容記憶部に記憶された除外処理の内容を参照して、前記分割部分ごとの読みと、前記分割対象の文字又は文字列の認識対象言語の読み及び前記分割部分の言語から前記認識対象言語へ変換された読みから、前記登録対象のテキストの読みを求め、これを登録した認識辞書を生成することを特徴とする請求項５記載の認識辞書作成装置。
　前記言語同定部は、言語同定の対象となる言語ごとのＮ－ｇｒａｍ及びその出現確率を含む言語同定モデルを用いて、前記登録対象のテキストのＮ－ｇｒａｍの連鎖確率を言語ごとに算出し、前記連鎖確率値に基づく尤度から読みの言語を同定することを特徴とする請求項１記載の認識辞書作成装置。
　前記言語同定部は、前記登録対象のテキストのうち、言語同定の対象となる複数の言語で共通に記述されて言語同定に寄与しない文字又は文字列については特殊文字に置換してＮ－ｇｒａｍを生成することを特徴とする請求項７記載の認識辞書作成装置。
　前記言語同定部は、前記登録対象のテキストに使用言語が限定される文字又は文字列が含まれる場合、前記使用言語のうち、尤度が最も高い言語を同定結果として出力することを特徴とする請求項７記載の認識辞書作成装置。
　前記言語同定部は、認識対象語彙が使用される処理ごとに言語同定モデルを備え、前記登録対象のテキストが使用される処理に対応する言語同定モデルを言語同定に用いることを特徴とする請求項７記載の認識辞書作成装置。
　入力された登録対象のテキストの読みの言語を同定する言語同定部と、
　前記言語同定部によって同定された言語の音素で前記登録対象のテキストに読みを付与する読み付与部と、
　前記登録対象のテキストの読みを、前記言語同定部によって同定された言語の音素から音声認識で扱う認識対象言語の音素へ変換する読み変換部と、
　前記読み変換部によって変換された前記登録対象のテキストの読みを登録した認識辞書を生成する認識辞書生成部と、
　前記認識辞書生成部によって生成された前記認識辞書を参照して、入力音声の音声認識を行う音声認識部とを備えた音声認識装置。
　言語同定の除外対象の文字又は文字列を記憶する除外対象記憶部と、
　分割対象の文字又は文字列を記憶する分割対象記憶部と、
　前記除外対象記憶部及び前記分割対象記憶部に記憶された内容に基づいて、入力された登録対象のテキストから、前記除外対象の文字又は文字列を除外するとともに、前記分割対象の文字又は文字列で分割する言語同定前処理部と、
　前記言語同定前処理部により前記登録対象のテキストに施された処理の内容を記憶する処理内容記憶部と、
　前記言語同定前処理部により前記処理が施された前記登録対象のテキストの読みの言語を同定する言語同定部と、
　前記言語同定部によって同定された言語の音素で前記登録対象のテキストに読みを付与する読み付与部と、
　前記登録対象のテキストの読みを、前記言語同定部によって同定された言語の音素から音声認識で扱う認識対象言語の音素へ変換する読み変換部と、
　前記処理内容記憶部に記憶された前記処理の内容を参照して、前記言語同定前処理部によって前記処理が施された前記登録対象のテキストの読みを求めて、これを登録した認識辞書を生成する認識辞書生成部と、
　前記認識辞書生成部によって生成された前記認識辞書を参照して、入力音声の音声認識を行う音声認識部とを備えた音声認識装置。