JP6538399B2

JP6538399B2 - 音声処理装置、音声処理方法およびプログラム

Info

Publication number: JP6538399B2
Application number: JP2015070338A
Authority: JP
Inventors: 智彦原田; 祥子山畠; 洋和小間
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2015-03-30
Filing date: 2015-03-30
Publication date: 2019-07-03
Anticipated expiration: 2035-03-30
Also published as: JP2016191740A

Description

本発明は、使用する言語の異なるユーザ間において、ユーザが発する音声内容を入出力する技術に関する。

従来、使用する言語の異なるユーザ間において、円滑なコミュニケーションを図るために、ユーザが発する音声を認識することによってテキスト化する情報処理装置が知られている。例えば、公知の情報処理装置では、取得される音声を認識してテキストデータとして出力するものがある（特許文献１）。

特開２０１０−１２８７６６号公報

上記のように、従来の情報処理装置は、音声を認識してテキストデータとして出力する。しかしながら、ユーザの発音や語順などによりユーザの意図した音声と認識されないこともあり得、そのような場合でも、ユーザは正しく音声認識されなかった語を知らないまま、話を続けることもあり得る。

本発明は、上述した状況においてなされたものであり、正しく音声認識されない語を話者に把握させることによって適切な発音を促す音声処理装置等を提供することにある。

上記の課題を解決するための音声処理装置は、話者の音声を認識する音声処理装置であって、言い換えの対象としての言い換え元の語と、当該言い換え元の語とは異なる意味を持つ言い換え先の語とを対応付けて格納する言い換え辞書と、前記話者の音声に、音声認識の信頼度の低い語が含まれる場合は、当該信頼度の低い語と一致する前記言い換え元の語に対応付けられる前記言い換え先の語を前記言い換え辞書から検索する検索部と、前記話者に対して前記信頼度の低い語の適切な発音を促すために、前記検索された言い換え先の語を前記話者側に対して通知する通知部とを含む。

ここで、前記音声処理装置は、前記音声に基づいて、前記言い換え先の語を含む要約文を作成する作成部をさらに含み、前記通知部は、前記言い換え先の語を含む要約文を前記話者側の端末に出力して表示させるようにしてもよい。

前記音声処理装置は、前記音声と同一言語についての前記聞き手の習熟度を記憶する習熟度記憶部をさらに含み、前記検索部は、前記習熟度記憶部の前記聞き手の習熟度に応じて、前記聞き手ごとに、前記言い換え先の語の検索の可否を決定するようにしてもよい。

前記音声処理装置は、前記話者に対する前記言い換え先の語の通知頻度に基づいて、当該話者の音声に対する発音の明瞭度を評価する評価部をさらに含むようにしてもよい。

また、上記の課題を解決するための音声処理方法は、話者の音声を認識するコンピュータにおける音声処理方法であって、前記コンピュータは、言い換えの対象としての言い換え元の語と、当該言い換え元の語とは異なる意味を持つ言い換え先の語とを対応付けて格納する言い換え辞書を備えており、前記コンピュータによって、前記話者の音声に、音声認識の信頼度の低い語が含まれる場合は、当該注目語の低い語と一致する前記言い換え元の語に対応付けられる前記言い換え先の語を前記言い換え辞書から検索するステップと、前記話者に対して前記信頼度の低い語の適切な発音を促すために、前記検索された言い換え先の語を前記話者側に対して通知するステップとを含む。

上記の課題を解決するためのプログラムは、上記音声処理方法をコンピュータに実行させるためのものである。

上記の課題を解決するためのコンピュータ読取可能な記録媒体は、上記音声処理方法をコンピュータに実行させるためのプログラムを記録したものである。

本発明によれば、正しく音声認識されない語を話者に把握させることによって適切な発音を促すことができる。

本発明の実施形態の音声処理装置を含むシステム全体の概要構成例を示す図である。図１の通信端末の構成例を示す図である。図１の音声処理装置のハードウエア上の構成例を示す図である。音声処理装置の機能構成例を示す図である。言い換え辞書および習熟度記憶部の各データ構造を示す図である。音声処理装置における制御処理全体の一例を示すフローチャートである。

以下、本発明の一実施形態における音声処理装置を含む音声処理システム全体の概略構成について図１を参照して説明する。図１は、音声処理システム１全体の概要構成例を示す図である。

この音声処理システム１は、異なる言語を使用するユーザ同士がコミュニケーションをとる場合に、話者の適切な発音を促すようにすることができるように構成されている。この場合、この音声処理システム１は、例えば、会議システム、チャットシステム等である。

図１において、音声処理システム１は、通信端末１０ａ，１０ｂ，１０ｃと、通信端末１０ａ〜１０ｃの各々と例えばインターネット等の通信網ＮＷを介して接続可能なサーバ（音声処理装置）２０とを含んで構成されている。

この音声処理システム１では、通信端末１０ａ〜１０ｃとサーバ２０との間は、ＨＴＴＰ（HyerText Transfer Protocol）通信が行われるようになっているが、ソケット通信全般の通信方式もとり得る。

なお、以下の説明において、複数の通信端末１０ａ〜１０ｃの各々に共通の説明では、各通信端末が単に通信端末１０として参照される。

[通信端末の構成]
次に、図１に示した通信端末１０の構成例について、図２を参照して説明する。図２は、通信端末１０の構成例を示す図である。

図２に示すように、通信端末１０は、ＣＰＵ(Central Processing Unit)１１と、ＲＯＭ(Read Only Memory)１２と、ＲＡＭ(Random Access Memory)１３と、表示部１４と、音声入力部１５と、入力部１６と、音声出力部１７と、通信インターフェース部１８とを備える。この実施形態では、通信端末１０は、一例として、ラップトップパソコン(Laptop computer)とするが、携帯端末、ＰＤＡ（Personal Digital Assist）、パーソナルコンピュータなどでもよい。

ＣＰＵ１１は、通信端末１０全体の動作を実現するための各種のプログラムの実行、演算処理、タイミング処理等を行う。

ＲＯＭ１２には、ウェブブラウザ等のプログラムが記憶されている。ＲＡＭ１３には、プログラムおよび各種のデータが一時的に保持される。

表示部１４は、例えば、液晶ディスプレイ、ＥＬ(Electro-Luminescence)などのフラットパネル表示器とすることができる。

音声入力部１５は、マイクロフォン等であり、ユーザ（話者）が発する音声を受け入れるために用いられる。入力部１６は、マウス、キーボード、操作ボタン、タッチパネル、入力ペン、センサーなどを含む。

音声出力部１７は、スピーカやヘッドセット等であり、音声入力部１５から入力された音声を出力するように構成されている。

通信インターフェース部１８は、例えばＨＴＴＰ通信に準拠するインターフェース機能を有する。

[サーバのハードウエア構成]
次に、図１に示したサーバ２０のハードウエア構成例について、図３を参照して説明する。図３は、サーバ２０の構成例を示す図である。

サーバ２０は、図３に示すように、ＣＰＵ（Central Processing Unit）２１と、音声認識部２２と、ＲＡＭ（Random Access Memory）２３と、ＲＯＭ（Read Only Memory）２４と、通信インターフェース部２５とを含む。

ＣＰＵ２１は、各構成要素とバスで接続されて制御信号やデータの転送を行うとともに、サーバ２０全体の動作を実現するためのプログラムの実行、演算処理等を行う。

音声認識部２２は、ユーザが発した音声（単語等）を認識する。この場合、音声認識部２２は、音声を認識するための辞書（不図示）を備えており、この辞書を参照して、音声を認識する。

ＲＡＭ２３には、当該プログラムおよび各種のデータが一時的に保持される。ＲＯＭ２４には、プログラムが記憶されており、本実施形態のサーバ２０は、当該プログラムが実行されることにより実現される。なお、上述したプログラムは、ＣＤ−ＲＯＭ等の記憶媒体に格納されていてもよい。

通信インターフェース部２５は、ネットワークインターフェース機能を有しており、通信端末１０との通信を行う。

［サーバの機能構成］
次に、サーバ２０の機能構成について図３〜図５を参照して説明する。図４は、図３に示したハードウエア構成上で実現されるサーバ２０の機能構成の一例を示す図である。図５は、（ａ）後述する言い換え辞書２０１のデータ構造と、（ｂ）後述する習熟度記憶部２０５のデータ構造とを示す図である。

図４において、サーバ２０は、言い換え辞書２０１、検索部２０２、通知部２０３、作成部２０４、習熟度記憶部２０５および評価部２０６を備える。

言い換え辞書２０１および習熟度記憶部２０５は、図３に示したＲＡＭ２２またはＲＯＭ３３により構成される。なお、図４に示した、言い換え辞書２０１および習熟度記憶部２０５以外の構成要素２０２〜２０４，２０６については、後述するサーバ２０の処理説明において適宜参照される。

図５（ａ）に示すように、言い換え辞書２０１には、言い換え元の見出し語ｄ１０と、言い換え元の発音記号ｄ２０と、言い換え先の見出し語ｄ３０と、種別ｄ４０とが記憶される。

言い換え元の見出し語ｄ１０には、後述する音声認識時に言い換えの対象として、文字列からなる語が設定される。図５（ａ）では、複数の様々な文字列が言い換え元の見出し語ｄ１０として予め設定される。

言い換え元の発音記号ｄ２０には、言い換え元の見出し語ｄ１０に対応する言語（例えば、英語等）の発音記号が設定される。

言い換え先の見出し語ｄ３０には、上述した言い換え元の見出し語ｄ１０と意味内容の異なる語が予め設定される。後述するように、言い換え先の見出し語ｄ３０に設定される語は、正しく発音されなかったことを話者に認識させる必要があるので、言い換え先の見出し語ｄ３０には、不適切に発音された語を認識させるため、話者の注意を惹くような語が設定される。例えば、言い換え元の見出し語ｄ１０が「Ｍａｉｋｏ」（舞妓）である場合、言い換え先の見出し語ｄ３０には、「Michael Jackson」（マイケル・ジャクソン）という人名が予め設定されている。上述した言い換え先の見出し語ｄ３０には、例えば人名、専門用語、スラング等が設定される。

種別ｄ４０は、言い換え先の見出し語ｄ３０の各々に対応する語のジャンルを意味する。種別ｄ４０には、例えば、対応する言い換え先の見出し語ｄ３０に応じて、「人名」、「専門用語」、「スラング」等のジャンルが設定される。

なお、本実施形態では、上述した見出し語ｄ１０，ｄ３０として、例えば単語に対応する文字列が設定されるが、単語以外の文字列（例えば、表現）を設定するようにすることもできる。

一般に、音声認識では、入力音声に対する音響モデルおよび言語モデルの尤度が一番高い単語列を認識結果として出力することになるが、発音の仕方や語順などの理由により、尤度が同程度の対立候補が現れる場合がある。上述した音声認識の信頼度は、このような音声認識を行ったときに認識結果として出力された単語について、どれだけ上記対立候補があるかを指標にその単語の正解らしさを表す指標であり、この信頼度が高ければ（しきい値以上の場合）その出力は正解である可能性が高く、低ければ（しきい値未満の場合）その出力は正解である可能性が低くなることが知られている（例えば、特許第５５４６５６５号の明細書段落００３４−００３６等を参照）。

この観点から、本実施形態のサーバ２０では、上述した信頼度の低い語は正しく音声認識されていない可能性があるため、その信頼度の低い語に対する適切な発音を話者に促すために、話中に音声認識の信頼度の低い語が存在する場合には、その語と一致する言い換え元の見出し語ｄ１０に予め対応付けられた言い換え先の見出し語ｄ３０に言い換えて話者に通知し、その言い換え先の見出し語ｄ３０に話者が注意を惹くようにしている。

上述した言い換え元の見出し語ｄ１０と言い換え先の見出し語ｄ３０との対応関係（ペア）は、それぞれの語に対応する発音記号列の類似度を算出し、その結果、一番高い類似度を有する語同士がペアとして設定される。この実施形態では、上述した類似度は、文字列の発音記号列間の編集距離を求める手法を採用するが、これに限られず、見出し語ｄ１０，ｄ３０のペアが設定可能であれば上記類似度を求める手法はいかなるものも採用することができる。

なお、この実施形態では、言い換え先の見出し語ｄ３０は、言い換え元の見出し語ｄ１０に対応して検索されることになるが、言い換え先の見出し語ｄ３０は、種別（例えば、人名、専門用語、スラングなど）ｄ４０別に検索されるようにしてもよい。この場合、話者に通知される言い換え先の見出し語ｄ３０は、種別ｄ４０毎に選択されることになるので、サーバ３０は、ある種別（例えば、スラング）の言葉が苦手な話者には、それ以外の種別（例えば、人名）に属する言い換え先の見出し語に言い換えるようにすることができる。

また、図５（ｂ）に示すように、習熟度記憶部２０５には、ユーザＩＤｄ５０と習熟度ｄ６０との対応関係が記憶されている。習熟度ｄ５０は、音声と同一言語（例えば英語等）の習熟度を示し、例えば「初級」、「中級」、「上級」などに区分けして設定される。これにより、習熟度記憶部２０５は、音声と同一言語についての聞き手の習熟度を記憶する。

［サーバ２０の動作］
以下、この音声処理を実現するためのサーバ２０の動作について、図１〜図６を参照して説明する。図６は、サーバ２０の音声処理例を示すフローチャートである。

図６において、通信端末１０ａが、サーバ２０に対して通信網ＮＷを介して、音声入力部１５からの話者が発した音声を出力した場合には、サーバ２０は、その音声を取得する（ステップＳ１０１）。音声が取得された場合には、サーバ２０の音声認識部２２は、通信端末１０ａの音声入力部１５からの音声を認識する。音声認識部２２は、ステップＳ１０１で話者の音声を取得した後に、前述したように、その音声認識の信頼度を求める。

次にＣＰＵ２１は、上記音声認識において信頼度の低い語が存在するかどうかを判定し（ステップＳ１０２）、信頼度の低い語が存在する場合は、その語が正しく音声認識されていない可能性があるため、その語と一致する言い換え元の見出し語ｄ１０に対応付けられる言い換え先の見出し語ｄ３０を言い換え辞書２０５から検索する（ステップＳ１０３）。

ステップＳ１０２およびステップＳ１０３に示した処理において、ＣＰＵ２１は、検索部２０２として機能する。

次にＣＰＵ２１は、ステップＳ１０３で検索された言い換え先の見出し語ｄ３０を、通信網ＮＷを介して通信端末１０ａに通知する（ステップＳ１０４）。この場合、ＣＰＵ２１は、ステップＳ１０１で取得された話者のすべての音声を対象として、対応する音声内容を要約した要約文を作成した後に、この要約文に上記言い換え先の見出し語ｄ３０を含めて通信端末１０ａに通知する。これによって、通信端末１０ａでは、言い換え先の見出し語ｄ３０を含む要約文が表示部１４に表示され、ユーザ（話者）は、その言い換え先の見出し語ｄ３０を視認することで、話中に不明瞭な発音が含まれていたことを把握できるようになる。すなわち、言い換え先の見出し語ｄ３０の表示は、話者にとっての不明瞭な発音の把握を視覚的に促す役割を果たす。

ここで、ステップＳ１０４で示した通知処理において、ＣＰＵ２１は、通知部２０３として機能する。また、上記要約文の作成処理において、ＣＰＵ２１は、作成部２０４として機能する。

上述した要約文の作成では、ＣＰＵ２１は、要約対象となる語の種類を予め設定しておき、ステップＳ１０１で取得された音声の中から、この種類の語を抽出して要約文を作成する。上述した語の種類としては、例えば、言い換え先の見出し語ｄ３０、否定語、固有名詞、普通名詞、形容詞などがある。

ＣＰＵ２１は、上述した語の種類に応じて、対応する語を強調表示することもできる。このような強調表示方法としては、例えば、文字列の太さを強調させること、文字列の色を変えること、文字サイズを変えること等が考えられる。これにより、話者は、正しく発音されなかった語を確実に把握することが可能となる。

なお、上述した通知処理は、様々な態様が考えられる。例えば、言い換え先の見出し語ｄ３０が検索された時点（ステップＳ１０３の直後）で、個々の言い換え先の見出し語ｄ３０を話者（図６では、通信端末１０ａ）に対して通知してもよいし、すべての言い換え先の見出し語ｄ３０を検索した後に、一括してすべての言い換え先の見出し語ｄ３０を話者に対して通知するようにしてもよい。

また、ステップＳ１０４において、上述した言い換え先の見出し語ｄ３０の通知は、適切に発音されなかった語を把握させるためのものであればよく、例えば、言い換え先の見出し語ｄ３０だけを通知して通信端末１０ａに表示させるようにしてもよい。

以上説明したように、本実施形態のサーバ２０によれば、ユーザ（話者）の発する音声に音声認識の信頼度が低い語が含まれる場合は、その語と一致する言い換え元の見出しｄ１０に対応付けられる言い換え先の見出し語ｄ３０を言い換え辞書２０１から検索し、その言い換え先の見出し語ｄ３０を話者側（通信端末）に対して通知する。ここで、通知される言い換え先の見出し語ｄ３０は、言い換え元の見出し語ｄ１０とは意味内容が異なるので、話中にないために発音が適切でなかった語の使用が把握される。これにより、話者が不適切に発音した語をより適切に発音するようにすることが期待される。

[評価処理]
以上では、ユーザの発音の明瞭度を評価する態様について言及しなかったが、言い換え先の見出し語ｄ３０の通知頻度からそれを評価するようにしてもよい。

例えば、図６に示した通知処理（ステップＳ１０４）後において、サーバ２０のＣＰＵ２１はさらに、話者に対する言い換え先の見出し語ｄ３０の通知頻度に基づいて、当該話者の音声に対する発音の明瞭度を評価するようにしてもよい。すなわち、ＣＰＵ２１は、ステップＳ１０４で通知した頻度（回数）を管理する。そして、ＣＰＵ２１は、今回の通知頻度と、前回の通知頻度との差に基づいて、話者の発音の明瞭度を評価する。例えば、その差が大きい（今回の通知頻度がしきい値より少ない）場合には、話者の発音が明瞭であることを意味し、話者の発音に対して高評価の明瞭度を与えるようにする。これにより、話者は、仮に不明瞭な発音をした場合でも、その評価を意識することで、適切な発音を行うようになる。すなわち、発音の明瞭度の評価は、話者の適切な発音を意識させる役割を果たす。

[明瞭度に応じた検索処理]
上述した話者の発音の明瞭度を評価するサーバ２０では、この明瞭度に応じて、言い換え先の見出し語ｄ３０の検索の可否を決定するようにしてもよい。例えば、図６に示した検索処理（ステップＳ１０３）において、ＣＰＵ２１は、話者の明瞭度が高評価になるにつれ、上記音声認識の信頼度のしきい値が小さくなるように変更し、音声認識部２２は、そのしきい値に基づいて、音声認識の信頼度が高いか低いかを判定するようにする。これにより、例えば、話者の発音の明瞭度が高評価の場合には、上記音声認識の信頼度のしきい値は小さくなるので、音声認識の信頼度の低い語（言い換え元の見出し語ｄ１０）が少なくなる。すなわち、言い換え先の見出し語ｄ３０の検索は、話者の発音の明瞭度に応じて行なわれる。

[習熟度に応じた検索処理]
以上では、ユーザ（聞き手）の言語（例えば、英語等）の習熟度に応じて言い換え先の見出し語ｄ３０を検索する態様について言及しなかったが、ある習熟度と他の習熟度とを区別して検索を行うようにしてもよい。

例えば、図６に示した検索処理（ステップＳ１０３）において、サーバ２０のＣＰＵ２１は、習熟度記憶部２０５（図５（ｂ））のユーザの習熟度ｄ６０に応じて、その習熟度ｄ４０に対応する、前述した音声認識の信頼度のしきい値を増減し、聞き手ごとに、言い換え先の見出し語ｄ３０の検索の可否を決定するようにしてもよい。例えば、ＣＰＵ２１は、聞き手の習熟度ｄ６０に示された「初級」、「中級」、「上級」に対応して、上記音声認識の信頼度の各しきい値が大きくなるようにそれぞれのしきい値を増減し、音声認識部２２は、そのしきい値に基づいて、音声認識の信頼度が高いか低いかを判定するようにする。これにより、ある習熟度と他の習熟度を区別して音声認識の信頼度のしきい値を変えることができるので、言い換え先の見出し語ｄ４０の検索は、ユーザの習熟度に応じて行なわれる。

以上、実施形態について詳述してきたが、実施形態の中で説明した処理等はすべての実施形態のサーバと組み合わせて実施することができる。

また、通信端末１０およびサーバ２０の台数、ハードウエア構成、動作手順および／またはデータ構成は、上述した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更なども含まれる。

１０，１０ａ，１０ｂ，１０ｃ通信端末
２０サーバ
２０１言い換え辞書
２０２検索部
２０３通知部
２０４作成部
２０５習熟度記憶部
２０６評価部

Claims

話者の音声を認識する音声処理装置であって、
言い換えの対象としての言い換え元の語と、当該言い換え元の語とは異なる意味を持つ言い換え先の語とを対応付けて格納する言い換え辞書と、
前記話者の音声に、音声認識の信頼度の低い語が含まれる場合は、当該信頼度の低い語と一致する前記言い換え元の語に対応付けられる前記言い換え先の語を前記言い換え辞書から検索する検索部と、
前記話者に対して前記信頼度の低い語の適切な発音を促すために、前記検索された言い換え先の語を前記話者側に対して通知する通知部と、
前記話者に対する前記言い換え語の通知頻度に基づいて、当該話者の音声に対する発音の明瞭度を評価する評価部と
を含むことを特徴とする音声処理装置。
前記音声に基づいて、前記言い換え先の語を含む要約文を作成する作成部をさらに含み、
前記通知部は、前記言い換え先の語を含む要約文を前記話者側の端末に出力して表示させることを特徴とする請求項１に記載の音声処理装置。
前記音声と同一言語についての前記話者に対する聞き手の習熟度を記憶する習熟度記憶部をさらに含み、
前記検索部は、前記習熟度記憶部の前記聞き手の習熟度に応じて、前記聞き手ごとに、前記言い換え語の検索の可否を決定することを特徴とする請求項１または２に記載の音声処理装置。
話者の音声を認識するコンピュータにおける音声処理方法であって、
前記コンピュータは、言い換えの対象としての言い換え元の語と、当該言い換え元の語とは異なる意味を持つ言い換え先の語とを対応付けて格納する言い換え辞書を備えており、前記コンピュータによって、
前記話者の音声に、音声認識の信頼度の低い語が含まれる場合は、当該信頼度の低い語と一致する前記言い換え元の語に対応付けられる前記言い換え先の語を前記言い換え辞書から検索するステップと、
前記話者に対して前記信頼度の低い語の適切な発音を促すために、前記検索された言い換え先の語を前記話者側に対して通知するステップと、
前記話者に対する前記言い換え語の通知頻度に基づいて、当該話者の音声に対する発音の明瞭度を評価するステップと
を含むことを特徴とする音声処理方法。
請求項４に記載の音声処理方法をコンピュータに実行させるためのプログラム。
請求項４に記載の音声処理方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体。