WO2015156011A1

WO2015156011A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2015156011A1
Application number: PCT/JP2015/051570
Authority: WO
Inventors: 真一河野
Original assignee: ソニー株式会社
Priority date: 2014-04-08
Filing date: 2015-01-21
Publication date: 2015-10-15
Also published as: US10074366B2; EP3131093A1; EP3131093A4; US20170069319A1; EP3131093B1

Abstract

【課題】音声入力を行う際に、音声認識しやすい音声で発話できる状態にユーザを導く情報処理装置を提供する。【解決手段】入力された音声の解析結果としてテキスト内容を取得し、表示部に表示させる処理部を備え、処理部は、第１の音声入力を受けて解析された第１のテキスト内容を取得して表示部に表示させ、第１のテキスト内容が表示された状態で受け付けた第２の音声入力の解析結果としての第２のテキスト内容を取得して表示部に表示させ、ユーザの操作あるいは所定の条件に応じて、第２のテキスト内容を入力テキストとして確定する、情報処理装置が提供される。

Description

情報処理装置、情報処理方法およびプログラム

　本開示は、情報処理装置、情報処理方法およびプログラムに関する。

　音声入力する内容を事前に脳内で全て整理して発話を完全なものとするのは難しい。音声入力することを意識していたとしても、音声入力時には音声認識を失敗する可能性の高い音声で発話しやすくなる。例えば、「うーー、あーー」、「Uh-Huh」等の言いよどみや、言い間違い、無意識に入る不要な言葉、音声認識が不得意とする認識失敗しやすい単語等を用いて発話すると、音声認識を失敗する可能性が高くなる。

　このように、入力された音声から意図するテキストを取得することは難しいことから、音声から取得されるテキストの精度を高めるための音声認識技術について検討がされ続けている（例えば、特許文献１等）。

特開２００６－１４６００８号公報

　ところで、従来の音声認識システムにおいては、発話中に「お話し下さい」とＵＩで表示されているものが多い。しかし、このような表示がされてもユーザが音声認識しやすい発話ができるようにはならない。話す内容の原稿が存在する状態であればユーザはすらすらと話せるが、原稿が手元にない状態ではすらすら話すのは通常難しく、上述のような音声認識が失敗しやすい音声を発話する傾向が強くなる。

　音声認識が失敗しやすい音声で発話した場合、音声認識は期待しない結果を返すことが多い。その結果、修正の手間が発生することでユーザへの負担が増えたり、音声入力を使いたいというユーザのモチベーションを維持することが難しくなったりする。また人間の特性上、ある一定以上の長い文章を一挙に発話する、つまり覚えておいて発話することは大変難しい。

　そこで、音声入力を行う際に、音声認識しやすい音声で発話できる状態にユーザを導くことが求められていた。

　本開示によれば、入力された音声の解析結果としてテキスト内容を取得し、表示部に表示させる処理部を備え、処理部は、第１の音声入力を受けて解析された第１のテキスト内容を取得して表示部に表示させ、第１のテキスト内容が表示された状態で受け付けた第２の音声入力の解析結果としての第２のテキスト内容を取得して表示部に表示させ、ユーザの操作あるいは所定の条件に応じて、第２のテキスト内容を入力テキストとして確定する、情報処理装置が提供される。

　また、本開示によれば、第１の音声入力の解析結果として第１のテキスト内容を取得して表示部に表示させること、第１のテキスト内容が表示された状態で受け付けた第２の音声入力の解析結果としての第２のテキスト内容を取得して表示部に表示させること、ユーザの操作あるいは所定の条件に応じて、第２のテキスト内容を入力テキストとして確定すること、を含む、情報処理方法が提供される。

　さらに、本開示によれば、コンピュータに、第１の音声入力の解析結果として第１のテキスト内容を取得して表示部に表示させること、第１のテキスト内容が表示された状態で受け付けた第２の音声入力の解析結果としての第２のテキスト内容を取得して表示部に表示させること、ユーザの操作あるいは所定の条件に応じて、第２のテキスト内容を入力テキストとして確定すること、を含む処理を実行させるためのプログラムが提供される。

　本開示によれば、音声入力の解析結果をテキスト表示させ、次の音声入力に活用できるようにすることで、音声認識しやすい音声で発話できる状態にユーザを導き、最終的に入力テキストとして確定させることができる。

　以上説明したように本開示によれば、音声入力を行う際に、音声認識しやすい音声で発話できる状態にユーザを導くことができる。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る音声入力時の一表示例を示す説明図である。同実施形態に係る情報処理装置の機能構成を示す機能ブロック図である。同実施形態に係る音声入力処理の一例を示すフローチャートである。音声入力内容の一例を示す説明図である。第１テキスト表示領域に第１入力のテキスト内容が表示された状態の一例を示す説明図である。第１入力のテキスト内容とともに、テキスト候補が表示された状態の一例を示す説明図である。第１入力のテキスト内容とテキスト候補との対応関係を示した状態の一例を示す説明図である。第２テキスト表示領域に第２入力のテキスト内容が表示された状態の一例を示す説明図である。第２入力のテキスト内容とともに、テキスト候補が表示された状態の一例を示す説明図である。第２入力のテキスト内容とテキスト候補との対応関係を示した状態の一例を示す説明図である。第２テキスト表示領域のテキスト内容と第２付加情報表示領域のテキスト候補とを入れ替えた状態の一例を示す説明図である。英語による音声入力内容の一例を示す説明図である。英語による音声入力時に、第１テキスト表示領域に第１入力のテキスト内容が表示された状態の一例を示す説明図である。英語による音声入力時に、第１入力のテキスト内容とともに、テキスト候補が表示された状態の一例を示す説明図である。英語による音声入力時に、第２テキスト表示領域に第２入力のテキスト内容が表示されるとともに、テキスト候補が表示された状態の一例を示す説明図である。グラスウェア端末の表示部へのテキスト内容の表示例を示す説明図である。同実施形態に係る情報処理装置のハードウェア構成例を示すハードウェア構成図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．音声入力の概要
　２．情報処理装置の構成
　３．音声入力処理
　４．音声入力時のテキスト内容表示例
　　４．１．日本語による音声入力例
　　４．２．英語による音声入力例
　　４．３．グラスウェア端末でのテキスト内容表示例
　５．ハードウェア構成例
　６．まとめ

　＜１．音声入力の概要＞
　まず、図１を参照して、本開示の一実施形態に係る情報処理装置による音声入力時の表示処理の概要を説明する。図１は、本実施形態に係る音声入力時の一表示例を示す説明図である。

　本実施形態に係る情報処理装置は、ユーザによる音声入力時に、入力された音声を解析した結果を表示して、音声認識しやすい音声で発話できる状態にユーザを導く。例えば情報処理装置は、図１に示すような情報処理端末１０において、マイク３０により取得された音声を解析した結果として、表示部２０に音声のテキスト内容を表示させる。情報処理装置により入力した音声の音声認識の結果をユーザにフィードバックすることで、ユーザは意図した通りに認識されたかを知ることができ、次の音声入力に活用することができる。

　例えば、音声入力を、最終的に入力したい文章を入力する前の下書き入力に活用することができる。まず、ユーザが、最終的に入力したい文章を想定して骨子となる内容を発話し音声入力する。この下書き入力では、必ずしも文章を入力する必要はなく、単語やキーワード等であってもよい。音声入力がなされると、例えば図１上側に示すように、これを解析した結果が表示部２０の第１入力表示領域４３に表示される。第１入力表示領域４３の表示内容は、ユーザが入力したい文章の参考として利用できる。

　次いで、ユーザは、第１入力表示領域４３の表示内容を見ながら次の音声入力を行う。この際、ユーザは、下書き入力内容を見て発話できるので、よりスムーズに入力したい文章を発話できる。この音声入力の解析結果は、例えば図１下側に示すように、第２入力表示領域４５に表示される。このとき、第２入力表示領域４５に表示されたテキストのうち、第１入力表示領域４３に表示されているテキストと同一部分がわかるような表示にしてもよい。

　このように、音声入力の解析結果をテキスト表示させ、次の音声入力に活用できるようにすることで、音声認識しやすい音声で発話できる状態にユーザを導く。例えば、文書やメール等、比較的長い文章を入力する際に、簡単な内容から音声入力し、その後、当該音声入力のテキスト内容を見ながら正確な文章を入力することができるので、音声入力が行い易くなる。以下、本実施形態に係る情報処理装置の構成とその機能について、詳細に説明していく。

　＜２．情報処理装置の構成＞
　まず、図２に基づいて、本実施形態に係る情報処理装置１００の機能構成について説明する。なお、図２は、本実施形態に係る情報処理装置１００の機能構成を示す機能ブロック図である。情報処理装置１００は、ユーザから入力情報を受け、入力情報の解析結果をユーザに提供する処理を行う。情報処理装置１００は、例えばスマートフォンやタブレット端末、ヘッドマウントディスプレイやグラスウェア端末等のウェアラブル機器、テレビ、プロジェクタ装置等に用いられる処理装置である。

　本実施形態に係る情報処理装置１００は、図２に示すように、操作入力部１１０と、音声入力部１２０と、情報処理部１３０と、表示処理部１４０と、表示部１５０とからなる。

　操作入力部１１０は、ユーザから機器の操作入力を受ける機能部である。操作入力部１１０は、例えば、タッチセンサやボタン、ダイヤル等の各種入力装置である。操作入力部１１０から入力された操作入力情報は、情報処理部１３０へ出力される。

　音声入力部１２０は、音声を取得する機能部であって、例えばマイク等である。音声入力部１２０は、例えば情報処理部１３０が操作入力情報を受けて解析したユーザの操作に基づいて、音声を取得可能な音声取得状態と音声を取得しない停止状態とを切り替えるようにしてもよい。あるいは、所定のアプリケーションの起動を受けて音声取得状態とするようにしてもよい。音声入力部１２０により取得された音声は、音声処理サーバ２００へ出力され、音声認識処理部２１０により音声認識処理が行われる。

　情報処理部１３０は、情報処理装置１００に入力された情報を処理して他の機能部へ出力する。情報処理部１３０は、例えば、操作入力情報を解析して情報処理装置１００に対してユーザが行った操作を特定し、音声入力部１２０や表示部１５０等の他の機能部に処理を実行させる。より具体的には、例えば、情報処理部１３０は、音声入力部１２０の音声取得状態と停止状態とを切り替えたり、ユーザの操作あるいは所定の条件に応じて、音声の解析結果として表示されたテキスト内容の編集、確定等の処理を行ったりする。

　また、情報処理部１３０は、音声処理サーバ２００による音声認識処理の結果や操作入力情報の処理結果を受けて、音声のテキスト内容を表示部１５０に表示させる際の表示の仕方を決定する処理を行う。情報処理部１３０は、音声入力のテキスト内容を表示部１５０に表示させる際に、例えば、最初に入力された音声のテキスト内容と次に入力された音声のテキスト内容とを並列して表示させてもよい。また、情報処理部１３０は、最初に入力された音声のテキスト内容と次に入力された音声のテキスト内容との間に対応する単語や文章がある場合にはその対応関係を示す情報を表示させてもよい。

　このように、情報処理部１３０は、音声処理サーバ２００による音声認識処理の結果を受けて上述の処理を行った後、音声のテキスト内容を表示部１５０に表示させるための表示処理を表示処理部１４０に行わせる。また、情報処理部１３０は、操作入力情報を解析した結果に応じて、表示制御部１４０に表示部１５０の表示内容を変更することも可能である。

　表示処理部１４０は、情報処理部１３０からの入力を受けて、情報を表示部１５０に表示させるための処理を行う。表示処理部１４０は、音声入力のテキスト内容や当該テキスト内容に関する付加情報を表示部１５０に表示させる。

　表示部１５０は、表示処理部１４０からの表示情報を表示する表示装置であって、例えば液晶ディスプレイや有機ＥＬディスプレイ等である。なお、情報処理装置１００は、表示部１５０を必ずしも備えなくともよい。例えば、プロジェクタ装置等の場合には、表示部１５０は設けなくともよい。

　また、本実施形態に係る情報処理装置１００は、図２に示すように、ネットワークを介して接続された音声処理サーバ２００によって取得した音声の音声認識処理を行っている。しかし、本開示はかかる例に限定されず、情報処理装置１００に音声認識処理部２１０を設けてもよい。

　また、音声処理サーバ２００の音声認識処理部２１０により行われる音声認識の手法は、周知の技術を用いてもよい。音声認識処理部２１０は、音声の入力を受けて、当該音声から認識されたテキスト内容を情報処理装置１００へ出力する。この際、単語や句、文等の所定のテキスト単位毎に、テキスト内容の音声認識としての確度を当該テキスト内容と合わせて情報処理装置１００へ出力するようにしてもよい。この場合、情報処理装置１００の情報処理部１３０は、テキスト内容を表示させる際に、テキスト内容の確度を示すようにしてもよい。例えば、確度の低いテキストを強調表示することで、ユーザに対して音声認識が誤っている可能性の高い内容を通知することができ、次の音声入力に活用することができるようになる。

　＜３．音声入力処理＞
　次に、図３に基づき、本実施形態に係る情報処理装置１００による音声入力処理について説明する。なお、図３は、本実施形態に係る音声入力処理の一例を示すフローチャートである。

　本実施形態に係る音声入力処理は、図３に示すように、まず、音声入力部１２０により音声を取得する（Ｓ１００）。音声入力部１２０は、音声入力を受けると、音声処理サーバ２００へ音声を出力し、音声認識処理によって音声をテキストに変換する（Ｓ１１０）。音声処理サーバ２００は、音声認識処理の解析結果として取得したテキスト内容を、情報処理装置１００へ出力する。

　音声処理サーバ２００から音声のテキスト内容を受けると、情報処理部１３０は、表示制御部１４０を介して当該テキスト内容を表示部１５０に表示させる（Ｓ１２０）。この際、情報処理部１３０は、表示部１５０に最初に入力された音声のテキスト内容と次に入力された音声のテキスト内容とを並列して表示させてもよい。また、情報処理部１３０は、最初に入力された音声のテキスト内容と次に入力された音声のテキスト内容との間に対応する単語や文章がある場合にはその対応関係を示す情報を表示させてもよい。このような表示を行うことで、ユーザが音声入力を行い易くしている。

　表示部１５０にテキスト内容が表示されると、例えばユーザは、表示された音声のテキスト内容を見て、当該内容が入力したい内容であるか否かを確認する（Ｓ１３０）。テキスト内容が意図する内容であれば、例えば表示されたテキスト内容を入力テキストとして確定して利用する。一方、テキスト内容が意図する内容となっていない場合には、ステップＳ１００の処理に戻り、ユーザは再び音声を入力する。この際、ユーザは、前回の音声入力時に得られたテキスト内容を見ながら発話することができるので、前回よりスムーズに音声入力を行うことができる。

　ステップＳ１００～Ｓ１３０の処理は、例えばステップＳ１３０にてユーザがテキスト内容を確定するまで繰り返し行ってもよい。このように、本実施形態に係る情報処理装置１００は、音声入力を受けて、当該音声入力を受けて認識されたテキスト内容を表示部１５０に表示してユーザに提示することで、ユーザが次の音声入力を行い易い状態に導く。これにより、ユーザは、より音声認識の誤りが少ない音声入力を行うことができる。

　＜４．音声入力時のテキスト内容表示例＞
　以下、図４～図１１に基づいて、上述の情報処理装置１００により音声入力を行った時のテキスト内容の表示例について説明する。以下では、表示部２０とマイク３０とを備える情報処理端末１０の一機能である文字入力ソフトウェアに情報処理装置１００を適用した場合について説明する。情報処理端末１０の表示部２０はタッチパネルとなっており、操作入力部１１０としての機能も備えている。

　［４．１．日本語による音声入力例］
　（Ａ．第１入力）
　まず、図４に、音声入力したい内容の例を示す。図４において、第１入力は、ユーザが最終的に入力したい文章に関連する単語や文等である。図４の例では、最終的に入力したい文章を入力するための参考となる単語や文を入力するとする。そして、第２入力は、例えばユーザが最終的に入力したい文章である。第２入力は、第１入力のテキスト内容を見ながら音声入力される。

　すなわち、第１入力は最終的に入力したい文章を入力するための下書き入力（以下、「ラフ入力」ともいう。）であり、第２入力は最終的に行われる入力（以下、「清書入力」ともいう。）である。本実施形態に係る情報処理装置１００は、ラフ入力が行われた後、ユーザにラフ入力のテキスト内容を見ながら清書入力を行わせることで、ユーザが入力したい内容を入力しやすいようにしている。

　情報処理端末１０での文字入力ソフトウェアによる音声入力処理は、例えば、表示部２０に表示されたマイクアイコン４１をユーザがタッチすることで開始される。マイクアイコン４１へタッチされたことが検出されると、音声入力部１２０であるマイク３０が音声取得状態となる。

　マイク３０が音声取得状態となった後、ユーザにより、図４の第１入力の内容が音声入力されたとする。このとき、情報処理装置１００は、音声入力を受けて、音声処理サーバ２００に音声認識処理を実行させ、その結果としてテキスト内容を取得する。テキスト内容を取得した情報処理装置１００の情報処理部１３０は、表示処理部１４０に対して、例えば図５に示すように、第１テキスト表示領域４３にテキスト内容を表示させるよう指示する。第１入力は、ユーザが最終的に入力したい文章のラフ入力として行われる。このとき、情報処理部１３０は、音声入力されたテキスト単位（例えば、単語、句、文章）毎に応じて、第１テキスト表示領域４３のテキスト内容の表示テキスト単位を変更させてもよい。

　この際、情報処理部１３０は、第１入力のテキスト内容とともに、音声処理サーバ２００から音声認識処理の途中結果を取得して、付加情報表示領域４４にその内容を表示させてもよい。音声認識処理の途中結果を表示することで、発話した内容がどのように認識されるのかをユーザにフィードバックでき、次の音声入力に正しく音声認識されるためにどのように発話したらよいか参考とすることができる。

　また、情報処理部１３０は、図６に示すように、第１入力のテキスト内容とともに、音声処理サーバ２００から音声認識処理において認識された１または複数のテキスト候補を取得して、付加情報表示領域４４にその内容を表示させてもよい。音声認識処理のテキスト候補を表示することによっても、発話した内容がどのように認識されるのかをユーザにフィードバックでき、次の音声入力に正しく音声認識されるためにどのように発話したらよいか参考とすることができる。

　さらに、情報処理部１３０は、図５に示した音声認識処理の途中結果や図６に示したテキスト候補と、第１入力のテキスト内容との対応関係をわかりやすくするために、図７に示すようなオブジェクト４３ａ、４４ａで対応する部分を囲んで示してもよい。図７のオブジェクト４３ａ、４４ａは吹き出し形状であるが、対応関係を表すオブジェクトはかかる例に限定されず、例えば対応するテキスト同士を同一種類の枠で囲んでもよい。また、オフジェク以外にも、対応するテキスト同士を同一の文字の色やフォントで示したり、同一線種で下線を付したりして関連性を表してもよい。

　このような音声の解析結果として取得されたテキスト内容の表示の仕方は、情報処理装置１００にて予め設定されていてもよく、ユーザの操作に基づき設定されてもよい。

　（Ｂ．第２入力）
　第１入力のテキスト内容が第１テキスト表示領域４３に表示されると、ユーザは、再びマイクアイコン４１にタッチしてマイク３０を音声取得状態にする。そして、ユーザは、第１テキスト表示領域４３に表示されたテキスト内容を見ながら、ユーザが最終的に入力したい情報（すなわち、図４の第２入力の内容）を発話する。情報処理装置１００は、第１入力のときと同様、音声を音声処理サーバ２００に出力して音声認識処理を実行させ、その結果としてテキスト内容を取得する。テキスト内容を取得した情報処理装置１００の情報処理部１３０は、例えば、図８に示すように、第２テキスト表示領域４５にテキスト内容を表示する。

　第２テキスト表示領域４５は、例えば図８に示すように、第１テキスト表示領域４３と上下に並べて配置してもよい。このようにテキスト表示領域４３、４５を配置することで、第１入力の音声と第２入力の音声とから取得されたテキスト内容を比較しやすくなる。なお、テキスト表示領域４３、４５の配置は、かかる例に限定されず、テキストの見やすさや表示部２０の表示領域の形状等に応じて適宜決定してもよい。

　また、情報処理部１３０は、図９に示すように、第２入力のテキスト内容とともに、音声処理サーバ２００から音声認識処理において認識された１または複数のテキスト候補を取得して、第２付加情報表示領域４６にその内容を表示させてもよい。音声認識処理のテキスト候補を表示することによっても、発話した内容がどのように認識されるのかをユーザにフィードバックでき、次の音声入力に正しく音声認識されるためにどのように発話したらよいか参考とすることができる。なお、第１入力のときと同様に、情報処理部１３０は、第２入力のテキスト内容とともに、音声認識処理の途中結果を取得して表示させるようにしてもよい。

　さらに、情報処理部１３０は、図９に示したテキスト候補と、第２入力のテキスト内容との対応関係をわかりやすくするために、図１０に示すようなオブジェクト４５ａ、４６ａで対応する部分を囲んで示してもよい。図１０のオブジェクト４５ａ、４６ａも、図７に示したオブジェクト４３ａ、４４ａと同様、その形状は適宜設定可能である。また、オフジェク以外にも、対応するテキスト同士を同一の文字の色やフォントで示したり、同一線種で下線を付したりして関連性を表してもよい。

　また、情報処理部１３０は、第２テキスト表示領域４５のテキスト内容については、ラフ入力の第１テキスト表示領域４３のテキスト内容がどの程度含まれているかをユーザに通知するようにしてもよい。例えば、情報処理部１３０は、第２テキスト表示領域４５のテキスト内容に対して、第１テキスト表示領域４３のテキスト内容に含まれている単語や文を強調してユーザにわかりやすい表示となるように表示の仕方を変更させる。テキストの強調は、例えば、文字周囲を塗りつぶしたり、文字フォントや文字色を変更したり、文字に下線を引いたりする等の文字修飾により行うことができる。図１０では、文字に下線４５ｂを引いて強調表示している。

　これにより、ユーザは、第２入力の内容に第１入力の内容がどの程度含まれているかを容易に把握することができ、第２入力の内容が意図するものであるかどうか、直観的に判断することが可能となる。

　さらに、情報処理部１３０は、ユーザの操作入力に基づいて、第２テキスト表示領域４５のテキスト内容と第２付加情報表示領域４６のテキスト候補とを入れ替えるようにしてもよい。例えば図１１に示すように、第２テキスト表示領域４５においてオブジェクト４５ａが付されたテキスト（「明日　品川で６時から」）と、第２付加情報表示領域４６においてオブジェクト４６ａが付されたテキスト候補（「明日は品川で１６時から」）とがある。このとき、テキスト候補の内容を採用したい場合、ユーザは、例えば表示部２０に表示されているオブジェクト４６ａにタッチした状態でオブジェクト４５ａの位置に移動させる。かかる操作入力を受けて、情報処理部１３０は、オブジェクト４５ａとオブジェクト４６ａとのテキスト内容を入れ替えて表示するように表示処理部１４０に指示する。これにより、音声入力を再度行うことなく意図する内容に修正することができる。

　その後、第２テキスト表示領域４５のテキスト内容が入力したい内容となっていれば、ユーザは、当該テキスト内容を入力テキストとして確定する操作入力を行う。この入力操作は、例えば解析結果としてのテキスト内容を表示部２０に表示させる際に、テキスト内容を確定させる処理を実行させる確定ボタン（図示せず。）も表示させるようにし、確定ボタンへのタッチ操作をテキスト内容の確定操作としてもよい。

　あるいは、情報処理部１３０が所定の条件を満たしたと判定したとき、直近で入力された音声の解析結果としてのテキスト内容を入力テキストとして確定してもよい。テキスト内容を入力テキストとして確定させる所定の条件としては、例えば、「これを入力」等のユーザからの音声コマンドの入力を受けたときや、加速度センサあるいはジャイロセンサによりユーザが首を縦に振ったことを検知したとき等がある。また、例えば最後に表示されたテキスト内容が表示されてから所定の時間経過したときや、視線検出によりユーザが所定位置を一定時間以上見ていることが検知されたとき等がある。

　一方、第２テキスト表示領域４５のテキスト内容とは異なるテキスト内容を入力したい場合等は、ユーザは、再びマイクアイコン４１を操作してマイク３０を音声取得状態として音声入力を行う。この際、第１テキスト表示領域４３のテキスト内容および第２テキスト表示領域４５のテキスト内容を表示させておくことで、ユーザは音声入力をより行い易くなる。なお、過去の音声入力に対するテキスト内容をすべて表示させておく必要はなく、例えば直近ｎ回の音声入力のテキスト内容のみ表示させるようにしてもよい。

　確定された入力テキストは、各種アプリケーションに入力テキストとして出力させてもよい。各種アプリケーションとしては、例えば、メールやメッセンジャー、ソーシャルメディアサービス（ＳＮＳ）アプリ、カレンダー、スケジュール管理アプリ、ノートブックアプリ等がある。すなわち、音声により入力された入力テキストが、メールやのメッセンジャーの文やメモとして利用される。本実施形態に係る音声入力処理を適用すると、音声の解析結果としてのテキスト内容が表示され、ユーザはこのテキスト内容を見ながら次の発話を行うことができるので、比較的長い文章を入力する際に、よりユーザがテキスト入力を行い易くなる。

　以上、本実施形態に係る情報処理装置１００による音声入力処理の一例を説明した。なお、上述の説明において、マイク３０を音声取得状態にしたり、テキスト内容を確定したりする等、ユーザが操作入力部１１０から行う操作入力は、情報処理端末１０に応じて変化する。例えば、スマートフォンやタブレット端末等のようなタッチセンサを備える情報処理端末１０であれば、タッチセンサに接触して操作入力を行うことができる。また、ヘッドマウンドディスプレイやグラスウェア端末等のウェアラブル機器であれば、ユーザが視線により表示内容を選択する操作入力や、ウェアラブル機器に設けられた操作部からの操作入力等を用いてもよい。さらに、“上”、“下”等の音声入力操作も可能である。また、ユーザのジェスチャにより表示内容を選択するジェスチャ入力や、加速度センサの検出結果を利用して、例えば右を向く、左を向くといったような頭の動きを検出して行う操作入力等を用いることもできる。

　［４．２．英語による音声入力例］
　上述の音声入力処理の例は、言語に寄らず同様に行うことができる。例えば、図１２に示すように、音声入力の言語が英語であっても、上述と同様に、ラフ入力として第１入力を行い、清書入力として第２入力を行うことができる。

　第１入力が行われると、図１３に示すように、第１テキスト表示領域４３に第１入力の音声認識処理の結果として得られたテキスト内容が表示される。このとき、第１テキスト表示領域４３のテキスト内容とともに、付加情報表示領域４４に音声認識処理の途中結果を表示させてもよく、図１４に示すように付加情報表示領域４４にテキスト候補等を表示させてもよい。

　また、第１入力のテキスト内容を見て、第２入力が行われると、図１５に示すように、第２テキスト表示領域４５に第２入力の音声認識処理の結果として得られたテキスト内容が表示される。このとき、第２テキスト表示領域４５のテキスト内容とともに、第２付加情報表示領域４６ａに音声認識処理の途中結果やテキスト候補等を表示させてもよい。

　［４．３．グラスウェア端末でのテキスト内容表示例］
　上述の説明では、スマートフォンやタブレット端末等のような情報処理端末１０におけるテキスト表示例について説明したが、他の機器においても同様に、入力された音声の音声認識処理の結果を表示することができる。例えば、図１６に示すようなグラスウェア端末５０において、表示部５２には、図１に示したレイアウトのように、マイクアイコンや入力された音声の音声認識処理の結果を表示してもよい。この場合、マイクアイコンは、上述したように、視線やグラスウェア端末５０の操作部、頭の動き等による操作入力により操作することができる。

　この場合にも、情報処理装置１００は、入力された音声を受けて、音声認識処理の結果としてテキスト内容を取得し、表示部５２に表示させる。これにより、音声入力をし易い状態にユーザを導き、最終的に入力テキストとして確定させることができる。

　＜５．ハードウェア構成例＞
　上記実施形態に係る情報処理装置１００による処理は、ハードウェアにより実行させることもでき、ソフトウェアによって実行させることもできる。この場合、情報処理装置１００は、図１７に示すように構成することもできる。以下、図１７に基づいて、情報処理装置１００のハードウェア構成例について説明する。

　情報処理装置１００は、上述したように、コンピュータ等の処理装置により実現することができる。情報処理装置１００は、図１７に示すように、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９０１と、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０２と、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３と、ホストバス９０４ａとを備える。また、情報処理装置１００は、ブリッジ９０４と、外部バス９０４ｂと、インタフェース９０５と、入力装置９０６と、出力装置９０７と、ストレージ装置（ＨＤＤ）９０８と、ドライブ９０９と、接続ポート９１１と、通信装置９１３とを備える。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置１００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバスなどから構成されるホストバス９０４ａにより相互に接続されている。

　ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、一のバスにこれらの機能を実装してもよい。

　入力装置９０６は、マウス、キーボード、タッチパネル、ボタン、マイク、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などから構成されている。出力装置９０７は、例えば、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）装置およびランプなどの表示装置や、スピーカなどの音声出力装置を含む。

　ストレージ装置９０８は、情報処理装置１００の記憶部の一例であり、データ格納用の装置である。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置９０８は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）で構成される。このストレージ装置９０８は、ハードディスクを駆動し、ＣＰＵ９０１が実行するプログラムや各種データを格納する。

　ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置１００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。

　接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）などによりデータ伝送可能な外部機器との接続口である。また、通信装置９１３は、例えば、通信網５に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置９１３は、無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）対応通信装置であっても、ワイヤレスＵＳＢ対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。

　＜６．まとめ＞
　以上、本実施形態に係る情報処理装置１００の構成とその機能について説明した。情報処理装置１００は、音声入力の解析結果をテキスト表示させ、次の音声入力に活用できるようにすることで、音声認識しやすい音声で発話できる状態にユーザを導く。ユーザは音声入力の助けとなるテキストを見ながら発話可能であるため、入力したい内容を即座に整理しながら話すことができる。また、音声認識が期待通りの結果になりやすい状態を導くことができ、入力される音声から言いよどみや不要語を減らすことができる。結果として、間違いの少ない音声入力を誘導できる。

　さらに、音声認識処理の結果をテキスト表示してユーザにフィードバックすることで、音声認識機能の癖を清書入力よりも前に把握できるので、「っ」などの促音を減らす等、意図しない認識結果にならないような音声入力を誘導できる。期待通りにならなかった音声認識結果をユーザが見ることで、その発話環境での失敗状況を事前に把握することができ、雑音がある中で大きく話させるなど失敗しないような音声入力を誘導できる。また、音声認識の間違い状況そのものをユーザへ提示できる効果もある。

　また、清書入力において、ラフ入力との一致箇所を強調表示する等することで、ユーザは入力したかった文章かどうかを素早く確認できる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、上記実施形態では、音声入力を受けて解析されたテキスト内容を表示させ、そのテキスト内容を表示させた状態で受けた音声入力のテキスト内容を表示させ、ユーザが意図する内容となったものを最終的な入力テキストとして確定した。この確定される入力テキストは、例えば、直近の音声入力のテキスト内容以外であってもよく、例えばその前の音声入力のテキスト内容を最終的な入力テキストとして確定できるようにしてもよい。また、情報処理装置１３０は、音声の解析結果としてのテキスト内容を、ユーザの操作や所定の条件に応じて、メモリ（図示せず。）に記録させてもよい。メモリに記録されたテキスト内容は、各種アプリケーションから適宜読み出して利用可能とすることで、例えば、入力テキストの下書き情報として利用することができる。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）入力された音声の解析結果としてテキスト内容を取得し、表示部に表示させる処理部を備え、
　前記処理部は、
　第１の音声入力を受けて解析された第１のテキスト内容を取得して前記表示部に表示させ、
　前記第１のテキスト内容が表示された状態で受け付けた第２の音声入力の解析結果としての第２のテキスト内容を取得して前記表示部に表示させ、
　ユーザの操作あるいは所定の条件に応じて、前記第２のテキスト内容を入力テキストとして確定する、情報処理装置。
（２）前記処理部は、前記第１のテキスト内容の解析途中結果を、前記第１のテキスト内容とともに前記表示部に表示させる、前記（１）に記載の情報処理装置。
（３）前記処理部は、前記第１のテキスト内容から予測される入力候補を、前記第１のテキスト内容とともに前記表示部に表示させる、前記（１）に記載の情報処理装置。
（４）前記処理部は、前記第１のテキスト内容と、前記第１のテキスト内容から予測される入力候補との対応関係を示す情報を前記表示部に表示させる、前記（３）に記載の情報処理装置。
（５）前記処理は、ユーザの操作入力に基づき、前記表示部に表示された前記第１のテキスト内容と前記入力候補とを入れ替えて表示させる、前記（３）または（４）に記載の情報処理装置。
（６）前記処理部は、前記第１のテキスト内容を、音声認識の確度に応じて強調して表示させる、前記（１）～（５）のいずれか１項に記載の情報処理装置。
（７）前記処理部は、入力された前記第１の音声入力のテキスト単位毎に応じて、前記第１のテキスト内容の表示テキスト単位を変更する、前記（１）～（６）のいずれか１項に記載の情報処理装置。
（８）前記処理部は、前記第２のテキスト内容が入力テキストとして確定されなかった場合、ユーザの操作あるいは所定の条件に応じて入力テキストが確定されるまで、繰り返し音声入力の解析結果としてのテキスト内容を取得して前記表示部に表示させる、前記（１）～（７）のいずれか１項に記載の情報処理装置。
（９）第１の音声入力の解析結果として第１のテキスト内容を取得して表示部に表示させること、
　前記第１のテキスト内容が表示された状態で受け付けた第２の音声入力の解析結果としての第２のテキスト内容を取得して前記表示部に表示させること、
　ユーザの操作あるいは所定の条件に応じて、前記第２のテキスト内容を入力テキストとして確定すること、
を含む、情報処理方法。
（１０）コンピュータに、
　第１の音声入力の解析結果として第１のテキスト内容を取得して表示部に表示させること、
　前記第１のテキスト内容が表示された状態で受け付けた第２の音声入力の解析結果としての第２のテキスト内容を取得して前記表示部に表示させること、
　ユーザの操作あるいは所定の条件に応じて、前記第２のテキスト内容を入力テキストとして確定すること、
を含む処理を実行させるためのプログラム。

　１００　　情報処理装置
　１１０　　操作入力部
　１２０　　音声入力部
　１３０　　情報処理部
　１４０　　表示処理部
　１５０　　表示部
　２００　　音声処理サーバ
　２１０　　音声認識処理部

Claims

　入力された音声の解析結果としてテキスト内容を取得し、表示部に表示させる処理部を備え、
　前記処理部は、
　第１の音声入力を受けて解析された第１のテキスト内容を取得して前記表示部に表示させ、
　前記第１のテキスト内容が表示された状態で受け付けた第２の音声入力の解析結果としての第２のテキスト内容を取得して前記表示部に表示させ、
　ユーザの操作あるいは所定の条件に応じて、前記第２のテキスト内容を入力テキストとして確定する、情報処理装置。
　前記処理部は、前記第１のテキスト内容の解析途中結果を、前記第１のテキスト内容とともに前記表示部に表示させる、請求項１に記載の情報処理装置。
　前記処理部は、前記第１のテキスト内容から予測される入力候補を、前記第１のテキスト内容とともに前記表示部に表示させる、請求項１に記載の情報処理装置。
　前記処理部は、前記第１のテキスト内容と、前記第１のテキスト内容から予測される入力補との対応関係を示す情報を前記表示部に表示させる、請求項３に記載の情報処理装置。
　前記処理部は、ユーザの操作入力に基づき、前記表示部に表示された前記第１のテキスト内容と前記入力候補とを入れ替えて表示させる、請求項３に記載の情報処理装置。
　前記処理部は、前記第１のテキスト内容を、音声認識の確度に応じて強調して表示させる、請求項１に記載の情報処理装置。
　前記処理部は、入力された前記第１の音声入力のテキスト単位毎に応じて、前記第１のテキスト内容の表示テキスト単位を変更する、請求項１に記載の情報処理装置。
　前記処理部は、前記第２のテキスト内容が入力テキストとして確定されなかった場合、ユーザの操作あるいは所定の条件に応じて入力テキストが確定されるまで、繰り返し音声入力の解析結果としてのテキスト内容を取得して前記表示部に表示させる、請求項１に記載の情報処理装置。
　第１の音声入力の解析結果として第１のテキスト内容を取得して表示部に表示させること、
　前記第１のテキスト内容が表示された状態で受け付けた第２の音声入力の解析結果としての第２のテキスト内容を取得して前記表示部に表示させること、
　ユーザの操作あるいは所定の条件に応じて、前記第２のテキスト内容を入力テキストとして確定すること、
を含む、情報処理方法。
　コンピュータに、
　第１の音声入力の解析結果として第１のテキスト内容を取得して表示部に表示させること、
　前記第１のテキスト内容が表示された状態で受け付けた第２の音声入力の解析結果としての第２のテキスト内容を取得して前記表示部に表示させること、
　ユーザの操作あるいは所定の条件に応じて、前記第２のテキスト内容を入力テキストとして確定すること、
を含む処理を実行させるためのプログラム。