WO2014103355A1

WO2014103355A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: WO2014103355A1
Application number: PCT/JP2013/058115
Authority: WO
Inventors: ツーカイリム
Original assignee: 株式会社東芝
Priority date: 2012-12-26
Filing date: 2013-03-21
Publication date: 2014-07-03
Also published as: JP2014127040A

Abstract

　実施形態によれば、情報処理装置は、タッチパネルと、音声認識手段と、を具備する。音声認識手段は、タッチパネルのタッチ位置に基づき音声認識処理を行なう。

Description

情報処理装置、情報処理方法及びプログラム

　本発明の実施形態はタッチパネルを有する情報処理装置、情報処理方法及びプログラムに関する。

　近年、タブレット、ＰＤＡ、スマートフォンといった種々の情報処理装置が開発されている。この種の情報処理装置の多くは、ユーザによる入力操作を容易にするためにタッチパネルを備えている。ユーザは、タッチパネル上に表示されるメニューまたはオブジェクトを指先またはスタイラスペン等でタッチすることにより、これらメニューまたはオブジェクトに関連づけられた機能の実行を情報処理装置に指示することができる。

　しかし、タッチパネルを備える既存の情報処理装置の多くは小型であるので、テキスト編集の際に必要とされるコピー＆ペーストやカット＆ペーストが使い難い。これらの操作では、コピーあるいはカットの開始位置あるいは終了位置や、貼り付け位置を指先またはスタイラスペン等で指定しなければならないが、これらの位置を正確に指定することが困難な場合がある。すなわち、画面が小型であり、文字が小さい場合、指先やスタイラスペン等で一文字や一単語を正確に指定することが難しい。

特開2004-152217号公報

　従来のタッチパネルを有する情報処理装置は小さい文字からなるテキストの一部分をタッチパネルを用いて正確に選択することが難しいという課題があった。

　本発明の目的は、小さい文字からなるテキストの一部分を正確に指定することができる情報処理装置、情報処理方法及びプログラムを提供することである。

図１は実施形態の情報処理装置の外観の一例を示す斜視図である。図２は実施形態の情報処理装置のシステム構成の一例を示すブロック図である。図３は実施形態のテキスト編集アプリケーションの機能構成の一例を示すブロック図である。図４は実施形態のテキスト編集アプリケーションの処理の流れを示すフローチャートである。図５は編集されるテキストの一例を示す図である。図６は図５のテキストの編集時のコピーまたはカット開始位置候補／終了位置候補、貼り付け位置候補を示す図である。図７は編集されるテキストの他の例を示す図である。図８は図７のテキストの編集時のコピーまたはカット開始位置候補／終了位置候補、貼り付け位置候補を示す図である。図９は図７のテキストにおける文節表示の一例を示す図である。

実施形態

　図１は、第１の実施形態に係る情報処理装置の外観の一例を示す斜視図である。この情報処理装置は、例えば、片手で持つことができ、指先またはスタイラスペン等でタッチ操作することができるスマートフォン１０として実現されている。スマートフォン１０は本体１２とタッチスクリーンディスプレイ１７とを備える。本体１２は、薄い箱形の筐体を有している。タッチスクリーンディスプレイ１７は、本体１２の表側のほぼ全面に重ね合って取り付けられている。タッチスクリーンディスプレイ１７には、フラットパネルディスプレイと、フラットパネルディスプレイの画面上の指先またはスタイラスペン等のタッチ位置（実際には、ある大きさを持ったタッチ面の代表点の座標、あるいはタッチ面の領域）を検出するように構成されたセンサとが組み込まれている。フラットパネルディスプレイは、例えば、液晶表示装置（ＬＣＤ）であってもよい。センサとしては、例えば、静電容量方式のタッチパネルが使用され得る。タッチパネルは、フラットパネルディスプレイの画面を覆うように設けられる。タッチパネルは、画面に対する指先またはスタイラスペン等を使用したタッチ操作を検出することができる。タッチ操作には、タップ操作、ダブルタップ操作、ドラッグ操作等があるが、本実施形態では、タッチパネルへの指先またはスタイラスペン等のタッチ時に、その位置を検出する操作が使用される。

　図２は、スマートフォン１０のシステム構成を示している。スマートフォン１０は、ＣＰＵ３０、システムコントローラ３２、主メモリ３４、ＢＩＯＳ－ＲＯＭ３６、ＳＳＤ（Solid State Drive）３８、グラフィクスコントローラ４０、サウンドコントローラ４２、無線通信デバイス４４、エンベデッドコントローラ４６等を備える。

　ＣＰＵ３０は、スマートフォン１０に実装された各種モジュールの動作を制御するプロセッサである。ＣＰＵ３０は、不揮発性のストレージデバイスであるＳＳＤ３８から主メモリ３４にロードされる各種ソフトウェアを実行する。このソフトウェアは、オペレーティングシステム（ＯＳ）３４ａ、テキスト編集アプリケーションプログラム３４ｄ等を含む。

　テキスト編集アプリケーションプログラム３４ｄは、タッチスクリーンディスプレイ１７に表示されているテキストの編集（コピー、カット、ペースト）を、タッチ操作に加えて音声認識も利用して制御する。具体的には、タッチ位置の複数の単語、文節等から音声認識を利用して所望の単語、文節等を特定する。

　ＣＰＵ３０は、ＢＩＯＳ－ＲＯＭ３６に格納された基本入出力システム（ＢＩＯＳ）も実行する。ＢＩＯＳは、ハードウェア制御のためのプログラムである。

　システムコントローラ３２は、ＣＰＵ３０と各種コンポーネントとの間を接続するデバイスである。システムコントローラ３２には、主メモリ３４をアクセス制御するメモリコントローラも内蔵されている。システムコントローラ３２には、主メモリ３４、ＢＩＯＳ－ＲＯＭ３６、ＳＳＤ３８、グラフィクスコントローラ４０、サウンドコントローラ４２、無線通信デバイス４４、エンベデッドコントローラ４６等が接続される。

　グラフィクスコントローラ４０は、スマートフォン１０のディスプレイモニタとして使用されるＬＣＤ１７ａを制御する。グラフィクスコントローラ４０は、ＣＰＵ３０の制御のもとで、表示信号をＬＣＤ１７ａに送信する。ＬＣＤ１７ａは、表示信号に基づいて画面イメージを表示する。ＬＣＤ１７ａで表示されるテキストは、テキスト編集アプリケーションプログラム３４ｄの制御の下で、コピー＆ペーストあるいはカット＆ペースト等のテキスト編集処理がなされる。ＬＣＤ１７ａの表示面にはタッチパネル１７ｂが配置されている。

　サウンドコントローラ４２は、音声信号を処理するコントローラであり、マイク４２ｂから入力された音声を音声信号として取り込むとともに、スピーカ４２ａから出力される音声信号を生成する。マイク４２ｂは、テキスト編集時に、タッチ操作を補助するために所望の単語、文節等を音声入力するためにも使われる。

　無線通信デバイス４４は、無線ＬＡＮや３Ｇ移動通信などの無線通信、あるいはＮＦＣ（Near Field Communication)などの近接無線通信を実行するように構成されたデバイスである。無線通信デバイス４４を介してスマートフォン１０はインターネットに接続される。

　エンベデッドコントローラ４６は、電力管理のためのコントローラを含むワンチップマイクロコンピュータである。エンベデッドコントローラ４６は、図示しない電源ボタンの操作に応じてスマートフォン１０を電源オンまたは電源オフする機能を有している。

　図３は、テキスト編集アプリケーションプログラム３４ｄの機能構成を示すブロック図である。従来のスマートフォン等のタッチパネルを備えた情報処理装置では、タッチ操作により全ての操作が指示される。例えば、テキストの一部分をクリップボードに貼り付け、クリップボードの内容をある箇所に貼り付けるコピー＆ペーストでは、コピー開始位置、コピー終了位置、貼り付け位置を指先またはスタイラスペン等のタッチにより指定する。しかし、指先またはスタイラスペン等で一点のみにタッチすることができず、実際にはある領域をタッチしてしまい、１文字、あるいは１単語のみを指定チすることは困難であり、複数の文字、あるいは単語が指定されてしまう。これらの複数文字、あるいは複数単語の中から所望の１文字あるいは１単語を特定するために、テキスト編集アプリケーションプログラム３４ｄは音声認識を利用する。

　マイク４２ｂから入力された音声信号は特徴量抽出モジュール７２に供給され、音響分析される。音響分析は、入力された音声を分析（例えば、フーリエ解析）して、認識に有用な情報からなる特徴量に変換する。特徴量は、認識デコーダモジュール７４に供給され、音響モデル記憶部８２からの音響モデルを用いて認識される。音響モデル記憶部８２には、特徴量の音響と発音記号との確率の非常に多くの対応関係が音響モデルとして記憶されている。

　本実施形態では、音響モデル記憶部８２に記憶されている全ての音響モデルを使って音声認識をするのではなく、タッチパネル１７ｂ上の指先またはスタイラスペン等がタッチされた領域内の単語についての音響モデルのみを用いて音声認識をする。このため、音声認識の精度が上がるとともに、短時間で音声認識ができる。

　タッチパネル１７ｂからタッチ領域に含まれる文字列の文字コードが文字グルーピングモジュール７６に供給され、文字列が構造解析され、１つまたは複数の文字からなる文字グループ（例えば、文字、単語、文節等）毎に分類される。なお、単語、文節の一部分でもタッチ領域に含まれている場合は、当該単語、文節は全体がタッチ領域に含まれると判断される。文字グルーピングモジュール７６で得られた複数の文字グループは候補文字グループ登録モジュール７８に登録される。コード／発音記号変換モジュール８０は、候補文字グループ登録モジュール７８に登録されている文字グループの文字コード列を発音記号に変換する。音響モデル記憶部８２は、コード／発音記号変換モジュール８０で得られた発音記号を含む音響モデルを認識デコーダモジュール７４に供給する。すなわち、認識デコーダモジュール７４は文字コードに基づいて絞り込まれた音響モデルを用いて音声認識処理を実行するので、精度が向上する。

　図４、図５、図６を参照して、テキスト編集処理の流れを説明する。図４は、テキスト編集アプリケーションの処理の流れを示すフローチャートである。図５は、編集されるテキストの一例を示す図である。ここでは、１行目の“ｔｈｅ”から５行目の“ｐａｔｅｎｔ”までを１１行目の“ｏｒ”の直前に貼り付けたい場合を説明する。貼り付け位置は、ある単語の直前ではなく、直後と設定することもできる。例えば、行末に貼り付けたい場合は、貼り付け位置は行末の単語の直後となる。あるいは、２つの単語を特定し、その中間に貼り付けても良い。

　ブロック１０２でテキスト編集モードがオンされる。テキスト編集モードをオンする操作の一例としては、テキスト表示中にテキストの表示領域の任意の点を所定時間以上タッチし続ける（長押しする）操作がある。テキスト編集モードがオンすると、画面の上部にコピーボタン、カットボタン、ペーストボタンを含むテキスト編集メニューが表示される。選択部分をコピーするのかカットするのかに応じて、コピーボタン、カットボタンのいずれかをタッチする。ここでは、コピーボタンがタッチされ、コピー＆ペースト操作が選ばれた場合を説明する。

　この後、ユーザは、図５に示すようにコピー部分の先頭（コピー開始位置）の単語“ｔｈｅ”をタッチする（図４のブロック１０４のイエス）。しかし、指先またはスタイラスペン等でタッチすると、ある程度の面積の領域がタッチされてしまい、複数の単語が指定されてしまう。そこで、ブロック１０４で、タッチパネル１７ｂがタッチされたことを検知すると、タッチ領域５ｓに（一部でも）含まれる単語（１つまたは複数の文字からなる文字グループ）を全てブロック１０６でハイライト表示するとともに、これらの単語を候補文字グループ登録モジュール７８に開始文字グループ候補として登録する。図６（ａ）に示すように、“ａ”、“ｔｈｅ”、“ｉｎｖｅｎｔｉｏｎ”、“ｏｔｈｅｒｓ”、“ｉｎ”、“ｔｈｉｓ”の６つの単語がタッチ領域５ｓに含まれる開始位置の文字グループ候補となる。

　この後、ユーザは、コピー開始したい箇所の単語“ｔｈｅ”を発音し、マイク４２ｂから“ｔｈｅ”の音声信号を入力する。ブロック１０６でこの音声入力を検知すると、ブロック１０６で登録された開始文字グループ候補に基づいて、この入力音声がブロック１１０で音声認識される。すなわち、“ａ”、“ｔｈｅ”、“ｉｎｖｅｎｔｉｏｎ”、“ｏｔｈｅｒｓ”、“ｉｎ”、“ｔｈｉｓ”の６つの候補単語の中から入力音声の特徴量に最も類似する単語が認識結果となる。このように認識対象を絞っているので、正確に入力音声を認識することができる。

　認識単語（“ｔｈｅ”）の先頭位置をブロック１１２でコピー開始位置とする。

　次に、コピー終了位置を指定する。ユーザは、コピー開始位置を指定した後、指先またはスタイラスペン等をタッチしたままコピー部分の終了（コピー終了位置）の単語“ｐａｔｅｎｔ”までドラッグし、その後指先またはスタイラスペン等をリリースする（図４のブロック１１４のイエス）。ブロック１１４で、指先またはスタイラスペン等がリリースされたことを検知すると、リリース時の指先またはスタイラスペンのタッチ領域５ｅに（一部でも）含まれる単語をブロック１１６でハイライト表示するとともに、これらの文字を候補文字グループ登録モジュール７８に終了文字グループ候補として登録する。図６（ｂ）に示すように、“ｔｈｅ”、“ｉｎｖｅｎｔｉｏｎ”、“ｐａｔｅｎｔ”、“ｏｒ”の４つの単語がタッチ領域５ｅに含まれる終了位置の文字グループ候補となる。

　この後、ユーザは、コピー終了したい箇所の単語“ｐａｔｅｎｔ”を発音し、マイク４２ｂから“ｐａｔｅｎｔ”の音声信号を入力する。ブロック１１８でこの音声入力を検知すると、ブロック１１６で登録された終了文字グループ候補に基づいて、この入力音声がブロック１２０で音声認識される。すなわち、“ｔｈｅ”、“ｉｎｖｅｎｔｉｏｎ”、“ｐａｔｅｎｔ”、“ｏｒ”の４つの候補単語の中から入力音声の特徴量に最も類似する単語が認識結果となる。このように認識対象を絞っているので、正確に入力音声を認識することができる。

　認識単語（“ｐａｔｅｎｔ”）の末尾位置をブロック１２２でコピー終了位置とする。コピー終了位置が決定されると、ブロック１２４で、コピー開始位置からコピー終了位置までのテキストがハイライト表示されるとともに、クリップボードに貼り付けられる。

　さらに、同様に貼り付け位置を設定する。ユーザは、図５に示すように貼り付け位置の先頭の単語“ｏｒ”をタッチする（図４のブロック１２６のイエス）。ブロック１２８で、タッチパネル１７ｂがタッチされたことを検知すると、タッチ領域５ｉに（一部でも）含まれる単語をブロック１２８でハイライト表示するとともに、これらの単語を候補文字グループ登録モジュール７８に貼り付け位置文字グループ候補として登録する。図６（ｃ）に示すように、“ａｐｐｌｉｃａｔｉｏｎ”、“Ｓｔａｔｅ”、“ｏｒ”の３つの単語がタッチ領域５ｉに含まれる貼り付け位置の文字グループ候補となる。

　この後、ユーザは、貼り付けたい箇所の先頭の単語“ｏｒ”の音声信号を入力する。ブロック１３０でこの音声入力を検知すると、ブロック１２８で登録された貼り付け位置文字グループ候補に基づいて、この入力音声がブロック１３２で音声認識される。すなわち、“ａｐｐｌｉｃａｔｉｏｎ”、“ｓｔａｔｅｓ”、“ｏｒ”の３つの候補単語の中から入力音声の特徴量に最も類似する単語が認識結果となる。このように認識対象を絞っているので、正確に入力音声を認識することができる。

　クリップボードの内容を、ブロック１３４で、認識単語（“ｏｒ”）の直前に貼り付ける。なお、カット＆ペーストの場合は、ブロック１２４でクリップボードに貼り付けた開始位置から終了位置までのテキスト部分は表示されているテキストから削除される点が違うのみで、他は同じである。

　以上説明したように、第１実施形態によれば、タッチパネルを備えた情報処理装置において、タッチ操作により指定された複数の単語の中から音声認識を利用して１つの所望の単語を特定することができる。従って、例えば、テキストの一部分をクリップボードに貼り付け、クリップボードの内容をある箇所に貼り付けるコピー＆ペースト、カット＆ペースト操作において、コピー開始位置／終了位置、貼り付け位置の単語をタッチ操作と音声認識処理により正確に指定することができる。

　なお、音声認識機能は選択的にオフすることができる。オフィス内等の静かさが要求される環境や、反対に騒々しい環境では、音声認識機能を使いにくいので、音声認識機能をオフすることが好ましい。

　以下、他の実施形態を説明する。他の実施形態の説明において第１の実施形態と同一部分は同一参照数字を付してその詳細な説明は省略する。

　第１実施形態は、英語テキストを編集する場合を想定したが、図７に示すように、日本語テキストを編集する場合も同様である。処理の流れは、図４のフローチャートと同じである。ただし、英語の場合は、文字列を単語単位に文字グループに分割したが、日本語の場合は、テキストの区切りとしては、単語単位よりも文節単位の方が容易にかつ適切に文字グループに分割できるので、文字グループは文節としてもよい。しかし、日本語の場合でも、単語単位に文字グループに分割してもよい。これらの設定は、ユーザが自由に変更できる。

　文字グループを文節とした場合は、図８（ａ）に示すように、“この”、“法律(ホウリツ)”、“利用(リヨウ)した”の３つの文節がタッチ領域５ｓに含まれる開始位置の文字グループ候補となる。ユーザは、コピー開始したい位置の文節“この”を発音することになる。図８（ｂ）に示すように、“特許(トッキョ)”、“発明（ハツメイ）”、“発明（ハツメイ）を”、“いう”の４つの文節がリリース時の指先またはスタイラスペン等のタッチ領域５ｅに含まれる終了位置の文字グループ候補となる。ユーザは、コピー終了したい位置の文節“いう”を発音することになる。図８（ｃ）に示すように、“１(イチ)”、“物（モノ）”の２つの文節がタッチ領域５ｉに含まれる貼り付け位置の文字グループ候補となる。ユーザは、貼り付けたい位置の文節“物(モノ)”を発音することになる。これにより、「この法律～発明をいう」を「物」の直前に貼り付けることができる。

　以上説明したように、第２の実施形態によれば、テキストが日本語であっても、タッチ＆音声により、テキストの編集位置を正確に指定することができる。

　なお、情報処理装置の一例としてスマートフォンを説明したが、タッチパネルを有するものであれば良く、タブレットコンピュータ、ノートブック型パーソナルコンピュータ、ＰＤＡ等でもよい。

　上記実施の形態ではクリップボードに貼り付けるテキストの範囲を指定するのに、開始位置にてタッチを開始し、終了位置まで指先またはスタイラスペン等の接触を継続させ、終了位置でタッチをリリースすることで、範囲を指定できる構成を示したが、これに限らず、開始位置をタッチし、一度指先またはスタイラスペン等が離れた後に、終了位置をタッチして範囲指定を行う構成であってもよい。つまり、長時間継続するタッチの開始の位置及び終了の位置に基づいて音声認識を行うのではなく、短時間タッチの位置に基づいて選択範囲の開始位置・終了位置を決定するための音声認識を実行するとしてもよい。

　タッチ操作し、タッチ領域に含まれる単語、文節をハイライト表示してから所望の単語、文節を音声入力したが、この逆でも良い。すなわち、所望の単語、文節を音声入力してから、当該単語、文節をタッチしても良い。この場合であっても、タッチによる範囲決定後に範囲内の単語等に基づいて音声認識を実行することで、高精度に音声認識処理を実行することができる。またこの際、ハイライト表示は省略してもよい。また、ドラッグにより終了位置を指定する場合も、リリースする前に、音声入力してもよい。

　また、タッチ範囲に含まれる文字列を１つまたは複数の文字からなる文字グループに分類されると、タッチ範囲全体をハイライト表示するとともに、あるいはその代わりに、文字グループの分類が識別できるように仕切りを表示すると、さらに、効果的である。すなわち、テキストが英語のみからなる場合は、文字グループである単語が明白であるが、日本語の場合、文節の区切りが明確ではない。例えば、図８の（ｂ）の場合、「特許発明」を１文節と判断することもある。この場合は、「特許発明」は認識できない可能性が高い。しかし、文字グループの仕切り線が表示される、あるいは文字グループの塊が識別できるように表示されることにより、適切に開始位置、終了位置の文字グループを音声入力することができる。文節の識別表示の一例を図９に示す。

　なお、実施形態の動作制御処理の手順はコンピュータプログラムによって実現することができるので、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムを通常のコンバーチブルコンピュータにインストールして実行するだけで、実施形態と同様の効果を容易に実現することができる。

　なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

Claims

　映像を表示する表示部と、
　前記表示部上に設けられ、タッチを検出するタッチパネルと、
　前記タッチパネルが検出したタッチの位置に基づき音声認識処理を行なう音声認識手段と、
　を具備する情報処理装置。
　前記音声認識手段は、前記検出されたタッチ位置近傍に表示された単語または文節を前記音声認識処理に用いる請求項１記載の情報処理装置。
　前記音声認識手段は、前記検出されたタッチ位置近傍に表示された単語または文節を前記音声認識処理の候補として用いる請求項２記載の情報処理装置。
　前記タッチパネルに表示されているテキストを編集する編集手段をさらに具備し、
　前記編集手段はコピー＆ペースト機能またはカット＆ペースト機能を備え、
　前記タッチパネルで表示されているテキスト内のコピーまたはカット開始位置、コピーまたはカット終了位置、貼り付け位置のいずれかがタッチ操作により指定されると、前記音声認識手段は、タッチ位置近傍の複数の単語または文節に基づいて前記開始位置、前記終了位置、または前記貼り付け位置の単語または文節を音声認識する請求項１記載の情報処理装置。
　前記編集手段は、前記テキストのタッチ状態が所定時間以上継続すると、コピー、カット、ペーストを含む編集項目を示すメニューをタッチパネルに表示する請求項４記載の情報処理装置。
　前記音声認識手段は、音声入力手段と、前記タッチ位置近傍の複数の単語または文節の中から前記音声入力手段により入力された音声信号に類似する単語または文節を判別する判別手段と、を具備する請求項１記載の情報処理装置。
　前記タッチパネルで表示されているテキストにおいて前記タッチ位置近傍のテキストを識別可能に表示する表示手段をさらに具備する請求項１記載の情報処理装置。
　前記タッチ位置近傍の複数の文節を、該複数の文節の区切りが識別可能になるように、表示する手段をさらに具備する請求項１記載の情報処理装置。
　前記判別手段は、前記音声入力手段により入力された音声信号の特徴量を求める解析手段と、複数の音響モデルを記憶する記憶手段と、前記記憶手段内の複数の音響モデルの中の前記タッチ領域に含まれる複数の単語または文節に関係する音響モデルと前記音声信号の特徴量とに基づいて音声認識する手段と、を具備する請求項６記載の情報処理装置。
　前記タッチパネルは情報処理装置本体の表側のほぼ全面に重なって設けられ、
　前記タッチパネルは、液晶表示部と、該液晶表示部の表示画面に重なって設けられ、該液晶表示部の表示画面のタッチ位置を検出するタッチセンサとを具備する請求項１記載の情報処理装置。
　タッチパネルのタッチ位置に基づき音声認識処理を行なう情報処理方法。
　コンピュータにより実行されるプログラムであって、前記プログラムは前記コンピュータをタッチパネルのタッチ位置に基づき音声認識処理を行なわせるものであるプログラム。