[go: up one dir, main page]

WO2014103355A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2014103355A1
WO2014103355A1 PCT/JP2013/058115 JP2013058115W WO2014103355A1 WO 2014103355 A1 WO2014103355 A1 WO 2014103355A1 JP 2013058115 W JP2013058115 W JP 2013058115W WO 2014103355 A1 WO2014103355 A1 WO 2014103355A1
Authority
WO
WIPO (PCT)
Prior art keywords
touch
information processing
processing apparatus
voice recognition
touch panel
Prior art date
Application number
PCT/JP2013/058115
Other languages
English (en)
French (fr)
Inventor
ツーカイ リム
Original Assignee
株式会社 東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 東芝 filed Critical 株式会社 東芝
Priority to US14/017,657 priority Critical patent/US20140180698A1/en
Publication of WO2014103355A1 publication Critical patent/WO2014103355A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Definitions

  • Embodiments described herein relate generally to an information processing apparatus having a touch panel, an information processing method, and a program.
  • An information processing apparatus having a conventional touch panel has a problem that it is difficult to accurately select a part of text composed of small characters using the touch panel.
  • An object of the present invention is to provide an information processing apparatus, an information processing method, and a program capable of accurately specifying a part of text composed of small characters.
  • the information processing apparatus includes a touch panel and voice recognition means.
  • the voice recognition means performs voice recognition processing based on the touch position on the touch panel.
  • FIG. 1 is a perspective view illustrating an example of an appearance of the information processing apparatus according to the embodiment.
  • FIG. 2 is a block diagram illustrating an example of a system configuration of the information processing apparatus according to the embodiment.
  • FIG. 3 is a block diagram illustrating an example of a functional configuration of the text editing application according to the embodiment.
  • FIG. 4 is a flowchart showing a flow of processing of the text editing application according to the embodiment.
  • FIG. 5 is a diagram showing an example of text to be edited.
  • FIG. 6 is a diagram showing copy or cut start position candidate / end position candidate and paste position candidate when editing the text of FIG.
  • FIG. 7 is a diagram showing another example of text to be edited.
  • FIG. 8 is a diagram showing a copy or cut start position candidate / end position candidate and a paste position candidate when editing the text of FIG.
  • FIG. 9 is a diagram showing an example of phrase display in the text of FIG.
  • FIG. 1 is a perspective view showing an example of the appearance of the information processing apparatus according to the first embodiment.
  • the information processing apparatus is realized as a smartphone 10 that can be held with one hand and can be touch-operated with a fingertip or a stylus pen, for example.
  • the smartphone 10 includes a main body 12 and a touch screen display 17.
  • the main body 12 has a thin box-shaped housing.
  • the touch screen display 17 is attached so as to overlap almost the entire front surface of the main body 12.
  • the touch screen display 17 includes a flat panel display and a touch position such as a fingertip or a stylus pen on the screen of the flat panel display (actually, the coordinates of the representative point of the touch surface having a certain size, or the touch surface And a sensor configured to detect (region).
  • the flat panel display may be, for example, a liquid crystal display (LCD).
  • a capacitive touch panel may be used as the sensor.
  • the touch panel is provided so as to cover the screen of the flat panel display.
  • the touch panel can detect a touch operation using a fingertip or a stylus pen on the screen.
  • the touch operation includes a tap operation, a double tap operation, a drag operation, and the like.
  • an operation for detecting the position of a fingertip or a stylus pen on the touch panel is used.
  • FIG. 2 shows the system configuration of the smartphone 10.
  • the smartphone 10 includes a CPU 30, a system controller 32, a main memory 34, a BIOS-ROM 36, an SSD (Solid State Drive) 38, a graphics controller 40, a sound controller 42, a wireless communication device 44, an embedded controller 46, and the like.
  • the CPU 30 is a processor that controls the operation of various modules mounted on the smartphone 10.
  • the CPU 30 executes various software loaded into the main memory 34 from the SSD 38 that is a nonvolatile storage device.
  • This software includes an operating system (OS) 34a, a text editing application program 34d, and the like.
  • the text editing application program 34d controls the editing (copying, cutting, and pasting) of the text displayed on the touch screen display 17 by using voice recognition in addition to the touch operation. Specifically, a desired word, phrase, or the like is specified using speech recognition from a plurality of words, phrases, etc. at the touch position.
  • the CPU 30 also executes a basic input / output system (BIOS) stored in the BIOS-ROM 36.
  • BIOS is a program for hardware control.
  • the system controller 32 is a device that connects between the CPU 30 and various components.
  • the system controller 32 also includes a memory controller that controls access to the main memory 34.
  • a main memory 34, a BIOS-ROM 36, an SSD 38, a graphics controller 40, a sound controller 42, a wireless communication device 44, an embedded controller 46, and the like are connected to the system controller 32.
  • the graphics controller 40 controls the LCD 17a used as a display monitor of the smartphone 10.
  • the graphics controller 40 transmits a display signal to the LCD 17a under the control of the CPU 30.
  • the LCD 17a displays a screen image based on the display signal.
  • the text displayed on the LCD 17a is subjected to text editing processing such as copy and paste or cut and paste under the control of the text editing application program 34d.
  • a touch panel 17b is disposed on the display surface of the LCD 17a.
  • the sound controller 42 is a controller that processes an audio signal, takes in the audio input from the microphone 42b as an audio signal, and generates an audio signal output from the speaker 42a.
  • the microphone 42b is also used for voice input of a desired word, phrase or the like to assist the touch operation during text editing.
  • the wireless communication device 44 is a device configured to execute wireless communication such as wireless LAN and 3G mobile communication, or near field wireless communication such as NFC (Near Field Communication).
  • the smartphone 10 is connected to the Internet via the wireless communication device 44.
  • the embedded controller 46 is a one-chip microcomputer including a controller for power management.
  • the embedded controller 46 has a function of turning on or off the smartphone 10 in accordance with an operation of a power button (not shown).
  • FIG. 3 is a block diagram showing a functional configuration of the text editing application program 34d.
  • an information processing apparatus having a touch panel such as a conventional smartphone
  • all operations are instructed by a touch operation.
  • the copy start position, copy end position, and paste position are designated by touching with a fingertip or a stylus pen.
  • the text editing application program 34d uses speech recognition in order to specify a desired character or word from these multiple characters or multiple words.
  • the audio signal input from the microphone 42b is supplied to the feature amount extraction module 72 and subjected to acoustic analysis.
  • acoustic analysis input speech is analyzed (for example, Fourier analysis) and converted into a feature amount including information useful for recognition.
  • the feature amount is supplied to the recognition decoder module 74 and recognized using the acoustic model from the acoustic model storage unit 82.
  • the acoustic model storage unit 82 stores an extremely large number of correspondence relationships between the probabilities of the feature amount sounds and the phonetic symbols as an acoustic model.
  • the voice recognition is not performed using all the acoustic models stored in the acoustic model storage unit 82, but the acoustics about the words in the area touched by the fingertip or the stylus pen on the touch panel 17b. Speech recognition is performed using only the model. For this reason, the accuracy of speech recognition is improved and speech recognition can be performed in a short time.
  • the character code of the character string included in the touch area is supplied from the touch panel 17b to the character grouping module 76, the character string is structurally analyzed, and each character group (for example, character, word, phrase, etc.) composed of one or a plurality of characters is analyzed. are categorized. When a part of a word or phrase is included in the touch area, it is determined that the entire word or phrase is included in the touch area.
  • a plurality of character groups obtained by the character grouping module 76 are registered in the candidate character group registration module 78.
  • the chord / phonetic symbol conversion module 80 converts the character code string of the character group registered in the candidate character group registration module 78 into a phonetic symbol.
  • the acoustic model storage unit 82 supplies the acoustic model including the phonetic symbols obtained by the chord / phonetic symbol conversion module 80 to the recognition decoder module 74. That is, since the recognition decoder module 74 executes the speech recognition process using the acoustic model narrowed down based on the character code, the accuracy is improved.
  • FIG. 4 is a flowchart showing the flow of processing of the text editing application.
  • FIG. 5 is a diagram illustrating an example of text to be edited.
  • the pasting position can be set not immediately before a certain word but immediately after a certain word. For example, when pasting at the end of a line, the pasting position is immediately after the word at the end of the line. Alternatively, two words may be specified and pasted between them.
  • the text editing mode is turned on.
  • an operation for turning on the text editing mode there is an operation of continuously touching (holding down) an arbitrary point in a text display area for a predetermined time or more during text display.
  • a text editing menu including a copy button, a cut button, and a paste button is displayed at the top of the screen. Touch either the copy button or the cut button depending on whether you want to copy or cut the selected part.
  • a case where the copy button is touched and a copy and paste operation is selected will be described.
  • the user touches the word “the” at the beginning of the copy portion (copy start position) (Yes in block 104 in FIG. 4).
  • a fingertip or a stylus pen an area of a certain area is touched, and a plurality of words are designated. Therefore, when it is detected in block 104 that touch panel 17b has been touched, all words (a character group consisting of one or more characters) included in (or in part) touch area 5s are highlighted in block 106.
  • these words are registered in the candidate character group registration module 78 as starting character group candidates.
  • FIG. 6A a character group candidate at the start position in which six words “a”, “the”, “invention”, “others”, “in”, and “this” are included in the touch area 5s. It becomes.
  • the user pronounces the word “the” at the place where the user wants to start copying, and inputs an audio signal of “the” from the microphone 42b.
  • the input speech is recognized at block 110 based on the starting character group candidate registered at block 106. That is, a word that most closely resembles the feature quantity of the input speech among the six candidate words “a”, “the”, “invention”, “others”, “in”, and “this” is the recognition result. Since the recognition target is narrowed down in this way, the input voice can be accurately recognized.
  • the head position of the recognized word (“the”) is set as the copy start position in block 112.
  • Block 114 yes).
  • the word included in the touch area 5e of the fingertip or stylus pen at the time of release is highlighted in block 116 and these words are displayed.
  • Characters are registered in the candidate character group registration module 78 as end character group candidates. As shown in FIG. 6B, the four words “the”, “invention”, “patent”, and “or” are character group candidates at the end position included in the touch area 5e.
  • the user pronounces the word “patent” at the location where copying is desired to end, and inputs the “patent” audio signal from the microphone 42b.
  • this speech input is detected at block 118, this input speech is recognized at block 120 based on the end character group candidate registered at block 116. That is, the word that is most similar to the feature amount of the input speech among the four candidate words “the”, “invention”, “patent”, and “or” is the recognition result. Since the recognition target is narrowed down in this way, the input voice can be accurately recognized.
  • the end position of the recognized word (“patent”) is set as the copy end position in block 122.
  • the copy end position is determined, in block 124, the text from the copy start position to the copy end position is highlighted and pasted on the clipboard.
  • the user inputs a voice signal of the first word “or” at the location to be pasted.
  • this voice input is detected at block 130, this input voice is recognized at block 132 based on the pasting position character group candidate registered at block 128. That is, a word that is most similar to the feature amount of the input speech among the three candidate words “application”, “states”, and “or” is the recognition result. Since the recognition target is narrowed down in this way, the input voice can be accurately recognized.
  • the content of the clipboard is pasted in block 134 immediately before the recognized word (“or”).
  • the text portion from the start position to the end position pasted on the clipboard in block 124 is deleted from the displayed text, but the rest is the same.
  • one desired word is specified using voice recognition from among a plurality of words designated by the touch operation. Can do. Therefore, for example, in copy & paste and cut & paste operations that paste a part of text on the clipboard and paste the clipboard contents to a certain location, the words at the copy start position / end position and paste position are touched and voice recognized. It can be specified accurately by processing.
  • the voice recognition function can be selectively turned off. It is preferable to turn off the voice recognition function because it is difficult to use the voice recognition function in an environment where quietness is required such as in an office or in a noisy environment.
  • the character group is a phrase
  • FIG. 8A the start position where three phrases of “this”, “law” and “used” are included in the touch area 5s. Character group candidates.
  • the user will pronounce the phrase “this” at the position where copying is desired to start.
  • FIG. 8B the four clauses “patent”, “invention (hatsumei)”, “invention (hatsumei)”, and “say” are touches of the fingertip or stylus pen or the like at the time of release. It becomes a character group candidate at the end position included in the region 5e.
  • the user will pronounce the phrase “say” at the position where copying is desired to end.
  • FIG. 8A the start position where three phrases of “this”, “law” and “used” are included in the touch area 5s. Character group candidates.
  • the user will pronounce the phrase “this” at the position where copying is desired to start.
  • FIG. 8B the four clauses “patent”, “invention (hatsumei)”, “invention (hatsumei)”,
  • the two phrases “1 (first)” and “thing (thing)” are the character group candidates at the pasting position included in the touch area 5i.
  • the user pronounces the phrase “thing” at the position to be pasted.
  • this law-invention can be pasted immediately before “thing”.
  • the edit position of the text can be specified accurately by touch & voice.
  • the smart phone was demonstrated as an example of information processing apparatus, what has a touch panel should just be sufficient, and a tablet computer, a notebook personal computer, PDA etc. may be sufficient.
  • touch is started at the start position, contact with the fingertip or stylus pen is continued until the end position, and the touch is released at the end position.
  • the present invention is not limited to this, and the configuration may be such that the start position is touched and the end position is touched after the fingertip or the stylus pen is once separated to specify the range. That is, instead of performing voice recognition based on the start and end positions of a touch that lasts for a long time, voice recognition is performed to determine the start / end positions of the selection range based on the position of the short-time touch. It may be executed.
  • the touch operation is performed, and the word or phrase included in the touch area is highlighted, and then the desired word or phrase is input by voice, but the reverse is also possible. That is, after inputting a desired word or phrase by voice, the word or phrase may be touched. Even in this case, voice recognition processing can be executed with high accuracy by executing voice recognition based on words or the like within the range after the range is determined by touch. At this time, the highlight display may be omitted. Also, when the end position is designated by dragging, voice input may be performed before release.
  • the character strings included in the touch range are classified into character groups consisting of one or more characters, the entire touch range is highlighted, or alternatively, the character group classification can be identified. Displaying the partition is more effective. That is, when the text is composed only of English, the word that is the character group is clear, but when the text is Japanese, the division of the clause is not clear.
  • FIG. 8B “patented invention” may be determined as one phrase. In this case, there is a high possibility that the “patented invention” cannot be recognized.
  • the character group dividers are displayed, or displayed so that the character group chunks can be identified, so that the character group at the start position and the end position can be appropriately input by voice.
  • phrase identification display is shown in FIG.
  • the procedure of the operation control process of the embodiment can be realized by a computer program
  • the computer program is simply installed on a normal convertible computer and executed through a computer-readable storage medium storing the computer program.
  • the effects similar to those of the embodiment can be easily realized.
  • the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying constituent elements without departing from the scope of the invention in the implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, you may combine suitably the component covering different embodiment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)

Abstract

 実施形態によれば、情報処理装置は、タッチパネルと、音声認識手段と、を具備する。音声認識手段は、タッチパネルのタッチ位置に基づき音声認識処理を行なう。

Description

情報処理装置、情報処理方法及びプログラム
 本発明の実施形態はタッチパネルを有する情報処理装置、情報処理方法及びプログラムに関する。
 近年、タブレット、PDA、スマートフォンといった種々の情報処理装置が開発されている。この種の情報処理装置の多くは、ユーザによる入力操作を容易にするためにタッチパネルを備えている。ユーザは、タッチパネル上に表示されるメニューまたはオブジェクトを指先またはスタイラスペン等でタッチすることにより、これらメニューまたはオブジェクトに関連づけられた機能の実行を情報処理装置に指示することができる。
 しかし、タッチパネルを備える既存の情報処理装置の多くは小型であるので、テキスト編集の際に必要とされるコピー&ペーストやカット&ペーストが使い難い。これらの操作では、コピーあるいはカットの開始位置あるいは終了位置や、貼り付け位置を指先またはスタイラスペン等で指定しなければならないが、これらの位置を正確に指定することが困難な場合がある。すなわち、画面が小型であり、文字が小さい場合、指先やスタイラスペン等で一文字や一単語を正確に指定することが難しい。
特開2004-152217号公報
 従来のタッチパネルを有する情報処理装置は小さい文字からなるテキストの一部分をタッチパネルを用いて正確に選択することが難しいという課題があった。
 本発明の目的は、小さい文字からなるテキストの一部分を正確に指定することができる情報処理装置、情報処理方法及びプログラムを提供することである。
 実施形態によれば、情報処理装置は、タッチパネルと、音声認識手段と、を具備する。音声認識手段は、タッチパネルのタッチ位置に基づき音声認識処理を行なう。
図1は実施形態の情報処理装置の外観の一例を示す斜視図である。 図2は実施形態の情報処理装置のシステム構成の一例を示すブロック図である。 図3は実施形態のテキスト編集アプリケーションの機能構成の一例を示すブロック図である。 図4は実施形態のテキスト編集アプリケーションの処理の流れを示すフローチャートである。 図5は編集されるテキストの一例を示す図である。 図6は図5のテキストの編集時のコピーまたはカット開始位置候補/終了位置候補、貼り付け位置候補を示す図である。 図7は編集されるテキストの他の例を示す図である。 図8は図7のテキストの編集時のコピーまたはカット開始位置候補/終了位置候補、貼り付け位置候補を示す図である。 図9は図7のテキストにおける文節表示の一例を示す図である。
実施形態
 図1は、第1の実施形態に係る情報処理装置の外観の一例を示す斜視図である。この情報処理装置は、例えば、片手で持つことができ、指先またはスタイラスペン等でタッチ操作することができるスマートフォン10として実現されている。スマートフォン10は本体12とタッチスクリーンディスプレイ17とを備える。本体12は、薄い箱形の筐体を有している。タッチスクリーンディスプレイ17は、本体12の表側のほぼ全面に重ね合って取り付けられている。タッチスクリーンディスプレイ17には、フラットパネルディスプレイと、フラットパネルディスプレイの画面上の指先またはスタイラスペン等のタッチ位置(実際には、ある大きさを持ったタッチ面の代表点の座標、あるいはタッチ面の領域)を検出するように構成されたセンサとが組み込まれている。フラットパネルディスプレイは、例えば、液晶表示装置(LCD)であってもよい。センサとしては、例えば、静電容量方式のタッチパネルが使用され得る。タッチパネルは、フラットパネルディスプレイの画面を覆うように設けられる。タッチパネルは、画面に対する指先またはスタイラスペン等を使用したタッチ操作を検出することができる。タッチ操作には、タップ操作、ダブルタップ操作、ドラッグ操作等があるが、本実施形態では、タッチパネルへの指先またはスタイラスペン等のタッチ時に、その位置を検出する操作が使用される。
 図2は、スマートフォン10のシステム構成を示している。スマートフォン10は、CPU30、システムコントローラ32、主メモリ34、BIOS-ROM36、SSD(Solid State Drive)38、グラフィクスコントローラ40、サウンドコントローラ42、無線通信デバイス44、エンベデッドコントローラ46等を備える。
 CPU30は、スマートフォン10に実装された各種モジュールの動作を制御するプロセッサである。CPU30は、不揮発性のストレージデバイスであるSSD38から主メモリ34にロードされる各種ソフトウェアを実行する。このソフトウェアは、オペレーティングシステム(OS)34a、テキスト編集アプリケーションプログラム34d等を含む。
 テキスト編集アプリケーションプログラム34dは、タッチスクリーンディスプレイ17に表示されているテキストの編集(コピー、カット、ペースト)を、タッチ操作に加えて音声認識も利用して制御する。具体的には、タッチ位置の複数の単語、文節等から音声認識を利用して所望の単語、文節等を特定する。
 CPU30は、BIOS-ROM36に格納された基本入出力システム(BIOS)も実行する。BIOSは、ハードウェア制御のためのプログラムである。
 システムコントローラ32は、CPU30と各種コンポーネントとの間を接続するデバイスである。システムコントローラ32には、主メモリ34をアクセス制御するメモリコントローラも内蔵されている。システムコントローラ32には、主メモリ34、BIOS-ROM36、SSD38、グラフィクスコントローラ40、サウンドコントローラ42、無線通信デバイス44、エンベデッドコントローラ46等が接続される。
 グラフィクスコントローラ40は、スマートフォン10のディスプレイモニタとして使用されるLCD17aを制御する。グラフィクスコントローラ40は、CPU30の制御のもとで、表示信号をLCD17aに送信する。LCD17aは、表示信号に基づいて画面イメージを表示する。LCD17aで表示されるテキストは、テキスト編集アプリケーションプログラム34dの制御の下で、コピー&ペーストあるいはカット&ペースト等のテキスト編集処理がなされる。LCD17aの表示面にはタッチパネル17bが配置されている。
 サウンドコントローラ42は、音声信号を処理するコントローラであり、マイク42bから入力された音声を音声信号として取り込むとともに、スピーカ42aから出力される音声信号を生成する。マイク42bは、テキスト編集時に、タッチ操作を補助するために所望の単語、文節等を音声入力するためにも使われる。
 無線通信デバイス44は、無線LANや3G移動通信などの無線通信、あるいはNFC(Near Field Communication)などの近接無線通信を実行するように構成されたデバイスである。無線通信デバイス44を介してスマートフォン10はインターネットに接続される。
 エンベデッドコントローラ46は、電力管理のためのコントローラを含むワンチップマイクロコンピュータである。エンベデッドコントローラ46は、図示しない電源ボタンの操作に応じてスマートフォン10を電源オンまたは電源オフする機能を有している。
 図3は、テキスト編集アプリケーションプログラム34dの機能構成を示すブロック図である。従来のスマートフォン等のタッチパネルを備えた情報処理装置では、タッチ操作により全ての操作が指示される。例えば、テキストの一部分をクリップボードに貼り付け、クリップボードの内容をある箇所に貼り付けるコピー&ペーストでは、コピー開始位置、コピー終了位置、貼り付け位置を指先またはスタイラスペン等のタッチにより指定する。しかし、指先またはスタイラスペン等で一点のみにタッチすることができず、実際にはある領域をタッチしてしまい、1文字、あるいは1単語のみを指定チすることは困難であり、複数の文字、あるいは単語が指定されてしまう。これらの複数文字、あるいは複数単語の中から所望の1文字あるいは1単語を特定するために、テキスト編集アプリケーションプログラム34dは音声認識を利用する。
 マイク42bから入力された音声信号は特徴量抽出モジュール72に供給され、音響分析される。音響分析は、入力された音声を分析(例えば、フーリエ解析)して、認識に有用な情報からなる特徴量に変換する。特徴量は、認識デコーダモジュール74に供給され、音響モデル記憶部82からの音響モデルを用いて認識される。音響モデル記憶部82には、特徴量の音響と発音記号との確率の非常に多くの対応関係が音響モデルとして記憶されている。
 本実施形態では、音響モデル記憶部82に記憶されている全ての音響モデルを使って音声認識をするのではなく、タッチパネル17b上の指先またはスタイラスペン等がタッチされた領域内の単語についての音響モデルのみを用いて音声認識をする。このため、音声認識の精度が上がるとともに、短時間で音声認識ができる。
 タッチパネル17bからタッチ領域に含まれる文字列の文字コードが文字グルーピングモジュール76に供給され、文字列が構造解析され、1つまたは複数の文字からなる文字グループ(例えば、文字、単語、文節等)毎に分類される。なお、単語、文節の一部分でもタッチ領域に含まれている場合は、当該単語、文節は全体がタッチ領域に含まれると判断される。文字グルーピングモジュール76で得られた複数の文字グループは候補文字グループ登録モジュール78に登録される。コード/発音記号変換モジュール80は、候補文字グループ登録モジュール78に登録されている文字グループの文字コード列を発音記号に変換する。音響モデル記憶部82は、コード/発音記号変換モジュール80で得られた発音記号を含む音響モデルを認識デコーダモジュール74に供給する。すなわち、認識デコーダモジュール74は文字コードに基づいて絞り込まれた音響モデルを用いて音声認識処理を実行するので、精度が向上する。
 図4、図5、図6を参照して、テキスト編集処理の流れを説明する。図4は、テキスト編集アプリケーションの処理の流れを示すフローチャートである。図5は、編集されるテキストの一例を示す図である。ここでは、1行目の“the”から5行目の“patent”までを11行目の“or”の直前に貼り付けたい場合を説明する。貼り付け位置は、ある単語の直前ではなく、直後と設定することもできる。例えば、行末に貼り付けたい場合は、貼り付け位置は行末の単語の直後となる。あるいは、2つの単語を特定し、その中間に貼り付けても良い。
 ブロック102でテキスト編集モードがオンされる。テキスト編集モードをオンする操作の一例としては、テキスト表示中にテキストの表示領域の任意の点を所定時間以上タッチし続ける(長押しする)操作がある。テキスト編集モードがオンすると、画面の上部にコピーボタン、カットボタン、ペーストボタンを含むテキスト編集メニューが表示される。選択部分をコピーするのかカットするのかに応じて、コピーボタン、カットボタンのいずれかをタッチする。ここでは、コピーボタンがタッチされ、コピー&ペースト操作が選ばれた場合を説明する。
 この後、ユーザは、図5に示すようにコピー部分の先頭(コピー開始位置)の単語“the”をタッチする(図4のブロック104のイエス)。しかし、指先またはスタイラスペン等でタッチすると、ある程度の面積の領域がタッチされてしまい、複数の単語が指定されてしまう。そこで、ブロック104で、タッチパネル17bがタッチされたことを検知すると、タッチ領域5sに(一部でも)含まれる単語(1つまたは複数の文字からなる文字グループ)を全てブロック106でハイライト表示するとともに、これらの単語を候補文字グループ登録モジュール78に開始文字グループ候補として登録する。図6(a)に示すように、“a”、“the”、“invention”、“others”、“in”、“this”の6つの単語がタッチ領域5sに含まれる開始位置の文字グループ候補となる。
 この後、ユーザは、コピー開始したい箇所の単語“the”を発音し、マイク42bから“the”の音声信号を入力する。ブロック106でこの音声入力を検知すると、ブロック106で登録された開始文字グループ候補に基づいて、この入力音声がブロック110で音声認識される。すなわち、“a”、“the”、“invention”、“others”、“in”、“this”の6つの候補単語の中から入力音声の特徴量に最も類似する単語が認識結果となる。このように認識対象を絞っているので、正確に入力音声を認識することができる。
 認識単語(“the”)の先頭位置をブロック112でコピー開始位置とする。
 次に、コピー終了位置を指定する。ユーザは、コピー開始位置を指定した後、指先またはスタイラスペン等をタッチしたままコピー部分の終了(コピー終了位置)の単語“patent”までドラッグし、その後指先またはスタイラスペン等をリリースする(図4のブロック114のイエス)。ブロック114で、指先またはスタイラスペン等がリリースされたことを検知すると、リリース時の指先またはスタイラスペンのタッチ領域5eに(一部でも)含まれる単語をブロック116でハイライト表示するとともに、これらの文字を候補文字グループ登録モジュール78に終了文字グループ候補として登録する。図6(b)に示すように、“the”、“invention”、“patent”、“or”の4つの単語がタッチ領域5eに含まれる終了位置の文字グループ候補となる。
 この後、ユーザは、コピー終了したい箇所の単語“patent”を発音し、マイク42bから“patent”の音声信号を入力する。ブロック118でこの音声入力を検知すると、ブロック116で登録された終了文字グループ候補に基づいて、この入力音声がブロック120で音声認識される。すなわち、“the”、“invention”、“patent”、“or”の4つの候補単語の中から入力音声の特徴量に最も類似する単語が認識結果となる。このように認識対象を絞っているので、正確に入力音声を認識することができる。
 認識単語(“patent”)の末尾位置をブロック122でコピー終了位置とする。コピー終了位置が決定されると、ブロック124で、コピー開始位置からコピー終了位置までのテキストがハイライト表示されるとともに、クリップボードに貼り付けられる。
 さらに、同様に貼り付け位置を設定する。ユーザは、図5に示すように貼り付け位置の先頭の単語“or”をタッチする(図4のブロック126のイエス)。ブロック128で、タッチパネル17bがタッチされたことを検知すると、タッチ領域5iに(一部でも)含まれる単語をブロック128でハイライト表示するとともに、これらの単語を候補文字グループ登録モジュール78に貼り付け位置文字グループ候補として登録する。図6(c)に示すように、“application”、“State”、“or”の3つの単語がタッチ領域5iに含まれる貼り付け位置の文字グループ候補となる。
 この後、ユーザは、貼り付けたい箇所の先頭の単語“or”の音声信号を入力する。ブロック130でこの音声入力を検知すると、ブロック128で登録された貼り付け位置文字グループ候補に基づいて、この入力音声がブロック132で音声認識される。すなわち、“application”、“states”、“or”の3つの候補単語の中から入力音声の特徴量に最も類似する単語が認識結果となる。このように認識対象を絞っているので、正確に入力音声を認識することができる。
 クリップボードの内容を、ブロック134で、認識単語(“or”)の直前に貼り付ける。なお、カット&ペーストの場合は、ブロック124でクリップボードに貼り付けた開始位置から終了位置までのテキスト部分は表示されているテキストから削除される点が違うのみで、他は同じである。
 以上説明したように、第1実施形態によれば、タッチパネルを備えた情報処理装置において、タッチ操作により指定された複数の単語の中から音声認識を利用して1つの所望の単語を特定することができる。従って、例えば、テキストの一部分をクリップボードに貼り付け、クリップボードの内容をある箇所に貼り付けるコピー&ペースト、カット&ペースト操作において、コピー開始位置/終了位置、貼り付け位置の単語をタッチ操作と音声認識処理により正確に指定することができる。
 なお、音声認識機能は選択的にオフすることができる。オフィス内等の静かさが要求される環境や、反対に騒々しい環境では、音声認識機能を使いにくいので、音声認識機能をオフすることが好ましい。
 以下、他の実施形態を説明する。他の実施形態の説明において第1の実施形態と同一部分は同一参照数字を付してその詳細な説明は省略する。
 第1実施形態は、英語テキストを編集する場合を想定したが、図7に示すように、日本語テキストを編集する場合も同様である。処理の流れは、図4のフローチャートと同じである。ただし、英語の場合は、文字列を単語単位に文字グループに分割したが、日本語の場合は、テキストの区切りとしては、単語単位よりも文節単位の方が容易にかつ適切に文字グループに分割できるので、文字グループは文節としてもよい。しかし、日本語の場合でも、単語単位に文字グループに分割してもよい。これらの設定は、ユーザが自由に変更できる。
 文字グループを文節とした場合は、図8(a)に示すように、“この”、“法律(ホウリツ)”、“利用(リヨウ)した”の3つの文節がタッチ領域5sに含まれる開始位置の文字グループ候補となる。ユーザは、コピー開始したい位置の文節“この”を発音することになる。図8(b)に示すように、“特許(トッキョ)”、“発明(ハツメイ)”、“発明(ハツメイ)を”、“いう”の4つの文節がリリース時の指先またはスタイラスペン等のタッチ領域5eに含まれる終了位置の文字グループ候補となる。ユーザは、コピー終了したい位置の文節“いう”を発音することになる。図8(c)に示すように、“1(イチ)”、“物(モノ)”の2つの文節がタッチ領域5iに含まれる貼り付け位置の文字グループ候補となる。ユーザは、貼り付けたい位置の文節“物(モノ)”を発音することになる。これにより、「この法律~発明をいう」を「物」の直前に貼り付けることができる。
 以上説明したように、第2の実施形態によれば、テキストが日本語であっても、タッチ&音声により、テキストの編集位置を正確に指定することができる。
 なお、情報処理装置の一例としてスマートフォンを説明したが、タッチパネルを有するものであれば良く、タブレットコンピュータ、ノートブック型パーソナルコンピュータ、PDA等でもよい。
 上記実施の形態ではクリップボードに貼り付けるテキストの範囲を指定するのに、開始位置にてタッチを開始し、終了位置まで指先またはスタイラスペン等の接触を継続させ、終了位置でタッチをリリースすることで、範囲を指定できる構成を示したが、これに限らず、開始位置をタッチし、一度指先またはスタイラスペン等が離れた後に、終了位置をタッチして範囲指定を行う構成であってもよい。つまり、長時間継続するタッチの開始の位置及び終了の位置に基づいて音声認識を行うのではなく、短時間タッチの位置に基づいて選択範囲の開始位置・終了位置を決定するための音声認識を実行するとしてもよい。
 タッチ操作し、タッチ領域に含まれる単語、文節をハイライト表示してから所望の単語、文節を音声入力したが、この逆でも良い。すなわち、所望の単語、文節を音声入力してから、当該単語、文節をタッチしても良い。この場合であっても、タッチによる範囲決定後に範囲内の単語等に基づいて音声認識を実行することで、高精度に音声認識処理を実行することができる。またこの際、ハイライト表示は省略してもよい。また、ドラッグにより終了位置を指定する場合も、リリースする前に、音声入力してもよい。
 また、タッチ範囲に含まれる文字列を1つまたは複数の文字からなる文字グループに分類されると、タッチ範囲全体をハイライト表示するとともに、あるいはその代わりに、文字グループの分類が識別できるように仕切りを表示すると、さらに、効果的である。すなわち、テキストが英語のみからなる場合は、文字グループである単語が明白であるが、日本語の場合、文節の区切りが明確ではない。例えば、図8の(b)の場合、「特許発明」を1文節と判断することもある。この場合は、「特許発明」は認識できない可能性が高い。しかし、文字グループの仕切り線が表示される、あるいは文字グループの塊が識別できるように表示されることにより、適切に開始位置、終了位置の文字グループを音声入力することができる。文節の識別表示の一例を図9に示す。
 なお、実施形態の動作制御処理の手順はコンピュータプログラムによって実現することができるので、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムを通常のコンバーチブルコンピュータにインストールして実行するだけで、実施形態と同様の効果を容易に実現することができる。
 なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

Claims (12)

  1.  映像を表示する表示部と、
     前記表示部上に設けられ、タッチを検出するタッチパネルと、
     前記タッチパネルが検出したタッチの位置に基づき音声認識処理を行なう音声認識手段と、
     を具備する情報処理装置。
  2.  前記音声認識手段は、前記検出されたタッチ位置近傍に表示された単語または文節を前記音声認識処理に用いる請求項1記載の情報処理装置。
  3.  前記音声認識手段は、前記検出されたタッチ位置近傍に表示された単語または文節を前記音声認識処理の候補として用いる請求項2記載の情報処理装置。
  4.  前記タッチパネルに表示されているテキストを編集する編集手段をさらに具備し、
     前記編集手段はコピー&ペースト機能またはカット&ペースト機能を備え、
     前記タッチパネルで表示されているテキスト内のコピーまたはカット開始位置、コピーまたはカット終了位置、貼り付け位置のいずれかがタッチ操作により指定されると、前記音声認識手段は、タッチ位置近傍の複数の単語または文節に基づいて前記開始位置、前記終了位置、または前記貼り付け位置の単語または文節を音声認識する請求項1記載の情報処理装置。
  5.  前記編集手段は、前記テキストのタッチ状態が所定時間以上継続すると、コピー、カット、ペーストを含む編集項目を示すメニューをタッチパネルに表示する請求項4記載の情報処理装置。
  6.  前記音声認識手段は、音声入力手段と、前記タッチ位置近傍の複数の単語または文節の中から前記音声入力手段により入力された音声信号に類似する単語または文節を判別する判別手段と、を具備する請求項1記載の情報処理装置。
  7.  前記タッチパネルで表示されているテキストにおいて前記タッチ位置近傍のテキストを識別可能に表示する表示手段をさらに具備する請求項1記載の情報処理装置。
  8.  前記タッチ位置近傍の複数の文節を、該複数の文節の区切りが識別可能になるように、表示する手段をさらに具備する請求項1記載の情報処理装置。
  9.  前記判別手段は、前記音声入力手段により入力された音声信号の特徴量を求める解析手段と、複数の音響モデルを記憶する記憶手段と、前記記憶手段内の複数の音響モデルの中の前記タッチ領域に含まれる複数の単語または文節に関係する音響モデルと前記音声信号の特徴量とに基づいて音声認識する手段と、を具備する請求項6記載の情報処理装置。
  10.  前記タッチパネルは情報処理装置本体の表側のほぼ全面に重なって設けられ、
     前記タッチパネルは、液晶表示部と、該液晶表示部の表示画面に重なって設けられ、該液晶表示部の表示画面のタッチ位置を検出するタッチセンサとを具備する請求項1記載の情報処理装置。
  11.  タッチパネルのタッチ位置に基づき音声認識処理を行なう情報処理方法。
  12.  コンピュータにより実行されるプログラムであって、前記プログラムは前記コンピュータをタッチパネルのタッチ位置に基づき音声認識処理を行なわせるものであるプログラム。
PCT/JP2013/058115 2012-12-26 2013-03-21 情報処理装置、情報処理方法及びプログラム WO2014103355A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/017,657 US20140180698A1 (en) 2012-12-26 2013-09-04 Information processing apparatus, information processing method and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012283546A JP2014127040A (ja) 2012-12-26 2012-12-26 情報処理装置、情報処理方法及びプログラム
JP2012-283546 2012-12-26

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/017,657 Continuation US20140180698A1 (en) 2012-12-26 2013-09-04 Information processing apparatus, information processing method and storage medium

Publications (1)

Publication Number Publication Date
WO2014103355A1 true WO2014103355A1 (ja) 2014-07-03

Family

ID=51020465

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/058115 WO2014103355A1 (ja) 2012-12-26 2013-03-21 情報処理装置、情報処理方法及びプログラム

Country Status (2)

Country Link
JP (1) JP2014127040A (ja)
WO (1) WO2014103355A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6672399B2 (ja) * 2018-08-13 2020-03-25 Dynabook株式会社 電子機器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05181839A (ja) * 1992-06-05 1993-07-23 Casio Comput Co Ltd カナ漢字変換装置
JPH09114579A (ja) * 1995-10-23 1997-05-02 Hitachi Ltd 指差呼称確認システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05181839A (ja) * 1992-06-05 1993-07-23 Casio Comput Co Ltd カナ漢字変換装置
JPH09114579A (ja) * 1995-10-23 1997-05-02 Hitachi Ltd 指差呼称確認システム

Also Published As

Publication number Publication date
JP2014127040A (ja) 2014-07-07

Similar Documents

Publication Publication Date Title
US10866785B2 (en) Equal access to speech and touch input
CN108829235B (zh) 语音数据处理方法和支持该方法的电子设备
US10777193B2 (en) System and device for selecting speech recognition model
US9354842B2 (en) Apparatus and method of controlling voice input in electronic device supporting voice recognition
EP3195101B1 (en) Gesture shortcuts for invocation of voice input
KR102084041B1 (ko) 펜 기능 운용 방법 및 시스템
US9595238B2 (en) Electronic device, cover for electronic device, and method of performing a function in an electronic device
KR101474854B1 (ko) 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법
KR102249054B1 (ko) 온스크린 키보드에 대한 빠른 작업
KR101474856B1 (ko) 음성인식을 통해 이벤트를 발생시키기 위한 장치 및 방법
JP5837955B2 (ja) 電子装置の機能の実行方法及びその電子装置
KR20080045142A (ko) 네비게이션 인터페이스를 통해 컴퓨팅 시스템에 텍스트를입력하기 위한 방법 및 컴퓨터 판독가능 매체
MX2014002955A (es) Entrada de formula para dispositivos de presentacion limitada.
US9851802B2 (en) Method and apparatus for controlling content playback
EP3610479B1 (en) Electronic apparatus for processing user utterance
KR101166292B1 (ko) 터치스크린을 이용한 한글 입력 방법, 기록매체, 한글 입력 장치 및 이를 포함하는 모바일 기기
US20140210729A1 (en) Gesture based user interface for use in an eyes-free mode
US9563337B2 (en) Information processing device, method for controlling an information processing device, and program
US20150370473A1 (en) Using a symbol recognition engine
US20140215339A1 (en) Content navigation and selection in an eyes-free mode
US20140180698A1 (en) Information processing apparatus, information processing method and storage medium
CN104077105A (zh) 一种信息处理方法以及一种电子设备
KR101447879B1 (ko) 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법
CA2899452A1 (en) Methods, systems and devices for interacting with a computing device
WO2014103355A1 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13867219

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13867219

Country of ref document: EP

Kind code of ref document: A1