[go: up one dir, main page]

WO2015156011A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2015156011A1
WO2015156011A1 PCT/JP2015/051570 JP2015051570W WO2015156011A1 WO 2015156011 A1 WO2015156011 A1 WO 2015156011A1 JP 2015051570 W JP2015051570 W JP 2015051570W WO 2015156011 A1 WO2015156011 A1 WO 2015156011A1
Authority
WO
WIPO (PCT)
Prior art keywords
input
text content
text
voice
information processing
Prior art date
Application number
PCT/JP2015/051570
Other languages
English (en)
French (fr)
Inventor
真一 河野
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP15777401.9A priority Critical patent/EP3131093B1/en
Priority to US15/120,371 priority patent/US10074366B2/en
Publication of WO2015156011A1 publication Critical patent/WO2015156011A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Definitions

  • This disclosure relates to an information processing apparatus, an information processing method, and a program.
  • Patent Document 1 a voice recognition technique for improving the accuracy of the text acquired from the voice has been studied (for example, Patent Document 1). ).
  • the processing unit includes a processing unit that acquires text content as an analysis result of the input speech and displays the text content on the display unit, and the processing unit receives the first speech input and the first text content analyzed. Is acquired and displayed on the display unit, the second text content as the analysis result of the second voice input received in a state where the first text content is displayed is acquired and displayed on the display unit, and the user's An information processing apparatus is provided that determines the second text content as an input text according to an operation or a predetermined condition.
  • the first text content is acquired as an analysis result of the first voice input and displayed on the display unit, and the second voice received in a state where the first text content is displayed.
  • Information including acquiring second text content as an input analysis result and displaying the second text content on a display unit; confirming the second text content as input text according to a user operation or a predetermined condition; A processing method is provided.
  • the computer acquires the first text content as the analysis result of the first voice input and displays the first text content on the display unit, and the first text content received in a state where the first text content is displayed.
  • a program for executing a process including the above is provided.
  • the analysis result of the voice input is displayed as text and can be used for the next voice input, leading the user to a state where the user can speak with a voice that can be easily recognized and finally confirmed as the input text. Can be made.
  • FIG. 14 is an explanatory diagram illustrating a display example at the time of voice input according to an embodiment of the present disclosure.
  • FIG. It is a functional block diagram which shows the function structure of the information processing apparatus which concerns on the embodiment.
  • FIG. 1 is an explanatory diagram showing a display example during voice input according to the present embodiment.
  • the information processing apparatus displays a result of analyzing the input voice when the user inputs a voice, and guides the user to a state where the user can speak with a voice that can be easily recognized.
  • the information processing apparatus causes the display unit 20 to display the text content of the voice as a result of analyzing the voice acquired by the microphone 30 in the information processing terminal 10 as shown in FIG.
  • the user can know whether the voice is recognized as intended, and can be used for the next voice input.
  • voice input can be used for draft input before inputting a sentence to be finally input.
  • the user utters and inputs speech content, assuming the sentence that the user wants to finally input.
  • this draft input it is not always necessary to input a sentence, and it may be a word or a keyword.
  • voice input is made, for example, as shown in the upper side of FIG. 1, the result of analysis is displayed in the first input display area 43 of the display unit 20.
  • the display content of the first input display area 43 can be used as a reference for the text that the user wants to input.
  • the user performs the next voice input while viewing the display content of the first input display area 43.
  • the user can utter while looking at the draft input content, so that the user can utter a sentence to be input more smoothly.
  • the voice input analysis result is displayed in the second input display area 45, for example, as shown in the lower side of FIG.
  • the text displayed in the second input display area 45 may be displayed so that the same part as the text displayed in the first input display area 43 can be recognized.
  • the analysis result of the voice input is displayed as text and can be used for the next voice input, thereby leading the user to a state where the voice can be spoken easily.
  • relatively long sentences such as documents and e-mails
  • the configuration and function of the information processing apparatus according to the present embodiment will be described in detail.
  • FIG. 2 is a functional block diagram illustrating a functional configuration of the information processing apparatus 100 according to the present embodiment.
  • the information processing apparatus 100 performs a process of receiving input information from the user and providing an analysis result of the input information to the user.
  • the information processing apparatus 100 is a processing apparatus used for, for example, a wearable device such as a smartphone, a tablet terminal, a head-mounted display or a glassware terminal, a television, a projector apparatus, or the like.
  • the information processing apparatus 100 includes an operation input unit 110, a voice input unit 120, an information processing unit 130, a display processing unit 140, and a display unit 150, as shown in FIG.
  • the operation input unit 110 is a functional unit that receives device operation inputs from the user.
  • the operation input unit 110 is various input devices such as a touch sensor, a button, and a dial.
  • the operation input information input from the operation input unit 110 is output to the information processing unit 130.
  • the voice input unit 120 is a functional unit that acquires voice, and is, for example, a microphone.
  • the voice input unit 120 may switch between a voice acquisition state in which voice can be acquired and a stop state in which voice is not acquired based on a user operation analyzed by the information processing unit 130 receiving and analyzing the operation input information. .
  • a voice acquisition state may be set upon activation of a predetermined application.
  • the voice acquired by the voice input unit 120 is output to the voice processing server 200, and voice recognition processing is performed by the voice recognition processing unit 210.
  • the information processing unit 130 processes information input to the information processing apparatus 100 and outputs it to other functional units.
  • the information processing unit 130 analyzes operation input information, identifies an operation performed by the user on the information processing apparatus 100, and causes other functional units such as the voice input unit 120 and the display unit 150 to execute processing. . More specifically, for example, the information processing unit 130 switches the voice acquisition state and the stop state of the voice input unit 120, or displays text displayed as a voice analysis result according to a user operation or a predetermined condition. Processing such as editing and confirmation of contents.
  • the information processing unit 130 receives a result of the voice recognition processing by the voice processing server 200 and a result of the operation input information, and performs a process of determining a display method when displaying the text content of the voice on the display unit 150. Do. When displaying the text content of the voice input on the display unit 150, the information processing unit 130 displays, for example, the text content of the first input voice and the text content of the next input voice in parallel. Also good. Further, when there is a corresponding word or sentence between the text content of the first input speech and the text content of the next input speech, the information processing unit 130 displays information indicating the correspondence relationship. May be.
  • the information processing unit 130 performs display processing for displaying the text content of the voice on the display unit 150 after performing the above-described processing in response to the result of the voice recognition processing by the voice processing server 200. 140. Further, the information processing unit 130 can change the display content of the display unit 150 in the display control unit 140 according to the result of analyzing the operation input information.
  • the display processing unit 140 receives an input from the information processing unit 130 and performs processing for displaying information on the display unit 150.
  • the display processing unit 140 causes the display unit 150 to display the text content of the voice input and additional information related to the text content.
  • the display unit 150 is a display device that displays display information from the display processing unit 140, and is, for example, a liquid crystal display or an organic EL display. Note that the information processing apparatus 100 does not necessarily include the display unit 150. For example, in the case of a projector device or the like, the display unit 150 may not be provided.
  • the information processing apparatus 100 performs voice recognition processing of the voice acquired by the voice processing server 200 connected via the network.
  • the present disclosure is not limited to such an example, and the speech recognition processing unit 210 may be provided in the information processing apparatus 100.
  • a known technique may be used as a speech recognition method performed by the speech recognition processing unit 210 of the speech processing server 200.
  • the voice recognition processing unit 210 receives voice input and outputs the text content recognized from the voice to the information processing apparatus 100.
  • the accuracy of the text content as voice recognition may be output to the information processing apparatus 100 together with the text content.
  • the information processing unit 130 of the information processing apparatus 100 may indicate the accuracy of the text content when displaying the text content. For example, by highlighting a text with low accuracy, it is possible to notify the user of a content that is highly likely to be wrong in voice recognition, and can be used for the next voice input.
  • FIG. 3 is a flowchart illustrating an example of the voice input process according to the present embodiment.
  • voice is acquired by the voice input unit 120 (S100).
  • the voice input unit 120 Upon receiving the voice input, the voice input unit 120 outputs the voice to the voice processing server 200, and converts the voice into text by voice recognition processing (S110).
  • the voice processing server 200 outputs the text content acquired as the analysis result of the voice recognition process to the information processing apparatus 100.
  • the information processing unit 130 Upon receiving the voice text content from the voice processing server 200, the information processing unit 130 causes the display unit 150 to display the text content via the display control unit 140 (S120). At this time, the information processing unit 130 may display the text content of the first input voice and the text content of the next input voice on the display unit 150 in parallel. Further, when there is a corresponding word or sentence between the text content of the first input speech and the text content of the next input speech, the information processing unit 130 displays information indicating the correspondence relationship. May be. By performing such display, it is easy for the user to perform voice input.
  • the user looks at the text content of the displayed voice and confirms whether or not the content is the content to be input (S130). If the text content is the intended content, for example, the displayed text content is confirmed and used as the input text. On the other hand, when the text content is not the intended content, the process returns to step S100, and the user inputs the voice again. At this time, the user can speak while looking at the text content obtained at the time of the previous voice input, so that the voice can be input more smoothly than the previous time.
  • steps S100 to S130 may be repeated until, for example, the user confirms the text content in step S130.
  • the information processing apparatus 100 receives the voice input, displays the text content recognized by receiving the voice input on the display unit 150, and presents it to the user. This leads to a state where it is easy to perform voice input. Thereby, the user can perform voice input with fewer voice recognition errors.
  • Text content display example during voice input> Hereinafter, based on FIGS. 4 to 11, display examples of text contents when voice input is performed by the information processing apparatus 100 described above will be described. Below, the case where the information processing apparatus 100 is applied to the character input software which is one function of the information processing terminal 10 provided with the display part 20 and the microphone 30 is demonstrated.
  • the display unit 20 of the information processing terminal 10 is a touch panel and has a function as the operation input unit 110.
  • FIG. 4 shows an example of contents to be input by voice.
  • the first input is a word or sentence related to a sentence that the user wants to finally input.
  • a word or sentence serving as a reference for inputting a sentence to be finally input is input.
  • the second input is, for example, a sentence that the user wants to finally input.
  • the second input is input by voice while looking at the text content of the first input.
  • the first input is a draft input (hereinafter also referred to as “rough input”) for inputting a sentence to be finally input
  • the second input is an input that is finally performed (hereinafter “clean text input”). It is also called.)
  • the information processing apparatus 100 makes it easy for the user to input the content that the user wants to input by allowing the user to input a clear text while viewing the text content of the rough input after the rough input is performed. .
  • the voice input process by the character input software in the information processing terminal 10 is started, for example, when the user touches the microphone icon 41 displayed on the display unit 20.
  • the microphone 30 that is the voice input unit 120 is in a voice acquisition state.
  • the information processing apparatus 100 receives voice input, causes the voice processing server 200 to perform voice recognition processing, and acquires text content as a result.
  • the information processing unit 130 of the information processing apparatus 100 that has acquired the text content instructs the display processing unit 140 to display the text content in the first text display area 43, for example, as illustrated in FIG.
  • the first input is performed as rough input of a sentence that the user wants to finally input.
  • the information processing unit 130 may change the display text unit of the text content in the first text display area 43 according to each text unit (for example, a word, a phrase, and a sentence) inputted by voice.
  • the information processing unit 130 may acquire the intermediate result of the speech recognition process from the speech processing server 200 together with the text content of the first input, and display the content in the additional information display area 44. By displaying the result of the speech recognition process, it is possible to feed back to the user how the spoken content is recognized, and how to speak in order to be recognized correctly for the next speech input. can do.
  • the information processing unit 130 acquires one or more text candidates recognized in the speech recognition processing from the speech processing server 200 together with the text content of the first input, and adds the additional information display area.
  • the contents may be displayed on 44.
  • the information processing unit 130 is shown in FIG. 7 in order to make it easy to understand the correspondence between the intermediate results of the speech recognition process shown in FIG. 5 and the text candidates shown in FIG. 6 and the text contents of the first input.
  • the corresponding parts may be surrounded by the objects 43a and 44a.
  • the objects 43a and 44a in FIG. 7 have a balloon shape, the object representing the correspondence relationship is not limited to this example, and for example, the corresponding texts may be surrounded by the same type of frame.
  • the corresponding text may be indicated by the same character color or font, or underlined by the same line type.
  • the display method of the text content acquired as a result of the speech analysis may be set in advance in the information processing apparatus 100 or may be set based on a user operation.
  • the second text display area 45 may be arranged side by side with the first text display area 43, for example, as shown in FIG. By arranging the text display areas 43 and 45 in this way, it becomes easy to compare the text contents acquired from the first input voice and the second input voice. Note that the arrangement of the text display areas 43 and 45 is not limited to this example, and may be determined as appropriate according to the ease of viewing the text, the shape of the display area of the display unit 20, and the like.
  • the information processing unit 130 acquires one or more text candidates recognized in the speech recognition processing from the speech processing server 200 together with the text content of the second input, and obtains the second additional information.
  • the contents may be displayed in the display area 46.
  • the information processing unit 130 may acquire and display an intermediate result of the speech recognition process together with the text content of the second input.
  • the information processing unit 130 surrounds the corresponding portions with objects 45a and 46a as shown in FIG. 10 in order to make the correspondence between the text candidates shown in FIG. 9 and the text contents of the second input easy to understand. May be indicated.
  • the shapes of the objects 45a and 46a in FIG. 10 can be set as appropriate, similarly to the objects 43a and 44a shown in FIG.
  • the corresponding text may be indicated by the same character color or font, or underlined by the same line type.
  • the information processing unit 130 may notify the user of how much of the text content of the first text display area 43 of rough input is included in the text content of the second text display area 45.
  • the information processing unit 130 emphasizes words and sentences included in the text contents of the first text display area 43 with respect to the text contents of the second text display area 45 so that the display is easy to understand for the user.
  • Change the display method. Text emphasis can be performed by, for example, character modification such as painting around the character, changing the character font or character color, or underlining the character. In FIG. 10, the character is highlighted by drawing an underline 45b.
  • the user can easily grasp how much the content of the first input is included in the content of the second input, and intuitively whether the content of the second input is intended. It becomes possible to judge.
  • the information processing unit 130 may replace the text contents in the second text display area 45 and the text candidates in the second additional information display area 46 based on a user operation input. For example, as shown in FIG. 11, the text with the object 45a added in the second text display area 45 (“Tomorrow at 6am in Shinagawa”) and the text candidate with the object 46a added in the second additional information display area 46 ("Tomorrow is 16:00 in Shinagawa”).
  • the user moves the object to the position of the object 45a while touching the object 46a displayed on the display unit 20, for example.
  • the information processing unit 130 instructs the display processing unit 140 to display the text contents of the object 45a and the object 46a interchanged. Thereby, it can correct to the intended content, without performing voice input again.
  • the user performs an operation input to confirm the text content as the input text.
  • an operation input for example, when the text content as the analysis result is displayed on the display unit 20, a confirmation button (not shown) for executing a process for confirming the text content is also displayed, and a touch on the confirmation button is performed.
  • the operation may be a text content confirmation operation.
  • the text content as the analysis result of the speech input most recently may be determined as the input text.
  • the predetermined condition for confirming the text content as the input text include, for example, an input of a voice command from the user such as “input this” or a case where the user shakes his / her head vertically by an acceleration sensor or gyro sensor. There are times when it is detected. Also, for example, when a predetermined time has elapsed since the last displayed text content is displayed, or when it is detected that the user has looked at a predetermined position for a certain time or more by eye gaze detection.
  • the user when the user wants to input text content different from the text content in the second text display area 45, the user operates the microphone icon 41 again and performs voice input with the microphone 30 in the voice acquisition state. At this time, by displaying the text contents in the first text display area 43 and the text contents in the second text display area 45, the user can more easily perform voice input. Note that it is not necessary to display all the text contents for the past voice input. For example, only the text contents of the last n voice inputs may be displayed.
  • the confirmed input text may be output as input text to various applications.
  • the various applications include mail, messenger, social media service (SNS) application, calendar, schedule management application, and notebook application. That is, the input text input by voice is used as a mail or a messenger sentence or memo.
  • SNS social media service
  • the speech input process according to the present embodiment is applied, the text content as a speech analysis result is displayed, and the user can perform the next utterance while viewing the text content, so when inputting a relatively long sentence Furthermore, it becomes easier for the user to input text.
  • the operation input performed by the user from the operation input unit 110 such as changing the microphone 30 to the voice acquisition state or confirming the text content varies depending on the information processing terminal 10.
  • the information processing terminal 10 provided with touch sensors, such as a smart phone and a tablet terminal, it can touch a touch sensor and can perform operation input.
  • a wearable device such as a head-mounted display or a glassware terminal
  • an operation input by the user to select display contents by line of sight, an operation input from an operation unit provided in the wearable device, or the like may be used.
  • voice input operations such as “up” and “down” are also possible.
  • gesture input for selecting display contents by a user's gesture operation input performed by detecting head movement such as facing right or left using the detection result of the acceleration sensor, and the like are used. You can also.
  • the text content obtained as a result of the speech recognition process of the first input is displayed in the first text display area 43 as shown in FIG.
  • the intermediate result of the speech recognition process may be displayed in the additional information display area 44, and text candidates and the like are displayed in the additional information display area 44 as shown in FIG. You may let them.
  • the text content obtained as a result of the speech recognition process of the second input is displayed in the second text display area 45 as shown in FIG. Is displayed.
  • the intermediate result of the speech recognition process, text candidates, and the like may be displayed in the second additional information display area 46a.
  • the display unit 52 may display the result of the voice recognition processing of the microphone icon or the input voice as in the layout shown in FIG.
  • the microphone icon can be operated by an operation input by a line of sight, an operation unit of the glassware terminal 50, a head movement, or the like.
  • the information processing apparatus 100 receives the input voice, acquires the text content as a result of the voice recognition process, and displays it on the display unit 52.
  • the user can be guided to a state where voice input is easy to be made and finally confirmed as input text.
  • the processing by the information processing apparatus 100 according to the above embodiment can be executed by hardware, or can be executed by software.
  • the information processing apparatus 100 can also be configured as shown in FIG.
  • a hardware configuration example of the information processing apparatus 100 will be described with reference to FIG.
  • the information processing apparatus 100 can be realized by a processing apparatus such as a computer as described above. As shown in FIG. 17, the information processing apparatus 100 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, a RAM (Random Access Memory) 903, and a host bus 904a. The information processing apparatus 100 also includes a bridge 904, an external bus 904b, an interface 905, an input device 906, an output device 907, a storage device (HDD) 908, a drive 909, a connection port 911, and a communication device. 913.
  • a processing apparatus such as a computer as described above.
  • the information processing apparatus 100 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, a RAM (Random Access Memory) 903, and a host bus 904a.
  • the information processing apparatus 100 also includes a bridge 904, an external bus 904b, an interface 905, an input device 906, an output device 907, a storage device (HDD) 908, a
  • the CPU 901 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the information processing apparatus 100 according to various programs. Further, the CPU 901 may be a microprocessor.
  • the ROM 902 stores programs used by the CPU 901, calculation parameters, and the like.
  • the RAM 903 temporarily stores programs used in the execution of the CPU 901, parameters that change as appropriate during the execution, and the like. These are connected to each other by a host bus 904a including a CPU bus.
  • the host bus 904a is connected to an external bus 904b such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 904.
  • an external bus 904b such as a PCI (Peripheral Component Interconnect / Interface) bus
  • PCI Peripheral Component Interconnect / Interface
  • the host bus 904a, the bridge 904, and the external bus 904b are not necessarily separated from each other, and these functions may be mounted on one bus.
  • the input device 906 includes an input means for inputting information by the user such as a mouse, keyboard, touch panel, button, microphone, switch, and lever, and an input control circuit that generates an input signal based on the input by the user and outputs the input signal to the CPU 901. Etc.
  • the output device 907 includes, for example, a liquid crystal display (LCD) device, an OLED (Organic Light Emitting Diode) device and a display device such as a lamp, and an audio output device such as a speaker.
  • LCD liquid crystal display
  • OLED Organic Light Emitting Diode
  • the storage device 908 is an example of a storage unit of the information processing apparatus 100, and is a data storage device.
  • the storage device 908 may include a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, a deletion device that deletes data recorded on the storage medium, and the like.
  • the storage device 908 is composed of, for example, an HDD (Hard Disk Drive).
  • the storage device 908 drives a hard disk and stores programs executed by the CPU 901 and various data.
  • the drive 909 is a storage medium reader / writer, and is built in or externally attached to the information processing apparatus 100.
  • the drive 909 reads information recorded on a mounted removable recording medium such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and outputs the information to the RAM 903.
  • the connection port 911 is an interface connected to an external device, and is a connection port with an external device capable of transmitting data by USB (Universal Serial Bus), for example.
  • the communication device 913 is a communication interface configured by a communication device or the like for connecting to the communication network 5, for example.
  • the communication device 913 may be a wireless LAN (Local Area Network) compatible communication device, a wireless USB compatible communication device, or a wire communication device that performs wired communication.
  • the configuration and function of the information processing apparatus 100 according to the present embodiment have been described above.
  • the information processing apparatus 100 displays the analysis result of the voice input as text and makes it available for the next voice input, thereby guiding the user to a state where the voice can be spoken easily. Since the user can speak while looking at the text that helps voice input, the user can speak while organizing the contents to be input immediately. In addition, it is possible to derive a state in which voice recognition is likely to produce an expected result, and it is possible to reduce stagnation and unnecessary words from the input voice. As a result, voice input with few mistakes can be guided.
  • the voice recognition processing result in text and feeding it back to the user, it is possible to grasp the voice recognition function defect before inputting the written text. It is possible to guide voice input that does not become necessary.
  • the user can grasp in advance the failure status in the speech environment, and can induce speech input that does not fail, such as making the speaker speak loudly in the presence of noise. .
  • the user can quickly confirm whether the text is desired to be input.
  • the text content analyzed by receiving the voice input is displayed, and the text content of the voice input received in a state where the text content is displayed is displayed to become the content intended by the user.
  • the input text to be confirmed may be, for example, other than the text content of the most recent voice input.
  • the text content of the previous voice input may be determined as the final input text.
  • the information processing apparatus 130 may record the text content as the voice analysis result in a memory (not shown) in accordance with a user operation or a predetermined condition.
  • the text content recorded in the memory can be used as draft information of the input text, for example, by appropriately reading and using it from various applications.
  • a processing unit that acquires text content as an analysis result of input speech and displays the text content on a display unit
  • the processor is The first text content analyzed by receiving the first voice input is acquired and displayed on the display unit, Acquiring the second text content as an analysis result of the second voice input received in a state where the first text content is displayed, and displaying the second text content on the display unit;
  • An information processing apparatus that determines the second text content as an input text according to a user operation or a predetermined condition.
  • the information processing apparatus causes the display unit to display input candidates predicted from the first text content together with the first text content.
  • the processing unit causes the display unit to display information indicating a correspondence relationship between the first text content and an input candidate predicted from the first text content.
  • Information processing device (5) The information according to (3) or (4), wherein the processing is performed by switching the first text content displayed on the display unit and the input candidates based on a user operation input. Processing equipment. (6) The information processing apparatus according to any one of (1) to (5), wherein the processing unit displays the first text content with emphasis according to the accuracy of speech recognition.
  • the information processing apparatus according to item 1. If the content of the second text is not confirmed as the input text, the processing unit may use the analysis result of repeated speech input until the input text is confirmed according to a user operation or a predetermined condition.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声入力を行う際に、音声認識しやすい音声で発話できる状態にユーザを導く情報処理装置を提供する。 【解決手段】入力された音声の解析結果としてテキスト内容を取得し、表示部に表示させる処理部を備え、処理部は、第1の音声入力を受けて解析された第1のテキスト内容を取得して表示部に表示させ、第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して表示部に表示させ、ユーザの操作あるいは所定の条件に応じて、第2のテキスト内容を入力テキストとして確定する、情報処理装置が提供される。

Description

情報処理装置、情報処理方法およびプログラム
 本開示は、情報処理装置、情報処理方法およびプログラムに関する。
 音声入力する内容を事前に脳内で全て整理して発話を完全なものとするのは難しい。音声入力することを意識していたとしても、音声入力時には音声認識を失敗する可能性の高い音声で発話しやすくなる。例えば、「うーー、あーー」、「Uh-Huh」等の言いよどみや、言い間違い、無意識に入る不要な言葉、音声認識が不得意とする認識失敗しやすい単語等を用いて発話すると、音声認識を失敗する可能性が高くなる。
 このように、入力された音声から意図するテキストを取得することは難しいことから、音声から取得されるテキストの精度を高めるための音声認識技術について検討がされ続けている(例えば、特許文献1等)。
特開2006-146008号公報
 ところで、従来の音声認識システムにおいては、発話中に「お話し下さい」とUIで表示されているものが多い。しかし、このような表示がされてもユーザが音声認識しやすい発話ができるようにはならない。話す内容の原稿が存在する状態であればユーザはすらすらと話せるが、原稿が手元にない状態ではすらすら話すのは通常難しく、上述のような音声認識が失敗しやすい音声を発話する傾向が強くなる。
 音声認識が失敗しやすい音声で発話した場合、音声認識は期待しない結果を返すことが多い。その結果、修正の手間が発生することでユーザへの負担が増えたり、音声入力を使いたいというユーザのモチベーションを維持することが難しくなったりする。また人間の特性上、ある一定以上の長い文章を一挙に発話する、つまり覚えておいて発話することは大変難しい。
 そこで、音声入力を行う際に、音声認識しやすい音声で発話できる状態にユーザを導くことが求められていた。
 本開示によれば、入力された音声の解析結果としてテキスト内容を取得し、表示部に表示させる処理部を備え、処理部は、第1の音声入力を受けて解析された第1のテキスト内容を取得して表示部に表示させ、第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して表示部に表示させ、ユーザの操作あるいは所定の条件に応じて、第2のテキスト内容を入力テキストとして確定する、情報処理装置が提供される。
 また、本開示によれば、第1の音声入力の解析結果として第1のテキスト内容を取得して表示部に表示させること、第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して表示部に表示させること、ユーザの操作あるいは所定の条件に応じて、第2のテキスト内容を入力テキストとして確定すること、を含む、情報処理方法が提供される。
 さらに、本開示によれば、コンピュータに、第1の音声入力の解析結果として第1のテキスト内容を取得して表示部に表示させること、第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して表示部に表示させること、ユーザの操作あるいは所定の条件に応じて、第2のテキスト内容を入力テキストとして確定すること、を含む処理を実行させるためのプログラムが提供される。
 本開示によれば、音声入力の解析結果をテキスト表示させ、次の音声入力に活用できるようにすることで、音声認識しやすい音声で発話できる状態にユーザを導き、最終的に入力テキストとして確定させることができる。
 以上説明したように本開示によれば、音声入力を行う際に、音声認識しやすい音声で発話できる状態にユーザを導くことができる。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る音声入力時の一表示例を示す説明図である。 同実施形態に係る情報処理装置の機能構成を示す機能ブロック図である。 同実施形態に係る音声入力処理の一例を示すフローチャートである。 音声入力内容の一例を示す説明図である。 第1テキスト表示領域に第1入力のテキスト内容が表示された状態の一例を示す説明図である。 第1入力のテキスト内容とともに、テキスト候補が表示された状態の一例を示す説明図である。 第1入力のテキスト内容とテキスト候補との対応関係を示した状態の一例を示す説明図である。 第2テキスト表示領域に第2入力のテキスト内容が表示された状態の一例を示す説明図である。 第2入力のテキスト内容とともに、テキスト候補が表示された状態の一例を示す説明図である。 第2入力のテキスト内容とテキスト候補との対応関係を示した状態の一例を示す説明図である。 第2テキスト表示領域のテキスト内容と第2付加情報表示領域のテキスト候補とを入れ替えた状態の一例を示す説明図である。 英語による音声入力内容の一例を示す説明図である。 英語による音声入力時に、第1テキスト表示領域に第1入力のテキスト内容が表示された状態の一例を示す説明図である。 英語による音声入力時に、第1入力のテキスト内容とともに、テキスト候補が表示された状態の一例を示す説明図である。 英語による音声入力時に、第2テキスト表示領域に第2入力のテキスト内容が表示されるとともに、テキスト候補が表示された状態の一例を示す説明図である。 グラスウェア端末の表示部へのテキスト内容の表示例を示す説明図である。 同実施形態に係る情報処理装置のハードウェア構成例を示すハードウェア構成図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.音声入力の概要
 2.情報処理装置の構成
 3.音声入力処理
 4.音声入力時のテキスト内容表示例
  4.1.日本語による音声入力例
  4.2.英語による音声入力例
  4.3.グラスウェア端末でのテキスト内容表示例
 5.ハードウェア構成例
 6.まとめ
 <1.音声入力の概要>
 まず、図1を参照して、本開示の一実施形態に係る情報処理装置による音声入力時の表示処理の概要を説明する。図1は、本実施形態に係る音声入力時の一表示例を示す説明図である。
 本実施形態に係る情報処理装置は、ユーザによる音声入力時に、入力された音声を解析した結果を表示して、音声認識しやすい音声で発話できる状態にユーザを導く。例えば情報処理装置は、図1に示すような情報処理端末10において、マイク30により取得された音声を解析した結果として、表示部20に音声のテキスト内容を表示させる。情報処理装置により入力した音声の音声認識の結果をユーザにフィードバックすることで、ユーザは意図した通りに認識されたかを知ることができ、次の音声入力に活用することができる。
 例えば、音声入力を、最終的に入力したい文章を入力する前の下書き入力に活用することができる。まず、ユーザが、最終的に入力したい文章を想定して骨子となる内容を発話し音声入力する。この下書き入力では、必ずしも文章を入力する必要はなく、単語やキーワード等であってもよい。音声入力がなされると、例えば図1上側に示すように、これを解析した結果が表示部20の第1入力表示領域43に表示される。第1入力表示領域43の表示内容は、ユーザが入力したい文章の参考として利用できる。
 次いで、ユーザは、第1入力表示領域43の表示内容を見ながら次の音声入力を行う。この際、ユーザは、下書き入力内容を見て発話できるので、よりスムーズに入力したい文章を発話できる。この音声入力の解析結果は、例えば図1下側に示すように、第2入力表示領域45に表示される。このとき、第2入力表示領域45に表示されたテキストのうち、第1入力表示領域43に表示されているテキストと同一部分がわかるような表示にしてもよい。
 このように、音声入力の解析結果をテキスト表示させ、次の音声入力に活用できるようにすることで、音声認識しやすい音声で発話できる状態にユーザを導く。例えば、文書やメール等、比較的長い文章を入力する際に、簡単な内容から音声入力し、その後、当該音声入力のテキスト内容を見ながら正確な文章を入力することができるので、音声入力が行い易くなる。以下、本実施形態に係る情報処理装置の構成とその機能について、詳細に説明していく。
 <2.情報処理装置の構成>
 まず、図2に基づいて、本実施形態に係る情報処理装置100の機能構成について説明する。なお、図2は、本実施形態に係る情報処理装置100の機能構成を示す機能ブロック図である。情報処理装置100は、ユーザから入力情報を受け、入力情報の解析結果をユーザに提供する処理を行う。情報処理装置100は、例えばスマートフォンやタブレット端末、ヘッドマウントディスプレイやグラスウェア端末等のウェアラブル機器、テレビ、プロジェクタ装置等に用いられる処理装置である。
 本実施形態に係る情報処理装置100は、図2に示すように、操作入力部110と、音声入力部120と、情報処理部130と、表示処理部140と、表示部150とからなる。
 操作入力部110は、ユーザから機器の操作入力を受ける機能部である。操作入力部110は、例えば、タッチセンサやボタン、ダイヤル等の各種入力装置である。操作入力部110から入力された操作入力情報は、情報処理部130へ出力される。
 音声入力部120は、音声を取得する機能部であって、例えばマイク等である。音声入力部120は、例えば情報処理部130が操作入力情報を受けて解析したユーザの操作に基づいて、音声を取得可能な音声取得状態と音声を取得しない停止状態とを切り替えるようにしてもよい。あるいは、所定のアプリケーションの起動を受けて音声取得状態とするようにしてもよい。音声入力部120により取得された音声は、音声処理サーバ200へ出力され、音声認識処理部210により音声認識処理が行われる。
 情報処理部130は、情報処理装置100に入力された情報を処理して他の機能部へ出力する。情報処理部130は、例えば、操作入力情報を解析して情報処理装置100に対してユーザが行った操作を特定し、音声入力部120や表示部150等の他の機能部に処理を実行させる。より具体的には、例えば、情報処理部130は、音声入力部120の音声取得状態と停止状態とを切り替えたり、ユーザの操作あるいは所定の条件に応じて、音声の解析結果として表示されたテキスト内容の編集、確定等の処理を行ったりする。
 また、情報処理部130は、音声処理サーバ200による音声認識処理の結果や操作入力情報の処理結果を受けて、音声のテキスト内容を表示部150に表示させる際の表示の仕方を決定する処理を行う。情報処理部130は、音声入力のテキスト内容を表示部150に表示させる際に、例えば、最初に入力された音声のテキスト内容と次に入力された音声のテキスト内容とを並列して表示させてもよい。また、情報処理部130は、最初に入力された音声のテキスト内容と次に入力された音声のテキスト内容との間に対応する単語や文章がある場合にはその対応関係を示す情報を表示させてもよい。
 このように、情報処理部130は、音声処理サーバ200による音声認識処理の結果を受けて上述の処理を行った後、音声のテキスト内容を表示部150に表示させるための表示処理を表示処理部140に行わせる。また、情報処理部130は、操作入力情報を解析した結果に応じて、表示制御部140に表示部150の表示内容を変更することも可能である。
 表示処理部140は、情報処理部130からの入力を受けて、情報を表示部150に表示させるための処理を行う。表示処理部140は、音声入力のテキスト内容や当該テキスト内容に関する付加情報を表示部150に表示させる。
 表示部150は、表示処理部140からの表示情報を表示する表示装置であって、例えば液晶ディスプレイや有機ELディスプレイ等である。なお、情報処理装置100は、表示部150を必ずしも備えなくともよい。例えば、プロジェクタ装置等の場合には、表示部150は設けなくともよい。
 また、本実施形態に係る情報処理装置100は、図2に示すように、ネットワークを介して接続された音声処理サーバ200によって取得した音声の音声認識処理を行っている。しかし、本開示はかかる例に限定されず、情報処理装置100に音声認識処理部210を設けてもよい。
 また、音声処理サーバ200の音声認識処理部210により行われる音声認識の手法は、周知の技術を用いてもよい。音声認識処理部210は、音声の入力を受けて、当該音声から認識されたテキスト内容を情報処理装置100へ出力する。この際、単語や句、文等の所定のテキスト単位毎に、テキスト内容の音声認識としての確度を当該テキスト内容と合わせて情報処理装置100へ出力するようにしてもよい。この場合、情報処理装置100の情報処理部130は、テキスト内容を表示させる際に、テキスト内容の確度を示すようにしてもよい。例えば、確度の低いテキストを強調表示することで、ユーザに対して音声認識が誤っている可能性の高い内容を通知することができ、次の音声入力に活用することができるようになる。
 <3.音声入力処理>
 次に、図3に基づき、本実施形態に係る情報処理装置100による音声入力処理について説明する。なお、図3は、本実施形態に係る音声入力処理の一例を示すフローチャートである。
 本実施形態に係る音声入力処理は、図3に示すように、まず、音声入力部120により音声を取得する(S100)。音声入力部120は、音声入力を受けると、音声処理サーバ200へ音声を出力し、音声認識処理によって音声をテキストに変換する(S110)。音声処理サーバ200は、音声認識処理の解析結果として取得したテキスト内容を、情報処理装置100へ出力する。
 音声処理サーバ200から音声のテキスト内容を受けると、情報処理部130は、表示制御部140を介して当該テキスト内容を表示部150に表示させる(S120)。この際、情報処理部130は、表示部150に最初に入力された音声のテキスト内容と次に入力された音声のテキスト内容とを並列して表示させてもよい。また、情報処理部130は、最初に入力された音声のテキスト内容と次に入力された音声のテキスト内容との間に対応する単語や文章がある場合にはその対応関係を示す情報を表示させてもよい。このような表示を行うことで、ユーザが音声入力を行い易くしている。
 表示部150にテキスト内容が表示されると、例えばユーザは、表示された音声のテキスト内容を見て、当該内容が入力したい内容であるか否かを確認する(S130)。テキスト内容が意図する内容であれば、例えば表示されたテキスト内容を入力テキストとして確定して利用する。一方、テキスト内容が意図する内容となっていない場合には、ステップS100の処理に戻り、ユーザは再び音声を入力する。この際、ユーザは、前回の音声入力時に得られたテキスト内容を見ながら発話することができるので、前回よりスムーズに音声入力を行うことができる。
 ステップS100~S130の処理は、例えばステップS130にてユーザがテキスト内容を確定するまで繰り返し行ってもよい。このように、本実施形態に係る情報処理装置100は、音声入力を受けて、当該音声入力を受けて認識されたテキスト内容を表示部150に表示してユーザに提示することで、ユーザが次の音声入力を行い易い状態に導く。これにより、ユーザは、より音声認識の誤りが少ない音声入力を行うことができる。
 <4.音声入力時のテキスト内容表示例>
 以下、図4~図11に基づいて、上述の情報処理装置100により音声入力を行った時のテキスト内容の表示例について説明する。以下では、表示部20とマイク30とを備える情報処理端末10の一機能である文字入力ソフトウェアに情報処理装置100を適用した場合について説明する。情報処理端末10の表示部20はタッチパネルとなっており、操作入力部110としての機能も備えている。
 [4.1.日本語による音声入力例]
 (A.第1入力)
 まず、図4に、音声入力したい内容の例を示す。図4において、第1入力は、ユーザが最終的に入力したい文章に関連する単語や文等である。図4の例では、最終的に入力したい文章を入力するための参考となる単語や文を入力するとする。そして、第2入力は、例えばユーザが最終的に入力したい文章である。第2入力は、第1入力のテキスト内容を見ながら音声入力される。
 すなわち、第1入力は最終的に入力したい文章を入力するための下書き入力(以下、「ラフ入力」ともいう。)であり、第2入力は最終的に行われる入力(以下、「清書入力」ともいう。)である。本実施形態に係る情報処理装置100は、ラフ入力が行われた後、ユーザにラフ入力のテキスト内容を見ながら清書入力を行わせることで、ユーザが入力したい内容を入力しやすいようにしている。
 情報処理端末10での文字入力ソフトウェアによる音声入力処理は、例えば、表示部20に表示されたマイクアイコン41をユーザがタッチすることで開始される。マイクアイコン41へタッチされたことが検出されると、音声入力部120であるマイク30が音声取得状態となる。
 マイク30が音声取得状態となった後、ユーザにより、図4の第1入力の内容が音声入力されたとする。このとき、情報処理装置100は、音声入力を受けて、音声処理サーバ200に音声認識処理を実行させ、その結果としてテキスト内容を取得する。テキスト内容を取得した情報処理装置100の情報処理部130は、表示処理部140に対して、例えば図5に示すように、第1テキスト表示領域43にテキスト内容を表示させるよう指示する。第1入力は、ユーザが最終的に入力したい文章のラフ入力として行われる。このとき、情報処理部130は、音声入力されたテキスト単位(例えば、単語、句、文章)毎に応じて、第1テキスト表示領域43のテキスト内容の表示テキスト単位を変更させてもよい。
 この際、情報処理部130は、第1入力のテキスト内容とともに、音声処理サーバ200から音声認識処理の途中結果を取得して、付加情報表示領域44にその内容を表示させてもよい。音声認識処理の途中結果を表示することで、発話した内容がどのように認識されるのかをユーザにフィードバックでき、次の音声入力に正しく音声認識されるためにどのように発話したらよいか参考とすることができる。
 また、情報処理部130は、図6に示すように、第1入力のテキスト内容とともに、音声処理サーバ200から音声認識処理において認識された1または複数のテキスト候補を取得して、付加情報表示領域44にその内容を表示させてもよい。音声認識処理のテキスト候補を表示することによっても、発話した内容がどのように認識されるのかをユーザにフィードバックでき、次の音声入力に正しく音声認識されるためにどのように発話したらよいか参考とすることができる。
 さらに、情報処理部130は、図5に示した音声認識処理の途中結果や図6に示したテキスト候補と、第1入力のテキスト内容との対応関係をわかりやすくするために、図7に示すようなオブジェクト43a、44aで対応する部分を囲んで示してもよい。図7のオブジェクト43a、44aは吹き出し形状であるが、対応関係を表すオブジェクトはかかる例に限定されず、例えば対応するテキスト同士を同一種類の枠で囲んでもよい。また、オフジェク以外にも、対応するテキスト同士を同一の文字の色やフォントで示したり、同一線種で下線を付したりして関連性を表してもよい。
 このような音声の解析結果として取得されたテキスト内容の表示の仕方は、情報処理装置100にて予め設定されていてもよく、ユーザの操作に基づき設定されてもよい。
 (B.第2入力)
 第1入力のテキスト内容が第1テキスト表示領域43に表示されると、ユーザは、再びマイクアイコン41にタッチしてマイク30を音声取得状態にする。そして、ユーザは、第1テキスト表示領域43に表示されたテキスト内容を見ながら、ユーザが最終的に入力したい情報(すなわち、図4の第2入力の内容)を発話する。情報処理装置100は、第1入力のときと同様、音声を音声処理サーバ200に出力して音声認識処理を実行させ、その結果としてテキスト内容を取得する。テキスト内容を取得した情報処理装置100の情報処理部130は、例えば、図8に示すように、第2テキスト表示領域45にテキスト内容を表示する。
 第2テキスト表示領域45は、例えば図8に示すように、第1テキスト表示領域43と上下に並べて配置してもよい。このようにテキスト表示領域43、45を配置することで、第1入力の音声と第2入力の音声とから取得されたテキスト内容を比較しやすくなる。なお、テキスト表示領域43、45の配置は、かかる例に限定されず、テキストの見やすさや表示部20の表示領域の形状等に応じて適宜決定してもよい。
 また、情報処理部130は、図9に示すように、第2入力のテキスト内容とともに、音声処理サーバ200から音声認識処理において認識された1または複数のテキスト候補を取得して、第2付加情報表示領域46にその内容を表示させてもよい。音声認識処理のテキスト候補を表示することによっても、発話した内容がどのように認識されるのかをユーザにフィードバックでき、次の音声入力に正しく音声認識されるためにどのように発話したらよいか参考とすることができる。なお、第1入力のときと同様に、情報処理部130は、第2入力のテキスト内容とともに、音声認識処理の途中結果を取得して表示させるようにしてもよい。
 さらに、情報処理部130は、図9に示したテキスト候補と、第2入力のテキスト内容との対応関係をわかりやすくするために、図10に示すようなオブジェクト45a、46aで対応する部分を囲んで示してもよい。図10のオブジェクト45a、46aも、図7に示したオブジェクト43a、44aと同様、その形状は適宜設定可能である。また、オフジェク以外にも、対応するテキスト同士を同一の文字の色やフォントで示したり、同一線種で下線を付したりして関連性を表してもよい。
 また、情報処理部130は、第2テキスト表示領域45のテキスト内容については、ラフ入力の第1テキスト表示領域43のテキスト内容がどの程度含まれているかをユーザに通知するようにしてもよい。例えば、情報処理部130は、第2テキスト表示領域45のテキスト内容に対して、第1テキスト表示領域43のテキスト内容に含まれている単語や文を強調してユーザにわかりやすい表示となるように表示の仕方を変更させる。テキストの強調は、例えば、文字周囲を塗りつぶしたり、文字フォントや文字色を変更したり、文字に下線を引いたりする等の文字修飾により行うことができる。図10では、文字に下線45bを引いて強調表示している。
 これにより、ユーザは、第2入力の内容に第1入力の内容がどの程度含まれているかを容易に把握することができ、第2入力の内容が意図するものであるかどうか、直観的に判断することが可能となる。
 さらに、情報処理部130は、ユーザの操作入力に基づいて、第2テキスト表示領域45のテキスト内容と第2付加情報表示領域46のテキスト候補とを入れ替えるようにしてもよい。例えば図11に示すように、第2テキスト表示領域45においてオブジェクト45aが付されたテキスト(「明日 品川で6時から」)と、第2付加情報表示領域46においてオブジェクト46aが付されたテキスト候補(「明日は品川で16時から」)とがある。このとき、テキスト候補の内容を採用したい場合、ユーザは、例えば表示部20に表示されているオブジェクト46aにタッチした状態でオブジェクト45aの位置に移動させる。かかる操作入力を受けて、情報処理部130は、オブジェクト45aとオブジェクト46aとのテキスト内容を入れ替えて表示するように表示処理部140に指示する。これにより、音声入力を再度行うことなく意図する内容に修正することができる。
 その後、第2テキスト表示領域45のテキスト内容が入力したい内容となっていれば、ユーザは、当該テキスト内容を入力テキストとして確定する操作入力を行う。この入力操作は、例えば解析結果としてのテキスト内容を表示部20に表示させる際に、テキスト内容を確定させる処理を実行させる確定ボタン(図示せず。)も表示させるようにし、確定ボタンへのタッチ操作をテキスト内容の確定操作としてもよい。
 あるいは、情報処理部130が所定の条件を満たしたと判定したとき、直近で入力された音声の解析結果としてのテキスト内容を入力テキストとして確定してもよい。テキスト内容を入力テキストとして確定させる所定の条件としては、例えば、「これを入力」等のユーザからの音声コマンドの入力を受けたときや、加速度センサあるいはジャイロセンサによりユーザが首を縦に振ったことを検知したとき等がある。また、例えば最後に表示されたテキスト内容が表示されてから所定の時間経過したときや、視線検出によりユーザが所定位置を一定時間以上見ていることが検知されたとき等がある。
 一方、第2テキスト表示領域45のテキスト内容とは異なるテキスト内容を入力したい場合等は、ユーザは、再びマイクアイコン41を操作してマイク30を音声取得状態として音声入力を行う。この際、第1テキスト表示領域43のテキスト内容および第2テキスト表示領域45のテキスト内容を表示させておくことで、ユーザは音声入力をより行い易くなる。なお、過去の音声入力に対するテキスト内容をすべて表示させておく必要はなく、例えば直近n回の音声入力のテキスト内容のみ表示させるようにしてもよい。
 確定された入力テキストは、各種アプリケーションに入力テキストとして出力させてもよい。各種アプリケーションとしては、例えば、メールやメッセンジャー、ソーシャルメディアサービス(SNS)アプリ、カレンダー、スケジュール管理アプリ、ノートブックアプリ等がある。すなわち、音声により入力された入力テキストが、メールやのメッセンジャーの文やメモとして利用される。本実施形態に係る音声入力処理を適用すると、音声の解析結果としてのテキスト内容が表示され、ユーザはこのテキスト内容を見ながら次の発話を行うことができるので、比較的長い文章を入力する際に、よりユーザがテキスト入力を行い易くなる。
 以上、本実施形態に係る情報処理装置100による音声入力処理の一例を説明した。なお、上述の説明において、マイク30を音声取得状態にしたり、テキスト内容を確定したりする等、ユーザが操作入力部110から行う操作入力は、情報処理端末10に応じて変化する。例えば、スマートフォンやタブレット端末等のようなタッチセンサを備える情報処理端末10であれば、タッチセンサに接触して操作入力を行うことができる。また、ヘッドマウンドディスプレイやグラスウェア端末等のウェアラブル機器であれば、ユーザが視線により表示内容を選択する操作入力や、ウェアラブル機器に設けられた操作部からの操作入力等を用いてもよい。さらに、“上”、“下”等の音声入力操作も可能である。また、ユーザのジェスチャにより表示内容を選択するジェスチャ入力や、加速度センサの検出結果を利用して、例えば右を向く、左を向くといったような頭の動きを検出して行う操作入力等を用いることもできる。
 [4.2.英語による音声入力例]
 上述の音声入力処理の例は、言語に寄らず同様に行うことができる。例えば、図12に示すように、音声入力の言語が英語であっても、上述と同様に、ラフ入力として第1入力を行い、清書入力として第2入力を行うことができる。
 第1入力が行われると、図13に示すように、第1テキスト表示領域43に第1入力の音声認識処理の結果として得られたテキスト内容が表示される。このとき、第1テキスト表示領域43のテキスト内容とともに、付加情報表示領域44に音声認識処理の途中結果を表示させてもよく、図14に示すように付加情報表示領域44にテキスト候補等を表示させてもよい。
 また、第1入力のテキスト内容を見て、第2入力が行われると、図15に示すように、第2テキスト表示領域45に第2入力の音声認識処理の結果として得られたテキスト内容が表示される。このとき、第2テキスト表示領域45のテキスト内容とともに、第2付加情報表示領域46aに音声認識処理の途中結果やテキスト候補等を表示させてもよい。
 [4.3.グラスウェア端末でのテキスト内容表示例]
 上述の説明では、スマートフォンやタブレット端末等のような情報処理端末10におけるテキスト表示例について説明したが、他の機器においても同様に、入力された音声の音声認識処理の結果を表示することができる。例えば、図16に示すようなグラスウェア端末50において、表示部52には、図1に示したレイアウトのように、マイクアイコンや入力された音声の音声認識処理の結果を表示してもよい。この場合、マイクアイコンは、上述したように、視線やグラスウェア端末50の操作部、頭の動き等による操作入力により操作することができる。
 この場合にも、情報処理装置100は、入力された音声を受けて、音声認識処理の結果としてテキスト内容を取得し、表示部52に表示させる。これにより、音声入力をし易い状態にユーザを導き、最終的に入力テキストとして確定させることができる。
 <5.ハードウェア構成例>
 上記実施形態に係る情報処理装置100による処理は、ハードウェアにより実行させることもでき、ソフトウェアによって実行させることもできる。この場合、情報処理装置100は、図17に示すように構成することもできる。以下、図17に基づいて、情報処理装置100のハードウェア構成例について説明する。
 情報処理装置100は、上述したように、コンピュータ等の処理装置により実現することができる。情報処理装置100は、図17に示すように、CPU(Central Processing Unit)901と、ROM(Read Only Memory)902と、RAM(Random Access Memory)903と、ホストバス904aとを備える。また、情報処理装置100は、ブリッジ904と、外部バス904bと、インタフェース905と、入力装置906と、出力装置907と、ストレージ装置(HDD)908と、ドライブ909と、接続ポート911と、通信装置913とを備える。
 CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置100内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバス904aにより相互に接続されている。
 ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、一のバスにこれらの機能を実装してもよい。
 入力装置906は、マウス、キーボード、タッチパネル、ボタン、マイク、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU901に出力する入力制御回路などから構成されている。出力装置907は、例えば、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置や、スピーカなどの音声出力装置を含む。
 ストレージ装置908は、情報処理装置100の記憶部の一例であり、データ格納用の装置である。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置908は、例えば、HDD(Hard Disk Drive)で構成される。このストレージ装置908は、ハードディスクを駆動し、CPU901が実行するプログラムや各種データを格納する。
 ドライブ909は、記憶媒体用リーダライタであり、情報処理装置100に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体に記録されている情報を読み出して、RAM903に出力する。
 接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。また、通信装置913は、例えば、通信網5に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置913は、無線LAN(Local Area Network)対応通信装置であっても、ワイヤレスUSB対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
 <6.まとめ>
 以上、本実施形態に係る情報処理装置100の構成とその機能について説明した。情報処理装置100は、音声入力の解析結果をテキスト表示させ、次の音声入力に活用できるようにすることで、音声認識しやすい音声で発話できる状態にユーザを導く。ユーザは音声入力の助けとなるテキストを見ながら発話可能であるため、入力したい内容を即座に整理しながら話すことができる。また、音声認識が期待通りの結果になりやすい状態を導くことができ、入力される音声から言いよどみや不要語を減らすことができる。結果として、間違いの少ない音声入力を誘導できる。
 さらに、音声認識処理の結果をテキスト表示してユーザにフィードバックすることで、音声認識機能の癖を清書入力よりも前に把握できるので、「っ」などの促音を減らす等、意図しない認識結果にならないような音声入力を誘導できる。期待通りにならなかった音声認識結果をユーザが見ることで、その発話環境での失敗状況を事前に把握することができ、雑音がある中で大きく話させるなど失敗しないような音声入力を誘導できる。また、音声認識の間違い状況そのものをユーザへ提示できる効果もある。
 また、清書入力において、ラフ入力との一致箇所を強調表示する等することで、ユーザは入力したかった文章かどうかを素早く確認できる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上記実施形態では、音声入力を受けて解析されたテキスト内容を表示させ、そのテキスト内容を表示させた状態で受けた音声入力のテキスト内容を表示させ、ユーザが意図する内容となったものを最終的な入力テキストとして確定した。この確定される入力テキストは、例えば、直近の音声入力のテキスト内容以外であってもよく、例えばその前の音声入力のテキスト内容を最終的な入力テキストとして確定できるようにしてもよい。また、情報処理装置130は、音声の解析結果としてのテキスト内容を、ユーザの操作や所定の条件に応じて、メモリ(図示せず。)に記録させてもよい。メモリに記録されたテキスト内容は、各種アプリケーションから適宜読み出して利用可能とすることで、例えば、入力テキストの下書き情報として利用することができる。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)入力された音声の解析結果としてテキスト内容を取得し、表示部に表示させる処理部を備え、
 前記処理部は、
 第1の音声入力を受けて解析された第1のテキスト内容を取得して前記表示部に表示させ、
 前記第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して前記表示部に表示させ、
 ユーザの操作あるいは所定の条件に応じて、前記第2のテキスト内容を入力テキストとして確定する、情報処理装置。
(2)前記処理部は、前記第1のテキスト内容の解析途中結果を、前記第1のテキスト内容とともに前記表示部に表示させる、前記(1)に記載の情報処理装置。
(3)前記処理部は、前記第1のテキスト内容から予測される入力候補を、前記第1のテキスト内容とともに前記表示部に表示させる、前記(1)に記載の情報処理装置。
(4)前記処理部は、前記第1のテキスト内容と、前記第1のテキスト内容から予測される入力候補との対応関係を示す情報を前記表示部に表示させる、前記(3)に記載の情報処理装置。
(5)前記処理は、ユーザの操作入力に基づき、前記表示部に表示された前記第1のテキスト内容と前記入力候補とを入れ替えて表示させる、前記(3)または(4)に記載の情報処理装置。
(6)前記処理部は、前記第1のテキスト内容を、音声認識の確度に応じて強調して表示させる、前記(1)~(5)のいずれか1項に記載の情報処理装置。
(7)前記処理部は、入力された前記第1の音声入力のテキスト単位毎に応じて、前記第1のテキスト内容の表示テキスト単位を変更する、前記(1)~(6)のいずれか1項に記載の情報処理装置。
(8)前記処理部は、前記第2のテキスト内容が入力テキストとして確定されなかった場合、ユーザの操作あるいは所定の条件に応じて入力テキストが確定されるまで、繰り返し音声入力の解析結果としてのテキスト内容を取得して前記表示部に表示させる、前記(1)~(7)のいずれか1項に記載の情報処理装置。
(9)第1の音声入力の解析結果として第1のテキスト内容を取得して表示部に表示させること、
 前記第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して前記表示部に表示させること、
 ユーザの操作あるいは所定の条件に応じて、前記第2のテキスト内容を入力テキストとして確定すること、
を含む、情報処理方法。
(10)コンピュータに、
 第1の音声入力の解析結果として第1のテキスト内容を取得して表示部に表示させること、
 前記第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して前記表示部に表示させること、
 ユーザの操作あるいは所定の条件に応じて、前記第2のテキスト内容を入力テキストとして確定すること、
を含む処理を実行させるためのプログラム。
 100  情報処理装置
 110  操作入力部
 120  音声入力部
 130  情報処理部
 140  表示処理部
 150  表示部
 200  音声処理サーバ
 210  音声認識処理部
 

Claims (10)

  1.  入力された音声の解析結果としてテキスト内容を取得し、表示部に表示させる処理部を備え、
     前記処理部は、
     第1の音声入力を受けて解析された第1のテキスト内容を取得して前記表示部に表示させ、
     前記第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して前記表示部に表示させ、
     ユーザの操作あるいは所定の条件に応じて、前記第2のテキスト内容を入力テキストとして確定する、情報処理装置。
  2.  前記処理部は、前記第1のテキスト内容の解析途中結果を、前記第1のテキスト内容とともに前記表示部に表示させる、請求項1に記載の情報処理装置。
  3.  前記処理部は、前記第1のテキスト内容から予測される入力候補を、前記第1のテキスト内容とともに前記表示部に表示させる、請求項1に記載の情報処理装置。
  4.  前記処理部は、前記第1のテキスト内容と、前記第1のテキスト内容から予測される入力補との対応関係を示す情報を前記表示部に表示させる、請求項3に記載の情報処理装置。
  5.  前記処理部は、ユーザの操作入力に基づき、前記表示部に表示された前記第1のテキスト内容と前記入力候補とを入れ替えて表示させる、請求項3に記載の情報処理装置。
  6.  前記処理部は、前記第1のテキスト内容を、音声認識の確度に応じて強調して表示させる、請求項1に記載の情報処理装置。
  7.  前記処理部は、入力された前記第1の音声入力のテキスト単位毎に応じて、前記第1のテキスト内容の表示テキスト単位を変更する、請求項1に記載の情報処理装置。
  8.  前記処理部は、前記第2のテキスト内容が入力テキストとして確定されなかった場合、ユーザの操作あるいは所定の条件に応じて入力テキストが確定されるまで、繰り返し音声入力の解析結果としてのテキスト内容を取得して前記表示部に表示させる、請求項1に記載の情報処理装置。
  9.  第1の音声入力の解析結果として第1のテキスト内容を取得して表示部に表示させること、
     前記第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して前記表示部に表示させること、
     ユーザの操作あるいは所定の条件に応じて、前記第2のテキスト内容を入力テキストとして確定すること、
    を含む、情報処理方法。
  10.  コンピュータに、
     第1の音声入力の解析結果として第1のテキスト内容を取得して表示部に表示させること、
     前記第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して前記表示部に表示させること、
     ユーザの操作あるいは所定の条件に応じて、前記第2のテキスト内容を入力テキストとして確定すること、
    を含む処理を実行させるためのプログラム。
     
PCT/JP2015/051570 2014-04-08 2015-01-21 情報処理装置、情報処理方法およびプログラム WO2015156011A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP15777401.9A EP3131093B1 (en) 2014-04-08 2015-01-21 Information processing device, information processing method, and program
US15/120,371 US10074366B2 (en) 2014-04-08 2015-01-21 Information processing device, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-079310 2014-04-08
JP2014079310 2014-04-08

Publications (1)

Publication Number Publication Date
WO2015156011A1 true WO2015156011A1 (ja) 2015-10-15

Family

ID=54287593

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/051570 WO2015156011A1 (ja) 2014-04-08 2015-01-21 情報処理装置、情報処理方法およびプログラム

Country Status (3)

Country Link
US (1) US10074366B2 (ja)
EP (1) EP3131093B1 (ja)
WO (1) WO2015156011A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230305680A1 (en) * 2020-08-13 2023-09-28 Huawei Technologies Co., Ltd. Method for invoking capability of another device, electronic device, and system

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD738889S1 (en) * 2013-06-09 2015-09-15 Apple Inc. Display screen or portion thereof with animated graphical user interface
US11157075B2 (en) * 2018-05-01 2021-10-26 Dell Products, L.P. Gaze-activated voice services for interactive workspaces
JP2020009395A (ja) * 2018-07-05 2020-01-16 聡子 荻原 タブレット

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1155614A (ja) * 1997-08-04 1999-02-26 Casio Comput Co Ltd 音声認識画像処理装置
JP2001306091A (ja) * 2000-04-26 2001-11-02 Nec Software Kobe Ltd 音声認識システムおよび単語検索方法
JP2005037615A (ja) * 2003-07-18 2005-02-10 Omron Corp クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体
JP2005228178A (ja) * 2004-02-16 2005-08-25 Nec Corp 書き起こしテキスト作成支援システムおよびプログラム
JP2009538444A (ja) * 2006-05-25 2009-11-05 マルチモダル テクノロジーズ,インク. 音声認識方法
JP2010139826A (ja) * 2008-12-12 2010-06-24 Toyota Motor Corp 音声認識システム
JP2011002656A (ja) * 2009-06-18 2011-01-06 Nec Corp 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
JP2012226220A (ja) * 2011-04-21 2012-11-15 Ntt Docomo Inc 音声認識装置、音声認識方法及び音声認識プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6937984B1 (en) * 1998-12-17 2005-08-30 International Business Machines Corporation Speech command input recognition system for interactive computer display with speech controlled display of recognized commands
US9042867B2 (en) * 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
US9361883B2 (en) * 2012-05-01 2016-06-07 Microsoft Technology Licensing, Llc Dictation with incremental recognition of speech
KR20130135410A (ko) * 2012-05-31 2013-12-11 삼성전자주식회사 음성 인식 기능을 제공하는 방법 및 그 전자 장치
KR101992191B1 (ko) * 2012-11-01 2019-06-24 엘지전자 주식회사 이동 단말기 및 그 제어방법
KR102023008B1 (ko) * 2012-12-10 2019-09-19 엘지전자 주식회사 음성-텍스트 변환 디스플레이 장치 및 그 방법
JP6178198B2 (ja) * 2013-09-30 2017-08-09 株式会社東芝 音声翻訳システム、方法およびプログラム
US10389876B2 (en) * 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
EP2947861B1 (en) * 2014-05-23 2019-02-06 Samsung Electronics Co., Ltd System and method of providing voice-message call service
US10446143B2 (en) * 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1155614A (ja) * 1997-08-04 1999-02-26 Casio Comput Co Ltd 音声認識画像処理装置
JP2001306091A (ja) * 2000-04-26 2001-11-02 Nec Software Kobe Ltd 音声認識システムおよび単語検索方法
JP2005037615A (ja) * 2003-07-18 2005-02-10 Omron Corp クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体
JP2005228178A (ja) * 2004-02-16 2005-08-25 Nec Corp 書き起こしテキスト作成支援システムおよびプログラム
JP2009538444A (ja) * 2006-05-25 2009-11-05 マルチモダル テクノロジーズ,インク. 音声認識方法
JP2010139826A (ja) * 2008-12-12 2010-06-24 Toyota Motor Corp 音声認識システム
JP2011002656A (ja) * 2009-06-18 2011-01-06 Nec Corp 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
JP2012226220A (ja) * 2011-04-21 2012-11-15 Ntt Docomo Inc 音声認識装置、音声認識方法及び音声認識プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230305680A1 (en) * 2020-08-13 2023-09-28 Huawei Technologies Co., Ltd. Method for invoking capability of another device, electronic device, and system

Also Published As

Publication number Publication date
US10074366B2 (en) 2018-09-11
EP3131093A1 (en) 2017-02-15
EP3131093A4 (en) 2017-12-06
US20170069319A1 (en) 2017-03-09
EP3131093B1 (en) 2021-05-12

Similar Documents

Publication Publication Date Title
JP6710740B2 (ja) 提案される音声ベースのアクションクエリの提供
US10551915B2 (en) Gaze based text input systems and methods
EP3408733B1 (en) Keyboard with a suggested search query region
US20170263248A1 (en) Dictation that allows editing
JP6140668B2 (ja) 携帯電話のタッチスクリーンとの使用等のためのマルチモーダルテキスト入力システム
KR102402397B1 (ko) 다중 입력 관리를 위한 시스템 및 방법
US20090326938A1 (en) Multiword text correction
KR101474854B1 (ko) 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법
WO2018118172A1 (en) Iconographic symbol predictions for a conversation
US20140207453A1 (en) Method and apparatus for editing voice recognition results in portable device
US20160139877A1 (en) Voice-controlled display device and method of voice control of display device
US20140297276A1 (en) Editing apparatus, editing method, and computer program product
WO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
Ouyang et al. Mobile keyboard input decoding with finite-state transducers
CN106814909A (zh) 使用包括语音识别单元的用于飞行器的人机界面装置的方法
WO2015156011A1 (ja) 情報処理装置、情報処理方法およびプログラム
US11899904B2 (en) Text input system with correction facility
CN113378530A (zh) 语音编辑方法及装置、设备和介质
US11900931B2 (en) Information processing apparatus and information processing method
US20170293678A1 (en) Adaptive redo for trace text input
JPWO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
US20140359434A1 (en) Providing out-of-dictionary indicators for shape writing

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15777401

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15120371

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2015777401

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2015777401

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP