[go: up one dir, main page]

JP7495220B2 - Voice recognition device, voice recognition method, and voice recognition program - Google Patents

Voice recognition device, voice recognition method, and voice recognition program Download PDF

Info

Publication number
JP7495220B2
JP7495220B2 JP2019207512A JP2019207512A JP7495220B2 JP 7495220 B2 JP7495220 B2 JP 7495220B2 JP 2019207512 A JP2019207512 A JP 2019207512A JP 2019207512 A JP2019207512 A JP 2019207512A JP 7495220 B2 JP7495220 B2 JP 7495220B2
Authority
JP
Japan
Prior art keywords
speech
information
utterance
user
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019207512A
Other languages
Japanese (ja)
Other versions
JP2021081527A (en
Inventor
光洋 高波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2019207512A priority Critical patent/JP7495220B2/en
Publication of JP2021081527A publication Critical patent/JP2021081527A/en
Application granted granted Critical
Publication of JP7495220B2 publication Critical patent/JP7495220B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声認識装置、音声認識方法、および、音声認識プログラムに関する。 The present invention relates to a voice recognition device, a voice recognition method, and a voice recognition program.

技術革新の進歩により、入力された音声をテキストに変換する技術等の精度も向上し、コミュニケーション手段の拡張性が高まっている。 Advances in technological innovation have improved the accuracy of technologies that convert input voice into text, making communication methods more scalable.

特表2012-510088号公報JP 2012-510088 A 特開2019-60921号公報JP 2019-60921 A 特開2012-003162号公報JP 2012-003162 A

しかし、音声入力については、入力する際の環境への依存度が高く、必要なコミュニケーションに支障をきたす場合がある。例えば、1.公共の場所等、ユーザが大きな声を出せない環境下での音声入力、2.風邪等の体調不良時や聞き取りにくい声質のユーザによる音声入力、3.幹線道路、イベント会場等、周囲の音が大きい場所での音声入力、4.発声障がい等を持つユーザによる音声入力等が行われると、入力された音声を精度よく認識できない場合がある。その結果、高度なコミュニケーションツールを活用できないケースが存在する。 However, voice input is highly dependent on the environment at the time of input, and may impede necessary communication. For example, voice input may not be recognized accurately in the following cases: 1. Voice input in an environment where the user cannot speak loudly, such as a public place; 2. Voice input by a user who is unwell due to a cold or whose voice is difficult to hear; 3. Voice input in places with loud ambient noise, such as a main road or event venue; 4. Voice input by a user with a speech disorder. As a result, there are cases where advanced communication tools cannot be utilized.

そこで、本発明は、前記した問題を解決し、音声の認識精度を向上させることを課題とする。 Therefore, the objective of the present invention is to solve the above problems and improve the accuracy of voice recognition.

前記した課題を解決するため、本発明は、ユーザがささやき声で発話するときの前記ユーザの口の動きを示す情報および前記ユーザの音声情報を含む発話情報を取得する第1の取得部と、前記第1の取得部により取得された発話情報と当該発話情報の示す発話内容とを用いた学習により作成されたモデルを用いて、認識の対象となる発話情報を入力として、前記発話情報の示す発話内容の認識結果を出力する出力部と、を備えることを特徴とする。 In order to solve the above-mentioned problems, the present invention is characterized by comprising a first acquisition unit that acquires speech information including information indicating the movement of the user's mouth when the user speaks in a whisper and voice information of the user, and an output unit that uses a model created by learning using the speech information acquired by the first acquisition unit and the speech content indicated by the speech information, inputs the speech information to be recognized, and outputs a recognition result of the speech content indicated by the speech information.

本発明によれば、音声の認識精度を向上させることができる。 The present invention can improve the accuracy of voice recognition.

図1は、読話装置を含むシステムの構成例を示す図である。FIG. 1 is a diagram showing an example of the configuration of a system including a speech-reading device. 図2は、システムの概要を説明する図である。FIG. 2 is a diagram for explaining an outline of the system. 図3は、読話装置の構成例を示す図である。FIG. 3 is a diagram showing an example of the configuration of a speech reading device. 図4は、端末装置の構成例を示す図である。FIG. 4 is a diagram illustrating an example of the configuration of a terminal device. 図5は、読話装置の処理手順の例を示すフローチャートである。FIG. 5 is a flowchart showing an example of a processing procedure of the speech reading apparatus. 図6は、システムの処理手順の例を示すシーケンス図である。FIG. 6 is a sequence diagram showing an example of a processing procedure of the system. 図7は、音声認識プログラムを実行するコンピュータの例を示す図である。FIG. 7 is a diagram illustrating an example of a computer that executes a voice recognition program.

以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。本発明は、以下に説明する実施形態に限定されない。 Below, a description will be given of a form (embodiment) for carrying out the present invention with reference to the drawings. The present invention is not limited to the embodiment described below.

図1および図2を用いて本実施形態の読話装置(音声認識装置)10を含むシステムの概要を説明する。システムは、例えば、図1に示すように、読話装置10とユーザの端末装置20とを備える。読話装置10は、端末装置20から取得した、ユーザがささやき声で発話するときの口の動きと音声とに基づき、ユーザがどのような発話をしたかを認識する。そして、読話装置10は、その認識結果(例えば、テキスト情報)を端末装置20へ送信する。なお、以下の説明において、ささやき声とは、ユーザが声帯を振動させずに発した音声(無声音)であるものとする。 The outline of a system including a speech-reading device (voice recognition device) 10 of this embodiment will be described with reference to Figures 1 and 2. For example, as shown in Figure 1, the system includes a speech-reading device 10 and a user's terminal device 20. The speech-reading device 10 recognizes what the user has said based on the mouth movements and voice of the user when whispering, which are acquired from the terminal device 20. The speech-reading device 10 then transmits the recognition result (e.g., text information) to the terminal device 20. In the following description, a whisper is defined as a voice (unvoiced sound) uttered by the user without vibrating the vocal cords.

端末装置20は、携帯電話機や、スマートフォン、タブレット端末、パーソナルコンピュータ等である。端末装置20と読話装置10とは、インターネット等のネットワークを介して通信可能に接続される。なお、システムに設置される端末装置20および読話装置10の数は、図2に示す数に限定されない。 The terminal device 20 is a mobile phone, a smartphone, a tablet terminal, a personal computer, etc. The terminal device 20 and the speech reading device 10 are communicatively connected via a network such as the Internet. Note that the number of terminal devices 20 and speech reading devices 10 installed in the system is not limited to the number shown in FIG. 2.

次に、図2を用いてシステムの概要を説明する。例えば、まず、端末装置20は、カメラ等によりユーザがささやき声で発話するときの口の輪郭の各座標間の変化を取得し、また、マイク等によりささやき声の音声波形を取得する。次に、端末装置20は、例えば、取得した口の輪郭の変化を示す情報(読話情報)と、ささやき声の音声波形を示す情報(音声情報)とを多重化した多重化デジタル信号を作成し、読話装置10へ送信する。読話装置10は、端末装置20から送信された多重化デジタル信号に基づき、ユーザの発話内容を識別する。これにより、読話装置10は、読話情報のみ、あるいは音声情報のみではユーザの発話内容が識別(認識)できないような場合であっても、ユーザの発話内容を識別しやすくすることができる。例えば、読話装置10は、上記の音声情報を用いることにより、読話情報のみでは識別が困難である、発話における子音、単語、文節等の区切りを識別できる。その結果、読話装置10は、ユーザの発話内容の識別精度を向上させることができる。 Next, the outline of the system will be described with reference to FIG. 2. For example, the terminal device 20 first acquires the change between each coordinate of the outline of the mouth when the user speaks in a whisper using a camera or the like, and also acquires the audio waveform of the whisper using a microphone or the like. Next, the terminal device 20 creates a multiplexed digital signal by multiplexing, for example, information indicating the acquired change in the outline of the mouth (speech reading information) and information indicating the audio waveform of the whisper (audio information), and transmits the multiplexed digital signal to the speech reading device 10. The speech reading device 10 identifies the contents of the user's speech based on the multiplexed digital signal transmitted from the terminal device 20. This makes it possible for the speech reading device 10 to easily identify the contents of the user's speech even in cases where the contents of the user's speech cannot be identified (recognized) using only the speech reading information or only the audio information. For example, by using the above audio information, the speech reading device 10 can identify divisions of consonants, words, phrases, etc. in the speech, which are difficult to identify using only the speech reading information. As a result, the speech reading device 10 can improve the accuracy of identifying the contents of the user's speech.

また、読話装置10は、ユーザがささやき声で発話するときの読話情報および音声情報の学習を行い、その学習結果を用いて、ユーザの発話内容を識別する。これにより、ユーザの発話内容の識別精度をさらに向上させることができる。例えば、読話情報と音声情報との組み合わせによってもユーザの発話内容が識別できないような場合であっても、上記の学習結果を用いることで、ユーザの発話内容を識別しやすくすることができる。 The speech reading device 10 also learns speech reading information and voice information when the user speaks in a whisper, and uses the learning results to identify the content of the user's speech. This can further improve the accuracy of identifying the content of the user's speech. For example, even in cases where the content of the user's speech cannot be identified even by combining the speech reading information and voice information, the learning results can be used to make it easier to identify the content of the user's speech.

[読話装置]
次に、図3を用いて、読話装置10の構成例を説明する。図3に示すように、読話装置10は、通信部11と、記憶部12と、制御部13とを有する。
[Speech reading device]
Next, a configuration example of the speech-reading device 10 will be described with reference to Fig. 3. As shown in Fig. 3, the speech-reading device 10 includes a communication unit 11, a storage unit 12, and a control unit 13.

通信部11は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部11は、ネットワークと有線または無線で接続され、端末装置20との間で情報の送受信を行う。 The communication unit 11 is realized, for example, by a network interface card (NIC). The communication unit 11 is connected to the network via a wired or wireless connection, and transmits and receives information to and from the terminal device 20.

記憶部12は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部12は、制御部13が各種処理を行う際に参照する情報や、各種処理により作成された情報を記憶する。例えば、記憶部12は、学習部134により学習(作成)されたモデルを記憶する。このモデルは、端末装置20のユーザごとに作成される。モデルの詳細については後記する。 The storage unit 12 is realized by, for example, a semiconductor memory element such as a random access memory (RAM) or a flash memory, or a storage device such as a hard disk or an optical disk. The storage unit 12 stores information referenced by the control unit 13 when performing various processes, and information created by various processes. For example, the storage unit 12 stores a model learned (created) by the learning unit 134. This model is created for each user of the terminal device 20. Details of the model will be described later.

制御部13は、コントローラ(Controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、読話装置10内部の記憶装置に記憶されている各種プログラム(音声認識プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。 The control unit 13 is a controller, and is realized, for example, by a CPU (Central Processing Unit) or MPU (Micro Processing Unit) executing various programs (corresponding to an example of a voice recognition program) stored in a storage device inside the speech reading device 10 using the RAM as a working area.

制御部13は、読話処理部131と、音声テキスト変換部(テキスト変換部)132とを備える。 The control unit 13 includes a speech reading processing unit 131 and a speech-to-text conversion unit (text conversion unit) 132.

読話処理部131は、ユーザの発話時におけるユーザの口の動きを示す情報および当該ユーザのささやき声の音声情報(これらの情報をまとめて、「発話情報」と呼ぶ)に基づき、当該ユーザの発話内容を認識する。例えば、読話処理部131は、ユーザの発話情報に基づき当該ユーザの発話内容を示す音声データを生成する。そして、読話処理部131は、生成した音声データを音声テキスト変換部132へ出力する。音声テキスト変換部132は、読話処理部131から出力された音声データをテキスト情報に変換する。 The speech-reading processor 131 recognizes the contents of a user's speech based on information indicating the movement of the user's mouth when the user speaks and audio information of the user's whispering voice (collectively referred to as "speech information"). For example, the speech-reading processor 131 generates audio data indicating the contents of a user's speech based on the user's speech information. The speech-reading processor 131 then outputs the generated audio data to the speech-to-text converter 132. The speech-to-text converter 132 converts the audio data output from the speech-reading processor 131 into text information.

読話処理部131について詳細に説明する。読話処理部131は、発話情報取得部(第1の取得部)133と、学習部134と、出力処理部(出力部)135と、修正情報取得部(第2の取得部)136とを備える。 The speech reading processing unit 131 will be described in detail. The speech reading processing unit 131 includes an utterance information acquisition unit (first acquisition unit) 133, a learning unit 134, an output processing unit (output unit) 135, and a correction information acquisition unit (second acquisition unit) 136.

発話情報取得部133は、端末装置20からユーザの発話情報を取得する。例えば、発話情報取得部133は、端末装置20からユーザが初回設定用のテキストを発話したときの発話情報や、認識の対象となるユーザの発話情報を取得する。 The speech information acquisition unit 133 acquires user speech information from the terminal device 20. For example, the speech information acquisition unit 133 acquires speech information from the terminal device 20 when the user speaks text for initial setup, and speech information of the user to be recognized.

学習部134は、発話情報取得部133により取得されたユーザの発話情報と、当該発話情報の示す発話内容とを用いた学習を行う。例えば、学習部134は、ユーザの発話情報と当該発話情報の示す発話内容とを学習し、当該ユーザの発話情報の示す発話内容の認識結果を出力するためのモデルを作成する。 The learning unit 134 performs learning using the user's utterance information acquired by the utterance information acquisition unit 133 and the utterance content indicated by the utterance information. For example, the learning unit 134 learns the user's utterance information and the utterance content indicated by the utterance information, and creates a model for outputting the recognition result of the utterance content indicated by the user's utterance information.

一例を挙げる。例えば、学習部134は、まず、発話情報取得部133からユーザが初回設定用のテキストを読み上げたときの発話情報と、当該初回設定用のテキストの内容とを対応付けた情報をモデルの初期情報として登録する。 Here is an example. For example, the learning unit 134 first registers information that associates utterance information obtained when the user reads out the text for initial setup from the utterance information acquisition unit 133 with the content of the text for initial setup as initial information for the model.

その後、修正情報取得部136(後記)が、端末装置20から初期情報の登録後のモデルを用いた発話内容の認識結果に関する修正情報を受信した場合、学習部134はその修正情報に基づき当該ユーザのモデルを修正する。また、修正情報取得部136が、端末装置20から、上記の修正後のユーザのモデルを用いた発話内容の認識結果に関する修正情報を受信した場合、学習部134はその修正情報に基づき当該ユーザのモデルを修正する。このような処理を繰り返すことにより、学習部134は、ユーザの発話内容を精度よく認識可能なモデルを作成することができる。 After that, when the correction information acquisition unit 136 (described below) receives correction information from the terminal device 20 regarding the recognition result of the utterance content using the model after the initial information is registered, the learning unit 134 corrects the model of the user based on the correction information. Also, when the correction information acquisition unit 136 receives correction information from the terminal device 20 regarding the recognition result of the utterance content using the above-mentioned corrected user model, the learning unit 134 corrects the model of the user based on the correction information. By repeating such processing, the learning unit 134 can create a model that can accurately recognize the user's utterance content.

なお、学習部134が、ユーザの発話情報に基づく学習を行う際、着目している語の前後の語および音声を用いて同音異義語を学習する。例えば、「ツール」、「ルーツ」、「クール」という語を発音するときのユーザの口の動きはほぼ同じである。よって、例えば、学習部134は、以下の文における「ツール」、「ルーツ」、「クール」という語の前後の言葉および音声を用いて同音異義語を学習する。 When the learning unit 134 performs learning based on the user's speech information, it learns homonyms using the words and sounds before and after the word of interest. For example, the user's mouth movements are almost the same when pronouncing the words "tools," "roots," and "cool." Therefore, for example, the learning unit 134 learns homonyms using the words and sounds before and after the words "tools," "roots," and "cool" in the following sentence:

・日本人が発明するツールは優れもの
・日本人のルーツは縄文人と弥生人
・日本人の使うものはどれもクールだ
・Tools invented by Japanese people are excellent. ・The roots of the Japanese people are the Jomon and Yayoi people. ・Everything the Japanese use is cool.

このようにすることで学習部134は、ユーザが発話する語のうち同音異義語についても精度よく認識可能なモデルを作成することができる。 By doing this, the learning unit 134 can create a model that can accurately recognize homonyms among the words spoken by the user.

出力処理部135は、認識の対象となるユーザの発話情報を入力として、学習部134による学習結果(例えば、上記のモデル)を用いて当該ユーザの発話情報の示す発話内容の認識結果を出力する。例えば、出力処理部135は、認識の対象となるユーザの発話情報を入力として、上記のモデルを用いて当該ユーザの発話内容を示す音声データを生成し、音声テキスト変換部132へ出力する。その後、出力処理部135は、音声テキスト変換部132から当該音声データのテキスト情報を受け取ると、当該テキスト情報を当該ユーザの端末装置20へ送信する。 The output processing unit 135 receives as input the speech information of the user to be recognized, and outputs the recognition result of the speech content indicated by the speech information of the user using the learning result by the learning unit 134 (e.g., the above model). For example, the output processing unit 135 receives as input the speech information of the user to be recognized, and generates voice data indicating the speech content of the user using the above model, and outputs it to the speech text conversion unit 132. After that, when the output processing unit 135 receives text information of the voice data from the speech text conversion unit 132, it transmits the text information to the terminal device 20 of the user.

修正情報取得部136は、端末装置20から、ユーザの発話内容の認識結果に関する修正情報を取得する。例えば、修正情報取得部136は、端末装置20から、ユーザの発話内容を示すテキストデータに関する修正情報を受信する。そして、修正情報取得部136は、当該修正情報を学習部134へ出力する。 The correction information acquisition unit 136 acquires correction information related to the recognition result of the user's utterance content from the terminal device 20. For example, the correction information acquisition unit 136 receives correction information related to text data indicating the user's utterance content from the terminal device 20. Then, the correction information acquisition unit 136 outputs the correction information to the learning unit 134.

[端末装置]
次に、図4を用いて、端末装置20の構成例を説明する。図4に示すように、端末装置20は、通信部21と、記憶部22と、マイク23と、カメラ24と、入力部25と、出力部26と、制御部27とを有する。
[Terminal Device]
Next, a configuration example of the terminal device 20 will be described with reference to Fig. 4. As shown in Fig. 4, the terminal device 20 includes a communication unit 21, a storage unit 22, a microphone 23, a camera 24, an input unit 25, an output unit 26, and a control unit 27.

通信部21は、ネットワークに通信可能に接続された読話装置10との間で通信するNICなどのインターフェイスである。 The communication unit 21 is an interface such as a NIC that communicates with the speech reading device 10 that is communicatively connected to the network.

記憶部22は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。 The memory unit 22 is realized, for example, by a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk.

マイク23は、音声を取得する。例えば、マイク23は、ユーザのささやき声で発話する際の音声を取得する。カメラ24は、画像(動画または静止画)を撮影する。例えば、カメラ24は、ユーザがささやき声で発話する際の口の動きの画像を撮影する。 The microphone 23 acquires audio. For example, the microphone 23 acquires audio when the user speaks in a whisper. The camera 24 captures images (video or still images). For example, the camera 24 captures images of the movement of the user's mouth when the user speaks in a whisper.

入力部25は、ユーザから各種操作を受け付ける入力装置である。例えば、入力部25は、キーボードやマウスや操作キー等によって実現される。出力部26は、各種情報を表示するための表示装置である。例えば、出力部26は、液晶ディスプレイ等によって実現される。なお、端末装置20にタッチパネルが採用された場合には、入力部25と出力部26とは一体化される。 The input unit 25 is an input device that accepts various operations from a user. For example, the input unit 25 is realized by a keyboard, a mouse, operation keys, etc. The output unit 26 is a display device for displaying various information. For example, the output unit 26 is realized by a liquid crystal display, etc. Note that when a touch panel is adopted for the terminal device 20, the input unit 25 and the output unit 26 are integrated.

制御部27は、コントローラであり、例えば、CPUやMPU等によって、端末装置20内部の記憶装置に記憶されている各種プログラム(読話プログラム)がRAMを作業領域として実行されることにより実現される。 The control unit 27 is a controller, and is realized, for example, by a CPU, an MPU, or the like, executing various programs (speech reading programs) stored in a storage device inside the terminal device 20 using the RAM as a working area.

制御部27は、発話受付部271と、発話情報送信部272と、テキスト受信部273と、表示部274と、修正情報送信部275とを有する。 The control unit 27 has an utterance receiving unit 271, an utterance information transmitting unit 272, a text receiving unit 273, a display unit 274, and a correction information transmitting unit 275.

発話受付部271は、カメラ24により発話時におけるユーザの口の動きを示す情報を取得し、また、マイク23により発話時におけるユーザの音声情報を取得する。 The speech receiving unit 271 acquires information indicating the movement of the user's mouth when speaking using the camera 24, and also acquires voice information of the user when speaking using the microphone 23.

発話情報送信部272は、発話受付部271により取得された、発話時におけるユーザの口の動きを示す情報および当該ユーザの音声情報を含む発話情報を作成し、読話装置10へ送信する。例えば、発話情報送信部272は、発話受付部271により取得された、発話時におけるユーザの口の動きを示す情報および当該ユーザの音声情報をデジタル信号に変換し、当該デジタル信号を発話情報として読話装置10へ送信する。 The speech information sending unit 272 creates speech information including information indicating the user's mouth movements when speaking and the user's voice information acquired by the speech receiving unit 271, and sends the information to the speech reading device 10. For example, the speech information sending unit 272 converts the information indicating the user's mouth movements when speaking and the user's voice information acquired by the speech receiving unit 271 into a digital signal, and sends the digital signal to the speech reading device 10 as speech information.

テキスト受信部273は、読話装置10から、ユーザの発話内容を示すテキスト情報を受信する。表示部274は、種々の情報を出力部26に表示する。例えば、表示部274は、初回設定用のテキスト情報を出力部26に表示したり、テキスト受信部273が受信したテキスト情報を出力部26に表示したりする。 The text receiving unit 273 receives text information indicating the content of the user's speech from the speech reading device 10. The display unit 274 displays various information on the output unit 26. For example, the display unit 274 displays text information for initial setup on the output unit 26, and displays text information received by the text receiving unit 273 on the output unit 26.

例えば、端末装置20の読話プログラムが起動されると、表示部274は、ユーザに初回設定用のテキスト情報をささやき声で読み上げるよう促すメッセージを出力部26に表示する。そして、ユーザが当該テキスト情報をささやき声で読み上げると、発話受付部271は、カメラ24により読み上げ時におけるユーザの口の動きを示す情報を取得し、また、マイク23により読み上げ時における音声情報を取得する。そして、発話情報送信部272は、発話受付部271により取得された、初回設定用のテキストの読み上げ時におけるユーザの口の動きを示す情報および音声情報を含む発話情報を作成し、読話装置10へ送信する。 For example, when the speech reading program of the terminal device 20 is started, the display unit 274 displays a message on the output unit 26 prompting the user to whisper the text information for initial setup. Then, when the user reads the text information in a whisper, the speech receiving unit 271 acquires information indicating the movement of the user's mouth when reading aloud by the camera 24, and also acquires voice information when reading aloud by the microphone 23. Then, the speech information sending unit 272 creates speech information including the information indicating the movement of the user's mouth when reading the text for initial setup and the voice information acquired by the speech receiving unit 271, and sends it to the speech reading device 10.

修正情報送信部275は、読話装置10から受信したテキスト情報の修正情報を読話装置10へ送信する。例えば、表示部274が、読話装置10から受信したテキスト情報を出力部26に表示した後、入力部25から当該テキスト情報の修正情報を受け付けた場合、修正情報送信部275は当該修正情報を読話装置10へ送信する。 The correction information sending unit 275 sends correction information of the text information received from the speech reading device 10 to the speech reading device 10. For example, if the display unit 274 displays the text information received from the speech reading device 10 on the output unit 26 and then receives correction information for the text information from the input unit 25, the correction information sending unit 275 sends the correction information to the speech reading device 10.

[処理手順]
次に、図5を用いて、読話装置10の処理手順の例を説明する。
[Processing Procedure]
Next, an example of a processing procedure of the speech-reading apparatus 10 will be described with reference to FIG.

なお、図5において説明を省略しているが、読話装置10は、例えば、端末装置20に対しユーザ認証等を行うことにより、アクセス元の端末装置20がどのユーザの端末装置20かを識別するものとする。これにより、読話装置10は、ユーザごとにモデルを管理することができる。 Although not illustrated in FIG. 5, the speech-reading device 10 identifies which user's terminal device 20 is the accessing terminal device 20 by, for example, performing user authentication on the terminal device 20. This allows the speech-reading device 10 to manage models for each user.

まず、読話装置10の発話情報取得部133は、端末装置20から初回設定用のユーザの発話情報を取得する(S1)。例えば、発話情報取得部133は、ユーザが初回設定用のテキストをささやき声で読み上げたときの発話情報を取得する。そして、学習部134は、S1で取得した初回設定用のユーザの発話情報をモデルの初期情報として登録する(S2:初回設定用のユーザの発話情報の登録)。例えば、学習部134は、ユーザが初回設定用のテキストをささやき声で読み上げたときの発話情報と、初回設定用のテキストの内容とを対応付けた情報をモデルの初期情報として登録する。 First, the speech information acquisition unit 133 of the speech reading device 10 acquires the user's speech information for initial setup from the terminal device 20 (S1). For example, the speech information acquisition unit 133 acquires the speech information when the user reads the text for initial setup in a whisper. Then, the learning unit 134 registers the user's speech information for initial setup acquired in S1 as initial information of the model (S2: Registration of user's speech information for initial setup). For example, the learning unit 134 registers information that associates the speech information when the user reads the text for initial setup in a whisper with the content of the text for initial setup as initial information of the model.

S2の後、読話装置10の発話情報取得部133が、端末装置20から発話内容の認識の対象となるユーザの発話情報を取得すると(S3)、出力処理部135は当該ユーザのモデルを用いて当該発話情報の示す発話内容の認識結果を出力する(S4)。例えば、出力処理部135は、端末装置20から発話内容の認識の対象となるユーザの発話情報を取得すると、当該ユーザのモデルを用いて当該発話情報の示す発話内容を示す音声データを生成する。そして、出力処理部135は、生成した音声データを音声テキスト変換部132へ出力する。その後、出力処理部135は、音声テキスト変換部132から当該音声データのテキスト情報を受け取る。そして、出力処理部135は、受け取ったテキスト情報を当該ユーザの端末装置20へ送信する。 After S2, when the speech information acquisition unit 133 of the speech reading device 10 acquires speech information of the user whose speech content is to be recognized from the terminal device 20 (S3), the output processing unit 135 uses the model of the user to output the recognition result of the speech content indicated by the speech information (S4). For example, when the output processing unit 135 acquires speech information of the user whose speech content is to be recognized from the terminal device 20, it generates voice data indicating the speech content indicated by the speech information using the model of the user. Then, the output processing unit 135 outputs the generated voice data to the speech text conversion unit 132. Then, the output processing unit 135 receives text information of the voice data from the speech text conversion unit 132. Then, the output processing unit 135 transmits the received text information to the terminal device 20 of the user.

その後、修正情報取得部136が、当該ユーザの端末装置20から、S4で出力した認識結果の修正情報を取得した場合(S5でYes)、学習部134は、当該修正情報に基づき、当該ユーザのモデルの修正を行い(S6)、S3へ戻る。一方、修正情報取得部136が、当該ユーザの端末装置20から、S4で出力した認識結果の修正情報を取得しなかった場合(S5でNo)、S3へ戻る。 After that, if the correction information acquisition unit 136 acquires correction information for the recognition result output in S4 from the terminal device 20 of the user (Yes in S5), the learning unit 134 corrects the model for the user based on the correction information (S6) and returns to S3. On the other hand, if the correction information acquisition unit 136 does not acquire correction information for the recognition result output in S4 from the terminal device 20 of the user (No in S5), the process returns to S3.

読話装置10が上記のS3~S6の処理を繰り返すことにより、ユーザがささやき声で発話するときに口の動きおよび音声の特徴を学習することができる。その結果、読話装置10は、ユーザのささやき声による発話の発話内容を精度よく認識することができる。 By repeating the above steps S3 to S6, the speech reading device 10 can learn the mouth movements and voice characteristics when the user speaks in a whisper. As a result, the speech reading device 10 can accurately recognize the content of the user's whispered speech.

[処理手順の例]
次に、図6を用いて、読話装置10を含むシステムの処理手順の例を説明する。処理手順は、例えば、(1)初期情報登録、(2)音声認識サービス利用、(3)認識結果の活用のフェーズに分けられる。
[Example of processing procedure]
Next, an example of a processing procedure of a system including the speech-reading apparatus 10 will be described with reference to Fig. 6. The processing procedure can be divided into the following phases, for example: (1) initial information registration, (2) use of a voice recognition service, and (3) utilization of the recognition results.

(1)初期情報登録
例えば、端末装置20の読話アプリケーションが起動されると、端末装置20は初回設定用のテキスト文を出力部26に表示する。そして、端末装置20のユーザは、当該端末装置20に向かって初回設定用のテキスト文をささやき声で読み上げる(S11)。このとき発話受付部271は、カメラ24により初回設定用のテキスト文の読み上げ時におけるユーザの口の動きを示す情報を取得し、また、マイク23により初回設定用のテキスト文の読み上げ時におけるユーザの音声情報を取得する。その後、発話情報送信部272は、取得した口の動きを示す情報および音声情報をデジタル信号に変換して、読話装置10へ送信する(S12)。
(1) Initial Information Registration For example, when the speech-reading application of the terminal device 20 is started, the terminal device 20 displays a text sentence for initial setup on the output unit 26. Then, the user of the terminal device 20 whispers the text sentence for initial setup to the terminal device 20 (S11). At this time, the speech receiving unit 271 acquires information indicating the movement of the user's mouth when the text sentence for initial setup is read out by the camera 24, and also acquires voice information of the user when the text sentence for initial setup is read out by the microphone 23. After that, the speech information transmitting unit 272 converts the acquired information indicating the movement of the mouth and the voice information into digital signals and transmits them to the speech-reading device 10 (S12).

S12の後、読話装置10の発話情報取得部133が、端末装置20からデジタル信号を受信すると、学習部134は、受信したデジタル信号を初回設定用のテキストと照合し、モデルに登録する(S13)。つまり、学習部134は、ユーザの発話の初期情報をモエルに登録する。 After S12, when the speech information acquisition unit 133 of the speech reading device 10 receives a digital signal from the terminal device 20, the learning unit 134 compares the received digital signal with the text for initial setup and registers it in the model (S13). In other words, the learning unit 134 registers the initial information of the user's speech in the model.

(2)音声認識サービス利用
次に、ユーザは端末装置20に向けてささやき声で発話を行う(S21)。そして、発話受付部271は、カメラ24により当該発話におけるユーザの口の動きを示す情報を取得し、また、マイク23により当該発話におけるユーザの音声情報を取得する。その後、発話情報送信部272は、取得した口の動きを示す情報および音声情報をデジタル信号に変換して、読話装置10へ送信する(S22)。
(2) Use of Voice Recognition Service Next, the user whispers into the terminal device 20 (S21). The speech receiving unit 271 then obtains information indicating the user's mouth movements during the utterance using the camera 24, and obtains the user's voice information during the utterance using the microphone 23. After that, the speech information transmitting unit 272 converts the obtained information indicating the mouth movements and voice information into digital signals and transmits them to the speech reading device 10 (S22).

S22の後、読話装置10の発話情報取得部133が、ユーザの端末装置20から上記のデジタル信号を受信すると、出力処理部135は、当該ユーザの初期情報が登録されたモデルを用いて、受信したデジタル信号を音声信号に変換し、音声テキスト変換部132へ出力する(S23)。そして、音声テキスト変換部132は、出力された音声信号をテキスト情報に変換し、出力処理部135へ出力する(S24:音声→テキスト変換)。出力処理部135は、S24で変換されたテキスト情報を当該ユーザの端末装置20へ送信する(S25)。 After S22, when the speech information acquisition unit 133 of the speech reading device 10 receives the digital signal from the user's terminal device 20, the output processing unit 135 converts the received digital signal into a voice signal using a model in which the user's initial information is registered, and outputs the signal to the voice text conversion unit 132 (S23). The voice text conversion unit 132 then converts the output voice signal into text information, and outputs the text information to the output processing unit 135 (S24: voice to text conversion). The output processing unit 135 transmits the text information converted in S24 to the user's terminal device 20 (S25).

S25の後、端末装置20のテキスト受信部273が、読話装置10からテキスト情報を受信すると、表示部274は、受信したテキスト情報を出力部26に表示する(S26:テキスト表示)。次に、ユーザは、端末装置20に表示されたテキスト情報を確認し(S27)、当該テキスト情報に修正が必要な部分があれば、入力部25等によりテキスト情報の修正情報を入力する。そして、修正情報送信部275は、入力されたテキスト情報の修正情報を読話装置10へ送信する(S28:テキスト修正)。その後、読話装置10の修正情報取得部136が、ユーザの端末装置20からテキスト情報の修正情報を受信すると、学習部134は当該修正情報を用いて、当該ユーザのモデルの修正を行う(S29:修正情報を用いたモデルの修正)。 After S25, when the text receiving unit 273 of the terminal device 20 receives the text information from the speech-reading device 10, the display unit 274 displays the received text information on the output unit 26 (S26: display text). Next, the user checks the text information displayed on the terminal device 20 (S27), and if there is a part of the text information that needs correction, inputs correction information for the text information using the input unit 25 or the like. Then, the correction information sending unit 275 sends the correction information for the input text information to the speech-reading device 10 (S28: text correction). After that, when the correction information acquisition unit 136 of the speech-reading device 10 receives correction information for the text information from the user's terminal device 20, the learning unit 134 uses the correction information to correct the model for that user (S29: correct model using correction information).

なお、ここでは説明を省略しているが、S29の後、システムが再度当該ユーザの発話を受け付けた場合、読話装置10は、修正後の当該ユーザのモデルに基づき、再度S23以降の処理を実行する。上記の処理を繰り返すことで、読話装置10は、ユーザにカスタマイズされた精度の高い変換を実現するモデルを作成することができる。 Although not explained here, if the system receives the user's speech again after S29, the speech-reading device 10 executes the process from S23 onwards again based on the corrected model of the user. By repeating the above process, the speech-reading device 10 can create a model that achieves highly accurate conversion customized for the user.

なお、S27においてユーザが端末装置20に表示されたテキスト情報を確認し、修正の必要な部分がなければ、修正の必要がない旨を端末装置20に入力してもよい。その場合、端末装置20は、当該テキスト情報に修正の必要がない旨の情報を読話装置10へ送信する。 In addition, in S27, the user may check the text information displayed on the terminal device 20, and if there is no part that needs correction, input to the terminal device 20 that no correction is necessary. In that case, the terminal device 20 transmits information to the speech reading device 10 that the text information does not need correction.

(3)認識結果の活用
また、端末装置20は、読話装置10から受信したテキスト情報(発話内容の認識結果)を他のアプリケーションやサービスに活用してもよい。例えば、端末装置20は、受信したテキスト情報を用いてメール、チャット等のコミュニケーションアプリへのテキスト連携を行ってもよい。
(3) Utilization of Recognition Results The terminal device 20 may utilize the text information (the recognition results of the speech content) received from the speech-reading device 10 for other applications or services. For example, the terminal device 20 may use the received text information to perform text linking to a communication application such as e-mail or chat.

[その他]
また、上記の実施形態において読話装置10は、ユーザの発話内容をテキスト情報に変換したものを端末装置20へ送信することとしたが、これに限定されない。例えば、読話装置10はユーザの発話内容を示す音声データを端末装置20へ送信してもよい。
[others]
In the above embodiment, the speech-reading device 10 converts the user's speech content into text information and transmits the converted text information to the terminal device 20. However, the present invention is not limited to this. For example, the speech-reading device 10 may transmit voice data indicating the user's speech content to the terminal device 20.

また、上記の実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。 Furthermore, among the processes described in the above embodiments, all or part of the processes described as being performed automatically can be performed manually, or all or part of the processes described as being performed manually can be performed automatically using known methods. In addition, the information including the processing procedures, specific names, various data, and parameters shown in the above documents and drawings can be changed as desired unless otherwise specified. For example, the various information shown in each drawing is not limited to the information shown in the drawings.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、読話装置10の機能を端末装置20に装備してもよい。 In addition, each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. In other words, the specific form of distribution and integration of each device is not limited to that shown in the figure, and all or part of them can be functionally or physically distributed and integrated in any unit depending on various loads, usage conditions, etc. For example, the functions of the speech reading device 10 may be equipped in the terminal device 20.

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 The above-described embodiments and variations can be combined as appropriate to the extent that they do not cause inconsistencies in the processing content.

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。 Although several embodiments of the present application have been described in detail above with reference to the drawings, these are merely examples, and the present invention can be embodied in other forms that incorporate various modifications and improvements based on the knowledge of those skilled in the art, including the forms described in the disclosure section of the invention.

[プログラム]
また、上記の実施形態で述べた読話装置10の機能を実現するプログラムを所望の情報処理装置(コンピュータ)にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を読話装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータ、ラック搭載型のサーバコンピュータ等が含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistants)等がその範疇に含まれる。また、読話装置10を、クラウドサーバに実装してもよい。
[program]
The speech-reading device 10 can be implemented by installing a program that realizes the functions of the speech-reading device 10 described in the above embodiment in a desired information processing device (computer). For example, the above program provided as package software or online software can be executed by the information processing device to cause the information processing device to function as the speech-reading device 10. The information processing device referred to here includes desktop or notebook personal computers, rack-mounted server computers, and the like. In addition, the information processing device also includes mobile communication terminals such as smartphones, mobile phones, and PHS (Personal Handyphone Systems), as well as PDAs (Personal Digital Assistants), and the like. The speech-reading device 10 may also be implemented in a cloud server.

図7を用いて、上記のプログラム(音声認識プログラム)を実行するコンピュータの一例を説明する。図7に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。 An example of a computer that executes the above program (voice recognition program) will be described with reference to FIG. 7. As shown in FIG. 7, the computer 1000 has, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These components are connected by a bus 1080.

メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。 The memory 1010 includes a read only memory (ROM) 1011 and a random access memory (RAM) 1012. The ROM 1011 stores a boot program such as a basic input output system (BIOS). The hard disk drive interface 1030 is connected to a hard disk drive 1090. The disk drive interface 1040 is connected to a disk drive 1100. A removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100. The serial port interface 1050 is connected to a mouse 1110 and a keyboard 1120, for example. The video adapter 1060 is connected to a display 1130, for example.

ここで、図7に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。前記した実施形態で説明した各種データや情報は、例えばハードディスクドライブ1090やメモリ1010に記憶される。 As shown in FIG. 7, the hard disk drive 1090 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. The various data and information described in the above embodiments are stored, for example, in the hard disk drive 1090 or memory 1010.

そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。 Then, the CPU 1020 reads the program module 1093 and program data 1094 stored in the hard disk drive 1090 into the RAM 1012 as necessary, and executes each of the procedures described above.

なお、上記の音声認識プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。 The program module 1093 and program data 1094 relating to the above-mentioned voice recognition program are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and program data 1094 relating to the above-mentioned program may be stored in another computer connected via a network such as a LAN or WAN (Wide Area Network), and read by the CPU 1020 via the network interface 1070.

10 読話装置
11,21 通信部
12,22 記憶部
13,27 制御部
20 端末装置
23 マイク
24 カメラ
25 入力部
26 出力部
131 読話処理部
132 音声テキスト変換部
133 発話情報取得部
134 学習部
135 出力処理部
136 修正情報取得部
271 発話受付部
272 発話情報送信部
273 テキスト受信部
274 表示部
275 修正情報送信部
10 speech reading device 11, 21 communication unit 12, 22 storage unit 13, 27 control unit 20 terminal device 23 microphone 24 camera 25 input unit 26 output unit 131 speech reading processing unit 132 speech text conversion unit 133 speech information acquisition unit 134 learning unit 135 output processing unit 136 correction information acquisition unit 271 speech reception unit 272 speech information transmission unit 273 text reception unit 274 display unit 275 correction information transmission unit

Claims (6)

ユーザに所定の発話内容をささやき声で発話するよう促すメッセージを出力する第1の出力部と
前記ユーザがささやき声で前記所定の発話内容を発話するときの前記ユーザの口の動きを示す情報および前記ユーザの音声情報を含む発話情報を取得する第1の取得部と、
前記第1の取得部により取得された発話情報と当該発話情報の示す発話内容とを用いた学習により、前記発話情報の示す発話内容の認識結果を出力するモデルを作成する学習部と
前記作成されたモデルを用いて、認識の対象となる発話情報を入力として、前記発話情報の示す発話内容の認識結果を出力する第2の出力部と、を備え
前記学習部は、前記所定の発話内容に同音異義語が含まれる場合には、前記発話情報と前記発話内容とを用いた学習の際に、前記同音異義語の前後の言葉と音声情報とを用いた、前記所定の発話内容に含まれる前記同音異義語の学習により、前記モデルを作成する
ことを特徴とする音声認識装置。
a first output unit that outputs a message encouraging a user to whisper a predetermined utterance content; a first acquisition unit that acquires speech information including information indicating a mouth movement of the user when the user whispers the predetermined utterance content and voice information of the user;
a learning unit that creates a model that outputs a recognition result of the utterance content indicated by the utterance information by learning using the utterance information acquired by the first acquisition unit and the utterance content indicated by the utterance information; and a second output unit that uses the created model to input the utterance information to be recognized and outputs a recognition result of the utterance content indicated by the utterance information,
When the predetermined speech content includes a homonym, the learning unit creates the model by learning the homonym included in the predetermined speech content using words before and after the homonym and speech information during learning using the speech information and the speech content.
1. A speech recognition device comprising:
前記発話内容の認識結果をテキスト情報に変換するテキスト変換部をさらに備え、
前記第2の出力部は、
前記テキスト変換部により変換された前記発話内容の認識結果のテキスト情報を出力する
ことを特徴とする請求項1に記載の音声認識装置。
A text conversion unit converts the recognition result of the utterance content into text information,
The second output section is
2. The speech recognition device according to claim 1, further comprising: a text conversion unit that converts the speech into text information, the text information being a recognition result of the speech content.
前記発話内容の認識結果は、
前記発話内容の音声データであり、
前記テキスト変換部は、
前記発話内容の音声データをテキスト情報に変換する
ことを特徴とする請求項2に記載の音声認識装置。
The recognition result of the speech content is
The speech data is
The text conversion unit is
3. The speech recognition device according to claim 2, further comprising: a step of converting the speech data of the utterance into text information.
前記音声認識装置は、
前記ユーザにより入力された、前記発話内容の認識結果のテキスト情報の修正情報を取得する第2の取得部をさらに備え、
前記学習部は、
前記第2の取得部により取得された、前記発話内容の認識結果のテキスト情報の修正情報を用いて前記モデルを修正する
ことを特徴とする請求項2に記載の音声認識装置。
The speech recognition device includes:
A second acquisition unit that acquires correction information for text information of the recognition result of the utterance content input by the user,
The learning unit is
3. The speech recognition device according to claim 2, further comprising: a processor for modifying the model using modification information for the text information of the recognition result of the speech content, the modification information being acquired by the second acquisition unit.
音声認識装置により実行される音声認識方法であって、
ユーザに所定の発話内容をささやき声で発話するよう促すメッセージを出力するステップと、
前記ユーザがささやき声で前記所定の発話内容を発話するときの前記ユーザの口の動きを示す情報および前記ユーザの音声情報を含む発話情報を取得するステップと、
前記取得した発話情報と当該発話情報の示す発話内容とを用いた学習により、前記発話情報の示す発話内容の認識結果を出力するモデルを作成するステップと、
前記作成したモデルを用いて、認識の対象となる発話情報を入力として、前記発話情報の示す発話内容の認識結果を出力するステップと、を含み、
前記作成するステップは、前記所定の発話内容に同音異義語が含まれる場合には、前記発話情報と前記発話内容とを用いた学習の際に、前記同音異義語の前後の言葉と音声情報とを用いた、前記所定の発話内容に含まれる前記同音異義語の学習により、前記モデルを作成する
ことを特徴とする音声認識方法。
A speech recognition method executed by a speech recognition device, comprising:
outputting a message prompting the user to whisper a predetermined utterance content;
acquiring speech information including information indicating a mouth movement of the user when the user whispers the predetermined speech content and voice information of the user;
creating a model that outputs a recognition result of the speech content indicated by the utterance information by learning using the acquired utterance information and the speech content indicated by the utterance information;
and using the created model, receiving utterance information to be recognized as an input, and outputting a recognition result of the utterance content indicated by the utterance information ,
In the creating step, when the predetermined speech content includes a homonym, the model is created by learning the homonym included in the predetermined speech content using words before and after the homonym and speech information during learning using the speech information and the speech content.
13. A speech recognition method comprising:
ユーザに所定の発話内容をささやき声で発話するよう促すメッセージを出力するステップと、
前記ユーザがささやき声で前記所定の発話内容を発話するときの前記ユーザの口の動きを示す情報および前記ユーザの音声情報を含む発話情報を取得するステップと、
前記取得した発話情報と当該発話情報の示す発話内容とを用いた学習により、前記発話情報の示す発話内容の認識結果を出力するモデルを作成するステップと、
前記作成したモデルを用いて、認識の対象となる発話情報を入力として、前記発話情報の示す発話内容の認識結果を出力するステップと、をコンピュータに実行させ、
前記作成するステップは、前記所定の発話内容に同音異義語が含まれる場合には、前記発話情報と前記発話内容とを用いた学習の際に、前記同音異義語の前後の言葉と音声情報とを用いた、前記所定の発話内容に含まれる前記同音異義語の学習により、前記モデルを作成する
ことを特徴とする音声認識プログラム。
outputting a message prompting the user to whisper a predetermined utterance content;
acquiring speech information including information indicating a mouth movement of the user when the user whispers the predetermined speech content and voice information of the user;
creating a model that outputs a recognition result of the speech content indicated by the utterance information by learning using the acquired utterance information and the speech content indicated by the utterance information;
and a step of inputting utterance information to be recognized using the created model and outputting a recognition result of the utterance content indicated by the utterance information ;
In the creating step, when the predetermined speech content includes a homonym, the model is created by learning the homonym included in the predetermined speech content using words before and after the homonym and speech information during learning using the speech information and the speech content.
A speech recognition program comprising:
JP2019207512A 2019-11-15 2019-11-15 Voice recognition device, voice recognition method, and voice recognition program Active JP7495220B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019207512A JP7495220B2 (en) 2019-11-15 2019-11-15 Voice recognition device, voice recognition method, and voice recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019207512A JP7495220B2 (en) 2019-11-15 2019-11-15 Voice recognition device, voice recognition method, and voice recognition program

Publications (2)

Publication Number Publication Date
JP2021081527A JP2021081527A (en) 2021-05-27
JP7495220B2 true JP7495220B2 (en) 2024-06-04

Family

ID=75965003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019207512A Active JP7495220B2 (en) 2019-11-15 2019-11-15 Voice recognition device, voice recognition method, and voice recognition program

Country Status (1)

Country Link
JP (1) JP7495220B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023154894A (en) 2022-04-08 2023-10-20 キヤノン株式会社 Information conversion system, information processing device, information processing method and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142477A (en) 1999-11-12 2001-05-25 Matsushita Electric Ind Co Ltd Voiced sound generator and voice recognition device using it
JP2003255993A (en) 2002-03-04 2003-09-10 Ntt Docomo Inc System, method, and program for speech recognition, and system, method, and program for speech synthesis
JP2009506386A (en) 2005-08-31 2009-02-12 マイクロソフト コーポレーション Incorporate speech engine training into interactive user tutorials
CN108520741A (en) 2018-04-12 2018-09-11 科大讯飞股份有限公司 A kind of whispering voice restoration methods, device, equipment and readable storage medium storing program for executing

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3893763B2 (en) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 Voice detection device
JP2010048890A (en) * 2008-08-19 2010-03-04 Ntt Docomo Inc Client device, recognition result feedback method, recognition result feedback program, server device, method and program of updating model of voice recognition, voice recognition system, voice recognition method, voice recognition program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142477A (en) 1999-11-12 2001-05-25 Matsushita Electric Ind Co Ltd Voiced sound generator and voice recognition device using it
JP2003255993A (en) 2002-03-04 2003-09-10 Ntt Docomo Inc System, method, and program for speech recognition, and system, method, and program for speech synthesis
JP2009506386A (en) 2005-08-31 2009-02-12 マイクロソフト コーポレーション Incorporate speech engine training into interactive user tutorials
CN108520741A (en) 2018-04-12 2018-09-11 科大讯飞股份有限公司 A kind of whispering voice restoration methods, device, equipment and readable storage medium storing program for executing

Also Published As

Publication number Publication date
JP2021081527A (en) 2021-05-27

Similar Documents

Publication Publication Date Title
CN111369971B (en) Speech synthesis method, device, storage medium and electronic equipment
EP3824462B1 (en) Electronic apparatus for processing user utterance and controlling method thereof
CN111899719A (en) Method, apparatus, device and medium for generating audio
US10811005B2 (en) Adapting voice input processing based on voice input characteristics
EP2485212A1 (en) Speech translation system, first terminal device, speech recognition server device, translation server device, and speech synthesis server device
US12198675B2 (en) Electronic apparatus and method for controlling thereof
US20100228548A1 (en) Techniques for enhanced automatic speech recognition
JP2017058673A (en) Dialog processing apparatus and method, and intelligent dialog processing system
CN110197655B (en) Method and apparatus for synthesizing speech
JP2008083376A (en) Voice translation device, voice translation method, voice translation program and terminal device
CN112513984A (en) Electronic device and control method thereof
KR20200080400A (en) Method for providing sententce based on persona and electronic device for supporting the same
CN113205793B (en) Audio generation method and device, storage medium and electronic equipment
US20200194003A1 (en) Meeting minute output apparatus, and control program of meeting minute output apparatus
CN113421571B (en) Voice conversion method and device, electronic equipment and storage medium
CN114242035A (en) Speech synthesis method, apparatus, medium, and electronic device
CN111785247A (en) Voice generation method, device, equipment and computer readable medium
CN114495901A (en) Speech synthesis method, speech synthesis device, storage medium and electronic equipment
US10866948B2 (en) Address book management apparatus using speech recognition, vehicle, system and method thereof
EP1899955B1 (en) Speech dialog method and system
US10529324B1 (en) Geographical based voice transcription
JP2020027132A (en) Information processing device and program
JP7495220B2 (en) Voice recognition device, voice recognition method, and voice recognition program
US20190304457A1 (en) Interaction device and program
KR102622350B1 (en) Electronic apparatus and control method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220805

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240523

R150 Certificate of patent or registration of utility model

Ref document number: 7495220

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150