JP6824547B1 - アクティブラーニングシステム及びアクティブラーニングプログラム - Google Patents
アクティブラーニングシステム及びアクティブラーニングプログラム Download PDFInfo
- Publication number
- JP6824547B1 JP6824547B1 JP2020107356A JP2020107356A JP6824547B1 JP 6824547 B1 JP6824547 B1 JP 6824547B1 JP 2020107356 A JP2020107356 A JP 2020107356A JP 2020107356 A JP2020107356 A JP 2020107356A JP 6824547 B1 JP6824547 B1 JP 6824547B1
- Authority
- JP
- Japan
- Prior art keywords
- character information
- recognition model
- voice
- information
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
この種の技術は、予め様々な話者の音声(質問)と、対応する文字情報(教師データ)との組合せ(データセット)を多数学習させることにより、いわゆる音声認識モデルと呼ばれるプログラムを生成し、この音声認識モデルに未知の対象話者の音声を入力することで、その音声に対応する文字情報を出力するように構成されている。
例えば、amazon(登録商標)社やマイクロソフト(登録商標)社などの事業者は、自身が保有する音声認識モデルに基づくAPI(Application Programming Interface)を提供しており、当該APIを用いた自動文字起こし(音声文字変換)サービスが提供されている。
ところで、音声認識モデルにおける認識精度(文字正解率)を向上させるための一手法として、アクティブラーニングが知られている(例えば、特許文献1参照)。システムによる識別結果(抽出対象となるエンティティ)を人手で修正し、適切なエンティティのみを新たなエンティティ集合として、繰り返し学習を行う半自動の技術(非特許文献2等参照)が提案されているシステムによる識別結果(抽出対象となるエンティティ)を人手で修正し、適切なエンティティのみを新たなエンティティ集合として、繰り返し学習を行う半自動の技術(非特許文献2等参照)が提案されているシステムによる識別結果(抽出対象となるエンティティ)を人手で修正し、適切なエンティティのみを新たなエンティティ集合として、繰り返し学習を行う半自動の技術(非特許文献2等参照)が提案されている
アクティブラーニングは、入出力モデルの認識結果を人手で修正するものであり、例えば、信頼度の低いデータに対して人間がラベル付け(アノテーション)を行ったものを追加学習することで、入出力モデルの認識精度を向上させることができるものである。
本発明の第1実施形態のアクティブラーニングシステムについて図面を参照して説明する。
図1は、第1実施形態のアクティブラーニングシステムの概略構成図である。
図1に示すように、第1実施形態のアクティブラーニングシステムは、第1サーバ1と、第2サーバ2と、端末装置3とを備え、これらがインターネットなどのネットワーク4を介して通信可能に接続されている。
第1サーバ1及び第2サーバ2は、いわゆる文字起こしサービスをAPI(Web−API)により端末装置3に対して提供可能なAPIサーバである。
端末装置3は、利用者が利用する端末機器であり、例えばスマートフォン、パーソナルコンピュータ、スマートグラス(ウェアラブル端末)などを想定している。
図2(a)に示すように、第1サーバ1は、プロセッサ11と、メモリ12と、ストレージ13と、通信装置14とを備えるコンピュータである。
プロセッサ11は、制御部、演算部、レジスタ等を含む中央処理部(CPU)を備え、コンピュータ全体を制御する。
プロセッサ11は、プログラム(本発明のアクティブラーニングプログラムを含む)及びデータ等を、ストレージ13や通信装置14からメモリ12に読み出し、これらに従って各種の処理を実行する。
メモリ12は、コンピュータが読み取り可能な記録媒体であり、例えば、ROM、EPROM、EEPROM、RAM等である。
第1サーバ1のストレージ13には、音声認識モデル(第1音声認識モデルm1)が記憶されており、また、この第1音声認識モデルm1を生成するためのデータセットを記憶できるようになっている。
通信装置14は、有線及び/又は無線による通信回線を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等である。
なお、第2サーバ2のハードウェア構成は、第1サーバ1のハードウェア構成は同じである。
異なる点として、第2サーバ2のストレージ23には、第2音声認識モデルm2が記憶されており、また、この第2音声認識モデルm2を生成するためのデータセットを記憶できるようになっている。
その他の構成は、第1サーバ1と同様であるため、説明を省略する。
図3に示すように、端末装置3は、プロセッサ31と、メモリ32と、ストレージ33と、入力装置34と、出力装置35と、通信装置16とを備えるコンピュータである。
プロセッサ31は、制御部、演算部、レジスタ等を含む中央処理部(CPU)を備え、コンピュータ全体を制御する。
プロセッサ31は、プログラム(本発明のアクティブラーニングプログラムを含む)及びデータ等を、ストレージ33や通信装置36からメモリ32に読み出し、これらに従って各種の処理を実行する。
メモリ32は、コンピュータが読み取り可能な記録媒体であり、例えば、ROM、EPROM、EEPROM、RAM等である。
入力装置34は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。
このうち、キーボードやマウスは、端末装置3がパーソナルコンピュータの場合の操作手段として機能し、ボタンやセンサは、端末装置3がスマートフォンの場合の操作手段として機能し、スイッチやボタンは、端末装置3がスマートグラスの場合の操作手段として機能する。
出力装置35は、外部への出力を実施する出力デバイス(例えば、モニター、ディスプレイ、表示パネル、スピーカー、LEDランプなど)である。
本実施形態の端末装置3は、出力装置35として、モニター、ディスプレイ、表示パネルなどの表示部351を備えている。
通信装置36は、有線及び/又は無線による通信回線を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等である。
図4に示すように、第1サーバ1は、データセット記憶部101と、音声認識モデル生成部102と、第1音声認識モデルm1と、を備える。
第2サーバ2は、第2音声認識モデルm2を備える。
端末装置3は、相違部分特定部301と、相違部分表示部302と、選択部303と、文字起こし情報生成部304と、文字起こし情報修正部305と、を備える。
第1サーバ1及び第2サーバ2は、プロセッサ11がアクティブラーニングプログラムを実行して各部を制御することで、以下に示す機能が実現され、端末装置3は、プロセッサ31がアクティブラーニングプログラムを実行して各部を制御することで、以下に示す機能が実現される。
図5は、当初の第1音声認識モデルm1の生成時に用いられたデータセットの一例である
図5に示すように、データセットは、話者が「あ」と発したときの音声情報と、その教師データである文字情報「あ」とが対応付けて構成される。
「あ」、「い」のように短音単位で文字情報がラベリングされたものや、「りんご」のように単語単位で文字情報がラベリング(対応付け)されたものや、「わたしはりんごをもっています」のように、フレーズ単位で文字情報がラベリングされたものがある。
また、「apple」や「I have an apple」のように、英語の短音、単語、フレーズごとに文字情報をラベリングしたものを用いることもできる。
なお、図5は、一例であり、実際には、多数のデータセットが用意され、これら多数のデータセットに基づき、第1音声認識モデルm1が生成される。
データセットは、日本語だけで構成してもよく、英語だけで構成してもよく、日本語や英語以外の言語を単独で又は組み合わせて構成することもできる。
また、図5は、説明の便宜上、音声を波形によって模式的に表現しているが、音声を識別可能な定量的なデータ(特徴情報など)を用いることができる。
図6(a)は、第1音声認識モデルm1のイメージ図である。
機械学習では、公知の深層学習(ディープラーニング)などのニューラルネットワークが用いられる。
すなわち、音声認識モデルは、大量のデータセットをニューラルネットワークに学習させることで生成される。
例えば、ニューラルネットワークにおいて、入力層に、図5(a)の音声(既知の音声)を入力することで、出力層から図5(b)の文字情報((a)の音声に対応する教師データとしての文字情報)が出力されるように重みやバイアスを学習(最適化)させることで、未知の音声を入力するとその音声に対応する文字情報(入力した音声に対応する正解の文字情報)を高確率に出力可能な入出プログラムが音声認識モデル(第1音声認識モデルm1)として生成される(図6(a))。
公知のCNN(畳み込みニューラルネットワーク)、RNN(再帰型ニューラルネットワーク)、LSTM等を用いることもできる。
第1サーバ1は、音声認識モデル生成部102により生成された第1音声認識モデルm1をストレージ13に記憶している。
図6(b)は、第2音声認識モデルm2のイメージ図である。
すなわち、第1サーバ1及び第2サーバ2は、それぞれ音声認識モデルを保有している。
これにより、ネットワーク4に接続された端末装置3では、入力した音声を文字に変換する文字起こし処理を、第1サーバ1及び第2サーバ2が提供するAPIを介して実行できるようになっている。
ただし、第1音声認識モデルm1と第2音声認識モデルm2は、それぞれは、データセットやニューラルネットワークの構成(層数その他)が異なるなど、独立した相異なる音声認識モデルである。
例えば、第1音声認識モデルm1は、事業者A(Amazon社)により運営されているサーバ(第1サーバ1)に保有され、このサーバにより提供される文字起こしサービス(Amazon Transcribe)に用いられる音声認識モデルを想定することができる。
一方、第2音声認識モデルm2は、事業者B(マイクロソフト社)により運営されているサーバ(第2サーバ2)に保有され、このサーバにより提供される文字起こしサービス(Speech to text)に用いられる音声認識モデルを想定することができる。
これは、第1音声認識モデルm1と第2音声認識モデルm2は、いずれも、その正解率が100%でないことからも当然の事象である。
ただし、第1音声認識モデルm1と第2音声認識モデルm2は、いずれも、その正解率は高確率(例えば事業用のもので85%〜95%との報告がある)であることを前提としている。
このため、第1音声認識モデルm1と第2音声認識モデルm2に、それぞれ未知の音声を入力したときに、どちらもが誤った文字情報を出力する可能性は低い。
また、同一の対象話者の音声を、第1音声認識モデルm1と第2音声認識モデルm2のそれぞれに入力して文字情報を出力させた場合において、それらの文字情報が相異なる場合、論理的には、一方の文字情報は正しく、他方の文字情報は誤っている可能性が高い。
具体的には、端末装置3において、マイクロフォンから対象話者の音声を入力すると、音声送信部300が、第1サーバ1に当該対象話者の音声を送信する。
第1サーバ1は、端末装置3から受信した対象話者の音声を第1音声認識モデルm1に入力し、当該第1音声認識モデルm1から第1文字情報を出力させる。
第1サーバ1は、この第1文字情報を端末装置3に送信する。
また、端末装置3の音声送信部300は、マイクロフォンから入力された対象話者の音声を、第2サーバ2にも送信する。
第2サーバ2は、端末装置3から受信した対象話者の音声を第2音声認識モデルm2に入力し、当該第2音声認識モデルm2から第2文字情報を出力させる。
第2サーバ2は、この第2文字情報を端末装置3に送信する。
端末装置3は、第1サーバ1から受信した第1音声情報と、第2サーバ2から受信した第2音声情報と、入力した対象話者の音声とを対応付けてメモリ32に記憶する。
図7は、(a)が、対象話者の音声「・・It is important.・・」を第1音声認識モデルm1に入力したときに出力された第1文字情報「・・It is imported.・・」を示す図であり、(b)が、対象話者の音声を第2音声認識モデルm2に入力したときに出力された第2文字情報「・・It is important.・・」を示す図ある。
生成された文字起こし情報Rは表示部351に表示したり、ストレージ33に記憶することができる。
例えば、利用者が、対象話者と打合せや会議を行う場面において、当該対象話者と対話しながらその音声の文字情報(文字起こし情報R)をリアルタイムに見ることができる。
図8(a)は、対象話者が「・・It is important.・・」と発音した場合において、その音声に対応する第1文字情報「・・It is imported.・・」が文字起こし情報Rとして表示部351の上部領域に表示されたことを示している。
図9は、ストレージ33に記憶された文字起こし情報Rを模式的に示す図である。
ストレージ33に記憶された文字起こし情報Rは、プリンタにより印刷したり、外部に送信したり、リムーバブルメディアに記憶させるなどして利用することができる。
文字起こし情報Rは、第1音声認識モデルm1の出力結果である第1文字情報に基づいて生成されるところ、図8(a)及び図9は、その出力結果が誤っているために(正しくは「important」)、表示又は記憶される文字起こし情報Rにおいても、誤った文字情報(「imported」)が含まれていることを示している。
このように、文字起こし情報生成部304は、第1文字情報に基づいて文字起こし情報Rを生成するが、第2文字情報に基づいて文字起こし情報Rを生成しない。
ただし、文字起こし情報Rを、第2文字情報に基づいて生成したり、第1文字情報と第2文字情報とに基づく2つの文字起こし情報Rを生成することもできる。
具体的には、メモリ32を参照することにより、第1サーバ1から受信した第1文字情報と第2サーバ2から受信した第2文字情報とを比較し、これらの相違部分を特定する。
相違部分の有無は、一定の文字数毎、フレーズごと、単語毎、行毎、ページ毎など、様々な単位で判断することができ、また、所定のタイミングで判断することができる。
図7の例においては、第1文字情報「・・It is imported.・・」と第2文字情報「・・It is important.・・」との比較により、第1文字情報「imported」と第2文字情報「important」とが相違部分として特定される。
図8(a)は、相違部分表示部302により第1文字情報「imported」と第2文字情報「important」とが表示部351の下部領域に表示されていることを示している。
同図に示すように、対象話者が発話するのと同時に文字起こし情報Rを表示しながら、相違部分を示す情報(例えば下線)を表示することができる(上部領域)。
また、このとき、相違部分に対応する第1文字情報と第2文字情報のうち、利用者が正しいと判断する方の文字情報の選択を促す情報(・・・or・・・?)を表示することもできる(下部領域)。
具体的には、利用者が、所定の操作手段(例えば、マウス操作やボタン操作)により、表示されている第1文字情報と第2文字情報のうち一方の文字情報が選択される。
これは、第1音声認識モデルm1の出力結果である第1文字情報と、第2音声認識モデルm2の出力結果である第2文字情報とが異なる場合、一方が正しく他方が誤っている可能性が高いため、どちらが正しいかを利用者の選択操作を介して選択させるためである。
図8(b)は、利用者の操作によって「important」(第2文字情報)が選択されたことを示している。
つまり、同図は、利用者が、対象話者の音声を聞いたことにより把握した言葉と合う文字情報として、第2文字情報「important」が正しい(つまり、第1文字情報「imported」が誤り)と判断したために、第2文字情報「important」を選択したことを示している。
例えば、第1文字情報「imported」と第2文字情報「important」のうち、第2文字情報が選択された場合、第2文字情報が正しく、第1文字情報は誤りの可能性が高いため、第1文字情報に基づいて生成されている文字起こし情報Rにおける「imported」の部分を第2文字情報「important」に修正する。
図10は、文字起こし情報R(図9)における「imported」の部分が「important」に修正されたことを示している。
第1サーバ1は、端末装置3から第2文字情報を受信すると、データセット記憶部101が、当該第2文字情報を出力(教師データ)とし、対応する対象話者の音声を入力とするデータセットを追加して記憶する。
図11は、元のデータセット(図5)に、選択部303により選択された第2文字情報を出力(教師データ)とし、対応する対象話者の音声を入力とするデータセットが追加されたことを示している。
そして、音声認識モデル生成部102が、追加されたデータセットを追加学習させることにより音声認識モデル(第1音声認識モデルm1)を再生成(更新)する。
図12は、更新された第1音声認識モデルm1−1に音声「・・It is important.・・」を入力した場合に、出力結果として正しい文字情報「・・It is important.・・」が出力されたことを示している。
つまり、同図は、更新された第1音声認識モデルm1−1に音声「・・It is important.・・」を入力した場合には、正しい出力結果が得られる可能性が高くなることを示している。
まず、対象話者の音声を第1音声認識モデルm1に入力すると共に、第2音声認識モデルm2に入力する(S1)。
具体的には、端末装置3において対象話者の音声を入力すると、音声送信部300が第1サーバ1及び第2サーバ2にその音声をそれぞれ送信する。
第1サーバ1は、端末装置3から受信した音声を第1音声認識モデルm1に入力する。
第2サーバ2は、端末装置3から受信した音声を第2音声認識モデルm2に入力する。
これにより、第1音声認識モデルm1から第1文字情報が出力され、第2音声認識モデルm2から第2文字情報が出力される(S2)。
第1サーバ1は、出力された第1文字情報を端末装置3に送信する。
第2サーバ2は、出力された第2文字情報を端末装置3に送信する。
端末装置3は、第1サーバ1から受信した第1文字情報及び第2サーバ2から受信した第2文字情報を、入力された対象話者の音声と対応付けてメモリ32に記憶する。
具体的には、文字起こし情報生成部304が、第1サーバ1から受信した第1文字情報に基づいて文字起こし情報Rを生成する。
生成された文字起こし情報Rは、表示部351に表示したり、ストレージ33に記憶される。
続いて、第1文字情報と第2文字情報の相違部分が有るか否かを判定する(S4)。
具体的には、相違部分特定部301が、メモリ32を参照することにより、第1サーバ1から受信した第1文字情報と第2サーバ2から受信した第2文字情報とを対比し、異なる文字があるか否かを判定する。
具体的には、相違部分表示部302が、相違部分特定部301により特定された相違部分の第1文字情報と第2文字情報とを選択可能な態様で表示する。
ここで、利用者の操作に応じ、第1文字情報と第2文字情報のうちのいずれか一方を選択する(S6)。
つまり、第1文字情報と第2文字情報のうちどちらが正しいかを利用者に選択させる。
具体的には、S3において生成された文字起こし情報Rにおける、相違部分の第1文字情報を、S7において選択された第2文字情報に修正する。
また、第2文字情報(出力)と、これに対応する対象話者の音声(入力)とをデータセットとして追加学習させることにより、第1音声認識モデルm1を再生成する(S9)。
具体的には、S7において選択された第2文字情報(出力)と、S4において判定された相違部分の第2文字情報と対応する対象話者の音声(メモリ32において、その第2文字情報と対応付けて記憶されてある対象話者の音声)を入力とするデータセットを追加して記憶し、音声認識モデル生成部102が、追加されたデータセットを追加学習することによって新たな第1音声認識モデルm1−1を生成(更新)する。
なお、S4において、相違部分が有ることが判定されなかった場合(S4−No)、以降の処理(S5〜S9)は実行しない)。
第1文字情報と第2文字情報との相違部分がない場合、第1音声認識モデルm1の出力結果と第2音声認識モデルm2の出力結果はどちらも正しい可能性が高く、文字起こし情報Rを修正したり、第1音声認識モデルm1を修正する必要性がないからである。
また、S7において、第2文字情報が選択されなかった場合(S7−No)、つまり、第1文字情報が選択された場合、文字起こし情報Rの修正(S8)は行わない。
そもそも、文字起こし情報Rは第1文字情報に基づいて生成されているため、修正する必要がないからである。
また、この場合、第1音声認識モデルm1の再生成(S9)も行わない。
第1音声認識モデルm1の出力結果は正しい可能性が高く、第1音声認識モデルm1の更新の必要がないからである。
ただし、この場合でも、選択された第1文字情報を出力(教師データ)とし、対応する対象話者の音声を入力とするデータセットを学習させることで、第1音声認識モデルm1を再生成することもできる。
図14は、第2実施形態のアクティブラーニングシステムの機能を示すブロック図である。
第2実施形態のアクティブラーニングシステムは、端末装置3が文字起こし情報生成部304や文字起こし情報修正部305など、文字起こし処理に関する構成を備えていない点において第1実施形態のアクティブラーニングシステムと異なる。他の構成は、第1実施形態のアクティブラーニングシステムと共通する。
つまり、第2実施形態のアクティブラーニングシステムにおいては、対象話者の音声を第1音声認識モデルm1と第2音声認識モデルm2に入力し、その出力結果である第1文字情報と第2文字情報との相違部分について、正しい文字情報として第2文字情報が利用者の操作により選択された場合は、当該第2文字情報を含むデータセットを学習させることで第1音声認識モデルm1を更新する。
このように、文字起こし処理に関する構成を備えなくとも、利用者の選択操作だけで第1音声認識モデルm1の更新を効率よく行うことができる。
図15は、第3実施形態のアクティブラーニングシステムの機能を示すブロック図である。
第3実施形態のアクティブラーニングシステムは、第1サーバ1が保有する第1音声認識モデルm1と、第2サーバ2が保有する第2音声認識モデルm2の両方を更新可能にしている点で第1実施形態や第2実施形態のアクティブラーニングシステムと異なる。他の構成は第2実施形態のアクティブラーニングシステムと共通する。
具体的には、第2サーバ2において、データセット記憶部201や音声認識モデル生成部202といった音声認識モデルの生成処理に関する構成を備えている。
そのうえで、端末装置3は、選択部303により選択された文字情報が第2文字情報の場合、当該第2文字情報を第1サーバ1に送信し、選択部303により選択された文字情報が第1文字情報の場合、当該第1文字情報を第2サーバ2に送信する。
第1サーバ1は、データセット記憶部101において、端末装置3から受信した第2文字情報を出力(教師データ)とし、対応する対象話者の音声を入力とするデータセットを追加して記憶し、当該追加されたデータセットを追加学習することで第1音声認識モデルm1を再生成する。
第2サーバ2は、データセット記憶部101において、端末装置3から受信した第1文字情報を出力(教師データ)とし、対応する対象話者の音声を入力とするデータセットを追加して記憶し、当該追加されたデータセットを追加学習することで第2音声認識モデルm2を再生成する。
これにより、第1文字情報と第2文字情報とが異なる場合は、必ず、誤っている方の音声認識モデルを更新することができる。
図16は、第4実施形態のアクティブラーニングシステムの機能を示すブロック図である。
図16に示すように、第4実施形態のアクティブラーニングシステムは、第1実施形態の構成と第3実施形態の構成を組み合わせた構成にしている。
このため対象話者の音声に基づいて文字起こし情報Rの生成や修正を行いつつ、第1音声認識モデルm1や第2音声認識モデルm2の更新を行うことができる。
第1〜第4実施形態のアクティブラーニングシステムは、Web−APIとして直接的に提供される文字起こしサービスに適用されるほか、ZOOM(登録商標)などのWeb会議システムにおいてオプション的に提供される文字起こしサービスに適用することができる。
この場合、図17(a)に示すように、Web会議画面に、会議相手の音声の文字起こし情報Rを表示部351に表示することができる。
これにより、利用者はWeb会議をしながら、会議相手の音声の文字起こし情報Rをリアルタイムに見ることや、文字起こし情報Rの修正を簡単に行うことができ、この結果、誤記の少ない文字起こし情報R(議事録)を生成しつつ、認識精度の高い音声認識モデルへの更新を行うことができる。
また、第1〜第4実施形態のアクティブラーニングシステムは、端末装置3にスマートグラスを適用することができる。
この場合、図17(b)に示すように、レンズ部等に設けられた表示部351に文字起こし情報Rを表示することができる。
これにより、利用者は、スマートグラスを装着するだけで、対象話者と対話しながら当該話者の音声の文字起こし情報Rをリアルタイムに見ることができる。
この場合も、利用者は例えば会議や打合せをしながら、相手の音声の文字起こし情報Rをリアルタイムに見ることや、文字起こし情報Rの修正を行うことができ、この結果、誤記の少ない文字起こし情報R(議事録)を生成しつつ、認識精度の高い音声認識モデルへの更新を行うことができる。
特に、音声認識モデルを用いて提供される文字起こしサービスにおいて文字起こし情報Rの簡単な修正操作を行いながら誤記の少ない文字起こし情報Rを作成しつつ、認識精度の高い音声認識モデルへの更新(アクティブラーニング)を行うことができる。
このため、音声認識モデルの認識精度を効率よく向上させることができる。
例えば、上述した各実施形態は、Web−APIの一例であり、各構成がサーバや端末装置に分散して設けられているが、1つの情報処理装置(サーバや端末装置)に全ての構成を備えさせることでも本発明を実現することができる。
具体的には、パーソナルコンピュータに各構成を実施可能なアクティブラーニングプログラムをインストールすればよく、この場合は、複数の音声認識モデルは内部(記憶手段)に設けてもよく、外部の装置(記憶装置や他の情報処理装置)に設けてもよい。
すなわち、上述の実施形態においては、利用者が正しい文字情報と判断して一方の文字情報(第2文字情報)を選択した場合に、誤っているであろう他方の文字情報(第1文字情報)から生成された文字起こし情報Rをその一方の文字情報に修正し、誤っているであろう他方の文字情報を出力した音声認識モデル(第1音声認識モデルm1)の再生成を行う構成としている。
これに限らず、選択部303は、利用者の操作に応じ、相違部分に対応する第1文字情報と第2文字情報のうち利用者が誤っていると判断した方の文字情報を選択する構成とすることもできる
すなわち、利用者が誤っている文字情報と判断して一方の文字情報(第1文字情報)を選択した場合に、正しいであろうその一方の文字情報(第1文字情報)から生成された文字起こし情報Rを他方の文字情報(第2文字情報)に修正し、誤っているであろう一方の文字情報を出力した音声認識モデル(第1音声認識モデルm1)の再生成を行う構成とすることができる。
この場合も、相違部分が検出された場合に、正しい文字情報によって誤った文字起こし情報Rを修正し、誤った音声認識モデルにおける追加学習を行えばよい。
101 データセット記憶部
102 音声認識モデル生成部
2 第2サーバ
201 データセット記憶部
202 音声認識モデル生成部
3 端末装置
32 メモリ
33 ストレージ
351 表示部
300 音声送信部
301 相違部分特定部
302 相違部分表示部
303 選択部
304 文字起こし情報生成部
305 文字起こし情報修正部
4 ネットワーク
m1 第1音声認識モデル
m2 第2音声認識モデル
R 文字起こし情報
Claims (4)
- 利用者端末の画面を介して対話相手と対話可能なシステムにおいて、
話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで生成された第1音声認識モデルと、
前記対話相手の音声を前記第1音声認識モデルに入力することにより当該第1音声認識モデルから出力された第1文字情報を、所定の態様で出力可能な文字起こし情報として生成する文字起こし情報生成部と、
前記第1音声認識モデルから出力された第1文字情報と、前記対話相手の音声を前記第1音声認識モデルとは異なる第2音声認識モデルに入力することにより当該第2音声認識モデルから出力された第2文字情報と、の相違部分を特定する相違部分特定部と、
前記相違部分特定部により特定された相違部分に対応する、第1文字情報と、第2文字情報と、を、前記利用者端末の画面に表示する表示手段と、
利用者の操作に応じ、前記利用者端末の画面に表示された、第1文字情報と第2文字情報のうちのいずれか一方を正しい認識結果として選択可能な選択部と、
前記選択部により前記第2文字情報が選択された場合、前記相違部分に対応する前記文字起こし情報を前記第2文字情報に修正する文字起こし情報修正部と、
前記選択部により前記第2文字情報が選択された場合、当該第2文字情報を出力とし、対応する前記対話相手の音声を入力とするデータセットを追加学習させることで前記第1音声認識モデルを更新する音声認識モデル更新部と、を備えた
ことを特徴とするアクティブラーニングシステム。 - 前記選択部は、
前記利用者の操作に応じ、前記利用者端末の画面に表示された、第1文字情報と第2文字情報のうちのいずれか一方を誤った文字情報として選択可能であり、
前記文字起こし情報修正部は、
前記選択部により前記第1文字情報が選択された場合、前記相違部分に対応する前記文字起こし情報を前記第2文字情報に修正し、
前記音声認識モデル更新部は、
前記選択部により前記第1文字情報が選択された場合、前記第2文字情報を出力とし、対応する前記対話相手の音声を入力とするデータセットを追加学習させることで前記第1音声認識モデルを更新する
ことを特徴とする請求項1に記載のアクティブラーニングシステム。 - 利用者端末の画面を介して対話相手と対話可能なシステムにおいて、
話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで生成される複数の音声認識モデルと、
前記対話相手の音声を前記複数の音声認識モデルにそれぞれ入力することにより当該音声認識モデルから出力された複数の文字情報のうちのいずれかを文字起こし情報として生成する文字起こし情報生成部と、
前記複数の音声認識モデルから出力された複数の文字情報における相違部分を特定する相違部分特定部と、
前記相違部分特定部により特定された相違部分に対応する、複数の文字情報を、前記利用者端末の画面に表示する表示手段と、
利用者の操作に応じ、前記利用者端末の画面に表示された、複数の文字情報のうちのいずれかを正しい認識結果として選択可能な選択部と、
前記文字起こし情報が第1の音声認識モデルから出力された第1文字情報により生成されている場合において、前記選択部により前記第1の音声認識モデルとは異なる第2の音声認識モデルから出力された第2文字情報が選択された場合、前記相違部分に対応する前記文字起こし情報を前記第2文字情報に修正し、
前記文字起こし情報が前記第2文字情報により生成されている場合において、前記選択部により前記第1文字情報が選択された場合、前記相違部分に対応する前記文字起こし情報を前記第1文字情報に修正する文字起こし情報修正部と、
前記文字起こし情報が第1の音声認識モデルから出力された第1文字情報により生成されている場合において、前記選択部により前記第2文字情報が選択された場合、当該第2文字情報を出力とし、対応する前記対話相手の音声を入力とするデータセットを追加学習させることで前記第1音声認識モデルを更新する第1音声認識モデル更新部と、
前記文字起こし情報が前記第2文字情報により生成されている場合において、前記選択部により前記第1文字情報が選択された場合、当該第1文字情報を出力とし、対応する前記対話相手の音声を入力とするデータセットを追加学習させることで前記第2音声認識モデルを更新する第2音声モデル更新部と、を備えた
ことを特徴とするアクティブラーニングシステム。 - 前記選択部は、
利用者の操作に応じ、前記利用者端末の画面に表示された、複数の文字情報のうちのいずれかを誤った認識結果として選択可能であり、
前記文字起こし情報修正部は、
前記文字起こし情報が前記第1文字情報により生成されている場合において、前記選択部により前記第1文字情報が選択された場合、前記相違部分に対応する前記文字起こし情報を前記第2文字情報に修正し、
前記文字起こし情報が前記第2文字情報により生成されている場合において、前記選択部により前記第2文字情報が選択された場合、前記相違部分に対応する前記文字起こし情報を前記第1文字情報に修正し、
前記第1音声認識モデル更新部は、
前記文字起こし情報が前記第1文字情報により生成されている場合において、前記選択部により前記第1文字情報が選択された場合、前記第2文字情報を出力とし、対応する前記対話相手の音声を入力とするデータセットを追加学習させることで前記第1音声認識モデルを更新し、
前記第2音声認識モデル更新部は、
前記文字起こし情報が前記第2文字情報により生成されている場合において、前記選択部により前記第2文字情報が選択された場合、前記第1文字情報を出力とし、対応する前記対話相手の音声を入力とするデータセットを追加学習させることで前記第2音声認識モデルを更新する
ことを特徴とする請求項3に記載のアクティブラーニングシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020107356A JP6824547B1 (ja) | 2020-06-22 | 2020-06-22 | アクティブラーニングシステム及びアクティブラーニングプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020107356A JP6824547B1 (ja) | 2020-06-22 | 2020-06-22 | アクティブラーニングシステム及びアクティブラーニングプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6824547B1 true JP6824547B1 (ja) | 2021-02-03 |
JP2022001930A JP2022001930A (ja) | 2022-01-06 |
Family
ID=74228040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020107356A Expired - Fee Related JP6824547B1 (ja) | 2020-06-22 | 2020-06-22 | アクティブラーニングシステム及びアクティブラーニングプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6824547B1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7236570B1 (ja) | 2022-01-11 | 2023-03-09 | ソフトバンク株式会社 | システム、通信端末、及び方法 |
CN118427728A (zh) * | 2024-05-23 | 2024-08-02 | 重庆舟海智能科技股份有限公司 | 一种基于决策树的计步算法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4902617B2 (ja) * | 2008-09-30 | 2012-03-21 | 株式会社フュートレック | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム |
JP5558284B2 (ja) * | 2010-09-15 | 2014-07-23 | 株式会社Nttドコモ | 音声認識システム、音声認識方法、および音声認識プログラム |
JP2012088370A (ja) * | 2010-10-15 | 2012-05-10 | Denso Corp | 音声認識システム、音声認識端末、およびセンター |
CN105027198B (zh) * | 2013-02-25 | 2018-11-20 | 三菱电机株式会社 | 语音识别系统以及语音识别装置 |
US9640183B2 (en) * | 2014-04-07 | 2017-05-02 | Samsung Electronics Co., Ltd. | Speech recognition using electronic device and server |
JP6833203B2 (ja) * | 2017-02-15 | 2021-02-24 | フォルシアクラリオン・エレクトロニクス株式会社 | 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法 |
JP2019045788A (ja) * | 2017-09-06 | 2019-03-22 | 株式会社日立情報通信エンジニアリング | 通話音声認識システム及びその音声認識制御方法 |
JP7121461B2 (ja) * | 2018-09-27 | 2022-08-18 | 株式会社オプティム | コンピュータシステム、音声認識方法及びプログラム |
-
2020
- 2020-06-22 JP JP2020107356A patent/JP6824547B1/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7236570B1 (ja) | 2022-01-11 | 2023-03-09 | ソフトバンク株式会社 | システム、通信端末、及び方法 |
JP2023102137A (ja) * | 2022-01-11 | 2023-07-24 | ソフトバンク株式会社 | システム、通信端末、及び方法 |
CN118427728A (zh) * | 2024-05-23 | 2024-08-02 | 重庆舟海智能科技股份有限公司 | 一种基于决策树的计步算法 |
Also Published As
Publication number | Publication date |
---|---|
JP2022001930A (ja) | 2022-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10217464B2 (en) | Vocabulary generation system | |
US8849666B2 (en) | Conference call service with speech processing for heavily accented speakers | |
US11183187B2 (en) | Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog | |
JP6548045B2 (ja) | 会議システム、会議システム制御方法、およびプログラム | |
JP6705956B1 (ja) | 教育支援システム、方法及びプログラム | |
JP6824547B1 (ja) | アクティブラーニングシステム及びアクティブラーニングプログラム | |
US11922929B2 (en) | Presentation support system | |
US20190073994A1 (en) | Self-correcting computer based name entity pronunciations for speech recognition and synthesis | |
JP7119615B2 (ja) | サーバ、音データ評価方法、プログラム、通信システム | |
US20210398538A1 (en) | Transcription of communications | |
JP6166831B1 (ja) | 単語学習支援装置、単語学習支援プログラム、単語学習支援方法 | |
KR102585795B1 (ko) | 멀티미디어 제공 애플리케이션을 통한 다언어 번역 제공 방법 | |
JP2017021245A (ja) | 語学学習支援装置、語学学習支援方法および語学学習支援プログラム | |
JP2014038150A (ja) | 音声対話システム及び音声対話方法 | |
KR102128812B1 (ko) | 로봇의 사회 지능 평가 방법 및 이를 위한 장치 | |
KR20070053802A (ko) | 대화 시스템의 충실도를 향상시키는 방법 및 컴퓨터이용가능 매체 | |
CN113973095A (zh) | 发音教学方法 | |
KR20210042277A (ko) | 음성 처리 방법 및 장치 | |
CN112309183A (zh) | 适用于外语教学的交互式听说练习系统 | |
KR20210011896A (ko) | 발음 교정 시스템의 구동 방법 | |
JP2020119043A (ja) | 音声翻訳システムおよび音声翻訳方法 | |
US20240339041A1 (en) | Conversational teaching method and system and server thereof | |
JPWO2011121884A1 (ja) | 外国語会話支援装置、そのコンピュータプログラムおよびデータ処理方法 | |
JP2024077596A (ja) | 対話サービス提供システム、情報処理装置、対話サービス提供方法、及びプログラム | |
JP2024142497A (ja) | 会議支援システム、会議支援方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200808 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200808 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200808 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201009 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6824547 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |