JP7055529B1

JP7055529B1 - 意味判定プログラム、及び意味判定システム

Info

Publication number: JP7055529B1
Application number: JP2022025781A
Authority: JP
Inventors: 継河合
Original assignee: クリスタルメソッド株式会社
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-04-18
Anticipated expiration: 2042-02-22
Also published as: JP2023122209A

Abstract

【課題】意味データを精度よく判定できる意味判定プログラム、及び意味判定システムを提供する。
【解決手段】音データを取得する取得ステップと、前記取得ステップにより取得した音データから、音素を示す音素データと、前記音素の開始時点及び終了時点に関するセグメンテーションデータとを抽出する抽出ステップと、予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定ステップとをコンピュータに実行させることを特徴とする。
【選択図】図２

Description

本発明は、意味判定プログラム、及び意味判定システムに関する。

近年、音素の開始時点及び終了時点に関するセグメンテーションデータが、学習データの自動増加やデータ再利用と言う観点において有用であり、データ量を最小単位で利用することができることが期待されている。このことから、音素のセグメンテーションデータを用いた音声認識の技術が注目を集めており、例えば特許文献１の波形の形状分析に基づく音素セグメンテーション方法及びそれを使用する音素セグメンテーション装置が知られている。

特許文献１では、音声データに対して、その音声波形のゼロクロス周期を第１のパラメータとして演算し、音声波形のゼロクロス－ゼロクロス間の第１極大値の尖頭度を第２のパラメータとして演算し、音声波形のゼロクロス－ゼロクロス間で更新される所定期間毎の最大振幅を第３のパラメータとして演算し、音声波形のゼロクロス－ゼロクロス間の極大値数を第４のパラメータとして演算し、音声波形のゼロクロス時の振幅値のゼロ点への食い込み角度を第５のパラメータとして演算し、第１～第５のパラメータそれぞれに対して重みを与え、第１～第５の重み付きパラメータを乗算し、乗算結果をしきい値と比較して音素境界を判定する。これにより、特許文献１では、発話音声に対して確度の高い音素セグメンテーションを行うことができる技術が開示されている。

特開２００６－２８４９０７号公報

しかしながら、特許文献１の開示技術では、判定したセグメンテーションデータを用いて音データを音声認識する際に、音素データとセグメンテーションデータとに対する音データの意味を示す意味データを判定することを想定していない。そのため、特許文献１では、例えばユーザ毎にセグメンテーションデータに個人差がある場合においても、音素データとセグメンテーションデータとに対する意味データが一義的に判定されてしまうので、意味データを精度よく判定することができない。このため、意味データを精度よく判定することが求められている。

そこで本発明は、上述した問題に鑑みて案出されたものであり、その目的とするところは、意味データを精度よく判定できる意味判定プログラム、及び意味判定システムを提供することにある。

第１発明に係る意味判定プログラムは、音データを取得する取得ステップと、前記取得ステップにより取得した音データから、音素を示す音素データと、前記音素の開始時点及び終了時点に関するセグメンテーションデータとを抽出する抽出ステップと、予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定ステップとをコンピュータに実行させることを特徴とする。

第２発明に係る意味判定プログラムは、第１発明において、前記抽出ステップは、予め取得された参照用音データを含む抽出用入力データと、参照用音素データと参照用セグメンテーションデータとを含む抽出用出力データとを一組のデータセットとする抽出用学習データを複数用いて、機械学習により生成された抽出モデルを参照して、前記音データから前記音素データと前記セグメンテーションデータとを抽出することを特徴とする。

第３発明に係る意味判定プログラムは、第２発明において、前記抽出モデルは、擬似的に生成された前記参照用音データを含む抽出用入力データと、前記参照用音素データと前記参照用セグメンテーションデータとを含む抽出用出力データとを一組のデータセットとする前記抽出用学習データを用いて、機械学習により生成されることを特徴とする。

第４発明に係る意味判定システムは、音データを取得する取得手段と、前記取得手段により取得した音データから音素を示す音素データと、前記音素の開始時点から終了時点までの時間差を示すセグメンテーションデータとを抽出する抽出手段と、予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルが記憶されたデータベースと、前記判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定手段とを備えることを特徴とする。

第１発明～第３発明によれば、予め取得された参照用音素データと参照用セグメンテーションデータとに対する意味データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルを参照して、音素データとセグメンテーションデータとに対する意味データを判定する。即ち、意味判定プログラムを利用するユーザの個人差を踏まえた判定用学習データを用意することで、音素データとセグメンテーションデータとに対する適切な意味データを判定することができる。このため、ユーザ毎の個人差を考慮した意味データを精度よく判定できる。

特に、第２発明によれば、抽出ステップは、予め取得された参照用音データに対する参照用音素データと参照用セグメンテーションデータとを一組のデータセットとする抽出用学習データを複数用いて、機械学習により生成された抽出モデルを参照して、前記音データから前記音素データと前記セグメンテーションデータを抽出する。これにより、精度よく音素データとセグメンテーションデータとを抽出できる。このため、意味データを精度よく判定できる。

特に、第３発明によれば、抽出モデルは、擬似的に生成された参照用音データと、参照用音素データと参照用セグメンテーションデータとを一組のデータセットとする抽出用学習データを用いて、機械学習により生成される。これにより、擬似的に生成された音データを学習データとすることが可能となり、想定される環境に適した学習データを容易に取得することができる。このため、意味データを精度よく判定できる。

第４発明によれば、判定手段は、判定モデルを参照して、音素データとセグメンテーションデータとに対する意味データを判定する。即ち、意味判定システムを利用するユーザの個人差を踏まえた判定用学習データを用意することで、音素データとセグメンテーションデータとに対する適切な意味データを判定することができる。このため、ユーザ毎の個人差を考慮した意味データを精度よく判定できる。

図１は、実施形態における意味判定システムの一例を示す模式図である。図２は、実施形態における意味判定システムの動作の一例を示す模式図である。図３（ａ）は、音データの一例を示す模式図であり、図３（ｂ）は、スペクトログラムの一例を示す模式図である。図４（ａ）は、抽出モデルの学習方法の一例を示す模式図であり、図４（ｂ）は、判定モデルの学習方法の一例を示す模式図である。図５は、抽出モデルの一例を示す模式図である。図６は、判定モデルの一例を示す模式図である。図７（ａ）は、実施形態における意味判定装置の構成の一例を示す模式図であり、図（ｂ）は、実施形態における意味判定装置の機能の一例を示す模式図であり、図７（ｃ）は、ＤＢ生成部の一例を示す模式図である。図８は、処理部の一例を示す模式図である。図９は、実施形態における意味判定システムの動作の一例を示すフローチャートである。

以下、本発明を適用した実施形態における意味判定プログラム、及び意味判定システムの一例について、図面を参照しながら説明する。

図を用いて、本実施形態における意味判定システム１００、及び意味判定装置１の一例について説明する。図１は、本実施形態における意味判定システム１００の一例を示す模式図である。図２は、本実施形態における意味判定システム１００の動作の一例を示す模式図である。図４は、本実施形態における学習方法の一例を示す模式図である。

＜意味判定システム１００＞
意味判定システム１００は、音データを取得し、取得した音データの意味データの判定するために用いられる。

意味判定システム１００は、音データから音素データ及びセグメンテーションデータを抽出し、例えば学習データを用いた機械学習により生成されたデータベースを参照し、音素データ及びセグメンテーションデータに対する意味データを判定する。

意味判定システム１００は、例えば図１に示すように、意味判定装置１を備える。意味判定システム１００は、例えば端末２及びサーバ３の少なくとも何れかを備えてもよい。意味判定装置１は、例えば通信網４を介して端末２やサーバ３と接続される。

意味判定システム１００では、例えば図２に示すように、意味判定装置１は、音データを取得する。その後、意味判定装置１は、例えば抽出モデルを参照して、音データから音素データ及びセグメンテーションデータを抽出する。その後、意味判定装置１は、判定モデルを参照して、音素データ及びセグメンテーションデータに対する意味データを判定する。これにより、意味判定システム１００では、音データから抽出した音素データ及びセグメンテーションデータを判定できる。

抽出モデルは、入力された音データから、音素データ及びセグメンテーションデータを出力するモデルである。抽出モデルは、例えば機械学習により、生成されてもよい。抽出モデルは、例えば一組の予め取得された参照用音データと、参照用音素データ及び参照用セグメンテーションデータとを学習データ（抽出用学習データ）として用いて、生成される。抽出モデルは、複数の抽出用学習データを用いた機械学習により構築された学習済みモデルが用いられてもよい。なお、抽出モデルは、音データから音素データ及びセグメンテーションデータを抽出し得る手段であれば、例えば音素自動ラベリング等の公知の技術を用いてもよい。

判定モデルは、機械学習により生成される。判定モデルとして、例えば参照用音素データと参照用セグメンテーションデータとを入力データとし、入力データに対する判定を示す参照用意味データを出力データとして、入力データと出力データとを一組の学習データ（判定用学習データ）として用いて、生成される。判定モデルは、複数の判定用学習データを用いた機械学習により構築された、音素データ及びセグメンテーションデータから意味データを判定するための学習済みモデルが用いられる。

音データは、例えば意味判定システム１００によって出力される音素データ及びセグメンテーションデータを抽出するために用いられる。音データは、例えば図示しないマイク等の収音装置により収集された音に基づき生成される。音データは、例えば人の会話に基づいた音である。参照用音データとして、例えば後述する音データと同じデータ形式が用いられる。また、音データは、音から生成されたスペクトログラムの画像データを含んでもよい。

音データは、音を符号化したものである。音の符号化には例えば、量子化ビット数とサンプリング周波数と時間とで定まる長さのビット列として表されるパルス符号変調（ＰＣＭ）方式に基づくものと、音の波の疎密を１ｂｉｔで表現して一定の間隔で標本化するパルス密度変調（ＰＤＭ）方式に基づくものなどがある。また、音データは、例えば図３（ａ）に示すように、時間軸に対する振幅で示されてもよい。

スペクトログラムは、例えば図３（ｂ）に示すように、時間軸及び周波数軸に対する強度（振幅）で示され、例えばフーリエ変換（例えば短時間フーリエ変換）を用いて音データから変換される。スペクトログラムは、画像データとして用いられ、例えば１ピクセル×１ピクセルは、０．０６４ｓｅｃ×１５．６２４Ｈｚの範囲に対応する。

音素データは、音の音素を示すデータである。音素データは、例えば音データに含まれる音声の音素を示すデータである。音素データは、例えば音データに含まれる音声の母音と子音とに基づく音素を示すデータである。音素データは、母音と子音とが一対となる音素を示すデータでもよく、例えば「Ｏ：ＨＡ：ＹＯ：Ｕ」等のテキストデータを含む。

セグメンテーションデータは、音素の開始時点及び終了時点に関するデータである。セグメンテーションデータは、例えば音素の開始時点及び終了時点を示すテキストデータであってもよい。セグメンテーションデータは、例えば音素の開始時点から終了時点までの時間の長さを示すデータであってもよい。セグメンテーションデータは、例えば音素データに含まれる各音素に紐づくセグメンテーションを示すデータであってもよい。セグメンテーションデータは、例えば音素データに含まれる各音素の並びに紐づいて並べられた各セグメンテーションを示すデータでもよい。音素データとセグメンテーションデータとは、例えば表１のように、お互いに紐づけられたテーブルであってもよい。

音素データ及びセグメンテーションデータは、意味判定装置１により、例えば判定モデルを参照し、意味データを判定するために用いられる。音素データ及びセグメンテーションデータは、意味判定装置１により音データから抽出される。

参照用音素データ及び参照用セグメンテーションデータは、抽出モデルを機械学習により生成する際、抽出用学習データとして用いられる。参照用音素データ及び参照用セグメンテーションデータとして、例えば予め取得された音素データ及びセグメンテーションデータが用いられる。参照用音素データ及び参照用セグメンテーションデータとして、例えば音素データ及びセグメンテーションデータとそれぞれ同一のデータ形式が用いられる。参照用音素データ及び参照用セグメンテーションデータは、例えば実際に録音された音に基づく音データと、擬似的に生成された音データとの少なくとも何れかであってもよい。

参照用音データは、判定モデルを機械学習により生成する際、判定用学習データとして用いられる。参照用音データは、例えば予め取得された学習用音に基づく音データが用いられる。参照用泳データは、音データと同じデータ形式のものが用いられてもよい。

参照用音データ及び参照用音素データ及び参照用セグメンテーションデータは、例えばＧＡＮ（Generative Adversarial Network）やオートエンコーダをモデルとした機械学習を用いて、生成された生成用データベース、特に、ＣｏｎｄｉｔｉｏｎａｌＧＡＮの一種であるｐｉｘ２ｐｉｘをモデルとした機械学習を用いて、生成された生成用データベースを用いて擬似的に生成されてもよい。

意味データは、言葉の意味を示すデータである。意味データは、例えば音データの言葉の意味を示すデータであってもよい。意味データは、例えば言葉の意味を示す辞書を参照したテキストデータであってもよい。また、意味データは、音データの音響的特徴が示す意味のデータであってもよい。

参照用意味データは、判定モデルを機械学習により生成する際、判定用学習データとして用いられる意味データである。参照用意味データは、意味データと同一の形式のデータが用いられてもよい。

＜学習方法＞
本実施形態における学習方法は、入力された音データから音素データ及びセグメンテーションデータを抽出するために用いられる抽出モデル、及び音素データ及びセグメンテーションデータに対する意味データを判定するために用いられる判定モデルを生成する際に用いられる。

学習方法は、例えば図４（ａ）に示すように、抽出モデルを生成する。学習方法は、参照用音データを第１入力データとし、参照用音素データ及び参照用セグメンテーションデータを第１出力データとして、第１入力データと第１出力データとを一対のデータセットとする抽出用学習データを取得する。学習方法は、複数の抽出用学習データを用いた機械学習により、音データから音素データ及びセグメンテーションデータを抽出するための抽出モデルを生成する。

また、学習方法は、例えば図４（ｂ）に示すように、判定モデルを生成する。学習方法は、参照用音素データ及び参照用セグメンテーションデータを第２入力データとし、参照用意味データを第２出力データとして、第２入力データと第２出力データとを一対のデータセットとする判定用学習データを取得する。学習方法は、複数の判定用学習データを用いた機械学習により、音素データ及びセグメンテーションデータから意味データを判定するための判定モデルを生成する。

学習方法では、例えばニューラルネットワークをモデルとした機械学習を用いて、上述したデータベースを生成する。上述したデータベースは、例えばＣＮＮ（Convolution Neural Network）等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。

抽出モデルには、例えば参照用音データ（第１入力データ）と参照用音素データ及び参照用セグメンテーションデータ（第１出力データ）との間における連関度を有する第１連関性が記憶される。連関度は、第１入力データと第１出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の３値以上（３段階以上）で示されるほか、２値（２段階）で示されてもよい。

例えば第１連関性は、多対多の情報（複数の第１入力データ、対、複数の第１出力データ）の間における繋がりの度合いにより構築される。第１連関性は、機械学習の過程で適宜更新され、例えば複数の第１入力データ、及び複数の第１出力データに基づいて最適化された関数（分類器）を示す。なお、第１連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。

このため、意味判定システム１００では、例えば分類器の判定した結果を全て踏まえた第１連関性を用いて、音データに適した音素データ及びセグメンテーションデータを選択する。これにより、音データが、参照用音データと同一又は類似である場合のほか、非類似である場合においても、音データに適した音素データ及びセグメンテーションデータを定量的に選択することができる。

第１連関性は、例えば図５に示すように、複数の第１出力データと、複数の第１入力データとの間における繋がりの度合いを示してもよい。この場合、第１連関性を用いることで、複数の第１出力データ（図５では「参照用音素データＡ」＋「参照用セグメンテーションデータＡ」～「参照用音素データＣ」＋「参照用セグメンテーションデータＣ」）のそれぞれに対し、複数の第１入力データ（図５では「参照用音データＡ」～「参照用音データＣ」）の関係の度合いを紐づけて記憶させることができる。このため、例えば第１連関性を介して、１つの第１出力データに対して、複数の第１入力データを紐づけることができる。これにより、音データに対して多角的な音素データ及びセグメンテーションデータの選択を実現することができる。

第１連関性は、例えば各第１出力データと、各第１入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、１０段階、又は５段階等の３段階以上で示され、例えば線の特徴（例えば太さ等）で示される。例えば、第１入力データに含まれる「参照用音データＡ」は、第１出力データに含まれる「参照用音素データＡ」＋「参照用セグメンテーションデータＡ」との間の連関度ＡＡ「７３％」を示し、第１出力データに含まれる「参照用音素データＢ」＋「参照用セグメンテーションデータＢ」との間の連関度ＡＢ「１２％」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。

また、抽出モデルは、第１入力データと第１出力データとの間に少なくとも１以上の隠れ層が設けられ、機械学習させるようにしてもよい。第１入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。

判定モデルには、例えば参照用音素データ及び参照用セグメンテーションデータ（第２入力データ）と参照用意味データ（第２出力データ）との間における連関度を有する第２連関性が記憶される。連関度は、第２入力データと第２出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の３値以上（３段階以上）で示されるほか、２値（２段階）で示されてもよい。

例えば第２連関性は、多対多の情報（複数の第２入力データ、対、複数の第２出力データ）の間における繋がりの度合いにより構築される。第２連関性は、機械学習の過程で適宜更新され、例えば複数の第２入力データ、及び複数の第２出力データに基づいて最適化された関数（分類器）を示す。なお、第２連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。

このため、意味判定システム１００では、例えば分類器の判定した結果を全て踏まえた第２連関性を用いて、音素データ及びセグメンテーションデータに適した意味データを選択する。これにより、音素データ及びセグメンテーションデータが、参照用音素データ及び参照用セグメンテーションデータと同一又は類似である場合のほか、非類似である場合においても、音素データ及びセグメンテーションデータに適した意味データを定量的に選択することができる。

第２連関性は、例えば図６に示すように、複数の第２出力データと、複数の第２入力データとの間における繋がりの度合いを示してもよい。この場合、第２連関性を用いることで、複数の第２出力データ（図６では「参照用意味データＡ」～「参照用意味データＣ」）のそれぞれに対し、複数の第２入力データ（図６では「参照用音素データＡ」＋「セグメンテーションデータＡ」～「参照用音素データＣ」＋「参照用セグメンテーションデータ」）の関係の度合いを紐づけて記憶させることができる。このため、例えば第２連関性を介して、１つの第２出力データに対して、複数の第２入力データを紐づけることができる。これにより、音素データ及びセグメンテーションデータに対して多角的な意味データの選択を実現することができる。

第２連関性は、例えば各第２出力データと、各第２入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、１０段階、又は５段階等の３段階以上で示され、例えば線の特徴（例えば太さ等）で示される。例えば、第２入力データに含まれる「参照用音素データＡ」＋「参照用セグメンテーションデータＡ」は、第２出力データに含まれる「参照用意味データＡ」との間の連関度ＡＡ「７３％」を示し、第２出力データに含まれる「参照用意味データＢ」との間の連関度ＡＢ「１２％」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。

また、判定モデルは、第２入力データと第２出力データとの間に少なくとも１以上の隠れ層が設けられ、機械学習させるようにしてもよい。第２入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。

＜意味判定装置１＞
次に、図７、図８を参照して、本実施形態における意味判定装置１の一例を説明する。図７（ａ）は、本実施形態における意味判定装置１の構成の一例を示す模式図であり、図７（ｂ）は、本実施形態における意味判定装置１の機能の一例を示す模式図である。図７（ｃ）は、ＤＢ生成部１６の一例を示す模式図である。図８は、処理部１２の一例を示す模式図である。

意味判定装置１として、例えばラップトップ（ノート）ＰＣ又はデスクトップＰＣ等の電子機器が用いられる。意味判定装置１は、例えば図７（ａ）に示すように、筐体１０と、ＣＰＵ（Central Processing Unit）１０１と、ＲＯＭ（Read Only Memory）１０２と、ＲＡＭ（Random Access Memory）１０３と、保存部１０４と、Ｉ／Ｆ１０５～１０７とを備える。各構成１０１～１０７は、内部バス１１０により接続される。

ＣＰＵ１０１は、意味判定装置１全体を制御する。ＲＯＭ１０２は、ＣＰＵ１０１の動作コードを格納する。ＲＡＭ１０３は、ＣＰＵ１０１の動作時に使用される作業領域である。保存部１０４は、データベースや学習対象データ等の各種情報が記憶される。保存部１０４として、例えばＨＤＤ（Hard Disk Drive）のほか、ＳＳＤ（Solid State Drive）等のデータ保存装置が用いられる。なお、例えば意味判定装置１は、図示しないＧＰＵ（Graphics Processing Unit）を有してもよい。

Ｉ／Ｆ１０５は、通信網４を介して、必要に応じて端末２、サーバ３、ウェブサイト等との各種情報の送受信を行うためのインターフェースである。Ｉ／Ｆ１０６は、入力部１０８との情報の送受信を行うためのインターフェースである。入力部１０８として、例えばキーボードが用いられ、意味判定装置１の使用者等は、入力部１０８を介して、各種情報、又は意味判定装置１の制御コマンド等を入力する。また、入力部１０８は、収音が可能な図示しないマイクを備えていてもよい。Ｉ／Ｆ１０７は、表示部１０９との各種情報の送受信を行うためのインターフェースである。表示部１０９は、保存部１０４に保存された各種情報、又は意味データ等を表示する。表示部１０９として、ディスプレイが用いられ、例えばタッチパネル式の場合、入力部１０８と一体に設けられる。また、表示部１０９は、スピーカが用いられてもよい。

図７（ｂ）は、意味判定装置１の機能の一例を示す模式図である。意味判定装置１は、取得部１１と、処理部１２と、出力部１４と、記憶部１５とを備え、例えばＤＢ生成部１６を有してもよい。ＤＢ生成部１６は、例えば図７（ｃ）に示すように、抽出モデル生成部１６１と、判定モデル生成部１６２とを有する。なお、図７（ｂ）、図７（ｃ）、図８に示した各機能は、ＣＰＵ１０１が、ＲＡＭ１０３を作業領域として、保存部１０４等に記憶されたプログラムを実行することにより実現され、例えば人工知能等により制御されてもよい。

＜＜取得部１１＞＞
取得部１１は、音データを取得する。取得したデータは、上述した音素データ及びセグメンテーションデータを抽出する際に用いられる。取得部１１は、例えば入力部１０８から入力された音データを取得するほか、例えば通信網４を介して、端末２等から音データを取得してもよい。

取得部１１は、例えば上述した各種モデルの生成に用いられる学習データを取得してもよい。取得部１１は、例えば入力部１０８から入力された学習データを取得するほか、例えば通信網４を介して、端末２等から学習データを取得してもよい。

例えば、抽出モデルの生成に用いられる抽出用学習データとして、参照用音データ及び参照用音素データ及び参照用セグメンテーションデータが挙げられる。また、例えば判定モデルの生成に用いられる判定用学習データとして、参照用音素データ及び参照用セグメンテーションデータ及び参照用意味データが挙げられる。

＜＜処理部１２＞＞
処理部１２は、例えば抽出モデルを参照し、音データから音素データ及びセグメンテーションデータを抽出し、判定モデルを参照し、音素データ及びセグメンテーションデータに対する意味データを判定する。

処理部１２は、図８に示すように、取得部１１に接続される抽出処理部１２１を有する。また、処理部１２は、抽出処理部１２１に接続される判定処理部１２２を有する。

抽出処理部１２１は、例えば抽出モデルを参照し、音データから音素データ及びセグメンテーションデータを抽出する。抽出処理部１２１は、例えば抽出モデルを参照し、音データに対して、連関性の最も高い音素データ及びセグメンテーションデータを抽出する。また、例えば予め設定された閾値以上の連関度を有する複数の参照用音素データ及び参照用セグメンテーションデータを、音素データ及びセグメンテーションデータとして選択してもよい。また、選択される参照用音素データ及び参照用セグメンテーションデータの数については、任意に設定できる。

判定処理部１２２は、例えば判定モデルを参照し、音素データ及びセグメンテーションデータを入力として、入力に対する意味データを判定する。判定処理部１２２は、例えば判定モデルを参照し、音素データ及びセグメンテーションデータに対して、連関性の最も高い意味データを抽出する。また、例えば予め設定された閾値以上の連関度を有する複数の参照用意味データを、意味データとして選択してもよい。また、選択される参照用意味データの数については、任意に設定できる。

＜＜出力部１４＞＞
出力部１４は、意味データを出力する。出力部１４は、Ｉ／Ｆ１０７を介して表示部１０９に意味データを出力するほか、例えばＩ／Ｆ１０５を介して、端末２等に意味データを出力する。

＜＜記憶部１５＞＞
記憶部１５は、保存部１０４に保存されたデータベース等の各種データを必要に応じて取り出す。記憶部１５は、取得部１１、処理部１２、ＤＢ生成部１６により取得又は生成された各種データを、必要に応じて保存部１０４に保存する。

＜＜ＤＢ生成部１６＞＞
ＤＢ生成部１６は、複数の学習データを用いた機械学習によりデータベースを生成する。機械学習には、例えば上述したニューラルネットワーク等が用いられる。

ＤＢ生成部１６は、例えば、抽出モデル生成部１６１と、判定モデル生成部１６２とを有する。

抽出モデル生成部１６１は、例えば一組の参照用音データと、参照用音素データ及び参照用セグメンテーションデータと、を抽出用学習データとして、複数の抽出用学習データを用いた機械学習により抽出モデルを生成する。

判定モデル生成部１６２は、例えば一組の参照用音素データ及び参照用セグメンテーションデータと、参照用意味データと、を判定用学習データとして、複数の判定用学習データを用いた機械学習により判定モデルを生成する。

＜端末２＞
端末２は、例えば意味判定システム１００を用いたサービスのユーザ等が保有し、通信網４を介して意味判定装置１と接続される。端末２は、例えばデータベースを生成する電子機器を示してもよい。端末２は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末２は、例えば意味判定装置１の備える機能のうち、少なくとも一部の機能を備えてもよい。また、端末２は、音データ、及び各学習データを取得するための図示しないマイクを備えていてもよい。端末２は、ユーザに意味データを提示できる図示しないディスプレイ、又はスピーカを備えていてもよい。

＜サーバ３＞
サーバ３は、通信網４を介して意味判定装置１と接続される。サーバ３は、過去の各種データ等が記憶され、必要に応じて意味判定装置１から各種データが送信される。サーバ３は、例えば意味判定装置１の備える機能のうち、少なくとも一部の機能を備えてもよく、例えば意味判定装置１の代わりに少なくとも一部の処理を行ってもよい。サーバ３は、例えば意味判定装置１の保存部１０４に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部１０４の代わりに用いられてもよい。

＜通信網４＞
通信網４は、例えば意味判定装置１が通信回路を介して接続されるインターネット網等である。通信網４は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網４は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。

（意味判定システム１００の動作）
次に、本実施形態における意味判定システム１００の動作の一例について説明する。図９は、本実施形態における意味判定システム１００の動作の一例を示すフローチャートである。

＜取得手段Ｓ１１０＞
取得手段Ｓ１１０は、例えば収音装置により収音された音に基づき生成された音データを取得する。取得手段Ｓ１１０では、例えば取得部１１が、音データを取得する。また、取得部１１は、例えば上述した抽出モデルの抽出用学習データに含まれる参照用音データと同じ形式の音データを取得してもよい。取得部１１は、例えば端末２等から音データを取得するほか、例えば記憶部１５を介して、保存部１０４に取得した音データを保存してもよい。

＜抽出手段Ｓ１２０＞
抽出手段Ｓ１２０は、取得手段Ｓ１１０で取得した音データから音素データ及びセグメンテーションデータを抽出する。抽出手段Ｓ１２０は、例えば抽出処理部１２１が、上述した学習方法により予め生成された抽出モデルを参照し、音データから音素データ及びセグメンテーションデータを抽出する。また、抽出手段Ｓ１２０は、例えば判定モデルの判定用学習データに含まれる参照用音素データ及び参照用セグメンテーションデータと同じ形式の音素データ及びセグメンテーションデータを抽出してもよい。また、抽出手段Ｓ１２０は、抽出モデルを用いることなく、他の公知の技術によって、音データから音素データ及びセグメンテーションデータを抽出してもよい。

また、抽出手段Ｓ１２０は、例えば記憶部１５を介して、音データから抽出した音素データ及びセグメンテーションデータを保存部１０４に保存してもよい。なお、取得した各データは、例えばサーバ３や他の意味判定装置１に送信されてもよい。

＜判定手段Ｓ１３０＞
判定手段Ｓ１３０は、例えば判定モデルを参照し、抽出手段Ｓ１２０で抽出した音素データ及びセグメンテーションデータに対する意味データを判定する。判定手段Ｓ１３０では、例えば判定処理部１２２は、予め生成された判定モデルを参照し、抽出手段Ｓ１２０で抽出した音素データ及びセグメンテーションデータに対する意味データを判定する。これにより、音素データとセグメンテーションデータとに対する適切な意味データを判定することができる。

判定手段Ｓ１３０は、例えば記憶部１５を介して、判定した意味データを保存部１０４に保存してもよい。なお、取得した意味データは、例えば端末２やサーバ３や他の意味判定装置１に送信されてもよい。判定する意味データはひとつの音素データ及びセグメンテーションデータに対して複数の意味データを取得してもよい。

＜出力手段Ｓ１４０＞
出力手段Ｓ１４０では、例えば出力部１４は、判定手段Ｓ１３０により判定された意味データを、表示部１０９や端末２等に出力する。

上述した各手段を行うことで、本実施形態における意味判定システム１００の動作が完了する。

本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１：意味判定装置
２：端末
３：サーバ
４：通信網
１０：筐体
１１：取得部
１２：処理部
１４：出力部
１５：記憶部
１６：ＤＢ生成部
１００：意味判定システム
１０１：ＣＰＵ
１０２：ＲＯＭ
１０３：ＲＡＭ
１０４：保存部
１０５：Ｉ／Ｆ
１０６：Ｉ／Ｆ
１０７：Ｉ／Ｆ
１０８：入力部
１０９：表示部
１１０：内部バス
１２１：抽出処理部
１２２：判定処理部
１６１：抽出モデル生成部
１６２：判定モデル生成部
Ｓ１１０：取得手段
Ｓ１２０：抽出手段
Ｓ１３０：判定手段
Ｓ１４０：出力手段

Claims

音データを取得する取得ステップと、
前記取得ステップにより取得した音データから、音素を示す音素データと、前記音素の開始時点及び終了時点に関するセグメンテーションデータとを抽出する抽出ステップと、
予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定ステップとをコンピュータに実行させること
を特徴とする意味判定プログラム。
前記抽出ステップは、予め取得された参照用音データを含む抽出用入力データと、参照用音素データと参照用セグメンテーションデータとを含む抽出用出力データとを一組のデータセットとする抽出用学習データを複数用いて、機械学習により生成された抽出モデルを参照して、前記音データから前記音素データと前記セグメンテーションデータとを抽出すること
を特徴とする請求項１に記載の意味判定プログラム。
前記抽出モデルは、
擬似的に生成された前記参照用音データを含む抽出用入力データと、
前記参照用音素データと前記参照用セグメンテーションデータとを含む抽出用出力データと
を一組のデータセットとする前記抽出用学習データを用いて、機械学習により生成されること
を特徴とする請求項２に記載の意味判定プログラム。
音データを取得する取得手段と、
前記取得手段により取得した音データから音素を示す音素データと、前記音素の開始時点から終了時点までの時間差を示すセグメンテーションデータとを抽出する抽出手段と、
予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルが記憶されたデータベースと、
前記判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定手段とを備えること
を特徴とする意味判定システム。