JP7055529B1 - 意味判定プログラム、及び意味判定システム - Google Patents
意味判定プログラム、及び意味判定システム Download PDFInfo
- Publication number
- JP7055529B1 JP7055529B1 JP2022025781A JP2022025781A JP7055529B1 JP 7055529 B1 JP7055529 B1 JP 7055529B1 JP 2022025781 A JP2022025781 A JP 2022025781A JP 2022025781 A JP2022025781 A JP 2022025781A JP 7055529 B1 JP7055529 B1 JP 7055529B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- segmentation
- sound
- phoneme
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】音データを取得する取得ステップと、前記取得ステップにより取得した音データから、音素を示す音素データと、前記音素の開始時点及び終了時点に関するセグメンテーションデータとを抽出する抽出ステップと、予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定ステップとをコンピュータに実行させることを特徴とする。
【選択図】図2
Description
意味判定システム100は、音データを取得し、取得した音データの意味データの判定するために用いられる。
本実施形態における学習方法は、入力された音データから音素データ及びセグメンテーションデータを抽出するために用いられる抽出モデル、及び音素データ及びセグメンテーションデータに対する意味データを判定するために用いられる判定モデルを生成する際に用いられる。
次に、図7、図8を参照して、本実施形態における意味判定装置1の一例を説明する。図7(a)は、本実施形態における意味判定装置1の構成の一例を示す模式図であり、図7(b)は、本実施形態における意味判定装置1の機能の一例を示す模式図である。図7(c)は、DB生成部16の一例を示す模式図である。図8は、処理部12の一例を示す模式図である。
取得部11は、音データを取得する。取得したデータは、上述した音素データ及びセグメンテーションデータを抽出する際に用いられる。取得部11は、例えば入力部108から入力された音データを取得するほか、例えば通信網4を介して、端末2等から音データを取得してもよい。
処理部12は、例えば抽出モデルを参照し、音データから音素データ及びセグメンテーションデータを抽出し、判定モデルを参照し、音素データ及びセグメンテーションデータに対する意味データを判定する。
出力部14は、意味データを出力する。出力部14は、I/F107を介して表示部109に意味データを出力するほか、例えばI/F105を介して、端末2等に意味データを出力する。
記憶部15は、保存部104に保存されたデータベース等の各種データを必要に応じて取り出す。記憶部15は、取得部11、処理部12、DB生成部16により取得又は生成された各種データを、必要に応じて保存部104に保存する。
DB生成部16は、複数の学習データを用いた機械学習によりデータベースを生成する。機械学習には、例えば上述したニューラルネットワーク等が用いられる。
端末2は、例えば意味判定システム100を用いたサービスのユーザ等が保有し、通信網4を介して意味判定装置1と接続される。端末2は、例えばデータベースを生成する電子機器を示してもよい。端末2は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末2は、例えば意味判定装置1の備える機能のうち、少なくとも一部の機能を備えてもよい。また、端末2は、音データ、及び各学習データを取得するための図示しないマイクを備えていてもよい。端末2は、ユーザに意味データを提示できる図示しないディスプレイ、又はスピーカを備えていてもよい。
サーバ3は、通信網4を介して意味判定装置1と接続される。サーバ3は、過去の各種データ等が記憶され、必要に応じて意味判定装置1から各種データが送信される。サーバ3は、例えば意味判定装置1の備える機能のうち、少なくとも一部の機能を備えてもよく、例えば意味判定装置1の代わりに少なくとも一部の処理を行ってもよい。サーバ3は、例えば意味判定装置1の保存部104に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部104の代わりに用いられてもよい。
通信網4は、例えば意味判定装置1が通信回路を介して接続されるインターネット網等である。通信網4は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網4は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。
次に、本実施形態における意味判定システム100の動作の一例について説明する。図9は、本実施形態における意味判定システム100の動作の一例を示すフローチャートである。
取得手段S110は、例えば収音装置により収音された音に基づき生成された音データを取得する。取得手段S110では、例えば取得部11が、音データを取得する。また、取得部11は、例えば上述した抽出モデルの抽出用学習データに含まれる参照用音データと同じ形式の音データを取得してもよい。取得部11は、例えば端末2等から音データを取得するほか、例えば記憶部15を介して、保存部104に取得した音データを保存してもよい。
抽出手段S120は、取得手段S110で取得した音データから音素データ及びセグメンテーションデータを抽出する。抽出手段S120は、例えば抽出処理部121が、上述した学習方法により予め生成された抽出モデルを参照し、音データから音素データ及びセグメンテーションデータを抽出する。また、抽出手段S120は、例えば判定モデルの判定用学習データに含まれる参照用音素データ及び参照用セグメンテーションデータと同じ形式の音素データ及びセグメンテーションデータを抽出してもよい。また、抽出手段S120は、抽出モデルを用いることなく、他の公知の技術によって、音データから音素データ及びセグメンテーションデータを抽出してもよい。
判定手段S130は、例えば判定モデルを参照し、抽出手段S120で抽出した音素データ及びセグメンテーションデータに対する意味データを判定する。判定手段S130では、例えば判定処理部122は、予め生成された判定モデルを参照し、抽出手段S120で抽出した音素データ及びセグメンテーションデータに対する意味データを判定する。これにより、音素データとセグメンテーションデータとに対する適切な意味データを判定することができる。
出力手段S140では、例えば出力部14は、判定手段S130により判定された意味データを、表示部109や端末2等に出力する。
2 :端末
3 :サーバ
4 :通信網
10 :筐体
11 :取得部
12 :処理部
14 :出力部
15 :記憶部
16 :DB生成部
100 :意味判定システム
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部
109 :表示部
110 :内部バス
121 :抽出処理部
122 :判定処理部
161 :抽出モデル生成部
162 :判定モデル生成部
S110 :取得手段
S120 :抽出手段
S130 :判定手段
S140 :出力手段
Claims (4)
- 音データを取得する取得ステップと、
前記取得ステップにより取得した音データから、音素を示す音素データと、前記音素の開始時点及び終了時点に関するセグメンテーションデータとを抽出する抽出ステップと、
予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定ステップとをコンピュータに実行させること
を特徴とする意味判定プログラム。 - 前記抽出ステップは、予め取得された参照用音データを含む抽出用入力データと、参照用音素データと参照用セグメンテーションデータとを含む抽出用出力データとを一組のデータセットとする抽出用学習データを複数用いて、機械学習により生成された抽出モデルを参照して、前記音データから前記音素データと前記セグメンテーションデータとを抽出すること
を特徴とする請求項1に記載の意味判定プログラム。 - 前記抽出モデルは、
擬似的に生成された前記参照用音データを含む抽出用入力データと、
前記参照用音素データと前記参照用セグメンテーションデータとを含む抽出用出力データと
を一組のデータセットとする前記抽出用学習データを用いて、機械学習により生成されること
を特徴とする請求項2に記載の意味判定プログラム。 - 音データを取得する取得手段と、
前記取得手段により取得した音データから音素を示す音素データと、前記音素の開始時点から終了時点までの時間差を示すセグメンテーションデータとを抽出する抽出手段と、
予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルが記憶されたデータベースと、
前記判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定手段とを備えること
を特徴とする意味判定システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022025781A JP7055529B1 (ja) | 2022-02-22 | 2022-02-22 | 意味判定プログラム、及び意味判定システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022025781A JP7055529B1 (ja) | 2022-02-22 | 2022-02-22 | 意味判定プログラム、及び意味判定システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7055529B1 true JP7055529B1 (ja) | 2022-04-18 |
JP2023122209A JP2023122209A (ja) | 2023-09-01 |
Family
ID=81289285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022025781A Active JP7055529B1 (ja) | 2022-02-22 | 2022-02-22 | 意味判定プログラム、及び意味判定システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7055529B1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01126694A (ja) * | 1987-11-11 | 1989-05-18 | Fujitsu Ltd | 音声認識装置における音韻記号の付加方式 |
JP2021033048A (ja) * | 2019-08-23 | 2021-03-01 | サウンドハウンド,インコーポレイテッド | 車載装置、発声を処理する方法およびプログラム |
-
2022
- 2022-02-22 JP JP2022025781A patent/JP7055529B1/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01126694A (ja) * | 1987-11-11 | 1989-05-18 | Fujitsu Ltd | 音声認識装置における音韻記号の付加方式 |
JP2021033048A (ja) * | 2019-08-23 | 2021-03-01 | サウンドハウンド,インコーポレイテッド | 車載装置、発声を処理する方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2023122209A (ja) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11837216B2 (en) | Speech recognition using unspoken text and speech synthesis | |
RU2632424C2 (ru) | Способ и сервер для синтеза речи по тексту | |
KR102582291B1 (ko) | 감정 정보 기반의 음성 합성 방법 및 장치 | |
US12154563B2 (en) | Electronic apparatus and method for controlling thereof | |
WO2017067206A1 (zh) | 个性化多声学模型的训练方法、语音合成方法及装置 | |
JP6238312B2 (ja) | テキストの音声化及び意味に基づくオーディオhip | |
EP2943950B1 (en) | Distributed speech unit inventory for tts systems | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
KR101160193B1 (ko) | 감성적 음성합성 장치 및 그 방법 | |
US10685644B2 (en) | Method and system for text-to-speech synthesis | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
Reddy et al. | Speech-to-text and text-to-speech recognition using deep learning | |
CN112017690B (zh) | 一种音频处理方法、装置、设备和介质 | |
JP2024505076A (ja) | 多様で自然なテキスト読み上げサンプルを生成する | |
TW201225064A (en) | Method and system for text to speech conversion | |
WO2022072936A2 (en) | Text-to-speech using duration prediction | |
JP6993034B1 (ja) | コンテンツ再生方法、及びコンテンツ再生システム | |
Kirkham et al. | Diachronic phonological asymmetries and the variable stability of synchronic contrast | |
JP2015041081A (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
CN110580905A (zh) | 识别装置及方法 | |
EP4014228B1 (en) | Speech synthesis method and apparatus | |
Mukherjee et al. | A Bengali speech synthesizer on Android OS | |
JP7055529B1 (ja) | 意味判定プログラム、及び意味判定システム | |
KR102484006B1 (ko) | 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치 | |
JP6289950B2 (ja) | 読み上げ装置、読み上げ方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220222 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220330 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7055529 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |