JP2010026223A - 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム - Google Patents
目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2010026223A JP2010026223A JP2008187035A JP2008187035A JP2010026223A JP 2010026223 A JP2010026223 A JP 2010026223A JP 2008187035 A JP2008187035 A JP 2008187035A JP 2008187035 A JP2008187035 A JP 2008187035A JP 2010026223 A JP2010026223 A JP 2010026223A
- Authority
- JP
- Japan
- Prior art keywords
- sample
- voice
- time
- speech
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】音声データ記憶部と、音声の基本周波数の時間変化情報と音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調見本データと音高見本データと時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する。前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせて目標パラメータとなる基本周波数の時間変化情報を決定する。
【選択図】図1
Description
特許文献1には、韻律の修正を行なう修正者を補助するユーザインターフェースに関する技術が開示されている。特許文献1に開示された技術では、まず修正者が、合成音声の韻律を目標韻律に修正する処理に用いられるパラメータ(以下、「目標パラメータ」という。)の値を決定する。そして、利用者は、決定された目標パラメータの値に基づいて、画面に表示されたスライダーを操作し、各音節の韻律を修正する。
ここで、基本周波数の時間変化情報は、基本周波数の値が経過時間毎に配列されたデータである。この基本周波数の値は、絶対的な音の高さに対応している。従って、上述の基本周波数の時間変化情報は、音の高さを含む。
この構成によれば、音調見本データと、音高見本データと、時間情報見本データとのそれぞれが、見本音声データの種別に応じて選択される。そして、音高見本の基本周波数の時間変化情報に応じて、音調見本の基本周波数の時間変化情報が変更され、さらに、時間見本データの音素の時間情報に合わせるように変更されることにより、目標となる基本周波数の時間変化情報が得られる。さらに、音調見本データの音素の時間情報を、時間見本データの音素の時間情報に合わせることによって、目標となる音素の時間変化情報が決定される。
この構成によれば、音声と当該音声の発話内容との入力を受け付け、この受け付けられた音声と発話内容を基に、音声の基本周波数の時間変化情報と音素の時間情報とを得て、見本音声データを得るようにした。これにより、入力される音声を音声見本音声データとして用いることが可能となる。
この構成によれば、音声データ記憶部に記憶された音声データの中から、見本を選択する指示に応じた音声データを、見本音声データとして用いることができる。
この構成によれば、修正対象の音声の指定に応じて、音声に対応する発話内容を有する見本音声データが得られる。
この構成によれば、見本音声データが指定されることのみによって、目標パラメータ決定装置が修正対象となる合成音声の目標パラメータが決定される。そして、決定された目標パラメータに基づいて、修正対象の音声データの韻律の修正が行われる。
以下、本発明の複数の実施形態について、図面を参照しながら説明する。
図1は、第1の実施形態による目標パラメータ決定装置の機能構成を表すブロック図である。図示するように、目標パラメータ決定装置1は、音声データベース11と、修正対象音声指定部12と、合成音声記憶部13と、音声入力部14と、音声テキスト入力部15(発話内容取得部)と、音声分析部16と、見本音声指定部17と、見本音声検索部18と、韻律選択部19と、目標パラメータ決定部20とを含んで構成される。
音声データベース11は、ハードディスク装置や光磁気ディスク装置、半導体メモリ、
CD−ROM等の記録媒体、あるいはこれらの組み合わせにより構成される。
合成音声記憶部13は、音声の音声信号データと、音声の韻律情報と、発話内容(表記)と、発話者識別情報とを含む合成音声データを記憶する。
音声テキスト入力部15は、音声入力部14が受け付けた見本音声の発話内容を表すテキストデータの入力を受け付ける。この音声テキスト入力部15は、例えば、キーボードやマウス等の入力装置が用いられる。
さらに、音声分析部16は、見本音声の基本周波数の時間変化情報を有声区間(声帯の振動を伴う音声である有声音声の区間)において生成し、生成された基本周波数の値に対し、有声区間の分析値を用いてスプライン関数などによりスムージングを行うことによって、変化が滑らかな基本周波数の時間変化情報を生成する。このとき、音声分析部16は、基本周波数の値を取得できない無声区間(声帯の振動を伴わない音声である無声音声の区間)については、この無声区間の前後の有声区間の基本周波数の値から内挿した値を用いて、無声区間の基本周波数を補間する。
また、見本音声検索部18は、見本音声指定部17によって受け付けられた修正対象音声の、発話内容を表すテキストデータと発話者識別情報とをキーにして音声データベース11を検索し、その結果、見本音声を得る。
韻律選択処理の詳細については、後で図面を参照しながら説明する。
音声データは、音声信号データと、韻律情報と、発話者識別情報と、漢字表記と、かな表記と、音素ラベル表記とを対応付けて、音声毎に保持するデータである。音声信号データは、音声の波形に対応するデータであって、例えば、振幅値の時系列による配列データである。韻律情報は、基本周波数の時間変化情報と音素の時間情報とからなる。基本周波数の時間変化情報は、基本周波数の値が経過時間毎に配列されたデータである。音素の時間情報は、音声の開始時点を時刻の基準として音素毎のその音素の開始時点と終了時点とを表す。音素については後述する。
発話者識別情報は、音声の発話者を識別する識別情報である。漢字表記は、音声の発話内容を表す漢字を発話の順に配列された情報である。かな表記は、音声の発話内容を表すかなを発話の順に配列された情報である。音素ラベル表記は、音声の発話内容を表す音素ラベルを発話の順に配列された情報である。
また、図中のデータの4行目は、発話内容が1モーラである音声データを表しており、音声信号データ“WAVE4”の音声の基本周波数の時間変化情報“FRQ4”と、音素の時間情報“TIME4”とが韻律情報として音声信号データに対応付けされているとともに、この音声の発話者識別情報が“A01”、この音声の発話内容の漢字表記が無く(図2においては「−」と表す)、かな表記が“あ”、この音声の発話内容の音素ラベル表記が“a”であることを表す。
なお、音声データベース11は、音声データが新規に作成された場合には、新たに記憶することが可能であり、また、音声を作成する他の装置において作成された音声データを得て、新たに記憶することも可能である。
2行目から11行目のデータにおいて、一列目は音声の開始時点を時刻の基準として各音素の開始時点までの時間を1万分の1秒単位で表し、二列目は音声の開始時点を時刻の基準として各音素の終了時点までの時間を1万分の1秒単位で表し、三列目は音素の音素ラベルを表す。例えば図5において、“0 4750 sil”は、音声の開始時点から0.475秒経過するまでの間が無声区間であることを表す。また、“4750 5100 h”は、音声の開始時点を基準として0.475秒経過した時点から0.51秒経過するまでの間の音素が“h”であることを表す。なお、音素ラベルsilは、音素がないことを表し、音素ラベルQは促音を表し、音素ラベルo:は「お」の長音を表す。なお、ここでは、時刻が1万分の1秒単位である場合を一例として説明したが、1千分の1秒単位(ミリ秒)など、他の単位で表すようにしてもよい。
他語音声は、他語他話者音声と他語同話者音声との2つがある。他語音声であるか否かによって、音調見本と、音高見本と、時間情報見本とそれぞれ選択する際に、他語音声の韻律情報の優先順位が変わる。
他語音声を見本音声指定部17から指定する場合、利用者は、修正対象音声と発話内容のモーラ数が同じである音声を選択する。モーラとは、音の長さについての音韻論上の単位である。日本語では、概ね、拗音については仮名2文字が1モーラに対応し、拗音以外については、仮名1文字が1モーラに対応する。1モーラは、1または複数の音素により構成される。
図6(a)は、修正対象音声の具体例「あおいいえ」のモーラ区切り及び音素区切りを表す図であり、図6(b)は、他語音声の具体例「しろいいえ」のモーラ区切り及び音素区切りを表す図である。
図6の場合、「しろいいえ」のモーラ数は5であり、修正対象音声「あおいいえ」のモーラ数と一致する。従って、「しろいいえ」が修正対象音声とモーラ数が同じであるという条件を満たしており、利用者は他語音声として選択することが可能である。
音声の候補としては、例えば、以下の音声がある。下に列挙するものは音声の種別である。
(1)音声入力部が入力を受け付けた音声
(a)修正対象音声と同発話内容
(b)修正対象音声と異なる発話内容、同音素数
(c)修正対象音声と異なる発話内容、同モーラ数
(2)音声データベースに記憶された音声
(a)修正対象音声と異なる発話内容、同音素数、同話者
(b)修正対象音声と異なる発話内容、同モーラ数、同話者
(c)修正対象音声と異なる発話内容、同音素数、他話者
(d)修正対象音声と異なる発話内容、同モーラ数、他話者
(e)修正対象音声と同発話内容、他話者
(3)修正対象音声
例えば、図7の1行目は、(2)(a)が音調見本であり、(3)が音高見本であり、(3)が時間情報見本である組み合わせが、優先順位1に対応付けされている。
また、図7の2行目は、(2)(a)が音調見本であり、(2)(b)が音高見本であり、(3)が時間情報見本である組み合わせが、優先順位2に対応付けされている。
ここでは、1が最も高い優先順位である。
また、例えば、音声入力部14から(1)(a)である見本音声を受け付け、見本音声指定部17から(2)(b)である見本音声の入力を受け付け、修正対象音声を記憶する合成音声記憶部13から(3)を受け付けた場合には、音調見本が(1)(a)、音高見本が(3)、時間情報見本が(3)である組み合わせに対応する優先順位が4であり、音調見本が(1)(a)、音高見本が(2)(b)、時間情報見本が(3)である組み合わせに対応する優先順位が5であるので、韻律選択部19は、優先順位が4の組み合わせを選択する。
また、例えば、この図7に示す情報を予めハードディスク等の記憶装置に記憶しておき、韻律選択処理を行う場合、韻律選択部19は、この記憶装置を参照し、優先順位に従い、見本となる韻律情報を選択することが可能である。
図8は、基本周波数の時間方向の平均値(以下、「時間平均値」という)を用いて、音調見本の基本周波数の時間変化情報を算出する場合について説明する説明図である。図8において、縦軸は基本周波数を表し、横軸は時間を表す。
基本周波数の時間平均値を用いて、音調見本の基本周波数の時間変化情報を算出する場合、目標パラメータ決定部20は、まず音調見本(図8(a)ア)の基本周波数の時間平均値と音高見本(図8(a)イ)の基本周波数の時間平均値とを算出する。そして、目標パラメータ決定部20は、音調見本(図8(b)ア)の基本周波数の時間平均値が、音高見本(図8(a)イ)の基本周波数の時間平均値と同じとなるような、音調見本の基本周波数の時間変化情報を算出する。具体的には、目標パラメータ決定部20は、音高見本の基本周波数の時間平均値と音調見本の基本周波数の時間平均値との差を算出し、算出された差を音調見本の基本周波数に加算した和の時系列のデータを算出する。この算出される音調見本の基本周波数の時間変化情報のグラフを図8(b)ウに示す。
このように、音高見本の基本周波数の平均値と同じになるような平均値を持つ音調見本の基本周波数を算出することにより、音高見本の音高に近づけた音調見本の基本周波数の時間変化情報が得られる。
図9は、全体長に対する音声素片の比を変えずに、音調見本全体長を変更する場合について説明する概念図である。図9の上段は時間情報見本の音素の時間情報を表し、図9の中段は音調見本の音素の時間情報を表し、図9の下段は目標パラメータの音素の時間情報を示す。図9の横軸は、時間を示している。
全体長に対する音声素片の比を変えずに、音調見本全体長を変更する場合、目標パラメータ決定部20は、まず時間情報見本の各音声素片の発話開始から発話終了までの時間を合計した時間情報見本全体長と、音調見本全体長とを算出する。そして、目標パラメータ決定部20は、全体長に対する音声素片の比を変えることなく、音調見本の音素の時間情報を、時間情報見本全体長と音調見本全体長とが一致するように変更する。具体的には、目標パラメータ決定部20は、時間情報見本全体長と音調見本全体長とを算出する。そして、目標パラメータ決定部20は、全体長に対する音声素片の比を算出し、音調見本の音素の時間情報に対し、時間情報見本全体長に対する音調見本全体長の比を音調見本の各音素の時間情報に乗ずることによって変更し、時間情報見本全体長と音調見本全体長とが一致する音調見本の音素の時間情報を得る。目標パラメータ決定部20は、得られた音素の時間情報を、目標パラメータの音素の時間情報として決定する。
これにより、時間情報見本全体長と音調見本全体長とが異なる場合であっても、時間情報見本全体長に合わせた音調見本全体長を得ることができ、音調見本全体長の調整を行うことができる。
具体的には、目標パラメータ決定部20は、時間情報見本の時間情報の全体長に対する、音高が変更された音調見本の時間情報の全体長の比を算出し、この算出された比を、音高が変更された音調見本の時間情報の全体長に乗ずることによって、音高が変更された音調見本の時間情報を更新する。例えば、図10(エ)は、音高見本の音高に近づけた音調見本の基本周波数の時間変化情報(図10(ウ))を、音素の時間情報の全体長と一致するように更新した後の基本周波数の時間変化情報を示す。
図11において、図11(ア)は音調見本の基本周波数を表すグラフであり、図11(イ)は音高見本の基本周波数を表すグラフであり、図11(ウ)は、音高見本の基本周波数の最大値と音調見本の基本周波数の最大値との差に、音調見本の各時点における基本周波数を加算した和のグラフである。
図12(a)は、音調見本の基本周波数のグラフを図12(a)アに、音調見本の基本周波数の最大値と最小値との幅と、同じになるような音調見本の基本周波数のグラフを図12(a)エに示す。
ここで、目標パラメータ決定部20は、得られた音調見本の基本周波数(図12(a)エ)の各時点における基本周波数に音高見本の基本周波数の平均値を加算した和の時系列のデータを算出する。このとき得られる音調見本の基本周波数のグラフを図12(b)ウに示す。
図13の上段は音調見本のモーラの長さを表し、図13の中段は目標パラメータのモーラの長さを表し、図13の下段は時間情報見本のモーラの長さを表す。なお、モーラの長さは、そのモーラに含まれる音素の長さ(時間)の合計値である。図13の横軸は、時間を示している。
時間情報見本のモーラの長さと、対応する音調見本のモーラの長さとが一致するように、音調見本の音素の時間情報を変更する場合、目標パラメータ決定部20は、まず時間情報見本(下段)の各モーラの長さを算出する。そして、目標パラメータ決定部20は、音調見本(上段)のモーラの長さが、対応する時間情報見本(下段)のモーラの長さに一致するように変更する。例えば、目標パラメータ決定部20は、音調見本のモーラの長さを、対応する時間情報見本のモーラの長さに置き換えることによって一致させる。目標パラメータ決定部20は、この処理によって得られたモーラの長さに基づき、音調見本の音素の時間情報を変更する。即ち、目標パラメータ(中段)の音素の時間情報を得る。
また、図9、図13を用いて(5)各音声素片の比を変えずに全体長を変更する処理、(6)各音素の時間情報と時間情報見本の各音素の時間情報とが、対応する音声素片同士で一致するように変更することにより全体長を変更する処理、について説明したが、全体長を変更する処理としては、(5)と(6)とのいずれか1つを、利用者の指示に従って適用するようにしてもよい。
また、図10を用いて(7)音調見本の音高が、基本周波数の時間平均値に基づいて音高見本の音高に合わせて変更された音調見本の基本周波数の時間変化情報を、各音声素片の比を変えずに全体長を変更する処理、について説明した。この(7)において、音調見本の音高を変更する場合、基本周波数の時間平均値に基づいて変更するのではなく、上述の(2)、(3)、(4)のいずれかを行うようにしてもよい。また、(7)において、音高を変更した後の音調見本の全体長を変更する場合、(5)各音声素片の比を変えずに全体長を変更する場合について説明したが、(6)の各音素の時間情報と時間情報見本の各音素の時間情報とが、対応する音声素片同士で一致するように変更することにより、全体長を変更するようにしてもよい。このように、(1)から(4)のいずれかによって音高見本の音高に従って音調見本の音高を変更した後、(5)または(6)によって、音高が変更された音調見本の全体長を変更することができる。この(1)から(4)の処理と、(5)、(6)の処理とのうちいずれの処理を適用するかについては、利用者が選択するようにしてもよい。
図14は、目標パラメータ決定装置1全体の処理手順を表すフローチャートである。
図示するように、ステップS01において、まず修正対象音声指定部12が、修正対象音声を指定する入力を受け付ける。具体的には、修正対象音声指定部12は、修正対象音声の発話内容及び発話者識別情報の入力を受け付けることによって、任意の修正対象音声の指定を受け付ける。
一方、ステップS04において、音声入力部14が見本音声の入力を受け付けていない場合には、ステップS07において、見本音声指定部17が、見本音声を指定するテキストデータの入力を受け付けたか否かを判定する。見本音声指定部17が、見本音声を指定するテキストデータの入力を受け付けていない場合には、ステップS03に進み、見本音声指定部17が、見本音声を指定するテキストデータの入力を受け付けた場合には、ステップS08において、見本音声検索部18が、指定された見本音声(他語同話者音声、他語他話者音声、同語他話者音声のいずれか)の音声データを音声データベース11から読み出し、ステップS03に進む。
次に、ステップS11において、目標パラメータ決定部20が、音調見本の基本周波数の時間変化情報及び音高見本の基本周波数の時間変化情報に基づいて、音高見本の音高に合わせた音調見本の基本周波数の時間変化情報を算出する。
例えば、目標パラメータ決定部20は、音調見本の基本周波数の時間平均値と音高見本の基本周波数の時間平均値とを算出し、音高見本の基本周波数の時間平均値と音調見本の基本周波数の時間平均値との差を算出し、算出された差を音調見本の基本周波数に加算した和の時系列のデータを算出することによって、音高見本の音高に合わせた音調見本の基本周波数の時間変化情報を得る。
例えば、目標パラメータ決定部20は、音調見本の音素の時間情報に基づいて音調見本全体長と、時間情報見本の音素の時間情報に基づいて時間情報見本全体長とを算出する。そして、目標パラメータ決定部20は、全体長に対する音声素片の比を算出し、音調見本の音素の時間情報を、音調見本の各音素の時間情報に、時間情報見本全体長に対する音調見本全体長の比を乗ずることによって変更し、時間情報見本全体長と音調見本全体長とが一致する音調見本の音素の時間情報を得る。目標パラメータ決定部20は、得られた音素の時間情報を、目標パラメータの音素の時間情報として決定する。
例えば、目標パラメータ決定部20は、時間情報見本の時間情報の全体長に対する、音高が変更された音調見本の時間情報の全体長の比を算出し、この算出された比を、音高が変更された音調見本の時間情報の全体長に乗ずることによって、音高が変更された音調見本の時間情報を更新し、目標パラメータとして得る。
音高が変更された音調見本の時間情報を更新して目標パラメータが得られると、このフローチャート全体の処理を終了する。
以上説明した第1の実施形態においては、韻律選択部19は、音素の時間情報については、同語音声、他語音声、他語他話者音声、他語同話者音声、同語他話者音声それぞれの音声(音声データベース11から得られた音声あるいは音声入力部14が入力を受け付けた音声)の音声区間の全体時間長を、修正対象音声の音声区間の全体時間長で正規化せずに選択する構成について説明したが、各音声区間の全体時間長を、修正対象音声の音声区間の全体時間長と一致するように正規化しておき、正規化された音素の時間情報から選択するようにしても良い。この正規化は、例えば、目標パラメータ決定部20が、修正対象音声の時間情報見本全体長と、正規化する対象である音声の全体長を算出する。そして目標パラメータ決定部20が、修正対象音声の全体長に対する音声素片の比を算出し、算出された比を正規化する対象である音声の音素の時間情報に乗ずることによって変更する。
このように正規化しておくことにより、修正対象の音声の全体長を変えずに、目標パラメータを得ることができる。
次に、本発明の第2の実施形態について説明する。
図15は、同実施形態による合成音声修正装置2の機能構成を表すブロック図である。図示するように、合成音声修正装置2は、図1に示す第1の実施形態である目標パラメータ決定装置1が有する各機能部と、修正部21とを含んで構成される。図1の目標パラメータ決定装置1の各機能部に対応する部分については、同一の符号を付し、その説明を省略する。
具体的には、修正部21は、目標パラメータの基本周波数と、修正対象音声の基本周波数との差を、音声素片毎に算出し、この差が所定の閾値を超える音声素片(以下、「修正対象の音声素片」という)を検出する。
この修正対象の音声素片を検出する場合、修正部21は、(a)音声素片の開始時点における基本周波数の差、(b)音声素片の終了時点における基本周波数の差、(c)音声素片の開始から終了までの間の中間時点における基本周波数の差、(d)音声素片の開始から終了までの範囲における基本周波数の平均値の差、(e)音声素片の開始から終了までの時間を範囲における基本周波数の差分の絶対値の定積分値、のいずれかが所定の閾値を越えたか否かに基づいて検出する。
次に、修正部21は、(1)検出された修正対象の音声素片と音素ラベルが一致し、且つ、(2)目標パラメータの基本周波数の時間変化情報における修正対象区間(修正対象の音声素片の開始から終了までの時間に対応する区間)の基本周波数に最も近い基本周波数を有する、音声素片の音声信号データを音声データベース11から読み出す。そして、修正部21は、修正対象区間の音声信号データを、読み出された音声素片の音声信号データと、それに対応する韻律情報(基本周波数の時間変化情報と、音素の時間情報)とを、合成音声記憶部13に、合成音声として新たに登録する。
なお、修正部21は、新たに登録された合成音声全体の周波数分析をし直すことによって基本周波数の時間変化情報を得る。
そして、修正部21は、修正対象の音声素片の音声信号データを、選択された音声信号データに書き換えることによって、修正対象音声の韻律の修正を行う。
図16(a)において、修正部21は、修正対象音声の基本周波数の時間変化情報と目標パラメータの基本周波数の時間変化情報との差が所定以上である音声素片を検出し、この検出された音声素片(先頭(“あ”)から数えて4番目の音声素片(“い”))を、修正対象の音声素片であると判定する。次に、修正部21は、音声データベース11から、上述した条件を満たす音声素片の音声信号データと基本周波数の時間変化情報とを読み出す。そして、修正部21は、修正対象の音声素片の音声信号データを、上述した条件を満たす音声素片の音声信号データに書き換えるとともに、書き換えられた音声信号データを音声分析を行って韻律情報を作成し直す。
図16(b)アは修正後の合成音声の基本周波数の時間変化を表すグラフであり、図16(b)イは目標パラメータの基本周波数の時間変化を表すグラフである。このような修正処理によって、修正対象音声の基本周波数の時間変化情報が、目標パラメータの基本周波数の時間変化情報に近づくように修正される。
なお、合成音声の音素の時間情報の修正を行う場合、修正部21は、修正対象音声の修正対象となる音素の時間情報を、音声データベース11から得られた音素の時間情報に書き換えることによって修正を行う。
上述した第2の実施形態において修正部21は、修正対象音声の基本周波数と目標パラメータの基本周波数との差が、所定の閾値を越えた区間を対象として、音声信号データを更新することにより修正するようにしたが、この所定の閾値を越えた区間のみではなく、全ての区間を対象として、修正を行うようにしてもよいし、一部の区間(例えば、図16(a)ウに示す区間に対応する音声素片)を利用者が指定して、修正を行うようにしてもよい。また、上述のコスト関数の重みの大きさを、利用者から入力される指示に従って、任意に変更するように構成しても良い。
また、上記(1)、(2)の条件を満たす音声素片を選択する場合、同話者の音声データを選択するようにしてもよいし、他話者の音声データを選択するようにしてもよい。
なお、目標パラメータ決定部20が作成した目標韻律を用いずに音声合成を行う装置等、他の装置では、発話内容の言語解析から得られるアクセント情報に基づく音声素片選択等が行われる場合もある。
次に、本発明の第3の実施形態について説明する。
図17は、同実施形態による合成音声修正装置3の機能構成を表すブロック図である。図示するように、合成音声修正装置3は、図1に示す第1の実施形態である目標パラメータ決定装置1が有する各機能部と、修正部31とを含んで構成される。図1の目標パラメータ決定装置1の各機能部に対応する部分については、同一の符号を付し、その説明を省略する。
以上、この発明の実施形態を図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
11 音声データベース
12 修正対象音声指定部
13 合成音声記憶部(修正対象音声記憶部)
14 音声入力部
15 音声テキスト入力部(発話内容取得部)
16 音声分析部
17 見本音声指定部
18 見本音声検索部
19 韻律選択部
20 目標パラメータ決定部
2,3 合成音声修正装置
21,31 修正部
Claims (7)
- 音声と、前記音声の発話内容と、前記音声の基本周波数の時間変化情報と、前記音声に含まれる音素のタイミングを表す音素の時間情報とを対応付けて記憶する音声データ記憶部と、
音声の基本周波数の時間変化情報と前記音声に含まれる音素のタイミングを表す音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調の見本である音調見本データと音高の見本である音高見本データと音素のタイミングの見本である時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する韻律選択部と、
前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる基本周波数の時間変化情報を決定するとともに、前記音調見本データが有する音素の時間情報を、前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる音素の時間情報を決定する目標パラメータ決定部と、
を具備することを特徴とする目標パラメータ決定装置。 - 請求項1に記載の目標パラメータ決定装置において、
音声の入力を受け付ける音声入力部と、
前記音声に対応する発話内容を取得する発話内容取得部と、
前記音声入力部によって受け付けられた前記音声と前記発話内容とに基づき、当該音声の基本周波数の時間変化情報及び当該音声の音素の時間情報を算出する音声分析部と、
をさらに具備し、
前記韻律選択部は、前記音声分析部によって算出された前記基本周波数の時間変化情報及び前記音素の時間情報を有する前記音声を前記見本音声データとして取得する、
ことを特徴とする目標パラメータ決定装置。 - 請求項1に記載の目標パラメータ決定装置において、
見本音声データを選択する指示の入力を受け付ける見本音声指定部と、
前記見本音声指定部が受け付けた指示に基づいて前記音声データ記憶部を検索することによって前記見本音声データを得る見本音声検索部をさらに具備し、
前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、
ことを特徴とする目標パラメータ決定装置。 - 請求項1に記載の目標パラメータ決定装置において、
修正対象となる修正対象音声を選択する指示の入力を受け付ける修正対象音声指定部と、
前記音声データ記憶部を検索することによって前記修正対象音声の表記と同じ表記を有する見本音声を得る見本音声検索部をさらに具備し、
前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、
ことを特徴とする目標パラメータ決定装置。 - 請求項1に記載の目標パラメータ決定装置において、
修正対象である音声を記憶する修正対象音声記憶部と、
前記音声データ記憶部から、前記修正対象である音声の表記と異なる表記であって、かつ、音素数またはモーラ数が一致する見本音声データを得る見本音声検索部と、
をさらに具備し、
前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、
ことを特徴とする目標パラメータ決定装置。 - 請求項1に記載の目標パラメータ決定装置と、
修正対象である音声を記憶する修正対象音声記憶部と、
前記修正対象音声を読み出し、前記目標パラメータ決定装置によって決定された前記基本周波数の時間変化情報及び音素の時間情報に基づいて前記修正対象音声を修正する修正部と、
を具備することを特徴とする合成音声修正装置。 - 音声と、前記音声の発話内容と、前記音声の基本周波数の時間変化情報と、前記音声に含まれる音素のタイミングを表す音素の時間情報とを対応付けて記憶する音声データ記憶部を有するコンピュータを、
音声の基本周波数の時間変化情報と前記音声に含まれる音素のタイミングを表す音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調の見本である音調見本データと音高の見本である音高見本データと音素のタイミングの見本である時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する韻律選択手段、
前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる基本周波数の時間変化情報を決定するとともに、前記音調見本データが有する音素の時間情報を、前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる音素の時間情報を決定する目標パラメータ決定手段、
として機能させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008187035A JP2010026223A (ja) | 2008-07-18 | 2008-07-18 | 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008187035A JP2010026223A (ja) | 2008-07-18 | 2008-07-18 | 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010026223A true JP2010026223A (ja) | 2010-02-04 |
Family
ID=41732119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008187035A Pending JP2010026223A (ja) | 2008-07-18 | 2008-07-18 | 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010026223A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012037722A (ja) * | 2010-08-06 | 2012-02-23 | Yamaha Corp | 音合成用データ生成装置およびピッチ軌跡生成装置 |
WO2014017024A1 (ja) * | 2012-07-27 | 2014-01-30 | 日本電気株式会社 | 音声合成装置、音声合成方法、及び音声合成プログラム |
JP2018077282A (ja) * | 2016-11-07 | 2018-05-17 | ヤマハ株式会社 | 音声合成方法 |
CN112420015A (zh) * | 2020-11-18 | 2021-02-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频合成方法、装置、设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001166788A (ja) * | 1999-12-07 | 2001-06-22 | Matsushita Electric Ind Co Ltd | 音声合成方法および装置 |
JP2002258885A (ja) * | 2001-02-27 | 2002-09-11 | Sharp Corp | テキスト音声合成装置およびプログラム記録媒体 |
JP2007024960A (ja) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
-
2008
- 2008-07-18 JP JP2008187035A patent/JP2010026223A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001166788A (ja) * | 1999-12-07 | 2001-06-22 | Matsushita Electric Ind Co Ltd | 音声合成方法および装置 |
JP2002258885A (ja) * | 2001-02-27 | 2002-09-11 | Sharp Corp | テキスト音声合成装置およびプログラム記録媒体 |
JP2007024960A (ja) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012037722A (ja) * | 2010-08-06 | 2012-02-23 | Yamaha Corp | 音合成用データ生成装置およびピッチ軌跡生成装置 |
WO2014017024A1 (ja) * | 2012-07-27 | 2014-01-30 | 日本電気株式会社 | 音声合成装置、音声合成方法、及び音声合成プログラム |
JP2018077282A (ja) * | 2016-11-07 | 2018-05-17 | ヤマハ株式会社 | 音声合成方法 |
CN112420015A (zh) * | 2020-11-18 | 2021-02-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频合成方法、装置、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7739113B2 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
JP4302788B2 (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
KR20050098839A (ko) | 네트워크 환경에서 음성 처리를 위한 중간 처리기 | |
JP2002511154A (ja) | ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム | |
JP2017058513A (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
JPH11143346A (ja) | 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体 | |
JP4704254B2 (ja) | 読み修正装置 | |
JP2005266349A (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP2018040982A (ja) | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム | |
JP2010026223A (ja) | 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JP3050832B2 (ja) | 自然発話音声波形信号接続型音声合成装置 | |
JP5062178B2 (ja) | 音声収録システム、音声収録方法、および収録処理プログラム | |
JP2013195928A (ja) | 音声素片切出装置 | |
JP2003186489A (ja) | 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法 | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
JP2975586B2 (ja) | 音声合成システム | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
KR20100111544A (ko) | 음성인식을 이용한 발음 교정 시스템 및 그 방법 | |
JP3091426B2 (ja) | 自然発話音声波形信号接続型音声合成装置 | |
US11393451B1 (en) | Linked content in voice user interface |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110128 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20110128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120515 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120918 |