[go: up one dir, main page]

JP2010026223A - 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム - Google Patents

目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム Download PDF

Info

Publication number
JP2010026223A
JP2010026223A JP2008187035A JP2008187035A JP2010026223A JP 2010026223 A JP2010026223 A JP 2010026223A JP 2008187035 A JP2008187035 A JP 2008187035A JP 2008187035 A JP2008187035 A JP 2008187035A JP 2010026223 A JP2010026223 A JP 2010026223A
Authority
JP
Japan
Prior art keywords
sample
voice
time
speech
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008187035A
Other languages
English (en)
Inventor
Reiko Tako
礼子 田高
Toru Tsugi
徹 都木
Hiroyuki Segi
寛之 世木
Nobumasa Seiyama
信正 清山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Nippon Hoso Kyokai NHK
NHK Engineering Services Inc
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, NHK Engineering Services Inc, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2008187035A priority Critical patent/JP2010026223A/ja
Publication of JP2010026223A publication Critical patent/JP2010026223A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】合成音声の韻律を目標韻律に修正する処理に用いられる目標パラメータを容易に決定する。
【解決手段】音声データ記憶部と、音声の基本周波数の時間変化情報と音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調見本データと音高見本データと時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する。前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせて目標パラメータとなる基本周波数の時間変化情報を決定する。
【選択図】図1

Description

本発明は、合成音声の韻律を決定する目標パラメータ決定装置、決定された韻律に従って合成音声を修正する合成音声修正装置、及びこれらのコンピュータプログラムに関する。
合成音声の韻律は、その発話内容や前後の文脈などの言語情報に基づいて予測生成されることが多い。予測生成された韻律が不自然である場合には、合成音声の韻律を自然な韻律(以下、「目標韻律」という。)に修正する必要がある。
特許文献1には、韻律の修正を行なう修正者を補助するユーザインターフェースに関する技術が開示されている。特許文献1に開示された技術では、まず修正者が、合成音声の韻律を目標韻律に修正する処理に用いられるパラメータ(以下、「目標パラメータ」という。)の値を決定する。そして、利用者は、決定された目標パラメータの値に基づいて、画面に表示されたスライダーを操作し、各音節の韻律を修正する。
また、特許文献2には、発話された音声を録音し、録音された音声から特徴パラメータを抽出する技術が開示されている。また、特許文献3には、韻律変換を行う技術が開示されている。この特許文献3に開示された技術では、韻律も含めた音声変換が、音声素片に対して行われる。また、非特許文献1にも、韻律変換を行う技術が開示されている。
特開2003−36100号公報 特開2007−140002号公報 特許第3913770号 都木徹、梅田哲夫、"ピッチ変更時のひずみをスペクトル領域で修正する声質変換方式とその品質の心理評価"、信学論(A)、vol.J73−A、No.3、pp.387−396、1990年3月
しかしながら、目標パラメータの具体的な値を決定するには専門的な知識や経験を要するため、修正対象である合成音声(以下、「修正対象音声」という。)の修正後の韻律のイメージを修正者が持っていても、修正者が目標パラメータの具体的な値を決定することは困難であるという問題があった。さらには、このような専門的な知識や経験を有している修正者であっても、目標パラメータを決定する作業には多くの時間を要してしまうという問題があった。
本発明は、上記事情を考慮して為されたものであり、目標パラメータを容易に決定することを可能とする目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラムを提供することを目的とするものである。
[1]上記の課題を解決するため、本発明の一態様による目標パラメータ決定装置は、音声と、前記音声の発話内容と、前記音声の基本周波数の時間変化情報と、前記音声に含まれる音素のタイミングを表す音素の時間情報とを対応付けて記憶する音声データ記憶部と、音声の基本周波数の時間変化情報と前記音声に含まれる音素のタイミングを表す音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調の見本である音調見本データと音高の見本である音高見本データと音素タイミングの見本である時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する韻律選択部と、前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる基本周波数の時間変化情報を決定するとともに、前記音調見本データが有する音素の時間情報を、前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる音素の時間情報を決定する目標パラメータ決定部と、を具備することを特徴とする。
ここで、基本周波数の時間変化情報は、基本周波数の値が経過時間毎に配列されたデータである。この基本周波数の値は、絶対的な音の高さに対応している。従って、上述の基本周波数の時間変化情報は、音の高さを含む。
この構成によれば、音調見本データと、音高見本データと、時間情報見本データとのそれぞれが、見本音声データの種別に応じて選択される。そして、音高見本の基本周波数の時間変化情報に応じて、音調見本の基本周波数の時間変化情報が変更され、さらに、時間見本データの音素の時間情報に合わせるように変更されることにより、目標となる基本周波数の時間変化情報が得られる。さらに、音調見本データの音素の時間情報を、時間見本データの音素の時間情報に合わせることによって、目標となる音素の時間変化情報が決定される。
[2]また、本発明の一態様は、上記の目標パラメータ決定装置において、音声の入力を受け付ける音声入力部と、前記音声に対応する発話内容を取得する発話内容取得部と、前記音声入力部によって受け付けられた前記音声と前記発話内容とに基づき、当該音声の基本周波数の時間変化情報及び当該音声の音素の時間情報を算出する音声分析部と、をさらに具備し、前記韻律選択部は、前記音声分析部によって算出された前記基本周波数の時間変化情報及び前記音素の時間情報を有する前記音声を前記見本音声データとして取得する、ことを特徴とする。
この構成によれば、音声と当該音声の発話内容との入力を受け付け、この受け付けられた音声と発話内容を基に、音声の基本周波数の時間変化情報と音素の時間情報とを得て、見本音声データを得るようにした。これにより、入力される音声を音声見本音声データとして用いることが可能となる。
[3]また、本発明の一態様は、上記の目標パラメータ決定装置において、見本音声データを選択する指示の入力を受け付ける見本音声指定部と、前記見本音声指定部が受け付けた指示に基づいて前記音声データ記憶部を検索することによって前記見本音声データを得る見本音声検索部をさらに具備し、前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、ことを特徴とする。
この構成によれば、音声データ記憶部に記憶された音声データの中から、見本を選択する指示に応じた音声データを、見本音声データとして用いることができる。
[4]また、本発明の一態様は、上記の目標パラメータ決定装置において、修正対象となる修正対象音声を選択する指示の入力を受け付ける修正対象音声指定部と、前記音声データ記憶部を検索することによって前記修正対象音声の表記と同じ表記を有する見本音声を得る見本音声検索部をさらに具備し、前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、ことを特徴とする。
この構成によれば、修正対象の音声の指定に応じて、音声に対応する発話内容を有する見本音声データが得られる。
[5]また、本発明の一態様は、上記の目標パラメータ決定装置において、修正対象である音声を記憶する修正対象音声記憶部と、前記音声データ記憶部から、前記修正対象である音声の表記と異なる表記であって、かつ、音素数またはモーラ数が一致する見本音声データを得る見本音声検索部と、をさらに具備し、前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、ことを特徴とする。
[6]また、本発明の一態様は、合成音声修正装置であって、上記の目標パラメータ決定装置と、修正対象である音声を記憶する修正対象音声記憶部(合成音声記憶部)と、前記修正対象音声を読み出し、前記目標パラメータ決定装置によって決定された前記基本周波数の時間変化情報及び音素の時間情報に基づいて前記修正対象音声を修正する修正部と、を具備することを特徴とする。
この構成によれば、見本音声データが指定されることのみによって、目標パラメータ決定装置が修正対象となる合成音声の目標パラメータが決定される。そして、決定された目標パラメータに基づいて、修正対象の音声データの韻律の修正が行われる。
[7]また、本発明の一態様によるコンピュータプログラムは、音声と、前記音声の発話内容と、前記音声の基本周波数の時間変化情報と、前記音声に含まれる音素のタイミングを表す音素の時間情報とを対応付けて記憶する音声データ記憶部を有するコンピュータを、音声の基本周波数の時間変化情報と前記音声に含まれる音素のタイミングを表す音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調の見本である音調見本データと音高の見本である音高見本データと音素のタイミングの見本である時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する韻律選択手段、前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる基本周波数の時間変化情報を決定するとともに、前記音調見本データが有する音素の時間情報を、前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる音素の時間情報を決定する目標パラメータ決定手段、として機能させるためのコンピュータプログラムである。
本発明により、合成音声の韻律を目標韻律に修正する処理に用いるための目標パラメータの値を修正者が具体的に検討することなく、目標パラメータを容易に決定することが可能となる。
[第1の実施の形態]
以下、本発明の複数の実施形態について、図面を参照しながら説明する。
図1は、第1の実施形態による目標パラメータ決定装置の機能構成を表すブロック図である。図示するように、目標パラメータ決定装置1は、音声データベース11と、修正対象音声指定部12と、合成音声記憶部13と、音声入力部14と、音声テキスト入力部15(発話内容取得部)と、音声分析部16と、見本音声指定部17と、見本音声検索部18と、韻律選択部19と、目標パラメータ決定部20とを含んで構成される。
音声データベース11は、音声信号の振幅の時系列データである音声の音声信号データと、音声の韻律情報と、発話者識別情報とを含む音声データを記憶する。韻律情報は、基本周波数の時間変化情報と音素の時間情報とからなる。発話者識別情報は、音声を発声する発話者を識別する識別情報である。
音声データベース11は、ハードディスク装置や光磁気ディスク装置、半導体メモリ、
CD−ROM等の記録媒体、あるいはこれらの組み合わせにより構成される。
修正対象音声指定部12は、合成音声記憶部13に記憶される合成音声の中から、修正対象である合成音声を選択する指示の入力を受け付ける。修正対象音声指定部12は、合成音声データを指定する入力を、例えば、修正対象である合成音声データの発話内容を表すテキストデータによって受け付ける。修正対象音声指定部12には、例えば、キーボードやマウス等の入力装置が用いられる。
合成音声記憶部13は、音声の音声信号データと、音声の韻律情報と、発話内容(表記)と、発話者識別情報とを含む合成音声データを記憶する。
音声入力部14は、マイクロフォン等を用いて、見本となる音声である見本音声の入力を受け付ける。
音声テキスト入力部15は、音声入力部14が受け付けた見本音声の発話内容を表すテキストデータの入力を受け付ける。この音声テキスト入力部15は、例えば、キーボードやマウス等の入力装置が用いられる。
音声分析部16は、音声テキスト入力部15が入力を受け付けたテキストデータに基づいて、音声入力部14から入力された見本音声を分析し、見本音声の韻律情報を生成する。具体的には、音声分析部16は、音声認識技術の強制アラインメントを実行することによって、音声信号データと音素ラベルとを有する音響モデルを用い、音声テキスト入力部15が入力を受け付けたテキストデータから得られる音素ラベルに対応する音響モデルを見本音声にそれぞれ当てはめ、隣り合う音素ラベルに対する時間軸方向の境界を検出して、音素毎の開始時点と終了時点を決定し、音素の時間情報を得る。
さらに、音声分析部16は、見本音声の基本周波数の時間変化情報を有声区間(声帯の振動を伴う音声である有声音声の区間)において生成し、生成された基本周波数の値に対し、有声区間の分析値を用いてスプライン関数などによりスムージングを行うことによって、変化が滑らかな基本周波数の時間変化情報を生成する。このとき、音声分析部16は、基本周波数の値を取得できない無声区間(声帯の振動を伴わない音声である無声音声の区間)については、この無声区間の前後の有声区間の基本周波数の値から内挿した値を用いて、無声区間の基本周波数を補間する。
見本音声指定部17は、音声データベース11に記憶される音声データのうち、修正を行う場合における見本となる音声(見本音声)の発話内容のテキストを、例えば、かな表記と漢字表記と音素ラベル表記とのいずれかによって受け付ける。具体的には、見本音声指定部17は、他語同話者音声と、他語他話者音声と、同語他話者音声とのいずれかの指定を受け付ける。他語同話者音声とは、修正対象音声と発話者識別情報が同一であり、且つ修正対象音声と発話内容が異なる音声である。他語他話者音声とは、修正対象音声と発話者識別情報が異なり、且つ修正対象音声と発話内容が異なる音声である。同語他話者音声とは、修正対象音声と発話者識別情報が異なり、且つ修正対象音声と発話内容が同一の音声である。例えば、見本音声指定部17には、キーボードやマウス等の入力装置が用いられる。
見本音声検索部18は、他語同話者音声と、他語他話者音声と、同語他話者音声との韻律情報とのうち少なくともいずれかを、音声データベース11から読み出す。
また、見本音声検索部18は、見本音声指定部17によって受け付けられた修正対象音声の、発話内容を表すテキストデータと発話者識別情報とをキーにして音声データベース11を検索し、その結果、見本音声を得る。
韻律選択部19は、音声分析部16が生成した見本音声(他語同話者音声と他語他話者音声と同語他話者音声のうち少なくともいずれか1つ)の韻律情報と、見本音声検索部18が読み出した見本音声(他語同話者音声と他語他話者音声と同語他話者音声のうち少なくともいずれか1つ)の韻律情報と、または修正対象の合成音声の韻律情報との中から、目標パラメータ決定処理に用いられる音調見本(音調の見本である音調見本データ)、音高見本(音高の見本である音高見本データ)、及び時間情報見本(音素タイミングの見本である時間見本データ)をそれぞれ選択する韻律選択処理を行う。ここで、音高とは、音の高さであり、例えば、音声の基本周波数によって表される。例えば、音高は、基本周波数の時間変化情報に含まれる基本周波数の値の最大値や最小値や平均値が用いられる。なお、基本周波数とは、音声の調波成分の中で最も低い周波数である。音調とは、声の高さの配置(高さアクセント)であり、基本周波数の値の相対的または絶対的な変化の時系列によって表される。
韻律選択処理の詳細については、後で図面を参照しながら説明する。
目標パラメータ決定部20は、韻律選択部19によって選択された音調見本、音高見本、及び時間情報見本それぞれの韻律情報に基づいて目標パラメータ決定処理を行い、目標パラメータを決定する。目標パラメータとは、目標となる韻律を有する基本周波数の時間変化情報と、目標となる韻律を有する音素の時間情報とからなる情報(韻律情報)である。
音声データベース11に記憶される音声データについて、図2を用いてさらに詳細に説明する。図2は、音声データベース11に記憶される音声データの構成を表す概略図である。
音声データは、音声信号データと、韻律情報と、発話者識別情報と、漢字表記と、かな表記と、音素ラベル表記とを対応付けて、音声毎に保持するデータである。音声信号データは、音声の波形に対応するデータであって、例えば、振幅値の時系列による配列データである。韻律情報は、基本周波数の時間変化情報と音素の時間情報とからなる。基本周波数の時間変化情報は、基本周波数の値が経過時間毎に配列されたデータである。音素の時間情報は、音声の開始時点を時刻の基準として音素毎のその音素の開始時点と終了時点とを表す。音素については後述する。
発話者識別情報は、音声の発話者を識別する識別情報である。漢字表記は、音声の発話内容を表す漢字を発話の順に配列された情報である。かな表記は、音声の発話内容を表すかなを発話の順に配列された情報である。音素ラベル表記は、音声の発話内容を表す音素ラベルを発話の順に配列された情報である。
例えば図2において、図中のデータの1行目は、音声信号データ“WAVE1”の音声の基本周波数の時間変化情報“FRQ1”と、音素の時間情報“TIME1”とが韻律情報として音声信号データに対応付けされているとともに、この音声の発話者識別情報が“A01”、この音声の発話内容の漢字表記が“北海道”、かな表記が“ほっかいどー”、この音声の発話内容の音素ラベル表記が“hoQkaido:”であることを表す。
また、図中のデータの4行目は、発話内容が1モーラである音声データを表しており、音声信号データ“WAVE4”の音声の基本周波数の時間変化情報“FRQ4”と、音素の時間情報“TIME4”とが韻律情報として音声信号データに対応付けされているとともに、この音声の発話者識別情報が“A01”、この音声の発話内容の漢字表記が無く(図2においては「−」と表す)、かな表記が“あ”、この音声の発話内容の音素ラベル表記が“a”であることを表す。
なお、音声データベース11は、音声データが新規に作成された場合には、新たに記憶することが可能であり、また、音声を作成する他の装置において作成された音声データを得て、新たに記憶することも可能である。
図3は、音声信号の波形図である。図3の波形図における縦軸は振幅を表し、横軸は音声を開始した時点を基準として経過した時間を表す。音声信号の振幅の値が経過時間毎に配列されたデータが音声信号データである。具体的には、図3は、図2のデータの1行目におけるWAVE1である「ほっかいどー」が発話された場合の波形図である。
図4は、基本周波数の時間に応じた変化を表すグラフである。この基本周波数の時間変化情報は、基本周波数の値が経過時間毎に配列されたデータである。図4において、縦軸は基本周波数を表し、横軸は経過時間を表す。具体的には、図4は、図2のデータの1行目におけるFRQ1をグラフとして表したものでる。
図5は、音素の時間情報を表すテキストデータを示す概略図である。例えば図5において、1行目のTIME1は、音素の時間情報のデータの名称であり、2行目から11行目は、音素毎の音素の時間情報である。なお、音素とは音韻論上の音の最小単位であり、母音や子音それぞれが1音素に対応する。また、撥音や長音や促音もそれぞれが1音素に対応する。
2行目から11行目のデータにおいて、一列目は音声の開始時点を時刻の基準として各音素の開始時点までの時間を1万分の1秒単位で表し、二列目は音声の開始時点を時刻の基準として各音素の終了時点までの時間を1万分の1秒単位で表し、三列目は音素の音素ラベルを表す。例えば図5において、“0 4750 sil”は、音声の開始時点から0.475秒経過するまでの間が無声区間であることを表す。また、“4750 5100 h”は、音声の開始時点を基準として0.475秒経過した時点から0.51秒経過するまでの間の音素が“h”であることを表す。なお、音素ラベルsilは、音素がないことを表し、音素ラベルQは促音を表し、音素ラベルo:は「お」の長音を表す。なお、ここでは、時刻が1万分の1秒単位である場合を一例として説明したが、1千分の1秒単位(ミリ秒)など、他の単位で表すようにしてもよい。
図6は、見本音声指定部17が入力を受け付ける他語音声を、利用者が選ぶ時の条件を説明する概念図である。
他語音声は、他語他話者音声と他語同話者音声との2つがある。他語音声であるか否かによって、音調見本と、音高見本と、時間情報見本とそれぞれ選択する際に、他語音声の韻律情報の優先順位が変わる。
他語音声を見本音声指定部17から指定する場合、利用者は、修正対象音声と発話内容のモーラ数が同じである音声を選択する。モーラとは、音の長さについての音韻論上の単位である。日本語では、概ね、拗音については仮名2文字が1モーラに対応し、拗音以外については、仮名1文字が1モーラに対応する。1モーラは、1または複数の音素により構成される。
図6(a)は、修正対象音声の具体例「あおいいえ」のモーラ区切り及び音素区切りを表す図であり、図6(b)は、他語音声の具体例「しろいいえ」のモーラ区切り及び音素区切りを表す図である。
図6の場合、「しろいいえ」のモーラ数は5であり、修正対象音声「あおいいえ」のモーラ数と一致する。従って、「しろいいえ」が修正対象音声とモーラ数が同じであるという条件を満たしており、利用者は他語音声として選択することが可能である。
なお、利用者は、他語音声について、修正対象音声と発話内容のモーラ数が同じであって、修正対象音声と音素数が異なる音声を選択することも可能である。例えば、図6に示すように、図6(b)に表される「しろいいえ」の音素数が7であり、図6(a)に表される修正対象音声「あおいいえ」の音素数が5であるため、音素数が一致しないが、上述したように「しろいいえ」はモーラ数が一致するので条件を満たす。従って、利用者は、修正対象音声とモーラ数が同じであって、且つ、音素数が異なる音声を他語音声として選択することができる。
図7は、韻律選択部19が見本音声を選択する優先順位の一例を表す概要図である。具体的に、図7においては、音調見本と、音高見本と、時間情報見本との組み合わせが、優先順位に対応付けられている。
音声の候補としては、例えば、以下の音声がある。下に列挙するものは音声の種別である。
(1)音声入力部が入力を受け付けた音声
(a)修正対象音声と同発話内容
(b)修正対象音声と異なる発話内容、同音素数
(c)修正対象音声と異なる発話内容、同モーラ数
(2)音声データベースに記憶された音声
(a)修正対象音声と異なる発話内容、同音素数、同話者
(b)修正対象音声と異なる発話内容、同モーラ数、同話者
(c)修正対象音声と異なる発話内容、同音素数、他話者
(d)修正対象音声と異なる発話内容、同モーラ数、他話者
(e)修正対象音声と同発話内容、他話者
(3)修正対象音声
音調見本と、音高見本と、時間情報見本とには、それぞれ、上述の(1)(a)から(1)(c)と、(2)(a)から(2)(e)と、(3)とのうち、いずれか1つが選ばれる。
例えば、図7の1行目は、(2)(a)が音調見本であり、(3)が音高見本であり、(3)が時間情報見本である組み合わせが、優先順位1に対応付けされている。
また、図7の2行目は、(2)(a)が音調見本であり、(2)(b)が音高見本であり、(3)が時間情報見本である組み合わせが、優先順位2に対応付けされている。
ここでは、1が最も高い優先順位である。
具体的に、韻律選択部19は、音調見本については、音声入力部14が入力を受け付けた見本音声または見本音声検索部18が音声データベース11から検索して得た見本音声から1つ選択する。また、韻律選択部19は、音高見本については、見本音声検索部18が音声データベース11から得た見本音声(修正対象音声と同話者の音声)、または合成音声記憶部13から得た修正対象音声のいずれかから1つ選択する。また、韻律情報選択部19は、音素の時間情報については、音声入力部14が受け付けた見本音声と、見本音声検索部18が音声データベース11から得た見本音声と、合成音声記憶部13から得た修正対象音声のいずれかから1つ選択する。
韻律選択部19は、音調見本について選択した見本音声と、音高見本について選択した見本音声と、音素の時間情報について選択した見本音声との組み合わせのうち、取り得る組み合わせのそれぞれの優先順位に従って、優先順位のうち最も高い組み合わせを選択する。
例えば、音声入力部14から見本音声の入力を受け付けず、見本音声指定部17から(2)(a)、(2)(b)である見本音声の入力を受け付け、修正対象音声を記憶する合成音声記憶部13から(3)を受け付けた場合には、音調見本が(2)(a)、音高見本が(3)、時間情報見本が(3)である組み合わせに対応する優先順位が1であり、また、これらの見本音声の他の組み合わせに対応する優先順位が2、3、7であるので、韻律選択部19は、優先順位が1である組み合わせを選択する。
また、例えば、音声入力部14から(1)(a)である見本音声を受け付け、見本音声指定部17から(2)(b)である見本音声の入力を受け付け、修正対象音声を記憶する合成音声記憶部13から(3)を受け付けた場合には、音調見本が(1)(a)、音高見本が(3)、時間情報見本が(3)である組み合わせに対応する優先順位が4であり、音調見本が(1)(a)、音高見本が(2)(b)、時間情報見本が(3)である組み合わせに対応する優先順位が5であるので、韻律選択部19は、優先順位が4の組み合わせを選択する。
なお、図7においては、図示した組み合わせに限られるものではなく、組み合わせを変えたり、優先順位を変えたりするようにしてもよい。
また、例えば、この図7に示す情報を予めハードディスク等の記憶装置に記憶しておき、韻律選択処理を行う場合、韻律選択部19は、この記憶装置を参照し、優先順位に従い、見本となる韻律情報を選択することが可能である。
次に、目標パラメータ決定部20の詳細について説明する。
図8は、基本周波数の時間方向の平均値(以下、「時間平均値」という)を用いて、音調見本の基本周波数の時間変化情報を算出する場合について説明する説明図である。図8において、縦軸は基本周波数を表し、横軸は時間を表す。
図8(a)と図8(b)は、音調見本の基本周波数の時間変化を表すグラフ(ア)、及び音高見本の基本周波数の時間変化を表すグラフ(イ)を示す。さらに、図8(b)は、音高見本の基本周波数の平均値と音調見本の基本周波数の平均値とに基づいて目標パラメータ決定部20によって算出される基本周波数の時間変化を表すグラフ(ウ)を示す。
基本周波数の時間平均値を用いて、音調見本の基本周波数の時間変化情報を算出する場合、目標パラメータ決定部20は、まず音調見本(図8(a)ア)の基本周波数の時間平均値と音高見本(図8(a)イ)の基本周波数の時間平均値とを算出する。そして、目標パラメータ決定部20は、音調見本(図8(b)ア)の基本周波数の時間平均値が、音高見本(図8(a)イ)の基本周波数の時間平均値と同じとなるような、音調見本の基本周波数の時間変化情報を算出する。具体的には、目標パラメータ決定部20は、音高見本の基本周波数の時間平均値と音調見本の基本周波数の時間平均値との差を算出し、算出された差を音調見本の基本周波数に加算した和の時系列のデータを算出する。この算出される音調見本の基本周波数の時間変化情報のグラフを図8(b)ウに示す。
このように、音高見本の基本周波数の平均値と同じになるような平均値を持つ音調見本の基本周波数を算出することにより、音高見本の音高に近づけた音調見本の基本周波数の時間変化情報が得られる。
次に、図9を用いて、音調見本の音声素片の発話開始から発話終了までの全体の時間を合計した音調見本全体長に対する、音調見本の各音声素片の発話開始から発話終了までの時間の比(全体長に対する音声素片の比)を変えずに、音調見本全体長を変更する場合について説明する。ここで、音声素片は、合成音声を構成する音声波形のデータである。図9の例では、音声素片の単位がモーラである場合を説明する。
図9は、全体長に対する音声素片の比を変えずに、音調見本全体長を変更する場合について説明する概念図である。図9の上段は時間情報見本の音素の時間情報を表し、図9の中段は音調見本の音素の時間情報を表し、図9の下段は目標パラメータの音素の時間情報を示す。図9の横軸は、時間を示している。
全体長に対する音声素片の比を変えずに、音調見本全体長を変更する場合、目標パラメータ決定部20は、まず時間情報見本の各音声素片の発話開始から発話終了までの時間を合計した時間情報見本全体長と、音調見本全体長とを算出する。そして、目標パラメータ決定部20は、全体長に対する音声素片の比を変えることなく、音調見本の音素の時間情報を、時間情報見本全体長と音調見本全体長とが一致するように変更する。具体的には、目標パラメータ決定部20は、時間情報見本全体長と音調見本全体長とを算出する。そして、目標パラメータ決定部20は、全体長に対する音声素片の比を算出し、音調見本の音素の時間情報に対し、時間情報見本全体長に対する音調見本全体長の比を音調見本の各音素の時間情報に乗ずることによって変更し、時間情報見本全体長と音調見本全体長とが一致する音調見本の音素の時間情報を得る。目標パラメータ決定部20は、得られた音素の時間情報を、目標パラメータの音素の時間情報として決定する。
これにより、時間情報見本全体長と音調見本全体長とが異なる場合であっても、時間情報見本全体長に合わせた音調見本全体長を得ることができ、音調見本全体長の調整を行うことができる。
図10は、音調見本の音高が音高見本の音高に合わせて変更された音調見本の基本周波数の時間変化情報を、時間情報見本に従って変更する場合について説明する説明図である。音調見本の音高が音高見本の音高に合わせて変更された音調見本の基本周波数の時間変化情報を、時間情報見本に従って変更する場合、目標パラメータ決定部20は、音高見本の音高に近づけた音調見本の基本周波数の時間変化情報(図10(ウ))を、時間情報見本に従って、音高が変更された音調見本の基本周波数の時間変化情報の全体長と音素の時間情報の全体長とを一致させるように変更することによって、目標パラメータの基本周波数の時間変化情報を生成する。
具体的には、目標パラメータ決定部20は、時間情報見本の時間情報の全体長に対する、音高が変更された音調見本の時間情報の全体長の比を算出し、この算出された比を、音高が変更された音調見本の時間情報の全体長に乗ずることによって、音高が変更された音調見本の時間情報を更新する。例えば、図10(エ)は、音高見本の音高に近づけた音調見本の基本周波数の時間変化情報(図10(ウ))を、音素の時間情報の全体長と一致するように更新した後の基本周波数の時間変化情報を示す。
なお、目標パラメータ決定部20は、音高見本の基本周波数の平均値に代えて、音高見本の基本周波数の高低幅、最大値、又は最小値に基づいて音調見本の基本周波数を変更するようにしてもよい。また、目標パラメータ決定部20は、音高見本の基本周波数の平均値、最大値、及び最小値のいずれかと、音高見本の基本周波数の高低幅とに基づいて音調見本の基本周波数を変更しても良い。
上述の音高見本の基本周波数の最大値、最小値、高低幅に基づいて音調見本の基本周波数を変更する場合について説明する。図11は、目標パラメータ決定部20が音高見本の基本周波数の最大値に基づいて音調見本の基本周波数の時間変化情報を算出する場合について説明する説明図である。音高見本の基本周波数の最大値に基づいて音調見本の基本周波数の時間変化情報を算出する場合、目標パラメータ決定部20は、まず音高見本の基本周波数の最大値を算出する。そして、目標パラメータ決定部20は、音調見本の基本周波数(図11(ア))の最大値と、音高見本の基本周波数の最大値とを算出し、音高見本の基本周波数(図11(イ))の最大値が同じ値となる音調高見本の基本周波数を算出する。具体的には、目標パラメータ決定部20は、音高見本の基本周波数の最大値と音調見本の基本周波数の最大値との差を算出し、算出された差に音調見本の各時点における基本周波数を加算した和の時系列のデータを生成する。
図11において、図11(ア)は音調見本の基本周波数を表すグラフであり、図11(イ)は音高見本の基本周波数を表すグラフであり、図11(ウ)は、音高見本の基本周波数の最大値と音調見本の基本周波数の最大値との差に、音調見本の各時点における基本周波数を加算した和のグラフである。
次に、目標パラメータ決定部20が音高見本の基本周波数の最小値に基づいて音調見本の基本周波数の時間変化情報を算出する場合について説明する。音高見本の基本周波数の最小値に基づいて音調見本の基本周波数の時間変化情報を算出する場合、目標パラメータ決定部20は、まず音高見本の基本周波数の最小値と、音調見本の基本周波数の最小値とを算出する。そして、目標パラメータ決定部20は、音調見本の基本周波数の最小値と、音高見本の基本周波数の最小値とが同じ値となるような、音調見本の基本周波数を算出する。具体的には、目標パラメータ決定部20は、音高見本の基本周波数の最小値と音調見本の基本周波数の最小値との差を算出し、算出された差に音調見本の各時点における基本周波数を加算した和の時系列のデータを生成する。
図12は、目標パラメータ決定部20が音高見本の基本周波数の高低幅及び平均値に基づいて音調見本の基本周波数を変更する場合を説明する説明図である。目標パラメータ決定部20が音高見本の基本周波数の高低幅及び平均値に基づいて音調見本の基本周波数を変更する場合、目標パラメータ決定部20は、まず音高見本の基本周波数の最大値と最小値との幅(値の差)と、音調見本の基本周波数の最大値と最小値との幅とを算出する。次に、目標パラメータ決定部20は、音調見本の基本周波数の最大値と最小値との幅が、先に算出された音高見本の基本周波数の最大値と最小値との幅と同じ値となるように、音調見本の基本周波数の時間変化情報を生成する。具体的には、目標パラメータ決定部20は、音調見本の基本周波数の最大値及び最小値の幅と、音高見本の基本周波数の最大値及び最小値の幅との比を算出し、音調見本の各時点における基本周波数にこの比を乗じた値の時系列のデータを生成する。
図12(a)は、音調見本の基本周波数のグラフを図12(a)アに、音調見本の基本周波数の最大値と最小値との幅と、同じになるような音調見本の基本周波数のグラフを図12(a)エに示す。
ここで、目標パラメータ決定部20は、得られた音調見本の基本周波数(図12(a)エ)の各時点における基本周波数に音高見本の基本周波数の平均値を加算した和の時系列のデータを算出する。このとき得られる音調見本の基本周波数のグラフを図12(b)ウに示す。
図13は、目標パラメータ決定部20が、時間情報見本の音声素片の長さと音調見本の音声素片の長さとが、対応する音声素片同士で一致するように、音調見本の音素の時間情報を変更する場合の処理概念を表す概念図である。音声素片の長さとは、1つの音声素片の発話開始から発話終了までの時間である。対応する音声素片とは、配列された音声素片のうち先頭から数えた順番が、時間情報見本と音調見本において一致する音声素片である。
図13の上段は音調見本のモーラの長さを表し、図13の中段は目標パラメータのモーラの長さを表し、図13の下段は時間情報見本のモーラの長さを表す。なお、モーラの長さは、そのモーラに含まれる音素の長さ(時間)の合計値である。図13の横軸は、時間を示している。
時間情報見本のモーラの長さと、対応する音調見本のモーラの長さとが一致するように、音調見本の音素の時間情報を変更する場合、目標パラメータ決定部20は、まず時間情報見本(下段)の各モーラの長さを算出する。そして、目標パラメータ決定部20は、音調見本(上段)のモーラの長さが、対応する時間情報見本(下段)のモーラの長さに一致するように変更する。例えば、目標パラメータ決定部20は、音調見本のモーラの長さを、対応する時間情報見本のモーラの長さに置き換えることによって一致させる。目標パラメータ決定部20は、この処理によって得られたモーラの長さに基づき、音調見本の音素の時間情報を変更する。即ち、目標パラメータ(中段)の音素の時間情報を得る。
なお、図8、図11から図12を用いて、音高見本に従って(1)基本周波数の時間平均値に基づいて音調見本の音高を変更する処理、(2)基本周波数の最大値に基づいて音調見本の音高を変更する処理、(3)基本周波数の最小値に基づいて音調見本の音高を変更する処理、(4)基本周波数の最大値と最小値の差に基づいて音調見本の音高を変更する処理、について説明したが、音高を変更する処理としては、この(1)から(4)のいずれか1つを、利用者の指示に従って適用するようにしてもよい。
また、図9、図13を用いて(5)各音声素片の比を変えずに全体長を変更する処理、(6)各音素の時間情報と時間情報見本の各音素の時間情報とが、対応する音声素片同士で一致するように変更することにより全体長を変更する処理、について説明したが、全体長を変更する処理としては、(5)と(6)とのいずれか1つを、利用者の指示に従って適用するようにしてもよい。
また、図10を用いて(7)音調見本の音高が、基本周波数の時間平均値に基づいて音高見本の音高に合わせて変更された音調見本の基本周波数の時間変化情報を、各音声素片の比を変えずに全体長を変更する処理、について説明した。この(7)において、音調見本の音高を変更する場合、基本周波数の時間平均値に基づいて変更するのではなく、上述の(2)、(3)、(4)のいずれかを行うようにしてもよい。また、(7)において、音高を変更した後の音調見本の全体長を変更する場合、(5)各音声素片の比を変えずに全体長を変更する場合について説明したが、(6)の各音素の時間情報と時間情報見本の各音素の時間情報とが、対応する音声素片同士で一致するように変更することにより、全体長を変更するようにしてもよい。このように、(1)から(4)のいずれかによって音高見本の音高に従って音調見本の音高を変更した後、(5)または(6)によって、音高が変更された音調見本の全体長を変更することができる。この(1)から(4)の処理と、(5)、(6)の処理とのうちいずれの処理を適用するかについては、利用者が選択するようにしてもよい。
次に、目標パラメータ決定装置1全体の処理手順について説明する。
図14は、目標パラメータ決定装置1全体の処理手順を表すフローチャートである。
図示するように、ステップS01において、まず修正対象音声指定部12が、修正対象音声を指定する入力を受け付ける。具体的には、修正対象音声指定部12は、修正対象音声の発話内容及び発話者識別情報の入力を受け付けることによって、任意の修正対象音声の指定を受け付ける。
次に、ステップS03において、見本音声の指定が終了したか否かを判定する。見本音声の指定が終了した場合には、ステップS09に進み、見本音声の指定が終了していない場合には、ステップS04に進む。この判定は、例えば、ステップS04からS08のループを繰り返した回数(例えば、利用者によって指定された回数)、または指定終了命令の入力の有無のいずれかによって行う。
次に、ステップS04において、音声入力部14が見本音声の入力を受け付けたか否かを判定する。音声入力部14が見本音声の入力を受け付けた場合には、ステップS05に進み、音声テキスト入力部15が、音声入力部14が入力を受け付けた見本音声の発話内容を表すテキストデータの入力を受け付ける。次に、ステップS06において、音声分析部16が、入力された見本音声に対し音声分析処理を実行し、音声テキスト入力部15によって入力されたテキストデータに基づいて、入力された音声(同語音声又は他語音声)の韻律情報を生成し、ステップS03に進む。
一方、ステップS04において、音声入力部14が見本音声の入力を受け付けていない場合には、ステップS07において、見本音声指定部17が、見本音声を指定するテキストデータの入力を受け付けたか否かを判定する。見本音声指定部17が、見本音声を指定するテキストデータの入力を受け付けていない場合には、ステップS03に進み、見本音声指定部17が、見本音声を指定するテキストデータの入力を受け付けた場合には、ステップS08において、見本音声検索部18が、指定された見本音声(他語同話者音声、他語他話者音声、同語他話者音声のいずれか)の音声データを音声データベース11から読み出し、ステップS03に進む。
一方、ステップS03において、見本音声の指定が終了した場合(ステップS03:YES)には、ステップS09において、韻律情報選択部19は、修正対象音声指定部12が入力を受け付けた修正対象音声の韻律情報を合成音声記憶部13から読み出す。
次に、ステップS10において、韻律選択部19が、目標パラメータ決定装置1全体の処理が開始してからステップS10の処理までの間に韻律情報が読み出された見本音声又は韻律情報が算出された見本音声の中から、音調見本、音高見本、時間情報見本のそれぞれに適した音声を、優先順位に従って選択する。
次に、ステップS11において、目標パラメータ決定部20が、音調見本の基本周波数の時間変化情報及び音高見本の基本周波数の時間変化情報に基づいて、音高見本の音高に合わせた音調見本の基本周波数の時間変化情報を算出する。
例えば、目標パラメータ決定部20は、音調見本の基本周波数の時間平均値と音高見本の基本周波数の時間平均値とを算出し、音高見本の基本周波数の時間平均値と音調見本の基本周波数の時間平均値との差を算出し、算出された差を音調見本の基本周波数に加算した和の時系列のデータを算出することによって、音高見本の音高に合わせた音調見本の基本周波数の時間変化情報を得る。
次に、ステップS12において、目標パラメータ決定部20が、音調見本の音素の時間情報及び時間情報見本の音素の時間情報に基づいて、目標パラメータである音素の時間情報を算出して得る。
例えば、目標パラメータ決定部20は、音調見本の音素の時間情報に基づいて音調見本全体長と、時間情報見本の音素の時間情報に基づいて時間情報見本全体長とを算出する。そして、目標パラメータ決定部20は、全体長に対する音声素片の比を算出し、音調見本の音素の時間情報を、音調見本の各音素の時間情報に、時間情報見本全体長に対する音調見本全体長の比を乗ずることによって変更し、時間情報見本全体長と音調見本全体長とが一致する音調見本の音素の時間情報を得る。目標パラメータ決定部20は、得られた音素の時間情報を、目標パラメータの音素の時間情報として決定する。
次に、ステップS13において、目標パラメータ決定部20が、音高見本の音高に合わせた音調見本の基本周波数の時間変化情報と、目標パラメータの音素の時間情報とに基づいて、目標パラメータである基本周波数の時間変化情報を算出して得る。
例えば、目標パラメータ決定部20は、時間情報見本の時間情報の全体長に対する、音高が変更された音調見本の時間情報の全体長の比を算出し、この算出された比を、音高が変更された音調見本の時間情報の全体長に乗ずることによって、音高が変更された音調見本の時間情報を更新し、目標パラメータとして得る。
音高が変更された音調見本の時間情報を更新して目標パラメータが得られると、このフローチャート全体の処理を終了する。
このように構成された目標パラメータ決定装置1では、修正対象音声を修正する利用者が目標韻律を有する見本音声を音声入力部14へ発話したり、見本音声指定部17に指示を入力したりすることによって、目標パラメータが決定される。そのため、利用者は、目標パラメータの値について具体的に検討することなく、見本音声を発話又は選択する指示を入力するだけで、目標パラメータを容易に決定することができる。
また、目標パラメータ決定装置1では、他語同話者音声や他語他話者音声のように修正対象音声と発話内容が異なる音声であっても、音調見本、音高見本、及び時間情報見本として使用し目標パラメータを決定することができる。従って、目標パラメータ決定装置1では、修正者によって発話される音声又は音声データベース11の中から指定される音声は、必ずしも修正対象音声と発話内容が同じである必要が無くなる。そのため、修正者の発話又は音声データベース11における指定の自由度を向上させることができ、目標パラメータの決定がより容易となる。
<変形例>
以上説明した第1の実施形態においては、韻律選択部19は、音素の時間情報については、同語音声、他語音声、他語他話者音声、他語同話者音声、同語他話者音声それぞれの音声(音声データベース11から得られた音声あるいは音声入力部14が入力を受け付けた音声)の音声区間の全体時間長を、修正対象音声の音声区間の全体時間長で正規化せずに選択する構成について説明したが、各音声区間の全体時間長を、修正対象音声の音声区間の全体時間長と一致するように正規化しておき、正規化された音素の時間情報から選択するようにしても良い。この正規化は、例えば、目標パラメータ決定部20が、修正対象音声の時間情報見本全体長と、正規化する対象である音声の全体長を算出する。そして目標パラメータ決定部20が、修正対象音声の全体長に対する音声素片の比を算出し、算出された比を正規化する対象である音声の音素の時間情報に乗ずることによって変更する。
このように正規化しておくことにより、修正対象の音声の全体長を変えずに、目標パラメータを得ることができる。
[第2の実施の形態]
次に、本発明の第2の実施形態について説明する。
図15は、同実施形態による合成音声修正装置2の機能構成を表すブロック図である。図示するように、合成音声修正装置2は、図1に示す第1の実施形態である目標パラメータ決定装置1が有する各機能部と、修正部21とを含んで構成される。図1の目標パラメータ決定装置1の各機能部に対応する部分については、同一の符号を付し、その説明を省略する。
修正部21は、目標パラメータ決定部20によって得られる目標パラメータに従って、見本の音声素片を選択し、その音声素片の音声信号データを選択し、修正対象音声の音声素片の音声信号データを、選択された音声信号データに置換することによって修正対象音声の韻律の修正を行い、目標韻律に近い韻律を有する合成音声を生成する。
具体的には、修正部21は、目標パラメータの基本周波数と、修正対象音声の基本周波数との差を、音声素片毎に算出し、この差が所定の閾値を超える音声素片(以下、「修正対象の音声素片」という)を検出する。
この修正対象の音声素片を検出する場合、修正部21は、(a)音声素片の開始時点における基本周波数の差、(b)音声素片の終了時点における基本周波数の差、(c)音声素片の開始から終了までの間の中間時点における基本周波数の差、(d)音声素片の開始から終了までの範囲における基本周波数の平均値の差、(e)音声素片の開始から終了までの時間を範囲における基本周波数の差分の絶対値の定積分値、のいずれかが所定の閾値を越えたか否かに基づいて検出する。
次に、修正部21は、(1)検出された修正対象の音声素片と音素ラベルが一致し、且つ、(2)目標パラメータの基本周波数の時間変化情報における修正対象区間(修正対象の音声素片の開始から終了までの時間に対応する区間)の基本周波数に最も近い基本周波数を有する、音声素片の音声信号データを音声データベース11から読み出す。そして、修正部21は、修正対象区間の音声信号データを、読み出された音声素片の音声信号データと、それに対応する韻律情報(基本周波数の時間変化情報と、音素の時間情報)とを、合成音声記憶部13に、合成音声として新たに登録する。
なお、修正部21は、新たに登録された合成音声全体の周波数分析をし直すことによって基本周波数の時間変化情報を得る。
なお、修正部21は、上記(2)の条件を満たすか否かについて、より具体的には以下のように判定する。まず、修正部21は、目標韻律の同部分の基本周波数の平均値と、始端値と、終端値と、音素の時間情報とのうち、予め設定された1つ以上の指標を、誤差最小であることを評価する項を含む波形接続型音声合成のコスト関数を用い、誤差最小となる同種の音声素片を音声データベース11から検索して得る。そして、得られた音声素片の音声信号データを、(2)の条件を満たす音声信号データであると判定する。
そして、修正部21は、修正対象の音声素片の音声信号データを、選択された音声信号データに書き換えることによって、修正対象音声の韻律の修正を行う。
図16は、修正前後の修正対象音声における基本周波数の時間変化情報の変化状態を表す説明図である。図16(a)の上段は基本周波数の時間変化情報を表し、図16(a)の下段は音素の時間情報を表す。図16(a)の上段の基本周波数の時間変化情報と、図16(a)の下段の音素の時間情報とは、同一の音声の情報である。図16(a)アは、修正対象音声の基本周波数の時間変化を表すグラフであり、図16(a)イは目標パラメータの基本周波数の時間変化を表すグラフである。
図16(a)において、修正部21は、修正対象音声の基本周波数の時間変化情報と目標パラメータの基本周波数の時間変化情報との差が所定以上である音声素片を検出し、この検出された音声素片(先頭(“あ”)から数えて4番目の音声素片(“い”))を、修正対象の音声素片であると判定する。次に、修正部21は、音声データベース11から、上述した条件を満たす音声素片の音声信号データと基本周波数の時間変化情報とを読み出す。そして、修正部21は、修正対象の音声素片の音声信号データを、上述した条件を満たす音声素片の音声信号データに書き換えるとともに、書き換えられた音声信号データを音声分析を行って韻律情報を作成し直す。
図16(b)アは修正後の合成音声の基本周波数の時間変化を表すグラフであり、図16(b)イは目標パラメータの基本周波数の時間変化を表すグラフである。このような修正処理によって、修正対象音声の基本周波数の時間変化情報が、目標パラメータの基本周波数の時間変化情報に近づくように修正される。
なお、合成音声の音素の時間情報の修正を行う場合、修正部21は、修正対象音声の修正対象となる音素の時間情報を、音声データベース11から得られた音素の時間情報に書き換えることによって修正を行う。
このように構成された合成音声修正装置2は、使用者が修正目標となる韻律を有する音声を指定することによって、目標パラメータを決定し、決定された目標パラメータに基づいて合成音声の修正を行う。そのため、使用者は、目標パラメータを具体的に検討することなく、容易に合成音声の修正を行うことが可能となる。
<変形例>
上述した第2の実施形態において修正部21は、修正対象音声の基本周波数と目標パラメータの基本周波数との差が、所定の閾値を越えた区間を対象として、音声信号データを更新することにより修正するようにしたが、この所定の閾値を越えた区間のみではなく、全ての区間を対象として、修正を行うようにしてもよいし、一部の区間(例えば、図16(a)ウに示す区間に対応する音声素片)を利用者が指定して、修正を行うようにしてもよい。また、上述のコスト関数の重みの大きさを、利用者から入力される指示に従って、任意に変更するように構成しても良い。
また、上記(1)、(2)の条件を満たす音声素片を選択する場合、同話者の音声データを選択するようにしてもよいし、他話者の音声データを選択するようにしてもよい。
なお、目標パラメータ決定部20が作成した目標韻律を用いずに音声合成を行う装置等、他の装置では、発話内容の言語解析から得られるアクセント情報に基づく音声素片選択等が行われる場合もある。
[第3の実施の形態]
次に、本発明の第3の実施形態について説明する。
図17は、同実施形態による合成音声修正装置3の機能構成を表すブロック図である。図示するように、合成音声修正装置3は、図1に示す第1の実施形態である目標パラメータ決定装置1が有する各機能部と、修正部31とを含んで構成される。図1の目標パラメータ決定装置1の各機能部に対応する部分については、同一の符号を付し、その説明を省略する。
修正部31は、目標パラメータ決定部20で決定された目標パラメータを用いて、修正対象の合成音声を修正する。このとき、(1)修正対象の音声素片のみを韻律変換して置き換える方法と、(2)修正対象の合成音声全体を韻律変換して置き換える方法とがある。
(1)の修正対象の音声素片のみを韻律変換して置き換える方法の場合、修正部31は、目標パラメータとして与えられた基本周波数の時間変化情報に基づき、修正対象の音声素片に対応する区間の、(a)基本周波数の時間変化情報か、(b)基本周波数の平均値(時間平均値)か、(c)基本周波数の最大値のいずれかを用いる。また、修正部31は、音声信号のパワーとして、(d)修正対象の音声素片の音声信号のパワーか、(e)上述した(d)の平均値か、(f)上述した(d)の最大値のいずれかを用いる。また、修正部31は、目標パラメータとして与えられた音素の時間情報に基づき、その時間情報の中から修正対象の音声素片のデータを取り出して用いる。そして、修正部31は、これらの値を用いて音声信号を変換する処理を行なう。なお、音声信号の変換処理自体には既存技術を用いる。なおここで、上記の(a)と(b)と(c)のどの値を用いるかは、予め記憶されている設定値に従う。また、上記の(d)と(e)と(f)のどの値を用いるかは、予め記憶されている設定値に従う。
(2)の修正対象の合成音声全体を韻律変換して置き換える方法の場合、修正部31は、目標パラメータとして与えられた基本周波数の時間変化情報に基づき、(a)その基本周波数の時間変化情報か、(b)その基本周波数の時間変化情報から算出される基本周波数の平均値(時間平均)のいずれかを用いる。また、修正部31は、修正後の音声信号のパワーとしては、修正対象音声のパワーを用いる。また、修正部31は、目標パラメータとして与えられた音素の時間情報をそのまま用いる。そして、修正部31は、これらの値を用いて音声信号を変換する処理を行なう。なお、音声信号の変換処理自体として既存技術を用いることは上の場合と同様である。なおここで、上記の(a)と(b)のどの値を用いるかは、予め記憶されている設定値に従う。
修正部31は、上記の(1)または(2)のいずれかの方法で韻律変換して得られた音声信号データと、それに対応する韻律情報(基本周波数の時間変化情報と、音素の時間情報)とを、合成音声記憶部13に、合成音声として新たに登録する。
図18は、修正対象の音声素片を韻律変換して置き換える場合を説明する概念図である。例えば、「あおいいえ」のうち、音声素片「い」を修正対象とし、上述の(1)の方法によって韻律変換が行われると、例えば、音声素片「い」に対応する基本周波数の時間変化情報が、図18(a)に示すグラフから図18(b)に示すグラフのように変わる。
このように構成された合成音声修正装置3は、第2の実施形態における合成音声修正装置2と同様に、使用者が修正目標となる韻律を有する音声を指定することによって、目標パラメータを決定し、決定された目標パラメータに基づいて合成音声の修正を行う。そのため、使用者は、目標パラメータを具体的に検討することなく、容易に合成音声の修正を行うことが可能となる。
なお、上述した実施形態における目標パラメータ決定装置1、合成音声修正装置2、及び合成音声修正装置3の一部又は全部の機能をコンピュータで実現する場合、これらの装置の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態を図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
第1の実施形態による目標パラメータ決定装置の機能構成を表すブロック図である。 音声データベースによって記憶される音声データの構成を表す概略図である。 音声信号の振幅の変化を表す波形図である。 基本周波数の時間に応じた変化を表すグラフである。 音素の時間情報の概略を表す概略図である。 見本音声指定部17が入力を受け付ける他語音声を、利用者が選ぶ時の条件を説明する概念図である。 韻律選択部19が韻律選択処理を行う場合に、見本となる音声データを選択する優先順位の一例を表す概要図である。 基本周波数の値の時間平均値を用いて、音調見本の基本周波数の時間変化情報を算出する場合について説明する説明図である。 全体長に対する音声素片の比を変えずに、音調見本全体長を変更する場合について説明する概念図である。 音調見本の音高が音高見本の音高に合わせて変更された音調見本の基本周波数の時間変化情報を、時間情報見本に従って変更する場合について説明する説明図である。 目標パラメータ決定部20が音高見本の基本周波数の最大値に基づいて音調見本の基本周波数の時間変化情報を算出する場合について説明する説明図である。 目標パラメータ決定部20が音高見本の基本周波数の高低幅及び平均値に基づいて音調見本の基本周波数を変更する場合を説明する説明図である。 目標パラメータ決定部20が、時間情報見本の音声素片の長さと音調見本の音声素片の長さとが、対応する音声素片同士で一致するように、音調見本の音素の時間情報を変更する場合の処理概念を表す概念図である。 目標パラメータ決定装置全体の処理手順を表すフローチャートである。 第2の実施形態による合成音声修正装置2の機能構成を表すブロック図である。 修正前後の修正対象音声における基本周波数の時間変化情報の変化状態を表す説明図である。 第3の実施形態による合成音声修正装置3の機能構成を表すブロック図である。 修正対象の音声素片を変換して置き換える場合について説明する概念図である。
符号の説明
1 目標パラメータ決定装置
11 音声データベース
12 修正対象音声指定部
13 合成音声記憶部(修正対象音声記憶部)
14 音声入力部
15 音声テキスト入力部(発話内容取得部)
16 音声分析部
17 見本音声指定部
18 見本音声検索部
19 韻律選択部
20 目標パラメータ決定部
2,3 合成音声修正装置
21,31 修正部

Claims (7)

  1. 音声と、前記音声の発話内容と、前記音声の基本周波数の時間変化情報と、前記音声に含まれる音素のタイミングを表す音素の時間情報とを対応付けて記憶する音声データ記憶部と、
    音声の基本周波数の時間変化情報と前記音声に含まれる音素のタイミングを表す音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調の見本である音調見本データと音高の見本である音高見本データと音素のタイミングの見本である時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する韻律選択部と、
    前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる基本周波数の時間変化情報を決定するとともに、前記音調見本データが有する音素の時間情報を、前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる音素の時間情報を決定する目標パラメータ決定部と、
    を具備することを特徴とする目標パラメータ決定装置。
  2. 請求項1に記載の目標パラメータ決定装置において、
    音声の入力を受け付ける音声入力部と、
    前記音声に対応する発話内容を取得する発話内容取得部と、
    前記音声入力部によって受け付けられた前記音声と前記発話内容とに基づき、当該音声の基本周波数の時間変化情報及び当該音声の音素の時間情報を算出する音声分析部と、
    をさらに具備し、
    前記韻律選択部は、前記音声分析部によって算出された前記基本周波数の時間変化情報及び前記音素の時間情報を有する前記音声を前記見本音声データとして取得する、
    ことを特徴とする目標パラメータ決定装置。
  3. 請求項1に記載の目標パラメータ決定装置において、
    見本音声データを選択する指示の入力を受け付ける見本音声指定部と、
    前記見本音声指定部が受け付けた指示に基づいて前記音声データ記憶部を検索することによって前記見本音声データを得る見本音声検索部をさらに具備し、
    前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、
    ことを特徴とする目標パラメータ決定装置。
  4. 請求項1に記載の目標パラメータ決定装置において、
    修正対象となる修正対象音声を選択する指示の入力を受け付ける修正対象音声指定部と、
    前記音声データ記憶部を検索することによって前記修正対象音声の表記と同じ表記を有する見本音声を得る見本音声検索部をさらに具備し、
    前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、
    ことを特徴とする目標パラメータ決定装置。
  5. 請求項1に記載の目標パラメータ決定装置において、
    修正対象である音声を記憶する修正対象音声記憶部と、
    前記音声データ記憶部から、前記修正対象である音声の表記と異なる表記であって、かつ、音素数またはモーラ数が一致する見本音声データを得る見本音声検索部と、
    をさらに具備し、
    前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、
    ことを特徴とする目標パラメータ決定装置。
  6. 請求項1に記載の目標パラメータ決定装置と、
    修正対象である音声を記憶する修正対象音声記憶部と、
    前記修正対象音声を読み出し、前記目標パラメータ決定装置によって決定された前記基本周波数の時間変化情報及び音素の時間情報に基づいて前記修正対象音声を修正する修正部と、
    を具備することを特徴とする合成音声修正装置。
  7. 音声と、前記音声の発話内容と、前記音声の基本周波数の時間変化情報と、前記音声に含まれる音素のタイミングを表す音素の時間情報とを対応付けて記憶する音声データ記憶部を有するコンピュータを、
    音声の基本周波数の時間変化情報と前記音声に含まれる音素のタイミングを表す音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調の見本である音調見本データと音高の見本である音高見本データと音素のタイミングの見本である時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する韻律選択手段、
    前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる基本周波数の時間変化情報を決定するとともに、前記音調見本データが有する音素の時間情報を、前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる音素の時間情報を決定する目標パラメータ決定手段、
    として機能させるためのコンピュータプログラム。
JP2008187035A 2008-07-18 2008-07-18 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム Pending JP2010026223A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008187035A JP2010026223A (ja) 2008-07-18 2008-07-18 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008187035A JP2010026223A (ja) 2008-07-18 2008-07-18 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2010026223A true JP2010026223A (ja) 2010-02-04

Family

ID=41732119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008187035A Pending JP2010026223A (ja) 2008-07-18 2008-07-18 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2010026223A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037722A (ja) * 2010-08-06 2012-02-23 Yamaha Corp 音合成用データ生成装置およびピッチ軌跡生成装置
WO2014017024A1 (ja) * 2012-07-27 2014-01-30 日本電気株式会社 音声合成装置、音声合成方法、及び音声合成プログラム
JP2018077282A (ja) * 2016-11-07 2018-05-17 ヤマハ株式会社 音声合成方法
CN112420015A (zh) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频合成方法、装置、设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001166788A (ja) * 1999-12-07 2001-06-22 Matsushita Electric Ind Co Ltd 音声合成方法および装置
JP2002258885A (ja) * 2001-02-27 2002-09-11 Sharp Corp テキスト音声合成装置およびプログラム記録媒体
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001166788A (ja) * 1999-12-07 2001-06-22 Matsushita Electric Ind Co Ltd 音声合成方法および装置
JP2002258885A (ja) * 2001-02-27 2002-09-11 Sharp Corp テキスト音声合成装置およびプログラム記録媒体
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037722A (ja) * 2010-08-06 2012-02-23 Yamaha Corp 音合成用データ生成装置およびピッチ軌跡生成装置
WO2014017024A1 (ja) * 2012-07-27 2014-01-30 日本電気株式会社 音声合成装置、音声合成方法、及び音声合成プログラム
JP2018077282A (ja) * 2016-11-07 2018-05-17 ヤマハ株式会社 音声合成方法
CN112420015A (zh) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频合成方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
KR20050098839A (ko) 네트워크 환경에서 음성 처리를 위한 중간 처리기
JP2002511154A (ja) ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム
JP2017058513A (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
JPH11143346A (ja) 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
JP4704254B2 (ja) 読み修正装置
JP2005266349A (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2018040982A (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
JP2010026223A (ja) 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP3050832B2 (ja) 自然発話音声波形信号接続型音声合成装置
JP5062178B2 (ja) 音声収録システム、音声収録方法、および収録処理プログラム
JP2013195928A (ja) 音声素片切出装置
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP2975586B2 (ja) 音声合成システム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
KR20100111544A (ko) 음성인식을 이용한 발음 교정 시스템 및 그 방법
JP3091426B2 (ja) 自然発話音声波形信号接続型音声合成装置
US11393451B1 (en) Linked content in voice user interface

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110128

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20110128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120515

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120918