JP2010026223A

JP2010026223A - 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム

Info

Publication number: JP2010026223A
Application number: JP2008187035A
Authority: JP
Inventors: Reiko Tako; 礼子田高; Toru Tsugi; 徹都木; Hiroyuki Segi; 寛之世木; Nobumasa Seiyama; 信正清山
Original assignee: Nippon Hoso Kyokai NHK; NHK Engineering Services Inc; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2008-07-18
Filing date: 2008-07-18
Publication date: 2010-02-04

Abstract

【課題】合成音声の韻律を目標韻律に修正する処理に用いられる目標パラメータを容易に決定する。
【解決手段】音声データ記憶部と、音声の基本周波数の時間変化情報と音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調見本データと音高見本データと時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する。前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせて目標パラメータとなる基本周波数の時間変化情報を決定する。
【選択図】図１

Description

本発明は、合成音声の韻律を決定する目標パラメータ決定装置、決定された韻律に従って合成音声を修正する合成音声修正装置、及びこれらのコンピュータプログラムに関する。

合成音声の韻律は、その発話内容や前後の文脈などの言語情報に基づいて予測生成されることが多い。予測生成された韻律が不自然である場合には、合成音声の韻律を自然な韻律（以下、「目標韻律」という。）に修正する必要がある。
特許文献１には、韻律の修正を行なう修正者を補助するユーザインターフェースに関する技術が開示されている。特許文献１に開示された技術では、まず修正者が、合成音声の韻律を目標韻律に修正する処理に用いられるパラメータ（以下、「目標パラメータ」という。）の値を決定する。そして、利用者は、決定された目標パラメータの値に基づいて、画面に表示されたスライダーを操作し、各音節の韻律を修正する。

また、特許文献２には、発話された音声を録音し、録音された音声から特徴パラメータを抽出する技術が開示されている。また、特許文献３には、韻律変換を行う技術が開示されている。この特許文献３に開示された技術では、韻律も含めた音声変換が、音声素片に対して行われる。また、非特許文献１にも、韻律変換を行う技術が開示されている。
特開２００３−３６１００号公報特開２００７−１４０００２号公報特許第３９１３７７０号都木徹、梅田哲夫、"ピッチ変更時のひずみをスペクトル領域で修正する声質変換方式とその品質の心理評価"、信学論（Ａ）、ｖｏｌ．Ｊ７３−Ａ、Ｎｏ．３、ｐｐ．３８７−３９６、１９９０年３月

しかしながら、目標パラメータの具体的な値を決定するには専門的な知識や経験を要するため、修正対象である合成音声（以下、「修正対象音声」という。）の修正後の韻律のイメージを修正者が持っていても、修正者が目標パラメータの具体的な値を決定することは困難であるという問題があった。さらには、このような専門的な知識や経験を有している修正者であっても、目標パラメータを決定する作業には多くの時間を要してしまうという問題があった。

本発明は、上記事情を考慮して為されたものであり、目標パラメータを容易に決定することを可能とする目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラムを提供することを目的とするものである。

［１］上記の課題を解決するため、本発明の一態様による目標パラメータ決定装置は、音声と、前記音声の発話内容と、前記音声の基本周波数の時間変化情報と、前記音声に含まれる音素のタイミングを表す音素の時間情報とを対応付けて記憶する音声データ記憶部と、音声の基本周波数の時間変化情報と前記音声に含まれる音素のタイミングを表す音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調の見本である音調見本データと音高の見本である音高見本データと音素タイミングの見本である時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する韻律選択部と、前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる基本周波数の時間変化情報を決定するとともに、前記音調見本データが有する音素の時間情報を、前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる音素の時間情報を決定する目標パラメータ決定部と、を具備することを特徴とする。
ここで、基本周波数の時間変化情報は、基本周波数の値が経過時間毎に配列されたデータである。この基本周波数の値は、絶対的な音の高さに対応している。従って、上述の基本周波数の時間変化情報は、音の高さを含む。
この構成によれば、音調見本データと、音高見本データと、時間情報見本データとのそれぞれが、見本音声データの種別に応じて選択される。そして、音高見本の基本周波数の時間変化情報に応じて、音調見本の基本周波数の時間変化情報が変更され、さらに、時間見本データの音素の時間情報に合わせるように変更されることにより、目標となる基本周波数の時間変化情報が得られる。さらに、音調見本データの音素の時間情報を、時間見本データの音素の時間情報に合わせることによって、目標となる音素の時間変化情報が決定される。

［２］また、本発明の一態様は、上記の目標パラメータ決定装置において、音声の入力を受け付ける音声入力部と、前記音声に対応する発話内容を取得する発話内容取得部と、前記音声入力部によって受け付けられた前記音声と前記発話内容とに基づき、当該音声の基本周波数の時間変化情報及び当該音声の音素の時間情報を算出する音声分析部と、をさらに具備し、前記韻律選択部は、前記音声分析部によって算出された前記基本周波数の時間変化情報及び前記音素の時間情報を有する前記音声を前記見本音声データとして取得する、ことを特徴とする。
この構成によれば、音声と当該音声の発話内容との入力を受け付け、この受け付けられた音声と発話内容を基に、音声の基本周波数の時間変化情報と音素の時間情報とを得て、見本音声データを得るようにした。これにより、入力される音声を音声見本音声データとして用いることが可能となる。

［３］また、本発明の一態様は、上記の目標パラメータ決定装置において、見本音声データを選択する指示の入力を受け付ける見本音声指定部と、前記見本音声指定部が受け付けた指示に基づいて前記音声データ記憶部を検索することによって前記見本音声データを得る見本音声検索部をさらに具備し、前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、ことを特徴とする。
この構成によれば、音声データ記憶部に記憶された音声データの中から、見本を選択する指示に応じた音声データを、見本音声データとして用いることができる。

［４］また、本発明の一態様は、上記の目標パラメータ決定装置において、修正対象となる修正対象音声を選択する指示の入力を受け付ける修正対象音声指定部と、前記音声データ記憶部を検索することによって前記修正対象音声の表記と同じ表記を有する見本音声を得る見本音声検索部をさらに具備し、前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、ことを特徴とする。
この構成によれば、修正対象の音声の指定に応じて、音声に対応する発話内容を有する見本音声データが得られる。

［５］また、本発明の一態様は、上記の目標パラメータ決定装置において、修正対象である音声を記憶する修正対象音声記憶部と、前記音声データ記憶部から、前記修正対象である音声の表記と異なる表記であって、かつ、音素数またはモーラ数が一致する見本音声データを得る見本音声検索部と、をさらに具備し、前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、ことを特徴とする。

［６］また、本発明の一態様は、合成音声修正装置であって、上記の目標パラメータ決定装置と、修正対象である音声を記憶する修正対象音声記憶部（合成音声記憶部）と、前記修正対象音声を読み出し、前記目標パラメータ決定装置によって決定された前記基本周波数の時間変化情報及び音素の時間情報に基づいて前記修正対象音声を修正する修正部と、を具備することを特徴とする。
この構成によれば、見本音声データが指定されることのみによって、目標パラメータ決定装置が修正対象となる合成音声の目標パラメータが決定される。そして、決定された目標パラメータに基づいて、修正対象の音声データの韻律の修正が行われる。

［７］また、本発明の一態様によるコンピュータプログラムは、音声と、前記音声の発話内容と、前記音声の基本周波数の時間変化情報と、前記音声に含まれる音素のタイミングを表す音素の時間情報とを対応付けて記憶する音声データ記憶部を有するコンピュータを、音声の基本周波数の時間変化情報と前記音声に含まれる音素のタイミングを表す音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調の見本である音調見本データと音高の見本である音高見本データと音素のタイミングの見本である時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する韻律選択手段、前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる基本周波数の時間変化情報を決定するとともに、前記音調見本データが有する音素の時間情報を、前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる音素の時間情報を決定する目標パラメータ決定手段、として機能させるためのコンピュータプログラムである。

本発明により、合成音声の韻律を目標韻律に修正する処理に用いるための目標パラメータの値を修正者が具体的に検討することなく、目標パラメータを容易に決定することが可能となる。

［第１の実施の形態］
以下、本発明の複数の実施形態について、図面を参照しながら説明する。
図１は、第１の実施形態による目標パラメータ決定装置の機能構成を表すブロック図である。図示するように、目標パラメータ決定装置１は、音声データベース１１と、修正対象音声指定部１２と、合成音声記憶部１３と、音声入力部１４と、音声テキスト入力部１５（発話内容取得部）と、音声分析部１６と、見本音声指定部１７と、見本音声検索部１８と、韻律選択部１９と、目標パラメータ決定部２０とを含んで構成される。

音声データベース１１は、音声信号の振幅の時系列データである音声の音声信号データと、音声の韻律情報と、発話者識別情報とを含む音声データを記憶する。韻律情報は、基本周波数の時間変化情報と音素の時間情報とからなる。発話者識別情報は、音声を発声する発話者を識別する識別情報である。
音声データベース１１は、ハードディスク装置や光磁気ディスク装置、半導体メモリ、
ＣＤ−ＲＯＭ等の記録媒体、あるいはこれらの組み合わせにより構成される。

修正対象音声指定部１２は、合成音声記憶部１３に記憶される合成音声の中から、修正対象である合成音声を選択する指示の入力を受け付ける。修正対象音声指定部１２は、合成音声データを指定する入力を、例えば、修正対象である合成音声データの発話内容を表すテキストデータによって受け付ける。修正対象音声指定部１２には、例えば、キーボードやマウス等の入力装置が用いられる。
合成音声記憶部１３は、音声の音声信号データと、音声の韻律情報と、発話内容（表記）と、発話者識別情報とを含む合成音声データを記憶する。

音声入力部１４は、マイクロフォン等を用いて、見本となる音声である見本音声の入力を受け付ける。
音声テキスト入力部１５は、音声入力部１４が受け付けた見本音声の発話内容を表すテキストデータの入力を受け付ける。この音声テキスト入力部１５は、例えば、キーボードやマウス等の入力装置が用いられる。

音声分析部１６は、音声テキスト入力部１５が入力を受け付けたテキストデータに基づいて、音声入力部１４から入力された見本音声を分析し、見本音声の韻律情報を生成する。具体的には、音声分析部１６は、音声認識技術の強制アラインメントを実行することによって、音声信号データと音素ラベルとを有する音響モデルを用い、音声テキスト入力部１５が入力を受け付けたテキストデータから得られる音素ラベルに対応する音響モデルを見本音声にそれぞれ当てはめ、隣り合う音素ラベルに対する時間軸方向の境界を検出して、音素毎の開始時点と終了時点を決定し、音素の時間情報を得る。
さらに、音声分析部１６は、見本音声の基本周波数の時間変化情報を有声区間（声帯の振動を伴う音声である有声音声の区間）において生成し、生成された基本周波数の値に対し、有声区間の分析値を用いてスプライン関数などによりスムージングを行うことによって、変化が滑らかな基本周波数の時間変化情報を生成する。このとき、音声分析部１６は、基本周波数の値を取得できない無声区間（声帯の振動を伴わない音声である無声音声の区間）については、この無声区間の前後の有声区間の基本周波数の値から内挿した値を用いて、無声区間の基本周波数を補間する。

見本音声指定部１７は、音声データベース１１に記憶される音声データのうち、修正を行う場合における見本となる音声（見本音声）の発話内容のテキストを、例えば、かな表記と漢字表記と音素ラベル表記とのいずれかによって受け付ける。具体的には、見本音声指定部１７は、他語同話者音声と、他語他話者音声と、同語他話者音声とのいずれかの指定を受け付ける。他語同話者音声とは、修正対象音声と発話者識別情報が同一であり、且つ修正対象音声と発話内容が異なる音声である。他語他話者音声とは、修正対象音声と発話者識別情報が異なり、且つ修正対象音声と発話内容が異なる音声である。同語他話者音声とは、修正対象音声と発話者識別情報が異なり、且つ修正対象音声と発話内容が同一の音声である。例えば、見本音声指定部１７には、キーボードやマウス等の入力装置が用いられる。

見本音声検索部１８は、他語同話者音声と、他語他話者音声と、同語他話者音声との韻律情報とのうち少なくともいずれかを、音声データベース１１から読み出す。
また、見本音声検索部１８は、見本音声指定部１７によって受け付けられた修正対象音声の、発話内容を表すテキストデータと発話者識別情報とをキーにして音声データベース１１を検索し、その結果、見本音声を得る。

韻律選択部１９は、音声分析部１６が生成した見本音声（他語同話者音声と他語他話者音声と同語他話者音声のうち少なくともいずれか１つ）の韻律情報と、見本音声検索部１８が読み出した見本音声（他語同話者音声と他語他話者音声と同語他話者音声のうち少なくともいずれか１つ）の韻律情報と、または修正対象の合成音声の韻律情報との中から、目標パラメータ決定処理に用いられる音調見本（音調の見本である音調見本データ）、音高見本（音高の見本である音高見本データ）、及び時間情報見本（音素タイミングの見本である時間見本データ）をそれぞれ選択する韻律選択処理を行う。ここで、音高とは、音の高さであり、例えば、音声の基本周波数によって表される。例えば、音高は、基本周波数の時間変化情報に含まれる基本周波数の値の最大値や最小値や平均値が用いられる。なお、基本周波数とは、音声の調波成分の中で最も低い周波数である。音調とは、声の高さの配置（高さアクセント）であり、基本周波数の値の相対的または絶対的な変化の時系列によって表される。
韻律選択処理の詳細については、後で図面を参照しながら説明する。

目標パラメータ決定部２０は、韻律選択部１９によって選択された音調見本、音高見本、及び時間情報見本それぞれの韻律情報に基づいて目標パラメータ決定処理を行い、目標パラメータを決定する。目標パラメータとは、目標となる韻律を有する基本周波数の時間変化情報と、目標となる韻律を有する音素の時間情報とからなる情報（韻律情報）である。

音声データベース１１に記憶される音声データについて、図２を用いてさらに詳細に説明する。図２は、音声データベース１１に記憶される音声データの構成を表す概略図である。
音声データは、音声信号データと、韻律情報と、発話者識別情報と、漢字表記と、かな表記と、音素ラベル表記とを対応付けて、音声毎に保持するデータである。音声信号データは、音声の波形に対応するデータであって、例えば、振幅値の時系列による配列データである。韻律情報は、基本周波数の時間変化情報と音素の時間情報とからなる。基本周波数の時間変化情報は、基本周波数の値が経過時間毎に配列されたデータである。音素の時間情報は、音声の開始時点を時刻の基準として音素毎のその音素の開始時点と終了時点とを表す。音素については後述する。
発話者識別情報は、音声の発話者を識別する識別情報である。漢字表記は、音声の発話内容を表す漢字を発話の順に配列された情報である。かな表記は、音声の発話内容を表すかなを発話の順に配列された情報である。音素ラベル表記は、音声の発話内容を表す音素ラベルを発話の順に配列された情報である。

例えば図２において、図中のデータの１行目は、音声信号データ“ＷＡＶＥ１”の音声の基本周波数の時間変化情報“ＦＲＱ１”と、音素の時間情報“ＴＩＭＥ１”とが韻律情報として音声信号データに対応付けされているとともに、この音声の発話者識別情報が“Ａ０１”、この音声の発話内容の漢字表記が“北海道”、かな表記が“ほっかいどー”、この音声の発話内容の音素ラベル表記が“ｈｏＱｋａｉｄｏ：”であることを表す。
また、図中のデータの４行目は、発話内容が１モーラである音声データを表しており、音声信号データ“ＷＡＶＥ４”の音声の基本周波数の時間変化情報“ＦＲＱ４”と、音素の時間情報“ＴＩＭＥ４”とが韻律情報として音声信号データに対応付けされているとともに、この音声の発話者識別情報が“Ａ０１”、この音声の発話内容の漢字表記が無く（図２においては「−」と表す）、かな表記が“あ”、この音声の発話内容の音素ラベル表記が“ａ”であることを表す。
なお、音声データベース１１は、音声データが新規に作成された場合には、新たに記憶することが可能であり、また、音声を作成する他の装置において作成された音声データを得て、新たに記憶することも可能である。

図３は、音声信号の波形図である。図３の波形図における縦軸は振幅を表し、横軸は音声を開始した時点を基準として経過した時間を表す。音声信号の振幅の値が経過時間毎に配列されたデータが音声信号データである。具体的には、図３は、図２のデータの１行目におけるＷＡＶＥ１である「ほっかいどー」が発話された場合の波形図である。

図４は、基本周波数の時間に応じた変化を表すグラフである。この基本周波数の時間変化情報は、基本周波数の値が経過時間毎に配列されたデータである。図４において、縦軸は基本周波数を表し、横軸は経過時間を表す。具体的には、図４は、図２のデータの１行目におけるＦＲＱ１をグラフとして表したものでる。

図５は、音素の時間情報を表すテキストデータを示す概略図である。例えば図５において、１行目のＴＩＭＥ１は、音素の時間情報のデータの名称であり、２行目から１１行目は、音素毎の音素の時間情報である。なお、音素とは音韻論上の音の最小単位であり、母音や子音それぞれが１音素に対応する。また、撥音や長音や促音もそれぞれが１音素に対応する。
２行目から１１行目のデータにおいて、一列目は音声の開始時点を時刻の基準として各音素の開始時点までの時間を１万分の１秒単位で表し、二列目は音声の開始時点を時刻の基準として各音素の終了時点までの時間を１万分の１秒単位で表し、三列目は音素の音素ラベルを表す。例えば図５において、“０４７５０ｓｉｌ”は、音声の開始時点から０．４７５秒経過するまでの間が無声区間であることを表す。また、“４７５０５１００ｈ”は、音声の開始時点を基準として０．４７５秒経過した時点から０．５１秒経過するまでの間の音素が“ｈ”であることを表す。なお、音素ラベルｓｉｌは、音素がないことを表し、音素ラベルＱは促音を表し、音素ラベルｏ：は「お」の長音を表す。なお、ここでは、時刻が１万分の１秒単位である場合を一例として説明したが、１千分の１秒単位（ミリ秒）など、他の単位で表すようにしてもよい。

図６は、見本音声指定部１７が入力を受け付ける他語音声を、利用者が選ぶ時の条件を説明する概念図である。
他語音声は、他語他話者音声と他語同話者音声との２つがある。他語音声であるか否かによって、音調見本と、音高見本と、時間情報見本とそれぞれ選択する際に、他語音声の韻律情報の優先順位が変わる。
他語音声を見本音声指定部１７から指定する場合、利用者は、修正対象音声と発話内容のモーラ数が同じである音声を選択する。モーラとは、音の長さについての音韻論上の単位である。日本語では、概ね、拗音については仮名２文字が１モーラに対応し、拗音以外については、仮名１文字が１モーラに対応する。１モーラは、１または複数の音素により構成される。
図６（ａ）は、修正対象音声の具体例「あおいいえ」のモーラ区切り及び音素区切りを表す図であり、図６（ｂ）は、他語音声の具体例「しろいいえ」のモーラ区切り及び音素区切りを表す図である。
図６の場合、「しろいいえ」のモーラ数は５であり、修正対象音声「あおいいえ」のモーラ数と一致する。従って、「しろいいえ」が修正対象音声とモーラ数が同じであるという条件を満たしており、利用者は他語音声として選択することが可能である。

なお、利用者は、他語音声について、修正対象音声と発話内容のモーラ数が同じであって、修正対象音声と音素数が異なる音声を選択することも可能である。例えば、図６に示すように、図６（ｂ）に表される「しろいいえ」の音素数が７であり、図６（ａ）に表される修正対象音声「あおいいえ」の音素数が５であるため、音素数が一致しないが、上述したように「しろいいえ」はモーラ数が一致するので条件を満たす。従って、利用者は、修正対象音声とモーラ数が同じであって、且つ、音素数が異なる音声を他語音声として選択することができる。

図７は、韻律選択部１９が見本音声を選択する優先順位の一例を表す概要図である。具体的に、図７においては、音調見本と、音高見本と、時間情報見本との組み合わせが、優先順位に対応付けられている。
音声の候補としては、例えば、以下の音声がある。下に列挙するものは音声の種別である。
（１）音声入力部が入力を受け付けた音声
（ａ）修正対象音声と同発話内容
（ｂ）修正対象音声と異なる発話内容、同音素数
（ｃ）修正対象音声と異なる発話内容、同モーラ数
（２）音声データベースに記憶された音声
（ａ）修正対象音声と異なる発話内容、同音素数、同話者
（ｂ）修正対象音声と異なる発話内容、同モーラ数、同話者
（ｃ）修正対象音声と異なる発話内容、同音素数、他話者
（ｄ）修正対象音声と異なる発話内容、同モーラ数、他話者
（ｅ）修正対象音声と同発話内容、他話者
（３）修正対象音声

音調見本と、音高見本と、時間情報見本とには、それぞれ、上述の（１）（ａ）から（１）（ｃ）と、（２）（ａ）から（２）（ｅ）と、（３）とのうち、いずれか１つが選ばれる。
例えば、図７の１行目は、（２）（ａ）が音調見本であり、（３）が音高見本であり、（３）が時間情報見本である組み合わせが、優先順位１に対応付けされている。
また、図７の２行目は、（２）（ａ）が音調見本であり、（２）（ｂ）が音高見本であり、（３）が時間情報見本である組み合わせが、優先順位２に対応付けされている。
ここでは、１が最も高い優先順位である。

具体的に、韻律選択部１９は、音調見本については、音声入力部１４が入力を受け付けた見本音声または見本音声検索部１８が音声データベース１１から検索して得た見本音声から１つ選択する。また、韻律選択部１９は、音高見本については、見本音声検索部１８が音声データベース１１から得た見本音声（修正対象音声と同話者の音声）、または合成音声記憶部１３から得た修正対象音声のいずれかから１つ選択する。また、韻律情報選択部１９は、音素の時間情報については、音声入力部１４が受け付けた見本音声と、見本音声検索部１８が音声データベース１１から得た見本音声と、合成音声記憶部１３から得た修正対象音声のいずれかから１つ選択する。

韻律選択部１９は、音調見本について選択した見本音声と、音高見本について選択した見本音声と、音素の時間情報について選択した見本音声との組み合わせのうち、取り得る組み合わせのそれぞれの優先順位に従って、優先順位のうち最も高い組み合わせを選択する。

例えば、音声入力部１４から見本音声の入力を受け付けず、見本音声指定部１７から（２）（ａ）、（２）（ｂ）である見本音声の入力を受け付け、修正対象音声を記憶する合成音声記憶部１３から（３）を受け付けた場合には、音調見本が（２）（ａ）、音高見本が（３）、時間情報見本が（３）である組み合わせに対応する優先順位が１であり、また、これらの見本音声の他の組み合わせに対応する優先順位が２、３、７であるので、韻律選択部１９は、優先順位が１である組み合わせを選択する。
また、例えば、音声入力部１４から（１）（ａ）である見本音声を受け付け、見本音声指定部１７から（２）（ｂ）である見本音声の入力を受け付け、修正対象音声を記憶する合成音声記憶部１３から（３）を受け付けた場合には、音調見本が（１）（ａ）、音高見本が（３）、時間情報見本が（３）である組み合わせに対応する優先順位が４であり、音調見本が（１）（ａ）、音高見本が（２）（ｂ）、時間情報見本が（３）である組み合わせに対応する優先順位が５であるので、韻律選択部１９は、優先順位が４の組み合わせを選択する。

なお、図７においては、図示した組み合わせに限られるものではなく、組み合わせを変えたり、優先順位を変えたりするようにしてもよい。
また、例えば、この図７に示す情報を予めハードディスク等の記憶装置に記憶しておき、韻律選択処理を行う場合、韻律選択部１９は、この記憶装置を参照し、優先順位に従い、見本となる韻律情報を選択することが可能である。

次に、目標パラメータ決定部２０の詳細について説明する。
図８は、基本周波数の時間方向の平均値（以下、「時間平均値」という）を用いて、音調見本の基本周波数の時間変化情報を算出する場合について説明する説明図である。図８において、縦軸は基本周波数を表し、横軸は時間を表す。

図８（ａ）と図８（ｂ）は、音調見本の基本周波数の時間変化を表すグラフ（ア）、及び音高見本の基本周波数の時間変化を表すグラフ（イ）を示す。さらに、図８（ｂ）は、音高見本の基本周波数の平均値と音調見本の基本周波数の平均値とに基づいて目標パラメータ決定部２０によって算出される基本周波数の時間変化を表すグラフ（ウ）を示す。
基本周波数の時間平均値を用いて、音調見本の基本周波数の時間変化情報を算出する場合、目標パラメータ決定部２０は、まず音調見本（図８（ａ）ア）の基本周波数の時間平均値と音高見本（図８（ａ）イ）の基本周波数の時間平均値とを算出する。そして、目標パラメータ決定部２０は、音調見本（図８（ｂ）ア）の基本周波数の時間平均値が、音高見本（図８（ａ）イ）の基本周波数の時間平均値と同じとなるような、音調見本の基本周波数の時間変化情報を算出する。具体的には、目標パラメータ決定部２０は、音高見本の基本周波数の時間平均値と音調見本の基本周波数の時間平均値との差を算出し、算出された差を音調見本の基本周波数に加算した和の時系列のデータを算出する。この算出される音調見本の基本周波数の時間変化情報のグラフを図８（ｂ）ウに示す。
このように、音高見本の基本周波数の平均値と同じになるような平均値を持つ音調見本の基本周波数を算出することにより、音高見本の音高に近づけた音調見本の基本周波数の時間変化情報が得られる。

次に、図９を用いて、音調見本の音声素片の発話開始から発話終了までの全体の時間を合計した音調見本全体長に対する、音調見本の各音声素片の発話開始から発話終了までの時間の比（全体長に対する音声素片の比）を変えずに、音調見本全体長を変更する場合について説明する。ここで、音声素片は、合成音声を構成する音声波形のデータである。図９の例では、音声素片の単位がモーラである場合を説明する。
図９は、全体長に対する音声素片の比を変えずに、音調見本全体長を変更する場合について説明する概念図である。図９の上段は時間情報見本の音素の時間情報を表し、図９の中段は音調見本の音素の時間情報を表し、図９の下段は目標パラメータの音素の時間情報を示す。図９の横軸は、時間を示している。
全体長に対する音声素片の比を変えずに、音調見本全体長を変更する場合、目標パラメータ決定部２０は、まず時間情報見本の各音声素片の発話開始から発話終了までの時間を合計した時間情報見本全体長と、音調見本全体長とを算出する。そして、目標パラメータ決定部２０は、全体長に対する音声素片の比を変えることなく、音調見本の音素の時間情報を、時間情報見本全体長と音調見本全体長とが一致するように変更する。具体的には、目標パラメータ決定部２０は、時間情報見本全体長と音調見本全体長とを算出する。そして、目標パラメータ決定部２０は、全体長に対する音声素片の比を算出し、音調見本の音素の時間情報に対し、時間情報見本全体長に対する音調見本全体長の比を音調見本の各音素の時間情報に乗ずることによって変更し、時間情報見本全体長と音調見本全体長とが一致する音調見本の音素の時間情報を得る。目標パラメータ決定部２０は、得られた音素の時間情報を、目標パラメータの音素の時間情報として決定する。
これにより、時間情報見本全体長と音調見本全体長とが異なる場合であっても、時間情報見本全体長に合わせた音調見本全体長を得ることができ、音調見本全体長の調整を行うことができる。

図１０は、音調見本の音高が音高見本の音高に合わせて変更された音調見本の基本周波数の時間変化情報を、時間情報見本に従って変更する場合について説明する説明図である。音調見本の音高が音高見本の音高に合わせて変更された音調見本の基本周波数の時間変化情報を、時間情報見本に従って変更する場合、目標パラメータ決定部２０は、音高見本の音高に近づけた音調見本の基本周波数の時間変化情報（図１０（ウ））を、時間情報見本に従って、音高が変更された音調見本の基本周波数の時間変化情報の全体長と音素の時間情報の全体長とを一致させるように変更することによって、目標パラメータの基本周波数の時間変化情報を生成する。
具体的には、目標パラメータ決定部２０は、時間情報見本の時間情報の全体長に対する、音高が変更された音調見本の時間情報の全体長の比を算出し、この算出された比を、音高が変更された音調見本の時間情報の全体長に乗ずることによって、音高が変更された音調見本の時間情報を更新する。例えば、図１０（エ）は、音高見本の音高に近づけた音調見本の基本周波数の時間変化情報（図１０（ウ））を、音素の時間情報の全体長と一致するように更新した後の基本周波数の時間変化情報を示す。

なお、目標パラメータ決定部２０は、音高見本の基本周波数の平均値に代えて、音高見本の基本周波数の高低幅、最大値、又は最小値に基づいて音調見本の基本周波数を変更するようにしてもよい。また、目標パラメータ決定部２０は、音高見本の基本周波数の平均値、最大値、及び最小値のいずれかと、音高見本の基本周波数の高低幅とに基づいて音調見本の基本周波数を変更しても良い。

上述の音高見本の基本周波数の最大値、最小値、高低幅に基づいて音調見本の基本周波数を変更する場合について説明する。図１１は、目標パラメータ決定部２０が音高見本の基本周波数の最大値に基づいて音調見本の基本周波数の時間変化情報を算出する場合について説明する説明図である。音高見本の基本周波数の最大値に基づいて音調見本の基本周波数の時間変化情報を算出する場合、目標パラメータ決定部２０は、まず音高見本の基本周波数の最大値を算出する。そして、目標パラメータ決定部２０は、音調見本の基本周波数（図１１（ア））の最大値と、音高見本の基本周波数の最大値とを算出し、音高見本の基本周波数（図１１（イ））の最大値が同じ値となる音調高見本の基本周波数を算出する。具体的には、目標パラメータ決定部２０は、音高見本の基本周波数の最大値と音調見本の基本周波数の最大値との差を算出し、算出された差に音調見本の各時点における基本周波数を加算した和の時系列のデータを生成する。
図１１において、図１１（ア）は音調見本の基本周波数を表すグラフであり、図１１（イ）は音高見本の基本周波数を表すグラフであり、図１１（ウ）は、音高見本の基本周波数の最大値と音調見本の基本周波数の最大値との差に、音調見本の各時点における基本周波数を加算した和のグラフである。

次に、目標パラメータ決定部２０が音高見本の基本周波数の最小値に基づいて音調見本の基本周波数の時間変化情報を算出する場合について説明する。音高見本の基本周波数の最小値に基づいて音調見本の基本周波数の時間変化情報を算出する場合、目標パラメータ決定部２０は、まず音高見本の基本周波数の最小値と、音調見本の基本周波数の最小値とを算出する。そして、目標パラメータ決定部２０は、音調見本の基本周波数の最小値と、音高見本の基本周波数の最小値とが同じ値となるような、音調見本の基本周波数を算出する。具体的には、目標パラメータ決定部２０は、音高見本の基本周波数の最小値と音調見本の基本周波数の最小値との差を算出し、算出された差に音調見本の各時点における基本周波数を加算した和の時系列のデータを生成する。

図１２は、目標パラメータ決定部２０が音高見本の基本周波数の高低幅及び平均値に基づいて音調見本の基本周波数を変更する場合を説明する説明図である。目標パラメータ決定部２０が音高見本の基本周波数の高低幅及び平均値に基づいて音調見本の基本周波数を変更する場合、目標パラメータ決定部２０は、まず音高見本の基本周波数の最大値と最小値との幅（値の差）と、音調見本の基本周波数の最大値と最小値との幅とを算出する。次に、目標パラメータ決定部２０は、音調見本の基本周波数の最大値と最小値との幅が、先に算出された音高見本の基本周波数の最大値と最小値との幅と同じ値となるように、音調見本の基本周波数の時間変化情報を生成する。具体的には、目標パラメータ決定部２０は、音調見本の基本周波数の最大値及び最小値の幅と、音高見本の基本周波数の最大値及び最小値の幅との比を算出し、音調見本の各時点における基本周波数にこの比を乗じた値の時系列のデータを生成する。
図１２（ａ）は、音調見本の基本周波数のグラフを図１２（ａ）アに、音調見本の基本周波数の最大値と最小値との幅と、同じになるような音調見本の基本周波数のグラフを図１２（ａ）エに示す。
ここで、目標パラメータ決定部２０は、得られた音調見本の基本周波数（図１２（ａ）エ）の各時点における基本周波数に音高見本の基本周波数の平均値を加算した和の時系列のデータを算出する。このとき得られる音調見本の基本周波数のグラフを図１２（ｂ）ウに示す。

図１３は、目標パラメータ決定部２０が、時間情報見本の音声素片の長さと音調見本の音声素片の長さとが、対応する音声素片同士で一致するように、音調見本の音素の時間情報を変更する場合の処理概念を表す概念図である。音声素片の長さとは、１つの音声素片の発話開始から発話終了までの時間である。対応する音声素片とは、配列された音声素片のうち先頭から数えた順番が、時間情報見本と音調見本において一致する音声素片である。
図１３の上段は音調見本のモーラの長さを表し、図１３の中段は目標パラメータのモーラの長さを表し、図１３の下段は時間情報見本のモーラの長さを表す。なお、モーラの長さは、そのモーラに含まれる音素の長さ（時間）の合計値である。図１３の横軸は、時間を示している。
時間情報見本のモーラの長さと、対応する音調見本のモーラの長さとが一致するように、音調見本の音素の時間情報を変更する場合、目標パラメータ決定部２０は、まず時間情報見本（下段）の各モーラの長さを算出する。そして、目標パラメータ決定部２０は、音調見本（上段）のモーラの長さが、対応する時間情報見本（下段）のモーラの長さに一致するように変更する。例えば、目標パラメータ決定部２０は、音調見本のモーラの長さを、対応する時間情報見本のモーラの長さに置き換えることによって一致させる。目標パラメータ決定部２０は、この処理によって得られたモーラの長さに基づき、音調見本の音素の時間情報を変更する。即ち、目標パラメータ（中段）の音素の時間情報を得る。

なお、図８、図１１から図１２を用いて、音高見本に従って（１）基本周波数の時間平均値に基づいて音調見本の音高を変更する処理、（２）基本周波数の最大値に基づいて音調見本の音高を変更する処理、（３）基本周波数の最小値に基づいて音調見本の音高を変更する処理、（４）基本周波数の最大値と最小値の差に基づいて音調見本の音高を変更する処理、について説明したが、音高を変更する処理としては、この（１）から（４）のいずれか１つを、利用者の指示に従って適用するようにしてもよい。
また、図９、図１３を用いて（５）各音声素片の比を変えずに全体長を変更する処理、（６）各音素の時間情報と時間情報見本の各音素の時間情報とが、対応する音声素片同士で一致するように変更することにより全体長を変更する処理、について説明したが、全体長を変更する処理としては、（５）と（６）とのいずれか１つを、利用者の指示に従って適用するようにしてもよい。
また、図１０を用いて（７）音調見本の音高が、基本周波数の時間平均値に基づいて音高見本の音高に合わせて変更された音調見本の基本周波数の時間変化情報を、各音声素片の比を変えずに全体長を変更する処理、について説明した。この（７）において、音調見本の音高を変更する場合、基本周波数の時間平均値に基づいて変更するのではなく、上述の（２）、（３）、（４）のいずれかを行うようにしてもよい。また、（７）において、音高を変更した後の音調見本の全体長を変更する場合、（５）各音声素片の比を変えずに全体長を変更する場合について説明したが、（６）の各音素の時間情報と時間情報見本の各音素の時間情報とが、対応する音声素片同士で一致するように変更することにより、全体長を変更するようにしてもよい。このように、（１）から（４）のいずれかによって音高見本の音高に従って音調見本の音高を変更した後、（５）または（６）によって、音高が変更された音調見本の全体長を変更することができる。この（１）から（４）の処理と、（５）、（６）の処理とのうちいずれの処理を適用するかについては、利用者が選択するようにしてもよい。

次に、目標パラメータ決定装置１全体の処理手順について説明する。
図１４は、目標パラメータ決定装置１全体の処理手順を表すフローチャートである。
図示するように、ステップＳ０１において、まず修正対象音声指定部１２が、修正対象音声を指定する入力を受け付ける。具体的には、修正対象音声指定部１２は、修正対象音声の発話内容及び発話者識別情報の入力を受け付けることによって、任意の修正対象音声の指定を受け付ける。

次に、ステップＳ０３において、見本音声の指定が終了したか否かを判定する。見本音声の指定が終了した場合には、ステップＳ０９に進み、見本音声の指定が終了していない場合には、ステップＳ０４に進む。この判定は、例えば、ステップＳ０４からＳ０８のループを繰り返した回数（例えば、利用者によって指定された回数）、または指定終了命令の入力の有無のいずれかによって行う。

次に、ステップＳ０４において、音声入力部１４が見本音声の入力を受け付けたか否かを判定する。音声入力部１４が見本音声の入力を受け付けた場合には、ステップＳ０５に進み、音声テキスト入力部１５が、音声入力部１４が入力を受け付けた見本音声の発話内容を表すテキストデータの入力を受け付ける。次に、ステップＳ０６において、音声分析部１６が、入力された見本音声に対し音声分析処理を実行し、音声テキスト入力部１５によって入力されたテキストデータに基づいて、入力された音声（同語音声又は他語音声）の韻律情報を生成し、ステップＳ０３に進む。
一方、ステップＳ０４において、音声入力部１４が見本音声の入力を受け付けていない場合には、ステップＳ０７において、見本音声指定部１７が、見本音声を指定するテキストデータの入力を受け付けたか否かを判定する。見本音声指定部１７が、見本音声を指定するテキストデータの入力を受け付けていない場合には、ステップＳ０３に進み、見本音声指定部１７が、見本音声を指定するテキストデータの入力を受け付けた場合には、ステップＳ０８において、見本音声検索部１８が、指定された見本音声（他語同話者音声、他語他話者音声、同語他話者音声のいずれか）の音声データを音声データベース１１から読み出し、ステップＳ０３に進む。

一方、ステップＳ０３において、見本音声の指定が終了した場合（ステップＳ０３：ＹＥＳ）には、ステップＳ０９において、韻律情報選択部１９は、修正対象音声指定部１２が入力を受け付けた修正対象音声の韻律情報を合成音声記憶部１３から読み出す。

次に、ステップＳ１０において、韻律選択部１９が、目標パラメータ決定装置１全体の処理が開始してからステップＳ１０の処理までの間に韻律情報が読み出された見本音声又は韻律情報が算出された見本音声の中から、音調見本、音高見本、時間情報見本のそれぞれに適した音声を、優先順位に従って選択する。
次に、ステップＳ１１において、目標パラメータ決定部２０が、音調見本の基本周波数の時間変化情報及び音高見本の基本周波数の時間変化情報に基づいて、音高見本の音高に合わせた音調見本の基本周波数の時間変化情報を算出する。
例えば、目標パラメータ決定部２０は、音調見本の基本周波数の時間平均値と音高見本の基本周波数の時間平均値とを算出し、音高見本の基本周波数の時間平均値と音調見本の基本周波数の時間平均値との差を算出し、算出された差を音調見本の基本周波数に加算した和の時系列のデータを算出することによって、音高見本の音高に合わせた音調見本の基本周波数の時間変化情報を得る。

次に、ステップＳ１２において、目標パラメータ決定部２０が、音調見本の音素の時間情報及び時間情報見本の音素の時間情報に基づいて、目標パラメータである音素の時間情報を算出して得る。
例えば、目標パラメータ決定部２０は、音調見本の音素の時間情報に基づいて音調見本全体長と、時間情報見本の音素の時間情報に基づいて時間情報見本全体長とを算出する。そして、目標パラメータ決定部２０は、全体長に対する音声素片の比を算出し、音調見本の音素の時間情報を、音調見本の各音素の時間情報に、時間情報見本全体長に対する音調見本全体長の比を乗ずることによって変更し、時間情報見本全体長と音調見本全体長とが一致する音調見本の音素の時間情報を得る。目標パラメータ決定部２０は、得られた音素の時間情報を、目標パラメータの音素の時間情報として決定する。

次に、ステップＳ１３において、目標パラメータ決定部２０が、音高見本の音高に合わせた音調見本の基本周波数の時間変化情報と、目標パラメータの音素の時間情報とに基づいて、目標パラメータである基本周波数の時間変化情報を算出して得る。
例えば、目標パラメータ決定部２０は、時間情報見本の時間情報の全体長に対する、音高が変更された音調見本の時間情報の全体長の比を算出し、この算出された比を、音高が変更された音調見本の時間情報の全体長に乗ずることによって、音高が変更された音調見本の時間情報を更新し、目標パラメータとして得る。
音高が変更された音調見本の時間情報を更新して目標パラメータが得られると、このフローチャート全体の処理を終了する。

このように構成された目標パラメータ決定装置１では、修正対象音声を修正する利用者が目標韻律を有する見本音声を音声入力部１４へ発話したり、見本音声指定部１７に指示を入力したりすることによって、目標パラメータが決定される。そのため、利用者は、目標パラメータの値について具体的に検討することなく、見本音声を発話又は選択する指示を入力するだけで、目標パラメータを容易に決定することができる。

また、目標パラメータ決定装置１では、他語同話者音声や他語他話者音声のように修正対象音声と発話内容が異なる音声であっても、音調見本、音高見本、及び時間情報見本として使用し目標パラメータを決定することができる。従って、目標パラメータ決定装置１では、修正者によって発話される音声又は音声データベース１１の中から指定される音声は、必ずしも修正対象音声と発話内容が同じである必要が無くなる。そのため、修正者の発話又は音声データベース１１における指定の自由度を向上させることができ、目標パラメータの決定がより容易となる。

＜変形例＞
以上説明した第１の実施形態においては、韻律選択部１９は、音素の時間情報については、同語音声、他語音声、他語他話者音声、他語同話者音声、同語他話者音声それぞれの音声（音声データベース１１から得られた音声あるいは音声入力部１４が入力を受け付けた音声）の音声区間の全体時間長を、修正対象音声の音声区間の全体時間長で正規化せずに選択する構成について説明したが、各音声区間の全体時間長を、修正対象音声の音声区間の全体時間長と一致するように正規化しておき、正規化された音素の時間情報から選択するようにしても良い。この正規化は、例えば、目標パラメータ決定部２０が、修正対象音声の時間情報見本全体長と、正規化する対象である音声の全体長を算出する。そして目標パラメータ決定部２０が、修正対象音声の全体長に対する音声素片の比を算出し、算出された比を正規化する対象である音声の音素の時間情報に乗ずることによって変更する。
このように正規化しておくことにより、修正対象の音声の全体長を変えずに、目標パラメータを得ることができる。

［第２の実施の形態］
次に、本発明の第２の実施形態について説明する。
図１５は、同実施形態による合成音声修正装置２の機能構成を表すブロック図である。図示するように、合成音声修正装置２は、図１に示す第１の実施形態である目標パラメータ決定装置１が有する各機能部と、修正部２１とを含んで構成される。図１の目標パラメータ決定装置１の各機能部に対応する部分については、同一の符号を付し、その説明を省略する。

修正部２１は、目標パラメータ決定部２０によって得られる目標パラメータに従って、見本の音声素片を選択し、その音声素片の音声信号データを選択し、修正対象音声の音声素片の音声信号データを、選択された音声信号データに置換することによって修正対象音声の韻律の修正を行い、目標韻律に近い韻律を有する合成音声を生成する。
具体的には、修正部２１は、目標パラメータの基本周波数と、修正対象音声の基本周波数との差を、音声素片毎に算出し、この差が所定の閾値を超える音声素片（以下、「修正対象の音声素片」という）を検出する。
この修正対象の音声素片を検出する場合、修正部２１は、（ａ）音声素片の開始時点における基本周波数の差、（ｂ）音声素片の終了時点における基本周波数の差、（ｃ）音声素片の開始から終了までの間の中間時点における基本周波数の差、（ｄ）音声素片の開始から終了までの範囲における基本周波数の平均値の差、（ｅ）音声素片の開始から終了までの時間を範囲における基本周波数の差分の絶対値の定積分値、のいずれかが所定の閾値を越えたか否かに基づいて検出する。
次に、修正部２１は、（１）検出された修正対象の音声素片と音素ラベルが一致し、且つ、（２）目標パラメータの基本周波数の時間変化情報における修正対象区間（修正対象の音声素片の開始から終了までの時間に対応する区間）の基本周波数に最も近い基本周波数を有する、音声素片の音声信号データを音声データベース１１から読み出す。そして、修正部２１は、修正対象区間の音声信号データを、読み出された音声素片の音声信号データと、それに対応する韻律情報（基本周波数の時間変化情報と、音素の時間情報）とを、合成音声記憶部１３に、合成音声として新たに登録する。
なお、修正部２１は、新たに登録された合成音声全体の周波数分析をし直すことによって基本周波数の時間変化情報を得る。

なお、修正部２１は、上記（２）の条件を満たすか否かについて、より具体的には以下のように判定する。まず、修正部２１は、目標韻律の同部分の基本周波数の平均値と、始端値と、終端値と、音素の時間情報とのうち、予め設定された１つ以上の指標を、誤差最小であることを評価する項を含む波形接続型音声合成のコスト関数を用い、誤差最小となる同種の音声素片を音声データベース１１から検索して得る。そして、得られた音声素片の音声信号データを、（２）の条件を満たす音声信号データであると判定する。
そして、修正部２１は、修正対象の音声素片の音声信号データを、選択された音声信号データに書き換えることによって、修正対象音声の韻律の修正を行う。

図１６は、修正前後の修正対象音声における基本周波数の時間変化情報の変化状態を表す説明図である。図１６（ａ）の上段は基本周波数の時間変化情報を表し、図１６（ａ）の下段は音素の時間情報を表す。図１６（ａ）の上段の基本周波数の時間変化情報と、図１６（ａ）の下段の音素の時間情報とは、同一の音声の情報である。図１６（ａ）アは、修正対象音声の基本周波数の時間変化を表すグラフであり、図１６（ａ）イは目標パラメータの基本周波数の時間変化を表すグラフである。
図１６（ａ）において、修正部２１は、修正対象音声の基本周波数の時間変化情報と目標パラメータの基本周波数の時間変化情報との差が所定以上である音声素片を検出し、この検出された音声素片（先頭（“あ”）から数えて４番目の音声素片（“い”））を、修正対象の音声素片であると判定する。次に、修正部２１は、音声データベース１１から、上述した条件を満たす音声素片の音声信号データと基本周波数の時間変化情報とを読み出す。そして、修正部２１は、修正対象の音声素片の音声信号データを、上述した条件を満たす音声素片の音声信号データに書き換えるとともに、書き換えられた音声信号データを音声分析を行って韻律情報を作成し直す。
図１６（ｂ）アは修正後の合成音声の基本周波数の時間変化を表すグラフであり、図１６（ｂ）イは目標パラメータの基本周波数の時間変化を表すグラフである。このような修正処理によって、修正対象音声の基本周波数の時間変化情報が、目標パラメータの基本周波数の時間変化情報に近づくように修正される。
なお、合成音声の音素の時間情報の修正を行う場合、修正部２１は、修正対象音声の修正対象となる音素の時間情報を、音声データベース１１から得られた音素の時間情報に書き換えることによって修正を行う。

このように構成された合成音声修正装置２は、使用者が修正目標となる韻律を有する音声を指定することによって、目標パラメータを決定し、決定された目標パラメータに基づいて合成音声の修正を行う。そのため、使用者は、目標パラメータを具体的に検討することなく、容易に合成音声の修正を行うことが可能となる。

＜変形例＞
上述した第２の実施形態において修正部２１は、修正対象音声の基本周波数と目標パラメータの基本周波数との差が、所定の閾値を越えた区間を対象として、音声信号データを更新することにより修正するようにしたが、この所定の閾値を越えた区間のみではなく、全ての区間を対象として、修正を行うようにしてもよいし、一部の区間（例えば、図１６（ａ）ウに示す区間に対応する音声素片）を利用者が指定して、修正を行うようにしてもよい。また、上述のコスト関数の重みの大きさを、利用者から入力される指示に従って、任意に変更するように構成しても良い。
また、上記（１）、（２）の条件を満たす音声素片を選択する場合、同話者の音声データを選択するようにしてもよいし、他話者の音声データを選択するようにしてもよい。
なお、目標パラメータ決定部２０が作成した目標韻律を用いずに音声合成を行う装置等、他の装置では、発話内容の言語解析から得られるアクセント情報に基づく音声素片選択等が行われる場合もある。

［第３の実施の形態］
次に、本発明の第３の実施形態について説明する。
図１７は、同実施形態による合成音声修正装置３の機能構成を表すブロック図である。図示するように、合成音声修正装置３は、図１に示す第１の実施形態である目標パラメータ決定装置１が有する各機能部と、修正部３１とを含んで構成される。図１の目標パラメータ決定装置１の各機能部に対応する部分については、同一の符号を付し、その説明を省略する。

修正部３１は、目標パラメータ決定部２０で決定された目標パラメータを用いて、修正対象の合成音声を修正する。このとき、（１）修正対象の音声素片のみを韻律変換して置き換える方法と、（２）修正対象の合成音声全体を韻律変換して置き換える方法とがある。

（１）の修正対象の音声素片のみを韻律変換して置き換える方法の場合、修正部３１は、目標パラメータとして与えられた基本周波数の時間変化情報に基づき、修正対象の音声素片に対応する区間の、（ａ）基本周波数の時間変化情報か、（ｂ）基本周波数の平均値（時間平均値）か、（ｃ）基本周波数の最大値のいずれかを用いる。また、修正部３１は、音声信号のパワーとして、（ｄ）修正対象の音声素片の音声信号のパワーか、（ｅ）上述した（ｄ）の平均値か、（ｆ）上述した（ｄ）の最大値のいずれかを用いる。また、修正部３１は、目標パラメータとして与えられた音素の時間情報に基づき、その時間情報の中から修正対象の音声素片のデータを取り出して用いる。そして、修正部３１は、これらの値を用いて音声信号を変換する処理を行なう。なお、音声信号の変換処理自体には既存技術を用いる。なおここで、上記の（ａ）と（ｂ）と（ｃ）のどの値を用いるかは、予め記憶されている設定値に従う。また、上記の（ｄ）と（ｅ）と（ｆ）のどの値を用いるかは、予め記憶されている設定値に従う。

（２）の修正対象の合成音声全体を韻律変換して置き換える方法の場合、修正部３１は、目標パラメータとして与えられた基本周波数の時間変化情報に基づき、（ａ）その基本周波数の時間変化情報か、（ｂ）その基本周波数の時間変化情報から算出される基本周波数の平均値（時間平均）のいずれかを用いる。また、修正部３１は、修正後の音声信号のパワーとしては、修正対象音声のパワーを用いる。また、修正部３１は、目標パラメータとして与えられた音素の時間情報をそのまま用いる。そして、修正部３１は、これらの値を用いて音声信号を変換する処理を行なう。なお、音声信号の変換処理自体として既存技術を用いることは上の場合と同様である。なおここで、上記の（ａ）と（ｂ）のどの値を用いるかは、予め記憶されている設定値に従う。

修正部３１は、上記の（１）または（２）のいずれかの方法で韻律変換して得られた音声信号データと、それに対応する韻律情報（基本周波数の時間変化情報と、音素の時間情報）とを、合成音声記憶部１３に、合成音声として新たに登録する。

図１８は、修正対象の音声素片を韻律変換して置き換える場合を説明する概念図である。例えば、「あおいいえ」のうち、音声素片「い」を修正対象とし、上述の（１）の方法によって韻律変換が行われると、例えば、音声素片「い」に対応する基本周波数の時間変化情報が、図１８（ａ）に示すグラフから図１８（ｂ）に示すグラフのように変わる。

このように構成された合成音声修正装置３は、第２の実施形態における合成音声修正装置２と同様に、使用者が修正目標となる韻律を有する音声を指定することによって、目標パラメータを決定し、決定された目標パラメータに基づいて合成音声の修正を行う。そのため、使用者は、目標パラメータを具体的に検討することなく、容易に合成音声の修正を行うことが可能となる。

なお、上述した実施形態における目標パラメータ決定装置１、合成音声修正装置２、及び合成音声修正装置３の一部又は全部の機能をコンピュータで実現する場合、これらの装置の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態を図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

第１の実施形態による目標パラメータ決定装置の機能構成を表すブロック図である。音声データベースによって記憶される音声データの構成を表す概略図である。音声信号の振幅の変化を表す波形図である。基本周波数の時間に応じた変化を表すグラフである。音素の時間情報の概略を表す概略図である。見本音声指定部１７が入力を受け付ける他語音声を、利用者が選ぶ時の条件を説明する概念図である。韻律選択部１９が韻律選択処理を行う場合に、見本となる音声データを選択する優先順位の一例を表す概要図である。基本周波数の値の時間平均値を用いて、音調見本の基本周波数の時間変化情報を算出する場合について説明する説明図である。全体長に対する音声素片の比を変えずに、音調見本全体長を変更する場合について説明する概念図である。音調見本の音高が音高見本の音高に合わせて変更された音調見本の基本周波数の時間変化情報を、時間情報見本に従って変更する場合について説明する説明図である。目標パラメータ決定部２０が音高見本の基本周波数の最大値に基づいて音調見本の基本周波数の時間変化情報を算出する場合について説明する説明図である。目標パラメータ決定部２０が音高見本の基本周波数の高低幅及び平均値に基づいて音調見本の基本周波数を変更する場合を説明する説明図である。目標パラメータ決定部２０が、時間情報見本の音声素片の長さと音調見本の音声素片の長さとが、対応する音声素片同士で一致するように、音調見本の音素の時間情報を変更する場合の処理概念を表す概念図である。目標パラメータ決定装置全体の処理手順を表すフローチャートである。第２の実施形態による合成音声修正装置２の機能構成を表すブロック図である。修正前後の修正対象音声における基本周波数の時間変化情報の変化状態を表す説明図である。第３の実施形態による合成音声修正装置３の機能構成を表すブロック図である。修正対象の音声素片を変換して置き換える場合について説明する概念図である。

符号の説明

１目標パラメータ決定装置
１１音声データベース
１２修正対象音声指定部
１３合成音声記憶部（修正対象音声記憶部）
１４音声入力部
１５音声テキスト入力部（発話内容取得部）
１６音声分析部
１７見本音声指定部
１８見本音声検索部
１９韻律選択部
２０目標パラメータ決定部
２，３合成音声修正装置
２１，３１修正部

Claims

音声と、前記音声の発話内容と、前記音声の基本周波数の時間変化情報と、前記音声に含まれる音素のタイミングを表す音素の時間情報とを対応付けて記憶する音声データ記憶部と、
音声の基本周波数の時間変化情報と前記音声に含まれる音素のタイミングを表す音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調の見本である音調見本データと音高の見本である音高見本データと音素のタイミングの見本である時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する韻律選択部と、
前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる基本周波数の時間変化情報を決定するとともに、前記音調見本データが有する音素の時間情報を、前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる音素の時間情報を決定する目標パラメータ決定部と、
を具備することを特徴とする目標パラメータ決定装置。
請求項１に記載の目標パラメータ決定装置において、
音声の入力を受け付ける音声入力部と、
前記音声に対応する発話内容を取得する発話内容取得部と、
前記音声入力部によって受け付けられた前記音声と前記発話内容とに基づき、当該音声の基本周波数の時間変化情報及び当該音声の音素の時間情報を算出する音声分析部と、
をさらに具備し、
前記韻律選択部は、前記音声分析部によって算出された前記基本周波数の時間変化情報及び前記音素の時間情報を有する前記音声を前記見本音声データとして取得する、
ことを特徴とする目標パラメータ決定装置。
請求項１に記載の目標パラメータ決定装置において、
見本音声データを選択する指示の入力を受け付ける見本音声指定部と、
前記見本音声指定部が受け付けた指示に基づいて前記音声データ記憶部を検索することによって前記見本音声データを得る見本音声検索部をさらに具備し、
前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、
ことを特徴とする目標パラメータ決定装置。
請求項１に記載の目標パラメータ決定装置において、
修正対象となる修正対象音声を選択する指示の入力を受け付ける修正対象音声指定部と、
前記音声データ記憶部を検索することによって前記修正対象音声の表記と同じ表記を有する見本音声を得る見本音声検索部をさらに具備し、
前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、
ことを特徴とする目標パラメータ決定装置。
請求項１に記載の目標パラメータ決定装置において、
修正対象である音声を記憶する修正対象音声記憶部と、
前記音声データ記憶部から、前記修正対象である音声の表記と異なる表記であって、かつ、音素数またはモーラ数が一致する見本音声データを得る見本音声検索部と、
をさらに具備し、
前記韻律選択部は、前記見本音声検索部が得た見本音声データを取得する、
ことを特徴とする目標パラメータ決定装置。
請求項１に記載の目標パラメータ決定装置と、
修正対象である音声を記憶する修正対象音声記憶部と、
前記修正対象音声を読み出し、前記目標パラメータ決定装置によって決定された前記基本周波数の時間変化情報及び音素の時間情報に基づいて前記修正対象音声を修正する修正部と、
を具備することを特徴とする合成音声修正装置。
音声と、前記音声の発話内容と、前記音声の基本周波数の時間変化情報と、前記音声に含まれる音素のタイミングを表す音素の時間情報とを対応付けて記憶する音声データ記憶部を有するコンピュータを、
音声の基本周波数の時間変化情報と前記音声に含まれる音素のタイミングを表す音素の時間情報とを有する見本音声データを取得し、前記見本音声データの種別に応じて、音調の見本である音調見本データと音高の見本である音高見本データと音素のタイミングの見本である時間見本データとを選択し、選択された前記音高見本データおよび前記音調見本データそれぞれの基本周波数の時間変化情報と、選択された前記音調見本データと前記時間見本データそれぞれの音素の時間情報とを取得する韻律選択手段、
前記音調見本データが有する前記基本周波数の時間変化情報を、前記音高見本データが有する前記基本周波数の時間変化情報に応じて変更し、さらに前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる基本周波数の時間変化情報を決定するとともに、前記音調見本データが有する音素の時間情報を、前記時間見本データが有する音素の時間情報に合わせることによって目標パラメータとなる音素の時間情報を決定する目標パラメータ決定手段、
として機能させるためのコンピュータプログラム。