JP2008268477A

JP2008268477A - 韻律調整可能な音声合成装置

Info

Publication number: JP2008268477A
Application number: JP2007110287A
Authority: JP
Inventors: Mitsuaki Sato; 光朗佐藤; Makoto Takao; 誠高尾; Naohiko Fujiyama; 直彦藤山
Original assignee: Hitachi Business Solutions Co Ltd
Current assignee: Hitachi Solutions Create Ltd
Priority date: 2007-04-19
Filing date: 2007-04-19
Publication date: 2008-11-06

Abstract

【課題】韻律調整用のＧＵＩを備えるユーザフレンドリな音声合成装置を提供する。
【解決手段】音声合成装置は、入力されたテキストデータから、韻律パラメータを付された中間言語を生成する中間言語生成部２４と、前記中間言語に付された韻律パラメータの値をグラフ化し、編集可能な編集画面を生成する編集画面生成部２７と、設定受付部２２を介して、編集画面のグラフ上に表示された表示シンボルを変位させ、韻律パラメータの値を指定された値に書換える事韻律パラメータ編集部２３と、書換えられた韻律パラメータに基づいて波形を合成する音声合成部２５と、前記合成波形を、出力装置を介して出力させる音声出力部２６と、を備える。
【選択図】図２

Description

本発明は、テキストから音声を合成するテキスト音声合成技術に関し、特に、基本周波数、継続時間長等の韻律を調整する技術に関する。

近年、テキストからの音声合成を行なうシステムでは、より高品位な音声を得るために、自然音声から音声素片（音声波形の断片）を切り出して、その特徴を蓄積した音声コーパスを利用する方法が知られている。音声の特徴には、ピッチを示す基本周波数、各音素の長さを示す音素継続時間長等の韻律パラメータが含まれる。これらを蓄積した音声コーパスから、任意の基準を用いて音声素片を抽出することで、自然な音声が合成される。

しかしながら、そのような従来の方法は、ユーザが選択した関連語句を基に、予め設定された韻律パラメータ中から最適と想定されるものを選択し、自動的に修正するものである。従って、関連語句を指定しても、想定している発音に修正されない場合がある。また、共起データ中に該当の関連語句が無い場合も同様である。

特許文献１には、ユーザが韻律パラメータ、例えば、継続時間長や基本周波数の情報を含んだ中間言語を調整可能な編集手段を備える音声合成装置が提案されている。これは、修正対象とする語句に関連する語句が、その読み、韻律の情報と共に、共起データとして予め記憶されており、ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）を用いて、関連する共起データの一覧表示が可能となっている。ユーザがその中から最適な関連語句を選択することで、修正対象とする語句の読み、抑揚が、より自然なものに修正される。

特開２００６−３０３２６号

しかしながら、上述したような従来の方法は、ユーザが選択した関連語句を基に、予め設定された韻律パラメータ中から最適と想定されるものを選択し、自動的に修正するものである。従って、関連語句を指定しても、想定している発音に修正されない場合がある。また、共起データ中に該当の関連語句が無い場合も同様である。

本発明では、上記従来技術の問題点を解決するために、韻律パラメータを画面上で視認、操作が可能であり、専門的知識を有しないユーザでも、韻律パラメータの編集操作が簡便に行える、ユーザフレンドリなＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）を提供することを目的とする。

以上の課題を解決するため、本発明は、前記入力された文字列についての韻律パラメータを、音声コーパスから取得して、前記入力された文字列に前記韻律パラメータを韻律制御単位ごとに対応付け、中間言語を生成する中間言語生成手段と、前記生成した中間言語に含まれる韻律パラメータから、横軸に対応する第一の韻律パラメータと、縦軸に対応する第二の韻律パラメータを定義して構成されるグラフを描出し、前記中間言語の韻律制御単位ごとの座標に、予め記憶された表示シンボルを、グラフ上に配置して、接続される表示装置の画面上に表示させ、韻律パラメータの編集画面を生成する、韻律パラメータ編集画面生成手段と、を備えることを特徴とする、音声合成装置が提供される。

以下、本発明の実施形態について、図面を参照して説明する。
まず、図１〜図３を参照して、本発明の実施形態の概略について説明する。図１は、本発明の請求項１の音声合成装置のハードウェアシステム構成を示すブロック図である。

図１に示すように、音声合成装置１０は、プログラムが動作する一般的なコンピュータであり、例えば、パーソナルコンピュータや、ワークステーションである。すなわち、音声合成装置１０は、コンピュータの主要部であって各装置を集中的に制御するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１と、各種データを書換え可能に記憶する主記憶装置２を備える。

さらに、音声合成装置１０は、各種のプログラム、プログラムの生成するデータ等を格納する外部記憶装置３、各種操作指示を行うためのキーボードやマウスなどの入力装置４、画像データ等を表示する表示装置５、音声データ等を音声として出力する出力装置６を備える。これらの各装置はバスなどの信号線７を介してＣＰＵ１と接続される。もちろん、他に、外部の装置と通信を行うための通信装置を備えていてもよい。外部記憶装置３は、例えばＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）を備える。

ＣＰＵ１は、例えば、外部記憶装置３上に格納されたプログラムを主記憶装置２上にロードして実行することにより、各種処理を実行する。外部記憶装置３は、ＨＤＤのみに限定されず、配布されたプログラムであるコンピュータソフトウェアを読み取るための機構として、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等のドライブをさらに備えても良い。もちろん、プログラムは、例えば、通信装置を介してネットワークから外部記憶装置３にダウンロードされ、それから、主記憶装置２上にロードされてＣＰＵ１により実行されるようにしてもよい。

入力装置４は、テキストを入力するためのテキスト入力装置、また、ＧＵＩ上の目的の動作を示すグラフィクスを操作するためのポインティングデバイスを含む。テキスト入力装置は、文字列が入力できる装置であれば、例えばキーボード、音声認識装置、または、文字列の読み込み装置等であってもよい。ポインティングデバイスは、例えばマウスや、画面に直接接触するようなタッチパネルであっても良い。

表示装置５のディスプレイは、CRT（Cathode Ray Tube）、LCD（Liquid Crystal Display）等から選択される。

出力装置６は、ＣＰＵから送られる音声データを音声に変換して出力するものであれば、外部スピーカのような外部出力装置であっても良い。

図２は、上記のハードウェアで構成される音声合成装置１０の機能構成を示すブロック図である。なお、本実施形態では、音声合成装置１０は、基本的なＧＵＩ編集機能を備えているものとする。

本図に示すように、音声合成装置１０上には、制御部２０及び記憶部３０が構築される。制御部２０は、設定受付部２２、韻律パラメータ編集部２３、中間言語生成部２４、音声合成部２５、音声出力部２６、及び、編集画面生成部２７を備える。また、記憶部３０は、辞書データ記憶領域３２、音声コーパス記憶領域３３、及び、作業データ記憶領域３４を備える。

これらの機能は、例えば、ＣＰＵ１が補助記憶装置３に予め記憶されている所定のプログラムを主記憶装置２にロードして実行することにより、または、ハードウェアを制御することにより、またはそれらの組合せにより実現される。記憶部３０は、データを継続的に保持する場合は外部記憶装置３を、データを一時的に保持する場合は主記憶装置２を用いることにより実現される。

設定受付部２２は、ＧＵＩ上のユーザによる操作、例えば、テキストデータの入力やカーソル・ポインタの移動などを、入力装置４を介して受け付ける。

韻律パラメータ編集部２３は、設定受付部２２を介して、韻律パラメータ編集に係る操作を受け付ける。そして、韻律パラメータに対応付けられた表示シンボルの位置の変更を検出し、その変位量と変位方向から韻律パラメータの値を算出して、新しい韻律パラメータを中間言語に付与する。

中間言語生成部２４は、設定受付部２２を介して、入力されたテキストデータを受け付ける。そして、受け付けたテキストデータを、辞書データ７００等に基づいて、単語に分割し、それらの読み・アクセント情報や、アクセント句の情報を含む形態素解析データを生成して、該入力テキストデータに韻律が類似するデータを、外部記憶装置に格納された音声コーパス４００より検索、抽出する。さらに、それに基づいて基準韻律パラメータを算出して中間言語データを生成する処理を行なう。

音声合成部２５は、中間言語生成部２４が生成した中間言語データに基づいて、出力音声波形を合成し、合成波形データを生成する。
音声出力部２６は、生成された合成波形データを、出力装置６を介して、実際の音声データとして出力する。

編集画面生成部２７は、生成された中間言語に含まれる韻律パラメータ情報をグラフ化し、ユーザが音声合成の作業を行うための画面、例えば、テキスト入力画面や韻律パラメータ編集画面を生成し、表示装置５に表示する。

辞書データ記憶領域３２は、単語の読み、アクセント情報等を記憶する辞書７００を、予め格納する。

音声コーパス記憶領域３３は、図５に示すように、単語、アクセント句や文節単位の文字列群と、その基本周波数や継続時間長等の韻律パラメータ、音声データ等を対応付けた情報を、予めデータベースとして蓄積する、音声コーパスを格納する。具体的には、例えば、図５に示すように、文字列表記データ４１０、文字列表記データ４１０の発声音である音声波形データ４２０、音声波形データ４２０の基本周波数データ４３０、音声波形データ４２０の継続時間長データ４４０、文字列表記データ４１０の形態素分割結果である形態素分割データ４５０、文字列表記データ４１０の音素分割結果である音素分割データ４６０から構成されるデータセット（４１００、４２００…n）を、複数備えている。なお、構成エレメントの内容は上記に限定されず、パワーデータやケプストラムデータ等を含んでいても良い。

作業データ記憶領域３４は、入力されたテキストデータや、韻律パラメータ編集部２３、中間言語生成部２４が生成した中間データなどを一時的に格納するための領域である。具体的には、図３に示すように、テキストデータ６１０、形態素解析データ６２０、音素解析データ６３０、基準韻律パラメータ６４０、更新韻律パラメータ６５０、検索結果データ６６０、中間言語データ６７０、中間言語更新データ６８０の各種データを格納する領域である。

次に、上述した機能で構成される音声合成装置の動作を、フロー図を参照しながら説明する。

図４は、テキストデータの入力を受け付けてから波形合成を行うまでの処理の流れを示すフロー図である。ここでは、「雨が降る。」というテキストデータを例にとって説明する。

先ず、設定受付部２２は、音声合成の対象のテキストデータを受け付ける（Ｓ１）。

具体的には、設定受付部２２は、図８に示すテキスト入力画面を表示装置５に表示する。

ここで、テキスト入力画面（図８）の構成を説明する。テキスト入力画面は、韻律編集ボタン６０１と、入力テキスト設定欄６０２を備える。韻律編集ボタン６０１は、韻律パラメータ編集を開始するためのボタンである。入力テキスト設定欄６０２は、音声合成の対象となるテキストデータを設定するための欄である。

上記のテキスト入力画面を表示した後、設定受付部２２は、テキスト入力画面上のユーザの操作を、入力装置４を介して受け付ける。入力テキスト設定欄６０２にテキストデータが入力されると、設定受付部２２は、該テキストデータを作業データ記憶領域３４上のテキストデータ６１０に格納する。すなわち、テキストデータ「雨が降る。」が、テキストデータ６１０に格納される（Ｓ１）。

もちろん、テキストデータの受付方法は上記に限られない。例えば、設定受付部２２は、上記のテキスト入力画面の前段階に、複数の文で構成される文章のテキストデータの入力を受け付けるＧＵＩ画面を表示する。そして、入力された文章のテキストデータを該画面に表示し、ユーザに韻律調整の対象の１文を選択させてから、上記のテキスト入力画面を表示し、選択された１文を表示させる構成とすることができる。

次に、中間言語生成部２４は、入力テキストデータが設定されると、入力テキストより中間言語を生成する（Ｓ２）。

ここで、中間言語生成処理（Ｓ２）について、図６を用いて詳しく説明する。

中間言語生成部２４は、作業データ記憶領域３４上のテキストデータ６１０に格納されたテキストデータ「雨が降る。」を読み出す（Ｓ１０１）。

次に、中間言語生成部２４は、形態素解析処理を実行する（Ｓ１０２）。具体的には、形態素解析部２４は、読み出したテキストデータを意味がわかる最小の単位(形態素)に分割する。そして、分割した形態素毎に、表記、読み、アクセント情報などで構成される形態素解析データを生成し、該データを作業データ記憶領域３４上の形態素解析データ６２０に格納する。単語毎の読み及びアクセント情報は、予め辞書７００に登録されている値を使用する。テキストデータを単語（形態素）に分割する方法としては、清水らによる「隣接単語間の結合関係に着目したテキスト音声変換用形態素解析処理、日本音響学会誌、５１巻、１号、ｐｐ．３−１３、１９９５」に記載の処理を利用することができる。勿論、該方法は一例であり、他の処理方法を用いても良い。

上記のようにして、中間言語生成部２４は、図１３（Ａ）のテキストデータ「雨が降る。」から、図１３（Ｂ）に示すような形態素解析データを生成する。すなわち、単語毎のデータ「雨」「が」「降」「る」「。」に分割し、読み・アクセント情報「ア´メ」「カ゜」「フ´」「ル」「．」（「´」はアクセント、「゜」は鼻濁音を示す）をそれぞれ対応付ける。また、アクセント句の区切りを示す情報「／」を付加する。なお、「ア´メカ゜／フ´ル．」は、発音記号列に相当するものである。もちろん、形態素の構造は上記のものに限られない。

次に、中間言語生成部２４は、音素分割処理を実行する（Ｓ１０３）。まず、形態素解析データ６２０を読み出し、該データに含まれる読みの情報を基に、意味の区別に用いられる最小の音の単位（音素）に分割し、得られた音素解析データを作業データ記憶領域３４上の音素解析データ６３０に格納する。

音素分割の方法は、例えば、宮崎らによる方法「日本文音声出力のための言語処理方式、情報処理学会論文誌、Ｖoｌ．２７、Ｎｏ．１１、ｐｐ．１０５３−１０６１、１９８６」を利用することができる。もちろん、該計算方法は一例であり、他の音素分割法を用いても良い。

上記の音素解析により、中間言語生成部２４は、テキストデータ「雨が降る。」を、音素に分割し、図１３（Ｃ）に示される、「Ａ／ＭＥ／ＮＧ／Ａ／Ｈ／Ｕ／Ｒ／Ｕ／．」のような音素データを生成する。ここで、「Ａ」「Ｍ」「Ｅ」等は音素を示す記号であるが、これらは一例であり、他の音素記号表現を用いてもよい。

次に、中間言語生成部２４は、形態素解析データに対して、アクセント型、品詞等の情報が類似するデータセットを、音声コーパス４００から検索する処理を行う（Ｓ１０４〜Ｓ１０６）。

中間言語生成部２４は、先ず、音声コーパス４００から、データセット４１００を読み出す（Ｓ１０４）。また、読み出したデータセット４１００から、形態素分割データ４５０を読み出す。

そして、中間言語生成部２４は、形態素解析データ６２０を読み出し（Ｓ１０５）、形態素分割データ４５０に含まれる、読み・アクセント情報、アクセント型、品詞等のデータと比較し、予め定めた基準で類似度の計算を行う（Ｓ１０６）。

以降、同様に、中間言語生成部２４は、全てのデータセット（４２００〜ｎ）について、上記の類似度の計算を行う（Ｓ１０６）。その結果として、予め設定したしきい値（基準類似度）を満たすデータセットのうち、形態素解析データと最も類似するデータセット（以下、選択データセットと呼ぶ。）を１つ選択する。

次に、中間言語生成部２４は、形態素解析データ６２０について、韻律パラメータの算出を行う（Ｓ１０７）。

具体的には、中間言語生成部２４は、形態素解析データ６２０と、選択データセットの形態素分割データ４５０とを比較し、形態素毎に一致部と不一致部とに分離する。そして、一致部の形態素には、選択データセットの韻律パラメータ（基本周波数データ４３０、継続時間長データ４４０）を付与する。不一致部の形態素の基本周波数データは、形態素のモーラ数とアクセント型等に対して１つの基本周波数データを記憶している単語基本周波数パタンテーブルから検索して算出する。また、継続時間長は、匂坂らによる、「規則による音声合成のための音韻時間長制御、電子情報通信学会論文誌、Ｖｏｌ．Ｊ６７−Ａ、Ｎｏ．７、ｐｐ．６２９−６３６、１９８４」を利用して算出することができる。その後、中間言語生成部２４は、一致部と不一致部の韻律パラメータを滑らかに接続するために、不一致部を変形統合する処理を行なう。

このようにして求めた韻律パラメータを、中間言語生成部２４は、作業データ記憶領域３４上の基準韻律パラメータ６４０に格納する。なお、韻律パラメータの算出方法は上記に限られない。音素ごとの継続時間長を求めるには、例えば、予めデータベースとして保持された、音素ごとの継続時間が記録されたテーブルや、付与対象となる音素の前後１音素までの環境要因を考慮した継続時間が記録されたテーブルを参照する方法を利用できる。また、音素ごと基本周波数を求めるには、二次臨界制動モデルと呼ばれる指数関数による曲線でモデル化する方法や矩形でモデル化する方法を利用できる。

次に、中間言語生成部２４は、形態素解析データ６２０と、音素解析データ６３０と、基準韻律パラメータ６４０とを基に、中間言語データを生成し、作業データ記憶領域３４上の中間言語データ６７０に格納する（Ｓ１０８）。

具体的には、中間言語生成部２４は、図１３（Ｄ）に示すような中間言語データを生成する。すなわち、基準形態素解析データに含まれる発音記号列を分割して、「ア」「メ」「カ゜」「／」「フ」「ル」「．」の音韻表記から成るデータ列を生成する。そして、それぞれの文字の音素毎に、基本周波数及び継続時間長のデータを付与する。例えば、「メ」は、基本周波数「２８３」・継続時間長「５１」の音素「Ｍ」と、基本周波数「２５２」・継続時間長「８９」の音素「Ｅ」とから構成される。

以上のようにして、中間言語生成部２４は、中間言語生成処理（Ｓ２）を終了する。

次に、韻律パラメータの編集処理（Ｓ３）について図７を用いて説明する。

まず、設定受付部２２は、テキスト入力画面（図８）上で、韻律編集ボタン６０１のクリックを受け付ける（Ｓ３１０）。すると、編集画面生成部２７が、編集画面生成処理を開始する。

編集画面生成部２７は、ユーザ可変の表示シンボルを備える、図９に示すような韻律パラメータ編集画面８００を生成する（Ｓ３１２）。まず、中間言語データ６７０を作業データ記憶領域３４から読み出す（Ｓ３１１）。そして、音韻表記９１０と、音素表記９２０を抽出する（図１３（Ｄ）参照）。まず、音韻表記９１０を、横軸方向へ、音韻表記文字列８３０として展開し（図９）、対応する音素表記９２０を、音素表記文字列８４０として、さらに展開する。

次に、編集画面生成部２７は、中間言語データ６７０から、継続時間長パラメータ９３０と、基本周波数パラメータ９４０を抽出する。

さらに、上記展開された音韻表記文字列８３０と、音素表記文字列８４０に対応する、前記継続時間長パラメータ９３０を横軸に、基本周波数パラメータ９４０を縦軸に対応付け、韻律パラメータのグラフ化を実行する。

次に、編集画面生成部２７は、音素表記文字列８４０の、文字ごとの開始点となる、横軸（継続時間長パラメータ９３０）の座標に、縦軸方向に延びる継続時間長表示シンボル８５０を、継続長の調整単位である音素表記文字列８４０の文字を区切るように配置する。（便宜上、一箇所のシンボルにのみ符号を付した。以下同様。）
編集画面生成部２７は、音韻表記文字列８３０の、文字ごとの開始点となる横軸座標配置された、上記継続時間長表示シンボル８５０上に、基本周波数表示シンボル８６０を、基本周波数パラメータの値に従って配置する。さらに、隣接する基本周波数表示シンボル８６０同士を結んだ線を、韻律結線シンボル８７０として生成する。

ここで、継続時間長表示シンボル８５０は、図９中に矢示線Ｘで示される横軸方向へ、基本周波数表示シンボル８６０は、図中の矢示線Ｙで示される縦軸方向へ、予め設定された基準値の範囲内において、入力装置４を介したスライド操作が可能に構成されている。継続時間長表示シンボル８５０は、左側に隣接する８５０との幅を変更可能であり、対応する表記文字の継続時間長を増減することが出来る。基本周波数シンボル８６０は、継続時間長表示シンボル８５０上でスライド操作が可能であり、対応する表記文字の基本周波数を増減させることが可能である。図中の矢示線Ｘ、Ｙは操作範囲を示すものではなく、単に操作方向を示すものである。

編集画面生成部２７は、横軸の継続時間長はミリ秒（１ｐｉｘｅｌ＝１ｍｓ）を、縦軸の周波数はＨｚ（対象データの最小周波数×０．８〜最大周波数÷０．７５）を単位として構成し、韻律編集画面８００を生成する。なお、ここではこのような単位を用いたが、勿論、他の単位を用いてグラフを生成してもよい。

また、韻律パラメータ編集画面８００が表示装置の画面内に入りきらない場合には、スクロールバーを構成し、画面の左右スライド操作が可能となるように構成する。なお、画面切り替え手段は、スクロールバーに限られず、ページ切り替えや、圧縮して全体を表示する機能を設けてもよい。

以上のように生成された韻律パラメータ編集画面８００を、編集画面生成部２７は、ＧＵＩを用いて表示装置５に表示する。

設定受付部２２は、表示シンボルの移動操作を受付ける（Ｓ３２１）。

まず、設定受付部２２は、上記表示シンボルが、入力装置２を介して移動操作されたことを検出する。

継続時間長表示シンボル８５０上で、入力装置４のポインティングデバイスである、マウスによるクリック操作を検出すると、設定受付部２２は、８５０の矢示線Ｘ方向への、ドラッグによるスライド操作の受付けを開始する。次に、矢示線Ｘ方向へのスライド操作を検出すると、韻律パラメータ編集部２３は、スライド後の継続時間長表示シンボル８５０の変位量と、スライド方向についての情報を取得する。さらに、スライド方向と変位量によって定まる書換え値を、横軸座標の単位に基づいて算出する。

基本周波数の変更についても同様に、基本周波数表示シンボル８６０上にマウスによるクリック操作を検出すると、韻律パラメータ編集部２３は、８６０の矢示線Ｙ方向へ、ドラッグによるスライド操作の受付けを開始する。次に、矢示線Ｙ方向へのスライド操作を検出すると、スライド後の基本周波数表示シンボル８６０の変位量と、スライド方向についての情報を取得する。さらに、スライド方向と変位量によって定まる書換えを縦軸座標の単位に基づいて算出する。

ここで、ポインティングデバイスを介した操作は、ここではマウスによるものを使用したが、勿論、タッチパネルへのタッチアクション等を用いてもよい。

図１０を参照して、韻律パラメータの書換え値の算出処理を具体的に説明する。矢示線Ａ→Ａ’は、継続時間長表示シンボル８５０の変位を示す。まず、設定受付部２２がポインティングデバイスを介した矢示方向Ａ→Ａ’へのスライド操作を受付ける。すると、韻律パラメータ編集部２３は、操作対象である継続時間長表示シンボル８５０と、それ以降の横軸座標の全ての音韻表記、音素表記、及び、表示シンボル（継続時間長表示シンボル８５０、基本周波数表示シンボル８６０、韻律結線シンボル８７０）を、矢示線Ａ→Ａ’のスライド方向へ、同様の変位量、変位して表示する。

ここで、Ａ→Ａ’へのスライド操作において、Ｘ軸座標のスライド方向は−であるから、変位量は、−（Ａ’−Ａ）で表される（単位はＸ軸座標のピクセル値）。よって、この場合は、１ピクセル＝１ミリ秒として設定されているので、韻律パラメータ編集部２３は、Ｘ軸座標のピクセル変位量と同値のミリ秒を、対応する音素表記の継続時間長（Ａ−Ａ０）から減じて、継続時間長パラメータの書換え値を算出する。

さらに、矢示線Ｂ→Ｂ’ は、基本周波数表示シンボル８６０の変位を示す。まず、設定受付部２２が、ポインティングデバイスを介した矢示方向Ｂ→Ｂ’へのスライド操作を受付ける。すると、韻律パラメータ編集部２３は、操作対象の基本周波数表示シンボル８６０を、Ｂ’座標に変位して表示する。８６０の変位に従って、韻律結線シンボル８７０も同時に変位する。

ここで、Ｂ→Ｂ’のスライド操作において、Ｙ軸座標のスライド方向は＋であるから、変位量は、（Ｂ’−Ｂ）で表される（単位はＹ軸座標のピクセル値）。韻律パラメータ編集部２３は、この変位量に、グラフのＹ軸範囲（対象データの最小周波数×０．８〜最大周波数÷０．７５）により定まる、１ピクセルに対応する周波数を表す係数（Ｈｚ／ｐｉｘｅｌ）を乗じて、基本周波数値を算出する。これを、対応する音韻表記の基本周波数Ｂに加算して、基本周波数パラメータの書換え値を算出する。

韻律パラメータ編集部２３は、以上の処理から算出された、継続時間長、基本周波数、および、フレーズ区切りの継続時間長の各パラメータの書換え値が、予め定められた基準値の範囲内にあることを確認する。

韻律パラメータ編集部２３は、書換え値が予め定められた範囲外である場合には、画面上にエラー画面を表示させる（Ｓ１４５）。例えば、エラー画面には「周波数は〜Ｈｚ以内に設定してください。」「継続長は〜ｍｓ以上に設定してください。」等のエラーメッセージが表示される。

継続時間長についてのエラーメッセージ表示と同時に、韻律パラメータ編集部２３は、書換え値が上限値を超過している場合には上限値の座標、下限値を超過している場合には下限値の座標に、継続時間長表示シンボル８５０を変位させる処理を実行する。基本周波数については、エラーメッセージの表示要因となる、基準値を超過するスライド操作が行なわれる直前の座標に、基本周波数表示シンボル８６０を変位させる処理を実行する。

書換え値が基準値内にある場合、韻律パラメータ編集部２３は、書換え値を更新韻律パラメータ６５０として、作業データ記憶領域３４上に格納する。さらに、中間言語データ６７０の韻律パラメータを、更新韻律パラメータ６５０の値に書き換える、書き換え処理を行なう（Ｓ３２４）。これにより、更新された中間言語データを、中間言語更新データ６８０として作業データ記憶領域３４上に格納する（Ｓ３２５）。

以上のようにして実行された韻律パラメータ編集処理によって生成された中間言語更新データ６８０から、音声合成部２５は、波形合成を実行する（Ｓ４）。さらに、合成波形は、音声出力部２６によって、出力装置６を介して出力される。

本実施形態では、基本周波数は音韻表記毎、すなわち、母音開始周波数毎にのみが変更可能であり、母音開始周波数の値に応じて子音開始周波数が自動的に設定されるが、音素表記毎に基本周波数を設定可能な編集画面を構成してもよい（図１１参照）。

さらに、音素表記内に基本周波数が編集可能な基本周波数編集点８８０をさらに設けた編集画面を構成してもよい（図１２参照）。また、ユーザが音素表記内の座標を自由に指定し、基本周波数編集点８８０を、任意の位置に配置出来るような機能を設けてもよい。

以上、第１の実施形態について説明した。第１の実施形態によれば、韻律パラメータをグラフで視認・編集操作することが可能な、韻律パラメータ編集画面が提供される。これにより、専門知識が乏しいユーザであっても、韻律を視覚的、かつ直感的に簡便な操作で調整することが可能である。逆に、専門知識を有するユーザであっても、韻律パラメータの値を具体的に指定することができ、予め定められた韻律パターンに限定されない。このように、本願発明は、ユーザビリティを向上することができる。

以上、本発明について、例示的な実施形態と関連させて記載した。多くの代替物、修正および変形例が当業者にとって明らかであることは明白である。従って、上に記載の本発明の実施形態は、本発明の要旨と範囲を例示することを意図し、限定するものではない。

第一実施形態の音声合成装置の構成を示すブロック図。第一実施形態の音声合成装置の機能構成を示すブロック図作業データ記憶領域の構成を示す概略図。第一実施形態の音声合成装置が行なう全体の処理を示すフローチャート。音声コーパスの構成を示す概略図。中間言語生成処理を説明するフローチャート韻律パラメータ編集処理を説明するフローチャート。テキスト入力画面の表示例を示す概略図。韻律パラメータ編集画面の表示例を示す概略図。編集処理を受付ける韻律パラメータ編集画面の表示例を示した概略図。音素毎に基本周波数を指定可能とした韻律パラメータ編集画面の表示例を示した概略図。音素内に基本周波数を指定可能な点をさらに設けた韻律パラメータ編集画面の表示例を示した概略図。形態素解析データ、音素分析データ、中間言語データの一例を示す説明図。

符号の説明

１０…音声合成装置、１…ＣＰＵ、２…主記憶装置、３…外部記憶装置、４…入力装置、５…表示装置、６…出力装置、７…バス
２０…制御部、２２…設定受付部、２３…韻律パラメータ編集部、２４…中間言語生成部、２５…音声合成部、２６…音声出力部、２７…編集画面生成部
３０…記憶部、３２…辞書データ記憶領域、３３…音声コーパス記憶領域、３４…作業データ記憶領域、７００…辞書
６１０…テキストデータ、６２０…形態素解析データ、６３０…音素解析データ、６４０…基準韻律パラメータ、６５０…更新韻律パラメータ、６６０…検索結果データ、６７０…中間言語データ、６８０…中間言語更新データ
４００…音声コーパス、４１００・４２００…データセット、４１０…文字列表記データ、４２０…音声波形データ、４３０…基本周波数データ、４４０…継続時間長データ、４５０…形態素分割データ、４６０…音素分割データ
６０１…韻律編集ボタン、６０２…入力テキスト設定欄
８００…韻律パラメータ編集画面、８３０…音韻表記文字列、８４０…音素表記文字列、８５０…継続時間長表示シンボル、８６０…基本周波数表示シンボル、８７０…韻律結線シンボル、８８０…基本周波数編集点
９１０…音韻表記、９２０…音素表記、９３０…継続時間長パラメータ、９４０…基本周波数パラメータ

Claims

入力された文字列に対応する音声を合成する音声合成装置であって、
アクセント、継続時間長、および、基本周波数を特定する情報を少なくともパラメータとして含む韻律パラメータと、音声データと、を、韻律制御単位としての音韻表示文字及び音素表示文字の少なくともいずれか一方に対応させて、当該音声制御単位毎に蓄積した音声コーパスを記憶する記憶手段と、
前記入力された文字列を韻律制御単位に分割し、分割された韻律制御単位毎に韻律パラメータを対応付けた中間言語を生成する中間言語生成手段と、
前記韻律パラメータに含まれるパラメータの内、第一パラメータ及び第二パラメータの値をそれぞれ横軸と縦軸に配置した座標を備えるグラフを形成し、前記分割された韻律制御単位毎に第一パラメータと第二パラメータで特定される座標位置に、予め定められた表示シンボルを前記グラフに表示した韻律パラメータ編集画面を生成し、表示手段に表示させる韻律パラメータ編集画面生成手段と、
を備えることを特徴とする音声合成装置。
請求項１に記載の音声合成装置であって、
前記表示手段に表示された前記韻律パラメータ編集画面において、入力手段を介して、前記表示シンボルの座標位置の変位を受け付け、前記表示シンボルが変位された韻律制御単位に対応する前記中間言語の韻律パラメータの値を、変位後の前記表示シンボルの座標位置から特定される韻律パラメータ値に変更する韻律パラメータ書換え手段、
をさらに備えることを特徴とする音声合成装置。
請求項１に記載の音声合成装置であって、
前記第一パラメータが継続時間長であり、第二パラメータが基本周波数であること、
を特徴とする音声合成装置。
請求項１または３に記載の音声合成装置であって、
前記韻律パラメータ編集画面生成手段は、
横軸方向へ、音韻制御単位として、音韻表記文字列、音素表記文字列、又はその両方をさらに展開して表示する韻律パラメータ編集画面を生成すること、
を特徴とする音声合成装置。
請求項３または４に記載の音声合成装置であって、
前記韻律パラメータ編集画面生成手段は、
横軸に対応する継続時間長パラメータを表す第一の表示シンボルと、縦軸に対応する基本周波数パラメータを表す第二の表示シンボルと、隣接する前記第二の表示シンボルを互いに結んだ結線と、を前記韻律制御単位に対応付けて表示する韻律パラメータ編集画面を生成し、
前記第一の表示シンボルは、継続時間長パラメータ値に対応する座標に、前記第二の表示シンボルは、前記第一の表示シンボル上で、基本周波数パラメータ値に対応する座標にそれぞれ配置されること、
を特徴とする音声合成装置。
コンピュータを、入力された文字列に対応する音声を合成する音声合成装置として機能させるプログラムであって、
前記コンピュータを、
アクセント、継続時間長、および、基本周波数を特定する情報を少なくともパラメータとして含む韻律パラメータと、音声データと、を、韻律制御単位としての音韻表示文字及び音素表示文字の少なくともいずれか一方に対応させて、当該音声制御単位毎に蓄積した音声コーパスを記憶する記憶手段、
前記入力された文字列を韻律制御単位に分割し、分割された韻律制御単位毎に韻律パラメータを対応付けた中間言語を生成する中間言語生成手段、
前記韻律パラメータに含まれるパラメータの内、第一パラメータ及び第二パラメータの値をそれぞれ横軸と縦軸に配置した座標を備えるグラフを形成し、前記分割された韻律制御単位毎に第一パラメータと第二パラメータで特定される座標位置に、予め定められた表示シンボルを前記グラフに表示した韻律パラメータ編集画面を生成し、表示手段に表示させる韻律パラメータ編集画面生成手段、
として機能させることを特徴とするプログラム。
請求項６に記載のプログラムであって、
前記コンピュータを、
前記表示手段に表示された前記韻律パラメータ編集画面において、入力手段を介して、前記表示シンボルの座標位置の変位を受け付け、前記表示シンボルが変位された韻律制御単位に対応する前記中間言語の韻律パラメータの値を、変位後の前記表示シンボルの座標位置から特定される韻律パラメータ値に変更する韻律パラメータ書換え手段、
としてさらに機能させることを特徴とするプログラム。
アクセント、継続時間長、および、基本周波数を特定する情報を少なくともパラメータとして含む韻律パラメータと、音声データと、を、韻律制御単位としての音韻表示文字及び音素表示文字の少なくともいずれか一方に対応させて、当該音声制御単位毎に蓄積した音声コーパスを記憶する記憶手段を備え、入力された文字列に対応する音声を合成する音声合成装置における音声合成方法であって、
前記音声合成装置の中間言語生成手段が、前記入力された文字列を韻律制御単位に分割し、分割された韻律制御単位毎に韻律パラメータを対応付けた中間言語を生成する過程と、
前記音整合性装置の韻律パラメータ編集画面生成手段が、前記韻律パラメータに含まれるパラメータの内、第一パラメータ及び第二パラメータの値をそれぞれ横軸と縦軸に配置した座標を備えるグラフを形成し、前記分割された韻律制御単位毎に第一パラメータと第二パラメータで特定される座標位置に、予め定められた表示シンボルを前記グラフに表示した韻律パラメータ編集画面を生成し、表示手段に表示させる過程と、
を備えることを特徴とする音声合成方法。
請求項８に記載の音声合成方法であって、
前記音声合成装置の韻律パラメータ書換手段が、前記表示手段に表示された前記韻律パラメータ編集画面において、入力手段を介して、前記表示シンボルの座標位置の変位を受け付け、前記表示シンボルが変位された韻律制御単位に対応する前記中間言語の韻律パラメータの値を、変位後の前記表示シンボルの座標位置から特定される韻律パラメータ値に変更する過程、
をさらに備えることを特徴とする音声合成方法。