JP2008268477A - 韻律調整可能な音声合成装置 - Google Patents
韻律調整可能な音声合成装置 Download PDFInfo
- Publication number
- JP2008268477A JP2008268477A JP2007110287A JP2007110287A JP2008268477A JP 2008268477 A JP2008268477 A JP 2008268477A JP 2007110287 A JP2007110287 A JP 2007110287A JP 2007110287 A JP2007110287 A JP 2007110287A JP 2008268477 A JP2008268477 A JP 2008268477A
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- prosodic
- speech
- prosody
- display
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000033764 rhythmic process Effects 0.000 title abstract 7
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 25
- 238000006073 displacement reaction Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 7
- 238000001308 synthesis method Methods 0.000 claims 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 9
- 238000003786 synthesis reaction Methods 0.000 abstract description 9
- 238000004458 analytical method Methods 0.000 description 25
- 238000013500 data storage Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 10
- 230000000877 morphologic effect Effects 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002789 length control Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】韻律調整用のGUIを備えるユーザフレンドリな音声合成装置を提供する。
【解決手段】音声合成装置は、入力されたテキストデータから、韻律パラメータを付された中間言語を生成する中間言語生成部24と、前記中間言語に付された韻律パラメータの値をグラフ化し、編集可能な編集画面を生成する編集画面生成部27と、設定受付部22を介して、編集画面のグラフ上に表示された表示シンボルを変位させ、韻律パラメータの値を指定された値に書換える事韻律パラメータ編集部23と、書換えられた韻律パラメータに基づいて波形を合成する音声合成部25と、前記合成波形を、出力装置を介して出力させる音声出力部26と、を備える。
【選択図】図2
【解決手段】音声合成装置は、入力されたテキストデータから、韻律パラメータを付された中間言語を生成する中間言語生成部24と、前記中間言語に付された韻律パラメータの値をグラフ化し、編集可能な編集画面を生成する編集画面生成部27と、設定受付部22を介して、編集画面のグラフ上に表示された表示シンボルを変位させ、韻律パラメータの値を指定された値に書換える事韻律パラメータ編集部23と、書換えられた韻律パラメータに基づいて波形を合成する音声合成部25と、前記合成波形を、出力装置を介して出力させる音声出力部26と、を備える。
【選択図】図2
Description
本発明は、テキストから音声を合成するテキスト音声合成技術に関し、特に、基本周波数、継続時間長等の韻律を調整する技術に関する。
近年、テキストからの音声合成を行なうシステムでは、より高品位な音声を得るために、自然音声から音声素片(音声波形の断片)を切り出して、その特徴を蓄積した音声コーパスを利用する方法が知られている。音声の特徴には、ピッチを示す基本周波数、各音素の長さを示す音素継続時間長等の韻律パラメータが含まれる。これらを蓄積した音声コーパスから、任意の基準を用いて音声素片を抽出することで、自然な音声が合成される。
しかしながら、そのような従来の方法は、ユーザが選択した関連語句を基に、予め設定された韻律パラメータ中から最適と想定されるものを選択し、自動的に修正するものである。従って、関連語句を指定しても、想定している発音に修正されない場合がある。また、共起データ中に該当の関連語句が無い場合も同様である。
特許文献1には、ユーザが韻律パラメータ、例えば、継続時間長や基本周波数の情報を含んだ中間言語を調整可能な編集手段を備える音声合成装置が提案されている。これは、修正対象とする語句に関連する語句が、その読み、韻律の情報と共に、共起データとして予め記憶されており、UI(User Interface)を用いて、関連する共起データの一覧表示が可能となっている。ユーザがその中から最適な関連語句を選択することで、修正対象とする語句の読み、抑揚が、より自然なものに修正される。
しかしながら、上述したような従来の方法は、ユーザが選択した関連語句を基に、予め設定された韻律パラメータ中から最適と想定されるものを選択し、自動的に修正するものである。従って、関連語句を指定しても、想定している発音に修正されない場合がある。また、共起データ中に該当の関連語句が無い場合も同様である。
本発明では、上記従来技術の問題点を解決するために、韻律パラメータを画面上で視認、操作が可能であり、専門的知識を有しないユーザでも、韻律パラメータの編集操作が簡便に行える、ユーザフレンドリなGUI(Graphical User Interface)を提供することを目的とする。
以上の課題を解決するため、本発明は、前記入力された文字列についての韻律パラメータを、音声コーパスから取得して、前記入力された文字列に前記韻律パラメータを韻律制御単位ごとに対応付け、中間言語を生成する中間言語生成手段と、前記生成した中間言語に含まれる韻律パラメータから、横軸に対応する第一の韻律パラメータと、縦軸に対応する第二の韻律パラメータを定義して構成されるグラフを描出し、前記中間言語の韻律制御単位ごとの座標に、予め記憶された表示シンボルを、グラフ上に配置して、接続される表示装置の画面上に表示させ、韻律パラメータの編集画面を生成する、韻律パラメータ編集画面生成手段と、を備えることを特徴とする、音声合成装置が提供される。
以下、本発明の実施形態について、図面を参照して説明する。
まず、図1〜図3を参照して、本発明の実施形態の概略について説明する。図1は、本発明の請求項1の音声合成装置のハードウェアシステム構成を示すブロック図である。
まず、図1〜図3を参照して、本発明の実施形態の概略について説明する。図1は、本発明の請求項1の音声合成装置のハードウェアシステム構成を示すブロック図である。
図1に示すように、音声合成装置10は、プログラムが動作する一般的なコンピュータであり、例えば、パーソナルコンピュータや、ワークステーションである。すなわち、音声合成装置10は、コンピュータの主要部であって各装置を集中的に制御するCPU(Central Processing Unit)1と、各種データを書換え可能に記憶する主記憶装置2を備える。
さらに、音声合成装置10は、各種のプログラム、プログラムの生成するデータ等を格納する外部記憶装置3、各種操作指示を行うためのキーボードやマウスなどの入力装置4、画像データ等を表示する表示装置5、音声データ等を音声として出力する出力装置6を備える。これらの各装置はバスなどの信号線7を介してCPU1と接続される。もちろん、他に、外部の装置と通信を行うための通信装置を備えていてもよい。外部記憶装置3は、例えばHDD(Hard Disk Drive)を備える。
CPU1は、例えば、外部記憶装置3上に格納されたプログラムを主記憶装置2上にロードして実行することにより、各種処理を実行する。外部記憶装置3は、HDDのみに限定されず、配布されたプログラムであるコンピュータソフトウェアを読み取るための機構として、CD−ROM、DVD−ROM等のドライブをさらに備えても良い。もちろん、プログラムは、例えば、通信装置を介してネットワークから外部記憶装置3にダウンロードされ、それから、主記憶装置2上にロードされてCPU1により実行されるようにしてもよい。
入力装置4は、テキストを入力するためのテキスト入力装置、また、GUI上の目的の動作を示すグラフィクスを操作するためのポインティングデバイスを含む。テキスト入力装置は、文字列が入力できる装置であれば、例えばキーボード、音声認識装置、または、文字列の読み込み装置等であってもよい。ポインティングデバイスは、例えばマウスや、画面に直接接触するようなタッチパネルであっても良い。
表示装置5のディスプレイは、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)等から選択される。
出力装置6は、CPUから送られる音声データを音声に変換して出力するものであれば、外部スピーカのような外部出力装置であっても良い。
図2は、上記のハードウェアで構成される音声合成装置10の機能構成を示すブロック図である。なお、本実施形態では、音声合成装置10は、基本的なGUI編集機能を備えているものとする。
本図に示すように、音声合成装置10上には、制御部20及び記憶部30が構築される。制御部20は、設定受付部22、韻律パラメータ編集部23、中間言語生成部24、音声合成部25、音声出力部26、及び、編集画面生成部27を備える。また、記憶部30は、辞書データ記憶領域32、音声コーパス記憶領域33、及び、作業データ記憶領域34を備える。
これらの機能は、例えば、CPU1が補助記憶装置3に予め記憶されている所定のプログラムを主記憶装置2にロードして実行することにより、または、ハードウェアを制御することにより、またはそれらの組合せにより実現される。記憶部30は、データを継続的に保持する場合は外部記憶装置3を、データを一時的に保持する場合は主記憶装置2を用いることにより実現される。
設定受付部22は、GUI上のユーザによる操作、例えば、テキストデータの入力やカーソル・ポインタの移動などを、入力装置4を介して受け付ける。
韻律パラメータ編集部23は、設定受付部22を介して、韻律パラメータ編集に係る操作を受け付ける。そして、韻律パラメータに対応付けられた表示シンボルの位置の変更を検出し、その変位量と変位方向から韻律パラメータの値を算出して、新しい韻律パラメータを中間言語に付与する。
中間言語生成部24は、設定受付部22を介して、入力されたテキストデータを受け付ける。そして、受け付けたテキストデータを、辞書データ700等に基づいて、単語に分割し、それらの読み・アクセント情報や、アクセント句の情報を含む形態素解析データを生成して、該入力テキストデータに韻律が類似するデータを、外部記憶装置に格納された音声コーパス400より検索、抽出する。さらに、それに基づいて基準韻律パラメータを算出して中間言語データを生成する処理を行なう。
音声合成部25は、中間言語生成部24が生成した中間言語データに基づいて、出力音声波形を合成し、合成波形データを生成する。
音声出力部26は、生成された合成波形データを、出力装置6を介して、実際の音声データとして出力する。
音声出力部26は、生成された合成波形データを、出力装置6を介して、実際の音声データとして出力する。
編集画面生成部27は、生成された中間言語に含まれる韻律パラメータ情報をグラフ化し、ユーザが音声合成の作業を行うための画面、例えば、テキスト入力画面や韻律パラメータ編集画面を生成し、表示装置5に表示する。
辞書データ記憶領域32は、単語の読み、アクセント情報等を記憶する辞書700を、予め格納する。
音声コーパス記憶領域33は、図5に示すように、単語、アクセント句や文節単位の文字列群と、その基本周波数や継続時間長等の韻律パラメータ、音声データ等を対応付けた情報を、予めデータベースとして蓄積する、音声コーパスを格納する。具体的には、例えば、図5に示すように、文字列表記データ410、文字列表記データ410の発声音である音声波形データ420、音声波形データ420の基本周波数データ430、音声波形データ420の継続時間長データ440、文字列表記データ410の形態素分割結果である形態素分割データ450、文字列表記データ410の音素分割結果である音素分割データ460から構成されるデータセット(4100、4200…n)を、複数備えている。なお、構成エレメントの内容は上記に限定されず、パワーデータやケプストラムデータ等を含んでいても良い。
作業データ記憶領域34は、入力されたテキストデータや、韻律パラメータ編集部23、中間言語生成部24が生成した中間データなどを一時的に格納するための領域である。具体的には、図3に示すように、テキストデータ610、形態素解析データ620、音素解析データ630、基準韻律パラメータ640、更新韻律パラメータ650、検索結果データ660、中間言語データ670、中間言語更新データ680の各種データを格納する領域である。
次に、上述した機能で構成される音声合成装置の動作を、フロー図を参照しながら説明する。
図4は、テキストデータの入力を受け付けてから波形合成を行うまでの処理の流れを示すフロー図である。ここでは、「雨が降る。」というテキストデータを例にとって説明する。
先ず、設定受付部22は、音声合成の対象のテキストデータを受け付ける(S1)。
具体的には、設定受付部22は、図8に示すテキスト入力画面を表示装置5に表示する。
ここで、テキスト入力画面(図8)の構成を説明する。テキスト入力画面は、韻律編集ボタン601と、入力テキスト設定欄602を備える。韻律編集ボタン601は、韻律パラメータ編集を開始するためのボタンである。入力テキスト設定欄602は、音声合成の対象となるテキストデータを設定するための欄である。
上記のテキスト入力画面を表示した後、設定受付部22は、テキスト入力画面上のユーザの操作を、入力装置4を介して受け付ける。入力テキスト設定欄602にテキストデータが入力されると、設定受付部22は、該テキストデータを作業データ記憶領域34上のテキストデータ610に格納する。すなわち、テキストデータ「雨が降る。」が、テキストデータ610に格納される(S1)。
もちろん、テキストデータの受付方法は上記に限られない。例えば、設定受付部22は、上記のテキスト入力画面の前段階に、複数の文で構成される文章のテキストデータの入力を受け付けるGUI画面を表示する。そして、入力された文章のテキストデータを該画面に表示し、ユーザに韻律調整の対象の1文を選択させてから、上記のテキスト入力画面を表示し、選択された1文を表示させる構成とすることができる。
次に、中間言語生成部24は、入力テキストデータが設定されると、入力テキストより中間言語を生成する(S2)。
ここで、中間言語生成処理(S2)について、図6を用いて詳しく説明する。
中間言語生成部24は、作業データ記憶領域34上のテキストデータ610に格納されたテキストデータ「雨が降る。」を読み出す(S101)。
次に、中間言語生成部24は、形態素解析処理を実行する(S102)。具体的には、形態素解析部24は、読み出したテキストデータを意味がわかる最小の単位(形態素)に分割する。そして、分割した形態素毎に、表記、読み、アクセント情報などで構成される形態素解析データを生成し、該データを作業データ記憶領域34上の形態素解析データ620に格納する。単語毎の読み及びアクセント情報は、予め辞書700に登録されている値を使用する。テキストデータを単語(形態素)に分割する方法としては、清水らによる「隣接単語間の結合関係に着目したテキスト音声変換用形態素解析処理、日本音響学会誌、51巻、1号、pp.3−13、1995」に記載の処理を利用することができる。勿論、該方法は一例であり、他の処理方法を用いても良い。
上記のようにして、中間言語生成部24は、図13(A)のテキストデータ「雨が降る。」から、図13(B)に示すような形態素解析データを生成する。すなわち、単語毎のデータ「雨」「が」「降」「る」「。」に分割し、読み・アクセント情報「ア´メ」「カ゜」「フ´」「ル」「.」(「´」はアクセント、「゜」は鼻濁音を示す)をそれぞれ対応付ける。また、アクセント句の区切りを示す情報「/」を付加する。なお、「ア´メカ゜/フ´ル.」は、発音記号列に相当するものである。もちろん、形態素の構造は上記のものに限られない。
次に、中間言語生成部24は、音素分割処理を実行する(S103)。まず、形態素解析データ620を読み出し、該データに含まれる読みの情報を基に、意味の区別に用いられる最小の音の単位(音素)に分割し、得られた音素解析データを作業データ記憶領域34上の音素解析データ630に格納する。
音素分割の方法は、例えば、宮崎らによる方法「日本文音声出力のための言語処理方式、情報処理学会論文誌、Vol.27、No.11、pp.1053−1061、1986」を利用することができる。もちろん、該計算方法は一例であり、他の音素分割法を用いても良い。
上記の音素解析により、中間言語生成部24は、テキストデータ「雨が降る。」を、音素に分割し、図13(C)に示される、「A/ME/NG/A/H/U/R/U/.」のような音素データを生成する。ここで、「A」「M」「E」等は音素を示す記号であるが、これらは一例であり、他の音素記号表現を用いてもよい。
次に、中間言語生成部24は、形態素解析データに対して、アクセント型、品詞等の情報が類似するデータセットを、音声コーパス400から検索する処理を行う(S104〜S106)。
中間言語生成部24は、先ず、音声コーパス400から、データセット4100を読み出す(S104)。また、読み出したデータセット4100から、形態素分割データ450を読み出す。
そして、中間言語生成部24は、形態素解析データ620を読み出し(S105)、形態素分割データ450に含まれる、読み・アクセント情報、アクセント型、品詞等のデータと比較し、予め定めた基準で類似度の計算を行う(S106)。
以降、同様に、中間言語生成部24は、全てのデータセット(4200〜n)について、上記の類似度の計算を行う(S106)。その結果として、予め設定したしきい値(基準類似度)を満たすデータセットのうち、形態素解析データと最も類似するデータセット(以下、選択データセットと呼ぶ。)を1つ選択する。
次に、中間言語生成部24は、形態素解析データ620について、韻律パラメータの算出を行う(S107)。
具体的には、中間言語生成部24は、形態素解析データ620と、選択データセットの形態素分割データ450とを比較し、形態素毎に一致部と不一致部とに分離する。そして、一致部の形態素には、選択データセットの韻律パラメータ(基本周波数データ430、継続時間長データ440)を付与する。不一致部の形態素の基本周波数データは、形態素のモーラ数とアクセント型等に対して1つの基本周波数データを記憶している単語基本周波数パタンテーブルから検索して算出する。また、継続時間長は、匂坂らによる、「規則による音声合成のための音韻時間長制御、電子情報通信学会論文誌、Vol.J67−A、No.7、pp.629−636、1984」を利用して算出することができる。その後、中間言語生成部24は、一致部と不一致部の韻律パラメータを滑らかに接続するために、不一致部を変形統合する処理を行なう。
このようにして求めた韻律パラメータを、中間言語生成部24は、作業データ記憶領域34上の基準韻律パラメータ640に格納する。なお、韻律パラメータの算出方法は上記に限られない。音素ごとの継続時間長を求めるには、例えば、予めデータベースとして保持された、音素ごとの継続時間が記録されたテーブルや、付与対象となる音素の前後1音素までの環境要因を考慮した継続時間が記録されたテーブルを参照する方法を利用できる。また、音素ごと基本周波数を求めるには、二次臨界制動モデルと呼ばれる指数関数による曲線でモデル化する方法や矩形でモデル化する方法を利用できる。
次に、中間言語生成部24は、形態素解析データ620と、音素解析データ630と、基準韻律パラメータ640とを基に、中間言語データを生成し、作業データ記憶領域34上の中間言語データ670に格納する(S108)。
具体的には、中間言語生成部24は、図13(D)に示すような中間言語データを生成する。すなわち、基準形態素解析データに含まれる発音記号列を分割して、「ア」「メ」「カ゜」「/」「フ」「ル」「.」の音韻表記から成るデータ列を生成する。そして、それぞれの文字の音素毎に、基本周波数及び継続時間長のデータを付与する。例えば、「メ」は、基本周波数「283」・継続時間長「51」の音素「M」と、基本周波数「252」・継続時間長「89」の音素「E」とから構成される。
以上のようにして、中間言語生成部24は、中間言語生成処理(S2)を終了する。
次に、韻律パラメータの編集処理(S3)について図7を用いて説明する。
まず、設定受付部22は、テキスト入力画面(図8)上で、韻律編集ボタン601のクリックを受け付ける(S310)。すると、編集画面生成部27が、編集画面生成処理を開始する。
編集画面生成部27は、ユーザ可変の表示シンボルを備える、図9に示すような韻律パラメータ編集画面800を生成する(S312)。まず、中間言語データ670を作業データ記憶領域34から読み出す(S311)。そして、音韻表記910と、音素表記920を抽出する(図13(D)参照)。まず、音韻表記910を、横軸方向へ、音韻表記文字列830として展開し(図9)、対応する音素表記920を、音素表記文字列840として、さらに展開する。
次に、編集画面生成部27は、中間言語データ670から、継続時間長パラメータ930と、基本周波数パラメータ940を抽出する。
さらに、上記展開された音韻表記文字列830と、音素表記文字列840に対応する、前記継続時間長パラメータ930を横軸に、基本周波数パラメータ940を縦軸に対応付け、韻律パラメータのグラフ化を実行する。
次に、編集画面生成部27は、音素表記文字列840の、文字ごとの開始点となる、横軸(継続時間長パラメータ930)の座標に、縦軸方向に延びる継続時間長表示シンボル850を、継続長の調整単位である音素表記文字列840の文字を区切るように配置する。(便宜上、一箇所のシンボルにのみ符号を付した。以下同様。)
編集画面生成部27は、音韻表記文字列830の、文字ごとの開始点となる横軸座標配置された、上記継続時間長表示シンボル850上に、基本周波数表示シンボル860を、基本周波数パラメータの値に従って配置する。さらに、隣接する基本周波数表示シンボル860同士を結んだ線を、韻律結線シンボル870として生成する。
編集画面生成部27は、音韻表記文字列830の、文字ごとの開始点となる横軸座標配置された、上記継続時間長表示シンボル850上に、基本周波数表示シンボル860を、基本周波数パラメータの値に従って配置する。さらに、隣接する基本周波数表示シンボル860同士を結んだ線を、韻律結線シンボル870として生成する。
ここで、継続時間長表示シンボル850は、図9中に矢示線Xで示される横軸方向へ、基本周波数表示シンボル860は、図中の矢示線Yで示される縦軸方向へ、予め設定された基準値の範囲内において、入力装置4を介したスライド操作が可能に構成されている。継続時間長表示シンボル850は、左側に隣接する850との幅を変更可能であり、対応する表記文字の継続時間長を増減することが出来る。基本周波数シンボル860は、継続時間長表示シンボル850上でスライド操作が可能であり、対応する表記文字の基本周波数を増減させることが可能である。図中の矢示線X、Yは操作範囲を示すものではなく、単に操作方向を示すものである。
編集画面生成部27は、横軸の継続時間長はミリ秒(1pixel=1ms)を、縦軸の周波数はHz(対象データの最小周波数×0.8〜最大周波数÷0.75)を単位として構成し、韻律編集画面800を生成する。なお、ここではこのような単位を用いたが、勿論、他の単位を用いてグラフを生成してもよい。
また、韻律パラメータ編集画面800が表示装置の画面内に入りきらない場合には、スクロールバーを構成し、画面の左右スライド操作が可能となるように構成する。なお、画面切り替え手段は、スクロールバーに限られず、ページ切り替えや、圧縮して全体を表示する機能を設けてもよい。
以上のように生成された韻律パラメータ編集画面800を、編集画面生成部27は、GUIを用いて表示装置5に表示する。
設定受付部22は、表示シンボルの移動操作を受付ける(S321)。
まず、設定受付部22は、上記表示シンボルが、入力装置2を介して移動操作されたことを検出する。
継続時間長表示シンボル850上で、入力装置4のポインティングデバイスである、マウスによるクリック操作を検出すると、設定受付部22は、850の矢示線X方向への、ドラッグによるスライド操作の受付けを開始する。次に、矢示線X方向へのスライド操作を検出すると、韻律パラメータ編集部23は、スライド後の継続時間長表示シンボル850の変位量と、スライド方向についての情報を取得する。さらに、スライド方向と変位量によって定まる書換え値を、横軸座標の単位に基づいて算出する。
基本周波数の変更についても同様に、基本周波数表示シンボル860上にマウスによるクリック操作を検出すると、韻律パラメータ編集部23は、860の矢示線Y方向へ、ドラッグによるスライド操作の受付けを開始する。次に、矢示線Y方向へのスライド操作を検出すると、スライド後の基本周波数表示シンボル860の変位量と、スライド方向についての情報を取得する。さらに、スライド方向と変位量によって定まる書換えを縦軸座標の単位に基づいて算出する。
ここで、ポインティングデバイスを介した操作は、ここではマウスによるものを使用したが、勿論、タッチパネルへのタッチアクション等を用いてもよい。
図10を参照して、韻律パラメータの書換え値の算出処理を具体的に説明する。矢示線A→A’は、継続時間長表示シンボル850の変位を示す。まず、設定受付部22がポインティングデバイスを介した矢示方向A→A’へのスライド操作を受付ける。すると、韻律パラメータ編集部23は、操作対象である継続時間長表示シンボル850と、それ以降の横軸座標の全ての音韻表記、音素表記、及び、表示シンボル(継続時間長表示シンボル850、基本周波数表示シンボル860、韻律結線シンボル870)を、矢示線A→A’のスライド方向へ、同様の変位量、変位して表示する。
ここで、A→A’へのスライド操作において、X軸座標のスライド方向は−であるから、変位量は、−(A’−A)で表される(単位はX軸座標のピクセル値)。よって、この場合は、1ピクセル=1ミリ秒として設定されているので、韻律パラメータ編集部23は、X軸座標のピクセル変位量と同値のミリ秒を、対応する音素表記の継続時間長(A−A0)から減じて、継続時間長パラメータの書換え値を算出する。
さらに、矢示線B→B’ は、基本周波数表示シンボル860の変位を示す。まず、設定受付部22が、ポインティングデバイスを介した矢示方向B→B’へのスライド操作を受付ける。すると、韻律パラメータ編集部23は、操作対象の基本周波数表示シンボル860を、B’座標に変位して表示する。860の変位に従って、韻律結線シンボル870も同時に変位する。
ここで、B→B’のスライド操作において、Y軸座標のスライド方向は+であるから、変位量は、(B’−B)で表される(単位はY軸座標のピクセル値)。韻律パラメータ編集部23は、この変位量に、グラフのY軸範囲(対象データの最小周波数×0.8〜最大周波数÷0.75)により定まる、1ピクセルに対応する周波数を表す係数(Hz/pixel)を乗じて、基本周波数値を算出する。これを、対応する音韻表記の基本周波数Bに加算して、基本周波数パラメータの書換え値を算出する。
韻律パラメータ編集部23は、以上の処理から算出された、継続時間長、基本周波数、および、フレーズ区切りの継続時間長の各パラメータの書換え値が、予め定められた基準値の範囲内にあることを確認する。
韻律パラメータ編集部23は、書換え値が予め定められた範囲外である場合には、画面上にエラー画面を表示させる(S145)。例えば、エラー画面には「周波数は〜Hz以内に設定してください。」「継続長は〜ms以上に設定してください。」等のエラーメッセージが表示される。
継続時間長についてのエラーメッセージ表示と同時に、韻律パラメータ編集部23は、書換え値が上限値を超過している場合には上限値の座標、下限値を超過している場合には下限値の座標に、継続時間長表示シンボル850を変位させる処理を実行する。基本周波数については、エラーメッセージの表示要因となる、基準値を超過するスライド操作が行なわれる直前の座標に、基本周波数表示シンボル860を変位させる処理を実行する。
書換え値が基準値内にある場合、韻律パラメータ編集部23は、書換え値を更新韻律パラメータ650として、作業データ記憶領域34上に格納する。さらに、中間言語データ670の韻律パラメータを、更新韻律パラメータ650の値に書き換える、書き換え処理を行なう(S324)。これにより、更新された中間言語データを、中間言語更新データ680として作業データ記憶領域34上に格納する(S325)。
以上のようにして実行された韻律パラメータ編集処理によって生成された中間言語更新データ680から、音声合成部25は、波形合成を実行する(S4)。さらに、合成波形は、音声出力部26によって、出力装置6を介して出力される。
本実施形態では、基本周波数は音韻表記毎、すなわち、母音開始周波数毎にのみが変更可能であり、母音開始周波数の値に応じて子音開始周波数が自動的に設定されるが、音素表記毎に基本周波数を設定可能な編集画面を構成してもよい(図11参照)。
さらに、音素表記内に基本周波数が編集可能な基本周波数編集点880をさらに設けた編集画面を構成してもよい(図12参照)。また、ユーザが音素表記内の座標を自由に指定し、基本周波数編集点880を、任意の位置に配置出来るような機能を設けてもよい。
以上、第1の実施形態について説明した。第1の実施形態によれば、韻律パラメータをグラフで視認・編集操作することが可能な、韻律パラメータ編集画面が提供される。これにより、専門知識が乏しいユーザであっても、韻律を視覚的、かつ直感的に簡便な操作で調整することが可能である。逆に、専門知識を有するユーザであっても、韻律パラメータの値を具体的に指定することができ、予め定められた韻律パターンに限定されない。このように、本願発明は、ユーザビリティを向上することができる。
以上、本発明について、例示的な実施形態と関連させて記載した。多くの代替物、修正および変形例が当業者にとって明らかであることは明白である。従って、上に記載の本発明の実施形態は、本発明の要旨と範囲を例示することを意図し、限定するものではない。
10…音声合成装置、1…CPU、2…主記憶装置、3…外部記憶装置、4…入力装置、5…表示装置、6…出力装置、7…バス
20…制御部、22…設定受付部、23…韻律パラメータ編集部、24…中間言語生成部、25…音声合成部、26…音声出力部、27…編集画面生成部
30…記憶部、32…辞書データ記憶領域、33…音声コーパス記憶領域、34…作業データ記憶領域、700…辞書
610…テキストデータ、620…形態素解析データ、630…音素解析データ、640…基準韻律パラメータ、650…更新韻律パラメータ、660…検索結果データ、670…中間言語データ、680…中間言語更新データ
400…音声コーパス、4100・4200…データセット、410…文字列表記データ、420…音声波形データ、430…基本周波数データ、440…継続時間長データ、450…形態素分割データ、460…音素分割データ
601…韻律編集ボタン、602…入力テキスト設定欄
800…韻律パラメータ編集画面、830…音韻表記文字列、840…音素表記文字列、850…継続時間長表示シンボル、860…基本周波数表示シンボル、870…韻律結線シンボル、880…基本周波数編集点
910…音韻表記、920…音素表記、930…継続時間長パラメータ、940…基本周波数パラメータ
20…制御部、22…設定受付部、23…韻律パラメータ編集部、24…中間言語生成部、25…音声合成部、26…音声出力部、27…編集画面生成部
30…記憶部、32…辞書データ記憶領域、33…音声コーパス記憶領域、34…作業データ記憶領域、700…辞書
610…テキストデータ、620…形態素解析データ、630…音素解析データ、640…基準韻律パラメータ、650…更新韻律パラメータ、660…検索結果データ、670…中間言語データ、680…中間言語更新データ
400…音声コーパス、4100・4200…データセット、410…文字列表記データ、420…音声波形データ、430…基本周波数データ、440…継続時間長データ、450…形態素分割データ、460…音素分割データ
601…韻律編集ボタン、602…入力テキスト設定欄
800…韻律パラメータ編集画面、830…音韻表記文字列、840…音素表記文字列、850…継続時間長表示シンボル、860…基本周波数表示シンボル、870…韻律結線シンボル、880…基本周波数編集点
910…音韻表記、920…音素表記、930…継続時間長パラメータ、940…基本周波数パラメータ
Claims (9)
- 入力された文字列に対応する音声を合成する音声合成装置であって、
アクセント、継続時間長、および、基本周波数を特定する情報を少なくともパラメータとして含む韻律パラメータと、音声データと、を、韻律制御単位としての音韻表示文字及び音素表示文字の少なくともいずれか一方に対応させて、当該音声制御単位毎に蓄積した音声コーパスを記憶する記憶手段と、
前記入力された文字列を韻律制御単位に分割し、分割された韻律制御単位毎に韻律パラメータを対応付けた中間言語を生成する中間言語生成手段と、
前記韻律パラメータに含まれるパラメータの内、第一パラメータ及び第二パラメータの値をそれぞれ横軸と縦軸に配置した座標を備えるグラフを形成し、前記分割された韻律制御単位毎に第一パラメータと第二パラメータで特定される座標位置に、予め定められた表示シンボルを前記グラフに表示した韻律パラメータ編集画面を生成し、表示手段に表示させる韻律パラメータ編集画面生成手段と、
を備えることを特徴とする音声合成装置。 - 請求項1に記載の音声合成装置であって、
前記表示手段に表示された前記韻律パラメータ編集画面において、入力手段を介して、前記表示シンボルの座標位置の変位を受け付け、前記表示シンボルが変位された韻律制御単位に対応する前記中間言語の韻律パラメータの値を、変位後の前記表示シンボルの座標位置から特定される韻律パラメータ値に変更する韻律パラメータ書換え手段、
をさらに備えることを特徴とする音声合成装置。 - 請求項1に記載の音声合成装置であって、
前記第一パラメータが継続時間長であり、第二パラメータが基本周波数であること、
を特徴とする音声合成装置。 - 請求項1または3に記載の音声合成装置であって、
前記韻律パラメータ編集画面生成手段は、
横軸方向へ、音韻制御単位として、音韻表記文字列、音素表記文字列、又はその両方をさらに展開して表示する韻律パラメータ編集画面を生成すること、
を特徴とする音声合成装置。 - 請求項3または4に記載の音声合成装置であって、
前記韻律パラメータ編集画面生成手段は、
横軸に対応する継続時間長パラメータを表す第一の表示シンボルと、縦軸に対応する基本周波数パラメータを表す第二の表示シンボルと、隣接する前記第二の表示シンボルを互いに結んだ結線と、を前記韻律制御単位に対応付けて表示する韻律パラメータ編集画面を生成し、
前記第一の表示シンボルは、継続時間長パラメータ値に対応する座標に、前記第二の表示シンボルは、前記第一の表示シンボル上で、基本周波数パラメータ値に対応する座標にそれぞれ配置されること、
を特徴とする音声合成装置。 - コンピュータを、入力された文字列に対応する音声を合成する音声合成装置として機能させるプログラムであって、
前記コンピュータを、
アクセント、継続時間長、および、基本周波数を特定する情報を少なくともパラメータとして含む韻律パラメータと、音声データと、を、韻律制御単位としての音韻表示文字及び音素表示文字の少なくともいずれか一方に対応させて、当該音声制御単位毎に蓄積した音声コーパスを記憶する記憶手段、
前記入力された文字列を韻律制御単位に分割し、分割された韻律制御単位毎に韻律パラメータを対応付けた中間言語を生成する中間言語生成手段、
前記韻律パラメータに含まれるパラメータの内、第一パラメータ及び第二パラメータの値をそれぞれ横軸と縦軸に配置した座標を備えるグラフを形成し、前記分割された韻律制御単位毎に第一パラメータと第二パラメータで特定される座標位置に、予め定められた表示シンボルを前記グラフに表示した韻律パラメータ編集画面を生成し、表示手段に表示させる韻律パラメータ編集画面生成手段、
として機能させることを特徴とするプログラム。 - 請求項6に記載のプログラムであって、
前記コンピュータを、
前記表示手段に表示された前記韻律パラメータ編集画面において、入力手段を介して、前記表示シンボルの座標位置の変位を受け付け、前記表示シンボルが変位された韻律制御単位に対応する前記中間言語の韻律パラメータの値を、変位後の前記表示シンボルの座標位置から特定される韻律パラメータ値に変更する韻律パラメータ書換え手段、
としてさらに機能させることを特徴とするプログラム。 - アクセント、継続時間長、および、基本周波数を特定する情報を少なくともパラメータとして含む韻律パラメータと、音声データと、を、韻律制御単位としての音韻表示文字及び音素表示文字の少なくともいずれか一方に対応させて、当該音声制御単位毎に蓄積した音声コーパスを記憶する記憶手段を備え、入力された文字列に対応する音声を合成する音声合成装置における音声合成方法であって、
前記音声合成装置の中間言語生成手段が、前記入力された文字列を韻律制御単位に分割し、分割された韻律制御単位毎に韻律パラメータを対応付けた中間言語を生成する過程と、
前記音整合性装置の韻律パラメータ編集画面生成手段が、前記韻律パラメータに含まれるパラメータの内、第一パラメータ及び第二パラメータの値をそれぞれ横軸と縦軸に配置した座標を備えるグラフを形成し、前記分割された韻律制御単位毎に第一パラメータと第二パラメータで特定される座標位置に、予め定められた表示シンボルを前記グラフに表示した韻律パラメータ編集画面を生成し、表示手段に表示させる過程と、
を備えることを特徴とする音声合成方法。 - 請求項8に記載の音声合成方法であって、
前記音声合成装置の韻律パラメータ書換手段が、前記表示手段に表示された前記韻律パラメータ編集画面において、入力手段を介して、前記表示シンボルの座標位置の変位を受け付け、前記表示シンボルが変位された韻律制御単位に対応する前記中間言語の韻律パラメータの値を、変位後の前記表示シンボルの座標位置から特定される韻律パラメータ値に変更する過程、
をさらに備えることを特徴とする音声合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007110287A JP2008268477A (ja) | 2007-04-19 | 2007-04-19 | 韻律調整可能な音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007110287A JP2008268477A (ja) | 2007-04-19 | 2007-04-19 | 韻律調整可能な音声合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008268477A true JP2008268477A (ja) | 2008-11-06 |
Family
ID=40048079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007110287A Pending JP2008268477A (ja) | 2007-04-19 | 2007-04-19 | 韻律調整可能な音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008268477A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010060886A (ja) * | 2008-09-04 | 2010-03-18 | Yamaha Corp | 音声処理装置およびプログラム |
JP2012022121A (ja) * | 2010-07-14 | 2012-02-02 | Yamaha Corp | 音声合成装置 |
US20120143600A1 (en) * | 2010-12-02 | 2012-06-07 | Yamaha Corporation | Speech Synthesis information Editing Apparatus |
JP2014038282A (ja) * | 2012-08-20 | 2014-02-27 | Toshiba Corp | 韻律編集装置、方法およびプログラム |
JP2014219695A (ja) * | 2014-07-24 | 2014-11-20 | 株式会社東芝 | 韻律編集装置、方法およびプログラム |
JP5666593B2 (ja) * | 2010-08-05 | 2015-02-12 | 三菱自動車工業株式会社 | 電力需給平準化システムのバッテリ情報出力装置 |
JP2015060002A (ja) * | 2013-09-17 | 2015-03-30 | 株式会社東芝 | 韻律編集装置、方法およびプログラム |
CN103902213B (zh) * | 2012-12-27 | 2017-03-29 | 中国移动通信集团河南有限公司 | 一种文字信息的生成方法和设备 |
CN109246214A (zh) * | 2018-09-10 | 2019-01-18 | 北京奇艺世纪科技有限公司 | 一种提示音获取方法、装置、终端及服务器 |
JP2020166298A (ja) * | 2020-07-01 | 2020-10-08 | ヤマハ株式会社 | 音声合成方法 |
US11495206B2 (en) | 2017-11-29 | 2022-11-08 | Yamaha Corporation | Voice synthesis method, voice synthesis apparatus, and recording medium |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
JP2005215287A (ja) * | 2004-01-29 | 2005-08-11 | Equos Research Co Ltd | 音声合成装置および音声合成方法 |
JP2005345699A (ja) * | 2004-06-02 | 2005-12-15 | Toshiba Corp | 音声編集装置、音声編集方法および音声編集プログラム |
-
2007
- 2007-04-19 JP JP2007110287A patent/JP2008268477A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
JP2005215287A (ja) * | 2004-01-29 | 2005-08-11 | Equos Research Co Ltd | 音声合成装置および音声合成方法 |
JP2005345699A (ja) * | 2004-06-02 | 2005-12-15 | Toshiba Corp | 音声編集装置、音声編集方法および音声編集プログラム |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010060886A (ja) * | 2008-09-04 | 2010-03-18 | Yamaha Corp | 音声処理装置およびプログラム |
JP2012022121A (ja) * | 2010-07-14 | 2012-02-02 | Yamaha Corp | 音声合成装置 |
US9469203B2 (en) | 2010-08-05 | 2016-10-18 | Mitsubishi Jidosha Kogyo Kabushiki Kaisha | Battery information output equipment for power supply and demand leveling system |
JP5666593B2 (ja) * | 2010-08-05 | 2015-02-12 | 三菱自動車工業株式会社 | 電力需給平準化システムのバッテリ情報出力装置 |
US9135909B2 (en) | 2010-12-02 | 2015-09-15 | Yamaha Corporation | Speech synthesis information editing apparatus |
US20120143600A1 (en) * | 2010-12-02 | 2012-06-07 | Yamaha Corporation | Speech Synthesis information Editing Apparatus |
US9601106B2 (en) | 2012-08-20 | 2017-03-21 | Kabushiki Kaisha Toshiba | Prosody editing apparatus and method |
JP2014038282A (ja) * | 2012-08-20 | 2014-02-27 | Toshiba Corp | 韻律編集装置、方法およびプログラム |
CN103902213B (zh) * | 2012-12-27 | 2017-03-29 | 中国移动通信集团河南有限公司 | 一种文字信息的生成方法和设备 |
JP2015060002A (ja) * | 2013-09-17 | 2015-03-30 | 株式会社東芝 | 韻律編集装置、方法およびプログラム |
JP2014219695A (ja) * | 2014-07-24 | 2014-11-20 | 株式会社東芝 | 韻律編集装置、方法およびプログラム |
US11495206B2 (en) | 2017-11-29 | 2022-11-08 | Yamaha Corporation | Voice synthesis method, voice synthesis apparatus, and recording medium |
CN109246214A (zh) * | 2018-09-10 | 2019-01-18 | 北京奇艺世纪科技有限公司 | 一种提示音获取方法、装置、终端及服务器 |
JP2020166298A (ja) * | 2020-07-01 | 2020-10-08 | ヤマハ株式会社 | 音声合成方法 |
JP7180642B2 (ja) | 2020-07-01 | 2022-11-30 | ヤマハ株式会社 | 音声合成方法、音声合成システムおよびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008268477A (ja) | 韻律調整可能な音声合成装置 | |
US8504368B2 (en) | Synthetic speech text-input device and program | |
US8975500B2 (en) | Music data display control apparatus and method | |
US20090204401A1 (en) | Speech processing system, speech processing method, and speech processing program | |
US20100066742A1 (en) | Stylized prosody for speech synthesis-based applications | |
EP2645363B1 (en) | Sound synthesizing apparatus and method | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP2008268478A (ja) | アクセント調整可能な音声合成装置 | |
JP5029884B2 (ja) | 韻律生成装置、韻律生成方法、および、韻律生成プログラム | |
JP4744338B2 (ja) | 合成音声生成装置 | |
JP2008185911A (ja) | 音声合成装置 | |
JP2010169973A (ja) | 外国語学習支援システム、及びプログラム | |
JP4584511B2 (ja) | 規則音声合成装置 | |
JP4326251B2 (ja) | テキスト音声合成装置、並びに、テキスト音声合成方法及びそのプログラム | |
JPH06195326A (ja) | 文書入力方法及び装置 | |
JP2008146019A (ja) | 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法 | |
JP3762300B2 (ja) | テキスト入力処理装置及び方法並びにプログラム | |
JP4841339B2 (ja) | 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム | |
JP5975033B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP6411015B2 (ja) | 音声合成装置、音声合成方法、およびプログラム | |
JP6232724B2 (ja) | 音声合成装置及び言語辞書登録方法 | |
JPH08272388A (ja) | 音声合成装置及びその方法 | |
JP6340839B2 (ja) | 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム | |
JP3093498B2 (ja) | 文書読み上げ装置 | |
JP6727477B1 (ja) | ピッチパターン補正装置、プログラム及びピッチパターン補正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100420 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100617 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110215 |