[go: up one dir, main page]

JPH11249679A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH11249679A
JPH11249679A JP10052361A JP5236198A JPH11249679A JP H11249679 A JPH11249679 A JP H11249679A JP 10052361 A JP10052361 A JP 10052361A JP 5236198 A JP5236198 A JP 5236198A JP H11249679 A JPH11249679 A JP H11249679A
Authority
JP
Japan
Prior art keywords
phoneme
storage unit
unit
fundamental frequency
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10052361A
Other languages
English (en)
Inventor
Tetsuya Sakayori
哲也 酒寄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10052361A priority Critical patent/JPH11249679A/ja
Publication of JPH11249679A publication Critical patent/JPH11249679A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 入力された文字列から定型的なフレーズを合
成音声で読み上げる際の合成音声を、より自然性の音声
に近いものにすること。 【解決手段】 人間が発声したフレーズから抽出した音
韻継続時間長系列、基本周波数系列、振幅あるいはパワ
ーの系列をそれぞれ記憶した、音韻継続時間記憶部、基
本周波数記憶部、振幅記憶部を備え、かつ、音素あるい
は音素連鎖を音韻単位とし音韻情報を音素片としてを記
憶する音素片記憶部を備えた音声合成装置により、入力
文字列にしたがって音素片記憶部から読み出した音素片
系列を、韻律パターン記憶部から読み出した音韻継続時
間長系列にしたがって伸縮して接続し、韻律パターン記
憶部から読み出した基本周波数系列にしたがって基本周
波数付与を行い、その際、基本周波数範囲内に収まるよ
うに正規化を施し、更に、韻律パターン記憶部から読み
出した振幅又はパワー系列にしたがって振幅付与を行っ
て音声を合成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、定型文章と非定型
文章の混在するテキストを音声に変換するような用途に
利用し得る音声合成装置に関するものである。
【0002】
【従来の技術】特開平5−27789号公報には、「音
声合成装置」が記載されている。これは、規則合成、分
析合成、録音再生など異なる方式の合成音声を混在して
用いる場合に、接続部分でオーバーラップ処理を行うも
のである。特開平8−63187号公報には、定型部分
に対して自然音声から抽出した基本周波数と音韻時間長
を用いる「音声合成装置」が開示されている。
【0003】
【発明が解決しようとする課題】従来、音声合成装置の
合成方式には録音編集方式と規則合成方式がある。前者
はアナウンサーなどがフレーズ毎に音声を登録してお
き、これを適宜選択結合してメッセージを作成するもの
で、肉声に近い良好な音声が得られる可能性がある反
面、データ量が多い、登録外のフレーズには対応できな
い、新たにフレーズを追加するために同一話者の確保が
必要であるなどの問題がある。他方、後者は音素や音節
などの細かい単位で音声データを蓄積して任意語彙の合
成を可能とするものであるが、音質的に録音編集方式に
劣り、特に基本周波数、音韻継続時間長、振幅などの韻
律パターンを規則によって付与するためどうしても機械
的で不自然なものになる。
【0004】このため任意語彙の出力が不要な定型的な
メッセージには音質の良い録音編集方式が用いられ、テ
キストからの音声変換が必要な場面では規則合成が用い
られる。しかし、カーナビゲーションの音声案内で定型
的メッセージの中に地名が埋め込まれるなど、定型文の
中に一部任意語彙が埋め込まれるようなアプリケーショ
ンも多く存在する。このような場合、ごく一部の任意語
彙のために全体の音質を落として規則合成を採用する
か、任意語彙の出力を諦めて録音編集方式を用いるか、
あるいは定型部分を録音編集で行い任意語彙部分のみ規
則合成で行うという混在方式を採るかの選択をせざるを
得ない。
【0005】録音編集と規則合成を混在させる場合の問
題点は、2つの方式で出力音声の声質がまったく異なる
ため、聞いていて違和感があるばかりでなく非常に聞取
り難いものとなる点である。前記特開平5−27789
号公報に記載された「音声合成装置」ではこの問題に対
し、異なる方式間の出力音声をオーバーラップさせて接
続することで対処している。しかし、このようにしても
定型部分と任意語部分で話者が変わってしまうことは避
けられず基本的な問題は解決していない。また、オーバ
ーラップ部分では2人の話者が同時に話しているように
なるため聞取り難くなる可能性がある。
【0006】これに対し、前記特開平8−63187号
公報に記載された「音声合成装置」では、定型文にも規
則合成的に音素あるいは音節等をつないで音韻パラメー
タを生成し、これに自然音声から抽出した基本周波数及
び音韻継続時間長を付与することにより、任意語部分と
の話者連続性を保持しつつ自然性を向上している。しか
し、様々な韻律パラメータや音韻パラメータは相互に関
連があり、全体としてバランスを取るように構築されて
いる規則群の一部(基本周波数と音韻継続時間長)だけ
を全く異なる話者特性、発声様式の音声から移植するこ
とは思わぬ不整合を生んで全体の自然性を損なう可能性
がある。例えば、文末にかけて基本周波数は大きく下が
ることがあるが、この時は振幅も十分小さくしないと不
自然に低い声が目立つことになる。また、このような場
合、本来口の開きも小さくなり音声スペクトル自体の変
化があるはずであり、あまりに明瞭な音素片データを用
いることも違和感を生む。さらに音素片データには対応
可能な基本周波数の範囲が存在し、自然音声の基本周波
数パターンはこれよりもダイナミックレンジが広いのが
普通であるため、無理な基本周波数付与により明瞭性の
低下を招く恐れがある。そこで、本発明はこのような問
題点を解決し、定型的フレーズの合成音声の自然性を向
上することを目的とする。
【0007】
【課題を解決するための手段】請求項1の発明は、人間
が発声したフレーズから抽出した音韻継続時間長系列、
基本周波数系列、振幅あるいはパワーの系列をそれぞれ
記憶した、音韻継続時間記憶部、基本周波数記憶部、振
幅記憶部、及び、音素あるいは音素連鎖を音韻単位とし
音韻情報を音素片として記憶する音素片記憶部を具備
し、入力文字列にしたがって音素片記憶部から読み出し
並べた音素片系列を、韻律パターン記憶部から読み出し
た音韻継続時間長系列にしたがって伸縮して接続し、韻
律パターン記憶部から読み出した基本周波数系列にした
がって基本周波数付与を行い、韻律パターン記憶部から
読み出した振幅又はパワー系列にしたがって振幅付与を
行って音声を合成する音声合成装置である。
【0008】請求項2の発明は、請求項1に記載された
音声合成装置において、音素片記憶部に記憶した音素片
セットによって無理なく合成できる基本周波数の範囲を
記憶する基本周波数範囲記憶部を具備し、基本周波数記
憶部から読み出した基本周波数系列に対して、基本周波
数範囲記憶部から読み出した基本周波数範囲内に収まる
ように正規化を施して音声を合成する音声合成装置であ
る。
【0009】請求項3の発明は、請求項1に記載された
音声合成装置において、前記音素片記憶部は一つの音韻
単位に対して適応すべき基本周波数範囲毎に複数の音素
片を記憶しており、前記基本周波数記憶部から読み出し
た基本周波数に対応した音素片を選択的に用いて音声合
成を行う音声合成装置である。
【0010】請求項4の発明は、請求項1に記載された
音声合成装置において、前記音素片記憶部は一つの音韻
単位に対して適応すべき振幅範囲毎に複数の音素片を記
憶しており、基本周波数記憶部から読み出した振幅ある
いはパワーに対応した音素片を選択的に用いて音声合成
を行う音声合成装置である。
【0011】請求項5の発明は、請求項1に記載された
音声合成装置において、前記音素片記憶部は一つの音韻
単位に対して適応すべき音韻継続時間長範囲毎に複数の
音素片を記憶しており、音韻継続時間長記憶部から読み
出した音韻継続時間長に対応した音素片を選択的に用い
て音声合成を行う音声合成装置である。
【0012】
【発明の実施の形態】本発明の音声合成装置の一実施例
について説明する。図1は、この実施例における構成を
示す。図1中、M1は音素あるいは音素連鎖を音韻単位
とし音韻情報を音素片として記憶する音素片記憶部であ
って、一つの音韻単位に対して適応すべき基本周波数範
囲毎に複数の音素片を記憶しており、基本周波数範囲記
憶部M5から読み出した基本周波数に対応した音素片を
選択的に用いる。また、M2,M3,M4はそれぞれ人
間が発声したフレーズから抽出した音韻継続時間長系
列、基本周波数系列、振幅あるいはパワーの系列をそれ
ぞれ記憶した、音韻継続時間長記憶部、基本周波数記憶
部、振幅記憶部を示している。M5は基本周波数範囲記
憶部であって、音素片記憶部M1に記憶された音素片セ
ットによって無理なく合成できる基本周波数の範囲を記
憶している。
【0013】各部の動作について以下に説明する。韻律
パターン選択部1は入力される韻律パターンlD(韻律
パターンを識別する識別子:例えば、番号等によりそれ
に対応するパターンを識別するもの)から音韻継続時間
長、基本周波数、振幅の各パターンを選択する。音素片
選択部2は入力文字列から音素片ラベルを得、また韻律
パターン選択部1で選択された音韻継続時間長、基本周
波数、振幅の各韻律パターンの範囲を参考にして、これ
らの情報を元に音素片記憶部M1から必要な音素片を検
索する。
【0014】図2は、音素片記憶部M1のデータ構造の
一例を示したものである。同一音素ラベル、例えば、
“ア”に対して異なる適用可能韻律パラメータ範囲のデ
ータを複数記憶している。ここに示すように韻律パラメ
ータ範囲は、例えば、時間長範囲の長短、増幅範囲の大
小などカテゴライズされたものでも、基本周波数範囲の
ように下限値と上限値を示すものでもよく、またそれら
が混在していても構わない。表中のデータ欄には実際に
は音素片データ、波形データ及びスペクトルパラメータ
が格納される。この中からラベルの一致するもので韻律
パラメータ範囲が最も近いものを選択する。
【0015】音素片伸縮接続部3は、入力文字列にした
がって音素片選択部2により選択された音素片系列を、
韻律パターン選択部1で選択された音韻継続時間長の範
囲を参考にして、音韻継続時間長記憶部M2から選択さ
れた音韻継続時間長パターンに従って伸縮してそれぞれ
の音素片を接続する。基本周波数範囲記憶部M5には、
音素片記憶部M1に記憶された音素片データセット全体
によってカバーされる基本周波数範囲が記憶されてお
り、基本周波数パターン正規化部4は、基本周波数範囲
記憶部M5から選択された基本周波数パターンがこの範
囲を逸脱している場合に、選択された基本周波数パター
ンをこの範囲に合わせて正規化する。基本周波数付与部
5は、音素片伸縮接続部3で接続された音素片系列パタ
ーンに対して、正規化された基本周波数パターンを付与
する。
【0016】振幅付与部6は接続されかつ基本周波数が
付与された音素片系列パターンに対し、韻律パターン選
択部1で選択された振幅パターンの範囲を参考にして、
振幅記憶部M4から選択された振幅パターンを付与して
合成音声を作成する。なお、音素片の伸縮及び接続、基
本周波数及び振幅の付与に関しては規則音声合成の一般
的技術を用いることが出来るため、ここでは詳細な説明
は省略する。
【0017】
【発明の効果】請求項1に対応する効果:基本的な韻律
パラメータである基本周波数、音韻継続時間長、振幅の
3つを同じ親善音声フレーズから抽出したものを使用す
ることによって韻律パラメータ間の不整合を抑え、合成
音声の自然性を向上することができる。
【0018】請求項2に対応する効果:音素片データベ
ースが対応可能な範囲に基本周波数を正規化することに
よって、無理な基本周波数付与を防ぎ合成音声の明瞭性
の低下を防ぐことができる。
【0019】請求項3に対応する効果:付与すべき基本
周波数に対応する音素片データを選択的に用いることに
より、ダイナミックレンジの広い自然音声の基本周波数
を付与することが可能となり、明瞭性を落とすことなく
自然性を向上することが出来る。
【0020】請求項4に対応する効果:同じ音素片デー
タを使い振幅だけを変化させると、スピーカーのボリュ
ームを操作したような機械的な変化となり自然性を損な
うが、付与すべき振幅に対応する音素片データを選択的
に用いることにより、声の大小によって音韻特性に変化
を付けることが出来るため、自然音声のダイナミックレ
ンジの広い振幅変化が付与可能となり、より人間の音声
に近い合成音声が得られる。
【0021】請求項5に対応する効果:設定すべき音韻
継続時間長に対応する音素片データを選択的に用いるこ
とにより、音素片の無理な切りつめによる子音の特徴的
部分の欠落や、短い母音定常部分の繰り返しによる機械
的な音質を避けることが出来、明瞭性を損なうことな
く、自然音声のダイナミックレンジの広いテンポ変化が
付与可能となり、より人間の音声に近い合成音声を得ら
れる。
【図面の簡単な説明】
【図1】 本発明による音声合成装置の構成を表すブロ
ック図である。
【図2】 図1に示す音素片記憶部のデータ構造を示し
たものである。
【符号の説明】
1…韻律パターン選択部、2…音素片選択部、3…音素
片伸縮接続部、4…基本周波数パターン正規化部、5…
基本周波数付与部、6…振幅付与部、M1…音素片記憶
部、M2…音韻継続時間長記憶部、M3…基本周波数記
憶部、M4…振幅記憶部、M5…基本周波数範囲記憶
部。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 人間が発声したフレーズから抽出した音
    韻継続時間長系列、基本周波数系列、振幅あるいはパワ
    ーの系列をそれぞれ記憶した、音韻継続時間記憶部、基
    本周波数記憶部、振幅記憶部、及び、音素あるいは音素
    連鎖を音韻単位とし音韻情報を音素片として記憶する音
    素片記憶部を具備し、入力文字列にしたがって音素片記
    憶部から読み出した音素片系列を、韻律パターン記憶部
    から読み出した音韻継続時間長系列にしたがって伸縮し
    て接続し、韻律パターン記憶部から読み出した基本周波
    数系列にしたがって基本周波数付与を行い、韻律パター
    ン記憶部から読み出した振幅又はパワー系列にしたがっ
    て振幅付与を行って音声を合成することを特徴とする音
    声合成装置。
  2. 【請求項2】 請求項1に記載された音声合成装置にお
    いて、音素片記憶部に記憶した音素片セットによって無
    理なく合成できる基本周波数の範囲を記憶する基本周波
    数範囲記憶部を具備し、基本周波数記憶部から読み出し
    た基本周波数系列に対して、基本周波数範囲記憶部から
    読み出した基本周波数範囲内に収まるように正規化を施
    して音声を合成することを特徴とする音声合成装置。
  3. 【請求項3】 請求項1に記載された音声合成装置にお
    いて、前記音素片記憶部は一つの音韻単位に対して適応
    すべき基本周波数範囲毎に複数の音素片を記憶してお
    り、前記基本周波数記憶部から読み出した基本周波数に
    対応した音素片を選択的に用いて音声合成を行うことを
    特徴とする音声合成装置。
  4. 【請求項4】 請求項1に記載された音声合成装置にお
    いて、前記音素片記憶部は一つの音韻単位に対して適応
    すべき振幅範囲毎に複数の音素片を記憶しており、基本
    周波数記憶部から読み出した振幅あるいはパワーに対応
    した音素片を選択的に用いて音声合成を行うことを特徴
    とする音声合成装置。
  5. 【請求項5】 請求項1に記載された音声合成装置にお
    いて、前記音素片記憶部は一つの音韻単位に対して適応
    すべき音韻継続時間長範囲毎に複数の音素片を記憶して
    おり、音韻継続時間長記憶部から読み出した音韻継続時
    間長に対応した音素片を選択的に用いて音声合成を行う
    ことを特徴とする音声合成装置。
JP10052361A 1998-03-04 1998-03-04 音声合成装置 Pending JPH11249679A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10052361A JPH11249679A (ja) 1998-03-04 1998-03-04 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10052361A JPH11249679A (ja) 1998-03-04 1998-03-04 音声合成装置

Publications (1)

Publication Number Publication Date
JPH11249679A true JPH11249679A (ja) 1999-09-17

Family

ID=12912677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10052361A Pending JPH11249679A (ja) 1998-03-04 1998-03-04 音声合成装置

Country Status (1)

Country Link
JP (1) JPH11249679A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004109660A1 (ja) * 2003-06-04 2004-12-16 Kabushiki Kaisha Kenwood 音声データを選択するための装置、方法およびプログラム
WO2004109659A1 (ja) * 2003-06-05 2004-12-16 Kabushiki Kaisha Kenwood 音声合成装置、音声合成方法及びプログラム
WO2005050624A1 (ja) * 2003-11-21 2005-06-02 Matsushita Electric Industrial Co., Ltd. 声質変換装置
JP2006195207A (ja) * 2005-01-14 2006-07-27 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
CN1331113C (zh) * 2004-02-27 2007-08-08 雅马哈株式会社 语音合成装置和方法
CN106373580A (zh) * 2016-09-05 2017-02-01 北京百度网讯科技有限公司 基于人工智能的合成歌声的方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004109660A1 (ja) * 2003-06-04 2004-12-16 Kabushiki Kaisha Kenwood 音声データを選択するための装置、方法およびプログラム
WO2004109659A1 (ja) * 2003-06-05 2004-12-16 Kabushiki Kaisha Kenwood 音声合成装置、音声合成方法及びプログラム
US8214216B2 (en) 2003-06-05 2012-07-03 Kabushiki Kaisha Kenwood Speech synthesis for synthesizing missing parts
WO2005050624A1 (ja) * 2003-11-21 2005-06-02 Matsushita Electric Industrial Co., Ltd. 声質変換装置
CN1331113C (zh) * 2004-02-27 2007-08-08 雅马哈株式会社 语音合成装置和方法
JP2006195207A (ja) * 2005-01-14 2006-07-27 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
CN106373580A (zh) * 2016-09-05 2017-02-01 北京百度网讯科技有限公司 基于人工智能的合成歌声的方法和装置

Similar Documents

Publication Publication Date Title
US7233901B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
JP3673471B2 (ja) テキスト音声合成装置およびプログラム記録媒体
JPH031200A (ja) 規則型音声合成装置
JPH11249679A (ja) 音声合成装置
JP3518898B2 (ja) 音声合成装置
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP2008058379A (ja) 音声合成システム及びフィルタ装置
JPH08335096A (ja) テキスト音声合成装置
JP2008015424A (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JPH07200554A (ja) 文章読み上げ装置
JP2894447B2 (ja) 複合音声単位を用いた音声合成装置
JP3241582B2 (ja) 韻律制御装置及び方法
JP3081300B2 (ja) 残差駆動型音声合成装置
JP3113101B2 (ja) 音声合成装置
JP2002304186A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP3575919B2 (ja) テキスト音声変換装置
JPH09179576A (ja) 音声合成方法
JP2577372B2 (ja) 音声合成装置および方法
JP3515268B2 (ja) 音声合成装置
JP3310217B2 (ja) 音声合成方法とその装置
JPH04369693A (ja) 音声規則合成装置
JPH113096A (ja) 音声合成方法及び音声合成システム
JPH0997093A (ja) 合成音のアクセント変更方法および旅客案内用自動放送装置
JP2001236086A (ja) テキスト音声合成出力機能を有するゲーム装置
JPH0553595A (ja) 音声合成装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040506

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040720

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040817