JP2002258886A

JP2002258886A - 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体

Info

Publication number: JP2002258886A
Application number: JP2001058843A
Authority: JP
Inventors: Nobuhide Yamazaki; 信英山崎; Makoto Akaha; 誠赤羽; Keiichi Yamada; 敬一山田; Kenichiro Kobayashi; 賢一郎小林; Tomoaki Nitsuta; 朋晃新田; Erika Kobayashi; 恵理香小林
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-03-02
Filing date: 2001-03-02
Publication date: 2002-09-11

Abstract

(57)【要約】【課題】合成音の韻律を容易に制御し、これにより、
感情等の状態に応じた合成音を、容易に生成する。【解決手段】周期パターン用周期信号生成部４６とパ
ワーパターン用周期信号生成部４７において、韻律情報
を周期的に変化させる周期信号が生成され、演算器４２
と４３において、周期信号と韻律情報とを加算すること
により、韻律情報が補正される。そして、波形生成部４
４では、その結果得られる補正韻律情報を用いて音声合
成が行われる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成装置およ
び音声合成方法、並びにプログラムおよび記録媒体に関
し、特に、合成音の韻律を容易に制御し、これにより、
例えば、感情等の状態に応じた合成音を、容易に生成す
ることができるようにする音声合成装置および音声合成
方法、並びにプログラムおよび記録媒体に関する。

【０００２】

【従来の技術】従来の音声合成装置においては、韻律モ
デルに基づいて、合成音の韻律情報が生成され、さら
に、その韻律情報にしたがって、合成音のピッチの周期
パターンや、合成音のパワーパターン等の韻律を制御し
た合成音が生成される。

【０００３】

【発明が解決しようとする課題】ところで、最近、例え
ば、ペット型のペットロボット等として、音声合成装置
を搭載し、ユーザに話しかけるものが提案されている。

【０００４】さらに、ペットロボットとしては、感情の
状態を表す感情モデルを取り入れ、その感情モデルが表
す感情の状態に応じて、ユーザの命令に従ったり、従わ
なかったりするものも提案されている。

【０００５】従って、感情モデルに応じて、合成音の韻
律を変化させることができれば、感情に応じた合成音が
出力されることから、ペットロボットのエンタテイメン
ト性を向上させることができると考えられる。

【０００６】しかしながら、従来の音声合成装置におい
ては、合成音の韻律は、韻律モデルのパラメータを制御
することにより変化させていたため、複雑な制御が必要
であった。即ち、感情を表現する合成音を生成する場合
には、感情モデルに応じて、韻律モデルの各種のパラメ
ータを制御する必要があり、面倒であった。

【０００７】本発明は、このような状況に鑑みてなされ
たものであり、合成音の韻律を容易に制御し、これによ
り、感情等の状態に応じた合成音を、容易に生成するこ
とができるようにするものである。

【０００８】

【課題を解決するための手段】本発明の音声合成装置
は、韻律情報を周期的に変化させる周期信号を生成する
周期信号生成手段と、周期信号と韻律情報とを加算する
ことにより、韻律情報を補正し、補正韻律情報を出力す
る補正手段と、補正韻律情報を用いて音声合成を行う音
声合成手段とを備えることを特徴とする。

【０００９】本発明の音声合成方法は、韻律情報を周期
的に変化させる周期信号を生成する周期信号生成ステッ
プと、周期信号と韻律情報とを加算することにより、韻
律情報を補正し、補正韻律情報を出力する補正ステップ
と、補正韻律情報を用いて音声合成を行う音声合成ステ
ップとを備えることを特徴とする。

【００１０】本発明のプログラムは、韻律情報を周期的
に変化させる周期信号を生成する周期信号生成ステップ
と、周期信号と韻律情報とを加算することにより、韻律
情報を補正し、補正韻律情報を出力する補正ステップ
と、補正韻律情報を用いて音声合成を行う音声合成ステ
ップとを備えることを特徴とする。

【００１１】本発明の記録媒体は、韻律情報を周期的に
変化させる周期信号を生成する周期信号生成ステップ
と、周期信号と韻律情報とを加算することにより、韻律
情報を補正し、補正韻律情報を出力する補正ステップ
と、補正韻律情報を用いて音声合成を行う音声合成ステ
ップとを備えるプログラムが記録されていることを特徴
とする。

【００１２】本発明の音声合成装置および音声合成方
法、並びにプログラムにおいては、韻律情報を周期的に
変化させる周期信号が生成され、周期信号と韻律情報と
を加算することにより、韻律情報が補正される。そし
て、その結果得られる補正韻律情報を用いて音声合成が
行われる。

【００１３】

【発明の実施の形態】図１は、本発明を適用したロボッ
トの一実施の形態の外観構成例を示しており、図２は、
その電気的構成例を示している。

【００１４】本実施の形態では、ロボットは、例えば、
犬等の四つ足の動物の形状のものとなっており、胴体部
ユニット２の前後左右に、それぞれ脚部ユニット３Ａ，
３Ｂ，３Ｃ，３Ｄが連結されるとともに、胴体部ユニッ
ト２の前端部と後端部に、それぞれ頭部ユニット４と尻
尾部ユニット５が連結されることにより構成されてい
る。

【００１５】尻尾部ユニット５は、胴体部ユニット２の
上面に設けられたベース部５Ｂから、２自由度をもって
湾曲または揺動自在に引き出されている。

【００１６】胴体部ユニット２には、ロボット全体の制
御を行うコントローラ１０、ロボットの動力源となるバ
ッテリ１１、並びにバッテリセンサ１２および熱センサ
１３からなる内部センサ部１４などが収納されている。

【００１７】頭部ユニット４には、「耳」に相当するマ
イク（マイクロフォン）１５、「目」に相当するＣＣＤ
(Charge Coupled Device)カメラ１６、触覚に相当する
タッチセンサ１７、「口」に相当するスピーカ１８など
が、それぞれ所定位置に配設されている。また、頭部ユ
ニット４には、口の下顎に相当する下顎部４Ａが１自由
度をもって可動に取り付けられており、この下顎部４Ａ
が動くことにより、ロボットの口の開閉動作が実現され
るようになっている。

【００１８】脚部ユニット３Ａ乃至３Ｄそれぞれの関節
部分や、脚部ユニット３Ａ乃至３Ｄそれぞれと胴体部ユ
ニット２の連結部分、頭部ユニット４と胴体部ユニット
２の連結部分、頭部ユニット４と下顎部４Ａの連結部
分、並びに尻尾部ユニット５と胴体部ユニット２の連結
部分などには、図２に示すように、それぞれアクチュエ
ータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁乃至３ＢＡ_K、３ＣＡ
₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ_K、４Ａ₁乃至４Ａ_L、
５Ａ₁および５Ａ₂が配設されている。

【００１９】頭部ユニット４におけるマイク１５は、ユ
ーザからの発話を含む周囲の音声（音）を集音し、得ら
れた音声信号を、コントローラ１０に送出する。ＣＣＤ
カメラ１６は、周囲の状況を撮像し、得られた画像信号
を、コントローラ１０に送出する。

【００２０】タッチセンサ１７は、例えば、頭部ユニッ
ト４の上部に設けられており、ユーザからの「なでる」
や「たたく」といった物理的な働きかけにより受けた圧
力を検出し、その検出結果を圧力検出信号としてコント
ローラ１０に送出する。

【００２１】胴体部ユニット２におけるバッテリセンサ
１２は、バッテリ１１の残量を検出し、その検出結果
を、バッテリ残量検出信号としてコントローラ１０に送
出する。熱センサ１３は、ロボット内部の熱を検出し、
その検出結果を、熱検出信号としてコントローラ１０に
送出する。

【００２２】コントローラ１０は、ＣＰＵ(Central Pro
cessing Unit)１０Ａやメモリ１０Ｂ等を内蔵してお
り、ＣＰＵ１０Ａにおいて、メモリ１０Ｂに記憶された
制御プログラムが実行されることにより、各種の処理を
行う。

【００２３】即ち、コントローラ１０は、マイク１５
や、ＣＣＤカメラ１６、タッチセンサ１７、バッテリセ
ンサ１２、熱センサ１３から与えられる音声信号、画像
信号、圧力検出信号、バッテリ残量検出信号、熱検出信
号に基づいて、周囲の状況や、ユーザからの指令、ユー
ザからの働きかけなどの有無を判断する。

【００２４】さらに、コントローラ１０は、この判断結
果等に基づいて、続く行動を決定し、その決定結果に基
づいて、アクチュエータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁
乃至３ＢＡ_K、３ＣＡ₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ
_K、４Ａ₁乃至４Ａ_L、５Ａ₁、５Ａ₂のうちの必要なもの
を駆動させる。これにより、頭部ユニット４を上下左右
に振らせたり、下顎部４Ａを開閉させる。さらには、尻
尾部ユニット５を動かせたり、各脚部ユニット３Ａ乃至
３Ｄを駆動して、ロボットを歩行させるなどの行動を行
わせる。

【００２５】また、コントローラ１０は、必要に応じ
て、合成音を生成し、スピーカ１８に供給して出力させ
たり、ロボットの「目」の位置に設けられた図示しない
ＬＥＤ（Light Emitting Diode）を点灯、消灯または点
滅させる。

【００２６】以上のようにして、ロボットは、周囲の状
況等に基づいて自律的に行動をとるようになっている。

【００２７】次に、図３は、図２のコントローラ１０の
機能的構成例を示している。なお、図３に示す機能的構
成は、ＣＰＵ１０Ａが、メモリ１０Ｂに記憶された制御
プログラムを実行することで実現されるようになってい
る。

【００２８】コントローラ１０は、特定の外部状態を認
識するセンサ入力処理部５０、センサ入力処理部５０の
認識結果を累積して、感情や、本能、成長の状態を表現
するモデル記憶部５１、センサ入力処理部５０の認識結
果等に基づいて、続く行動を決定する行動決定機構部５
２、行動決定機構部５２の決定結果に基づいて、実際に
ロボットに行動を起こさせる姿勢遷移機構部５３、各ア
クチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂を駆動制御
する制御機構部５４、並びに合成音を生成する音声合成
部５５から構成されている。

【００２９】センサ入力処理部５０は、マイク１５や、
ＣＣＤカメラ１６、タッチセンサ１７等から与えられる
音声信号、画像信号、圧力検出信号等に基づいて、特定
の外部状態や、ユーザからの特定の働きかけ、ユーザか
らの指示等を認識し、その認識結果を表す状態認識情報
を、モデル記憶部５１および行動決定機構部５２に通知
する。

【００３０】即ち、センサ入力処理部５０は、音声認識
部５０Ａを有しており、音声認識部５０Ａは、マイク１
５から与えられる音声信号について音声認識を行う。そ
して、音声認識部５０Ａは、その音声認識結果として
の、例えば、「歩け」、「伏せ」、「ボールを追いかけ
ろ」等の指令その他を、状態認識情報として、モデル記
憶部５１および行動決定機構部５２に通知する。

【００３１】また、センサ入力処理部５０は、画像認識
部５０Ｂを有しており、画像認識部５０Ｂは、ＣＣＤカ
メラ１６から与えられる画像信号を用いて、画像認識処
理を行う。そして、画像認識部５０Ｂは、その処理の結
果、例えば、「赤い丸いもの」や、「地面に対して垂直
なかつ所定高さ以上の平面」等を検出したときには、
「ボールがある」や、「壁がある」等の画像認識結果
を、状態認識情報として、モデル記憶部５１および行動
決定機構部５２に通知する。

【００３２】さらに、センサ入力処理部５０は、圧力処
理部５０Ｃを有しており、圧力処理部５０Ｃは、タッチ
センサ１７から与えられる圧力検出信号を処理する。そ
して、圧力処理部５０Ｃは、その処理の結果、所定の閾
値以上で、かつ短時間の圧力を検出したときには、「た
たかれた（しかられた）」と認識し、所定の閾値未満
で、かつ長時間の圧力を検出したときには、「なでられ
た（ほめられた）」と認識して、その認識結果を、状態
認識情報として、モデル記憶部５１および行動決定機構
部５２に通知する。

【００３３】モデル記憶部５１は、ロボットの感情、本
能、成長の状態を表現する感情モデル、本能モデル、成
長モデルをそれぞれ記憶、管理している。

【００３４】ここで、感情モデルは、例えば、「うれし
さ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状
態（度合い）を、所定の範囲の値によってそれぞれ表
し、センサ入力処理部５０からの状態認識情報や時間経
過等に基づいて、その値を変化させる。本能モデルは、
例えば、「食欲」、「睡眠欲」、「運動欲」等の本能に
よる欲求の状態（度合い）を、所定の範囲の値によって
それぞれ表し、センサ入力処理部５０からの状態認識情
報や時間経過等に基づいて、その値を変化させる。成長
モデルは、例えば、「幼年期」、「青年期」、「熟年
期」、「老年期」等の成長の状態（度合い）を、所定の
範囲の値によってそれぞれ表し、センサ入力処理部５０
からの状態認識情報や時間経過等に基づいて、その値を
変化させる。

【００３５】モデル記憶部５１は、上述のようにして感
情モデル、本能モデル、成長モデルの値で表される感
情、本能、成長の状態を、状態情報として、行動決定機
構部５２に送出する。

【００３６】なお、モデル記憶部５１には、センサ入力
処理部５０から状態認識情報が供給される他、行動決定
機構部５２から、ロボットの現在または過去の行動、具
体的には、例えば、「長時間歩いた」などの行動の内容
を示す行動情報が供給されるようになっており、モデル
記憶部５１は、同一の状態認識情報が与えられても、行
動情報が示すロボットの行動に応じて、異なる状態情報
を生成するようになっている。

【００３７】即ち、例えば、ロボットが、ユーザに挨拶
をし、ユーザに頭を撫でられた場合には、ユーザに挨拶
をしたという行動情報と、頭を撫でられたという状態認
識情報とが、モデル記憶部５１に与えられ、この場合、
モデル記憶部５１では、「うれしさ」を表す感情モデル
の値が増加される。

【００３８】一方、ロボットが、何らかの仕事を実行中
に頭を撫でられた場合には、仕事を実行中であるという
行動情報と、頭を撫でられたという状態認識情報とが、
モデル記憶部５１に与えられ、この場合、モデル記憶部
５１では、「うれしさ」を表す感情モデルの値は変化さ
れない。

【００３９】このように、モデル記憶部５１は、状態認
識情報だけでなく、現在または過去のロボットの行動を
示す行動情報も参照しながら、感情モデルの値を設定す
る。これにより、例えば、何らかのタスクを実行中に、
ユーザが、いたずらするつもりで頭を撫でたときに、
「うれしさ」を表す感情モデルの値を増加させるよう
な、不自然な感情の変化が生じることを回避することが
できる。

【００４０】なお、モデル記憶部５１は、本能モデルお
よび成長モデルについても、感情モデルにおける場合と
同様に、状態認識情報および行動情報の両方に基づい
て、その値を増減させるようになっている。また、モデ
ル記憶部５１は、感情モデル、本能モデル、成長モデル
それぞれの値を、他のモデルの値にも基づいて増減させ
るようになっている。

【００４１】行動決定機構部５２は、センサ入力処理部
５０からの状態認識情報や、モデル記憶部５１からの状
態情報、時間経過等に基づいて、次の行動を決定し、決
定された行動の内容を、行動指令情報として、姿勢遷移
機構部５３に送出する。

【００４２】即ち、行動決定機構部５２は、ロボットが
とり得る行動をステート（状態）(state)に対応させた
有限オートマトンを、ロボットの行動を規定する行動モ
デルとして管理しており、この行動モデルとしての有限
オートマトンにおけるステートを、センサ入力処理部５
０からの状態認識情報や、モデル記憶部５１における感
情モデル、本能モデル、または成長モデルの値、時間経
過等に基づいて遷移させ、遷移後のステートに対応する
行動を、次にとるべき行動として決定する。

【００４３】ここで、行動決定機構部５２は、所定のト
リガ(trigger)があったことを検出すると、ステートを
遷移させる。即ち、行動決定機構部５２は、例えば、現
在のステートに対応する行動を実行している時間が所定
時間に達したときや、特定の状態認識情報を受信したと
き、モデル記憶部５１から供給される状態情報が示す感
情や、本能、成長の状態の値が所定の閾値以下または以
上になったとき等に、ステートを遷移させる。

【００４４】なお、行動決定機構部５２は、上述したよ
うに、センサ入力処理部５０からの状態認識情報だけで
なく、モデル記憶部５１における感情モデルや、本能モ
デル、成長モデルの値等にも基づいて、行動モデルにお
けるステートを遷移させることから、同一の状態認識情
報が入力されても、感情モデルや、本能モデル、成長モ
デルの値（状態情報）によっては、ステートの遷移先は
異なるものとなる。

【００４５】その結果、行動決定機構部５２は、例え
ば、状態情報が、「怒っていない」こと、および「お腹
がすいていない」ことを表している場合において、状態
認識情報が、「目の前に手のひらが差し出された」こと
を表しているときには、目の前に手のひらが差し出され
たことに応じて、「お手」という行動をとらせる行動指
令情報を生成し、これを、姿勢遷移機構部５３に送出す
る。

【００４６】また、行動決定機構部５２は、例えば、状
態情報が、「怒っていない」こと、および「お腹がすい
ている」ことを表している場合において、状態認識情報
が、「目の前に手のひらが差し出された」ことを表して
いるときには、目の前に手のひらが差し出されたことに
応じて、「手のひらをぺろぺろなめる」ような行動を行
わせるための行動指令情報を生成し、これを、姿勢遷移
機構部５３に送出する。

【００４７】また、行動決定機構部５２は、例えば、状
態情報が、「怒っている」ことを表している場合におい
て、状態認識情報が、「目の前に手のひらが差し出され
た」ことを表しているときには、状態情報が、「お腹が
すいている」ことを表していても、また、「お腹がすい
ていない」ことを表していても、「ぷいと横を向く」よ
うな行動を行わせるための行動指令情報を生成し、これ
を、姿勢遷移機構部５３に送出する。

【００４８】なお、行動決定機構部５２には、モデル記
憶部５１から供給される状態情報が示す感情や、本能、
成長の状態に基づいて、遷移先のステートに対応する行
動のパラメータとしての、例えば、歩行の速度や、手足
を動かす際の動きの大きさおよび速度などを決定させる
ことができ、この場合、それらのパラメータを含む行動
指令情報が、姿勢遷移機構部５３に送出される。

【００４９】また、行動決定機構部５２では、上述した
ように、ロボットの頭部や手足等を動作させる行動指令
情報の他、ロボットに発話を行わせる行動指令情報も生
成される。ロボットに発話を行わせる行動指令情報は、
音声合成部５５に供給されるようになっており、音声合
成部５５に供給される行動指令情報には、音声合成部５
５に生成させる合成音に対応するテキスト等が含まれ
る。そして、音声合成部５５は、行動決定部５２から行
動指令情報を受信すると、その行動指令情報に含まれる
テキストに基づき、合成音を生成し、スピーカ１８に供
給して出力させる。これにより、スピーカ１８からは、
例えば、ロボットの鳴き声、さらには、「お腹がすい
た」等のユーザへの各種の要求、「何？」等のユーザの
呼びかけに対する応答その他の音声出力が行われる。こ
こで、音声合成部５５には、モデル記憶部５１から状態
情報も供給されるようになっており、音声合成部５５
は、この状態情報が示す感情の状態に基づいて韻律を制
御した合成音を生成することが可能となっている。な
お、音声合成部５５では、感情の他、本能や成長の状態
に基づいて韻律を制御した合成音を生成することも可能
である。

【００５０】姿勢遷移機構部５３は、行動決定機構部５
２から供給される行動指令情報に基づいて、ロボットの
姿勢を、現在の姿勢から次の姿勢に遷移させるための姿
勢遷移情報を生成し、これを制御機構部５４に送出す
る。

【００５１】ここで、現在の姿勢から次に遷移可能な姿
勢は、例えば、胴体や手や足の形状、重さ、各部の結合
状態のようなロボットの物理的形状と、関節が曲がる方
向や角度のようなアクチュエータ３ＡＡ₁乃至５Ａ₁およ
び５Ａ₂の機構とによって決定される。

【００５２】また、次の姿勢としては、現在の姿勢から
直接遷移可能な姿勢と、直接には遷移できない姿勢とが
ある。例えば、４本足のロボットは、手足を大きく投げ
出して寝転んでいる状態から、伏せた状態へ直接遷移す
ることはできるが、立った状態へ直接遷移することはで
きず、一旦、手足を胴体近くに引き寄せて伏せた姿勢に
なり、それから立ち上がるという２段階の動作が必要で
ある。また、安全に実行できない姿勢も存在する。例え
ば、４本足のロボットは、その４本足で立っている姿勢
から、両前足を挙げてバンザイをしようとすると、簡単
に転倒してしまう。

【００５３】このため、姿勢遷移機構部５３は、直接遷
移可能な姿勢をあらかじめ登録しておき、行動決定機構
部５２から供給される行動指令情報が、直接遷移可能な
姿勢を示す場合には、その行動指令情報を、そのまま姿
勢遷移情報として、制御機構部５４に送出する。一方、
行動指令情報が、直接遷移不可能な姿勢を示す場合に
は、姿勢遷移機構部５３は、遷移可能な他の姿勢に一旦
遷移した後に、目的の姿勢まで遷移させるような姿勢遷
移情報を生成し、制御機構部５４に送出する。これによ
りロボットが、遷移不可能な姿勢を無理に実行しようと
する事態や、転倒するような事態を回避することができ
るようになっている。

【００５４】制御機構部５４は、姿勢遷移機構部５３か
らの姿勢遷移情報にしたがって、アクチュエータ３ＡＡ
₁乃至５Ａ₁および５Ａ₂を駆動するための制御信号を生
成し、これを、アクチュエータ３ＡＡ₁乃至５Ａ₁および
５Ａ₂に送出する。これにより、アクチュエータ３ＡＡ₁
乃至５Ａ₁および５Ａ₂は、制御信号にしたがって駆動
し、ロボットは、自律的に行動を起こす。

【００５５】次に、図４は、図３の音声認識部５０Ａの
構成例を示している。

【００５６】マイク１５からの音声信号は、ＡＤ(Analo
g Digital)変換部２１に供給される。ＡＤ変換部２１で
は、マイク１５からのアナログ信号である音声信号がサ
ンプリング、量子化され、ディジタル信号である音声デ
ータにＡ／Ｄ変換される。この音声データは、特徴抽出
部２２および音声区間検出部２７に供給される。

【００５７】特徴抽出部２２は、そこに入力される音声
データについて、適当なフレームごとに、例えば、ＭＦ
ＣＣ(Mel Frequency Cepstrum Coefficient)分析を行
い、その分析の結果得られるＭＦＣＣを、特徴パラメー
タ（特徴ベクトル）として、マッチング部２３に出力す
る。なお、特徴抽出部２２では、その他、例えば、線形
予測係数、ケプストラム係数、線スペクトル対、所定の
周波数帯域ごとのパワー（フィルタバンクの出力）等
を、特徴パラメータとして抽出することが可能である。

【００５８】マッチング部２３は、特徴抽出部２２から
の特徴パラメータを用いて、音響モデル記憶部２４、辞
書記憶部２５、および文法記憶部２６を必要に応じて参
照しながら、マイク１５に入力された音声（入力音声）
を、例えば、連続分布ＨＭＭ(Hidden Markov Model)法
に基づいて音声認識する。

【００５９】即ち、音響モデル記憶部２４は、音声認識
する音声の言語における個々の音素や音節などの音響的
な特徴を表す音響モデルを記憶している。ここでは、連
続分布ＨＭＭ法に基づいて音声認識を行うので、音響モ
デルとしては、ＨＭＭ(Hidden Markov Model)が用いら
れる。辞書記憶部２５は、認識対象の各単語について、
その発音に関する情報（音韻情報）が記述された単語辞
書を記憶している。文法記憶部２６は、辞書記憶部２５
の単語辞書に登録されている各単語が、どのように連鎖
する（つながる）かを記述した文法規則を記憶してい
る。ここで、文法規則としては、例えば、文脈自由文法
（ＣＦＧ）や、統計的な単語連鎖確率（Ｎ−ｇｒａｍ）
などに基づく規則を用いることができる。

【００６０】マッチング部２３は、辞書記憶部２５の単
語辞書を参照することにより、音響モデル記憶部２４に
記憶されている音響モデルを接続することで、単語の音
響モデル（単語モデル）を構成する。さらに、マッチン
グ部２３は、幾つかの単語モデルを、文法記憶部２６に
記憶された文法規則を参照することにより接続し、その
ようにして接続された単語モデルを用いて、特徴パラメ
ータに基づき、連続分布ＨＭＭ法によって、マイク１５
に入力された音声を認識する。即ち、マッチング部２３
は、特徴抽出部２２が出力する時系列の特徴パラメータ
が観測されるスコア（尤度）が最も高い単語モデルの系
列を検出し、その単語モデルの系列に対応する単語列の
音韻情報（読み）を、音声の認識結果として出力する。

【００６１】より具体的には、マッチング部２３は、接
続された単語モデルに対応する単語列について、各特徴
パラメータの出現確率を累積し、その累積値をスコアと
して、そのスコアを最も高くする単語列の音韻情報を、
音声認識結果として出力する。

【００６２】以上のようにして出力される、マイク１５
に入力された音声の認識結果は、状態認識情報として、
モデル記憶部５１および行動決定機構部５２に出力され
る。

【００６３】なお、音声区間検出部２７は、ＡＤ変換部
２１からの音声データについて、特徴抽出部２２がＭＦ
ＣＣ分析を行うのと同様のフレームごとに、例えば、パ
ワーを算出している。さらに、音声区間検出部２７は、
各フレームのパワーを、所定の閾値と比較し、その閾値
以上のパワーを有するフレームで構成される区間を、ユ
ーザの音声が入力されている音声区間として検出する。
そして、音声区間検出部２７は、検出した音声区間を、
特徴抽出部２２とマッチング部２３に供給しており、特
徴抽出部２２とマッチング部２３は、音声区間のみを対
象に処理を行う。

【００６４】次に、図５は、図３の音声合成部５５の構
成例を示している。

【００６５】テキスト解析部３１には、行動決定機構部
５２が出力する、音声合成の対象とするテキストを含む
行動指令情報が供給されるようになっており、テキスト
解析部３１は、辞書記憶部３４や生成用文法記憶部３５
を参照しながら、その行動指令情報に含まれるテキスト
を解析する。

【００６６】即ち、辞書記憶部３４には、各単語の品詞
情報や、読み、アクセント等の情報が記述された単語辞
書が記憶されており、また、生成用文法記憶部３５に
は、辞書記憶部３４の単語辞書に記述された単語につい
て、単語連鎖に関する制約等の生成用文法規則が記憶さ
れている。そして、テキスト解析部３１は、この単語辞
書および生成用文法規則に基づいて、そこに入力される
テキストの形態素解析や構文解析等のテキスト解析を行
い、後段の規則合成部３２で行われる規則音声合成に必
要な情報を抽出する。ここで、規則音声合成に必要な情
報としては、例えば、ポーズの位置や、アクセント、イ
ントネーション、パワー等を制御するための情報、各単
語の発音を表す音韻情報などがある。

【００６７】テキスト解析部３１で得られた情報は、規
則合成部３２に供給され、規則合成部３２は、音素片記
憶部３６を参照しながら、テキスト解析部３１に入力さ
れたテキストに対応する合成音の音声データ（ディジタ
ルデータ）を生成する。

【００６８】即ち、音素片記憶部３６には、例えば、Ｃ
Ｖ(Consonant, Vowel)や、ＶＣＶ、ＣＶＣ、あるいは１
ピッチ等の形で音素片データが記憶されており、規則合
成部３２は、テキスト解析部３１からの情報に基づい
て、必要な音素片データを接続し、さらに、音素片デー
タの波形を加工することによって、ポーズ、アクセン
ト、イントネーション等を適切に付加し、これにより、
テキスト解析部３１に入力されたテキストに対応する合
成音の音声データ（合成音データ）を生成する。

【００６９】また、規則合成部３２には、モデル記憶部
５１から状態情報が供給されるようになっており、規則
合成部３２は、その状態情報のうちの、例えば、感情モ
デルの値に基づいて韻律を制御した合成音データを生成
する。

【００７０】以上のようにして生成された合成音データ
は、スピーカ１８に供給され、これにより、スピーカ１
８からは、テキスト解析部３１に入力されたテキストに
対応する合成音が出力される。

【００７１】なお、図３の行動決定機構部５２では、上
述したように、行動モデルに基づいて、次の行動が決定
されるが、合成音として出力するテキストの内容は、ロ
ボットの行動と対応付けておくことが可能である。

【００７２】即ち、例えば、ロボットが、座った状態か
ら、立った状態になる行動には、テキスト「よっこいし
ょ」などを対応付けておくことが可能である。この場
合、ロボットが、座っている姿勢から、立つ姿勢に移行
するときに、その姿勢の移行に同期して、合成音「よっ
こいしょ」を出力することが可能となる。

【００７３】次に、図６は、図５の規則音声合成部３２
の構成例を示している。

【００７４】韻律生成部４１には、テキスト解析部３１
（図５）によるテキスト解析結果が供給され、韻律生成
部４１は、そのテキスト解析結果に基づいて、合成音の
韻律を制御する韻律情報を生成する。ここで、韻律制御
部４１では、合成音を構成する各音韻の継続時間長、合
成音のピッチ周期の時間変化パターンを表す周期パター
ン信号、合成音のパワーの時間変化パターンを表すパワ
ーパターン信号等が、韻律情報として生成される。

【００７５】韻律生成部４１で生成された継続時間長
は、波形生成部４４に供給される。また、周期パターン
信号は、演算器４２に供給され、パワーパターン信号
は、演算器４３に供給される。

【００７６】演算器４２は、韻律生成部４１から供給さ
れる周期パターン信号と、周期パターン用周期信号生成
部４６から供給される周期パターン用周期信号とを加算
することにより、周期パターン信号を補正し、その補正
後の周期パターン信号（以下、適宜、補正周期パターン
信号という）を、波形生成部４４に供給する。演算器４
３は、韻律生成部４１から供給されるパワーパターン信
号と、パワーパターン用周期信号生成部４７から供給さ
れるパワーパターン用周期信号とを加算することによ
り、パワーパターン信号を補正し、その補正後のパワー
パターン信号（以下、適宜、補正パワーパターン信号と
いう）を、波形生成部４４に供給する。

【００７７】波形生成部４４には、上述したように、韻
律情報としての継続時間長、補正周期パターン信号、お
よび補正パワーパターン信号が供給される他、テキスト
解析部３１（図５）によるテキスト解析結果が供給され
る。波形生成部４１は、テキスト解析結果に含まれる音
韻情報にしたがって、必要な音素片データを、音素片記
憶部３６（図５）から読み出して接続し、さらに、韻律
情報としての継続時間長、補正周期パターン信号、およ
び補正パワーパターン信号にしたがって、接続した音素
片データの波形を調整（成形）し、これにより、最終的
な合成音データを生成して出力する。

【００７８】制御信号生成部４５には、モデル記憶部５
１から状態情報が供給されるようになっており、制御信
号生成部４５は、その状態情報のうちの感情モデルに基
づいて、周期パターン用周期信号の周期と振幅を制御す
る制御信号（以下、適宜、周期パターン用制御信号とい
う）、およびパワーパターン用周期信号の周期と振幅を
制御する制御信号（以下、適宜、パワーパターン用制御
信号という）を生成する。

【００７９】即ち、制御信号生成部４５は、例えば、感
情モデルとしての「うれしさ」、「悲しさ」、「怒
り」、「楽しさ」等の感情の状態を表す値（以下、適
宜、感情モデル値という）に、周期パターン用周期信号
の周期と振幅を対応付けた変換テーブルを記憶してお
り、その変換テーブルにおいて、モデル記憶部５１から
の状態情報における感情モデル値に対応付けられている
周期と振幅を表す周期パターン用制御信号を出力する。
さらに、制御信号生成部４５は、パワーパターン用周期
信号についても同様の変換テーブルを記憶しており、そ
の変換テーブルを参照することにより、モデル記憶部５
１からの状態情報における感情モデル値に対応付けられ
ている周期と振幅を表すパワーパターン用制御信号を出
力する。

【００８０】なお、制御信号生成部４５が記憶している
変換テーブルにおいては、ペットロボットの感情の状態
を表すような韻律の合成音が得られるように、感情モデ
ル値と、周期および振幅とが対応付けられている。即
ち、例えば、「怒り」の感情が大のときには、パワーパ
ターン用周期信号の振幅が大となるように、また、例え
ば、「悲しさ」の感情が大のときには、周期パターン用
周期信号の周期が大となるように、変換テーブルは構成
されている。ここで、感情モデル値と、周期および振幅
とを、どのように対応付けるかは、例えば、シミュレー
ションを行い、そのシミュレーション結果に基づいて決
定することができる。

【００８１】また、上述の場合には、「うれしさ」、
「悲しさ」、「怒り」、「楽しさ」等のすべての感情モ
デル値を考慮した変換テーブルを用いるようにしたが、
その他、例えば、次のような簡略化した変換テーブルを
用いることも可能である。

【００８２】即ち、感情の状態を、例えば、「定常」、
「悲しさ」、「怒り」、「楽しさ」等のいずれかのみに
分類し、各感情に、ユニークな番号としての感情番号を
付しておく。具体的には、例えば、「定常」、「悲し
さ」、「怒り」、「楽しさ」に、それぞれ０，１，２，
３等の感情番号を、それぞれ付しておく。そして、この
ような感情番号と、周期および振幅とを対応付けた変換
テーブルを作成する。なお、このような変換テーブルを
用いる場合には、感情モデル値から、感情の状態を、
「うれしさ」、「悲しさ」、「怒り」、「楽しさ」のい
ずれかに分類する必要があるが、これは、次のようにし
て行うことが可能である。即ち、例えば、複数の感情モ
デル値のうち、最も大きい感情モデル値と、２番目に大
きい感情モデル値との差が、所定の閾値以上の場合は、
最も大きい感情モデル値に対応する感情の状態に分類
し、そうでない場合は、「定常」の状態に分類すればよ
い。

【００８３】周期パターン用周期信号生成部４６は、制
御信号生成部４５が出力する周期パターン用制御信号が
表す周期と振幅の周期的な信号を生成し、これを、周期
パターン用周期信号として、演算器４２に出力する。パ
ワーパターン用周期信号生成部４７は、制御信号生成部
４５が出力するパワーパターン用制御信号が表す周期と
振幅の周期的な信号を生成し、これを、パワーパターン
用周期信号として、演算器４３に出力する。

【００８４】なお、周期パターン用周期信号と、パワー
パターン用周期信号としては、例えば、正弦波や三角波
等を用いることができる。

【００８５】次に、図７のフローチャートを参照して、
図６の規則合成部３２の処理について説明する。

【００８６】図５のテキスト解析部３１（図５）が出力
するテキスト解析結果は、韻律生成部３１と波形生成部
４４に供給される。また、図５のモデル記憶部５１が出
力する状態情報は、制御信号生成部４５に供給される。

【００８７】韻律生成部４１は、テキスト解析結果を受
信すると、ステップＳ１において、韻律情報として、テ
キスト解析結果に含まれる音韻情報が表す各音韻の継続
時間長、周期パターン信号、パワーパターン信号を生成
する。継続時間長は、波形生成部４４に供給され、周期
パターン信号とパワーパターン信号は、それぞれ、演算
器４２と４３に供給される。

【００８８】その後、ステップＳ２に進み、制御信号生
成部４５は、感情反映モードかどうかを判定する。即
ち、本実施の形態では、感情を反映した合成音を出力す
る感情反映モードと、感情を反映しない合成音を出力す
る非感情反映モードのうちのいずれかを設定することが
できるようになっており、ステップＳ２では、ロボット
のモードが感情反映モードとなっているかどうかが判定
される。

【００８９】ここで、ロボットには、感情反映モードと
非感情反映モードを設けずに、常に、感情を反映した合
成音を出力させるようにすることも可能である。

【００９０】ステップＳ２において、感情反映モードで
ないと判定された場合、ステップＳ３乃至Ｓ５をスキッ
プして、ステップＳ６に進み、波形生成部４４は、合成
音を生成する。

【００９１】即ち、感情反映モードでない場合、制御信
号生成部４４は、特に処理を行わず、従って、周期パタ
ーン用周期信号生成部４６とパワーパターン用周期信号
生成部４７は、それぞれ、周期パターン用周期信号とパ
ワーパターン用周期信号を出力しない。

【００９２】その結果、演算器４２と４３では、それぞ
れ、韻律生成部４１が出力する周期パターン信号とパワ
ーパターン信号が、特に処理されず、そのまま、波形生
成部４４に出力される。

【００９３】従って、波形生成部４４は、韻律生成部４
１で生成された継続時間長、周期パターン信号、および
パワーパターン信号によって与えられる韻律を有する合
成音データが生成される。

【００９４】即ち、波形生成部４４は、テキスト解析部
３１（図５）からのテキスト解析結果に含まれる音韻情
報にしたがって、必要な音素片データを、音素片記憶部
３６（図５）から読み出して接続し、さらに、韻律情報
としての継続時間長、周期パターン信号、およびパワー
パターン信号にしたがって、接続した音素片データの波
形を調整し、これにより、最終的な合成音データを生成
して出力する。

【００９５】一方、ステップＳ２において、感情反映モ
ードであると判定された場合、ステップＳ３に進み、制
御信号生成部４５は、モデル記憶部５１からの状態情報
のうちの感情モデル値に基づいて、周期パターン用周期
信号の周期と振幅を制御する周期パターン用制御信号、
およびパワーパターン用周期信号の周期と振幅を制御す
るパワーパターン用制御信号を生成する。この周期パタ
ーン用制御信号は、周期パターン用周期信号生成部４６
に供給され、パワーパターン用制御信号は、パワーパタ
ーン用周期信号生成部４７に供給される。

【００９６】その後、ステップＳ４に進み、周期パター
ン用周期信号生成部４６が、制御信号生成部４５からの
周期パターン用制御信号が表す周期と振幅の周期パター
ン用周期信号を生成するとともに、パワーパターン用周
期信号生成部４７が、同じく、制御信号生成部４５から
のワーパターン用制御信号が表す周期と振幅のパワーパ
ターン用周期信号を生成する。周期パターン用周期信号
は、演算器４２に供給され、パワーパターン用周期信号
は、演算器４３に供給される。

【００９７】そして、ステップＳ５に進み、演算器４２
が、韻律生成部４１からの周期パターン信号と、周期パ
ターン用周期信号生成部４６からの周期パターン用周期
信号とを加算することにより、周期パターン信号を補正
し、その補正後の周期パターン信号である補正周期パタ
ーン信号を、波形生成部４４に供給する。

【００９８】さらに、ステップＳ５では、演算器４３
が、韻律生成部４１からのパワーパターン信号と、パワ
ーパターン用周期信号生成部４７からのパワーパターン
用周期信号とを加算することにより、パワーパターン信
号を補正し、その補正後のパワーパターン信号である補
正パワーパターン信号を、波形生成部４４に供給する。

【００９９】即ち、ステップＳ５では、例えば、図８
（Ａ）に示すような周期パターン信号と、図８（Ｂ）に
示すような周期パターン用周期信号とを加算することに
より、図８（Ｃ）に示すような補正周期パターン信号が
生成される。補正パワーパターン信号も同様にして生成
される。

【０１００】波形生成部４１は、韻律生成部４１から継
続時間長を受信するとともに、演算器４２と４３からそ
れぞれ補正周期パターン信号と補正パワーパターン信号
を受信すると、ステップＳ６において、合成音を生成し
て、処理を終了する。

【０１０１】即ち、波形生成部４４は、テキスト解析部
３１（図５）からのテキスト解析結果に含まれる音韻情
報にしたがって、必要な音素片データを、音素片記憶部
３６（図５）から読み出して接続し、さらに、韻律情報
としての継続時間長、補正周期パターン信号、および補
正パワーパターン信号にしたがって、接続した音素片デ
ータの波形を調整し、これにより、最終的な合成音デー
タを生成して出力する。

【０１０２】以上のように、感情モデル値に基づき、周
期パターン（またはパワーパターン）の韻律情報を周期
的に変化させる周期パターン用周期信号（またはパワー
パターン用周期信号）を生成し、その周期パターン用周
期信号（またはパワーパターン用周期信号）と、周期パ
ターン信号（またはパワーパターン信号）とを加算する
ことにより、周期パターン信号（またはパワーパターン
信号）を補正し、その結果得られる補正周期パターン信
号（または補正パワーパターン信号）にしたがった韻律
の合成音を生成するようにしたので、感情に応じて韻律
が波打つように変化する、感情豊かな合成音を、容易に
得ることができる。

【０１０３】以上、本発明を、エンターテイメント用の
ロボット（疑似ペットとしてのロボット）に適用した場
合について説明したが、本発明は、このような現実世界
のロボットだけでなく、例えば、液晶ディスプレイ等の
表示装置に表示される仮想的なロボット（キャラクタ）
にも適用可能である。さらに、本発明は、ロボットの
他、音声合成装置を搭載した、例えば対話システムその
他にも適用可能である。

【０１０４】なお、本実施の形態においては、上述した
一連の処理を、ＣＰＵ１０Ａにプログラムを実行させる
ことにより行うようにしたが、一連の処理は、それ専用
のハードウェアによって行うことも可能である。

【０１０５】ここで、プログラムは、あらかじめメモリ
１０Ｂ（図２）に記憶させておく他、フロッピー（登録
商標）ディスク、CD-ROM(Compact Disc Read Only Memo
ry)，MO(Magnetooptical)ディスク，DVD(Digital Versa
tile Disc)、磁気ディスク、半導体メモリなどのリムー
バブル記録媒体に、一時的あるいは永続的に格納（記
録）しておくことができる。そして、このようなリムー
バブル記録媒体を、いわゆるパッケージソフトウエアと
して提供し、ロボット（メモリ１０Ｂ）にインストール
するようにすることができる。

【０１０６】また、プログラムは、ダウンロードサイト
から、ディジタル衛星放送用の人工衛星を介して、無線
で転送したり、LAN(Local Area Network)、インターネ
ットといったネットワークを介して、有線で転送し、メ
モリ１０Ｂにインストールすることができる。

【０１０７】この場合、プログラムがバージョンアップ
されたとき等に、そのバージョンアップされたプログラ
ムを、メモリ１０Ｂに、容易にインストールすることが
できる。

【０１０８】なお、本明細書において、ＣＰＵ１０Ａに
各種の処理を行わせるためのプログラムを記述する処理
ステップは、必ずしもフローチャートとして記載された
順序に沿って時系列に処理する必要はなく、並列的ある
いは個別に実行される処理（例えば、並列処理あるいは
オブジェクトによる処理）も含むものである。

【０１０９】また、プログラムは、１のＣＰＵにより処
理されるものであっても良いし、複数のＣＰＵによって
分散処理されるものであっても良い。

【０１１０】次に、図５の音声合成装置５５は、専用の
ハードウェアにより実現することもできるし、ソフトウ
ェアにより実現することもできる。音声合成装置５５を
ソフトウェアによって実現する場合には、そのソフトウ
ェアを構成するプログラムが、汎用のコンピュータ等に
インストールされる。

【０１１１】そこで、図９は、音声合成装置５５を実現
するためのプログラムがインストールされるコンピュー
タの一実施の形態の構成例を示している。

【０１１２】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク１０５やＲＯＭ１
０３に予め記録しておくことができる。

【０１１３】あるいはまた、プログラムは、フロッピー
ディスク、CD-ROM，MOディスク，DVD、磁気ディスク、
半導体メモリなどのリムーバブル記録媒体１１１に、一
時的あるいは永続的に格納（記録）しておくことができ
る。このようなリムーバブル記録媒体１１１は、いわゆ
るパッケージソフトウエアとして提供することができ
る。

【０１１４】なお、プログラムは、上述したようなリム
ーバブル記録媒体１１１からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN、インターネットといったネットワークを介
して、コンピュータに有線で転送し、コンピュータで
は、そのようにして転送されてくるプログラムを、通信
部１０８で受信し、内蔵するハードディスク１０５にイ
ンストールすることができる。

【０１１５】コンピュータは、CPU１０２を内蔵してい
る。CPU１０２には、バス１０１を介して、入出力イン
タフェース１１０が接続されており、CPU１０２は、入
出力インタフェース１１０を介して、ユーザによって、
キーボードや、マウス、マイク等で構成される入力部１
０７が操作等されることにより指令が入力されると、そ
れにしたがって、ROM１０３に格納されているプログラ
ムを実行する。あるいは、また、CPU１０２は、ハード
ディスク１０５に格納されているプログラム、衛星若し
くはネットワークから転送され、通信部１０８で受信さ
れてハードディスク１０５にインストールされたプログ
ラム、またはドライブ１０９に装着されたリムーバブル
記録媒体１１１から読み出されてハードディスク１０５
にインストールされたプログラムを、RAM(Random Acces
s Memory)１０４にロードして実行する。これにより、C
PU１０２は、上述したフローチャートにしたがった処
理、あるいは上述したブロック図の構成により行われる
処理を行う。そして、CPU１０２は、その処理結果を、
必要に応じて、例えば、入出力インタフェース１１０を
介して、LCD(Liquid CryStal Display)やスピーカ等で
構成される出力部１０６から出力、あるいは、通信部１
０８から送信、さらには、ハードディスク１０５に記録
等させる。

【０１１６】なお、本実施の形態では、周期パターン信
号とパワーパターン信号を補正するようにしたが、それ
以外に、継続時間長その他の韻律情報を補正することも
可能である。

【０１１７】また、本実施の形態では、感情の状態に基
づいて、周期パターン用制御信号や、パワーパターン用
制御信号を生成するようにしたが、感情以外の、例え
ば、ロボットの本能や成長の状態、さらには、その他の
パラメータに基づいて、周期パターン用制御信号や、パ
ワーパターン用制御信号を生成することも可能である。

【０１１８】さらに、本実施の形態においては、周期パ
ターン用周期信号やパワーパターン用周期信号の周期に
ついては、特に言及しなかったが、周期パターン用周期
信号やパワーパターン用周期信号の周期は、あまり短く
すると、合成音に、ゆらぎとなって現れることから、あ
まり短くしすぎないようにするのが望ましい。即ち、周
期パターン用周期信号やパワーパターン用周期信号の周
期は、ゆらぎとならないような、例えば、音節の継続時
間長以上とするのが望ましい。

【０１１９】また、本実施の形態では、テキストから合
成音を生成するようにしたが、その他、発音記号等から
合成音を生成することも可能である。

【０１２０】

【発明の効果】本発明の音声合成装置および音声合成方
法、並びにプログラムによれば、韻律情報を周期的に変
化させる周期信号が生成され、周期信号と韻律情報とを
加算することにより、韻律情報が補正される。そして、
その結果得られる補正韻律情報を用いて音声合成が行わ
れる。従って、合成音の韻律を容易に制御することが可
能となり、これにより、感情等の状態に応じた合成音
を、容易に生成することが可能となる。

【図面の簡単な説明】

【図１】本発明を適用したロボットの一実施の形態の外
観構成例を示す斜視図である。

【図２】ロボットの内部構成例を示すブロック図であ
る。

【図３】コントローラ１０の機能的構成例を示すブロッ
ク図である。

【図４】音声認識部５０Ａの構成例を示すブロック図で
ある。

【図５】音声合成部５５の構成例を示すブロック図であ
る。

【図６】規則合成部３２の構成例を示すブロック図であ
る。

【図７】規則合成部３２の処理を説明するフローチャー
トである。

【図８】図７のステップＳ５の処理を説明するための図
である。

【図９】本発明を適用したコンピュータの一実施の形態
の構成例を示すブロック図である。

【符号の説明】

１頭部ユニット，４Ａ下顎部，１０コントロ
ーラ，１０ＡＣＰＵ，１０Ｂメモリ，１５
マイク，１６ＣＣＤカメラ，１７タッチセン
サ，１８スピーカ，２１ＡＤ変換部，２２
特徴抽出部，２３マッチング部，２４音響モデ
ル記憶部，２５辞書記憶部，２６文法記憶部，
２７音声区間検出部，３１テキスト解析部，３
２規則合成部，３４辞書記憶部，３５生成用
文法記憶部，３６音素片記憶部，４１韻律生成
部，４２，４３演算器，４４波形生成部，４
５制御信号生成部，４６周期パターン用周期信号生
成部，４７パワーパターン用周期信号生成部，５
０センサ入力処理部，５０Ａ音声認識部，５０Ｂ
画像認識部，５０Ｃ圧力処理部，５１モデル
記憶部，５２行動決定機構部，５３姿勢遷移機構
部，５４制御機構部，５５音声合成部，１０
１バス，１０２ CPU，１０３ ROM，１０４
RAM，１０５ハードディスク，１０６出力部，
１０７入力部，１０８通信部，１０９ドライ
ブ，１１０入出力インタフェース，１１１リム
ーバブル記録媒体

───────────────────────────────────────────────────── フロントページの続き (72)発明者山田敬一東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者小林賢一郎東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者新田朋晃東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者小林恵理香東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 2C150 BA11 CA01 CA02 CA04 DA04 DA05 DA24 DA25 DA26 DA27 DA28 DF03 DF04 DF06 DF33 ED42 ED52 EF07 EF13 EF16 EF23 EF29 EF34 EF36 3C007 AS36 CS08 MT14 WA04 WA14 WB19 WB22 WB27 WC30 5D045 AA09 AB11

Claims

【特許請求の範囲】

【請求項１】少なくとも韻律情報を用いて音声合成を
行う音声合成装置であって、前記韻律情報を周期的に変化させる周期信号を生成する
周期信号生成手段と、前記周期信号と韻律情報とを加算することにより、前記
韻律情報を補正し、補正韻律情報を出力する補正手段
と、前記補正韻律情報を用いて音声合成を行う音声合成手段
とを備えることを特徴とする音声合成装置。
【請求項２】所定の制御信号を生成して出力する制御
信号生成手段をさらに備え、前記周期信号生成手段は、前記制御信号に基づいて、周
期または振幅を制御した前記周期信号を生成することを
特徴とする請求項１に記載の音声合成装置。
【請求項３】前記制御信号生成手段は、外部から供給
される、感情の状態を表す感情モデルに基づいて、前記
制御信号を生成することを特徴とする請求項２に記載の
音声合成装置。
【請求項４】前記韻律情報は、ピッチ周期のパターン
を表す周期パターン信号、または合成音のパワーのパタ
ーンを表すパワーパターン信号であることを特徴とする
請求項１に記載の音声合成装置。
【請求項５】前記周期信号生成手段は、音節の長さ以
上の周期の前記周期信号を生成することを特徴とする請
求項１に記載の音声合成装置。
【請求項６】少なくとも韻律情報を用いて音声合成を
行う音声合成方法であって、前記韻律情報を周期的に変化させる周期信号を生成する
周期信号生成ステップと、前記周期信号と韻律情報とを加算することにより、前記
韻律情報を補正し、補正韻律情報を出力する補正ステッ
プと、前記補正韻律情報を用いて音声合成を行う音声合成ステ
ップとを備えることを特徴とする音声合成方法。
【請求項７】少なくとも韻律情報を用いて音声合成を
行う音声合成処理を、コンピュータに行わせるプログラ
ムであって、前記韻律情報を周期的に変化させる周期信号を生成する
周期信号生成ステップと、前記周期信号と韻律情報とを加算することにより、前記
韻律情報を補正し、補正韻律情報を出力する補正ステッ
プと、前記補正韻律情報を用いて音声合成を行う音声合成ステ
ップとを備えることを特徴とするプログラム。
【請求項８】少なくとも韻律情報を用いて音声合成を
行う音声合成処理を、コンピュータに行わせるプログラ
ムが記録されている記録媒体であって、前記韻律情報を周期的に変化させる周期信号を生成する
周期信号生成ステップと、前記周期信号と韻律情報とを加算することにより、前記
韻律情報を補正し、補正韻律情報を出力する補正ステッ
プと、前記補正韻律情報を用いて音声合成を行う音声合成ステ
ップとを備えるプログラムが記録されていることを特徴
とする記録媒体。