JP3595041B2

JP3595041B2 - 音声合成システムおよび音声合成方法

Info

Publication number: JP3595041B2
Application number: JP23583595A
Authority: JP
Inventors: 重宣瀬戸; 孝章新居
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1995-09-13
Filing date: 1995-09-13
Publication date: 2004-12-02
Anticipated expiration: 2015-09-13
Also published as: JPH0981174A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声合成技術を利用するシステム一般に用いて好適な音声合成システムおよび音声合成方法に関する。
【０００２】
【従来の技術】
近年、音声合成技術の応用が拡大され、さらに計算機の処理能力が向上するにつれ、我々の身近における音声合成の利用がますます増え、テキスト音声変換は１つの応用アプリケーションとして気軽に利用可能になってきた。岩田他：“パソコン向けソフトウェア日本語テキスト音声合成，”日本音響学会講演論文集，２−８−１３，ｐｐ．２４５−２４６（１９９３年１０月）がその例である。
【０００３】
これらの音声合成システムは、入力されるテキストの言語解析、音韻制御、韻律制御、波形生成のいずれの処理においても原則的に一意の処理結果を得るように作られており、入力テキストが決まれば結果として得られる合成音声は常に同じものになっていた。
【０００４】
システムによっては、男声・女声、高い声・低い声など、合成音声の生成に先立ちユーザに選択させ、その選択に応じた合成音声を生成するものもあるが、選択項目が決まれば、入力テキストに対して生成される合成音声は一意に決まるという意味で、同じ枠組みであると言える。
【０００５】
【発明が解決しようとする課題】
しかしながら、入力テキストに対して同じ合成音声が生成されることは、単調で飽きがくるというだけでなく、必ずしも音声メディアの特徴を有効に利用しているとは言えない。
【０００６】
音声メディアは、テキストメディアと異なり韻律や声色の変化が加わることにより、言語表現による直接的なメッセージだけでなく、感情や意図、話者の状況やノリといった雰囲気など、付加的な情報を副次的に伝える特徴があることはよく知られている。藤崎他：“音声の韻律的特徴による発話意図の表現，”日本音響学会講演論文集，２−８−１６，ｐｐ．２２５−２２６（１９９３年３月）や、上床他：“音声の感情表現の分析とモデル化，”電子情報通信学会技術研究報告，ＳＰ９２−１３１，ｐｐ．６５−７２（１９９３年１月）などがその例である。
【０００７】
上述した現状の音声合成システムやその応用アプリケーションはいずれも、文字言語メディアの形態に表現される言語情報を単に音声メディアの形態の表現に変換するメディア変換（テキスト音声変換）としての機能は持っていても、副次的な情報をも伝えるという音声の特徴をを積極的に利用しているとは言い難い。
【０００８】
さらに、音声合成が、単独の装置としてではなく、他のシステムとの連携を行い動作する場合や、１つの応用アプリケーションとしてパーソナルコンピュータやワークステーションなどの汎用的な計算機の上で他の応用アプリケーションとともに利用される場合においても、ともに動作しているシステムやアプリケーションなどの状況や、音声合成アプリケーションが動作しているシステムがどのような状態にあるかなどの状況によらず、与えられたテキストを単に忠実に音声へ変換しているに過ぎない。
【０００９】
本発明は上記事情を考慮してなされたものでその目的は、システムの動作状況（システム状況）、あるいはユーザ自身の状況（ユーザ状況）やユーザのいる場所の環境（ユーザ環境）に応じて音韻・韻律制御を動的に変えたり、さらには入力テキストに対応した本来の合成音に併せて別の音や合成音を出力することで、ユーザにとってシステムの動作状況が把握しやすいようなシステムの出力や、ユーザの置かれている状況に適したシステムの出力が生成でき、使い勝手を向上させることができる音声合成システムおよび音声合成方法を提供することにある。
【００１０】
【課題を解決するための手段】
上述した課題を解決するため、本発明の第１の観点に係る構成は、入力テキストの言語解析を行いその解析結果に対して規則を適用して音韻・韻律的な制御を行い合成音声を生成・出力する音声合成手段に加えて、計算機内の通信状態、および計算機と外部の間の通信状態の少なくとも一方を監視し通信状態情報を出力する通信状態監視手段を備え、上記音声合成手段にあっては、上記音韻・韻律的な制御において適用する規則を通信状態監視手段から出力される通信状態情報に応じて変更するようにしたことを特徴とする。
【００１１】
本発明の第２の観点に係る構成は、上記第１の観点に係る構成における音声合成手段に相当する音声合成手段に加えて、計算機ハードウエアの動作状態、および計算機ソフトウェアの動作状態の少なくとも一方を監視し動作状態情報を出力する動作状態監視手段を備え、上記音声合成手段にあっては、上記音韻・韻律的な制御において適用する規則を動作状態監視手段から出力される動作状態情報に応じて変更するようにしたことを特徴とする。ここで、上記音声合成手段における言語解析、音韻的な制御、韻律的な制御、および音声波形生成の少なくとも１つの処理を、上記動作状態情報の示す動作状態に応じて、通信可能な有線ネットワークもしくは無線ネットワークで結ばれる複数の計算機ハードウエアに分担させるようにするとよい。
【００１２】
本発明の第３の観点に係る構成は、上記第１の観点に係る構成における音声合成手段に相当する音声合成手段に加えて、ユーザのシステム利用状況、およびユーザのシステム利用環境の少なくとも一方を監視しユーザ状況情報を出力するユーザ状況監視手段を備え、上記音声合成手段にあっては、上記音韻・韻律的な制御において適用する規則をユーザ状況監視手段から出力されるユーザ状況情報に応じて変更するようにしたことを特徴とする。ここで、ユーザ状況情報をもとに人間の発声でないことを明示すべきか否かの判断結果を出力する非自然音声明示判断手段と、この非自然音声明示判断手段の判断結果に応じ、上記入力テキストの表現の一部の変更により人間の音声でないことを明示するテキスト変更手段、および当該判断結果に応じ、合成音声の出力に併せて人間の発声でないことを明示する音を出力する非自然音声明示音出力手段の少なくとも一方とをさらに備えることも可能である。
【００１３】
上記第１の観点に係る構成においては、音声合成手段内で、まず入力テキストに対して形態素解析や統語構造解析などの周知の言語解析が行われて、形態素の系列に分解されるとともに「読み」を表す記号列と形態素の品詞、活用、アクセント型、形態素間の係り受け関係の強さなどの情報が併せて出力される。
【００１４】
また、音声合成手段内では、上記の言語解析の結果の内容に対して、それぞれ様々なレベルの規則（音韻・韻律的規則）を適用することによって、言語メディアから音声メディアへの変換に伴う合成音声の品質を左右する制御、すなわち音韻・韻律的な制御が行われ、入力テキストに対応する音声波形が生成される。
【００１５】
一方、通信監視手段は、音声合成システムの稼働する計算機内の通信状態、および計算機と外部の間の通信状態の少なくとも一方を監視する。それぞれの通信状態監視結果は、音声合成手段に伝えられる。
【００１６】
音声合成手段内では、この通信状態監視結果に応じて、上記音韻・韻律的規則の適用内容が変更される。
次に、上記第２の観点に係る構成においても、音声合成手段内では、入力テキストに対する言語解析の結果の内容に対して、それぞれ様々なレベルの音韻・韻律的規則を適用することによって、言語メディアから音声メディアへの変換に伴う合成音声の品質を左右する音韻・韻律的な制御が行われ、入力テキストに対応する音声波形が生成される。
【００１７】
一方、動作状態監視手段は、音声合成システムの稼働する計算機ハードウエアの動作状態、および計算機ソフトウェアの動作状態の少なくとも一方を監視する。それぞれの動作状態監視結果は、音声合成手段に伝えられる。
【００１８】
音声合成手段内では、この動作状態監視結果に応じて、上記音韻・韻律的規則の適用内容が変更される。
また、音声合成手段における言語解析、音韻的な制御、韻律的な制御、および音声波形生成の少なくとも１つの処理が、動作状態監視結果に応じて、通信可能な有線ネットワークもしくは無線ネットワークで結ばれる複数の計算機ハードウエアに分担させられる。
【００１９】
次に、上記第３の観点に係る構成においても、音声合成手段内では、入力テキストに対する言語解析の結果の内容に対して、それぞれ様々なレベルの音韻・韻律的規則を適用することによって、言語メディアから音声メディアへの変換に伴う合成音声の品質を左右する音韻・韻律的な制御が行われ、入力テキストに対応する音声波形が生成される。
【００２０】
一方、ユーザ状況監視手段は、ユーザのシステム利用状況、およびユーザのシステム利用環境の少なくとも一方を監視する。それぞれのユーザ状況監視結果は、音声合成手段に伝えられる。
【００２１】
音声合成手段内では、このユーザ状況監視結果に応じて、上記音韻・韻律的規則の適用内容が変更される。
また、非自然音声明示判断手段と、テキスト変更手段および非自然音声明示音出力手段の少なくとも一方とをさらに備えた構成では、入力テキストの表現の一部の変更（例えば、入力テキストに対する定型表現の追加）によって人間の音声でないことを明示するテキスト変更、あるいは合成音声の出力に併せて人間の発声でないことを明示する音の出力がなされる。すなわち、本来の合成音に併せて別の音や合成音が出力される。
【００２２】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
［第１の実施形態］
図１は本発明の音声合成システムの第１の実施形態を示すブロック構成図である。
【００２３】
図１のシステムの中心をなす音声合成部１１は、入力テキストの言語解析を行う言語解析部１１１と、その解析結果に対して規則を適用して、音韻的な制御を行う音韻制御部１１２と韻律的な制御を行う韻律制御部１１３と、音韻制御部１１２および韻律制御部１１３の制御に従い音声波形を生成する波形生成部１１４と、生成された波形を出力する波形出力部１１５とから構成されている。この音声合成部１１の構成の枠組みについては、既存のテキスト音声変換可能な音声合成システムの一般的な構成法がそのまま利用できる。テキスト音声合成システムの一般的な構成法としては、例えば佐藤他：“日本語テキストからの音声合成，”電気通信研究所研究実用化報告，Ｖｏｌ．３２，Ｎｏ．１１，ｐｐ．２２４３−２２５２（１９８３年１１月）などが利用できる。
【００２４】
音声合成部１１内の言語解析部１１１は、入力テキストに対して形態素解析や統語構造解析などの言語解析を行い、形態素の系列に分解するとともに「読み」を表す記号列と形態素の品詞、活用、アクセント型、形態素間の係り受け関係の強さなどの情報を併せて出力する。
【００２５】
音声合成部１１内の音韻制御部１１２および韻律制御部１１３は、これら言語解析部１１１での言語解析結果の内容に対して、それぞれ様々なレベルの規則を適用することによって、言語メディアから音声メディアへの変換に伴う合成音声の品質を左右する制御を行う。
【００２６】
具体的には、アクセント単位の認定（すなわち、未知語へのアクセント付与、アクセント結合、複合語のアクセント分割、付属語連鎖に対する副次アクセントの付与などが含まれる）、読みの認定（すなわち、未知語への読み付与、連濁処理、表記から読みへの変換などが含まれる）、１つの韻律的なまとまりとするためのいわゆる韻律語（アクセント句）連鎖のまとまりの認定（すなわち、韻律句境界の付与がこれに相当する）、韻律制御パラメータ値決定（すなわち、ピッチの時間変化パターンを生成するモデルのパラメータ値の決定、音韻・ポーズのタイミングの決定、パワーの決定）、読みに対応する蓄積パターンの検索および蓄積素片の選択（すなわち、蓄積単位への変換、検索条件への変換、複数の検索結果を得たときの選択などが含まれる）、蓄積素片の編集（すなわち、蓄積素片間の接続、補間加工などが含まれる）といった各段階の処理をそれぞれの規則によって行う。
【００２７】
このうち、音韻制御部１１２においては、読みの認定、読みに対応する蓄積パターンの検索および蓄積素片の選択、蓄積素片の編集を、韻律制御部１１３においては、アクセント単位の認定、韻律語（アクセント句）連鎖のまとまりの認定、韻律制御パラメータ値決定を担当する。これらの各段階の処理や規則は任意の分類が可能であり、システムの実装形態によって上記の分類とは異なる場合や省略される場合もあるが、基本的にはこれらの内容に沿った処理が行われる。また、システムの実装形態によっては、前段の言語解析部１１１や後段の波形生成部１１４との境界も様々であるが、ここでは、上記の音韻的な制御を行うものとして音韻制御部１１２を、同じく上記の韻律的な制御を行うものとして韻律制御部１１３を、それぞれ定義している。
【００２８】
韻律制御部１１３は、言語解析部１１１での形態素解析結果にこれらの規則を適用して、形態素系列の読みに対応する個々の音韻やポーズなどのタイミングを決め、形態素系列あるいは読みに対応する音韻の系列を韻律語（アクセント句）というアクセント付与のための韻律制御上の単位に分割するとともに、意味上の文構造上や生理的な制約による呼気段落上のまとまりを形成し、いわゆる韻律句と呼ばれる話調成分付与のための韻律制御上の単位へ韻律語系列を分割し、各韻律制御上の単位に対して、タイミングを考慮して、アクセントや話調の成分の大きさを与えるパラメータ値を決めピッチを決定する。韻律制御部１１３はさらに、形態素系列あるいは読みに対応する音韻の系列あるいはピッチなどをもとにパワー包絡を決定する。
【００２９】
一方、音韻制御部１１２は、読みに対応する音韻の部分系列に対して、音声波形、あるいは音声波形の分析パラメータ、あるいはその両方を対応させた蓄積素片を格納しておく蓄積データ格納部１１２１を有しており、この蓄積データ格納部１１２１に格納されている蓄積素片のバリエーションを考慮して、形態素系列の読みに当たる音韻の部分系列に対応する蓄積素片の系列を決定する。
【００３０】
本実施形態において、上記した音韻制御部１１２および韻律制御部１１３で適用される規則は、計算機内の通信状態や計算機外との間の通信状態に応じて切り替えられるようになっているが、これについては後述する。
【００３１】
音声合成部１１内の波形生成部１１４は、音韻制御部１１２の出力する蓄積素片系列を接続し、韻律制御部１１３の出力する制御情報、すなわち、タイミング、ピッチ、パワー包絡に従い、信号処理レベルでの韻律制御を行って、音声波形を生成する。
【００３２】
音声合成部１１内の波形出力部１１５は、音声合成部１１により生成された音声波形を例えばスピーカーやイヤホーン等から出力する。
さて、本実施形態において、音韻制御部１１２が持つ蓄積データ格納部１１２１に格納される蓄積素片、音韻制御部１１２で利用される規則、および韻律制御部１１３で利用される規則は、生成したい合成音声の調子に合う自然音声データを収集しておき、そのデータから予め作成しておいたものである。例えば、対話調の音声を合成したい場合は模擬対話音声を収集したり、ささやき声、早口の声、疲れた様子の音、元気の良い声、雑踏の中で（あるいは雑踏環境を模擬したところで）発声した声、落ち着いた声、様々な人の声をできるだけ大量に収集し、それぞれのピッチやパワー、時間長の分析結果から、それぞれの声に対応した規則や蓄積データを導出する。
【００３３】
様々な状況における音声が、それぞれ異なる傾向の音韻的・韻律的な特徴を有することは従来からの研究で指摘されており、様々な音声データから導かれた韻律の制御規則が異なる傾向を示すことは、平井他：“種々の音声コーパスから自動生成されたＦ_０制御規則の違いについて，”日本音響学会講演論文集，２−５−３，ｐｐ．２７１−２７２（１９９４年１０月〜１１月）においても実際のデータとともに示されている。
【００３４】
音声データからの規則の導出に関しては従来から研究例が多数ある。例えば、広瀬他：“音声合成とアクセント・イントネーション，”電子情報通信学会誌，Ｖｏｌ．７０，Ｎｏ．４，ｐｐ．３７８−３８５（１９８７年４月）、三村他：“統計的手法を用いた音声パワーの分析と制御，”日本音響学会誌，Ｖｏｌ．４９，Ｎｏ．２，ｐｐ．２５３−２５９（１９９３年１２月）、海木他：“発話速度による文音声のポーズ長変化の分析，”日本音響学会講演論文集，１−５−１６，ｐｐ．２４７−２４８（１９９２年１２月）などがあり、規則の抽出に利用できる。
【００３５】
それぞれの環境について抽出された制御規則および蓄積素片には、音声合成時に利用するための抽出環境に関する情報、即ち、対話調であるとか、ささやき声、早口の声、疲れた様子の声、元気の良い声、雑踏の中での声、落ち着いた声、などの音声データの収集状況の情報が付加される。
【００３６】
周知のように、既存の音声合成システムの音韻的・韻律的な制御規則や蓄積データは、本質的には、言語的な環境（例えば、形態素、品詞、活用など）および音韻的・韻律的な環境（例えば、音韻の並び、アクセント型とアクセント核、ピッチ、パワー包絡、タイミングなど）と制御内容（例えば、読み記号列、アクセント結合情報、韻律パラメータ値、蓄積素片の選択優先度など）や音声波形・分析パラメータとの対応として捉えることができる。
【００３７】
そこで本実施形態では、この対応関係に規則の抽出環境を加え、抽出した制御規則や蓄積データを、言語的な環境、音韻的・韻律的な環境および規則の抽出環境と、制御内容や音声波形・分析パラメータとの対応として記述している。
【００３８】
このように、複数の規則や蓄積データを備え、さらに、それらを音声合成部１１（内の言語解析部１１１および音韻制御部１１２）が適宜選択して使用することにより、合成音声の声の調子にバリエーションを与えることができる。
【００３９】
そこで本実施形態では、上述した音声合成部１１に加えて、当該音声合成部１１での規則選択の条件を決定するための情報を与える手段として、通信状態監視部１２が設けられている。この通信状態監視部１２は、音声合成システムが稼働する計算機内の通信状態を監視する計算機内通信状態監視部１２１と、当該計算機と外部の間の通信状態を監視する計算機外通信状態監視部１２２とを有している。
【００４０】
通信状態監視部１２内の計算機内通信状態監視部１２１は、同一計算機内で動作するソフトウェア間、ハードウェア間、あるいはソフトウェアとハードウェアの間の通信状況ないしは通信路の品質からなる通信状態を監視する。説明を簡単にするために、ここでは互いに通信を行うハードウェアあるいはソフトウェアをそれぞれ通信者Ａおよび通信者Ｂと簡略化して表現する。すなわち通信者Ａと通信者Ｂとの間で通信が行われているものとする。
【００４１】
計算機内通信状態監視部１２１は、これらの間で交わされる通信状態を知るために、この通信を媒介するソフトウェアないしはハードウェア（便宜的にここでは、通信媒体と呼ぶことにする）に問い合わせ、通信状況（例えば、情報の送り手、通信量や通信量の時間的な変化、通信の頻度、送る予定のデータ総量、既に送ったデータ量など）や通信路の品質（例えば、データ転送速度やエラー発生頻度など）を通知してもらう。これらの通知は、必ずしも問い合わせが必要なわけではなく、問い合わせがなくても通信媒体側から計算機内通信状態監視部１２１に適当なタイミングで通知するようにしても構わない。
【００４２】
このような通信媒体として、オペレーティングシステムやオペレーションシステム（以下、ＯＳと称する）の提供する既存の機能（例えば、メッセージング機能を実現できるＷｉｎｄｏｗｓのＤＤＥ＝ＤｉｎａｍｉｃＤａｔａＥｘｃｈａｎｇｅや、クリップボードを使ったデータの受け渡し）や、ウィンドウシステムの提供する既存の機能（例えば、ＸＷｉｎｄｏｗＳｙｓｔｅｍにおけるイベントやセレクションバッファ、Ｗｉｎｄｏｗｓのｍｅｓｓａｇｅなどが一例である）、あるいは、サーバ・クライアントモデルで実装された各種サービスが利用できる。もちろん、既存システムを利用するだけでなく、同様のメカニズムを持つように新たなシステムを組むことも可能である。
【００４３】
また、通信者Ａと通信者Ｂで交わされる通信状態を知るために、通信媒体を介さずに直接、通信者Ａと通信者Ｂに問い合わせる仕組みにしてもよい。この場合、通信者Ａおよび通信者Ｂがそれぞれ持っている、通信を行う機能を持つ部分（便宜的に、通信部と呼ぶことにする）に対して計算機内通信状態監視部１２１が問い合わせ、上記と同様に通信状態を通知してもらう。もちろん、上記と同様に、問い合わせがなくても適宜、通信者Ａおよび通信者Ｂがそれぞれ持っている通信部が計算機内通信状態監視部１２１に適当なタイミングで通知するようにしても構わない。
【００４４】
計算機内通信状態監視部１２１は、このようにして取得した通信状態に関する情報をもとに、例えば、通信量が大きい／小さい、送るべきデータ総量が多い／少ない、既に通信が済んだデータの割合が大きい／小さい、データ転送速度が速い／遅いといった情報を通信状態情報として音声合成部１１に送る。これらの情報は、取得した数値のまま通信状態情報としてもよいし、計算機内通信状態監視部１２１内で閾値と比較して離散的なレベルにまるめて通信状態情報としてもよい。
【００４５】
一方、通信状態監視部１２内の計算機外通信状態監視部１２２は、計算機外との通信状態を監視する。この計算機外通信状態監視部１２２においても、上記した計算機内通信状態監視部１２１と同様に、通信媒体を介して通信状態を取得する構成とすることができる。通信媒体としては、同じように、ＯＳやＯＳの提供する既存の機能（メッセージング機能）や、ウィンドウシステムの提供する既存の機能（例えば、イベント）、あるいは、サーバ・クライアントモデルで実装された各種サービス（例えば、ＮｅｔｗｏｒｋＦｉｌｅＳｙｓｔｅｍやプリンタのデーモン等）の他、モデムのように計算機外とのデータ通信が可能なデバイスやドライバが利用できる。もちろん、既存システムを利用するだけでなく、同様のメカニズムを持つように新たなシステムを組むことも、上記と同様に可能である。
【００４６】
音声合成部１１は（通信状態監視部１２内の）計算機内通信状態監視部１２１および計算機外通信状態監視部１２２からそれぞれ通信状態情報を受け取り、当該通信状態情報に応じて音韻制御部１１２および韻律制御部１１３においてそれぞれ適用する制御規則や蓄積データを選択する。
【００４７】
ここで、通信状態情報と選択する制御規則および蓄積データとの対応関係は、音韻制御部１１２および韻律制御部１１３に定めておく。例えば、通信量大あるいは通信の頻度が大きい場合は早口にしたり、非常に大きい場合には緊迫した声にしたり、逆に、通信量小あるいは通信の頻度が小さい場合は、ピッチのダイナミックレンジを大きく、落ち着いた声にしたり、ポーズを多めに挿入したり、ゆったりした声にする。通信残量が多い場合はのんびりした声に、残り少なくなってくるにつれ、ピッチを高めにしたり早口にしたりする。通信路の品質が悪い場合には、元気のない声やピッチに不規則な揺らぎを重畳させ声質を変える。転送速度が速ければ軽快な声を、遅ければ重苦しい声にするなどの対応関係が例として挙げられる。
【００４８】
このように、言語解析部１１１での解析結果に対して音声合成部１１（内の言語解析部１１１および音韻制御部１１２）において適用する制御規則や蓄積データを、通信状態監視部１２（内の計算機内通信状態監視部１２１または計算機外通信状態監視部１２２）から出力される通信状態情報（の示す通信状態）に応じて切り替えて（変更して）合成音声を出力することにより、ユーザは、合成音声の声の調子から、その時点における計算機内の通信状態、あるいは計算機外との間の通信状態を知ることができる。
【００４９】
なお、上述の対応関係はあくまで例であって、音声合成システムのユーザの好みに応じて変更可能にしても構わない。また、計算機内通信状態監視部１２１で監視される計算機内の通信状態と、計算機外通信状態監視部１２２で監視される計算機外の通信状態のそれぞれについて、独立に対応関係を設定しても構わない。
【００５０】
また、以上の実施形態では、通信状態監視部１２には、計算機内通信状態監視部１２１および計算機外通信状態監視部１２２の両方が設けられているものとしたが、いずれか一方だけが設けられているものであっても構わない。
［第２の実施形態］
図２は本発明の音声合成システムの第２の実施形態を示すブロック構成図である。なお、図１と同一部分には同一符号を付してある。
【００５１】
まず、図２の構成の特徴は、音声合成部１１に加えて、計算機ハードウェアの動作状態を監視するハードウェア状態監視部２２１と計算機ソフトウエアの動作状態を監視するソフ卜ウェア状態監視部２２２とを有する動作状態監視部２２が設けられている点である。これに伴い、図２における音声合成部１１内（の音韻制御部１１２および韻律制御部１１３）の機能も、以下に述べるように図１中の音声合成部１１（内の音韻制御部１１２および韻律制御部１１３）とは異なるが、便宜上同一符号を付してある。
【００５２】
動作状態監視部２２内のハードウェア状態監視部２２１は、音声合成システムの稼働する計算機ハードウェアの動作状態を示すパラメータを直接測定したり、あるいは、計算機ハードウェアもしくはそのソフトウェアドライバに動作状態を問い合わせたり、あるいは、計算機ハードウェアもしくはそのソフトウェアドライバ自体から適当なタイミングで動作状態を通知されることによって、計算機ハードウェアの動作状態を監視する。
【００５３】
例えば、システムを構成するハードウェアに供給される電源電圧の高さや安定性、カード、プリンタ、キーボード、マウス等のデバイス（周辺機器）やネットワークケーブル等、システムに接続されているハードウェアの接続状況（接続されているか否か、さらには利用可能な状態か否か）を監視する。
【００５４】
ハードウェア状態監視部２２１は、このようにして取得したハードウェア状態に関する監視結果をもとに、例えば、電源電圧が十分高い／高い／やや低い／低い／かなり低い、十分安定している／安定している／やや不安定／非常に不安定、などにランク分けされる電源品質に関する情報、あるいは、ハードウェアが利用可能な状態にある／待機状態にある／接続が切れているといった動作状態情報を音声合成部１１に送る。
【００５５】
なお、上記の分類は一例であり、必要に応じて任意の分類が可能である。また、適当な閾値を設定し、これと比較して離散的なレベルにまるめてもよいし、取得した数値のまま動作状態情報としてもよく、上記の分類に限定されるものではない。
【００５６】
音声合成部１１は（動作状態監視部２２内の）ハードウェア状態監視部２２１から動作状態情報を受け取り、当該動作状態情報に応じて音韻制御部１１２および韻律制御部１１３においてそれぞれ適用する制御規則や蓄積データを選択する。
【００５７】
ここで、動作状態情報と選択する制御規則および蓄積データとの対応関係は、前記第１の実施形態における通信状態情報と選択する制御規則および蓄積データとの対応関係と同様に、音韻制御部１１２および韻律制御部１１３に定めておく。この対応関係は、例えば、品質の高い電源電圧が十分安定して供給されている場合は通常の韻律制御や声色で合成音声を生成するが、電源電圧が下がり始めたり不安定な場合には、少し元気のない声に対応する蓄積データを選択するような規則を選択したり、ゆったりした口調になるような規則に切り替えたり、ピッチの上げ下げを弱めたりするような規則を選択したり、おとなしい声になるような規則を選択したりするなどの対応関係が例として挙げられる。もちろん、この対応関係はあくまで例であって、音声合成システムのユーザの好みに応じて変更可能にしても構わない。そして、これらの規則の対応関係の変更は、上記と逆の印象を与えるように選択であっても構わない。
【００５８】
音声合成部１１内の韻律制御部１１３および音韻制御部１１２では、このような対応関係に従って選択された規則を用いることで、生成・出力する合成音声の韻律的・音韻的な品質を制御する。これによりユーザは、合成音声の声の調子から、その時点における計算機ハードウェアの状態を知ることができる。
【００５９】
ところで、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）に代表される可搬型システム（携帯機器）では、表示に利用できる面積が小さいことから、システムの動作状態情報を提示するために割り当てる面積を大きくとるのは非効率的であるが、過度に小さくすればユーザに注意を促すという本来の目的が満足できなくなる可能性がある。一般に、可搬型のシステムの場合、供給される電源の安定性は、整備された環境にある固定型のシステムに比較して低いのが普通である。そこで、可搬型システムにおいて、このような動作状態情報について、韻律や声質を制御することによって副次的に伝えることは有効である。電源電圧と同様、ハードウェアの接続状況も、一般のユーザが普段は比較的意識せず、見落としがちであるが、これも接続状況の変化に応じて韻律や声質に変化を与えれば、ユーザにそれとなく知らせることができる。
【００６０】
一方、動作状態監視部２２内のソフ卜ウェア状態監視部２２２は、音声合成システムの稼働する計算機のプロセッサ（ＣＰＵ）やメモリ、ハードディスク等の計算機資源をある（ターゲットとする）ソフトウェア（プロセス）がどれだけ占有しているか、あるいは、逆の観点から言えば、あるソフトウェアがどれだけ処理を待たされているかといった、限られた計算機資源の分配に起因するソフトウェアの動作状態を監視したり、あるソフトウェアが今どのような入力を受け付ける状態にあるか、例えば、入力デバイスの種類や入力内容の種類として何が有効であるか、また、あるソフトウェアが今どのような情報を提示しているか、例えば、提示情報の出所や提示内容の種類といった動作モード（場面）に対応するソフトウェアの動作状態を取得する。
【００６１】
このようなソフトウェアの動作状態は、ソフ卜ウェア状態監視部２２２が、当該ソフトウェアの動作しているＯＳに対して問い合わせ、通知してもらうことによって取得したり、当該ソフトウェア自体に、動作状態を直接問い合わせると通知する通知部（通知機能）を付加しておくことによって取得する。もちろん、問い合わせがなくても、ソフトウェア自身がその動作状態をソフ卜ウェア状態監視部２２２に適当なタイミングで通知する仕組みを用意することも可能である。
【００６２】
ここで、取得するソフトウェアの動作状態情報としては、例えばメモリ使用量やソフトウェア状態、ＣＰＵの占有率や占有時間累計、動作優先度等の情報が一例として挙げられる。これらの情報は、既存のＯＳのシステムコールやライブラリを利用して取得可能である。また、現在受け付ける入力の種類や提示している情報の種類を通知する通知部を備えたソフトウェアを新たに作成してもよい。
【００６３】
一般に、同一のアプリケーションでも動作モード（場面）に応じて受け付ける入力の種類は動的に変化する。例えば、メールの送受信を行うメールアプリケーションは、届いたメールのリストを表示する状態、そのうちの選択されている１つのメールの内容を表示する状態、送信したいメールの文面を編集する場面、編集したメールを送信する場面などがあって、それぞれの場面によって、同じキー入力が有効になるか無視されるか、有効であった場合にどういう動作をするかが変わってくる。また、音声認識入力を受け付けるソフトウェアの場合には、今どのような認識語彙が入力可能であるかといった情報が「受け付けられる入力の種類」に相当し、さらに、認識語彙だけでなくそれぞれの認識語彙に対応する動作もソフトウェアの動作モード（場面）に応じて動的に変化する。
【００６４】
一方、電子メールのアプリケーションでは、誰から送られたメールであるとか、極秘扱いの内容であるといった、情報の出所や内容を表す情報を文字列照合や言語解析によって取得し、これらの動作モードや提示情報の出所や提示内容の種類を動作情報としてソフトウェア動作状態監視部２２２に伝える。ここでは、メールのアプリケーションを例に挙げたが、電子ネット掲示板や電子ネット上の情報提供システムのように、複数の情報源からの情報をブラウジングする応用ソフトウェアにおいても全く同様のことが適用できる。
【００６５】
ソフトウェア状態監視部２２２は、このようにして取得したソフトウェアの動作状態に関する情報をもとに、例えば、メモリの占有が大きい／小さい、ＣＰＵの占有時間累計が長い／短い、認識語彙の組合せがどのセットであるか、どのような動作モードにあるか、情報の出所はどこか、情報の内容の種類が何であるかを示す情報を動作状態情報として音声合成部１１（内の音韻制御部１１２および韻律制御部１１３）に送る。
【００６６】
音声合成部１１では、ソフトウェア状態監視部２２２からの動作状態情報を受け取ると、音韻制御部１１２および韻律制御部１１３においてそれぞれ適用する規則や蓄積データを当該動作状態情報に応じて選択する。これにより、例えばメモリの占有が大きいとか、ＣＰＵの占有時間累計が長い場合には、元気のない声や申し訳なさそうな声を生成して、システムの状況をユーザにそれとなく伝えたり、逆に早口の口調とすることでユーザ自らの処理を促したりすることが可能となる。また、情報の出所に応じて、アクセントやフレーズを変えるための規則を選択し、地域色を音声に反映することで、情報の出所の違いをユーザに意識させることが可能となる。また、情報提供者の声の蓄積データがあれば、それを使うことで、情報提供者を簡単に判別できるようにすることも可能である。また、電話等でリモート操作する場合や、携帯機器で表示面積が小さい場合に、あるソフトウェアが現在どのような入力を受け付ける状態にあるか（その入力デバイスの種類と入力内容の種類）に応じて、韻律や声色に変化を与えることで、ユーザは次に何を入力すべきかや、現在の「場面」を、出力される合成音声の調子から知ることができる。
【００６７】
ここで、動作状態情報（ソフトウェアの動作状態情報）と選択する制御規則および蓄積データの対応関係は、上述した計算機ハードウェアの動作状態情報と選択する制御規則および蓄積データの対応関係の場合と同様に、音韻制御部１１２および韻律制御部１１３に定めておく。
【００６８】
このように、言語解析部１１１での解析結果に対して音声合成部１１（内の音韻制御部１１２および韻律制御部１１３）において適用する制御規則や蓄積データを、動作状態監視部２２（内のハードウェア状態監視部２２１またはソフ卜ウェア状態監視部２２２）から出力される動作状態情報に応じて切り替えて（変更して）合成音声を出力することにより、ユーザは、合成音声の声の調子から、その時点における計算機ハードウェアの状態、あるいは計算機ソフトウェアの状態を知ることができる。
【００６９】
さて、本実施形態における音声合成部１１では、言語解析部１１１、音韻制御部１１２、韻律制御部１１３、波形生成部１１４、および波形出力部１１５のそれぞれが単独で動作するようにモジュール化しておき、互いのデータの授受の形式がネットワークを通じたものであっても、同一の実行プロセス内でのデータの授受でも処理が可能になるようにしてある。また、上記各部の全体の処理手続きおよびその部分的な処理手続きが互いに別のプロセスとして分離可能にしておき、分離されたプロセスは、処理結果を元のプロセスに返すようにしておく。このようなシステムの実装は、マルチタスクＯＳ上ならば、子プロセスの生成と子プロセスとのソケット通信などのシステムコール、ライブラリを用いて容易に実装可能である。
【００７０】
音声合成部１１は、動作状態監視部３２から動作状態情報を受け取ると、メモリの残量やＣＰＵの占有時間や占有率から判断して、当該音声合成部１１を構成する言語解析部１１１から波形出力部１１５に至る音声合成処理を進めるに当たってメモリやＣＰＵ能力など十分な計算機資源が確保されているか否かをチェックする。そして音声合成部１１では、メモリが不足する可能性がある場合や、ＣＰＵの負荷状況から十分な計算機資源が確保できないと判断される場合には、現在までに処理が進んでいる段階よりも後の処理のうち適当なものを別の計算機ハードウェアに別プロセスとして分担させ、処理結果を受け取るようにする。
【００７１】
ここで、どの処理を分担させるかは、処理に必要なＣＰＵ能力やメモリ量から判断するが、これは音声合成方式の種類や蓄積データの規模によって変わるものである。例えば、分析パラメータ合成方式の場合は、波形生成部１１４における信号処理、次いで音韻制御部１１２における蓄積データの編集加工の処理に資源が多く使われ、波形素片編集型の音声合成方式では、蓄積データの検索がＣＰＵパワーを最も要する。分析パラメータ合成方式においても、蓄積データが持つ蓄積素片の種類が多いほど蓄積データの検索時間は多くかかる。したがって、どの処理を分担させるかは、合成方式や蓄積データの規模によって適当な優先順位をつけて、それに従って分担させる処理を決めればよい。
【００７２】
ところで、音声合成部１１の言語解析や音韻・韻律的な制御における規則の適用は、いずれも多くの規則適用の可能性を数え上げ、その規則を適用した場合の結果を評価することによって、処理が進められる。これらの処理を１つの計算機上で順次実行するのは必ずしも効率的でなく、規則の適用可能性と規則適用を仮定した場合の評価を同時並行して処理する方が効率的である。適用される規則が固定的であれば、ある程度チュ−ニングすることにより順次処理をさせることによって問題は比較的顕れにくくすることも可能であるが、本発明のように適用される規則が動的に変更される場合には、同時並行的な処理をする方が効率的である。
【００７３】
そこで本実施形態では、上述の規則の適用可能性と規則適用を仮定した場合の評価を同時並行して処理するようにしている。この並行処理は、計算機が接続されたネットワーク上の他の計算機にリモートプロセスとして実行させたり、同じ計算機上の副プロセッサに分担させることもできる。
【００７４】
このように本実施形態においては、音声合成部１１を構成する言語解析部１１１から波形出力部１１５に至る音声合成処理を進める上で、動作状態監視部３２からの動作状態情報により十分な計算機資源が確保できないと判断される場合には、現在までに処理が進んでいる段階よりも後の処理のうち適当なものを別の計算機ハードウェアに別プロセスとして分担させたり、言語解析や音韻・韻律的な制御における規則の適用可能性と規則適用を仮定した場合の評価を、計算機が接続されたネットワーク上の他の計算機や同じ計算機上の副プロセッサに分担させて同時並行して処理させることで、効率的な処理を実現し、ユーザの待ち時間を減らすようにしている。
【００７５】
なお、以上の実施形態では、動作状態監視部２２には、ハードウェア状態監視部２２１およびソフ卜ウェア状態監視部２２２の両方が設けられているものとしたが、いずれか一方だけが設けられているものであっても構わない。
［第３の実施形態］
図３は本発明の音声合成システムの第３の実施形態を示すブロック構成図である。なお、図１と同一部分には同一符号を付してある。
【００７６】
まず、図３の構成の特徴は、音声合成部１１に加えて、ユーザのシステム利用状況を監視する利用者状態監視部３２１と、ユーザのシステム利用環境を監視する利用者環境監視部３２２とを有するユーザ状況監視部３２が設けられている点である。これに伴い、図３における音声合成部１１内（の音韻制御部１１２および韻律制御部１１３）の機能も、以下に述べるように図１中の音声合成部１１（内の音韻制御部１１２および韻律制御部１１３）とは異なるが、便宜上同一符号を付してある。
【００７７】
ユーザ状況監視部３２内の利用者状態監視部３２１は、ユーザのシステムの利用状況（利用者状態）を得るための入力デバイスや時計、利用履歴の少なくとも１つからの情報を監視し、例えばユーザがどの程度集中してシステムを利用しているかといったシステム利用状況監視結果を取得する。入力デバイスとしては、例えば、カメラなどが利用できる。カメラの捉えたユーザの頭の向きを精度よく推定することは可能であり、ある一定時間中にどの程度長く安定してシステムの方向（正面）を向いているのか否か（他を向いているか）をもって、ユーザの集中度として評価する。また、マウスに代表されるポインティングデバイス、キーボード等、ユーザの入力操作のための入力デバイスについて、ユーザの操作状況（入力操作頻度、入力操作時間、ポインティングデバイス移動速度・距離など）を監視することも可能である。この他、時計、利用履歴については、同じ曜日、同じ時間帯にどのような利用状況にあったかを記録しておくことで、利用状況の推定精度を高めるのに用いられる。
【００７８】
利用者状態監視部３２１は、このようにして取得したユーザのシステム利用状況に関する情報をもとに、ユーザの集中度や、ユーザの操作状況を示す情報をユーザ状況情報として音声合成部１１（内の音韻制御部１１２および韻律制御部１１３）に送る。
【００７９】
音声合成部１１では、利用者状態監視部３２１からのユーザ状況情報を受け取ると、音韻制御部１１２および韻律制御部１１３においてそれぞれ適用する規則や蓄積データを当該ユーザ状況情報に応じて選択する。これにより、例えば集中度が予め定めた閾値以下の場合には、パワーを大きくしたり、文頭では発話速度が小さく（遅く）なるような規則を適用することで、ユーザに集中するように注意を促すことが可能となる。
【００８０】
一方、ユーザ状況監視部３２内の利用者環境監視部３２２は、ユーザがシステムを利用している場所の環境（利用者環境）を得るための入力デバイスや時計、利用履歴の少なくとも１つからの情報を監視し、例えばユーザがどのような音環境（周囲雑音環境）下に居るかとか、どの程度の明るさの場所に居るかとか、ユーザの物理的な居場所（位置）といったシステム利用環境監視結果を出力する。このような入力デバイスとして、例えば、周囲雑音を集音するマイクロフォンや、ＧＰＳなどの位置推定デバイス、さらには明るさセンサ、カメラ、ガスセンサ、水センサなどが挙げられる。この他、時計、利用履歴については、同じ曜日、同じ時間帯にどのような利用環境にあったかを記録しておくことで、利用環境の推定精度を高めるのに用いられる。
【００８１】
利用者環境監視部３２２は、このようにして取得したユーザのシステム利用環境に関する情報をもとに、周囲雑音のスペクトル特徴やレベル、明るさ、ユーザの居場所（位置）等を示す情報をユーザ状況情報として音声合成部１１（内の音韻制御部１１２および韻律制御部１１３）に送る。
【００８２】
音声合成部１１では、利用者環境監視部３２２からのユーザ状況情報を受け取ると、音韻制御部１１２および韻律制御部１１３においてそれぞれ適用する規則や蓄積データを当該ユーザ状況情報に応じて選択する。これにより、例えば高周波数成分に優勢な雑音がある場合には、はっきり聞こえるように高いピッチの声になるように韻律制御規則を適用したり高周波数成分の優勢な蓄積素片を選択するように音韻制御規則を適用するとか、雑音レベルが低い静かなところでは、静かな声あるいは落ち着いた声になるような規則を適用することができる。また、明るい場所で利用する際はピッチが高めで発話速度が早くなるように、暗い場所で利用する際には発話速度を遅く、ピッチのダイナミックレンジは広くなるように韻律規則を適用することで、明るい場所に比較して暗い場所では比較的落ちついた印象を与えることもできる。このような対応関係は、ユーザの好みに応じて変更可能としても構わない。
【００８３】
なお、以上の実施形態では、ユーザ状況監視部３２には、利用者状態監視部３２１および利用者環境監視部３２２の両方が設けられているものとしたが、いずれか一方だけが設けられているものであっても構わない。
［第４の実施形態］
図４は本発明の音声合成システムの第４の実施形態を示すブロック構成図である。なお、図３と同一部分には同一符号を付してある。
【００８４】
まず、図４の構成の特徴は、図３の構成（の音声合成部１１およびユーザ状況監視部３２）に加えて、非自然音声明示判断部４１と、テキスト変更部４２が設けられている点である。これに伴い、図４における音声合成部１１（内の言語解析部１１１等）の機能も、以下に述べるように図３中の音声合成部１１（内の言語解析部１１１等）とは異なるが、便宜上同一符号を付してある。
【００８５】
まず非自然音声明示判断部４１は、ユーザ状況監視部３２の出力するユーザ状況情報をもとに、人間の発声でないこと（非自然音声であること）を明示すべきか否かを判断し、その判断結果（非自然音声明示判断結果）を出力する。例えば、ユーザ状況情報においてユーザが集中していないことを示している場合や、これまであまり合成音声の出力をしたことのない時間帯や場所であることを示している場合には、人間の発声でないことを明示すべきであるという判断結果を出力する。
【００８６】
テキスト変更部４２は非自然音声明示判断部４１からの非自然音声明示判断結果を受け取り、当該判断結果が人間の発声でないことを明示すべきことを示している場合には、入力テキストに対応する合成音声の出力に先立ち（すなわち、言語解析部１１１での入力テキストに対する言語解析結果を音韻制御部１１２および韻律制御部１１３に出力して、対応する音声波形を生成・出力させるのに先立ち）、音声合成によるメッセージ出力が始まることを予告する「合成音です」「システムからのお知らせです」などの定型表現を前置する。音声合成部１１は、このテキスト変更部４２によって前置された語彙を含めて合成出力する。
【００８７】
このようにして、例えばユーザが集中していない場合や、これまであまり合成音声の出力をしたことのない時間帯や場所での利用の場合に、音声合成によるメッセージ出力が始まることを予告する（非自然音声であることを明示する）合成音を、入力テキストに対応する合成音声の出力に先立って出力することで、そのような状況をユーザに知らせることができる。特に、高品質で肉声に近い合成音声が出力される状況では、人の声がする利用者環境のもとでの利用の場合に、非自然音声であることを明示する合成音を前置することで、周囲の人の声と紛らわしくしないとか、非自然音声であることを明示しないことで、合成音であることを強調して注意を集めるのを避けることが可能である。
［第５の実施形態］
図５は本発明の音声合成システムの第５の実施形態を示すブロック構成図である。なお、図４と同一部分には同一符号を付してある。
【００８８】
まず、図５の構成の特徴は、図４で示したテキスト変更部４２に代えて、人間の発声でないことを明示する音（非自然音声明示音）を出力する非自然音声明示音出力部４３が設けられている点である。これに伴い、図４における音声合成部１１の機能も、例えば当該音声合成部１１内の波形出力部１１５が、波形生成部１１４により生成される合成音声と、非自然音声明示音出力部４３の生成する非自然音声明示音とを混合する機能を有しているというように、図４中の音声合成部１１（内の波形出力部１１５等）とは異なるが、便宜上同一符号を付してある。
【００８９】
まず、非自然音声明示音出力部４３は、非自然音声明示判断部４１から出力される非自然音声明示判断結果が人間の発声でないことを明示すべきことを示している場合には、入力テキストに対応する合成音声の出力に先立ち、例えば「ピ」といった信号音（非自然音声明示音）を出力する。この信号音は、音韻制御部１１２および韻律制御部１１３による音韻・韻律的な制御に従って波形生成部１１４により生成される合成音声の出力に先立ち、波形出力部１１５によって出力される。
【００９０】
このようにして、ユーザが集中していない場合や、これまであまり合成音声の出力をしたことのない時間帯や場所での利用の場合に、例えば「ピ」という非自然音声明示音を、入力テキストに対応する合成音声の出力に先立って出力することで、人間の発した声ではなく合成音声によるメッセージであることを明示してユーザに対して注意を促すことができる。
【００９１】
なお、図５の構成に図４中のテキスト変更部４２を加え、このテキスト変更部４２と非自然音声明示音出力部４３の両方を備えた構成とすることも可能である。
［第６の実施形態］
図６は本発明の音声合成システムの第６の実施形態を示すブロック構成図である。なお、図１と同一部分には同一符号を付してある。
【００９２】
まず、図６の構成の特徴は、図１の構成（の音声合成部１１および通信状態監視部１２）に加えて、図４に示したような入力テキストの変更を行うテキスト変更部４２が設けられている点である（但し、テキスト変更の内容が、図４の例とは異なる）。これに伴い、音声合成部１１内（の言語解析部１１１等）の機能も、以下に述べるように図１中の音声合成部１１（内の言語解析部１１１等）とは異なるが、便宜上同一符号を付してある。
【００９３】
図６の構成の音声合成システムにおいて、音声合成部１１内の言語解析部１１１は、通信状態監視部１２から通信状態情報を受け取ると、当該情報をテキスト変更部４２に渡して起動する。
【００９４】
するとテキスト変更部４２は、言語解析部１１１と連絡をとりながら、言語解析部１１１により言語解析されている入力テキストに通信状態情報に応じた定型表現の語彙を挿入して当該テキストを変更する。すなわちテキスト変更部４２は、音声合成部１１内の音韻制御部１１２および韻律制御部１１３の処理の先頭において、あるいは、韻律制御部１１３の処理の途中においてポーズ挿入位置を決めた段階において、文頭や文末、あるいはポーズ挿入位置に、通信状態情報によって決まる定型表現の語彙を挿入する。音声合成部１１は、このテキスト変更部４２によって挿入された語彙を含めて合成出力する。
【００９５】
以上のテキスト変更部４２での通信状態情報に応じたテキスト変更処理により、例えば、通信量大のとき（通信が混んでいるとき）には、「あ」「えーと」「えー」「はい」などの不要語を文頭や文末、あるいはポーズ挿入位置に挿入したり、「ちょっと待って」などのメッセージを文頭に前置することができる。このような決まった語彙（あらかじめ設定されている語彙）を挿入することによって、処理時間をかせぎ合成音声の処理による負荷を低減する効果がある。また、逆に通信量小のときには、上記と同様の不要語を挿入すれば、システムがアイドル状態であることをユーザにそれとなく示すという効果がある。
【００９６】
なお、図６の構成におけるテキスト変更部４２は、通信状態監視部１２からの通信状態情報を音声合成部１１を通して受け取るものとしているが、通信状態監視部１２から直接受け取るようにしても構わない。
［第７の実施形態］
図７は本発明の音声合成システムの第７の実施形態を示すブロック構成図である。なお、図２と同一部分には同一符号を付してある。
【００９７】
まず、図７の構成の特徴は、図２の構成（の音声合成部１１および動作状態監視部２２）に加えて、図６に示したようなテキスト変更部４２が設けられている点である。これに伴い、図７における音声合成部１１内（の言語解析部１１１等）の機能も、以下に述べるように図２中の音声合成部１１（内の言語解析部１１１等）とは異なるが、便宜上同一符号を付してある。
【００９８】
図７の構成の音声合成システムにおいて、音声合成部１１内の言語解析部１１１は、動作状態監視部２２からシステムの動作状態情報を受け取ると、当該情報をテキスト変更部４２に渡して起動する。
【００９９】
するとテキスト変更部４２は、言語解析部１１１と連絡をとりながら、言語解析部１１１により言語解析されている入力テキストに動作状態情報に応じた定型表現の語彙を挿入する。すなわちテキスト変更部４２は、音声合成部１１内の音韻制御部１１２および韻律制御部１１３の処理の先頭において、あるいは、韻律制御部１１３の処理の途中においてポーズ挿入位置を決めた段階において、文頭や文末、あるいはポーズ挿入位置に、動作状態情報によって決まる定型表現の語彙を挿入する。音声合成部１１は、このテキスト変更部４２によって挿入された語彙を含めて合成出力する。
【０１００】
以上のテキスト変更部４２での動作状態情報に応じたテキスト変更処理により、例えば、ＣＰＵが長時間占有されているときには、「あ」「えーと」「えー」「はい」などの不要語を文頭や文末、あるいはポーズ挿入位置に挿入することができる。このような決まった語彙を挿入することによって、処理時間をかせぎ合成音声の処理による負荷を低減する効果がある。
【０１０１】
なお、図７の構成におけるテキスト変更部４２は、動作状態監視部２２からの動作状態情報を音声合成部１１を通して受け取るものとしているが、動作状態監視部２２から直接受け取るようにしても構わない。
［第８の実施形態］
図８は本発明の音声合成システムの第８の実施形態を示すブロック構成図である。なお、図３と同一部分には同一符号を付してある。
【０１０２】
まず、図８の構成の特徴は、図３の構成（の音声合成部１１およびユーザ状況監視部３２）に加えて、図６に示したようなテキスト変更部４２が設けられている点である。これに伴い、図８における音声合成部１１内（の言語解析部１１１等）の機能も、以下に述べるように図３中の音声合成部１１（内の言語解析部１１１等）とは異なるが、便宜上同一符号を付してある。
【０１０３】
図８の構成の音声合成システムにおいて、音声合成部１１内の言語解析部１１１は、ユーザ状況監視部３２からユーザ状況情報を受け取ると、当該情報をテキスト変更部４２に渡して起動する。
【０１０４】
するとテキスト変更部４２は、言語解析部１１１と連絡をとりながら、言語解析部１１１により言語解析されている入力テキストにユーザ状況情報に応じた定型表現の語彙を挿入する。すなわちテキスト変更部４２は、音声合成部１１内の音韻制御部１１２および韻律制御部１１３の処理の先頭において、あるいは、韻律制御部１１３の処理の途中においてポーズ挿入位置を決めた段階において、文頭や文末、あるいはポーズ挿入位置に、ユーザ状況情報によって決まる定型表現の語彙を挿入する。音声合成部１１は、このテキスト変更部４２によって挿入された語彙を含めて合成出力する。
【０１０５】
以上のテキスト変更部４２での動作状態情報に応じたテキスト変更処理により、例えば、ユーザが集中していないときには、「あの」などの人に声をかける語彙を文頭に設定することで、ユーザに注意を促すことができる。
【０１０６】
なお、図８の構成におけるテキスト変更部４２は、ユーザ状況監視部３２からのユーザ状況情報を音声合成部１１を通して受け取るものとしているが、ユーザ状況監視部３２から直接受け取るようにしても構わない。
【０１０７】
【発明の効果】
以上詳述したように本発明によれば、言語情報の持つメッセージとしての直接的な情報伝達だけでなく、音声合成機能を含む、システム全体の状況をそれとなく示す、音声メディアの持つ副次的な情報伝達機能を利用し、使い勝手のよいシステム構築が可能になる。また、ユーザの利用状況に応じた合成音声出力が可能となる。
【０１０８】
特に、計算機の出力メディアとして、システム内部の状態をユーザに伝えることはユーザインタフェースの観点からも重要である。言語メッセージ伝達としての主目的としての利用と同時に、システムがどのような動作状況にあるかをそれとなくユーザに伝えることは、音声メディアの利用形態として適切なものであるといえる。
【０１０９】
このような情報は画面表示部などの視覚的な出力と併用することでその効果を高めることも可能であるだけでなく、ＰＤＡに代表される携帯機器のように表示部の面積が小さい場合には、メッセージを、主に音声メディアによって伝えるようにすれば、メッセージ表示による画面の面積の占有を抑えることが可能になる。
【０１１０】
さらに、ユーザの利用状況を考慮して韻律や声色を制御することにより、より自然なシステム出力が可能になる。それは、状況を考慮せず単調な合成音声を出力しないようにするというだけでなく、高品質で肉声に近い合成音声が増えるような状況では、逆に合成音声であることを明らかにして、音声としては不自然さはあっても、機械とのコミュニケーションとしては自然なやりとりが可能になる。
【図面の簡単な説明】
【図１】本発明の音声合成システムの第１の実施形態を示すブロック構成図。
【図２】本発明の音声合成システムの第２の実施形態を示すブロック構成図。
【図３】本発明の音声合成システムの第３の実施形態を示すブロック構成図。
【図４】本発明の音声合成システムの第４の実施形態を示すブロック構成図。
【図５】本発明の音声合成システムの第５の実施形態を示すブロック構成図。
【図６】本発明の音声合成システムの第６の実施形態を示すブロック構成図。
【図７】本発明の音声合成システムの第７の実施形態を示すブロック構成図。
【図８】本発明の音声合成システムの第８の実施形態を示すブロック構成図。
【符号の説明】
１１…音声合成部、
１２…通信状態監視部、
２２…動作状態監視部、
３２…ユーザ状況監視部、
４１…非自然音声明示判断部、
４２…テキスト変更部、
４３…非自然音声明示音出力部、
１１１…言語解析部、
１１２…音韻制御部、
１１３…韻律制御部、
１１４…波形生成部、
１１５…波形出力部、
１２１…計算機内通信状態監視部、
１２２…計算機外通信状態監視部、
２２１…ハードウェア状態監視部、
２２２…ソフ卜ウェア状態監視部、
３２１…利用者状態監視部、
３２２…利用者環境監視部、
１１２１…蓄積データ格納部。

Claims

入力テキストの言語解析を行いその解析結果に対して規則を適用して音韻・韻律的な制御を行い合成音声を生成・出力する音声合成手段と、
計算機内の通信状態、および計算機と外部の間の通信状態の少なくとも一方を監視し通信状態情報を出力する通信状態監視手段とを具備し、
前記音声合成手段は、前記音韻・韻律的な制御において適用する規則を前記通信状態監視手段から出力される前記通信状態情報に応じて変更するように構成されていることを特徴とする音声合成システム。
入力テキストの言語解析を行いその解析結果に対して規則を適用して音韻・韻律的な制御を行い合成音声を生成・出力する音声合成手段と、
計算機ハードウエアの動作状態、および計算機ソフトウェアの動作状態の少なくとも一方を監視し動作状態情報を出力する動作状態監視手段とを具備し、
前記音声合成手段は、前記合成音声の声の調子で前記動作状態をユーザに知らせるために、前記合成音声の声の調子が前記動作状態に対応するように、前記音韻・韻律的な制御において適用する規則を前記動作状態監視手段から出力される前記動作状態情報に応じて変更するように構成されていることを特徴とする音声合成システム。
前記音声合成手段における言語解析、音韻的な制御、韻律的な制御、および音声波形生成の少なくとも１つの処理を、前記動作状態情報の示す動作状態に応じて、通信可能な有線ネットワークもしくは無線ネットワークで結ばれる複数の計算機ハードウエアに分担させることを特徴とする請求項２記載の音声合成システム。
入力テキストの言語解析を行いその解析結果に対して規則を適用して音韻・韻律的な制御を行い合成音声を生成・出力する音声合成手段と、
ユーザの集中度とユーザのシステムの操作状況とユーザがシステムを利用している場所の位置と明るさのうちの少なくとも１つをユーザ状況として監視するユーザ状況監視手段を具備し、
前記音声合成手段は、前記合成音声の声の調子が前記ユーザ状況に対応するように、前記音韻・韻律的な制御において適用する規則を前記ユーザ状況監視手段で監視されたユーザ状況に応じて変更するように構成されていることを特徴とする音声合成システム。
前記ユーザ状況情報をもとに、前記合成音声が人間の発声でないことを明示すべきか否かの判断結果を出力する非自然音声明示判断手段をさらに具備するとともに、前記非自然音声明示判断手段の判断結果に応じ、前記入力テキストの表現の一部の変更により前記合成音声が人間の音声でないことを明示するテキスト変更手段、および前記非自然音声明示判断手段の判断結果に応じ、合成音声の出力に併せて前記合成音声が人間の発声でないことを明示する音を出力する非自然音声明示音出力手段の少なくとも一方をさらに具備することを特徴とする請求項４記載の音声合成システム。
入力テキストの言語解析を行いその解析結果に対して規則を適用して音韻・韻律的な制御を行い合成音声を生成・出力する音声合成方法であって、
計算機内の通信状態、および計算機と外部の間の通信状態の少なくとも一方を監視し、その監視結果に応じて、前記音韻・韻律的な制御において適用する規則を前記通信状態に応じて変更することを特徴とする音声合成方法。
入力テキストの言語解析を行いその解析結果に対して規則を適用して音韻・韻律的な制御を行い合成音声を生成・出力する音声合成方法であって、
計算機ハードウエアの動作状態、および計算機ソフトウェアの動作状態の少なくとも一方を監視し、前記合成音声の声の調子で前記動作状態をユーザに知らせるために、前記合成音声の声の調子が前記動作状態に対応するように、前記音韻・韻律的な制御において適用する規則を前記監視の結果に応じて変更することを特徴とする音声合成方法。
入力テキストの言語解析を行いその解析結果に対して規則を適用して音韻・韻律的な制御を行い合成音声を生成・出力する音声合成方法であって、
ユーザの集中度とユーザのシステムの操作状況とユーザがシステムを利用している場所の位置と明るさのうちの少なくとも１つをユーザ状況として監視し、
前記合成音声の声の調子が前記ユーザ監視状況に対応するように、前記音韻・韻律的な制御において適用する規則を前記監視の結果に応じて変更することを特徴とする音声合成方法。
前記入力テキストに対応する合成音声に併せて、別の音または合成音声の少なくとも一方をさらに出力することを特徴とする請求項６〜８のいずれか１つに記載の音声合成方法。