JP2001125599A

JP2001125599A - 音声データ同期装置及び音声データ作成装置

Info

Publication number: JP2001125599A
Application number: JP30306099A
Authority: JP
Inventors: Mitsuru Ebihara; 充海老原; Yasushi Ishikawa; 泰石川
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-10-25
Filing date: 1999-10-25
Publication date: 2001-05-11

Abstract

(57)【要約】【課題】音声データとバックグラウンド音声の同期を
考慮したミキシングを自動的に行う。【解決手段】ピッチ分析手段１１は音声データ１０１
のピッチを分析し、ピッチパターン１１１を求め、ピッ
チ最大位置決定手段１２は、ピッチの値が最大になるピ
ッチ最大位置１１２を決定する。リズム基準位置決定手
段１３は、バックグラウンド音声１０２のリズム基準位
置１１３を決定する。ミキシング手段１４は、リズム基
準位置１１３の一つに、ピッチ最大位置１１２が一致す
るように、音声データ１０１とバックグラウンド音声１
０２をミキシングし、ミキシング音声１０３を出力す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声情報を利用
したマン・マシン・インタフェース、特に情報提供や教
育用途のシステム、マルチメディアコンテンツを用いる
システムにおいて、音声あるいは画像の時間的同期を実
現する音声データ同期装置及び時間的な変更を施した音
声データ作成装置に関するものである。

【０００２】

【従来の技術】近年、音声を利用したマンマシンインタ
フェースが普及しており、また、音声の他に音楽や画像
等のマルチメディアコンテンツを扱うコンピュータ等が
注目を集めている。特にＣＡＩ（ＣｏｍｐｕｔｅｒＡ
ｉｄｅｄＩｎｓｔｒｕｃｔｉｏｎ）に代表されるコン
ピュータ利用の教育システムにおいては、音声情報をど
のように扱うかが重要な課題となっている。

【０００３】例えば語学教育のソフトウェアでは、ユー
ザもシステムも音声を通じたやりとりが行われるのが望
ましい。その中では、言語的・意味的な情報の提供だけ
ではなく、音響的な情報やリズム・テンポ・アクセント
等の韻律的な情報の提供と実習の実現が今後必要とな
る。その一例として、英語音声を音楽に乗せて画像と共
にユーザに提供し、音声のリズムやアクセントのタイミ
ングを、聴覚的かつ視覚的に学習させるシステムに関す
る研究も行われている。

【０００４】このように、音声と音楽等の複数の音源か
らなる音響情報を、同期させて提示する方式は既に検討
されている。このような従来技術として、特開平４−１
４１６９３号公報に開示された「音楽の同期信号生成装
置（以下、文献１とする）」が挙げられる。

【０００５】図１７は文献１で示される手法に基づく音
声対話装置の構成を示すブロック図（以下、第１の従来
例）である。図において、５１は音楽が記録されたメデ
ィアを再生するメディア再生装置、５２は再生されたメ
ディアのスペクトルを分析するスペクトル分析装置、５
３はスペクトル分析装置５２で分析された情報を表示す
るスペクトル表示装置である。

【０００６】また、図１７において、５４は目的とする
音楽の基礎データを入力する基礎データ入力装置、５５
はリアルタイムにテンポを入力するリアルタイムタクト
入力装置、５６はテンポを取得するに必要な実験的に得
た情報を記憶する一般知識入力装置、５７は各種データ
より同期信号を生成する同期信号生成装置、５８は音楽
毎の固有な基礎データを記憶するデータ記憶装置であ
る。

【０００７】さらに、図１７において、５９はＭＩＤＩ
（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔ
ａｌＩｎｔｅｒｆａｃｅ）規格に沿ったＭＩＤＩ同期
信号を生成するＭＩＤＩ同期信号生成装置、６０はＭＩ
ＤＩ同期信号を処理するＭＩＤＩ同期信号処理装置であ
る。

【０００８】次に第１の従来例による音楽の同期信号生
成装置の動作について説明する。基礎データ入力装置５
４に、何拍子で何小節か等の目的の楽曲に対して予めわ
かる基礎データを入力する。同期信号生成装置５７で
は、その基礎データをデータ記憶装置５８に記憶する。
最初の再生時には、スペクトル分析装置５２がスペクト
ルを分析し、同期信号生成装置５７が、そのスペクトル
のパワーのピークを抽出する。リアルタイムタクト入力
装置５５は、ユーザがスペクトル表示装置５３を監視し
て、スペクトルピークが検出しにくい箇所について、キ
ー入力で大まかなテンポを入力する。

【０００９】同期信号生成装置５７は、上記パワーのピ
ーク位置の間隔を測定し、リアルタイムタクト入力装置
５５からのテンポ情報と、基礎データ入力装置５４から
の目的の音楽の基礎データ、さらに一般知識入力装置５
６からの音楽の一般知識を得て、１小節の時間を算出し
つつ同期信号を生成し、データ記憶装置５８に記憶す
る。

【００１０】２回目以降の再生時は、音楽と共にデータ
記憶装置５８に記憶された同期信号をＭＩＤＩ信号とし
て出力する。そしてテンポが不確実な箇所については、
ユーザがスペクトル表示装置５３を参照しつつ、リアル
タイムタクト入力装置５５で手修正により同期位置を修
正する。この操作を繰り返すことで正確な同期信号を得
る。以上が第１の従来技術である。

【００１１】また、ボイスメールにおいて、音声に音楽
を重畳する従来技術として、特開平７−２１２４７５号
公報に開示された「ボイスメール音声メッセージ重畳方
式（以下、文献２とする）」がある。文献２では、複数
の音源ボックスに録音された音声を蓄積する音声蓄積部
を備え、検索手段で音声蓄積部の中から合成に用いる音
源を検索し、同期手段で検索された複数の音源を同時に
再生させるための同期を取り、再生音量制御部で自動的
に音量のバランスを調整し、合成部で複数音源を重畳し
て再生する。

【００１２】同期手段は各音源の再生開始時間を一致さ
せる。再生音量制御部では、例えばアナウンス音声が再
生される期間は、バックグラウンドの音楽の音量レベル
を下げる処理を行う。このようにして、音楽とアナウン
ス等の複数の音声情報を、予めミックスした音声として
用意せずに、制御により生成することができる。これが
第２の従来技術である。

【００１３】

【発明が解決しようとする課題】第１の従来技術は以上
のように構成されているので、同期のために必要となる
音楽情報のリズムパターンを抽出することが可能である
が、全てのリズムパターンを予め抽出しなければなら
ず、リアルタイム性に欠けるという課題があった。ま
た、スペクトルのパワー概形を監視して修正しなくては
ならず、一般ユーザが音楽のリズム抽出に利用するには
困難であると共に、予めリズムパターンをわかっていな
いといけないという課題があった。

【００１４】さらに第２の従来技術では、あくまで複数
の音声の重畳時の音量の制御に留まり、一方の音声を所
望の時間に再生するような時間の方向の制御は行われて
おらず、ダイナミックなリズムや同期タイミングの制御
を実現することはできないという課題があった。

【００１５】この発明は上記のような課題を解決するた
めになされたもので、音声を聴取したり、そのスペクト
ルや波形を監視せずに、入力音声と音楽やリズム信号等
のバックグラウンド音声の同期位置を自動的に抽出し、
入力音声とバックグラウンド音声を、自動的に同期を取
ってミキシングすることができる音声データ同期装置を
得ることを目的とする。また、同期位置に合わせて、一
方の音声信号を時間方向に変更することのできる音声デ
ータ作成装置を得ることを目的とする。

【００１６】

【課題を解決するための手段】この発明に係る音声デー
タ同期装置は、音声データを音楽やリズム信号等のバッ
クグラウンド音声と同期させてミキシングするものにお
いて、上記音声データの韻律特徴を分析して韻律特徴の
時間系列を求める韻律特徴分析手段と、上記韻律特徴の
時間系列から上記音声データの文意の中心であるプロミ
ネンス位置を決定するプロミネンス決定手段と、上記バ
ックグラウンド音声の波形特徴又は韻律特徴から、上記
バックグラウンド音声のリズム基準位置を決定するリズ
ム基準位置決定手段と、上記バックグラウンド音声のリ
ズム基準位置に、上記音声データのプロミネンス位置が
一致するように、上記音声データと上記バックグラウン
ド音声をミキシングして、ミキシング音声を出力するミ
キシング手段とを備えたものである。

【００１７】この発明に係る音声データ同期装置は、韻
律特徴分析手段が、音声データの韻律特徴であるピッチ
を分析してピッチの時間系列であるピッチパターンを求
め、プロミネンス決定手段が、上記ピッチパターンにお
いて、上記ピッチの値が最大になるピッチ最大位置を決
定し、ミキシング手段が、バックグラウンド音声のリズ
ム基準位置に、上記音声データのピッチ最大位置が一致
するように、上記音声データと上記バックグラウンド音
声をミキシングするものである。

【００１８】この発明に係る音声データ同期装置は、韻
律特徴分析手段が、音声データの韻律特徴である短時間
パワーを分析して短時間パワーの時間系列であるパワー
概形を求め、プロミネンス決定手段が、上記パワー概形
において、上記短時間パワーの値が最大になるパワー最
大位置を決定し、ミキシング手段が、バックグラウンド
音声のリズム基準位置に、音声データのパワー最大位置
が一致するように、上記音声データと上記バックグラウ
ンド音声をミキシングするものである。

【００１９】この発明に係る音声データ同期装置は、リ
ズム基準位置決定手段が、バックグラウンド音声の韻律
特徴である短時間パワーを分析して短時間パワーの時間
系列であるパワー概形を求め、上記パワー概形におい
て、上記短時間パワーの値が最大になるパワー最大位置
を、上記バックグラウンド音声のリズム基準位置として
決定するものである。

【００２０】この発明に係る音声データ同期装置は、リ
ズム基準位置決定手段が、特定の周波数帯域におけるバ
ックグラウンド音声の韻律特徴である短時間パワーを分
析して短時間パワーの時間系列であるパワー概形を求め
るものである。

【００２１】この発明に係る音声データ同期装置は、テ
キストデータからテキスト音声変換技術により合成され
た合成音声を、音楽やリズム信号等のバックグラウンド
音声と同期させてミキシングするものにおいて、上記テ
キストデータを言語解析し、読み、品詞、アクセント型
等の言語情報を抽出する言語解析手段と、母音や子音の
音素列に対応したリズム知覚点を記述したリズム知覚点
テーブルを記憶するリズム知覚点テーブル記憶手段と、
上記言語解析手段により抽出された言語情報により、上
記リズム知覚点テーブル記憶手段に記憶されたリズム知
覚点テーブルを参照し、上記テキストデータの音素列毎
にリズム知覚点を抽出する同期点抽出手段と、上記言語
解析手段により抽出された言語情報から合成音声を生成
する音声合成手段と、上記バックグラウンド音声の波形
特徴又は韻律特徴から、上記バックグラウンド音声のリ
ズム基準位置を決定するリズム基準位置決定手段と、上
記バックグラウンド音声のリズム基準位置に、同期点抽
出手段により抽出されたリズム知覚点が一致するよう
に、上記合成音声と上記バックグラウンド音声をミキシ
ングして、ミキシング音声を出力するミキシング手段と
を備えたものである。

【００２２】この発明に係る音声データ同期装置は、音
声データを音楽やリズム信号等のバックグラウンド音声
と同期させてミキシングするものにおいて、上記音声デ
ータと、その内容を示すテキストデータを入力し、音声
認識手法により上記音声データの音素毎の区間を示す音
素ラベル列を抽出する音素ラベリング手段と、母音や子
音の音素列に対応したリズム知覚点を記述したリズム知
覚点テーブルを記憶しているリズム知覚点テーブル記憶
手段と、上記音素ラベリング手段により抽出された音素
ラベル列により、上記リズム知覚点テーブル記憶手段に
記憶されたリズム知覚点テーブルを参照し、上記音声デ
ータの音素列毎にリズム知覚点を抽出する同期点抽出手
段と、上記バックグラウンド音声の波形特徴又は韻律特
徴から、上記バックグラウンド音声のリズム基準位置を
決定するリズム基準位置決定手段と、上記バックグラウ
ンド音声のリズム基準位置に、上記同期点抽出手段によ
り抽出されたリズム知覚点が一致するように、上記音声
データと上記バックグラウンド音声をミキシングして、
ミキシング音声を出力するミキシング手段とを備えたも
のである。

【００２３】この発明に係る音声データ同期装置は、リ
ズム基準位置決定手段が、特定の周波数帯域におけるバ
ックグラウンド音声の韻律特徴である短時間パワーを分
析して短時間パワーの時間系列であるパワー概形を求
め、上記パワー概形において、上記短時間パワーの値が
最大になるパワー最大位置を、上記バックグラウンド音
声のリズム基準位置として決定するものである。

【００２４】この発明に係る音声データ同期装置は、リ
ズム基準位置決定手段により決定されたバックグラウン
ド音声のリズム基準位置に、同期点抽出手段により抽出
されたリズム知覚点が一致するように、音声データとリ
ズム知覚点を時間方向に伸縮し、波形伸縮音声と変更リ
ズム知覚点を出力する波形伸縮手段を備え、ミキシング
手段が、上記リズム基準位置に、上記変更リズム知覚点
が一致するように、上記波形伸縮音声と上記バックグラ
ウンド音声をミキシングするものである。

【００２５】この発明に係る音声データ同期装置は、波
形伸縮手段が、音声データのピッチ同期位置を抽出し、
リズム基準位置決定手段により決定されたバックグラウ
ンド音声のリズム基準位置に、同期点抽出手段により抽
出されたリズム知覚点が一致するように、抽出された上
記ピッチ同期位置を利用して、ピッチ周期の値を変更し
ないように、ピッチ同期波形重畳法に基づき、上記音声
データと上記リズム知覚点を時間方向に伸縮し、波形伸
縮音声と変更リズム知覚点を出力するものである。

【００２６】この発明に係る音声データ同期装置は、波
形伸縮手段から出力された波形伸縮音声と、バックグラ
ウンド音声に、ミキシングしたときの加算値が所定の閾
値を越えないように、所定の係数を乗じて、ゲイン変更
入力音声とゲイン変更バックグラウンド音声を出力する
波形ゲイン変更手段を備え、ミキシング手段が、リズム
基準位置と変更リズム知覚点が一致するように、上記ゲ
イン変更入力音声と上記ゲイン変更バックグラウンド音
声をミキシングするものである。

【００２７】この発明に係る音声データ同期装置は、音
声データの発話内容に関連する画像を記憶している画像
記憶手段と、バックグラウンド音声のリズム基準位置と
音声データのリズム知覚点が一致する時間を、ミキシン
グ手段から出力される同期タイミングとして入力し、テ
キストデータに基づき上記画像記憶手段を参照し、上記
音声データの発話内容に関連する画像を読み出し、上記
同期タイミングにより上記ミキシング手段から出力され
るミキシング音声と同期させて、読み出した画像を表示
する画像表示手段とを備えたものである。

【００２８】この発明に係る音声データ作成装置は、ユ
ーザからの音声データと、その内容を示すテキストデー
タを入力し、音声認識手法により上記音声データの音素
毎の区間を示す音素ラベル列を抽出する音素ラベリング
手段と、母音や子音の音素列に対応したリズム知覚点を
記述したリズム知覚点テーブルを記憶しているリズム知
覚点テーブル記憶手段と、上記音素ラベリング手段によ
り抽出された音素ラベル列により、上記リズム知覚点テ
ーブル記憶手段に記憶されたリズム知覚点テーブルを参
照し、上記音声データの音素列毎にリズム知覚点を抽出
する同期点抽出手段と、上記音声データと同じ内容の登
録音声データを記憶している登録音声データ記憶手段
と、上記テキストデータを入力し、上記登録音声データ
記憶手段に記憶されている登録音声データを読み出し、
上記登録音声データのリズム基準位置を決定するリズム
基準位置決定手段と、上記同期点抽出手段が抽出した上
記リズム知覚点から得られる上記音声データのリズムパ
ターンと、上記リズム基準位置決定手段が決定したリズ
ム基準位置から得られる上記登録音声データのリズムパ
ターンを比較し、リズムパターン照合結果を出力するリ
ズムパターン照合手段と、上記リズムパターン照合結果
に基づき、音声データのリズムパターンに、上記登録音
声データのリズムパターンが一致するように、上記登録
音声データ記憶手段に記憶されている登録音声データ
と、上記登録音声データのリズム基準位置を時間方向に
伸縮して、提示音声として出力する波形伸縮手段とを備
えたものである。

【００２９】

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態１．図１はこの発明の実施の形態１による音
声データ同期装置の構成を示すブロック図であり、図に
おいて、１１は音声データ１０１の韻律特徴の一つであ
るピッチ（音声の基本周波数）を分析し、韻律特徴の時
間系列、すなわち、ピッチの時間系列であるピッチパタ
ーン１１１を求めるピッチ分析手段（韻律特徴分析手
段）であり、１２はピッチパターン１１１において、ピ
ッチの値が最大になる位置、すなわちピッチ最大位置
（プロミネンス位置）１１２を決定するピッチ最大位置
決定手段（プロミネンス決定手段）である。

【００３０】また、図１において、１３はバックグラウ
ンド音声１０２の波形特徴又は韻律特徴から、バックグ
ラウンド音声１０２のリズム基準位置１１３を決定する
リズム基準位置決定手段、１４はバックグラウンド音声
１０２におけるリズム基準位置１１３の一つに、音声デ
ータ１０１のピッチ最大位置１１６が一致するように、
音声データ１０１とバックグラウンド音声１０２をミキ
シングして、ミキシング音声１０３を出力するミキシン
グ手段である。

【００３１】次に動作を説明する。音声データ１０１
は、音声提示するためにシステムが予め用意した音声デ
ータとする。ピッチ分析手段１１は音声データ１０１の
韻律特徴の一つであるピッチを分析し、ピッチの時間系
列であるピッチパターン１１１を求める。このピッチの
分析は、例えば自己相関法やケプストラム法等の一般的
な手法により行われ、音声データ１０１のピッチの時系
列をピッチパターン１１１として出力する。ピッチ最大
位置決定手段１２は、ピッチパターン１１１において、
ピッチの値が最大になる位置、すなわちピッチ最大位置
１１２を決定する。

【００３２】ピッチ最大位置１１２は、音声データ１０
１が文章音声である場合に、ピッチが最大になる位置を
文意の中心であるプロミネンス位置と見なしたものであ
り、この位置をバックグラウンド音声１０２と同期させ
る上での基準位置とすることにより、文中で最も強調し
たい箇所や、文中でタイミングを取る上で最も自然な位
置を自動的に決定する。

【００３３】例えば、「我が家には猫が居ます」という
音声を音声データ１０１とした場合には、「我が家」の
／ｗａ／の区間内でピッチが最大になれば、その位置が
同期を取るピッチ最大位置（プロミネンス位置）１１２
となり、また、「猫」の／ｎｅ／の区間内でピッチが最
大となれば、その位置がピッチ最大位置（プロミネンス
位置）１１２となる。

【００３４】リズム基準位置決定手段１３は、音楽やリ
ズム信号等のバックグラウンド音声１０２を入力し、バ
ックグラウンド音声１０２の波形特徴又は韻律特徴か
ら、バックグラウンド音声１０２のリズム基準位置１１
３を決定する。リズム基準位置１１３の決定方法として
は、バックグラウンド音声１０２の振幅値から推定する
方法が挙げられる。

【００３５】図２はミキシング手段１４の動作内容を示
す図であり、図に示すように、ミキシング手段１４は、
バックグラウンド音声１０２のリズム基準位置１１３の
一つに、音声データ１０１のピッチ最大位置１１２が一
致するように、音声データ１０１とバックグラウンド音
声１０２をミキシングする。ミキシングの方法は、波形
上の直接加算で行う。このようにして、ミキシング手段
１４はミキシング音声１０３を生成して出力する。

【００３６】以上のように、この実施の形態１によれ
ば、音声データ１０１のピッチの時間系列であるピッチ
パターン１１１において、ピッチが最大値を取るピッチ
最大位置１１２と、バックグラウンド音声１０２のリズ
ム基準位置１１３を同期位置として自動的に抽出し、ピ
ッチ最大位置１１２と、リズム基準位置１１３の一つを
同期させることにより、音声データ１０１とバックグラ
ウンド音声１０２の同期を考慮したミキシングを自動的
に行うことができるという効果が得られる。

【００３７】実施の形態２．図３はこの発明の実施の形
態２による音声データ同期装置の構成を示すブロック図
であり、図において、１５は音声データ１０１の韻律特
徴の一つである短時間パワーを分析し、韻律特徴の時間
系列、すなわち短時間パワーの時間系列であるパワー概
形１１５を求める短時間パワー分析手段（韻律特徴分析
手段）、１６はパワー概形１１５において、短時間パワ
ーの値が最大になる位置、すなわちパワー最大位置（プ
ロミネンス位置）１１６を決定するパワー最大位置決定
手段（プロミネンス決定手段）であり、その他は実施の
形態１の図１に示す構成と同等である。

【００３８】次に動作を説明する。音声データ１０１
は、実施の形態１と同様に、音声提示するためにシステ
ムが予め用意した音声データとする。短時間パワー分析
手段１５は、音声データ１０１の韻律特徴の一つである
短時間パワーを分析して、短時間パワーの時間系列であ
るパワー概形１１５を求める。パワー最大位置決定手段
１６は、短時間パワー分析手段１５が求めたパワー概形
１１５において、短時間パワーの値が最大になる位置、
すなわちパワー最大位置１１６を決定する。

【００３９】パワー最大位置１１６は、音声データ１０
１が文章音声である場合に、そのパワーが最大になる位
置を、文意の中心であるプロミネンス位置と見なしたも
のであり、この位置を、バックグラウンド音声１０２と
同期させる上での基準位置とすることで、文中で最も強
調したい箇所や文中でタイミングを取る上で最も自然な
位置を自動的に決定する。具体例としては、実施の形態
１と同様である。

【００４０】リズム基準位置決定手段１３は、音楽やリ
ズム信号等のバックグラウンド音声１０２を入力し、実
施の形態１と同様に、バックグラウンド音声１０２のリ
ズム基準位置１１３を決定する。ミキシング手段１４
は、バックグラウンド音声１０２のリズム基準位置１１
３の一つに、音声データ１０１のパワー最大位置１１６
が一致するように、音声データ１０１とバックグラウン
ド音声１０２をミキシングする。ミキシングの方法は、
実施の形態１と同様に波形上の直接加算で行う。このよ
うにして、ミキシング手段１４はミキシング音声１０３
を生成して出力する。

【００４１】以上のように、この実施の形態２によれ
ば、音声データ１０１の短時間パワーの時間系列である
パワー概形１１５が最大値を取るパワー最大位置１１６
と、バックグラウンド音声１０２のリズム基準位置１１
３を同期位置として自動的に抽出し、パワー最大位置１
１６と、リズム基準位置１１３の一つを同期させること
により、音声データ１０１とバックグラウンド音声１０
２の同期を考慮したミキシングを自動的に行うことがで
きるという効果が得られる。

【００４２】実施の形態３．図４はこの発明の実施の形
態３による音声データ同期装置の構成を示すブロックで
ある。この実施の形態は、実施の形態１におけるリズム
基準位置決定手段１３を、短時間パワー分析手段１５と
パワー最大位置決定手段１６により構成したものであ
る。

【００４３】次に動作を説明する。音声データ１０１の
内容や、ピッチ分析手段１１，ピッチ最大位置決定手段
１２の動作は、実施の形態１と同様であり、ピッチ最大
位置決定手段１２から、ピッチ最大位置１１２が出力さ
れる。

【００４４】リズム位置決定手段１３における短時間パ
ワー分析手段１５は、音楽やリズム信号等のバックグラ
ウンド音声１０２の韻律特徴の一つである短時間パワー
を分析し、韻律特徴の時間系列、すなわち短時間パワー
の時間系列であるパワー概形１１５を求める。パワー最
大位置決定手段１６は、パワー概形１１５において、短
時間パワーの値が最大になる位置を求め、その位置をバ
ックグラウンド音声１０２のリズム基準位置１１３とす
る。

【００４５】リズム基準位置１１３を決めるための一定
区間については、バックグラウンド音声１０２の内容に
より、いくつかの方法が考えられる。バックグラウンド
音声１０２が、例えば一定の間隔のリズム信号であれば
パワーが極大となる位置を、音楽であればパワーが閾値
を越えて極大となる位置を、それぞれ全て列挙し、この
位置をリズム基準位置１１３とする。

【００４６】ミキシング手段１４は、実施の形態１と同
様にして、バックグラウンド音声１０２のリズム基準位
置１１３の一つに、音声データ１０１のピッチ最大位置
１１２が一致するように、音声データ１０１とバックグ
ラウンド音声１０２をミキシングして、ミキシング音声
１０３を出力する。

【００４７】以上のように、この実施の形態３によれ
ば、音声データ１０１のピッチの時間系列であるピッチ
パターン１１１が最大値を取るピッチ最大位置１１２
と、バックグラウンド音声１０２の短時間パワーの時間
系列であるパワー概形１１５が最大値を取るリズム基準
位置１１３を同期位置として自動的に抽出し、ピッチ最
大位置１１２とリズム基準位置１１３の一つを同期させ
ることにより、音声データ１０１とバックグラウンド音
声１０２の同期を考慮したミキシングを自動的に行うこ
とができるという効果が得られる。

【００４８】実施の形態４．図５はこの発明の実施の形
態４による音声データ同期装置の構成を示すブロック図
である。図において、１７はバックグラウンド音声１０
２の帯域を限定して帯域限定音声１１７を出力する帯域
フィルタ手段である。この実施の形態は、実施の形態１
におけるリズム基準位置決定手段１３を、帯域フィルタ
手段１７，短時間パワー分析手段１５及びパワー最大位
置決定手段１６により構成したものである。

【００４９】次に動作を説明する。音声データ１０１の
内容や、ピッチ分析手段１１，ピッチ最大位置決定手段
１２の動作は、実施の形態１と同様であり、ピッチ最大
位置決定手段１２から、ピッチ最大位置１１２が出力さ
れる。

【００５０】リズム基準位置決定手段１３における帯域
フィルタ手段１７は、バックグラウンド音声１０２の帯
域をローパスフィルタ又はハイパスフィルタを用いて帯
域限定し、帯域限定音声１１７を出力する。帯域限定は
バックグラウンド音声１０２の種類やリズム基準とする
楽音の種類によって変わる。例えば、バックグラウンド
音声１０２がリズム信号であれば帯域限定は行わない。
バックグラウンド音声１０２が音楽であり、リズム基準
をバスドラムの音とするならば低域に帯域限定し、リズ
ム基準をシンセサイザーの高音部とするならば高域に帯
域限定する。

【００５１】短時間パワー分析手段１５は帯域限定音声
１１７の短時間パワーを分析し、パワー概形１１５を求
め、パワー最大位置決定手段１６は、実施の形態３と同
様にして、パワー概形１１５において値が最大になる位
置を求め、その位置をバックグラウンド音声１０２のリ
ズム基準位置１１３として出力する。

【００５２】ミキシング手段１４は、実施の形態１と同
様にして、バックグラウンド音声１０２のリズム基準位
置１１３の一つに、音声データ１０１のピッチ最大位置
１１２が一致するように、音声データ１０１とバックグ
ラウンド音声１０２をミキシングして、ミキシング音声
１０３を出力する。

【００５３】以上のように、この実施の形態４によれ
ば、音声データ１０１のピッチの時間系列であるピッチ
パターン１１１が最大値を取るピッチ最大位置１１２
と、バックグラウンド音声１０２の特定周波数帯域の短
時間パワーの時間系列であるパワー概形１１５が最大値
を取るリズム基準位置１１３を同期位置として自動的に
抽出し、ピッチ最大位置１１２とリズム基準位置１１３
の一つを同期させることにより、音声データ１０１とバ
ックグラウンド音声１０２の同期を考慮したミキシング
を自動的に行うことができるという効果が得られる。

【００５４】実施の形態５．図６はこの発明の実施の形
態５による音声データ同期装置の構成を示すブロック図
である。図において、１８は入力されたテキストデータ
１０４について言語解析を行い、読み、品詞、アクセン
ト型等の言語情報１１８を抽出する言語解析手段、１９
は子音（Ｃ）や母音（Ｖ）の組合せである音素列に対応
したリズム知覚点の情報を記録したリズム知覚点テーブ
ル１１９を記憶しているリズム知覚点テーブル記憶手段
である。

【００５５】また、図６において、２０は言語解析手段
１３が言語解析した言語情報１１８における読みの情報
から、リズム知覚点テーブル記憶手段１９に記憶された
リズム知覚点テーブル１１９を参照し、音素列毎にリズ
ム知覚点１２０を抽出する同期点抽出手段であり、２１
は言語情報１１８に基づき音響処理・韻律処理を経て、
一般的な規則合成手法により合成音声１２１を得る音声
合成手段である。なお、上記実施の形態１から実施の形
態４と同様の構成要素及びデータについては、同じ符号
を付けて説明を省略する。

【００５６】次に動作を説明する。テキストデータ１０
４は、テキスト音声変換技術により合成音声に変換され
提示されるためにシステムが予め用意したものとする。
言語解析手段１８はテキストデータ１０４を言語解析
し、読み、品詞、アクセント型等の言語情報１１８を抽
出する。音声合成手段２１は言語情報１１８に基づき音
響処理・韻律処理を行い、一般的な規則合成手法により
合成音声１２１を出力する。

【００５７】リズム知覚点テーブル記憶手段１９には、
子音（Ｃ）や母音（Ｖ）の組合せにによる音素列に対応
したリズム知覚点の情報を記録したリズム知覚点テーブ
ル１１９が記憶されている。リズム知覚点は、人間が聴
覚的にリズムを知覚する音声波形上の位置であり、音節
種類毎に固有の値を取る。

【００５８】図７はリズム知覚点テーブル１１９の例を
示す図である。リズム知覚点テーブル１１９は、図７
（ａ）に示すように、ＣＶ（子音−母音）又はＶＣＶ
（母音−子音−母音）の音素列に対応するリズム知覚点
が記述されている。リズム知覚点は、図７（ａ）の例で
は、ＣＶ又はＶＣＶの音声素片におけるフレーム位置を
示しており、音声素片のパワー概形との対応では、図７
（ｂ）に示す位置となり、原点０からフレーム位置を示
している。

【００５９】同期点抽出手段２０は、言語情報１１８に
おける読みの情報から、リズム知覚点テーブル記憶手段
１９に記憶されたリズム知覚点テーブル１１９を参照
し、音素列毎にリズム知覚点１２０を抽出する。例とし
て、読みの情報が「ａｔａｒａｓｈｉｉ」である場合、
リズム知覚点１２０は、音素列／ａ／，／ａｔａ／，／
ａｒａ／，／ａｓｈｉ／，／ｉｉ／に対して与えられ
る。

【００６０】リズム基準位置決定手段１３における帯域
フィルタ手段１７，短時間パワー分析手段１５及びパワ
ー最大位置決定手段１６の動作は、実施の形態４と同様
であり、パワー最大位置決定手段１６からバックグラウ
ンド音声１０２のリズム基準位置１１３が出力される。

【００６１】ミキシング手段１４は、バックグラウンド
音声１０２のリズム基準位置１１３に、合成音声１２１
のリズム知覚点１２０が一致するように、合成音声１２
１とバックグラウンド音声１０２をミキシングする。例
えば、テキストデータ１０４の読みの情報が「ａｔａｒ
ａｓｈｉｉ」である場合には、合成音声１２１のリズム
知覚点１２０と音楽等のバックグラウンド音声１０２の
リズム基準位置１１３との対応関係は、図８に示すよう
になる。ミキシングの方法は波形上の直接加算で行う。
このようにして、ミキシング手段１４はミキシング音声
１０３を出力する。

【００６２】以上のように、この実施の形態５によれ
ば、テキストデータ１０４の言語情報の読みの情報に対
応した音素列毎のリズム知覚点１２０と、バックグラウ
ンド音声１０２の特定周波数帯域の短時間パワーの時間
系列であるパワー概形１１５が最大値を取るリズム基準
位置１１３を同期位置として自動的に抽出し、リズム知
覚点１２０とリズム基準位置１１３を同期させることに
より、テキストデータ１０４から合成した合成音声１２
１とバックグラウンド音声１０２の同期を考慮したミキ
シングを自動的に行うことができるという効果が得られ
る。

【００６３】実施の形態６．図９はこの発明の実施の形
態６による音声データ同期装置の構成を示すブロック図
である。図において、２２は音声データ１０１とその内
容を示すテキストデータ１０４を入力し、音声認識手法
により音声データ１０１の音素毎の区間を示す音素ラベ
ル列１２２を抽出する音素ラベリング手段である。な
お、上記実施の形態１から実施の形態５と同様の構成要
素及びデータについては、同じ符号を付けて説明を省略
する。

【００６４】次に動作を説明する。音声データ１０１
は、音声提示するためにシステムが予め用意した音声デ
ータとする。音素ラベリング手段２２は、音声データ１
０１とその内容を示すテキストデータ１０４を入力し、
音声認識手法により音声データ１０１の音素毎の区間を
示す音素ラベル列１２２を抽出する。音声認識はＨＭＭ
モデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を利
用した連続音声認識手法を利用し、音素ラベル列１２２
は音声データ１０１に対する音素毎の始端と終端を示す
形式とし、ポーズ、無音区間の推定も行うものとする。

【００６５】音素ラベリング手段２２により得られた音
素ラベル１２２に基づいて、同期点抽出手段２０は、リ
ズム知覚点テーブル記憶手段１９に記憶されているリズ
ム知覚点テーブル１１９を参照し、音素列毎にリズム知
覚点１２０を抽出する。リズム知覚点テーブル１１９の
形式と参照方法は、実施の形態５と同様とする。

【００６６】リズム基準位置決定手段１３における帯域
フィルタ手段１７，短時間パワー分析手段１５及びパワ
ー最大位置決定手段１６の動作は、実施の形態４と同様
であり、パワー最大位置決定手段１６からバックグラウ
ンド音声１０２のリズム基準位置１１３が出力される。

【００６７】ミキシング手段１４は、バックグラウンド
音声１０２のリズム基準位置１１３に、音声データ１０
１のリズム知覚点１２０が一致するように、音声データ
１０１とバックグラウンド音声１０２をミキシングす
る。例えば、音声データ１０１の読みの情報が「ａｔａ
ｒａｓｈｉｉ」である場合には、音声データ１０１のリ
ズム知覚点１２０と音楽等のバックグラウンド音声１０
２のリズム基準位置１１３との対応関係は、上記図８に
示すようになる。ミキシングの方法は、波形上の直接加
算で行う。このようにして、ミキシング手段１４はミキ
シング音声１０３を生成して出力する。

【００６８】以上のように、この実施の形態６によれ
ば、音声データ１０１の音素毎の区間を示す音素ラベル
列１２２に対応した音素列毎のリズム知覚点１２０と、
バックグラウンド音声１０２の特定周波数帯域の短時間
パワーの時間系列であるパワー概形１１５が最大値を取
るリズム基準位置１１３を同期位置として自動的に抽出
し、リズム知覚点１２０とリズム基準位置１１３を同期
させることにより、音声データ１０１とバックグラウン
ド音声１０２の同期を考慮したミキシングを自動的に行
うことができるという効果が得られる。

【００６９】実施の形態７．図１０はこの発明の実施の
形態７による音声データ同期装置の構成を示すブロック
図である。図において、２３はバックグラウンド音声１
０２のリズム基準位置１１３に、音声データ１０１のリ
ズム知覚点１２０が一致するように、音声データ１０１
の波形とリズム知覚点１２０を伸縮し、それぞれ波形伸
縮音声１２３と変更リズム知覚点１２４を出力する波形
伸縮手段である。なお、上記実施の形態１から実施の形
態６と同様の構成要素及びデータについては、同じ符号
を付けて説明を省略する。

【００７０】次に動作を説明する。実施の形態６と同様
にして、同期点抽出手段２０から音声データ１０１のリ
ズム知覚点１２０が出力され、パワー最大位置決定手段
１６からバックグラウンド音声１０２のリズム基準位置
１１３が出力される。波形伸縮手段２３は、バックグラ
ウンド音声１０２のリズム基準位置１１３に、音声デー
タ１０１のリズム知覚点１２０が一致するように、音声
データ１０１の波形とリズム知覚点１２０を伸縮して、
それぞれ波形伸縮音声１２３と変更リズム知覚点１２４
を出力する。

【００７１】図１１は波形伸縮手段２３の動作を示す図
である。図に示すように、例えば、音声データ１０１に
おけるリズム知覚点１２０の間隔が、バックグラウンド
音声１０２のリズム基準位置１１３の１／α（α＞０）
である場合、音声データ１０１の波形とリズム知覚点１
２０の値を時間方向にα倍に伸縮する。波形伸縮手法と
しては、線形補間等が考えられる。

【００７２】ミキシング手段１４は、バックグラウンド
音声１０２のリズム基準位置１１３に、波形伸縮音声１
２３のリズム知覚点となる変更リズム知覚点１２４が一
致するように、波形伸縮音声１２３とバックグラウンド
音声１０２をミキシングし、ミキシング音声１０３を生
成して出力する。ミキシングの方法は、波形上の直接加
算で行う。

【００７３】以上のように、この実施の形態７によれ
ば、バックグラウンド音声１０２のリズム基準位置１１
３に、音声データ１０１のリズム知覚点１２０が一致す
るように、音声データ１０１の波形とリズム知覚点１２
０を時間方向に伸縮することにより、バックグラウンド
音声１０２のテンポやリズムを急に変更しても、また、
バックグラウンド音声１０２の任意のリズムパターンに
対しても、音声データ１０１を時間方向に伸縮した波形
伸縮音声１２３とバックグラウンド音声１０２の同期を
考慮したミキシングを自動的に行うことができるという
効果が得られる。

【００７４】実施の形態８．図１２はこの発明の実施の
形態８による音声データ同期装置の構成を示すブロック
図である。図において、２５は音声データ１０１のピッ
チ同期位置１２５を抽出するピッチ同期位置抽出手段、
２６はバックグラウンド音声１０２のリズム基準位置１
１３に、音声データ１０１におけるリズム知覚点１２０
が一致するように、ピッチ同期位置１２５を利用して、
音声データ１０１の波形とリズム知覚点１２０を伸縮
し、それぞれ波形伸縮音声１２３と変更リズム知覚点１
２４を出力するＰＳＯＬＡ手段である。

【００７５】この実施の形態は、実施の形態７の波形伸
縮手段２３を、ピッチ同期位置抽出手段２５とＰＳＯＬ
Ａ手段２６により構成したものである。なお、上記実施
の形態１から実施の形態７と同様の構成要素及びデータ
については、同じ符号を付けて説明を省略する。

【００７６】次に動作を説明する。実施の形態６と同様
にして、同期点抽出手段２０から音声データ１０１のリ
ズム知覚点１２０が出力され、パワー最大位置決定手段
１６からバックグラウンド音声１０２のリズム基準位置
１１３が出力される。

【００７７】波形伸縮手段２３におけるピッチ同期位置
抽出手段２５は、音声データ１０１のピッチ同期位置１
２５を抽出する。ピッチ同期位置１２５の抽出法の一例
としては、まず、音声データ１０１のピッチ分析と有声
無声判別を行い、その結果を基に音声データ１０１の有
声区間について基本波成分を抽出し、その基本波成分が
極大となる位置をピッチ同期位置１２５として抽出す
る。

【００７８】ＰＳＯＬＡ手段２６は、バックグラウンド
音声１０２のリズム基準位置１１３に、音声データ１０
１のリズム知覚点１２０が一致するように、ピッチ同期
位置１２５を利用して、ピッチの周期の値を変更しない
ように、ＰＳＯＬＡ手法（ＰｉｔｃｈＳｙｎｃｈｒｏ
ｎｏｕｓＯｖｅｒｌａｐａｎｄＡｄｄ；ピッチ同
期波形重畳法）に基づき、音声データ１０１の波形とリ
ズム知覚点１２０を伸縮し、それぞれ波形伸縮音声１２
３と変更リズム知覚点１２４を出力する。

【００７９】例えば、音声データ１０１のリズム知覚点
１２０の間隔が、バックグラウンド音声１０２のリズム
基準位置１１３のα倍（α＞０）である場合、音声デー
タ１０１の波形とリズム知覚点１２０の値を時間方向に
１／αに伸縮する。波形伸縮手法として、有声区間につ
いてはＰＳＯＬＡ手法を使用し、無声区間については線
形補間を行う。

【００８０】ＰＳＯＬＡ手法は、音声データ１０１を、
ピッチ同期位置１２５を中心とするピッチ周期の２倍長
の時間窓で切り出して、目標とするピッチ周期間隔に再
配置して加算する手法である。ここでは、ピッチ周期の
値は変更しないために、原ピッチ周期の２倍長のハニン
グ窓でピッチ同期位置１２５を中心に音声データ１０１
を切り出す。そして、波形を伸長する場合には、目標の
長さとなるように切り出した波形を繰り返し、波形を縮
小する場合には目標の長さとなるように切り出した波形
を間引く。

【００８１】ミキシング手段１４は、実施の形態７と同
様に、波形伸縮音声１２３とバックグラウンド音声１０
２をミキシングして、ミキシング音声１０３を生成して
出力する。ミキシングの方法は、波形上の直接加算で行
う。

【００８２】以上のように、この実施の形態８によれ
ば、バックグラウンド音声１０２のリズム基準位置１１
３に、音声データ１０１のリズム知覚点１２０が一致す
るように、音声データ１０１の波形とリズム知覚点１２
０をＰＳＯＬＡ手法に基づいて時間方向に伸縮すること
により、バックグラウンド音声１０２のテンポやリズム
を急に変更しても、また、バックグラウンド音声１０２
の任意のリズムパターンに対しても、音声データ１０１
を時間方向に伸縮した波形伸縮音声１２３とバックグラ
ウンド音声１０２の同期を考慮したミキシングを自動的
に行うことができるという効果が得られる。

【００８３】実施の形態９．図１３はこの発明の実施の
形態９による音声データ同期装置の構成を示すブロック
図である。図において、２７はバックグラウンド音声１
０２のリズム基準位置１１３に、波形伸縮音声１２３の
変更リズム知覚点１２４が一致するように、波形伸縮音
声１２３とバックグラウンド音声１０２を直接加算し、
加算後の波形振幅が所定の閾値を越えた際に、波形伸縮
音声１２３とバックグラウンド音声１０２にそれぞれ所
定の係数を乗じて、ゲイン変更音声データ１２７とゲイ
ン変更バックグラウンド音声１２８を出力する波形ゲイ
ン変更手段である。なお、上記実施の形態１から実施の
形態７と同様の構成要素及びデータについては、同じ符
号を付けて説明を省略する。

【００８４】次に動作を説明する。実施の形態７と同様
にして、波形伸縮手段２３から、波形伸縮音声１２３と
変更リズム知覚点１２４が出力される。

【００８５】波形ゲイン変更手段２７は、バックグラウ
ンド音声１０２のリズム基準位置１１３に、波形伸縮音
声１２３の変更リズム知覚点１２４が一致するように、
波形伸縮音声１２３とバックグラウンド音声１０２を直
接加算し、加算後の波形振幅が所定の閾値を越えた際
に、波形伸縮音声１２３とバックグラウンド音声１０２
にそれぞれ所定の係数を乗じて、ゲイン変更音声データ
１２７とゲイン変更バックグラウンド音声１２８を出力
する。乗じる係数はそれぞれ０以上１以下の値とし、係
数を加算部分の波形全体に乗じた後に再加算する。も
し、加算後の波形が再び所定の閾値を越えた際には係数
を減少する。そして、加算後の波形の最大値が所定の閾
値を下回るまで繰り返す。

【００８６】ミキシング手段１４は、ゲイン変更バック
グラウンド音声１２８のリズム基準位置１１３に、ゲイ
ン変更音声データ１２７のリズム知覚点となる変更リズ
ム知覚点１２４が一致するように、ゲイン変更音声デー
タ１２７とゲイン変更バックグラウンド音声１２８をミ
キシングして、ミキシング音声１０３を出力する。ミキ
シングの方法は、波形上の直接加算で行う。

【００８７】以上のように、この実施の形態９によれ
ば、波形伸縮音声１２３とバックグラウンド音声１０２
との加算後の振幅値が所定値を越えないように、波形伸
縮音声１２３の波形値とバックグラウンド音声１０２の
波形値のそれぞれに、所定の係数を乗じて加算すること
により、ミキシング後の音量に注意することなく、音声
データ１０１を時間方向に伸縮した波形伸縮音声１２３
とバックグラウンド音声１０２の同期を考慮したミキシ
ングを自動的に行うことができるという効果が得られ
る。

【００８８】実施の形態１０．図１４はこの発明の実施
例の形態１０による音声データ同期装置の構成を示すブ
ロック図である。図において、３１は音声データ１０１
の発話内容に関連する画像１３１を記憶している画像記
憶手段、３２はバックグラウンド音声１０２のリズム基
準位置１１３と音声データ１０１のリズム知覚点１２０
が一致する時間を、ミキシング手段１４から出力される
同期タイミング１３０として入力し、テキストデータ１
０４に基づき画像記憶手段３１を参照し、音声データ１
０１の発話内容に関連する画像１３１を読み出して、同
期タイミング１３０によりミキシング音声１０３と同期
させて提示画像１０５を表示する画像表示手段である。
なお、上記実施の形態１から実施の形態６と同様の構成
要素及びデータについては、同じ符号を付けて説明を省
略する。

【００８９】次に動作を説明する。実施の形態６と同様
にして、ミキシング手段１４は、バックグラウンド音声
１０２のリズム基準位置１１３に、音声データ１０１の
リズム知覚点１２０が一致するように、音声データ１０
１とバックグラウンド音声１０２をミキシングし、ミキ
シング音声１０３を出力する。

【００９０】画像表示手段３２は、バックグラウンド音
声１０２におけるリズム基準位置１１３と音声データ１
０１のリズム知覚点１２０が一致する時間を、ミキシン
グ手段１４から出力される同期タイミング１３０として
入力し、テキストデータ１０４に基づき画像記憶手段３
１を参照し、音声データ１０１の発話内容に関する画像
１３１を読み出して、同期タイミング１３０によりミキ
シング音声１０３と同期させて提示画像１０５を表示す
る。

【００９１】図１５は画像表示手段３２の動作内容を示
す図であり、図に示すように、例えば音声データ１０１
が「我が家には猫がいます」で、「猫」という音声のタ
イミングで猫の画像を表示したい時には、「猫」という
テキストデータ１０４に基づき、画像記憶手段３１から
猫の画像１３１を読み出して、「猫」という音声データ
１０１のタイミングでバックグラウンド音声１０２のリ
ズム基準位置１１３と一致させることにより、猫の提示
画像１０５が画像表示手段３２により表示される。

【００９２】以上のように、この実施の形態１０によれ
ば、バックグラウンド音声１０２のリズム基準位置１１
３を、記憶した画像の表示タイミングとして利用するこ
とにより、音声データ１０１の内容を示す提示画像１０
５を、音声データ１０１の同期基準位置に提示すること
が可能となり、ミキシング音声１０３と提示画像１０５
との同期を自動的に実現できるという効果が得られる。

【００９３】実施の形態１１．図１６はこの発明の実施
の形態１１による音声データ作成装置の構成を示すブロ
ック図である。図において、３３はテキストデータ１０
４の内容を示す登録音声データ１３３，すなわち音声デ
ータ１０１と同じ内容の登録音声データを記憶している
登録音声データ記憶手段であり、３４は同期点抽出手段
２０から出力される音声データ１０１のリズム知覚点１
２０から、音声データ１０１のリズムパターンを得ると
共に、リズム基準位置決定手段１３から出力される登録
音声データ１３３のリズム基準位置１１３から、登録音
声データ１３３のリズムパターンを得て、その両方の音
声のリズムパターンを比較し、リズムパターン照合結果
１３４を出力するリズムパターン照合手段である。な
お、上記実施の形態１ないし実施の形態７と同様の構成
要素及びデータについては、同じ符号を付けて説明を省
略する。

【００９４】次に動作を説明する。音声データ１０１
は、ユーザがマイク等の音声入力装置でシステムに与え
た音声データとする。音素ラベリング手段２２はユーザ
からの音声データ１０１とその内容を示すテキストデー
タ１０４を入力し、音声認識手法により音声データ１０
１の音素毎の区間を示す音素ラベル列１２２を抽出す
る。音声認識の手法と音素ラベル列１２２の形式は実施
の形態６と同様とする。

【００９５】得られた音素ラベル列１２２に基づいて、
同期点抽出手段２０は、リズム知覚点テーブル記憶手段
１９に記憶されたリズム知覚点テーブル１１９を参照
し、音声データ１０１の音素列毎にリズム知覚点１２０
を得る。リズム知覚点テーブル１１９の形式と参照方法
は実施の形態５と同様とする。

【００９６】登録音声データ記憶手段３３は、テキスト
データ１０４の内容を示す登録音声データ、すなわち音
声データ１０１と同じ内容の音声データを記憶してい
る。リズム基準位置決定手段１３は、テキストデータ１
０４を入力し、登録音声データ記憶手段３３に記憶され
ている登録音声データ１３３を読み出して、登録音声デ
ータ１３３のリズム基準位置１１３を決定する。リズム
基準位置１１３の決定法は、実施の形態１と同様とす
る。

【００９７】リズムパターン照合手段３４は、音声デー
タ１０１のリズム知覚点１２０から音声データ１０１の
リズムパターンを得ると共に、登録音声データ１３３の
リズム基準位置１１３から登録音声データ１３３のリズ
ムパターンを得る。そして、その両方の音声データのリ
ズムパターンを比較して、ほぼ同等であれば、次の入力
音声１０１の入力を促す。もし、両方の音声データのリ
ズムパターンが異なっていたら、リズムパターン照合手
段３４は、リズムパターン照合結果１３４を波形伸縮手
段２３へ伝える。リズムパターン照合結果１３４には、
登録音声データ１３３を変更するために必要な情報とし
て、音声データ１０１のリズムパターンが含まれてい
る。

【００９８】波形伸縮手段２３は、音声データ１０１の
リズムパターンに、登録音声データ１３３のリズムパタ
ーンが一致するように、登録音声データ１３３の波形と
リズム基準位置１１３を時間方向に伸縮し、提示音声１
０６として出力する。波形伸縮方式は、実施の形態７と
同様とする。

【００９９】以上のように、この実施の形態１１によれ
ば、ユーザからの音声データ１０１を認識し、リズム知
覚点テーブル１１９を参照して音声データ１０１のリズ
ムパターンを抽出し、登録音声データ記憶手段３３に記
憶している同一音声データのリズムパターンと照合し
て、リズムパターンの差異がある時に、登録音声データ
記憶手段３３に記憶している同一の登録音声データ１３
３を、ユーザからの音声データ１０１のリズムパターン
に応じて時間方向に伸縮し、伸縮した登録音声データ
を、提示音声１０６としてユーザに提示することで、ユ
ーザの音声的なリズム学習のためのデータを自動的に変
更することができ、ユーザに高い学習効果を与えること
ができるという効果が得られる。

【０１００】上記実施の形態１ないし実施の形態１０に
おける音声データ１０１は、システムが用意した音声デ
ータの替わりに、ユーザがマイク等の入力装置を用いて
入力した発話音声であっても良い。

【０１０１】また、上記実施の形態１におけるピッチ最
大位置決定手段１２は、ピッチパターンにおけるピッチ
の最大値を取る位置を求める替わりに、ピッチパターン
をフレーズ成分とアクセント成分に分離し、アクセント
成分の最大値を取る位置を求めても良い。

【０１０２】さらに、上記実施の形態１，実施の形態３
及び実施の形態４におけるピッチ最大位置決定手段１
２，並びに実施の形態２におけるパワー最大位置決定手
段１６は、音声データ１０１に対して、一つのピッチ最
大位置１１２又はパワー最大位置１１６を決定する替わ
りに、ポーズに囲まれた呼気段落に対して一つずつ決定
しても良い。

【０１０３】さらに、上記実施の形態１，実施の形態３
及び実施の形態４におけるピッチ最大位置決定手段１
２，並びに実施の形態２におけるパワー最大位置決定手
段１６は、音声データ１０１に対して、一つのピッチ最
大位置１１２又はパワー最大位置１１６を決定する替わ
りに、音声データ１０１のピッチパターン１１１を求め
てピッチのフレーズ成分を解析し、フレーズ成分が下降
して再び高い値を取る箇所で、通常、フレーズの立て直
し位置と呼ばれる箇所を抽出して、その音声の始端、終
端及びフレーズの立て直し位置に囲まれた音声データ区
間に対して、一つずつ決定しても良い。

【０１０４】さらに、上記実施の形態１，実施の形態３
及び実施の形態４におけるピッチ最大位置決定手段１
２，並びに実施の形態２におけるパワー最大位置決定手
段１６は、音声データ１０１に対して、一つのピッチ最
大位置１１２又はパワー最大位置１１６を決定する替わ
りに、音声データ１０１のピッチパターン１１１又はパ
ワー概形１１５において、閾値を越す位置を位置候補と
して複数個抽出し、その位置の間隔が所定値を下回らな
ければ、最大位置に対して次位以下の位置候補も出力可
能とするという形式で、複数の位置を決定しても良い。

【０１０５】さらに、上記実施の形態１ないし実施の形
態４は、ピッチパターン１１１又はパワー概形１１５の
最大値を、音声データ１０１の同期位置とする替わり
に、実施の形態５におけるリズム知覚点テーブル記憶手
段１９を備え、ピッチパターン１１１又はパワー概形１
１５が最大値を取る音節におけるリズム知覚点１２０を
音声データ１０１の同期位置としても良い。

【０１０６】さらに、実施の形態５ないし実施の形態１
１におけるリズム知覚点テーブル記憶手段１９は、全て
の音素列の組合せに対応するリズム知覚点テーブル１１
９を用意する替わりに、システムからの音声提示に必要
と考える最小限の音素列の組合せに対応するリズム知覚
点テーブル１１９として記述しても良い。

【０１０７】さらに、実施の形態５ないし実施の形態１
１におけるリズム知覚点テーブル記憶手段１９は、音素
列の組合せのみに留まらず、母音部のピッチの高さや、
平均話速や、音声データ１０１が文頭、文中、文末のど
れに当たるかという情報に応じたリズム知覚点の値を記
述しても良い。

【０１０８】さらに、実施の形態７ないし実施の形態１
０は、音声データ１０１を入力する音素ラベリング手段
２２を備える替わりに、実施の形態５における音声合成
手段２１を備え、テキストデータ１０４からピッチ同期
点を抽出し、合成音声１２１とバックグラウンド音声１
０２とのミキシング音声１０３を出力しても良い。さら
に、バックグラウンド音声１０２のリズム基準位置１１
３を用いて、音声合成処理の時点で合成音声１２１のリ
ズム知覚点１２０とバックグラウンド音声１０２のリズ
ム基準位置１１３を一致させても良い。

【０１０９】さらに、実施の形態１０は、画像記憶手段
３１に記憶される画像１３１は、その内容を示す音素ラ
ベルが一緒に記憶され、画像表示手段３２は同期タイミ
ング１３０として音声が提示される時間での音素ラベル
を受け、音素ラベルに対応する提示画像１０５を表示し
ても良く、提示画像１０５を提示される音声の長さに応
じて自動的に変更しても良い。

【０１１０】さらに、実施の形態１１は、波形伸縮した
提示音声１０６を提示するだけでなく、システムが登録
している元の登録音声データと交互に提示しても良い。

【０１１１】

【発明の効果】以上のように、この発明によれば、バッ
クグラウンド音声の波形特徴又は韻律特徴から求めたリ
ズム基準位置に、音声データの韻律特徴から求めたプロ
ミネンス位置が一致するように、音声データとバックグ
ラウンド音声をミキシングすることにより、同期を考慮
したミキシングを自動的に行うことができるという効果
がある。

【０１１２】この発明によれば、バックグラウンド音声
のリズム基準位置に、音声データのピッチから求めたピ
ッチ最大位置が一致するように、音声データとバックグ
ラウンド音声をミキシングすることにより、同期を考慮
したミキシングを自動的に行うことができるという効果
がある。

【０１１３】この発明によれば、バックグラウンド音声
のリズム基準位置に、音声データの短時間パワーから求
めたパワー最大位置が一致するように、音声データとバ
ックグラウンド音声をミキシングすることにより、同期
を考慮したミキシングを自動的に行うことができるとい
う効果がある。

【０１１４】この発明によれば、バックグラウンド音声
の短時間パワーから求めたリズム基準位置に、音声デー
タのプロミネンス位置が一致するように、音声データと
バックグラウンド音声をミキシングすることにより、同
期を考慮したミキシングを自動的に行うことができると
いう効果がある。

【０１１５】この発明によれば、特定の周波数帯域にお
けるバックグラウンド音声の短時間パワーから求めたリ
ズム基準位置に、音声データのプロミネンス位置が一致
するように、音声データとバックグラウンド音声をミキ
シングすることにより、同期を考慮したミキシングを自
動的に行うことができるという効果がある。

【０１１６】この発明によれば、テキストデータから言
語情報を抽出し、バックグラウンド音声の波形特徴又は
韻律特徴から求めたリズム基準位置に、言語情報により
リズム知覚点テーブルから抽出したテキストデータの音
素列毎のリズム知覚点が一致するように、テキストデー
タから合成した合成音声とバックグラウンド音声をミキ
シングすることにより、同期を考慮したミキシングを自
動的に行うことができるという効果がある。

【０１１７】この発明によれば、音声データとその内容
を示すテキストデータから音素ラベル列を抽出し、バッ
クグラウンド音声の波形特徴又は韻律特徴から求めたリ
ズム基準位置に、音素ラベル列によりリズム知覚点テー
ブルから抽出した音声データの音素列毎のリズム知覚点
が一致するように、音声データとバックグラウンド音声
をミキシングすることにより、同期を考慮したミキシン
グを自動的に行うことができるという効果がある。

【０１１８】この発明によれば、特定の周波数帯域にお
けるバックグラウンド音声の短時間パワーから求めたリ
ズム基準位置に、合成音声又は音声データの音素列毎の
リズム知覚点が一致するように、合成音声又は音声デー
タと、バックグラウンド音声とをミキシングすることに
より、同期を考慮したミキシングを自動的に行うことが
できるという効果がある。

【０１１９】この発明によれば、バックグラウンド音声
のリズム基準位置に、音声データの音素列毎のリズム知
覚点が一致するように、音声データとリズム知覚点を時
間方向に伸縮し、伸縮した音声データとバックグラウン
ド音声をミキシングすることにより、バックグラウンド
音声のテンポやリズムを急に変更しても、任意のリズム
パターンに対しても、同期を考慮したミキシングを自動
的に行うことができるという効果がある。

【０１２０】この発明によれば、バックグラウンド音声
のリズム基準位置に、音声データの音素列毎のリズム知
覚点が一致するように、音声データとリズム知覚点をピ
ッチ同期波形重畳法により時間方向に伸縮し、伸縮した
音声データとバックグラウンド音声をミキシングするこ
とにより、バックグラウンド音声のテンポやリズムを急
に変更しても、任意のリズムパターンに対しても、同期
を考慮したミキシングを自動的に行うことができるとい
う効果がある。

【０１２１】この発明によれば、伸縮した音声データ
と、バックグラウンド音声に、ミキシングしたときの加
算値が所定の閾値を越えないように、所定の係数を乗じ
ることにより、ミキシング後の音量に注意することな
く、ミキシングを自動的に行うことができるという効果
がある。

【０１２２】この発明によれば、バックグラウンド音声
のリズム基準位置と音声データのリズム知覚点が一致す
るタイミングで、音声データの発話内容に関する画像を
読み出して表示することにより、ミキシング音声と画像
との同期を自動的に実現できるという効果がある。

【０１２３】この発明によれば、ユーザからの音声デー
タと、その内容を示すテキストデータから音素ラベル列
を抽出し、リズム知覚点テーブルを参照してユーザから
の音声データのリズムパターンを抽出し、音声データと
同じ内容の登録音声データのリズムパターンと照合し
て、ユーザからの音声データのリズムパターンに、登録
音声データのリズムパターンが一致するように時間方向
に伸縮してユーザに提示することにより、ユーザの音声
的なリズム学習のためのデータを自動的に変更すること
ができ、ユーザに高い学習効果を与えることができると
いう効果が得られる。

【図面の簡単な説明】

【図１】この発明の実施の形態１による音声データ同
期装置の構成を示すブロック図である。

【図２】この発明の実施の形態１によるミキシング手
段の動作内容を示す図である。

【図３】この発明の実施の形態２による音声データ同
期装置の構成を示すブロック図である。

【図４】この発明の実施の形態３による音声データ同
期装置の構成を示すブロック図である。

【図５】この発明の実施の形態４による音声データ同
期装置の構成を示すブロック図である。

【図６】この発明の実施の形態５による音声データ同
期装置の構成を示すブロック図である。

【図７】この発明の実施の形態５ないし実施の形態１
１によるリズム知覚点テーブルの内容を示す図である。

【図８】この発明の実施の形態５及び実施の形態６に
よるミキシング手段の動作内容を示す図である。

【図９】この発明の実施の形態６による音声データ同
期装置の構成を示すブロック図である。

【図１０】この発明の実施の形態７による音声データ
同期装置の構成を示すブロック図である。

【図１１】この発明の実施の形態７による波形伸縮手
段の動作内容を示す図である。

【図１２】この発明の実施の形態８による音声データ
同期装置の構成を示すブロック図である。

【図１３】この発明の実施の形態９による音声データ
同期装置の構成を示すブロック図である。

【図１４】この発明の実施の形態１０による音声デー
タ同期装置の構成を示すブロック図である。

【図１５】この発明の実施の形態１０による画像表示
手段の動作内容を示す図である。

【図１６】この発明の実施の形態１１による音声デー
タ作成装置の構成を示すブロック図である。

【図１７】従来の音声対話装置の構成を示すブロック
図である。

【符号の説明】

１１ピッチ分析手段、１２ピッチ最大位置決定手
段、１３リズム基準位置決定手段、１４ミキシング
手段、１５短時間パワー分析手段、１６パワー最大
位置決定手段、１７帯域フィルタ手段、１８言語解
析手段、１９リズム知覚点テーブル記憶手段、２０
同期点抽出手段、２１音声合成手段、２２音素ラベ
リング手段、２３波形伸縮手段、２５ピッチ同期位
置抽出手段、２６ＰＳＯＬＡ手段、２７波形ゲイン
変更手段、３１画像記憶手段、３２画像表示手段、
３３登録音声データ記憶手段、３４リズムパターン
照合手段、１０１音声データ、１０２バックグラウ
ンド音声、１０３ミキシング音声、１０４テキスト
データ、１０５提示画像、１０６提示音声、１１１
ピッチパターン、１１２ピッチ最大位置、１１３
リズム基準位置、１１５パワー概形、１１６パワー
最大位置、１１７帯域限定音声、１１８言語情報、
１１９リズム知覚点テーブル、１２０リズム知覚
点、１２１合成音声、１２２音素ラベル列、１２３
波形伸縮音声、１２４変更リズム知覚点、１２５
ピッチ同期位置、１２７ゲイン変更音声データ、１２
８ゲイン変更バックグラウンド音声、１３０同期タ
イミング、１３１画像、１３３登録音声データ、１３
４リズムパターン照合結果。

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5D015 CC13 CC14 FF06 9A001 BB03 BB04 HH13 HH15 HH16 HH17 HH18 HH33 JJ14 JJ19 JJ74 KK09 KK31 KK37 KK43

Claims

【特許請求の範囲】

【請求項１】音声データを音楽やリズム信号等のバッ
クグラウンド音声と同期させてミキシングする音声デー
タ同期装置において、上記音声データの韻律特徴を分析して韻律特徴の時間系
列を求める韻律特徴分析手段と、上記韻律特徴の時間系列から上記音声データの文意の中
心であるプロミネンス位置を決定するプロミネンス決定
手段と、上記バックグラウンド音声の波形特徴又は韻律特徴か
ら、上記バックグラウンド音声のリズム基準位置を決定
するリズム基準位置決定手段と、上記バックグラウンド音声のリズム基準位置に、上記音
声データのプロミネンス位置が一致するように、上記音
声データと上記バックグラウンド音声をミキシングし
て、ミキシング音声を出力するミキシング手段とを備え
たこと特徴とする音声データ同期装置。
【請求項２】韻律特徴分析手段が、音声データの韻律
特徴であるピッチを分析してピッチの時間系列であるピ
ッチパターンを求め、プロミネンス決定手段が、上記ピッチパターンにおい
て、上記ピッチの値が最大になるピッチ最大位置を決定
し、ミキシング手段が、バックグラウンド音声のリズム基準
位置に、上記音声データのピッチ最大位置が一致するよ
うに、上記音声データと上記バックグラウンド音声をミ
キシングすることを特徴とする請求項１記載の音声デー
タ同期装置。
【請求項３】韻律特徴分析手段が、音声データの韻律
特徴である短時間パワーを分析して短時間パワーの時間
系列であるパワー概形を求め、プロミネンス決定手段が、上記パワー概形において、上
記短時間パワーの値が最大になるパワー最大位置を決定
し、ミキシング手段が、バックグラウンド音声のリズム基準
位置に、上記音声データのパワー最大位置が一致するよ
うに、上記音声データと上記バックグラウンド音声をミ
キシングすることを特徴とする請求項１記載の音声デー
タ同期装置。
【請求項４】リズム基準位置決定手段が、バックグラ
ウンド音声の韻律特徴である短時間パワーを分析して短
時間パワーの時間系列であるパワー概形を求め、上記パ
ワー概形において、上記短時間パワーの値が最大になる
パワー最大位置を、上記バックグラウンド音声のリズム
基準位置として決定することを特徴とする請求項１記載
の音声データ同期装置。
【請求項５】リズム基準位置決定手段が、特定の周波
数帯域におけるバックグラウンド音声の韻律特徴である
短時間パワーを分析して短時間パワーの時間系列である
パワー概形を求めることを特徴とする請求項４記載の音
声データ同期装置。
【請求項６】テキストデータからテキスト音声変換技
術により合成された合成音声を、音楽やリズム信号等の
バックグラウンド音声と同期させてミキシングする音声
データ同期装置において、上記テキストデータを言語解析し、読み、品詞、アクセ
ント型等の言語情報を抽出する言語解析手段と、母音や子音の音素列に対応したリズム知覚点を記述した
リズム知覚点テーブルを記憶するリズム知覚点テーブル
記憶手段と、上記言語解析手段により抽出された言語情報により、上
記リズム知覚点テーブル記憶手段に記憶されたリズム知
覚点テーブルを参照し、上記テキストデータの音素列毎
にリズム知覚点を抽出する同期点抽出手段と、上記言語解析手段により抽出された言語情報から合成音
声を生成する音声合成手段と、上記バックグラウンド音声の波形特徴又は韻律特徴か
ら、上記バックグラウンド音声のリズム基準位置を決定
するリズム基準位置決定手段と、上記バックグラウンド音声のリズム基準位置に、上記同
期点抽出手段により抽出されたリズム知覚点が一致する
ように、上記合成音声と上記バックグラウンド音声をミ
キシングして、ミキシング音声を出力するミキシング手
段とを備えたこと特徴とする音声データ同期装置。
【請求項７】音声データを音楽やリズム信号等のバッ
クグラウンド音声と同期させてミキシングする音声デー
タ同期装置において、上記音声データと、その内容を示すテキストデータを入
力し、音声認識手法により上記音声データの音素毎の区
間を示す音素ラベル列を抽出する音素ラベリング手段
と、母音や子音の音素列に対応したリズム知覚点を記述した
リズム知覚点テーブルを記憶しているリズム知覚点テー
ブル記憶手段と、上記音素ラベリング手段により抽出された音素ラベル列
により、上記リズム知覚点テーブル記憶手段に記憶され
たリズム知覚点テーブルを参照し、上記音声データの音
素列毎にリズム知覚点を抽出する同期点抽出手段と、上記バックグラウンド音声の波形特徴又は韻律特徴か
ら、上記バックグラウンド音声のリズム基準位置を決定
するリズム基準位置決定手段と、上記バックグラウンド音声のリズム基準位置に、上記同
期点抽出手段により抽出されたリズム知覚点が一致する
ように、上記音声データと上記バックグラウンド音声を
ミキシングして、ミキシング音声を出力するミキシング
手段とを備えたこと特徴とする音声データ同期装置。
【請求項８】リズム基準位置決定手段が、特定の周波
数帯域におけるバックグラウンド音声の韻律特徴である
短時間パワーを分析して短時間パワーの時間系列である
パワー概形を求め、上記パワー概形において、上記短時
間パワーの値が最大になるパワー最大位置を、上記バッ
クグラウンド音声のリズム基準位置として決定すること
を特徴とする請求項６又は請求項７記載の音声データ同
期装置。
【請求項９】リズム基準位置決定手段により決定され
たバックグラウンド音声のリズム基準位置に、同期点抽
出手段により抽出されたリズム知覚点が一致するよう
に、音声データと上記リズム知覚点を時間方向に伸縮
し、波形伸縮音声と変更リズム知覚点を出力する波形伸
縮手段を備え、ミキシング手段が、上記リズム基準位置に、上記変更リ
ズム知覚点が一致するように、上記波形伸縮音声と上記
バックグラウンド音声をミキシングすることを特徴とす
る請求項７記載の音声データ同期装置。
【請求項１０】波形伸縮手段が、音声データのピッチ
同期位置を抽出し、リズム基準位置決定手段により決定
されたバックグラウンド音声のリズム基準位置に、同期
点抽出手段により抽出されたリズム知覚点が一致するよ
うに、抽出された上記ピッチ同期位置を利用して、ピッ
チ周期の値を変更しないように、ピッチ同期波形重畳法
に基づき、上記音声データと上記リズム知覚点を時間方
向に伸縮し、波形伸縮音声と変更リズム知覚点を出力す
ることを特徴とする請求項９記載の音声データ同期装
置。
【請求項１１】波形伸縮手段から出力された波形伸縮
音声と、バックグラウンド音声に、ミキシングしたとき
の加算値が所定の閾値を越えないように、所定の係数を
乗じて、ゲイン変更入力音声とゲイン変更バックグラウ
ンド音声を出力する波形ゲイン変更手段を備え、ミキシング手段が、リズム基準位置と変更リズム知覚点
が一致するように、上記ゲイン変更入力音声と上記ゲイ
ン変更バックグラウンド音声をミキシングすることを特
徴とする請求項９記載の音声データ同期装置。
【請求項１２】音声データの発話内容に関連する画像
を記憶している画像記憶手段と、バックグラウンド音声のリズム基準位置と音声データの
リズム知覚点が一致する時間を、ミキシング手段から出
力される同期タイミングとして入力し、テキストデータ
に基づき上記画像記憶手段を参照し、上記音声データの
発話内容に関連する画像を読み出し、上記同期タイミン
グにより上記ミキシング手段から出力されるミキシング
音声と同期させて、読み出した画像を表示する画像表示
手段とを備えたことを特徴とする請求項７記載の音声デ
ータ同期装置。
【請求項１３】ユーザからの音声データと、その内容
を示すテキストデータを入力し、音声認識手法により上
記音声データの音素毎の区間を示す音素ラベル列を抽出
する音素ラベリング手段と、母音や子音の音素列に対応したリズム知覚点を記述した
リズム知覚点テーブルを記憶しているリズム知覚点テー
ブル記憶手段と、上記音素ラベリング手段により抽出された音素ラベル列
により、上記リズム知覚点テーブル記憶手段に記憶され
たリズム知覚点テーブルを参照し、上記音声データの音
素列毎にリズム知覚点を抽出する同期点抽出手段と、上記音声データと同じ内容の登録音声データを記憶して
いる登録音声データ記憶手段と、上記テキストデータを入力し、上記登録音声データ記憶
手段に記憶されている登録音声データを読み出し、上記
登録音声データのリズム基準位置を決定するリズム基準
位置決定手段と、上記同期点抽出手段が抽出した上記リズム知覚点から得
られる上記音声データのリズムパターンと、上記リズム
基準位置決定手段が決定したリズム基準位置から得られ
る上記登録音声データのリズムパターンを比較し、リズ
ムパターン照合結果を出力するリズムパターン照合手段
と、上記リズムパターン照合結果に基づき、上記音声データ
のリズムパターンに、上記登録音声データのリズムパタ
ーンが一致するように、上記登録音声データ記憶手段に
記憶されている登録音声データと、上記登録音声データ
のリズム基準位置を時間方向に伸縮して、提示音声とし
て出力する波形伸縮手段とを備えたこと特徴とする音声
データ作成装置。