JP2001125599A - 音声データ同期装置及び音声データ作成装置 - Google Patents
音声データ同期装置及び音声データ作成装置Info
- Publication number
- JP2001125599A JP2001125599A JP30306099A JP30306099A JP2001125599A JP 2001125599 A JP2001125599 A JP 2001125599A JP 30306099 A JP30306099 A JP 30306099A JP 30306099 A JP30306099 A JP 30306099A JP 2001125599 A JP2001125599 A JP 2001125599A
- Authority
- JP
- Japan
- Prior art keywords
- rhythm
- audio data
- data
- reference position
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 音声データとバックグラウンド音声の同期を
考慮したミキシングを自動的に行う。 【解決手段】 ピッチ分析手段11は音声データ101
のピッチを分析し、ピッチパターン111を求め、ピッ
チ最大位置決定手段12は、ピッチの値が最大になるピ
ッチ最大位置112を決定する。リズム基準位置決定手
段13は、バックグラウンド音声102のリズム基準位
置113を決定する。ミキシング手段14は、リズム基
準位置113の一つに、ピッチ最大位置112が一致す
るように、音声データ101とバックグラウンド音声1
02をミキシングし、ミキシング音声103を出力す
る。
考慮したミキシングを自動的に行う。 【解決手段】 ピッチ分析手段11は音声データ101
のピッチを分析し、ピッチパターン111を求め、ピッ
チ最大位置決定手段12は、ピッチの値が最大になるピ
ッチ最大位置112を決定する。リズム基準位置決定手
段13は、バックグラウンド音声102のリズム基準位
置113を決定する。ミキシング手段14は、リズム基
準位置113の一つに、ピッチ最大位置112が一致す
るように、音声データ101とバックグラウンド音声1
02をミキシングし、ミキシング音声103を出力す
る。
Description
【0001】
【発明の属する技術分野】この発明は、音声情報を利用
したマン・マシン・インタフェース、特に情報提供や教
育用途のシステム、マルチメディアコンテンツを用いる
システムにおいて、音声あるいは画像の時間的同期を実
現する音声データ同期装置及び時間的な変更を施した音
声データ作成装置に関するものである。
したマン・マシン・インタフェース、特に情報提供や教
育用途のシステム、マルチメディアコンテンツを用いる
システムにおいて、音声あるいは画像の時間的同期を実
現する音声データ同期装置及び時間的な変更を施した音
声データ作成装置に関するものである。
【0002】
【従来の技術】近年、音声を利用したマンマシンインタ
フェースが普及しており、また、音声の他に音楽や画像
等のマルチメディアコンテンツを扱うコンピュータ等が
注目を集めている。特にCAI(Computer A
ided Instruction)に代表されるコン
ピュータ利用の教育システムにおいては、音声情報をど
のように扱うかが重要な課題となっている。
フェースが普及しており、また、音声の他に音楽や画像
等のマルチメディアコンテンツを扱うコンピュータ等が
注目を集めている。特にCAI(Computer A
ided Instruction)に代表されるコン
ピュータ利用の教育システムにおいては、音声情報をど
のように扱うかが重要な課題となっている。
【0003】例えば語学教育のソフトウェアでは、ユー
ザもシステムも音声を通じたやりとりが行われるのが望
ましい。その中では、言語的・意味的な情報の提供だけ
ではなく、音響的な情報やリズム・テンポ・アクセント
等の韻律的な情報の提供と実習の実現が今後必要とな
る。その一例として、英語音声を音楽に乗せて画像と共
にユーザに提供し、音声のリズムやアクセントのタイミ
ングを、聴覚的かつ視覚的に学習させるシステムに関す
る研究も行われている。
ザもシステムも音声を通じたやりとりが行われるのが望
ましい。その中では、言語的・意味的な情報の提供だけ
ではなく、音響的な情報やリズム・テンポ・アクセント
等の韻律的な情報の提供と実習の実現が今後必要とな
る。その一例として、英語音声を音楽に乗せて画像と共
にユーザに提供し、音声のリズムやアクセントのタイミ
ングを、聴覚的かつ視覚的に学習させるシステムに関す
る研究も行われている。
【0004】このように、音声と音楽等の複数の音源か
らなる音響情報を、同期させて提示する方式は既に検討
されている。このような従来技術として、特開平4−1
41693号公報に開示された「音楽の同期信号生成装
置(以下、文献1とする)」が挙げられる。
らなる音響情報を、同期させて提示する方式は既に検討
されている。このような従来技術として、特開平4−1
41693号公報に開示された「音楽の同期信号生成装
置(以下、文献1とする)」が挙げられる。
【0005】図17は文献1で示される手法に基づく音
声対話装置の構成を示すブロック図(以下、第1の従来
例)である。図において、51は音楽が記録されたメデ
ィアを再生するメディア再生装置、52は再生されたメ
ディアのスペクトルを分析するスペクトル分析装置、5
3はスペクトル分析装置52で分析された情報を表示す
るスペクトル表示装置である。
声対話装置の構成を示すブロック図(以下、第1の従来
例)である。図において、51は音楽が記録されたメデ
ィアを再生するメディア再生装置、52は再生されたメ
ディアのスペクトルを分析するスペクトル分析装置、5
3はスペクトル分析装置52で分析された情報を表示す
るスペクトル表示装置である。
【0006】また、図17において、54は目的とする
音楽の基礎データを入力する基礎データ入力装置、55
はリアルタイムにテンポを入力するリアルタイムタクト
入力装置、56はテンポを取得するに必要な実験的に得
た情報を記憶する一般知識入力装置、57は各種データ
より同期信号を生成する同期信号生成装置、58は音楽
毎の固有な基礎データを記憶するデータ記憶装置であ
る。
音楽の基礎データを入力する基礎データ入力装置、55
はリアルタイムにテンポを入力するリアルタイムタクト
入力装置、56はテンポを取得するに必要な実験的に得
た情報を記憶する一般知識入力装置、57は各種データ
より同期信号を生成する同期信号生成装置、58は音楽
毎の固有な基礎データを記憶するデータ記憶装置であ
る。
【0007】さらに、図17において、59はMIDI
(Musical Instrument Digit
al Interface)規格に沿ったMIDI同期
信号を生成するMIDI同期信号生成装置、60はMI
DI同期信号を処理するMIDI同期信号処理装置であ
る。
(Musical Instrument Digit
al Interface)規格に沿ったMIDI同期
信号を生成するMIDI同期信号生成装置、60はMI
DI同期信号を処理するMIDI同期信号処理装置であ
る。
【0008】次に第1の従来例による音楽の同期信号生
成装置の動作について説明する。基礎データ入力装置5
4に、何拍子で何小節か等の目的の楽曲に対して予めわ
かる基礎データを入力する。同期信号生成装置57で
は、その基礎データをデータ記憶装置58に記憶する。
最初の再生時には、スペクトル分析装置52がスペクト
ルを分析し、同期信号生成装置57が、そのスペクトル
のパワーのピークを抽出する。リアルタイムタクト入力
装置55は、ユーザがスペクトル表示装置53を監視し
て、スペクトルピークが検出しにくい箇所について、キ
ー入力で大まかなテンポを入力する。
成装置の動作について説明する。基礎データ入力装置5
4に、何拍子で何小節か等の目的の楽曲に対して予めわ
かる基礎データを入力する。同期信号生成装置57で
は、その基礎データをデータ記憶装置58に記憶する。
最初の再生時には、スペクトル分析装置52がスペクト
ルを分析し、同期信号生成装置57が、そのスペクトル
のパワーのピークを抽出する。リアルタイムタクト入力
装置55は、ユーザがスペクトル表示装置53を監視し
て、スペクトルピークが検出しにくい箇所について、キ
ー入力で大まかなテンポを入力する。
【0009】同期信号生成装置57は、上記パワーのピ
ーク位置の間隔を測定し、リアルタイムタクト入力装置
55からのテンポ情報と、基礎データ入力装置54から
の目的の音楽の基礎データ、さらに一般知識入力装置5
6からの音楽の一般知識を得て、1小節の時間を算出し
つつ同期信号を生成し、データ記憶装置58に記憶す
る。
ーク位置の間隔を測定し、リアルタイムタクト入力装置
55からのテンポ情報と、基礎データ入力装置54から
の目的の音楽の基礎データ、さらに一般知識入力装置5
6からの音楽の一般知識を得て、1小節の時間を算出し
つつ同期信号を生成し、データ記憶装置58に記憶す
る。
【0010】2回目以降の再生時は、音楽と共にデータ
記憶装置58に記憶された同期信号をMIDI信号とし
て出力する。そしてテンポが不確実な箇所については、
ユーザがスペクトル表示装置53を参照しつつ、リアル
タイムタクト入力装置55で手修正により同期位置を修
正する。この操作を繰り返すことで正確な同期信号を得
る。以上が第1の従来技術である。
記憶装置58に記憶された同期信号をMIDI信号とし
て出力する。そしてテンポが不確実な箇所については、
ユーザがスペクトル表示装置53を参照しつつ、リアル
タイムタクト入力装置55で手修正により同期位置を修
正する。この操作を繰り返すことで正確な同期信号を得
る。以上が第1の従来技術である。
【0011】また、ボイスメールにおいて、音声に音楽
を重畳する従来技術として、特開平7−212475号
公報に開示された「ボイスメール音声メッセージ重畳方
式(以下、文献2とする)」がある。文献2では、複数
の音源ボックスに録音された音声を蓄積する音声蓄積部
を備え、検索手段で音声蓄積部の中から合成に用いる音
源を検索し、同期手段で検索された複数の音源を同時に
再生させるための同期を取り、再生音量制御部で自動的
に音量のバランスを調整し、合成部で複数音源を重畳し
て再生する。
を重畳する従来技術として、特開平7−212475号
公報に開示された「ボイスメール音声メッセージ重畳方
式(以下、文献2とする)」がある。文献2では、複数
の音源ボックスに録音された音声を蓄積する音声蓄積部
を備え、検索手段で音声蓄積部の中から合成に用いる音
源を検索し、同期手段で検索された複数の音源を同時に
再生させるための同期を取り、再生音量制御部で自動的
に音量のバランスを調整し、合成部で複数音源を重畳し
て再生する。
【0012】同期手段は各音源の再生開始時間を一致さ
せる。再生音量制御部では、例えばアナウンス音声が再
生される期間は、バックグラウンドの音楽の音量レベル
を下げる処理を行う。このようにして、音楽とアナウン
ス等の複数の音声情報を、予めミックスした音声として
用意せずに、制御により生成することができる。これが
第2の従来技術である。
せる。再生音量制御部では、例えばアナウンス音声が再
生される期間は、バックグラウンドの音楽の音量レベル
を下げる処理を行う。このようにして、音楽とアナウン
ス等の複数の音声情報を、予めミックスした音声として
用意せずに、制御により生成することができる。これが
第2の従来技術である。
【0013】
【発明が解決しようとする課題】第1の従来技術は以上
のように構成されているので、同期のために必要となる
音楽情報のリズムパターンを抽出することが可能である
が、全てのリズムパターンを予め抽出しなければなら
ず、リアルタイム性に欠けるという課題があった。ま
た、スペクトルのパワー概形を監視して修正しなくては
ならず、一般ユーザが音楽のリズム抽出に利用するには
困難であると共に、予めリズムパターンをわかっていな
いといけないという課題があった。
のように構成されているので、同期のために必要となる
音楽情報のリズムパターンを抽出することが可能である
が、全てのリズムパターンを予め抽出しなければなら
ず、リアルタイム性に欠けるという課題があった。ま
た、スペクトルのパワー概形を監視して修正しなくては
ならず、一般ユーザが音楽のリズム抽出に利用するには
困難であると共に、予めリズムパターンをわかっていな
いといけないという課題があった。
【0014】さらに第2の従来技術では、あくまで複数
の音声の重畳時の音量の制御に留まり、一方の音声を所
望の時間に再生するような時間の方向の制御は行われて
おらず、ダイナミックなリズムや同期タイミングの制御
を実現することはできないという課題があった。
の音声の重畳時の音量の制御に留まり、一方の音声を所
望の時間に再生するような時間の方向の制御は行われて
おらず、ダイナミックなリズムや同期タイミングの制御
を実現することはできないという課題があった。
【0015】この発明は上記のような課題を解決するた
めになされたもので、音声を聴取したり、そのスペクト
ルや波形を監視せずに、入力音声と音楽やリズム信号等
のバックグラウンド音声の同期位置を自動的に抽出し、
入力音声とバックグラウンド音声を、自動的に同期を取
ってミキシングすることができる音声データ同期装置を
得ることを目的とする。また、同期位置に合わせて、一
方の音声信号を時間方向に変更することのできる音声デ
ータ作成装置を得ることを目的とする。
めになされたもので、音声を聴取したり、そのスペクト
ルや波形を監視せずに、入力音声と音楽やリズム信号等
のバックグラウンド音声の同期位置を自動的に抽出し、
入力音声とバックグラウンド音声を、自動的に同期を取
ってミキシングすることができる音声データ同期装置を
得ることを目的とする。また、同期位置に合わせて、一
方の音声信号を時間方向に変更することのできる音声デ
ータ作成装置を得ることを目的とする。
【0016】
【課題を解決するための手段】この発明に係る音声デー
タ同期装置は、音声データを音楽やリズム信号等のバッ
クグラウンド音声と同期させてミキシングするものにお
いて、上記音声データの韻律特徴を分析して韻律特徴の
時間系列を求める韻律特徴分析手段と、上記韻律特徴の
時間系列から上記音声データの文意の中心であるプロミ
ネンス位置を決定するプロミネンス決定手段と、上記バ
ックグラウンド音声の波形特徴又は韻律特徴から、上記
バックグラウンド音声のリズム基準位置を決定するリズ
ム基準位置決定手段と、上記バックグラウンド音声のリ
ズム基準位置に、上記音声データのプロミネンス位置が
一致するように、上記音声データと上記バックグラウン
ド音声をミキシングして、ミキシング音声を出力するミ
キシング手段とを備えたものである。
タ同期装置は、音声データを音楽やリズム信号等のバッ
クグラウンド音声と同期させてミキシングするものにお
いて、上記音声データの韻律特徴を分析して韻律特徴の
時間系列を求める韻律特徴分析手段と、上記韻律特徴の
時間系列から上記音声データの文意の中心であるプロミ
ネンス位置を決定するプロミネンス決定手段と、上記バ
ックグラウンド音声の波形特徴又は韻律特徴から、上記
バックグラウンド音声のリズム基準位置を決定するリズ
ム基準位置決定手段と、上記バックグラウンド音声のリ
ズム基準位置に、上記音声データのプロミネンス位置が
一致するように、上記音声データと上記バックグラウン
ド音声をミキシングして、ミキシング音声を出力するミ
キシング手段とを備えたものである。
【0017】この発明に係る音声データ同期装置は、韻
律特徴分析手段が、音声データの韻律特徴であるピッチ
を分析してピッチの時間系列であるピッチパターンを求
め、プロミネンス決定手段が、上記ピッチパターンにお
いて、上記ピッチの値が最大になるピッチ最大位置を決
定し、ミキシング手段が、バックグラウンド音声のリズ
ム基準位置に、上記音声データのピッチ最大位置が一致
するように、上記音声データと上記バックグラウンド音
声をミキシングするものである。
律特徴分析手段が、音声データの韻律特徴であるピッチ
を分析してピッチの時間系列であるピッチパターンを求
め、プロミネンス決定手段が、上記ピッチパターンにお
いて、上記ピッチの値が最大になるピッチ最大位置を決
定し、ミキシング手段が、バックグラウンド音声のリズ
ム基準位置に、上記音声データのピッチ最大位置が一致
するように、上記音声データと上記バックグラウンド音
声をミキシングするものである。
【0018】この発明に係る音声データ同期装置は、韻
律特徴分析手段が、音声データの韻律特徴である短時間
パワーを分析して短時間パワーの時間系列であるパワー
概形を求め、プロミネンス決定手段が、上記パワー概形
において、上記短時間パワーの値が最大になるパワー最
大位置を決定し、ミキシング手段が、バックグラウンド
音声のリズム基準位置に、音声データのパワー最大位置
が一致するように、上記音声データと上記バックグラウ
ンド音声をミキシングするものである。
律特徴分析手段が、音声データの韻律特徴である短時間
パワーを分析して短時間パワーの時間系列であるパワー
概形を求め、プロミネンス決定手段が、上記パワー概形
において、上記短時間パワーの値が最大になるパワー最
大位置を決定し、ミキシング手段が、バックグラウンド
音声のリズム基準位置に、音声データのパワー最大位置
が一致するように、上記音声データと上記バックグラウ
ンド音声をミキシングするものである。
【0019】この発明に係る音声データ同期装置は、リ
ズム基準位置決定手段が、バックグラウンド音声の韻律
特徴である短時間パワーを分析して短時間パワーの時間
系列であるパワー概形を求め、上記パワー概形におい
て、上記短時間パワーの値が最大になるパワー最大位置
を、上記バックグラウンド音声のリズム基準位置として
決定するものである。
ズム基準位置決定手段が、バックグラウンド音声の韻律
特徴である短時間パワーを分析して短時間パワーの時間
系列であるパワー概形を求め、上記パワー概形におい
て、上記短時間パワーの値が最大になるパワー最大位置
を、上記バックグラウンド音声のリズム基準位置として
決定するものである。
【0020】この発明に係る音声データ同期装置は、リ
ズム基準位置決定手段が、特定の周波数帯域におけるバ
ックグラウンド音声の韻律特徴である短時間パワーを分
析して短時間パワーの時間系列であるパワー概形を求め
るものである。
ズム基準位置決定手段が、特定の周波数帯域におけるバ
ックグラウンド音声の韻律特徴である短時間パワーを分
析して短時間パワーの時間系列であるパワー概形を求め
るものである。
【0021】この発明に係る音声データ同期装置は、テ
キストデータからテキスト音声変換技術により合成され
た合成音声を、音楽やリズム信号等のバックグラウンド
音声と同期させてミキシングするものにおいて、上記テ
キストデータを言語解析し、読み、品詞、アクセント型
等の言語情報を抽出する言語解析手段と、母音や子音の
音素列に対応したリズム知覚点を記述したリズム知覚点
テーブルを記憶するリズム知覚点テーブル記憶手段と、
上記言語解析手段により抽出された言語情報により、上
記リズム知覚点テーブル記憶手段に記憶されたリズム知
覚点テーブルを参照し、上記テキストデータの音素列毎
にリズム知覚点を抽出する同期点抽出手段と、上記言語
解析手段により抽出された言語情報から合成音声を生成
する音声合成手段と、上記バックグラウンド音声の波形
特徴又は韻律特徴から、上記バックグラウンド音声のリ
ズム基準位置を決定するリズム基準位置決定手段と、上
記バックグラウンド音声のリズム基準位置に、同期点抽
出手段により抽出されたリズム知覚点が一致するよう
に、上記合成音声と上記バックグラウンド音声をミキシ
ングして、ミキシング音声を出力するミキシング手段と
を備えたものである。
キストデータからテキスト音声変換技術により合成され
た合成音声を、音楽やリズム信号等のバックグラウンド
音声と同期させてミキシングするものにおいて、上記テ
キストデータを言語解析し、読み、品詞、アクセント型
等の言語情報を抽出する言語解析手段と、母音や子音の
音素列に対応したリズム知覚点を記述したリズム知覚点
テーブルを記憶するリズム知覚点テーブル記憶手段と、
上記言語解析手段により抽出された言語情報により、上
記リズム知覚点テーブル記憶手段に記憶されたリズム知
覚点テーブルを参照し、上記テキストデータの音素列毎
にリズム知覚点を抽出する同期点抽出手段と、上記言語
解析手段により抽出された言語情報から合成音声を生成
する音声合成手段と、上記バックグラウンド音声の波形
特徴又は韻律特徴から、上記バックグラウンド音声のリ
ズム基準位置を決定するリズム基準位置決定手段と、上
記バックグラウンド音声のリズム基準位置に、同期点抽
出手段により抽出されたリズム知覚点が一致するよう
に、上記合成音声と上記バックグラウンド音声をミキシ
ングして、ミキシング音声を出力するミキシング手段と
を備えたものである。
【0022】この発明に係る音声データ同期装置は、音
声データを音楽やリズム信号等のバックグラウンド音声
と同期させてミキシングするものにおいて、上記音声デ
ータと、その内容を示すテキストデータを入力し、音声
認識手法により上記音声データの音素毎の区間を示す音
素ラベル列を抽出する音素ラベリング手段と、母音や子
音の音素列に対応したリズム知覚点を記述したリズム知
覚点テーブルを記憶しているリズム知覚点テーブル記憶
手段と、上記音素ラベリング手段により抽出された音素
ラベル列により、上記リズム知覚点テーブル記憶手段に
記憶されたリズム知覚点テーブルを参照し、上記音声デ
ータの音素列毎にリズム知覚点を抽出する同期点抽出手
段と、上記バックグラウンド音声の波形特徴又は韻律特
徴から、上記バックグラウンド音声のリズム基準位置を
決定するリズム基準位置決定手段と、上記バックグラウ
ンド音声のリズム基準位置に、上記同期点抽出手段によ
り抽出されたリズム知覚点が一致するように、上記音声
データと上記バックグラウンド音声をミキシングして、
ミキシング音声を出力するミキシング手段とを備えたも
のである。
声データを音楽やリズム信号等のバックグラウンド音声
と同期させてミキシングするものにおいて、上記音声デ
ータと、その内容を示すテキストデータを入力し、音声
認識手法により上記音声データの音素毎の区間を示す音
素ラベル列を抽出する音素ラベリング手段と、母音や子
音の音素列に対応したリズム知覚点を記述したリズム知
覚点テーブルを記憶しているリズム知覚点テーブル記憶
手段と、上記音素ラベリング手段により抽出された音素
ラベル列により、上記リズム知覚点テーブル記憶手段に
記憶されたリズム知覚点テーブルを参照し、上記音声デ
ータの音素列毎にリズム知覚点を抽出する同期点抽出手
段と、上記バックグラウンド音声の波形特徴又は韻律特
徴から、上記バックグラウンド音声のリズム基準位置を
決定するリズム基準位置決定手段と、上記バックグラウ
ンド音声のリズム基準位置に、上記同期点抽出手段によ
り抽出されたリズム知覚点が一致するように、上記音声
データと上記バックグラウンド音声をミキシングして、
ミキシング音声を出力するミキシング手段とを備えたも
のである。
【0023】この発明に係る音声データ同期装置は、リ
ズム基準位置決定手段が、特定の周波数帯域におけるバ
ックグラウンド音声の韻律特徴である短時間パワーを分
析して短時間パワーの時間系列であるパワー概形を求
め、上記パワー概形において、上記短時間パワーの値が
最大になるパワー最大位置を、上記バックグラウンド音
声のリズム基準位置として決定するものである。
ズム基準位置決定手段が、特定の周波数帯域におけるバ
ックグラウンド音声の韻律特徴である短時間パワーを分
析して短時間パワーの時間系列であるパワー概形を求
め、上記パワー概形において、上記短時間パワーの値が
最大になるパワー最大位置を、上記バックグラウンド音
声のリズム基準位置として決定するものである。
【0024】この発明に係る音声データ同期装置は、リ
ズム基準位置決定手段により決定されたバックグラウン
ド音声のリズム基準位置に、同期点抽出手段により抽出
されたリズム知覚点が一致するように、音声データとリ
ズム知覚点を時間方向に伸縮し、波形伸縮音声と変更リ
ズム知覚点を出力する波形伸縮手段を備え、ミキシング
手段が、上記リズム基準位置に、上記変更リズム知覚点
が一致するように、上記波形伸縮音声と上記バックグラ
ウンド音声をミキシングするものである。
ズム基準位置決定手段により決定されたバックグラウン
ド音声のリズム基準位置に、同期点抽出手段により抽出
されたリズム知覚点が一致するように、音声データとリ
ズム知覚点を時間方向に伸縮し、波形伸縮音声と変更リ
ズム知覚点を出力する波形伸縮手段を備え、ミキシング
手段が、上記リズム基準位置に、上記変更リズム知覚点
が一致するように、上記波形伸縮音声と上記バックグラ
ウンド音声をミキシングするものである。
【0025】この発明に係る音声データ同期装置は、波
形伸縮手段が、音声データのピッチ同期位置を抽出し、
リズム基準位置決定手段により決定されたバックグラウ
ンド音声のリズム基準位置に、同期点抽出手段により抽
出されたリズム知覚点が一致するように、抽出された上
記ピッチ同期位置を利用して、ピッチ周期の値を変更し
ないように、ピッチ同期波形重畳法に基づき、上記音声
データと上記リズム知覚点を時間方向に伸縮し、波形伸
縮音声と変更リズム知覚点を出力するものである。
形伸縮手段が、音声データのピッチ同期位置を抽出し、
リズム基準位置決定手段により決定されたバックグラウ
ンド音声のリズム基準位置に、同期点抽出手段により抽
出されたリズム知覚点が一致するように、抽出された上
記ピッチ同期位置を利用して、ピッチ周期の値を変更し
ないように、ピッチ同期波形重畳法に基づき、上記音声
データと上記リズム知覚点を時間方向に伸縮し、波形伸
縮音声と変更リズム知覚点を出力するものである。
【0026】この発明に係る音声データ同期装置は、波
形伸縮手段から出力された波形伸縮音声と、バックグラ
ウンド音声に、ミキシングしたときの加算値が所定の閾
値を越えないように、所定の係数を乗じて、ゲイン変更
入力音声とゲイン変更バックグラウンド音声を出力する
波形ゲイン変更手段を備え、ミキシング手段が、リズム
基準位置と変更リズム知覚点が一致するように、上記ゲ
イン変更入力音声と上記ゲイン変更バックグラウンド音
声をミキシングするものである。
形伸縮手段から出力された波形伸縮音声と、バックグラ
ウンド音声に、ミキシングしたときの加算値が所定の閾
値を越えないように、所定の係数を乗じて、ゲイン変更
入力音声とゲイン変更バックグラウンド音声を出力する
波形ゲイン変更手段を備え、ミキシング手段が、リズム
基準位置と変更リズム知覚点が一致するように、上記ゲ
イン変更入力音声と上記ゲイン変更バックグラウンド音
声をミキシングするものである。
【0027】この発明に係る音声データ同期装置は、音
声データの発話内容に関連する画像を記憶している画像
記憶手段と、バックグラウンド音声のリズム基準位置と
音声データのリズム知覚点が一致する時間を、ミキシン
グ手段から出力される同期タイミングとして入力し、テ
キストデータに基づき上記画像記憶手段を参照し、上記
音声データの発話内容に関連する画像を読み出し、上記
同期タイミングにより上記ミキシング手段から出力され
るミキシング音声と同期させて、読み出した画像を表示
する画像表示手段とを備えたものである。
声データの発話内容に関連する画像を記憶している画像
記憶手段と、バックグラウンド音声のリズム基準位置と
音声データのリズム知覚点が一致する時間を、ミキシン
グ手段から出力される同期タイミングとして入力し、テ
キストデータに基づき上記画像記憶手段を参照し、上記
音声データの発話内容に関連する画像を読み出し、上記
同期タイミングにより上記ミキシング手段から出力され
るミキシング音声と同期させて、読み出した画像を表示
する画像表示手段とを備えたものである。
【0028】この発明に係る音声データ作成装置は、ユ
ーザからの音声データと、その内容を示すテキストデー
タを入力し、音声認識手法により上記音声データの音素
毎の区間を示す音素ラベル列を抽出する音素ラベリング
手段と、母音や子音の音素列に対応したリズム知覚点を
記述したリズム知覚点テーブルを記憶しているリズム知
覚点テーブル記憶手段と、上記音素ラベリング手段によ
り抽出された音素ラベル列により、上記リズム知覚点テ
ーブル記憶手段に記憶されたリズム知覚点テーブルを参
照し、上記音声データの音素列毎にリズム知覚点を抽出
する同期点抽出手段と、上記音声データと同じ内容の登
録音声データを記憶している登録音声データ記憶手段
と、上記テキストデータを入力し、上記登録音声データ
記憶手段に記憶されている登録音声データを読み出し、
上記登録音声データのリズム基準位置を決定するリズム
基準位置決定手段と、上記同期点抽出手段が抽出した上
記リズム知覚点から得られる上記音声データのリズムパ
ターンと、上記リズム基準位置決定手段が決定したリズ
ム基準位置から得られる上記登録音声データのリズムパ
ターンを比較し、リズムパターン照合結果を出力するリ
ズムパターン照合手段と、上記リズムパターン照合結果
に基づき、音声データのリズムパターンに、上記登録音
声データのリズムパターンが一致するように、上記登録
音声データ記憶手段に記憶されている登録音声データ
と、上記登録音声データのリズム基準位置を時間方向に
伸縮して、提示音声として出力する波形伸縮手段とを備
えたものである。
ーザからの音声データと、その内容を示すテキストデー
タを入力し、音声認識手法により上記音声データの音素
毎の区間を示す音素ラベル列を抽出する音素ラベリング
手段と、母音や子音の音素列に対応したリズム知覚点を
記述したリズム知覚点テーブルを記憶しているリズム知
覚点テーブル記憶手段と、上記音素ラベリング手段によ
り抽出された音素ラベル列により、上記リズム知覚点テ
ーブル記憶手段に記憶されたリズム知覚点テーブルを参
照し、上記音声データの音素列毎にリズム知覚点を抽出
する同期点抽出手段と、上記音声データと同じ内容の登
録音声データを記憶している登録音声データ記憶手段
と、上記テキストデータを入力し、上記登録音声データ
記憶手段に記憶されている登録音声データを読み出し、
上記登録音声データのリズム基準位置を決定するリズム
基準位置決定手段と、上記同期点抽出手段が抽出した上
記リズム知覚点から得られる上記音声データのリズムパ
ターンと、上記リズム基準位置決定手段が決定したリズ
ム基準位置から得られる上記登録音声データのリズムパ
ターンを比較し、リズムパターン照合結果を出力するリ
ズムパターン照合手段と、上記リズムパターン照合結果
に基づき、音声データのリズムパターンに、上記登録音
声データのリズムパターンが一致するように、上記登録
音声データ記憶手段に記憶されている登録音声データ
と、上記登録音声データのリズム基準位置を時間方向に
伸縮して、提示音声として出力する波形伸縮手段とを備
えたものである。
【0029】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声データ同期装置の構成を示すブロック図であり、図に
おいて、11は音声データ101の韻律特徴の一つであ
るピッチ(音声の基本周波数)を分析し、韻律特徴の時
間系列、すなわち、ピッチの時間系列であるピッチパタ
ーン111を求めるピッチ分析手段(韻律特徴分析手
段)であり、12はピッチパターン111において、ピ
ッチの値が最大になる位置、すなわちピッチ最大位置
(プロミネンス位置)112を決定するピッチ最大位置
決定手段(プロミネンス決定手段)である。
説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声データ同期装置の構成を示すブロック図であり、図に
おいて、11は音声データ101の韻律特徴の一つであ
るピッチ(音声の基本周波数)を分析し、韻律特徴の時
間系列、すなわち、ピッチの時間系列であるピッチパタ
ーン111を求めるピッチ分析手段(韻律特徴分析手
段)であり、12はピッチパターン111において、ピ
ッチの値が最大になる位置、すなわちピッチ最大位置
(プロミネンス位置)112を決定するピッチ最大位置
決定手段(プロミネンス決定手段)である。
【0030】また、図1において、13はバックグラウ
ンド音声102の波形特徴又は韻律特徴から、バックグ
ラウンド音声102のリズム基準位置113を決定する
リズム基準位置決定手段、14はバックグラウンド音声
102におけるリズム基準位置113の一つに、音声デ
ータ101のピッチ最大位置116が一致するように、
音声データ101とバックグラウンド音声102をミキ
シングして、ミキシング音声103を出力するミキシン
グ手段である。
ンド音声102の波形特徴又は韻律特徴から、バックグ
ラウンド音声102のリズム基準位置113を決定する
リズム基準位置決定手段、14はバックグラウンド音声
102におけるリズム基準位置113の一つに、音声デ
ータ101のピッチ最大位置116が一致するように、
音声データ101とバックグラウンド音声102をミキ
シングして、ミキシング音声103を出力するミキシン
グ手段である。
【0031】次に動作を説明する。音声データ101
は、音声提示するためにシステムが予め用意した音声デ
ータとする。ピッチ分析手段11は音声データ101の
韻律特徴の一つであるピッチを分析し、ピッチの時間系
列であるピッチパターン111を求める。このピッチの
分析は、例えば自己相関法やケプストラム法等の一般的
な手法により行われ、音声データ101のピッチの時系
列をピッチパターン111として出力する。ピッチ最大
位置決定手段12は、ピッチパターン111において、
ピッチの値が最大になる位置、すなわちピッチ最大位置
112を決定する。
は、音声提示するためにシステムが予め用意した音声デ
ータとする。ピッチ分析手段11は音声データ101の
韻律特徴の一つであるピッチを分析し、ピッチの時間系
列であるピッチパターン111を求める。このピッチの
分析は、例えば自己相関法やケプストラム法等の一般的
な手法により行われ、音声データ101のピッチの時系
列をピッチパターン111として出力する。ピッチ最大
位置決定手段12は、ピッチパターン111において、
ピッチの値が最大になる位置、すなわちピッチ最大位置
112を決定する。
【0032】ピッチ最大位置112は、音声データ10
1が文章音声である場合に、ピッチが最大になる位置を
文意の中心であるプロミネンス位置と見なしたものであ
り、この位置をバックグラウンド音声102と同期させ
る上での基準位置とすることにより、文中で最も強調し
たい箇所や、文中でタイミングを取る上で最も自然な位
置を自動的に決定する。
1が文章音声である場合に、ピッチが最大になる位置を
文意の中心であるプロミネンス位置と見なしたものであ
り、この位置をバックグラウンド音声102と同期させ
る上での基準位置とすることにより、文中で最も強調し
たい箇所や、文中でタイミングを取る上で最も自然な位
置を自動的に決定する。
【0033】例えば、「我が家には猫が居ます」という
音声を音声データ101とした場合には、「我が家」の
/wa/の区間内でピッチが最大になれば、その位置が
同期を取るピッチ最大位置(プロミネンス位置)112
となり、また、「猫」の/ne/の区間内でピッチが最
大となれば、その位置がピッチ最大位置(プロミネンス
位置)112となる。
音声を音声データ101とした場合には、「我が家」の
/wa/の区間内でピッチが最大になれば、その位置が
同期を取るピッチ最大位置(プロミネンス位置)112
となり、また、「猫」の/ne/の区間内でピッチが最
大となれば、その位置がピッチ最大位置(プロミネンス
位置)112となる。
【0034】リズム基準位置決定手段13は、音楽やリ
ズム信号等のバックグラウンド音声102を入力し、バ
ックグラウンド音声102の波形特徴又は韻律特徴か
ら、バックグラウンド音声102のリズム基準位置11
3を決定する。リズム基準位置113の決定方法として
は、バックグラウンド音声102の振幅値から推定する
方法が挙げられる。
ズム信号等のバックグラウンド音声102を入力し、バ
ックグラウンド音声102の波形特徴又は韻律特徴か
ら、バックグラウンド音声102のリズム基準位置11
3を決定する。リズム基準位置113の決定方法として
は、バックグラウンド音声102の振幅値から推定する
方法が挙げられる。
【0035】図2はミキシング手段14の動作内容を示
す図であり、図に示すように、ミキシング手段14は、
バックグラウンド音声102のリズム基準位置113の
一つに、音声データ101のピッチ最大位置112が一
致するように、音声データ101とバックグラウンド音
声102をミキシングする。ミキシングの方法は、波形
上の直接加算で行う。このようにして、ミキシング手段
14はミキシング音声103を生成して出力する。
す図であり、図に示すように、ミキシング手段14は、
バックグラウンド音声102のリズム基準位置113の
一つに、音声データ101のピッチ最大位置112が一
致するように、音声データ101とバックグラウンド音
声102をミキシングする。ミキシングの方法は、波形
上の直接加算で行う。このようにして、ミキシング手段
14はミキシング音声103を生成して出力する。
【0036】以上のように、この実施の形態1によれ
ば、音声データ101のピッチの時間系列であるピッチ
パターン111において、ピッチが最大値を取るピッチ
最大位置112と、バックグラウンド音声102のリズ
ム基準位置113を同期位置として自動的に抽出し、ピ
ッチ最大位置112と、リズム基準位置113の一つを
同期させることにより、音声データ101とバックグラ
ウンド音声102の同期を考慮したミキシングを自動的
に行うことができるという効果が得られる。
ば、音声データ101のピッチの時間系列であるピッチ
パターン111において、ピッチが最大値を取るピッチ
最大位置112と、バックグラウンド音声102のリズ
ム基準位置113を同期位置として自動的に抽出し、ピ
ッチ最大位置112と、リズム基準位置113の一つを
同期させることにより、音声データ101とバックグラ
ウンド音声102の同期を考慮したミキシングを自動的
に行うことができるという効果が得られる。
【0037】実施の形態2.図3はこの発明の実施の形
態2による音声データ同期装置の構成を示すブロック図
であり、図において、15は音声データ101の韻律特
徴の一つである短時間パワーを分析し、韻律特徴の時間
系列、すなわち短時間パワーの時間系列であるパワー概
形115を求める短時間パワー分析手段(韻律特徴分析
手段)、16はパワー概形115において、短時間パワ
ーの値が最大になる位置、すなわちパワー最大位置(プ
ロミネンス位置)116を決定するパワー最大位置決定
手段(プロミネンス決定手段)であり、その他は実施の
形態1の図1に示す構成と同等である。
態2による音声データ同期装置の構成を示すブロック図
であり、図において、15は音声データ101の韻律特
徴の一つである短時間パワーを分析し、韻律特徴の時間
系列、すなわち短時間パワーの時間系列であるパワー概
形115を求める短時間パワー分析手段(韻律特徴分析
手段)、16はパワー概形115において、短時間パワ
ーの値が最大になる位置、すなわちパワー最大位置(プ
ロミネンス位置)116を決定するパワー最大位置決定
手段(プロミネンス決定手段)であり、その他は実施の
形態1の図1に示す構成と同等である。
【0038】次に動作を説明する。音声データ101
は、実施の形態1と同様に、音声提示するためにシステ
ムが予め用意した音声データとする。短時間パワー分析
手段15は、音声データ101の韻律特徴の一つである
短時間パワーを分析して、短時間パワーの時間系列であ
るパワー概形115を求める。パワー最大位置決定手段
16は、短時間パワー分析手段15が求めたパワー概形
115において、短時間パワーの値が最大になる位置、
すなわちパワー最大位置116を決定する。
は、実施の形態1と同様に、音声提示するためにシステ
ムが予め用意した音声データとする。短時間パワー分析
手段15は、音声データ101の韻律特徴の一つである
短時間パワーを分析して、短時間パワーの時間系列であ
るパワー概形115を求める。パワー最大位置決定手段
16は、短時間パワー分析手段15が求めたパワー概形
115において、短時間パワーの値が最大になる位置、
すなわちパワー最大位置116を決定する。
【0039】パワー最大位置116は、音声データ10
1が文章音声である場合に、そのパワーが最大になる位
置を、文意の中心であるプロミネンス位置と見なしたも
のであり、この位置を、バックグラウンド音声102と
同期させる上での基準位置とすることで、文中で最も強
調したい箇所や文中でタイミングを取る上で最も自然な
位置を自動的に決定する。具体例としては、実施の形態
1と同様である。
1が文章音声である場合に、そのパワーが最大になる位
置を、文意の中心であるプロミネンス位置と見なしたも
のであり、この位置を、バックグラウンド音声102と
同期させる上での基準位置とすることで、文中で最も強
調したい箇所や文中でタイミングを取る上で最も自然な
位置を自動的に決定する。具体例としては、実施の形態
1と同様である。
【0040】リズム基準位置決定手段13は、音楽やリ
ズム信号等のバックグラウンド音声102を入力し、実
施の形態1と同様に、バックグラウンド音声102のリ
ズム基準位置113を決定する。ミキシング手段14
は、バックグラウンド音声102のリズム基準位置11
3の一つに、音声データ101のパワー最大位置116
が一致するように、音声データ101とバックグラウン
ド音声102をミキシングする。ミキシングの方法は、
実施の形態1と同様に波形上の直接加算で行う。このよ
うにして、ミキシング手段14はミキシング音声103
を生成して出力する。
ズム信号等のバックグラウンド音声102を入力し、実
施の形態1と同様に、バックグラウンド音声102のリ
ズム基準位置113を決定する。ミキシング手段14
は、バックグラウンド音声102のリズム基準位置11
3の一つに、音声データ101のパワー最大位置116
が一致するように、音声データ101とバックグラウン
ド音声102をミキシングする。ミキシングの方法は、
実施の形態1と同様に波形上の直接加算で行う。このよ
うにして、ミキシング手段14はミキシング音声103
を生成して出力する。
【0041】以上のように、この実施の形態2によれ
ば、音声データ101の短時間パワーの時間系列である
パワー概形115が最大値を取るパワー最大位置116
と、バックグラウンド音声102のリズム基準位置11
3を同期位置として自動的に抽出し、パワー最大位置1
16と、リズム基準位置113の一つを同期させること
により、音声データ101とバックグラウンド音声10
2の同期を考慮したミキシングを自動的に行うことがで
きるという効果が得られる。
ば、音声データ101の短時間パワーの時間系列である
パワー概形115が最大値を取るパワー最大位置116
と、バックグラウンド音声102のリズム基準位置11
3を同期位置として自動的に抽出し、パワー最大位置1
16と、リズム基準位置113の一つを同期させること
により、音声データ101とバックグラウンド音声10
2の同期を考慮したミキシングを自動的に行うことがで
きるという効果が得られる。
【0042】実施の形態3.図4はこの発明の実施の形
態3による音声データ同期装置の構成を示すブロックで
ある。この実施の形態は、実施の形態1におけるリズム
基準位置決定手段13を、短時間パワー分析手段15と
パワー最大位置決定手段16により構成したものであ
る。
態3による音声データ同期装置の構成を示すブロックで
ある。この実施の形態は、実施の形態1におけるリズム
基準位置決定手段13を、短時間パワー分析手段15と
パワー最大位置決定手段16により構成したものであ
る。
【0043】次に動作を説明する。音声データ101の
内容や、ピッチ分析手段11,ピッチ最大位置決定手段
12の動作は、実施の形態1と同様であり、ピッチ最大
位置決定手段12から、ピッチ最大位置112が出力さ
れる。
内容や、ピッチ分析手段11,ピッチ最大位置決定手段
12の動作は、実施の形態1と同様であり、ピッチ最大
位置決定手段12から、ピッチ最大位置112が出力さ
れる。
【0044】リズム位置決定手段13における短時間パ
ワー分析手段15は、音楽やリズム信号等のバックグラ
ウンド音声102の韻律特徴の一つである短時間パワー
を分析し、韻律特徴の時間系列、すなわち短時間パワー
の時間系列であるパワー概形115を求める。パワー最
大位置決定手段16は、パワー概形115において、短
時間パワーの値が最大になる位置を求め、その位置をバ
ックグラウンド音声102のリズム基準位置113とす
る。
ワー分析手段15は、音楽やリズム信号等のバックグラ
ウンド音声102の韻律特徴の一つである短時間パワー
を分析し、韻律特徴の時間系列、すなわち短時間パワー
の時間系列であるパワー概形115を求める。パワー最
大位置決定手段16は、パワー概形115において、短
時間パワーの値が最大になる位置を求め、その位置をバ
ックグラウンド音声102のリズム基準位置113とす
る。
【0045】リズム基準位置113を決めるための一定
区間については、バックグラウンド音声102の内容に
より、いくつかの方法が考えられる。バックグラウンド
音声102が、例えば一定の間隔のリズム信号であれば
パワーが極大となる位置を、音楽であればパワーが閾値
を越えて極大となる位置を、それぞれ全て列挙し、この
位置をリズム基準位置113とする。
区間については、バックグラウンド音声102の内容に
より、いくつかの方法が考えられる。バックグラウンド
音声102が、例えば一定の間隔のリズム信号であれば
パワーが極大となる位置を、音楽であればパワーが閾値
を越えて極大となる位置を、それぞれ全て列挙し、この
位置をリズム基準位置113とする。
【0046】ミキシング手段14は、実施の形態1と同
様にして、バックグラウンド音声102のリズム基準位
置113の一つに、音声データ101のピッチ最大位置
112が一致するように、音声データ101とバックグ
ラウンド音声102をミキシングして、ミキシング音声
103を出力する。
様にして、バックグラウンド音声102のリズム基準位
置113の一つに、音声データ101のピッチ最大位置
112が一致するように、音声データ101とバックグ
ラウンド音声102をミキシングして、ミキシング音声
103を出力する。
【0047】以上のように、この実施の形態3によれ
ば、音声データ101のピッチの時間系列であるピッチ
パターン111が最大値を取るピッチ最大位置112
と、バックグラウンド音声102の短時間パワーの時間
系列であるパワー概形115が最大値を取るリズム基準
位置113を同期位置として自動的に抽出し、ピッチ最
大位置112とリズム基準位置113の一つを同期させ
ることにより、音声データ101とバックグラウンド音
声102の同期を考慮したミキシングを自動的に行うこ
とができるという効果が得られる。
ば、音声データ101のピッチの時間系列であるピッチ
パターン111が最大値を取るピッチ最大位置112
と、バックグラウンド音声102の短時間パワーの時間
系列であるパワー概形115が最大値を取るリズム基準
位置113を同期位置として自動的に抽出し、ピッチ最
大位置112とリズム基準位置113の一つを同期させ
ることにより、音声データ101とバックグラウンド音
声102の同期を考慮したミキシングを自動的に行うこ
とができるという効果が得られる。
【0048】実施の形態4.図5はこの発明の実施の形
態4による音声データ同期装置の構成を示すブロック図
である。図において、17はバックグラウンド音声10
2の帯域を限定して帯域限定音声117を出力する帯域
フィルタ手段である。この実施の形態は、実施の形態1
におけるリズム基準位置決定手段13を、帯域フィルタ
手段17,短時間パワー分析手段15及びパワー最大位
置決定手段16により構成したものである。
態4による音声データ同期装置の構成を示すブロック図
である。図において、17はバックグラウンド音声10
2の帯域を限定して帯域限定音声117を出力する帯域
フィルタ手段である。この実施の形態は、実施の形態1
におけるリズム基準位置決定手段13を、帯域フィルタ
手段17,短時間パワー分析手段15及びパワー最大位
置決定手段16により構成したものである。
【0049】次に動作を説明する。音声データ101の
内容や、ピッチ分析手段11,ピッチ最大位置決定手段
12の動作は、実施の形態1と同様であり、ピッチ最大
位置決定手段12から、ピッチ最大位置112が出力さ
れる。
内容や、ピッチ分析手段11,ピッチ最大位置決定手段
12の動作は、実施の形態1と同様であり、ピッチ最大
位置決定手段12から、ピッチ最大位置112が出力さ
れる。
【0050】リズム基準位置決定手段13における帯域
フィルタ手段17は、バックグラウンド音声102の帯
域をローパスフィルタ又はハイパスフィルタを用いて帯
域限定し、帯域限定音声117を出力する。帯域限定は
バックグラウンド音声102の種類やリズム基準とする
楽音の種類によって変わる。例えば、バックグラウンド
音声102がリズム信号であれば帯域限定は行わない。
バックグラウンド音声102が音楽であり、リズム基準
をバスドラムの音とするならば低域に帯域限定し、リズ
ム基準をシンセサイザーの高音部とするならば高域に帯
域限定する。
フィルタ手段17は、バックグラウンド音声102の帯
域をローパスフィルタ又はハイパスフィルタを用いて帯
域限定し、帯域限定音声117を出力する。帯域限定は
バックグラウンド音声102の種類やリズム基準とする
楽音の種類によって変わる。例えば、バックグラウンド
音声102がリズム信号であれば帯域限定は行わない。
バックグラウンド音声102が音楽であり、リズム基準
をバスドラムの音とするならば低域に帯域限定し、リズ
ム基準をシンセサイザーの高音部とするならば高域に帯
域限定する。
【0051】短時間パワー分析手段15は帯域限定音声
117の短時間パワーを分析し、パワー概形115を求
め、パワー最大位置決定手段16は、実施の形態3と同
様にして、パワー概形115において値が最大になる位
置を求め、その位置をバックグラウンド音声102のリ
ズム基準位置113として出力する。
117の短時間パワーを分析し、パワー概形115を求
め、パワー最大位置決定手段16は、実施の形態3と同
様にして、パワー概形115において値が最大になる位
置を求め、その位置をバックグラウンド音声102のリ
ズム基準位置113として出力する。
【0052】ミキシング手段14は、実施の形態1と同
様にして、バックグラウンド音声102のリズム基準位
置113の一つに、音声データ101のピッチ最大位置
112が一致するように、音声データ101とバックグ
ラウンド音声102をミキシングして、ミキシング音声
103を出力する。
様にして、バックグラウンド音声102のリズム基準位
置113の一つに、音声データ101のピッチ最大位置
112が一致するように、音声データ101とバックグ
ラウンド音声102をミキシングして、ミキシング音声
103を出力する。
【0053】以上のように、この実施の形態4によれ
ば、音声データ101のピッチの時間系列であるピッチ
パターン111が最大値を取るピッチ最大位置112
と、バックグラウンド音声102の特定周波数帯域の短
時間パワーの時間系列であるパワー概形115が最大値
を取るリズム基準位置113を同期位置として自動的に
抽出し、ピッチ最大位置112とリズム基準位置113
の一つを同期させることにより、音声データ101とバ
ックグラウンド音声102の同期を考慮したミキシング
を自動的に行うことができるという効果が得られる。
ば、音声データ101のピッチの時間系列であるピッチ
パターン111が最大値を取るピッチ最大位置112
と、バックグラウンド音声102の特定周波数帯域の短
時間パワーの時間系列であるパワー概形115が最大値
を取るリズム基準位置113を同期位置として自動的に
抽出し、ピッチ最大位置112とリズム基準位置113
の一つを同期させることにより、音声データ101とバ
ックグラウンド音声102の同期を考慮したミキシング
を自動的に行うことができるという効果が得られる。
【0054】実施の形態5.図6はこの発明の実施の形
態5による音声データ同期装置の構成を示すブロック図
である。図において、18は入力されたテキストデータ
104について言語解析を行い、読み、品詞、アクセン
ト型等の言語情報118を抽出する言語解析手段、19
は子音(C)や母音(V)の組合せである音素列に対応
したリズム知覚点の情報を記録したリズム知覚点テーブ
ル119を記憶しているリズム知覚点テーブル記憶手段
である。
態5による音声データ同期装置の構成を示すブロック図
である。図において、18は入力されたテキストデータ
104について言語解析を行い、読み、品詞、アクセン
ト型等の言語情報118を抽出する言語解析手段、19
は子音(C)や母音(V)の組合せである音素列に対応
したリズム知覚点の情報を記録したリズム知覚点テーブ
ル119を記憶しているリズム知覚点テーブル記憶手段
である。
【0055】また、図6において、20は言語解析手段
13が言語解析した言語情報118における読みの情報
から、リズム知覚点テーブル記憶手段19に記憶された
リズム知覚点テーブル119を参照し、音素列毎にリズ
ム知覚点120を抽出する同期点抽出手段であり、21
は言語情報118に基づき音響処理・韻律処理を経て、
一般的な規則合成手法により合成音声121を得る音声
合成手段である。なお、上記実施の形態1から実施の形
態4と同様の構成要素及びデータについては、同じ符号
を付けて説明を省略する。
13が言語解析した言語情報118における読みの情報
から、リズム知覚点テーブル記憶手段19に記憶された
リズム知覚点テーブル119を参照し、音素列毎にリズ
ム知覚点120を抽出する同期点抽出手段であり、21
は言語情報118に基づき音響処理・韻律処理を経て、
一般的な規則合成手法により合成音声121を得る音声
合成手段である。なお、上記実施の形態1から実施の形
態4と同様の構成要素及びデータについては、同じ符号
を付けて説明を省略する。
【0056】次に動作を説明する。テキストデータ10
4は、テキスト音声変換技術により合成音声に変換され
提示されるためにシステムが予め用意したものとする。
言語解析手段18はテキストデータ104を言語解析
し、読み、品詞、アクセント型等の言語情報118を抽
出する。音声合成手段21は言語情報118に基づき音
響処理・韻律処理を行い、一般的な規則合成手法により
合成音声121を出力する。
4は、テキスト音声変換技術により合成音声に変換され
提示されるためにシステムが予め用意したものとする。
言語解析手段18はテキストデータ104を言語解析
し、読み、品詞、アクセント型等の言語情報118を抽
出する。音声合成手段21は言語情報118に基づき音
響処理・韻律処理を行い、一般的な規則合成手法により
合成音声121を出力する。
【0057】リズム知覚点テーブル記憶手段19には、
子音(C)や母音(V)の組合せにによる音素列に対応
したリズム知覚点の情報を記録したリズム知覚点テーブ
ル119が記憶されている。リズム知覚点は、人間が聴
覚的にリズムを知覚する音声波形上の位置であり、音節
種類毎に固有の値を取る。
子音(C)や母音(V)の組合せにによる音素列に対応
したリズム知覚点の情報を記録したリズム知覚点テーブ
ル119が記憶されている。リズム知覚点は、人間が聴
覚的にリズムを知覚する音声波形上の位置であり、音節
種類毎に固有の値を取る。
【0058】図7はリズム知覚点テーブル119の例を
示す図である。リズム知覚点テーブル119は、図7
(a)に示すように、CV(子音−母音)又はVCV
(母音−子音−母音)の音素列に対応するリズム知覚点
が記述されている。リズム知覚点は、図7(a)の例で
は、CV又はVCVの音声素片におけるフレーム位置を
示しており、音声素片のパワー概形との対応では、図7
(b)に示す位置となり、原点0からフレーム位置を示
している。
示す図である。リズム知覚点テーブル119は、図7
(a)に示すように、CV(子音−母音)又はVCV
(母音−子音−母音)の音素列に対応するリズム知覚点
が記述されている。リズム知覚点は、図7(a)の例で
は、CV又はVCVの音声素片におけるフレーム位置を
示しており、音声素片のパワー概形との対応では、図7
(b)に示す位置となり、原点0からフレーム位置を示
している。
【0059】同期点抽出手段20は、言語情報118に
おける読みの情報から、リズム知覚点テーブル記憶手段
19に記憶されたリズム知覚点テーブル119を参照
し、音素列毎にリズム知覚点120を抽出する。例とし
て、読みの情報が「atarashii」である場合、
リズム知覚点120は、音素列/a/,/ata/,/
ara/,/ashi/,/ii/に対して与えられ
る。
おける読みの情報から、リズム知覚点テーブル記憶手段
19に記憶されたリズム知覚点テーブル119を参照
し、音素列毎にリズム知覚点120を抽出する。例とし
て、読みの情報が「atarashii」である場合、
リズム知覚点120は、音素列/a/,/ata/,/
ara/,/ashi/,/ii/に対して与えられ
る。
【0060】リズム基準位置決定手段13における帯域
フィルタ手段17,短時間パワー分析手段15及びパワ
ー最大位置決定手段16の動作は、実施の形態4と同様
であり、パワー最大位置決定手段16からバックグラウ
ンド音声102のリズム基準位置113が出力される。
フィルタ手段17,短時間パワー分析手段15及びパワ
ー最大位置決定手段16の動作は、実施の形態4と同様
であり、パワー最大位置決定手段16からバックグラウ
ンド音声102のリズム基準位置113が出力される。
【0061】ミキシング手段14は、バックグラウンド
音声102のリズム基準位置113に、合成音声121
のリズム知覚点120が一致するように、合成音声12
1とバックグラウンド音声102をミキシングする。例
えば、テキストデータ104の読みの情報が「atar
ashii」である場合には、合成音声121のリズム
知覚点120と音楽等のバックグラウンド音声102の
リズム基準位置113との対応関係は、図8に示すよう
になる。ミキシングの方法は波形上の直接加算で行う。
このようにして、ミキシング手段14はミキシング音声
103を出力する。
音声102のリズム基準位置113に、合成音声121
のリズム知覚点120が一致するように、合成音声12
1とバックグラウンド音声102をミキシングする。例
えば、テキストデータ104の読みの情報が「atar
ashii」である場合には、合成音声121のリズム
知覚点120と音楽等のバックグラウンド音声102の
リズム基準位置113との対応関係は、図8に示すよう
になる。ミキシングの方法は波形上の直接加算で行う。
このようにして、ミキシング手段14はミキシング音声
103を出力する。
【0062】以上のように、この実施の形態5によれ
ば、テキストデータ104の言語情報の読みの情報に対
応した音素列毎のリズム知覚点120と、バックグラウ
ンド音声102の特定周波数帯域の短時間パワーの時間
系列であるパワー概形115が最大値を取るリズム基準
位置113を同期位置として自動的に抽出し、リズム知
覚点120とリズム基準位置113を同期させることに
より、テキストデータ104から合成した合成音声12
1とバックグラウンド音声102の同期を考慮したミキ
シングを自動的に行うことができるという効果が得られ
る。
ば、テキストデータ104の言語情報の読みの情報に対
応した音素列毎のリズム知覚点120と、バックグラウ
ンド音声102の特定周波数帯域の短時間パワーの時間
系列であるパワー概形115が最大値を取るリズム基準
位置113を同期位置として自動的に抽出し、リズム知
覚点120とリズム基準位置113を同期させることに
より、テキストデータ104から合成した合成音声12
1とバックグラウンド音声102の同期を考慮したミキ
シングを自動的に行うことができるという効果が得られ
る。
【0063】実施の形態6.図9はこの発明の実施の形
態6による音声データ同期装置の構成を示すブロック図
である。図において、22は音声データ101とその内
容を示すテキストデータ104を入力し、音声認識手法
により音声データ101の音素毎の区間を示す音素ラベ
ル列122を抽出する音素ラベリング手段である。な
お、上記実施の形態1から実施の形態5と同様の構成要
素及びデータについては、同じ符号を付けて説明を省略
する。
態6による音声データ同期装置の構成を示すブロック図
である。図において、22は音声データ101とその内
容を示すテキストデータ104を入力し、音声認識手法
により音声データ101の音素毎の区間を示す音素ラベ
ル列122を抽出する音素ラベリング手段である。な
お、上記実施の形態1から実施の形態5と同様の構成要
素及びデータについては、同じ符号を付けて説明を省略
する。
【0064】次に動作を説明する。音声データ101
は、音声提示するためにシステムが予め用意した音声デ
ータとする。音素ラベリング手段22は、音声データ1
01とその内容を示すテキストデータ104を入力し、
音声認識手法により音声データ101の音素毎の区間を
示す音素ラベル列122を抽出する。音声認識はHMM
モデル(HiddenMarkov Model)を利
用した連続音声認識手法を利用し、音素ラベル列122
は音声データ101に対する音素毎の始端と終端を示す
形式とし、ポーズ、無音区間の推定も行うものとする。
は、音声提示するためにシステムが予め用意した音声デ
ータとする。音素ラベリング手段22は、音声データ1
01とその内容を示すテキストデータ104を入力し、
音声認識手法により音声データ101の音素毎の区間を
示す音素ラベル列122を抽出する。音声認識はHMM
モデル(HiddenMarkov Model)を利
用した連続音声認識手法を利用し、音素ラベル列122
は音声データ101に対する音素毎の始端と終端を示す
形式とし、ポーズ、無音区間の推定も行うものとする。
【0065】音素ラベリング手段22により得られた音
素ラベル122に基づいて、同期点抽出手段20は、リ
ズム知覚点テーブル記憶手段19に記憶されているリズ
ム知覚点テーブル119を参照し、音素列毎にリズム知
覚点120を抽出する。リズム知覚点テーブル119の
形式と参照方法は、実施の形態5と同様とする。
素ラベル122に基づいて、同期点抽出手段20は、リ
ズム知覚点テーブル記憶手段19に記憶されているリズ
ム知覚点テーブル119を参照し、音素列毎にリズム知
覚点120を抽出する。リズム知覚点テーブル119の
形式と参照方法は、実施の形態5と同様とする。
【0066】リズム基準位置決定手段13における帯域
フィルタ手段17,短時間パワー分析手段15及びパワ
ー最大位置決定手段16の動作は、実施の形態4と同様
であり、パワー最大位置決定手段16からバックグラウ
ンド音声102のリズム基準位置113が出力される。
フィルタ手段17,短時間パワー分析手段15及びパワ
ー最大位置決定手段16の動作は、実施の形態4と同様
であり、パワー最大位置決定手段16からバックグラウ
ンド音声102のリズム基準位置113が出力される。
【0067】ミキシング手段14は、バックグラウンド
音声102のリズム基準位置113に、音声データ10
1のリズム知覚点120が一致するように、音声データ
101とバックグラウンド音声102をミキシングす
る。例えば、音声データ101の読みの情報が「ata
rashii」である場合には、音声データ101のリ
ズム知覚点120と音楽等のバックグラウンド音声10
2のリズム基準位置113との対応関係は、上記図8に
示すようになる。ミキシングの方法は、波形上の直接加
算で行う。このようにして、ミキシング手段14はミキ
シング音声103を生成して出力する。
音声102のリズム基準位置113に、音声データ10
1のリズム知覚点120が一致するように、音声データ
101とバックグラウンド音声102をミキシングす
る。例えば、音声データ101の読みの情報が「ata
rashii」である場合には、音声データ101のリ
ズム知覚点120と音楽等のバックグラウンド音声10
2のリズム基準位置113との対応関係は、上記図8に
示すようになる。ミキシングの方法は、波形上の直接加
算で行う。このようにして、ミキシング手段14はミキ
シング音声103を生成して出力する。
【0068】以上のように、この実施の形態6によれ
ば、音声データ101の音素毎の区間を示す音素ラベル
列122に対応した音素列毎のリズム知覚点120と、
バックグラウンド音声102の特定周波数帯域の短時間
パワーの時間系列であるパワー概形115が最大値を取
るリズム基準位置113を同期位置として自動的に抽出
し、リズム知覚点120とリズム基準位置113を同期
させることにより、音声データ101とバックグラウン
ド音声102の同期を考慮したミキシングを自動的に行
うことができるという効果が得られる。
ば、音声データ101の音素毎の区間を示す音素ラベル
列122に対応した音素列毎のリズム知覚点120と、
バックグラウンド音声102の特定周波数帯域の短時間
パワーの時間系列であるパワー概形115が最大値を取
るリズム基準位置113を同期位置として自動的に抽出
し、リズム知覚点120とリズム基準位置113を同期
させることにより、音声データ101とバックグラウン
ド音声102の同期を考慮したミキシングを自動的に行
うことができるという効果が得られる。
【0069】実施の形態7.図10はこの発明の実施の
形態7による音声データ同期装置の構成を示すブロック
図である。図において、23はバックグラウンド音声1
02のリズム基準位置113に、音声データ101のリ
ズム知覚点120が一致するように、音声データ101
の波形とリズム知覚点120を伸縮し、それぞれ波形伸
縮音声123と変更リズム知覚点124を出力する波形
伸縮手段である。なお、上記実施の形態1から実施の形
態6と同様の構成要素及びデータについては、同じ符号
を付けて説明を省略する。
形態7による音声データ同期装置の構成を示すブロック
図である。図において、23はバックグラウンド音声1
02のリズム基準位置113に、音声データ101のリ
ズム知覚点120が一致するように、音声データ101
の波形とリズム知覚点120を伸縮し、それぞれ波形伸
縮音声123と変更リズム知覚点124を出力する波形
伸縮手段である。なお、上記実施の形態1から実施の形
態6と同様の構成要素及びデータについては、同じ符号
を付けて説明を省略する。
【0070】次に動作を説明する。実施の形態6と同様
にして、同期点抽出手段20から音声データ101のリ
ズム知覚点120が出力され、パワー最大位置決定手段
16からバックグラウンド音声102のリズム基準位置
113が出力される。波形伸縮手段23は、バックグラ
ウンド音声102のリズム基準位置113に、音声デー
タ101のリズム知覚点120が一致するように、音声
データ101の波形とリズム知覚点120を伸縮して、
それぞれ波形伸縮音声123と変更リズム知覚点124
を出力する。
にして、同期点抽出手段20から音声データ101のリ
ズム知覚点120が出力され、パワー最大位置決定手段
16からバックグラウンド音声102のリズム基準位置
113が出力される。波形伸縮手段23は、バックグラ
ウンド音声102のリズム基準位置113に、音声デー
タ101のリズム知覚点120が一致するように、音声
データ101の波形とリズム知覚点120を伸縮して、
それぞれ波形伸縮音声123と変更リズム知覚点124
を出力する。
【0071】図11は波形伸縮手段23の動作を示す図
である。図に示すように、例えば、音声データ101に
おけるリズム知覚点120の間隔が、バックグラウンド
音声102のリズム基準位置113の1/α(α>0)
である場合、音声データ101の波形とリズム知覚点1
20の値を時間方向にα倍に伸縮する。波形伸縮手法と
しては、線形補間等が考えられる。
である。図に示すように、例えば、音声データ101に
おけるリズム知覚点120の間隔が、バックグラウンド
音声102のリズム基準位置113の1/α(α>0)
である場合、音声データ101の波形とリズム知覚点1
20の値を時間方向にα倍に伸縮する。波形伸縮手法と
しては、線形補間等が考えられる。
【0072】ミキシング手段14は、バックグラウンド
音声102のリズム基準位置113に、波形伸縮音声1
23のリズム知覚点となる変更リズム知覚点124が一
致するように、波形伸縮音声123とバックグラウンド
音声102をミキシングし、ミキシング音声103を生
成して出力する。ミキシングの方法は、波形上の直接加
算で行う。
音声102のリズム基準位置113に、波形伸縮音声1
23のリズム知覚点となる変更リズム知覚点124が一
致するように、波形伸縮音声123とバックグラウンド
音声102をミキシングし、ミキシング音声103を生
成して出力する。ミキシングの方法は、波形上の直接加
算で行う。
【0073】以上のように、この実施の形態7によれ
ば、バックグラウンド音声102のリズム基準位置11
3に、音声データ101のリズム知覚点120が一致す
るように、音声データ101の波形とリズム知覚点12
0を時間方向に伸縮することにより、バックグラウンド
音声102のテンポやリズムを急に変更しても、また、
バックグラウンド音声102の任意のリズムパターンに
対しても、音声データ101を時間方向に伸縮した波形
伸縮音声123とバックグラウンド音声102の同期を
考慮したミキシングを自動的に行うことができるという
効果が得られる。
ば、バックグラウンド音声102のリズム基準位置11
3に、音声データ101のリズム知覚点120が一致す
るように、音声データ101の波形とリズム知覚点12
0を時間方向に伸縮することにより、バックグラウンド
音声102のテンポやリズムを急に変更しても、また、
バックグラウンド音声102の任意のリズムパターンに
対しても、音声データ101を時間方向に伸縮した波形
伸縮音声123とバックグラウンド音声102の同期を
考慮したミキシングを自動的に行うことができるという
効果が得られる。
【0074】実施の形態8.図12はこの発明の実施の
形態8による音声データ同期装置の構成を示すブロック
図である。図において、25は音声データ101のピッ
チ同期位置125を抽出するピッチ同期位置抽出手段、
26はバックグラウンド音声102のリズム基準位置1
13に、音声データ101におけるリズム知覚点120
が一致するように、ピッチ同期位置125を利用して、
音声データ101の波形とリズム知覚点120を伸縮
し、それぞれ波形伸縮音声123と変更リズム知覚点1
24を出力するPSOLA手段である。
形態8による音声データ同期装置の構成を示すブロック
図である。図において、25は音声データ101のピッ
チ同期位置125を抽出するピッチ同期位置抽出手段、
26はバックグラウンド音声102のリズム基準位置1
13に、音声データ101におけるリズム知覚点120
が一致するように、ピッチ同期位置125を利用して、
音声データ101の波形とリズム知覚点120を伸縮
し、それぞれ波形伸縮音声123と変更リズム知覚点1
24を出力するPSOLA手段である。
【0075】この実施の形態は、実施の形態7の波形伸
縮手段23を、ピッチ同期位置抽出手段25とPSOL
A手段26により構成したものである。なお、上記実施
の形態1から実施の形態7と同様の構成要素及びデータ
については、同じ符号を付けて説明を省略する。
縮手段23を、ピッチ同期位置抽出手段25とPSOL
A手段26により構成したものである。なお、上記実施
の形態1から実施の形態7と同様の構成要素及びデータ
については、同じ符号を付けて説明を省略する。
【0076】次に動作を説明する。実施の形態6と同様
にして、同期点抽出手段20から音声データ101のリ
ズム知覚点120が出力され、パワー最大位置決定手段
16からバックグラウンド音声102のリズム基準位置
113が出力される。
にして、同期点抽出手段20から音声データ101のリ
ズム知覚点120が出力され、パワー最大位置決定手段
16からバックグラウンド音声102のリズム基準位置
113が出力される。
【0077】波形伸縮手段23におけるピッチ同期位置
抽出手段25は、音声データ101のピッチ同期位置1
25を抽出する。ピッチ同期位置125の抽出法の一例
としては、まず、音声データ101のピッチ分析と有声
無声判別を行い、その結果を基に音声データ101の有
声区間について基本波成分を抽出し、その基本波成分が
極大となる位置をピッチ同期位置125として抽出す
る。
抽出手段25は、音声データ101のピッチ同期位置1
25を抽出する。ピッチ同期位置125の抽出法の一例
としては、まず、音声データ101のピッチ分析と有声
無声判別を行い、その結果を基に音声データ101の有
声区間について基本波成分を抽出し、その基本波成分が
極大となる位置をピッチ同期位置125として抽出す
る。
【0078】PSOLA手段26は、バックグラウンド
音声102のリズム基準位置113に、音声データ10
1のリズム知覚点120が一致するように、ピッチ同期
位置125を利用して、ピッチの周期の値を変更しない
ように、PSOLA手法(Pitch Synchro
nous Overlap and Add;ピッチ同
期波形重畳法)に基づき、音声データ101の波形とリ
ズム知覚点120を伸縮し、それぞれ波形伸縮音声12
3と変更リズム知覚点124を出力する。
音声102のリズム基準位置113に、音声データ10
1のリズム知覚点120が一致するように、ピッチ同期
位置125を利用して、ピッチの周期の値を変更しない
ように、PSOLA手法(Pitch Synchro
nous Overlap and Add;ピッチ同
期波形重畳法)に基づき、音声データ101の波形とリ
ズム知覚点120を伸縮し、それぞれ波形伸縮音声12
3と変更リズム知覚点124を出力する。
【0079】例えば、音声データ101のリズム知覚点
120の間隔が、バックグラウンド音声102のリズム
基準位置113のα倍(α>0)である場合、音声デー
タ101の波形とリズム知覚点120の値を時間方向に
1/αに伸縮する。波形伸縮手法として、有声区間につ
いてはPSOLA手法を使用し、無声区間については線
形補間を行う。
120の間隔が、バックグラウンド音声102のリズム
基準位置113のα倍(α>0)である場合、音声デー
タ101の波形とリズム知覚点120の値を時間方向に
1/αに伸縮する。波形伸縮手法として、有声区間につ
いてはPSOLA手法を使用し、無声区間については線
形補間を行う。
【0080】PSOLA手法は、音声データ101を、
ピッチ同期位置125を中心とするピッチ周期の2倍長
の時間窓で切り出して、目標とするピッチ周期間隔に再
配置して加算する手法である。ここでは、ピッチ周期の
値は変更しないために、原ピッチ周期の2倍長のハニン
グ窓でピッチ同期位置125を中心に音声データ101
を切り出す。そして、波形を伸長する場合には、目標の
長さとなるように切り出した波形を繰り返し、波形を縮
小する場合には目標の長さとなるように切り出した波形
を間引く。
ピッチ同期位置125を中心とするピッチ周期の2倍長
の時間窓で切り出して、目標とするピッチ周期間隔に再
配置して加算する手法である。ここでは、ピッチ周期の
値は変更しないために、原ピッチ周期の2倍長のハニン
グ窓でピッチ同期位置125を中心に音声データ101
を切り出す。そして、波形を伸長する場合には、目標の
長さとなるように切り出した波形を繰り返し、波形を縮
小する場合には目標の長さとなるように切り出した波形
を間引く。
【0081】ミキシング手段14は、実施の形態7と同
様に、波形伸縮音声123とバックグラウンド音声10
2をミキシングして、ミキシング音声103を生成して
出力する。ミキシングの方法は、波形上の直接加算で行
う。
様に、波形伸縮音声123とバックグラウンド音声10
2をミキシングして、ミキシング音声103を生成して
出力する。ミキシングの方法は、波形上の直接加算で行
う。
【0082】以上のように、この実施の形態8によれ
ば、バックグラウンド音声102のリズム基準位置11
3に、音声データ101のリズム知覚点120が一致す
るように、音声データ101の波形とリズム知覚点12
0をPSOLA手法に基づいて時間方向に伸縮すること
により、バックグラウンド音声102のテンポやリズム
を急に変更しても、また、バックグラウンド音声102
の任意のリズムパターンに対しても、音声データ101
を時間方向に伸縮した波形伸縮音声123とバックグラ
ウンド音声102の同期を考慮したミキシングを自動的
に行うことができるという効果が得られる。
ば、バックグラウンド音声102のリズム基準位置11
3に、音声データ101のリズム知覚点120が一致す
るように、音声データ101の波形とリズム知覚点12
0をPSOLA手法に基づいて時間方向に伸縮すること
により、バックグラウンド音声102のテンポやリズム
を急に変更しても、また、バックグラウンド音声102
の任意のリズムパターンに対しても、音声データ101
を時間方向に伸縮した波形伸縮音声123とバックグラ
ウンド音声102の同期を考慮したミキシングを自動的
に行うことができるという効果が得られる。
【0083】実施の形態9.図13はこの発明の実施の
形態9による音声データ同期装置の構成を示すブロック
図である。図において、27はバックグラウンド音声1
02のリズム基準位置113に、波形伸縮音声123の
変更リズム知覚点124が一致するように、波形伸縮音
声123とバックグラウンド音声102を直接加算し、
加算後の波形振幅が所定の閾値を越えた際に、波形伸縮
音声123とバックグラウンド音声102にそれぞれ所
定の係数を乗じて、ゲイン変更音声データ127とゲイ
ン変更バックグラウンド音声128を出力する波形ゲイ
ン変更手段である。なお、上記実施の形態1から実施の
形態7と同様の構成要素及びデータについては、同じ符
号を付けて説明を省略する。
形態9による音声データ同期装置の構成を示すブロック
図である。図において、27はバックグラウンド音声1
02のリズム基準位置113に、波形伸縮音声123の
変更リズム知覚点124が一致するように、波形伸縮音
声123とバックグラウンド音声102を直接加算し、
加算後の波形振幅が所定の閾値を越えた際に、波形伸縮
音声123とバックグラウンド音声102にそれぞれ所
定の係数を乗じて、ゲイン変更音声データ127とゲイ
ン変更バックグラウンド音声128を出力する波形ゲイ
ン変更手段である。なお、上記実施の形態1から実施の
形態7と同様の構成要素及びデータについては、同じ符
号を付けて説明を省略する。
【0084】次に動作を説明する。実施の形態7と同様
にして、波形伸縮手段23から、波形伸縮音声123と
変更リズム知覚点124が出力される。
にして、波形伸縮手段23から、波形伸縮音声123と
変更リズム知覚点124が出力される。
【0085】波形ゲイン変更手段27は、バックグラウ
ンド音声102のリズム基準位置113に、波形伸縮音
声123の変更リズム知覚点124が一致するように、
波形伸縮音声123とバックグラウンド音声102を直
接加算し、加算後の波形振幅が所定の閾値を越えた際
に、波形伸縮音声123とバックグラウンド音声102
にそれぞれ所定の係数を乗じて、ゲイン変更音声データ
127とゲイン変更バックグラウンド音声128を出力
する。乗じる係数はそれぞれ0以上1以下の値とし、係
数を加算部分の波形全体に乗じた後に再加算する。も
し、加算後の波形が再び所定の閾値を越えた際には係数
を減少する。そして、加算後の波形の最大値が所定の閾
値を下回るまで繰り返す。
ンド音声102のリズム基準位置113に、波形伸縮音
声123の変更リズム知覚点124が一致するように、
波形伸縮音声123とバックグラウンド音声102を直
接加算し、加算後の波形振幅が所定の閾値を越えた際
に、波形伸縮音声123とバックグラウンド音声102
にそれぞれ所定の係数を乗じて、ゲイン変更音声データ
127とゲイン変更バックグラウンド音声128を出力
する。乗じる係数はそれぞれ0以上1以下の値とし、係
数を加算部分の波形全体に乗じた後に再加算する。も
し、加算後の波形が再び所定の閾値を越えた際には係数
を減少する。そして、加算後の波形の最大値が所定の閾
値を下回るまで繰り返す。
【0086】ミキシング手段14は、ゲイン変更バック
グラウンド音声128のリズム基準位置113に、ゲイ
ン変更音声データ127のリズム知覚点となる変更リズ
ム知覚点124が一致するように、ゲイン変更音声デー
タ127とゲイン変更バックグラウンド音声128をミ
キシングして、ミキシング音声103を出力する。ミキ
シングの方法は、波形上の直接加算で行う。
グラウンド音声128のリズム基準位置113に、ゲイ
ン変更音声データ127のリズム知覚点となる変更リズ
ム知覚点124が一致するように、ゲイン変更音声デー
タ127とゲイン変更バックグラウンド音声128をミ
キシングして、ミキシング音声103を出力する。ミキ
シングの方法は、波形上の直接加算で行う。
【0087】以上のように、この実施の形態9によれ
ば、波形伸縮音声123とバックグラウンド音声102
との加算後の振幅値が所定値を越えないように、波形伸
縮音声123の波形値とバックグラウンド音声102の
波形値のそれぞれに、所定の係数を乗じて加算すること
により、ミキシング後の音量に注意することなく、音声
データ101を時間方向に伸縮した波形伸縮音声123
とバックグラウンド音声102の同期を考慮したミキシ
ングを自動的に行うことができるという効果が得られ
る。
ば、波形伸縮音声123とバックグラウンド音声102
との加算後の振幅値が所定値を越えないように、波形伸
縮音声123の波形値とバックグラウンド音声102の
波形値のそれぞれに、所定の係数を乗じて加算すること
により、ミキシング後の音量に注意することなく、音声
データ101を時間方向に伸縮した波形伸縮音声123
とバックグラウンド音声102の同期を考慮したミキシ
ングを自動的に行うことができるという効果が得られ
る。
【0088】実施の形態10.図14はこの発明の実施
例の形態10による音声データ同期装置の構成を示すブ
ロック図である。図において、31は音声データ101
の発話内容に関連する画像131を記憶している画像記
憶手段、32はバックグラウンド音声102のリズム基
準位置113と音声データ101のリズム知覚点120
が一致する時間を、ミキシング手段14から出力される
同期タイミング130として入力し、テキストデータ1
04に基づき画像記憶手段31を参照し、音声データ1
01の発話内容に関連する画像131を読み出して、同
期タイミング130によりミキシング音声103と同期
させて提示画像105を表示する画像表示手段である。
なお、上記実施の形態1から実施の形態6と同様の構成
要素及びデータについては、同じ符号を付けて説明を省
略する。
例の形態10による音声データ同期装置の構成を示すブ
ロック図である。図において、31は音声データ101
の発話内容に関連する画像131を記憶している画像記
憶手段、32はバックグラウンド音声102のリズム基
準位置113と音声データ101のリズム知覚点120
が一致する時間を、ミキシング手段14から出力される
同期タイミング130として入力し、テキストデータ1
04に基づき画像記憶手段31を参照し、音声データ1
01の発話内容に関連する画像131を読み出して、同
期タイミング130によりミキシング音声103と同期
させて提示画像105を表示する画像表示手段である。
なお、上記実施の形態1から実施の形態6と同様の構成
要素及びデータについては、同じ符号を付けて説明を省
略する。
【0089】次に動作を説明する。実施の形態6と同様
にして、ミキシング手段14は、バックグラウンド音声
102のリズム基準位置113に、音声データ101の
リズム知覚点120が一致するように、音声データ10
1とバックグラウンド音声102をミキシングし、ミキ
シング音声103を出力する。
にして、ミキシング手段14は、バックグラウンド音声
102のリズム基準位置113に、音声データ101の
リズム知覚点120が一致するように、音声データ10
1とバックグラウンド音声102をミキシングし、ミキ
シング音声103を出力する。
【0090】画像表示手段32は、バックグラウンド音
声102におけるリズム基準位置113と音声データ1
01のリズム知覚点120が一致する時間を、ミキシン
グ手段14から出力される同期タイミング130として
入力し、テキストデータ104に基づき画像記憶手段3
1を参照し、音声データ101の発話内容に関する画像
131を読み出して、同期タイミング130によりミキ
シング音声103と同期させて提示画像105を表示す
る。
声102におけるリズム基準位置113と音声データ1
01のリズム知覚点120が一致する時間を、ミキシン
グ手段14から出力される同期タイミング130として
入力し、テキストデータ104に基づき画像記憶手段3
1を参照し、音声データ101の発話内容に関する画像
131を読み出して、同期タイミング130によりミキ
シング音声103と同期させて提示画像105を表示す
る。
【0091】図15は画像表示手段32の動作内容を示
す図であり、図に示すように、例えば音声データ101
が「我が家には猫がいます」で、「猫」という音声のタ
イミングで猫の画像を表示したい時には、「猫」という
テキストデータ104に基づき、画像記憶手段31から
猫の画像131を読み出して、「猫」という音声データ
101のタイミングでバックグラウンド音声102のリ
ズム基準位置113と一致させることにより、猫の提示
画像105が画像表示手段32により表示される。
す図であり、図に示すように、例えば音声データ101
が「我が家には猫がいます」で、「猫」という音声のタ
イミングで猫の画像を表示したい時には、「猫」という
テキストデータ104に基づき、画像記憶手段31から
猫の画像131を読み出して、「猫」という音声データ
101のタイミングでバックグラウンド音声102のリ
ズム基準位置113と一致させることにより、猫の提示
画像105が画像表示手段32により表示される。
【0092】以上のように、この実施の形態10によれ
ば、バックグラウンド音声102のリズム基準位置11
3を、記憶した画像の表示タイミングとして利用するこ
とにより、音声データ101の内容を示す提示画像10
5を、音声データ101の同期基準位置に提示すること
が可能となり、ミキシング音声103と提示画像105
との同期を自動的に実現できるという効果が得られる。
ば、バックグラウンド音声102のリズム基準位置11
3を、記憶した画像の表示タイミングとして利用するこ
とにより、音声データ101の内容を示す提示画像10
5を、音声データ101の同期基準位置に提示すること
が可能となり、ミキシング音声103と提示画像105
との同期を自動的に実現できるという効果が得られる。
【0093】実施の形態11.図16はこの発明の実施
の形態11による音声データ作成装置の構成を示すブロ
ック図である。図において、33はテキストデータ10
4の内容を示す登録音声データ133,すなわち音声デ
ータ101と同じ内容の登録音声データを記憶している
登録音声データ記憶手段であり、34は同期点抽出手段
20から出力される音声データ101のリズム知覚点1
20から、音声データ101のリズムパターンを得ると
共に、リズム基準位置決定手段13から出力される登録
音声データ133のリズム基準位置113から、登録音
声データ133のリズムパターンを得て、その両方の音
声のリズムパターンを比較し、リズムパターン照合結果
134を出力するリズムパターン照合手段である。な
お、上記実施の形態1ないし実施の形態7と同様の構成
要素及びデータについては、同じ符号を付けて説明を省
略する。
の形態11による音声データ作成装置の構成を示すブロ
ック図である。図において、33はテキストデータ10
4の内容を示す登録音声データ133,すなわち音声デ
ータ101と同じ内容の登録音声データを記憶している
登録音声データ記憶手段であり、34は同期点抽出手段
20から出力される音声データ101のリズム知覚点1
20から、音声データ101のリズムパターンを得ると
共に、リズム基準位置決定手段13から出力される登録
音声データ133のリズム基準位置113から、登録音
声データ133のリズムパターンを得て、その両方の音
声のリズムパターンを比較し、リズムパターン照合結果
134を出力するリズムパターン照合手段である。な
お、上記実施の形態1ないし実施の形態7と同様の構成
要素及びデータについては、同じ符号を付けて説明を省
略する。
【0094】次に動作を説明する。音声データ101
は、ユーザがマイク等の音声入力装置でシステムに与え
た音声データとする。音素ラベリング手段22はユーザ
からの音声データ101とその内容を示すテキストデー
タ104を入力し、音声認識手法により音声データ10
1の音素毎の区間を示す音素ラベル列122を抽出す
る。音声認識の手法と音素ラベル列122の形式は実施
の形態6と同様とする。
は、ユーザがマイク等の音声入力装置でシステムに与え
た音声データとする。音素ラベリング手段22はユーザ
からの音声データ101とその内容を示すテキストデー
タ104を入力し、音声認識手法により音声データ10
1の音素毎の区間を示す音素ラベル列122を抽出す
る。音声認識の手法と音素ラベル列122の形式は実施
の形態6と同様とする。
【0095】得られた音素ラベル列122に基づいて、
同期点抽出手段20は、リズム知覚点テーブル記憶手段
19に記憶されたリズム知覚点テーブル119を参照
し、音声データ101の音素列毎にリズム知覚点120
を得る。リズム知覚点テーブル119の形式と参照方法
は実施の形態5と同様とする。
同期点抽出手段20は、リズム知覚点テーブル記憶手段
19に記憶されたリズム知覚点テーブル119を参照
し、音声データ101の音素列毎にリズム知覚点120
を得る。リズム知覚点テーブル119の形式と参照方法
は実施の形態5と同様とする。
【0096】登録音声データ記憶手段33は、テキスト
データ104の内容を示す登録音声データ、すなわち音
声データ101と同じ内容の音声データを記憶してい
る。リズム基準位置決定手段13は、テキストデータ1
04を入力し、登録音声データ記憶手段33に記憶され
ている登録音声データ133を読み出して、登録音声デ
ータ133のリズム基準位置113を決定する。リズム
基準位置113の決定法は、実施の形態1と同様とす
る。
データ104の内容を示す登録音声データ、すなわち音
声データ101と同じ内容の音声データを記憶してい
る。リズム基準位置決定手段13は、テキストデータ1
04を入力し、登録音声データ記憶手段33に記憶され
ている登録音声データ133を読み出して、登録音声デ
ータ133のリズム基準位置113を決定する。リズム
基準位置113の決定法は、実施の形態1と同様とす
る。
【0097】リズムパターン照合手段34は、音声デー
タ101のリズム知覚点120から音声データ101の
リズムパターンを得ると共に、登録音声データ133の
リズム基準位置113から登録音声データ133のリズ
ムパターンを得る。そして、その両方の音声データのリ
ズムパターンを比較して、ほぼ同等であれば、次の入力
音声101の入力を促す。もし、両方の音声データのリ
ズムパターンが異なっていたら、リズムパターン照合手
段34は、リズムパターン照合結果134を波形伸縮手
段23へ伝える。リズムパターン照合結果134には、
登録音声データ133を変更するために必要な情報とし
て、音声データ101のリズムパターンが含まれてい
る。
タ101のリズム知覚点120から音声データ101の
リズムパターンを得ると共に、登録音声データ133の
リズム基準位置113から登録音声データ133のリズ
ムパターンを得る。そして、その両方の音声データのリ
ズムパターンを比較して、ほぼ同等であれば、次の入力
音声101の入力を促す。もし、両方の音声データのリ
ズムパターンが異なっていたら、リズムパターン照合手
段34は、リズムパターン照合結果134を波形伸縮手
段23へ伝える。リズムパターン照合結果134には、
登録音声データ133を変更するために必要な情報とし
て、音声データ101のリズムパターンが含まれてい
る。
【0098】波形伸縮手段23は、音声データ101の
リズムパターンに、登録音声データ133のリズムパタ
ーンが一致するように、登録音声データ133の波形と
リズム基準位置113を時間方向に伸縮し、提示音声1
06として出力する。波形伸縮方式は、実施の形態7と
同様とする。
リズムパターンに、登録音声データ133のリズムパタ
ーンが一致するように、登録音声データ133の波形と
リズム基準位置113を時間方向に伸縮し、提示音声1
06として出力する。波形伸縮方式は、実施の形態7と
同様とする。
【0099】以上のように、この実施の形態11によれ
ば、ユーザからの音声データ101を認識し、リズム知
覚点テーブル119を参照して音声データ101のリズ
ムパターンを抽出し、登録音声データ記憶手段33に記
憶している同一音声データのリズムパターンと照合し
て、リズムパターンの差異がある時に、登録音声データ
記憶手段33に記憶している同一の登録音声データ13
3を、ユーザからの音声データ101のリズムパターン
に応じて時間方向に伸縮し、伸縮した登録音声データ
を、提示音声106としてユーザに提示することで、ユ
ーザの音声的なリズム学習のためのデータを自動的に変
更することができ、ユーザに高い学習効果を与えること
ができるという効果が得られる。
ば、ユーザからの音声データ101を認識し、リズム知
覚点テーブル119を参照して音声データ101のリズ
ムパターンを抽出し、登録音声データ記憶手段33に記
憶している同一音声データのリズムパターンと照合し
て、リズムパターンの差異がある時に、登録音声データ
記憶手段33に記憶している同一の登録音声データ13
3を、ユーザからの音声データ101のリズムパターン
に応じて時間方向に伸縮し、伸縮した登録音声データ
を、提示音声106としてユーザに提示することで、ユ
ーザの音声的なリズム学習のためのデータを自動的に変
更することができ、ユーザに高い学習効果を与えること
ができるという効果が得られる。
【0100】上記実施の形態1ないし実施の形態10に
おける音声データ101は、システムが用意した音声デ
ータの替わりに、ユーザがマイク等の入力装置を用いて
入力した発話音声であっても良い。
おける音声データ101は、システムが用意した音声デ
ータの替わりに、ユーザがマイク等の入力装置を用いて
入力した発話音声であっても良い。
【0101】また、上記実施の形態1におけるピッチ最
大位置決定手段12は、ピッチパターンにおけるピッチ
の最大値を取る位置を求める替わりに、ピッチパターン
をフレーズ成分とアクセント成分に分離し、アクセント
成分の最大値を取る位置を求めても良い。
大位置決定手段12は、ピッチパターンにおけるピッチ
の最大値を取る位置を求める替わりに、ピッチパターン
をフレーズ成分とアクセント成分に分離し、アクセント
成分の最大値を取る位置を求めても良い。
【0102】さらに、上記実施の形態1,実施の形態3
及び実施の形態4におけるピッチ最大位置決定手段1
2,並びに実施の形態2におけるパワー最大位置決定手
段16は、音声データ101に対して、一つのピッチ最
大位置112又はパワー最大位置116を決定する替わ
りに、ポーズに囲まれた呼気段落に対して一つずつ決定
しても良い。
及び実施の形態4におけるピッチ最大位置決定手段1
2,並びに実施の形態2におけるパワー最大位置決定手
段16は、音声データ101に対して、一つのピッチ最
大位置112又はパワー最大位置116を決定する替わ
りに、ポーズに囲まれた呼気段落に対して一つずつ決定
しても良い。
【0103】さらに、上記実施の形態1,実施の形態3
及び実施の形態4におけるピッチ最大位置決定手段1
2,並びに実施の形態2におけるパワー最大位置決定手
段16は、音声データ101に対して、一つのピッチ最
大位置112又はパワー最大位置116を決定する替わ
りに、音声データ101のピッチパターン111を求め
てピッチのフレーズ成分を解析し、フレーズ成分が下降
して再び高い値を取る箇所で、通常、フレーズの立て直
し位置と呼ばれる箇所を抽出して、その音声の始端、終
端及びフレーズの立て直し位置に囲まれた音声データ区
間に対して、一つずつ決定しても良い。
及び実施の形態4におけるピッチ最大位置決定手段1
2,並びに実施の形態2におけるパワー最大位置決定手
段16は、音声データ101に対して、一つのピッチ最
大位置112又はパワー最大位置116を決定する替わ
りに、音声データ101のピッチパターン111を求め
てピッチのフレーズ成分を解析し、フレーズ成分が下降
して再び高い値を取る箇所で、通常、フレーズの立て直
し位置と呼ばれる箇所を抽出して、その音声の始端、終
端及びフレーズの立て直し位置に囲まれた音声データ区
間に対して、一つずつ決定しても良い。
【0104】さらに、上記実施の形態1,実施の形態3
及び実施の形態4におけるピッチ最大位置決定手段1
2,並びに実施の形態2におけるパワー最大位置決定手
段16は、音声データ101に対して、一つのピッチ最
大位置112又はパワー最大位置116を決定する替わ
りに、音声データ101のピッチパターン111又はパ
ワー概形115において、閾値を越す位置を位置候補と
して複数個抽出し、その位置の間隔が所定値を下回らな
ければ、最大位置に対して次位以下の位置候補も出力可
能とするという形式で、複数の位置を決定しても良い。
及び実施の形態4におけるピッチ最大位置決定手段1
2,並びに実施の形態2におけるパワー最大位置決定手
段16は、音声データ101に対して、一つのピッチ最
大位置112又はパワー最大位置116を決定する替わ
りに、音声データ101のピッチパターン111又はパ
ワー概形115において、閾値を越す位置を位置候補と
して複数個抽出し、その位置の間隔が所定値を下回らな
ければ、最大位置に対して次位以下の位置候補も出力可
能とするという形式で、複数の位置を決定しても良い。
【0105】さらに、上記実施の形態1ないし実施の形
態4は、ピッチパターン111又はパワー概形115の
最大値を、音声データ101の同期位置とする替わり
に、実施の形態5におけるリズム知覚点テーブル記憶手
段19を備え、ピッチパターン111又はパワー概形1
15が最大値を取る音節におけるリズム知覚点120を
音声データ101の同期位置としても良い。
態4は、ピッチパターン111又はパワー概形115の
最大値を、音声データ101の同期位置とする替わり
に、実施の形態5におけるリズム知覚点テーブル記憶手
段19を備え、ピッチパターン111又はパワー概形1
15が最大値を取る音節におけるリズム知覚点120を
音声データ101の同期位置としても良い。
【0106】さらに、実施の形態5ないし実施の形態1
1におけるリズム知覚点テーブル記憶手段19は、全て
の音素列の組合せに対応するリズム知覚点テーブル11
9を用意する替わりに、システムからの音声提示に必要
と考える最小限の音素列の組合せに対応するリズム知覚
点テーブル119として記述しても良い。
1におけるリズム知覚点テーブル記憶手段19は、全て
の音素列の組合せに対応するリズム知覚点テーブル11
9を用意する替わりに、システムからの音声提示に必要
と考える最小限の音素列の組合せに対応するリズム知覚
点テーブル119として記述しても良い。
【0107】さらに、実施の形態5ないし実施の形態1
1におけるリズム知覚点テーブル記憶手段19は、音素
列の組合せのみに留まらず、母音部のピッチの高さや、
平均話速や、音声データ101が文頭、文中、文末のど
れに当たるかという情報に応じたリズム知覚点の値を記
述しても良い。
1におけるリズム知覚点テーブル記憶手段19は、音素
列の組合せのみに留まらず、母音部のピッチの高さや、
平均話速や、音声データ101が文頭、文中、文末のど
れに当たるかという情報に応じたリズム知覚点の値を記
述しても良い。
【0108】さらに、実施の形態7ないし実施の形態1
0は、音声データ101を入力する音素ラベリング手段
22を備える替わりに、実施の形態5における音声合成
手段21を備え、テキストデータ104からピッチ同期
点を抽出し、合成音声121とバックグラウンド音声1
02とのミキシング音声103を出力しても良い。さら
に、バックグラウンド音声102のリズム基準位置11
3を用いて、音声合成処理の時点で合成音声121のリ
ズム知覚点120とバックグラウンド音声102のリズ
ム基準位置113を一致させても良い。
0は、音声データ101を入力する音素ラベリング手段
22を備える替わりに、実施の形態5における音声合成
手段21を備え、テキストデータ104からピッチ同期
点を抽出し、合成音声121とバックグラウンド音声1
02とのミキシング音声103を出力しても良い。さら
に、バックグラウンド音声102のリズム基準位置11
3を用いて、音声合成処理の時点で合成音声121のリ
ズム知覚点120とバックグラウンド音声102のリズ
ム基準位置113を一致させても良い。
【0109】さらに、実施の形態10は、画像記憶手段
31に記憶される画像131は、その内容を示す音素ラ
ベルが一緒に記憶され、画像表示手段32は同期タイミ
ング130として音声が提示される時間での音素ラベル
を受け、音素ラベルに対応する提示画像105を表示し
ても良く、提示画像105を提示される音声の長さに応
じて自動的に変更しても良い。
31に記憶される画像131は、その内容を示す音素ラ
ベルが一緒に記憶され、画像表示手段32は同期タイミ
ング130として音声が提示される時間での音素ラベル
を受け、音素ラベルに対応する提示画像105を表示し
ても良く、提示画像105を提示される音声の長さに応
じて自動的に変更しても良い。
【0110】さらに、実施の形態11は、波形伸縮した
提示音声106を提示するだけでなく、システムが登録
している元の登録音声データと交互に提示しても良い。
提示音声106を提示するだけでなく、システムが登録
している元の登録音声データと交互に提示しても良い。
【0111】
【発明の効果】以上のように、この発明によれば、バッ
クグラウンド音声の波形特徴又は韻律特徴から求めたリ
ズム基準位置に、音声データの韻律特徴から求めたプロ
ミネンス位置が一致するように、音声データとバックグ
ラウンド音声をミキシングすることにより、同期を考慮
したミキシングを自動的に行うことができるという効果
がある。
クグラウンド音声の波形特徴又は韻律特徴から求めたリ
ズム基準位置に、音声データの韻律特徴から求めたプロ
ミネンス位置が一致するように、音声データとバックグ
ラウンド音声をミキシングすることにより、同期を考慮
したミキシングを自動的に行うことができるという効果
がある。
【0112】この発明によれば、バックグラウンド音声
のリズム基準位置に、音声データのピッチから求めたピ
ッチ最大位置が一致するように、音声データとバックグ
ラウンド音声をミキシングすることにより、同期を考慮
したミキシングを自動的に行うことができるという効果
がある。
のリズム基準位置に、音声データのピッチから求めたピ
ッチ最大位置が一致するように、音声データとバックグ
ラウンド音声をミキシングすることにより、同期を考慮
したミキシングを自動的に行うことができるという効果
がある。
【0113】この発明によれば、バックグラウンド音声
のリズム基準位置に、音声データの短時間パワーから求
めたパワー最大位置が一致するように、音声データとバ
ックグラウンド音声をミキシングすることにより、同期
を考慮したミキシングを自動的に行うことができるとい
う効果がある。
のリズム基準位置に、音声データの短時間パワーから求
めたパワー最大位置が一致するように、音声データとバ
ックグラウンド音声をミキシングすることにより、同期
を考慮したミキシングを自動的に行うことができるとい
う効果がある。
【0114】この発明によれば、バックグラウンド音声
の短時間パワーから求めたリズム基準位置に、音声デー
タのプロミネンス位置が一致するように、音声データと
バックグラウンド音声をミキシングすることにより、同
期を考慮したミキシングを自動的に行うことができると
いう効果がある。
の短時間パワーから求めたリズム基準位置に、音声デー
タのプロミネンス位置が一致するように、音声データと
バックグラウンド音声をミキシングすることにより、同
期を考慮したミキシングを自動的に行うことができると
いう効果がある。
【0115】この発明によれば、特定の周波数帯域にお
けるバックグラウンド音声の短時間パワーから求めたリ
ズム基準位置に、音声データのプロミネンス位置が一致
するように、音声データとバックグラウンド音声をミキ
シングすることにより、同期を考慮したミキシングを自
動的に行うことができるという効果がある。
けるバックグラウンド音声の短時間パワーから求めたリ
ズム基準位置に、音声データのプロミネンス位置が一致
するように、音声データとバックグラウンド音声をミキ
シングすることにより、同期を考慮したミキシングを自
動的に行うことができるという効果がある。
【0116】この発明によれば、テキストデータから言
語情報を抽出し、バックグラウンド音声の波形特徴又は
韻律特徴から求めたリズム基準位置に、言語情報により
リズム知覚点テーブルから抽出したテキストデータの音
素列毎のリズム知覚点が一致するように、テキストデー
タから合成した合成音声とバックグラウンド音声をミキ
シングすることにより、同期を考慮したミキシングを自
動的に行うことができるという効果がある。
語情報を抽出し、バックグラウンド音声の波形特徴又は
韻律特徴から求めたリズム基準位置に、言語情報により
リズム知覚点テーブルから抽出したテキストデータの音
素列毎のリズム知覚点が一致するように、テキストデー
タから合成した合成音声とバックグラウンド音声をミキ
シングすることにより、同期を考慮したミキシングを自
動的に行うことができるという効果がある。
【0117】この発明によれば、音声データとその内容
を示すテキストデータから音素ラベル列を抽出し、バッ
クグラウンド音声の波形特徴又は韻律特徴から求めたリ
ズム基準位置に、音素ラベル列によりリズム知覚点テー
ブルから抽出した音声データの音素列毎のリズム知覚点
が一致するように、音声データとバックグラウンド音声
をミキシングすることにより、同期を考慮したミキシン
グを自動的に行うことができるという効果がある。
を示すテキストデータから音素ラベル列を抽出し、バッ
クグラウンド音声の波形特徴又は韻律特徴から求めたリ
ズム基準位置に、音素ラベル列によりリズム知覚点テー
ブルから抽出した音声データの音素列毎のリズム知覚点
が一致するように、音声データとバックグラウンド音声
をミキシングすることにより、同期を考慮したミキシン
グを自動的に行うことができるという効果がある。
【0118】この発明によれば、特定の周波数帯域にお
けるバックグラウンド音声の短時間パワーから求めたリ
ズム基準位置に、合成音声又は音声データの音素列毎の
リズム知覚点が一致するように、合成音声又は音声デー
タと、バックグラウンド音声とをミキシングすることに
より、同期を考慮したミキシングを自動的に行うことが
できるという効果がある。
けるバックグラウンド音声の短時間パワーから求めたリ
ズム基準位置に、合成音声又は音声データの音素列毎の
リズム知覚点が一致するように、合成音声又は音声デー
タと、バックグラウンド音声とをミキシングすることに
より、同期を考慮したミキシングを自動的に行うことが
できるという効果がある。
【0119】この発明によれば、バックグラウンド音声
のリズム基準位置に、音声データの音素列毎のリズム知
覚点が一致するように、音声データとリズム知覚点を時
間方向に伸縮し、伸縮した音声データとバックグラウン
ド音声をミキシングすることにより、バックグラウンド
音声のテンポやリズムを急に変更しても、任意のリズム
パターンに対しても、同期を考慮したミキシングを自動
的に行うことができるという効果がある。
のリズム基準位置に、音声データの音素列毎のリズム知
覚点が一致するように、音声データとリズム知覚点を時
間方向に伸縮し、伸縮した音声データとバックグラウン
ド音声をミキシングすることにより、バックグラウンド
音声のテンポやリズムを急に変更しても、任意のリズム
パターンに対しても、同期を考慮したミキシングを自動
的に行うことができるという効果がある。
【0120】この発明によれば、バックグラウンド音声
のリズム基準位置に、音声データの音素列毎のリズム知
覚点が一致するように、音声データとリズム知覚点をピ
ッチ同期波形重畳法により時間方向に伸縮し、伸縮した
音声データとバックグラウンド音声をミキシングするこ
とにより、バックグラウンド音声のテンポやリズムを急
に変更しても、任意のリズムパターンに対しても、同期
を考慮したミキシングを自動的に行うことができるとい
う効果がある。
のリズム基準位置に、音声データの音素列毎のリズム知
覚点が一致するように、音声データとリズム知覚点をピ
ッチ同期波形重畳法により時間方向に伸縮し、伸縮した
音声データとバックグラウンド音声をミキシングするこ
とにより、バックグラウンド音声のテンポやリズムを急
に変更しても、任意のリズムパターンに対しても、同期
を考慮したミキシングを自動的に行うことができるとい
う効果がある。
【0121】この発明によれば、伸縮した音声データ
と、バックグラウンド音声に、ミキシングしたときの加
算値が所定の閾値を越えないように、所定の係数を乗じ
ることにより、ミキシング後の音量に注意することな
く、ミキシングを自動的に行うことができるという効果
がある。
と、バックグラウンド音声に、ミキシングしたときの加
算値が所定の閾値を越えないように、所定の係数を乗じ
ることにより、ミキシング後の音量に注意することな
く、ミキシングを自動的に行うことができるという効果
がある。
【0122】この発明によれば、バックグラウンド音声
のリズム基準位置と音声データのリズム知覚点が一致す
るタイミングで、音声データの発話内容に関する画像を
読み出して表示することにより、ミキシング音声と画像
との同期を自動的に実現できるという効果がある。
のリズム基準位置と音声データのリズム知覚点が一致す
るタイミングで、音声データの発話内容に関する画像を
読み出して表示することにより、ミキシング音声と画像
との同期を自動的に実現できるという効果がある。
【0123】この発明によれば、ユーザからの音声デー
タと、その内容を示すテキストデータから音素ラベル列
を抽出し、リズム知覚点テーブルを参照してユーザから
の音声データのリズムパターンを抽出し、音声データと
同じ内容の登録音声データのリズムパターンと照合し
て、ユーザからの音声データのリズムパターンに、登録
音声データのリズムパターンが一致するように時間方向
に伸縮してユーザに提示することにより、ユーザの音声
的なリズム学習のためのデータを自動的に変更すること
ができ、ユーザに高い学習効果を与えることができると
いう効果が得られる。
タと、その内容を示すテキストデータから音素ラベル列
を抽出し、リズム知覚点テーブルを参照してユーザから
の音声データのリズムパターンを抽出し、音声データと
同じ内容の登録音声データのリズムパターンと照合し
て、ユーザからの音声データのリズムパターンに、登録
音声データのリズムパターンが一致するように時間方向
に伸縮してユーザに提示することにより、ユーザの音声
的なリズム学習のためのデータを自動的に変更すること
ができ、ユーザに高い学習効果を与えることができると
いう効果が得られる。
【図1】 この発明の実施の形態1による音声データ同
期装置の構成を示すブロック図である。
期装置の構成を示すブロック図である。
【図2】 この発明の実施の形態1によるミキシング手
段の動作内容を示す図である。
段の動作内容を示す図である。
【図3】 この発明の実施の形態2による音声データ同
期装置の構成を示すブロック図である。
期装置の構成を示すブロック図である。
【図4】 この発明の実施の形態3による音声データ同
期装置の構成を示すブロック図である。
期装置の構成を示すブロック図である。
【図5】 この発明の実施の形態4による音声データ同
期装置の構成を示すブロック図である。
期装置の構成を示すブロック図である。
【図6】 この発明の実施の形態5による音声データ同
期装置の構成を示すブロック図である。
期装置の構成を示すブロック図である。
【図7】 この発明の実施の形態5ないし実施の形態1
1によるリズム知覚点テーブルの内容を示す図である。
1によるリズム知覚点テーブルの内容を示す図である。
【図8】 この発明の実施の形態5及び実施の形態6に
よるミキシング手段の動作内容を示す図である。
よるミキシング手段の動作内容を示す図である。
【図9】 この発明の実施の形態6による音声データ同
期装置の構成を示すブロック図である。
期装置の構成を示すブロック図である。
【図10】 この発明の実施の形態7による音声データ
同期装置の構成を示すブロック図である。
同期装置の構成を示すブロック図である。
【図11】 この発明の実施の形態7による波形伸縮手
段の動作内容を示す図である。
段の動作内容を示す図である。
【図12】 この発明の実施の形態8による音声データ
同期装置の構成を示すブロック図である。
同期装置の構成を示すブロック図である。
【図13】 この発明の実施の形態9による音声データ
同期装置の構成を示すブロック図である。
同期装置の構成を示すブロック図である。
【図14】 この発明の実施の形態10による音声デー
タ同期装置の構成を示すブロック図である。
タ同期装置の構成を示すブロック図である。
【図15】 この発明の実施の形態10による画像表示
手段の動作内容を示す図である。
手段の動作内容を示す図である。
【図16】 この発明の実施の形態11による音声デー
タ作成装置の構成を示すブロック図である。
タ作成装置の構成を示すブロック図である。
【図17】 従来の音声対話装置の構成を示すブロック
図である。
図である。
11 ピッチ分析手段、12 ピッチ最大位置決定手
段、13 リズム基準位置決定手段、14 ミキシング
手段、15 短時間パワー分析手段、16 パワー最大
位置決定手段、17 帯域フィルタ手段、18 言語解
析手段、19 リズム知覚点テーブル記憶手段、20
同期点抽出手段、21 音声合成手段、22 音素ラベ
リング手段、23 波形伸縮手段、25 ピッチ同期位
置抽出手段、26 PSOLA手段、27 波形ゲイン
変更手段、31 画像記憶手段、32 画像表示手段、
33 登録音声データ記憶手段、34 リズムパターン
照合手段、101 音声データ、102 バックグラウ
ンド音声、103 ミキシング音声、104 テキスト
データ、105 提示画像、106 提示音声、111
ピッチパターン、112 ピッチ最大位置、113
リズム基準位置、115 パワー概形、116 パワー
最大位置、117 帯域限定音声、118 言語情報、
119 リズム知覚点テーブル、120 リズム知覚
点、121 合成音声、122 音素ラベル列、123
波形伸縮音声、124 変更リズム知覚点、125
ピッチ同期位置、127 ゲイン変更音声データ、12
8 ゲイン変更バックグラウンド音声、130 同期タ
イミング、131 画像、133登録音声データ、13
4 リズムパターン照合結果。
段、13 リズム基準位置決定手段、14 ミキシング
手段、15 短時間パワー分析手段、16 パワー最大
位置決定手段、17 帯域フィルタ手段、18 言語解
析手段、19 リズム知覚点テーブル記憶手段、20
同期点抽出手段、21 音声合成手段、22 音素ラベ
リング手段、23 波形伸縮手段、25 ピッチ同期位
置抽出手段、26 PSOLA手段、27 波形ゲイン
変更手段、31 画像記憶手段、32 画像表示手段、
33 登録音声データ記憶手段、34 リズムパターン
照合手段、101 音声データ、102 バックグラウ
ンド音声、103 ミキシング音声、104 テキスト
データ、105 提示画像、106 提示音声、111
ピッチパターン、112 ピッチ最大位置、113
リズム基準位置、115 パワー概形、116 パワー
最大位置、117 帯域限定音声、118 言語情報、
119 リズム知覚点テーブル、120 リズム知覚
点、121 合成音声、122 音素ラベル列、123
波形伸縮音声、124 変更リズム知覚点、125
ピッチ同期位置、127 ゲイン変更音声データ、12
8 ゲイン変更バックグラウンド音声、130 同期タ
イミング、131 画像、133登録音声データ、13
4 リズムパターン照合結果。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5D015 CC13 CC14 FF06 9A001 BB03 BB04 HH13 HH15 HH16 HH17 HH18 HH33 JJ14 JJ19 JJ74 KK09 KK31 KK37 KK43
Claims (13)
- 【請求項1】 音声データを音楽やリズム信号等のバッ
クグラウンド音声と同期させてミキシングする音声デー
タ同期装置において、 上記音声データの韻律特徴を分析して韻律特徴の時間系
列を求める韻律特徴分析手段と、 上記韻律特徴の時間系列から上記音声データの文意の中
心であるプロミネンス位置を決定するプロミネンス決定
手段と、 上記バックグラウンド音声の波形特徴又は韻律特徴か
ら、上記バックグラウンド音声のリズム基準位置を決定
するリズム基準位置決定手段と、 上記バックグラウンド音声のリズム基準位置に、上記音
声データのプロミネンス位置が一致するように、上記音
声データと上記バックグラウンド音声をミキシングし
て、ミキシング音声を出力するミキシング手段とを備え
たこと特徴とする音声データ同期装置。 - 【請求項2】 韻律特徴分析手段が、音声データの韻律
特徴であるピッチを分析してピッチの時間系列であるピ
ッチパターンを求め、 プロミネンス決定手段が、上記ピッチパターンにおい
て、上記ピッチの値が最大になるピッチ最大位置を決定
し、 ミキシング手段が、バックグラウンド音声のリズム基準
位置に、上記音声データのピッチ最大位置が一致するよ
うに、上記音声データと上記バックグラウンド音声をミ
キシングすることを特徴とする請求項1記載の音声デー
タ同期装置。 - 【請求項3】 韻律特徴分析手段が、音声データの韻律
特徴である短時間パワーを分析して短時間パワーの時間
系列であるパワー概形を求め、 プロミネンス決定手段が、上記パワー概形において、上
記短時間パワーの値が最大になるパワー最大位置を決定
し、 ミキシング手段が、バックグラウンド音声のリズム基準
位置に、上記音声データのパワー最大位置が一致するよ
うに、上記音声データと上記バックグラウンド音声をミ
キシングすることを特徴とする請求項1記載の音声デー
タ同期装置。 - 【請求項4】 リズム基準位置決定手段が、バックグラ
ウンド音声の韻律特徴である短時間パワーを分析して短
時間パワーの時間系列であるパワー概形を求め、上記パ
ワー概形において、上記短時間パワーの値が最大になる
パワー最大位置を、上記バックグラウンド音声のリズム
基準位置として決定することを特徴とする請求項1記載
の音声データ同期装置。 - 【請求項5】 リズム基準位置決定手段が、特定の周波
数帯域におけるバックグラウンド音声の韻律特徴である
短時間パワーを分析して短時間パワーの時間系列である
パワー概形を求めることを特徴とする請求項4記載の音
声データ同期装置。 - 【請求項6】 テキストデータからテキスト音声変換技
術により合成された合成音声を、音楽やリズム信号等の
バックグラウンド音声と同期させてミキシングする音声
データ同期装置において、 上記テキストデータを言語解析し、読み、品詞、アクセ
ント型等の言語情報を抽出する言語解析手段と、 母音や子音の音素列に対応したリズム知覚点を記述した
リズム知覚点テーブルを記憶するリズム知覚点テーブル
記憶手段と、 上記言語解析手段により抽出された言語情報により、上
記リズム知覚点テーブル記憶手段に記憶されたリズム知
覚点テーブルを参照し、上記テキストデータの音素列毎
にリズム知覚点を抽出する同期点抽出手段と、 上記言語解析手段により抽出された言語情報から合成音
声を生成する音声合成手段と、 上記バックグラウンド音声の波形特徴又は韻律特徴か
ら、上記バックグラウンド音声のリズム基準位置を決定
するリズム基準位置決定手段と、 上記バックグラウンド音声のリズム基準位置に、上記同
期点抽出手段により抽出されたリズム知覚点が一致する
ように、上記合成音声と上記バックグラウンド音声をミ
キシングして、ミキシング音声を出力するミキシング手
段とを備えたこと特徴とする音声データ同期装置。 - 【請求項7】 音声データを音楽やリズム信号等のバッ
クグラウンド音声と同期させてミキシングする音声デー
タ同期装置において、 上記音声データと、その内容を示すテキストデータを入
力し、音声認識手法により上記音声データの音素毎の区
間を示す音素ラベル列を抽出する音素ラベリング手段
と、 母音や子音の音素列に対応したリズム知覚点を記述した
リズム知覚点テーブルを記憶しているリズム知覚点テー
ブル記憶手段と、 上記音素ラベリング手段により抽出された音素ラベル列
により、上記リズム知覚点テーブル記憶手段に記憶され
たリズム知覚点テーブルを参照し、上記音声データの音
素列毎にリズム知覚点を抽出する同期点抽出手段と、 上記バックグラウンド音声の波形特徴又は韻律特徴か
ら、上記バックグラウンド音声のリズム基準位置を決定
するリズム基準位置決定手段と、 上記バックグラウンド音声のリズム基準位置に、上記同
期点抽出手段により抽出されたリズム知覚点が一致する
ように、上記音声データと上記バックグラウンド音声を
ミキシングして、ミキシング音声を出力するミキシング
手段とを備えたこと特徴とする音声データ同期装置。 - 【請求項8】 リズム基準位置決定手段が、特定の周波
数帯域におけるバックグラウンド音声の韻律特徴である
短時間パワーを分析して短時間パワーの時間系列である
パワー概形を求め、上記パワー概形において、上記短時
間パワーの値が最大になるパワー最大位置を、上記バッ
クグラウンド音声のリズム基準位置として決定すること
を特徴とする請求項6又は請求項7記載の音声データ同
期装置。 - 【請求項9】 リズム基準位置決定手段により決定され
たバックグラウンド音声のリズム基準位置に、同期点抽
出手段により抽出されたリズム知覚点が一致するよう
に、音声データと上記リズム知覚点を時間方向に伸縮
し、波形伸縮音声と変更リズム知覚点を出力する波形伸
縮手段を備え、 ミキシング手段が、上記リズム基準位置に、上記変更リ
ズム知覚点が一致するように、上記波形伸縮音声と上記
バックグラウンド音声をミキシングすることを特徴とす
る請求項7記載の音声データ同期装置。 - 【請求項10】 波形伸縮手段が、音声データのピッチ
同期位置を抽出し、リズム基準位置決定手段により決定
されたバックグラウンド音声のリズム基準位置に、同期
点抽出手段により抽出されたリズム知覚点が一致するよ
うに、抽出された上記ピッチ同期位置を利用して、ピッ
チ周期の値を変更しないように、ピッチ同期波形重畳法
に基づき、上記音声データと上記リズム知覚点を時間方
向に伸縮し、波形伸縮音声と変更リズム知覚点を出力す
ることを特徴とする請求項9記載の音声データ同期装
置。 - 【請求項11】 波形伸縮手段から出力された波形伸縮
音声と、バックグラウンド音声に、ミキシングしたとき
の加算値が所定の閾値を越えないように、所定の係数を
乗じて、ゲイン変更入力音声とゲイン変更バックグラウ
ンド音声を出力する波形ゲイン変更手段を備え、 ミキシング手段が、リズム基準位置と変更リズム知覚点
が一致するように、上記ゲイン変更入力音声と上記ゲイ
ン変更バックグラウンド音声をミキシングすることを特
徴とする請求項9記載の音声データ同期装置。 - 【請求項12】 音声データの発話内容に関連する画像
を記憶している画像記憶手段と、 バックグラウンド音声のリズム基準位置と音声データの
リズム知覚点が一致する時間を、ミキシング手段から出
力される同期タイミングとして入力し、テキストデータ
に基づき上記画像記憶手段を参照し、上記音声データの
発話内容に関連する画像を読み出し、上記同期タイミン
グにより上記ミキシング手段から出力されるミキシング
音声と同期させて、読み出した画像を表示する画像表示
手段とを備えたことを特徴とする請求項7記載の音声デ
ータ同期装置。 - 【請求項13】 ユーザからの音声データと、その内容
を示すテキストデータを入力し、音声認識手法により上
記音声データの音素毎の区間を示す音素ラベル列を抽出
する音素ラベリング手段と、 母音や子音の音素列に対応したリズム知覚点を記述した
リズム知覚点テーブルを記憶しているリズム知覚点テー
ブル記憶手段と、 上記音素ラベリング手段により抽出された音素ラベル列
により、上記リズム知覚点テーブル記憶手段に記憶され
たリズム知覚点テーブルを参照し、上記音声データの音
素列毎にリズム知覚点を抽出する同期点抽出手段と、 上記音声データと同じ内容の登録音声データを記憶して
いる登録音声データ記憶手段と、 上記テキストデータを入力し、上記登録音声データ記憶
手段に記憶されている登録音声データを読み出し、上記
登録音声データのリズム基準位置を決定するリズム基準
位置決定手段と、 上記同期点抽出手段が抽出した上記リズム知覚点から得
られる上記音声データのリズムパターンと、上記リズム
基準位置決定手段が決定したリズム基準位置から得られ
る上記登録音声データのリズムパターンを比較し、リズ
ムパターン照合結果を出力するリズムパターン照合手段
と、 上記リズムパターン照合結果に基づき、上記音声データ
のリズムパターンに、上記登録音声データのリズムパタ
ーンが一致するように、上記登録音声データ記憶手段に
記憶されている登録音声データと、上記登録音声データ
のリズム基準位置を時間方向に伸縮して、提示音声とし
て出力する波形伸縮手段とを備えたこと特徴とする音声
データ作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30306099A JP2001125599A (ja) | 1999-10-25 | 1999-10-25 | 音声データ同期装置及び音声データ作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30306099A JP2001125599A (ja) | 1999-10-25 | 1999-10-25 | 音声データ同期装置及び音声データ作成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001125599A true JP2001125599A (ja) | 2001-05-11 |
Family
ID=17916432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30306099A Pending JP2001125599A (ja) | 1999-10-25 | 1999-10-25 | 音声データ同期装置及び音声データ作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001125599A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006127443A (ja) * | 2004-09-30 | 2006-05-18 | Megachips Lsi Solutions Inc | 電子メール送信端末および電子メールシステム |
WO2006067981A1 (ja) * | 2004-12-24 | 2006-06-29 | Megachips Corporation | 電子メール送信端末および電子メールシステム |
JP2007033851A (ja) * | 2005-07-27 | 2007-02-08 | Sony Corp | ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法 |
JP2010539619A (ja) * | 2007-09-18 | 2010-12-16 | マイクロソフト コーポレーション | スライドショーイベントと音声の同期化 |
WO2013123747A1 (zh) * | 2012-02-24 | 2013-08-29 | 中兴通讯股份有限公司 | 一种基于音频实现设备解锁的方法和系统 |
WO2023211387A3 (zh) * | 2022-04-29 | 2023-12-28 | 脸萌有限公司 | 一种音乐生成方法、装置、系统以及存储介质 |
DE102023210929A1 (de) | 2023-11-03 | 2025-05-08 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren und Einrichtung zur gleichzeitigen akustischen Ausgabe eines Musiksignals und eines Sprach-Informationssignals |
-
1999
- 1999-10-25 JP JP30306099A patent/JP2001125599A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006127443A (ja) * | 2004-09-30 | 2006-05-18 | Megachips Lsi Solutions Inc | 電子メール送信端末および電子メールシステム |
WO2006067981A1 (ja) * | 2004-12-24 | 2006-06-29 | Megachips Corporation | 電子メール送信端末および電子メールシステム |
KR101236496B1 (ko) | 2004-12-24 | 2013-02-21 | 가부시끼가이샤 메가 칩스 | 전자 메일 송신 단말 및 전자 메일 시스템 |
JP2007033851A (ja) * | 2005-07-27 | 2007-02-08 | Sony Corp | ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法 |
JP2010539619A (ja) * | 2007-09-18 | 2010-12-16 | マイクロソフト コーポレーション | スライドショーイベントと音声の同期化 |
WO2013123747A1 (zh) * | 2012-02-24 | 2013-08-29 | 中兴通讯股份有限公司 | 一种基于音频实现设备解锁的方法和系统 |
WO2023211387A3 (zh) * | 2022-04-29 | 2023-12-28 | 脸萌有限公司 | 一种音乐生成方法、装置、系统以及存储介质 |
DE102023210929A1 (de) | 2023-11-03 | 2025-05-08 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren und Einrichtung zur gleichzeitigen akustischen Ausgabe eines Musiksignals und eines Sprach-Informationssignals |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11468870B2 (en) | Electronic musical instrument, electronic musical instrument control method, and storage medium | |
US8898062B2 (en) | Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program | |
US8219398B2 (en) | Computerized speech synthesizer for synthesizing speech from text | |
JP3823930B2 (ja) | 歌唱合成装置、歌唱合成プログラム | |
JPH10153998A (ja) | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 | |
WO2023276539A1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
JP2001125599A (ja) | 音声データ同期装置及び音声データ作成装置 | |
JP2006030609A (ja) | 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム | |
JP2001117598A (ja) | 音声変換装置及び方法 | |
JP2844817B2 (ja) | 発声練習用音声合成方式 | |
JP5360489B2 (ja) | 音素符号変換装置および音声合成装置 | |
JP3437064B2 (ja) | 音声合成装置 | |
JP2006139162A (ja) | 語学学習装置 | |
JP2001134283A (ja) | 音声合成装置および音声合成方法 | |
JP3785892B2 (ja) | 音声合成装置及び記録媒体 | |
US20240021183A1 (en) | Singing sound output system and method | |
JP4622356B2 (ja) | 音声合成用スクリプト生成装置及び音声合成用スクリプト生成プログラム | |
TWI269191B (en) | Method of synchronizing speech waveform playback and text display | |
JPH1063287A (ja) | 発音訓練装置 | |
JP3967571B2 (ja) | 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム | |
JPH11161297A (ja) | 音声合成方法及び装置 | |
JP3292218B2 (ja) | 音声メッセージ作成装置 | |
JPH1011083A (ja) | テキスト音声変換装置 | |
CN113178185A (zh) | 基于转音音符处理方法的歌唱合成方法及系统 | |
JPH11352997A (ja) | 音声合成装置およびその制御方法 |