JP4244706B2 - Audio playback device - Google Patents
Audio playback device Download PDFInfo
- Publication number
- JP4244706B2 JP4244706B2 JP2003152895A JP2003152895A JP4244706B2 JP 4244706 B2 JP4244706 B2 JP 4244706B2 JP 2003152895 A JP2003152895 A JP 2003152895A JP 2003152895 A JP2003152895 A JP 2003152895A JP 4244706 B2 JP4244706 B2 JP 4244706B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- user
- voice
- synthesis dictionary
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、音声再生装置に関し、特に音声合成により特定のフレーズ(例えば「こんにちは」など)について高品質に再生することができる音声再生装置に関する。
【0002】
【従来の技術】
従来、電子メールなどの文字列情報を音声に変換して出力する文字列音声変換装置が考え出されている。従来の文字列音声変換装置としては、文字列情報を文節単位に区切り、音声出力すると同時にその内容を表示するものがある(例えば、特許文献1参照)。
【0003】
【特許文献1】
特開2001−7937号公報
【0004】
【発明が解決しようとする課題】
しかしながら、従来の文字列音声変換装置では、文字列情報を文節単位に区切って音声出力するものの、その音声出力は発音単位(又は文字単位)の音声の集合であるので、発音単位のつなぎ目の再生(音声出力)に違和感がある。すなわち、従来の文字列音声変換装置では、文節全体について品質の良い音声で声色を変化させて出力すること、すなわち自然な音声(例えば「こんにちは」)として出力することができないという問題点がある。
【0005】
また、この問題点を解決するために、例えば文節(又はフレーズ)についての音声を予めサンプリングして音声データとして保持しておき、再生時には音声波形として出力する手法が考えられる。しかし、この手法では、音声出力の品質を上げるためにはサンプリング周波数を上げなければならず、大容量の音声データを保持する必要があり、携帯電話などにおいて大きなデメリットがある。
【0006】
本発明は、上記問題を解決するためになされたもので、文字列情報などからなる所望のフレーズ(例えば「こんにちは」など)を品質の良い音声として声色を変化させて再生(出力)することができる音声再生装置を提供するものである。
【0007】
【課題を解決するための手段】
上記課題を解決するため、この発明は以下の構成を有する。
即ち、本発明は、予め発音単位に対応するフォルマントフレームデータを保持するデータベースである合成辞書を有して、発音単位が羅列された情報が与えられることにより前記合成辞書を用いて音声合成する音声再生装置において、前記合成辞書に保持されている発音単位のフォルマントフレームデータを任意のユーザデータに置き換える置換手段と、前記発音単位が羅列された情報が与えられたときに、前記置換手段によって保持データが置き換えられた前記合成辞書を用いて音声を合成する音声合成手段とを有することを特徴とする。
【0008】
また、本発明は、前記ユーザデータがフレーズ単位で取得されたフォルマントフレームデータであることを特徴とする。
【0009】
また、本発明は、前記ユーザデータが前記合成辞書に保持されるフォルマントフレームデータを加工する音色パラメータに付加されていることを特徴とする。
【0010】
また、本発明は、前記置換手段が、前記ユーザデータが付加されている音色パラメータが与えられ、かつ、再生時に該音色パラメータが指定されたときに、前記合成辞書の保持データであるフォルマントフレームデータを、前記ユーザデータに置き換え、前記音声合成手段は、音声単位の羅列情報が与えられたときに、前記音色パラメータにより置き換えられた合成辞書を用いて音声合成することを特徴とする。
【0011】
また、本発明は、楽曲及び音声を同期させて所望データを再生するための情報構造を定義したデータ交換フォーマットに、前記ユーザデータを含ませ、該データ交換フォーマットを用いて音声を合成するものであることを特徴とする。
【0012】
また、本発明は、前記データ交換フォーマットとして構成された情報に含まれる楽曲部情報についてはそのまま再生し、該情報に含まれる音声情報については前記置換手段及び前記音声合成手段を用いて再生するものであることを特徴とする。
【0013】
また、本発明は、前記データ交換フォーマットが音声パラメータに前記ユーザデータを付加した情報を構成要素とすることを特徴とする。
【0014】
【発明の実施の形態】
以下、図面を参照し、本発明の実施形態について説明する。
図1は、本発明の実施形態に係る音声再生装置の構成を示すブロック図である。まず、本実施形態に係る音声再生装置の基盤構成について説明する。
【0015】
本音声再生装置1は、アプリケーション14、ミドルウェアAPI15、コンバータ16、ドライバ17、デフォルト音色パラメータ18、デフォルト合成辞書19及び音源20を備え、スクリプト11、ユーザ音色パラメータ12、ユーザフレーズ合成辞書(可変長)13が入力されることにより音声を再生する構成となっている。
【0016】
音声再生装置1は、FM音源のリソースを用いたCSM(複合正弦波モデル)音声合成方式によるフォルマント合成により音声を再生する手法を基本としている。そして、本実施形態では、ユーザフレーズ合成辞書13を定義し、音声再生装置1が音色パラメータに音素単位でユーザフレーズを割り付ける。そして、音声再生装置1は再生時において音色パラメータにユーザフレーズ合成辞書13のデータが割り付けられているときは、デフォルト合成辞書19の音素をユーザフレーズに置き換え、その置き換えたデータにより音声合成を行う。なお、上記「音素(Phoneme)」とは、発音の最小単位であり、日本語でいえば母音と子音の2種類がある。次に、音声再生装置1の詳細について説明する。
【0017】
スクリプト11は、「HV(Human Voice:前記手法により合成される音声)」を再生するためのデータフォーマットを定義しているものである。すなわち、スクリプト11は、韻律記号を含んだ合成文字列、発音させる音の設定、再生アプリケーションなどのメッセージからなる音声合成を行うためのフォーマットであり、ユーザによる入力を容易にするために例えばテキスト入力となっている。このスクリプト11におけるデータフォーマットの定義は、言語依存性があり、様々な言語による定義が可能であるが、本実施形態では日本語による定義のみを一例として取り上げる。
【0018】
ユーザフレーズ合成辞書13及びデフォルト合成辞書19は、実際の声を発音文字単位で(例えば「あ」,「い」など)サンプリング及び分析することで8組のフォルマント周波数、フォルマントレベル及びピッチをパラメータとして割り出し、予めフォルマントフレームデータとしてそれらパラメータを発音文字単位で保持しているデータベースである。ユーザフレーズ合成辞書13は、ミドルウェア外に構築されたデータベースであり、かかるデータベースをユーザが任意に作成することができ、保持内容についてはミドルウェアAPI15を介してデフォルト合成辞書19の保持内容と丸ごと入れ替えることができる。すなわち、デフォルト合成辞書19の内容を丸ごとユーザフレーズ合成辞書13の内容に置き換えることができる。一方、デフォルト合成辞書19は、ミドルウェア内に構築されたデータベースである。
【0019】
ユーザフレーズ合成辞書13及びデフォルト合成辞書19としては、それぞれ男声用と女声用との2種類を持つのが好ましい。また、ユーザフレーズ合成辞書13及びデフォルト合成辞書19が保持するフレームデータの間隔により、音声再生装置1の出力音声の品質が変化するが、例えばフレームデータの間隔を20msとする。
【0020】
ユーザ音色パラメータ12及びデフォルト音色パラメータ18は、音声再生装置1の出力音声における声質を制御するパラメータ群である。そして、ユーザ音色パラメータ12及びデフォルト音色パラメータ18は、例えば8組のフォルマント周波数及びフォルマントレベルの変更(ユーザフレーズ合成辞書13及びデフォルト合成辞書19に登録されているフォルマント周波数、フォルマントレベルからの変化量の指定)、並びに、フォルマント合成のための基本波形の指定をすることができ、様々な音色を作り出すことができる。
【0021】
デフォルト音色パラメータ18は、予めミドルウェア内にデフォルトで保持されている音色パラメータセットである。ユーザ音色パラメータ12は、ユーザが任意に作成することができるパラメータであって、ミドルウェアの外側に保持されているものであり、ミドルウェアAPI15を介してデフォルト音色パラメータ18を拡張するものである。
【0022】
アプリケーション14は、スクリプト11を再生するためのソフトウェアである。
ミドルウェアAPI(Application Program Interface)15は、ソフトウェアからなるアプリケーション14と、ミドルウェアからなるコンバータ16、ドライバ17、デフォルト音色パラメータ18及びデフォルト合成辞書19とのインターフェースとなるものである。
【0023】
コンバータ16は、スクリプト11を解釈し、ドライバ17を用いて最終的にフレームデータが連続して構成されるフォルマントフレーム列のデータへ変換するものである。
ドライバ17は、スクリプト11に含まれる発音文字とデフォルト合成辞書19とに基づいてフォルマントフレーム列を生成し、音色パラメータを解釈しフォルマントフレーム列を加工するものである。
音源20はコンバータ16から出力されたデータに対応した音信号を出力するものであり、その音信号がスピーカに出力されて音となる。
【0024】
次に、本実施形態に係る音声再生装置1の特徴について詳細に説明する。
まず、ユーザ音色パラメータ12では、任意の発音単位に対して、ユーザフレーズ合成辞書13が保持するフレーズIDを割り付けるというパラメータがある。図2は発音単位毎にフレーズIDを割り付けたものの一例を示す図である。すなわち、図2はモーラとフレーズIDとの割り付けを示すものである。
なお、モーラとは、拍を意味し、日本語でいえば仮名文字単位である。
【0025】
発音単位毎にフレーズIDを割り付けることにより、ユーザ音色パラメータ12で指定された発音単位がデフォルト合成辞書19ではなく、ユーザフレーズ合成辞書13を用いることを規定する。また、ユーザ音色パラメータ12は、1つの音色パラメータ中に指定できる発音単位数が任意であるとするのが好ましい。上記のように、ユーザ音色パラメータ12において、発音単位毎にフレーズIDを割り付ける構成は本実施形態の一例であり、発音単位に置き換えることができるものであればその手法は問わない。
【0026】
次いで、ユーザフレーズ合成辞書13の詳細について説明する。図3はユーザフレーズ合成辞書13の内容例を示す図である。ユーザフレーズ合成辞書13では、フレーズID毎に、8組のフォルマント周波数、フォルマントレベル及びピッチからなるフレームデータを格納している。図3における「フレーズ」とは、例えば「おはよう」など一つのまとまりを持った句である。そして、「フレーズ」は、単語、音節、文章など、特にまとまりは規定せず、任意の一塊を意味する。
【0027】
ユーザフレーズ合成辞書13を製作するツールは、通常のサウンドファイル(*.wav,*aifなど)から、分析して8組のフォルマント周波数、フォルマントレベル及びピッチからなるフレームデータを生成する分析エンジンを搭載する必要がある。
【0028】
スクリプト11には、声質変更のイベントが用意されているが、このイベントにより、ユーザ音色パラメータ12を指定することができる。
【0029】
例えば、スクリプト11の記述としては、「TJK12みなさんX10あか」とする。
この例では、「K」がデフォルト音色パラメータ18を指定するイベントであり、「X」がユーザ音色パラメータ12を指定するイベントである。また、「X10」が図2に示すユーザ音色パラメータを指定するものとする。
【0030】
そして、この場合、再生音声は「みなさん こんにちは 鈴木です」となる。
「みなさん」はデフォルト音色パラメータ18及びデフォルト合成辞書19を用いた音声となり、また、「こんにちは」と「鈴木です」はユーザ音色パラメータ12及びユーザフレーズ合成辞書13を用いた音声となる。すなわち、「みなさん」は「み」と「な」と「さ」と「ん」のそれぞれのフォルマントフレームデータをデフォルト合成辞書19から読み出して合成した音声となり、「こんにちは」と「鈴木です」はそれぞれのフレーズ単位のフォルマントフレームデータをユーザフレーズ合成辞書13から読み出して合成した音声となる。
【0031】
上記例では、「あ」、「い」、「か」を使ったが、テキストで表記できる文字及び記号であれば何でもよい。また、上記例では、「X10」以降、「あ」は「こんにちは」、「か」は「鈴木です」と発音されるので、次に本来の「あ」を発音させたい時はデフォルト合成辞書に戻す記号(例えばX○○)を入れればよい。
【0032】
次に、本実施形態に係る音声再生装置1で用いられる音楽再生シーケンスデータ(SMAF:Synthetic music Mobile Application Format)のデータ交換フォーマットについて、図4を参照して説明する。図4は、本実施形態に係るSMAFファイルのフォーマットを示す説明図である。SMAFは、音源を用いて音楽を表現するためのデータを配布したり相互に利用したりするためのデータ交換フォーマットの一つであり、携帯端末などにおいてマルチメディアコンテンツを表現するためのデータフォーマット仕様である。
【0033】
図4に示すデータ交換フォーマットのSMAFファイル30は、チャンク(Chunk)と呼ばれるデータの塊が基本構造となっている。チャンクは、固定長(8バイト)のヘッダ部と任意長のボディ部とからなる。ヘッダ部は、4バイトのチャンクIDと4バイトのチャンクサイズに分けられる。チャンクIDはチャンクの識別子に用い、チャンクサイズはボディ部の長さを示している。SMAFファイル30は、それ自体及びそれに含まれる各種データも全てチャンク構造となっている。
【0034】
図4に示すようにSMAFファイル30は、コンテンツ・インフォ・チャンク(Contents Info Chunk)31と、オプショナル・データ・チャンク(Optional Data Chunk)32と、トラック・チャンク(Score Track Chunk)33と、HVチャンク(HV Chunk)36とからなる。
【0035】
コンテンツ・インフォ・チャンク31には、SMAFファイル30についての各種管理用情報が格納されており、例えばコンテンツのクラス、種類、著作権情報、ジャンル名、曲名、アーティスト名、作詞/作曲者名などが格納されている。オプショナル・データ・チャンク32には、例えば著作権情報、ジャンル名、曲名、アーティスト名、作詞/作曲者名などの情報が格納されている。なお、SMAFファイル30においてオプショナル・データ・チャンク32は設けなくてもよい。
【0036】
トラック・チャンク33は、音源へ送り込む楽曲のシーケンス・トラックを格納するチャンクであり、セットアップ・データ・チャンク(Setup Data Chunk(オプション))34及びシーケンス・データ・チャンク(Sequence Data Chunk)35を含んでいる。
【0037】
セットアップ・データ・チャンク34は、音源部分の音色データなどを格納するチャンクであり、イクスクルーシブ・メッセージの並びを格納する。イクスクルーシブ・メッセージは、例えば音色パラメータ登録メッセージである。
【0038】
シーケンス・データ・チャンク35は、実演奏データを格納するものであり、スクリプト11の再生タイミングを決めるHV(Human Voice:音声)ノートオンとその他のシーケンス・イベントとを混在させて格納している。ここで、HVとそれ以外の楽曲のイベントとは、HVのチャネル指定により区別される。
【0039】
HVチャンク36は、HVセットアップ・データ・チャンク(HV Setup Data Chunk(オプション))37と、HVユーザ・フレーズ・辞書チャンク(HV User Phrase Dictionary Chunk(オプション))38と、HV-Sチャンク39とを含んでいる。
【0040】
HVセットアップ・データ・チャンク37には、HVユーザ音色パラメータや、HVのチャネルを指定するためのメッセージが格納されている。また、HV-Sチャンク39には、HV-スクリプトデータが格納されている。
【0041】
HVユーザ・フレーズ・辞書チャンク38には、ユーザフレーズ合成辞書13の内容が格納されている。また、HVセットアップ・データ・チャンク37に格納されるHVユーザ音色パラメータには、図2に示すモーラとフレーズIDを割り付けるパラメータが必要である。
【0042】
これらの図4に示すSMAFファイル30を上記音声再生装置1に適用することにより、楽曲と同期して音声(HV)を再生することができるとともに、ユーザフレーズ合成辞書13の内容についても再生することが可能となる。
【0043】
次に、図1におけるユーザフレーズ合成辞書13及び図4に示すSMAFファイル30を作成するためのツールであるHVオーサリングツールについて、図5を参照して説明する。図5はHVオーサリングツールの一例を示す機能イメージ図である。
【0044】
HVオーサリングツール42は、SMAFファイル30を作成する場合、予めMIDIシーケンサによって作成されたSMF(Standard MIDI File)ファイル41(HVの発音タイミングを決めるノートオンを含む)を読み込み、HVスクリプトUI44及びHVボイスエディタ45から得られた情報を元にSMAFファイル43(SMAFファイル30に相当)への変換処理を行う。
【0045】
HVボイスエディタ45は、HVユーザ音色ファイル48に含まれるHVユーザ音色パラメータ(ユーザ音色パラメータ12に相当)を編集することができるエディタである。このHVボイスエディタ45は、各種のHV音色パラメータの編集に加え、任意のモーラに対してユーザフレーズを割り付けることができる。
【0046】
HVボイスエディタ45のインターフェースとしては、モーラを選択するメニューと、そのモーラに対して任意のサウンドファイル50を割り付ける機能を持つ。HVボイスエディタ45のインターフェースによって割り付けられたサウンドファイル50は、波形分析器46により分析され、8組のフォルマント周波数、フォルマントレベル及びピッチのフレームデータを生成する。これらのフレームデータは、個別ファイル(HVユーザ音色ファイル48、HVユーザ合成辞書ファイル49)として入出力することができる。
【0047】
HVスクリプトUI44は、HVスクリプトを直接編集することができる。このHVスクリプトも、個別ファイル(HVスクリプトファイル47)として入出力することができる。また、本実施形態に係るHVオーサリングツール40は、上記HVオーサリングツール42と、HVスクリプトUI44と、HVボイスエディタ45と、波形分析器46とからなるものとしてもよい。
【0048】
次に、上記音声再生装置1を携帯通信端末に適用した例について、図6を参照して説明する。図6は、音声再生装置1を備える携帯通信端末60の構成例を示すブロック図である。
【0049】
携帯通信端末60は、例えば、携帯電話などからなり、CPU61、ROM62、RAM63、表示部64、バイブレータ65、入力部66、通信部67、アンテナ68、音声処理部69、音源70、スピーカ71及びバス72を備えている。CPU61は、携帯通信端末60全体の制御を行う。ROM62は、各種通信制御プログラム及び楽曲再生のためのプログラムなどの制御プログラム、並びに、各種定数データなどを格納している。
【0050】
RAM63は、ワークエリアとして使用されるとともに、楽曲ファイル及び各種アプリケーションプログラムなどを記憶する。表示部64は、液晶表示装置(LCD)などからなる。バイブレータ65は着信などがあったときに振動する。入力部66は、複数の釦などからなる。通信部67は、変復調部などからなり、アンテナ68に接続されている。
【0051】
音声処理部69は、送話マイク及び受話スピーカに接続されており、通話のために音声信号について符号化及び復号化を行う機能を有する。音源70は、RAM63などに記憶された楽曲ファイルに基づいて楽曲を再生するとともに、音声を再生して、スピーカ71に出力する。バス72は、CPU61、ROM62、RAM63、表示部64、バイブレータ65、入力部66、通信部67、音声処理部69及び音源70の各構成要素間でデータ転送を行うための伝送路である。
【0052】
さらに、通信部67は、HV−スクリプトファイル又は図4に示すSMAFファイル30をコンテンツサーバなどからダウンロードしてRAM63へ記憶させることができる。そして、ROM62には図1に示す音声再生装置1のアプリケーション14及びミドルウェアのプログラムも記憶されている。そのアプリケーション14及びミドルウェアのプログラムはCPU61によって読み出され起動される。また、CPU61は、RAM63で記憶されているHV−スクリプトを解釈してフォルマントフレームデータを生成し、そのフォルマントフレームデータを音源70へ送る。
【0053】
(動作)
次に、上記音声再生装置1の動作について説明する。先ず、ユーザフレーズ合成辞書13の制作方法について説明する。図7は、ユーザフレーズ合成辞書13の制作方法を示すフローチャートである。
【0054】
先ず、図5に示すHVオーサリングツール42を用いて、ユーザフレーズ合成辞書13を使用するHV音色を選択し、HVボイスエディタ45を起動させる(ステップS1)。
次いで、HVボイスエディタ45を用いて、当てはめたいモーラを選択し、サウンドファイルを貼り付ける。すると、HVボイスエディタ45は、ユーザフレーズ辞書(HVユーザ合成辞書ファイル49に相当)を出力する(ステップS2)。
【0055】
次いで、HVボイスエディタ45を用いて、HV音色パラメータを編集する。すると、HVボイスエディタ45は、ユーザ音色パラメータ(HVユーザ音色ファイル48に相当)を出力する(ステップS3)。
【0056】
次いで、HVスクリプトUI44を用いて、HV−スクリプトに、該当するHV音色を指定する声質変更イベントを記述し、再生したいモーラを記述する。すると、HVスクリプトUI44は、HV−スクリプト(HVスクリプトファイル47に相当)を出力する(ステップS4)。
【0057】
次に、音声再生装置1におけるユーザフレーズ辞書の再生動作について、図8を参照して説明する。図8は、音声再生装置1におけるユーザフレーズ合成辞書の再生動作を示すフローチャートである。
先ず、ユーザ音色パラメータ12及びユーザフレーズ合成辞書13を、音声再生装置1のミドルウェアに登録する。そして、スクリプト11を音声再生装置1のミドルウェアに登録し、再生を開始する(ステップS11,S12)。
【0058】
その再生においては、スクリプト11中に、ユーザ音色パラメータ12を指定する声質変更イベント(Xイベント)があるか監視する(ステップS13)。
ステップS13で声質変更イベントを見つけた場合、そのユーザ音色パラメータ12からモーラに割り付けられているフレーズIDを探し、フレーズIDに対応するデータをユーザフレーズ合成辞書13から読み取り、HVドライバが管理するデフォルト合成辞書19のデータのうち、該当するモーラの辞書データをユーザフレーズ合成辞書13のデータに置き換える(ステップS14)。
ステップS14の置き換え処理は、再生前に事前に行ってもよい。
【0059】
ステップS14が終了した場合、及び、ステップS13で声質変更イベントが見つからなかった場合は、コンバータ16がスクリプト11(ステップS14が行われた場合は該ステップS14の置き換え処理後のスクリプト)のモーラを解釈し、HVドライバを用いて最終的にフォルマントフレーム列のデータへコンバートする(ステップS15)。
次いで、ステップS15でコンバートされたデータを音源20により再生する(ステップS16)。
【0060】
次いで、スクリプト11が終了か否か判断し(ステップS17)、終了していない場合は上記ステップS13に戻り、終了した場合はユーザフレーズ辞書の再生動作を終了する。
【0061】
次に、図4に示すSMAFファイル30の制作方法について、図9を参照して説明する。図9は、SMAFファイル30の制作方法を示すフローチャートである。
先ず、図7に示す手順によりユーザフレーズ合成辞書13、ユーザ音色パラメータ12及びスクリプト11を制作する(ステップS21)。
【0062】
次いで、楽曲データ及びHVスクリプトの発音を制御するイベントを含んだSMFファイル41を制作する(ステップS22)。
次いで、図5に示すHVオーサリングツール42へSMFファイル41を入力し、HVオーサリングツール42によりSMFファイル41をSMAFファイル43(SMAFファイル30に相当)に変換する(ステップS23)。
【0063】
そして、ステップS21で作られたユーザ音色パラメータ12が図4に示すSMAFファイル30のHVチャンク36のHVセットアップ・データ・チャンク37へ入れられ、ステップS21で作られたユーザフレーズ合成辞書13が同SMAFファイル30のHVチャンク36のHVユーザ・フレーズ・辞書チャンク38へ入れられ、SMAFファイル30として出力される(ステップS24)。
【0064】
次に、SMAFファイル30の再生方法について図10を参照して説明する。図10は、SMAFファイル30の再生方法を示すフローチャートである。
先ず、SMAFファイル30を図1に示す音声再生装置1のミドルウェアに登録する(ステップS31)。
ここで、音声再生装置1は、通常、SMAFファイル30内の楽曲データの部分をミドルウェアの楽曲再生部に登録し、再生準備を行う。
【0065】
次いで、音声再生装置1は、SMAFファイル30にHVチャンク36があるか否か判断する(ステップS32)。
ステップS32でHVチャンク36があった場合、音声再生装置1はHVチャンク36の内容を解釈する(ステップS33)。
次いで、音声再生装置1は、ユーザ音色パラメータの登録、ユーザフレーズ合成辞書の登録及びスクリプトの登録をする(ステップS34)。
【0066】
ステップS32でHVチャンク36がなかった場合、もしくはステップ34における登録が終了した場合、音声再生装置1は楽曲部のチャンクを解釈する(ステップS35)。
次いで、音声再生装置1は、「スタート」信号に対応してシーケンス・データ・チャンク35内のシーケンスデータ(実演奏データ)の解釈をスタートさせることにより、楽曲再生を行う(ステップS36)。
【0067】
この再生において、音声再生装置1はシーケンスデータにおけるイベントを順次解釈する過程において、そのイベントがHVノートオンであるか否か判断する(ステップS37)。
ステップS37において、HVノートオンであった場合、音声再生装置1はそのHVノートオンで指定されているHVチャンクのHVスクリプトデータの再生を開始する(ステップS38)。
【0068】
このステップS38の後、音声再生装置1は図8に示すユーザフレーズ辞書の再生動作を行う。
すなわち、音声再生装置1はステップS38の再生において、ユーザ音色パラメータ12を指定する声質変更イベント(Xイベント)があるか監視する(ステップS39)。
【0069】
ステップS39で声質変更イベントを見つけた場合、そのユーザ音色パラメータ12からモーラに割り付けられているフレーズIDを探し、フレーズIDに対応するデータをユーザフレーズ合成辞書13から読み取り、HVドライバが管理するデフォルト合成辞書19のデータのうち、該当するモーラの辞書データをユーザフレーズ辞書データに置き換える(ステップS40)。
ステップS40の置き換え処理は、再生前に事前に行ってもよい。
【0070】
ステップS40が終了した場合、及び、ステップS39で声質変更イベントが見つからなかった場合は、コンバータ16がスクリプトのモーラを解釈し、HVドライバを用いて最終的にフォルマントフレーム列のデータへコンバートする(ステップS41)。
【0071】
次いで、音声再生装置1は、ステップS41でコンバートされたデータを音源20のHV部にて再生する(ステップS42)。
次いで、音声再生装置1は、楽曲が終了したか否か判断し(ステップS43)、楽曲が終了した場合はSMAFファイル30の再生を終了させ、楽曲が終了していない場合はステップS37に戻る。
【0072】
ステップS37において、イベントがHVノートオンでなかった場合、音声再生装置1はそのイベントを楽曲データとして、音源再生イベントデータにコンバートする(ステップS44)。
次いで、音声再生装置1は、ステップS44でコンバートされたデータを音源20の楽曲部にて再生する(ステップS45)。
【0073】
これらにより、本実施形態によれば、FM音源のリソースを用いてフォルマント合成により再生する方法において、以下の3つの利点がある。
第1に、本実施形態によれば、ユーザが好みのフレーズを割り付けることができる。これにより、固定辞書に依存することなく、好みの声色により近づけた再生をすることができる。
第2に、本実施形態によれば、デフォルト合成辞書19の一部をユーザフレーズ合成辞書13で置き換えるため、音声再生装置1においてデータ容量が過大に増加することを回避することができる。また、デフォルト合成辞書19の一部を任意のフレーズに置き換えることもできるため、フレーズ単位の発音をすることができ、従来の発音単位の合成音声で生じる各発音のつなぎ目での違和感をなくすことができる。
第3に、本実施形態によれば、HVスクリプトにおいて任意のフレーズ指定をすることができるので、モーラ単位の合成とフレーズ単位の発音を併用することができる。
【0074】
さらに、本実施形態によれば、フレーズを予めサンプリングして構成した波形データを再生する方法に比べて、フォルマントレベルで声色変化させることができる。そして、本実施形態によれば、データサイズ及び品質はフレームレートによるが、サンプリング波形データに比べてはるかに少ないデータ容量で高品質な再生をすることができる。したがって、例えば、本実施形態の音声再生装置1を携帯電話などの携帯通信端末に組み込むことが容易に実行でき、電子メールの内容などを高品質な音声で再生することもできる。
【0075】
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【0076】
【発明の効果】
以上説明したように、本発明によれば、合成辞書に発音単位で保持されているデータを任意のユーザデータに置き換えることができるので、所望のフレーズを品質のよい音声で再生することができる。
【図面の簡単な説明】
【図1】 本発明の実施形態に係る音声再生装置を示すブロック図である。
【図2】 発音単位毎にフレーズIDを割り付けた例を示す図である。
【図3】 ユーザフレーズ合成辞書の内容例を示す図である。
【図4】 SMAFファイルのフォーマットを示す図である。
【図5】 HVオーサリングツールの一例を示す機能イメージ図である。
【図6】 本実施形態の音声再生装置を備える携帯通信端末の一例を示すブロック図である。
【図7】 ユーザフレーズ合成辞書の制作方法のフローチャートである。
【図8】 ユーザフレーズ合成辞書の再生動作のフローチャートである。
【図9】 SMAFファイルの制作方法を示すフローチャートである。
【図10】 SMAFファイル30の再生方法のフローチャートである。
【符号の説明】
1…音声再生装置、11…スクリプト、12…ユーザ音色パラメータ、13…ユーザフレーズ合成辞書(可変長)、14…アプリケーション、15…ミドルウェアAPI、16…コンバータ、17…ドライバ、18…デフォルト音色パラメータ、19…デフォルト合成辞書、20…音源、30…SMAFファイル、31…コンテンツ・インフォ・チャンク、32…オプショナル・データ・チャンク、33…トラック・チャンク、34…セットアップ・データ・チャンク、35…シーケンス・データ・チャンク、36…HVチャンク、37…HVセットアップ・データ・チャンク、38…HVユーザ・フレーズ・辞書チャンク、39…HV-Sチャンク、41…SMFファイル、42…HVオーサリングツール、43…SMAFファイル、44…HVスクリプトUI、45…HVボイスエディタ、46…波形分析器、47…HVスクリプトファイル、48…HVユーザ音色ファイル、49…HVユーザ合成辞書ファイル、50…サウンドファイル[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a sound reproducing device, a sound reproducing apparatus capable of reproducing the high quality for a particular phrase (such as "Hello") in particular by speech synthesis.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, a character string speech conversion device has been devised that converts character string information such as electronic mail into speech and outputs it. As a conventional character string speech conversion device, there is a device that divides character string information into phrase units and outputs the sound at the same time as displaying the content (for example, see Patent Document 1).
[0003]
[Patent Document 1]
JP 2001-7937 A
[0004]
[Problems to be solved by the invention]
However, in the conventional character string speech conversion device, the character string information is divided into phrases and output as speech. However, since the speech output is a set of sounds in pronunciation units (or character units), reproduction of the joint of the pronunciation units is performed. (Sound output) is strange. That is, in the conventional character string speech conversion system may be output by changing the tone of voice with good sound quality for the entire phrase, i.e. there is a problem that can not be output as a natural voice (e.g. "Hello").
[0005]
In order to solve this problem, for example, a method is conceivable in which a voice for a phrase (or phrase) is sampled in advance and stored as voice data, and is output as a voice waveform during reproduction. However, with this method, in order to improve the quality of audio output, the sampling frequency must be increased, and it is necessary to store a large volume of audio data.
[0006]
The present invention has been made to solve the above problems, be reproduced desired phrase consisting of a character string information (such as "Hello") to change the tone of voice as good speech quality (output) An audio reproducing apparatus that can be used is provided.
[0007]
[Means for Solving the Problems]
In order to solve the above problems, the present invention has the following configuration.
That is, Book The present invention provides a speech reproduction apparatus that has a synthesis dictionary that is a database that holds formant frame data corresponding to pronunciation units in advance, and that synthesizes speech using the synthesis dictionary by providing information in which pronunciation units are listed. The replacement unit replaces the formant frame data of the pronunciation unit held in the synthesis dictionary with arbitrary user data, and the stored data is replaced by the replacement unit when the information listing the pronunciation units is given. And speech synthesis means for synthesizing speech using the synthesis dictionary.
[0008]
Also, Book invention Before The user data is formant frame data acquired in units of phrases.
[0009]
Also, Book invention Before The user data is added to a timbre parameter for processing formant frame data held in the synthesis dictionary.
[0010]
Also, Book invention Before When the timbre parameter to which the user data is added is given and the timbre parameter is designated at the time of reproduction, the replacement means adds formant frame data, which is held in the synthesis dictionary, to the user data. The replacement, the speech synthesizing means, synthesizes speech using the synthesis dictionary replaced by the timbre parameter when the enumeration information in units of speech is given.
[0011]
Also, Book invention Is easy The user exchange is included in a data exchange format that defines an information structure for reproducing desired data by synchronizing music and voice, and voice is synthesized using the data exchange format .
[0012]
Also, Book invention Before The music piece information included in the information configured as the data exchange format is reproduced as it is, and the audio information included in the information is reproduced using the replacement unit and the voice synthesizing unit. To do.
[0013]
Also, Book invention Before The data exchange format includes information in which the user data is added to a voice parameter as a constituent element.
[0014]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of an audio reproducing apparatus according to an embodiment of the present invention. First, the basic configuration of the audio reproduction device according to the present embodiment will be described.
[0015]
The
[0016]
The
[0017]
The
[0018]
The user
[0019]
The user
[0020]
The user
[0021]
The
[0022]
The
A middleware API (Application Program Interface) 15 is an interface between an
[0023]
The
The
The
[0024]
Next, features of the
First, the user
The mora means a beat, and in Japanese, it is a kana character unit.
[0025]
By assigning a phrase ID to each pronunciation unit, it is specified that the pronunciation unit specified by the user
[0026]
Next, details of the user
[0027]
The tool for creating the user
[0028]
The
[0029]
For example, the description of the
In this example, “K” is an event for specifying the
[0030]
And, in this case, the reproduced sound is "Hello everyone is Suzuki".
"Everyone" becomes a voice using the default
[0031]
In the above example, “a”, “i”, and “ka” are used, but any character and symbol that can be expressed in text are acceptable. In addition, in the above example, "X10" and later, "A" is "Hello", because "or" is pronounced "Suzuki", the next time you want to pronounce the original of the "A" is the default synthesis dictionary What is necessary is just to put the symbol to return (for example, XOO).
[0032]
Next, a data exchange format of music reproduction sequence data (SMAF: Synthetic music Mobile Application Format) used in the
[0033]
The
[0034]
As shown in FIG. 4, the
[0035]
The
[0036]
The
[0037]
The
[0038]
The
[0039]
The
[0040]
The HV
[0041]
The contents of the user
[0042]
By applying the
[0043]
Next, an HV authoring tool, which is a tool for creating the user
[0044]
When creating the
[0045]
The
[0046]
The
[0047]
The
[0048]
Next, an example in which the
[0049]
The
[0050]
The
[0051]
The voice processing unit 69 is connected to a transmission microphone and a reception speaker, and has a function of encoding and decoding a voice signal for a call. The
[0052]
Further, the
[0053]
(Operation)
Next, the operation of the
[0054]
First, by using the
Next, using the
[0055]
Next, the HV voice parameter is edited using the
[0056]
Next, using the
[0057]
Next, the reproduction | regeneration operation | movement of the user phrase dictionary in the audio |
First, the user
[0058]
In the reproduction, it is monitored whether there is a voice quality change event (X event) for designating the user
When a voice quality change event is found in step S13, the phrase ID assigned to the mora is searched from the
The replacement process in step S14 may be performed in advance before reproduction.
[0059]
When step S14 ends and when no voice quality change event is found in step S13,
Next, the data converted in step S15 is reproduced by the sound source 20 (step S16).
[0060]
Next, it is determined whether or not the
[0061]
Next, a method for producing the
First, the user
[0062]
Next, the
Next, the
[0063]
Then, the user
[0064]
Next, a method for reproducing the
First, the
Here, the
[0065]
Next, the audio reproducing
If there is an
Next, the
[0066]
When there is no
Next, the audio reproducing
[0067]
In this reproduction, in the process of sequentially interpreting events in the sequence data, the
If it is determined in step S37 that the HV note is on, the
[0068]
After this step S38, the audio reproducing
That is, the audio reproducing
[0069]
If a voice quality change event is found in step S39, the phrase ID assigned to the mora is searched from the
The replacement process in step S40 may be performed in advance before reproduction.
[0070]
When step S40 is completed, and when no voice quality change event is found in step S39, the
[0071]
Next, the audio reproducing
Next, the audio reproducing
[0072]
In step S37, when the event is not HV note-on, the audio reproducing
Next, the audio reproducing
[0073]
Thus, according to the present embodiment, the method of reproducing by formant synthesis using the resources of the FM sound source has the following three advantages.
First, according to this embodiment, a user can assign a favorite phrase. Thereby, it is possible to perform reproduction closer to the favorite voice color without depending on the fixed dictionary.
Secondly, according to the present embodiment, a part of the
Thirdly, according to the present embodiment, since an arbitrary phrase can be designated in the HV script, synthesis in mora units and pronunciation in phrase units can be used in combination.
[0074]
Furthermore, according to the present embodiment, it is possible to change the voice color at the formant level as compared with the method of reproducing the waveform data configured by sampling the phrase in advance. According to the present embodiment, although the data size and quality depend on the frame rate, high-quality reproduction can be performed with a much smaller data capacity than the sampling waveform data. Therefore, for example, the audio reproducing
[0075]
As mentioned above, although embodiment of this invention was explained in full detail with reference to drawings, the specific structure is not restricted to this embodiment, The design change etc. of the range which does not deviate from the summary of this invention are included.
[0076]
【The invention's effect】
As described above, according to the present invention, data held in the pronunciation unit in the synthesis dictionary can be replaced with arbitrary user data, so that a desired phrase can be reproduced with high quality sound.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an audio reproduction device according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating an example in which a phrase ID is assigned to each sound generation unit.
FIG. 3 is a diagram showing an example of the contents of a user phrase synthesis dictionary.
FIG. 4 is a diagram showing a format of a SMAF file.
FIG. 5 is a functional image diagram showing an example of an HV authoring tool.
FIG. 6 is a block diagram illustrating an example of a mobile communication terminal including the audio reproduction device according to the present embodiment.
FIG. 7 is a flowchart of a method for creating a user phrase synthesis dictionary.
FIG. 8 is a flowchart of a reproduction operation of a user phrase synthesis dictionary.
FIG. 9 is a flowchart illustrating a method for producing a SMAF file.
10 is a flowchart of a method for reproducing a
[Explanation of symbols]
DESCRIPTION OF
Claims (6)
前記合成辞書に保持されている発音単位のフォルマントフレームデータをフレーズ単位で取得されたフォルマントフレームデータであるユーザデータに置き換える置換手段と、
前記発音単位が羅列された情報が与えられたときに、前記置換手段によって保持データが置き換えられた前記合成辞書を用いて音声を合成する音声合成手段とを有することを特徴とする音声再生装置。In a voice reproduction apparatus that has a synthesis dictionary that is a database that holds formant frame data corresponding to pronunciation units in advance, and that synthesizes speech using the synthesis dictionary by being given information in which pronunciation units are listed,
Substitution means for replacing formant frame data in pronunciation units held in the synthesis dictionary with user data that is formant frame data acquired in phrase units ;
And a voice synthesizing unit that synthesizes a voice using the synthesis dictionary in which retained data is replaced by the replacing unit when the information in which the pronunciation units are arranged is given.
前記音声合成手段は、音声単位の羅列情報が与えられたときに、前記音色パラメータにより置き換えられた合成辞書を用いて音声合成することを特徴とする請求項1または2のいずれか一項に記載の音声再生装置。When the timbre parameter to which the user data is added is given and the timbre parameter is designated at the time of reproduction, the replacement means converts formant frame data, which is data held in the synthesis dictionary, to the user data. Replace,
Said speech synthesis means, when the enumeration information of the speech units given according to any one of claims 1 or 2, characterized in that the speech synthesized using synthesis dictionary is replaced by the tone color parameter Audio playback device.
楽曲及び音声を同期させて所望データを再生するための情報構造を定義したデータ交換フォーマットに、前記ユーザデータを含ませ、該データ交換フォーマットを用いて音声を合成するものであることを特徴とする請求項1から3のいずれか一項に記載の音声再生装置。The audio playback device
The user exchange is included in a data exchange format that defines an information structure for reproducing desired data by synchronizing music and voice, and voice is synthesized using the data exchange format. The audio reproduction device according to any one of claims 1 to 3 .
前記データ交換フォーマットとして構成された情報に含まれる楽曲部情報についてはそのまま再生し、該情報に含まれる音声情報については前記置換手段及び前記音声合成手段を用いて再生するものであることを特徴とする請求項4に記載の音声再生装置。The audio playback device
The music piece information included in the information configured as the data exchange format is reproduced as it is, and the audio information included in the information is reproduced using the replacing unit and the voice synthesizing unit. The sound reproducing device according to claim 4 .
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003152895A JP4244706B2 (en) | 2003-05-29 | 2003-05-29 | Audio playback device |
TW093115132A TWI265718B (en) | 2003-05-29 | 2004-05-27 | Speech and music reproduction apparatus |
CNB2004100474146A CN1310209C (en) | 2003-05-29 | 2004-05-28 | Speech and music regeneration device |
KR1020040038415A KR100612780B1 (en) | 2003-05-29 | 2004-05-28 | Speech and music reproduction apparatus |
HK05101981A HK1069433A1 (en) | 2003-05-29 | 2005-03-08 | Speech and music reproduction apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003152895A JP4244706B2 (en) | 2003-05-29 | 2003-05-29 | Audio playback device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004354748A JP2004354748A (en) | 2004-12-16 |
JP4244706B2 true JP4244706B2 (en) | 2009-03-25 |
Family
ID=34047998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003152895A Expired - Fee Related JP4244706B2 (en) | 2003-05-29 | 2003-05-29 | Audio playback device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4244706B2 (en) |
-
2003
- 2003-05-29 JP JP2003152895A patent/JP4244706B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004354748A (en) | 2004-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7230177B2 (en) | Interchange format of voice data in music file | |
KR100591655B1 (en) | Speech Synthesis Method, Speech Synthesis Device and Computer-readable Recording Media for Speech Synthesis | |
US5890115A (en) | Speech synthesizer utilizing wavetable synthesis | |
JP2000194360A (en) | Method and device for electronically generating sound | |
KR20010030034A (en) | Musical sound generation control apparatus, portable terminal using the same and system | |
JP2001215979A (en) | Karaoke device | |
CN101000761B (en) | Tone synthesis apparatus and method | |
KR100634142B1 (en) | Potable terminal device | |
CN100461262C (en) | Terminal device, guide voice reproducing method and storage medium | |
JP4244706B2 (en) | Audio playback device | |
JP2002196779A (en) | Method and apparatus for changing musical sound of sound signal | |
JP2005208394A (en) | Singing voice generating unit, its program and portable communication equipment having singing voice generating function | |
KR100612780B1 (en) | Speech and music reproduction apparatus | |
JPH11161298A (en) | Method and device for voice synthesizer | |
JP2003029774A (en) | Voice waveform dictionary distribution system, voice waveform dictionary preparing device, and voice synthesizing terminal equipment | |
KR100731232B1 (en) | Musical data editing and reproduction apparatus, and portable information terminal therefor | |
JPH0895588A (en) | Speech synthesizing device | |
JP2000231396A (en) | Speech data making device, speech reproducing device, voice analysis/synthesis device and voice information transferring device | |
JP2005156946A (en) | Music reproducing device, voice reproducing device, method for reproducing music and voice and its program | |
KR101236496B1 (en) | E-mail Transmission Terminal and E-mail System | |
JP2004294795A (en) | Tone synthesis control data, recording medium recording the same, data generating device, program, and tone synthesizer | |
JPH1011096A (en) | Karaoke device | |
JP2005107136A (en) | Voice and musical piece reproducing device | |
JP2004157238A (en) | Mobile terminal | |
JP2005229511A (en) | Musical sound generation apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081014 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081216 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081229 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140116 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |