[go: up one dir, main page]

JP4244706B2 - Audio playback device - Google Patents

Audio playback device Download PDF

Info

Publication number
JP4244706B2
JP4244706B2 JP2003152895A JP2003152895A JP4244706B2 JP 4244706 B2 JP4244706 B2 JP 4244706B2 JP 2003152895 A JP2003152895 A JP 2003152895A JP 2003152895 A JP2003152895 A JP 2003152895A JP 4244706 B2 JP4244706 B2 JP 4244706B2
Authority
JP
Japan
Prior art keywords
data
user
voice
synthesis dictionary
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003152895A
Other languages
Japanese (ja)
Other versions
JP2004354748A (en
Inventor
隆宏 川嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2003152895A priority Critical patent/JP4244706B2/en
Priority to TW093115132A priority patent/TWI265718B/en
Priority to CNB2004100474146A priority patent/CN1310209C/en
Priority to KR1020040038415A priority patent/KR100612780B1/en
Publication of JP2004354748A publication Critical patent/JP2004354748A/en
Priority to HK05101981A priority patent/HK1069433A1/en
Application granted granted Critical
Publication of JP4244706B2 publication Critical patent/JP4244706B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声再生装置に関し、特に音声合成により特定のフレーズ(例えば「こんにちは」など)について高品質に再生することができる音声再生装置に関する。
【0002】
【従来の技術】
従来、電子メールなどの文字列情報を音声に変換して出力する文字列音声変換装置が考え出されている。従来の文字列音声変換装置としては、文字列情報を文節単位に区切り、音声出力すると同時にその内容を表示するものがある(例えば、特許文献1参照)。
【0003】
【特許文献1】
特開2001−7937号公報
【0004】
【発明が解決しようとする課題】
しかしながら、従来の文字列音声変換装置では、文字列情報を文節単位に区切って音声出力するものの、その音声出力は発音単位(又は文字単位)の音声の集合であるので、発音単位のつなぎ目の再生(音声出力)に違和感がある。すなわち、従来の文字列音声変換装置では、文節全体について品質の良い音声で声色を変化させて出力すること、すなわち自然な音声(例えば「こんにちは」)として出力することができないという問題点がある。
【0005】
また、この問題点を解決するために、例えば文節(又はフレーズ)についての音声を予めサンプリングして音声データとして保持しておき、再生時には音声波形として出力する手法が考えられる。しかし、この手法では、音声出力の品質を上げるためにはサンプリング周波数を上げなければならず、大容量の音声データを保持する必要があり、携帯電話などにおいて大きなデメリットがある。
【0006】
本発明は、上記問題を解決するためになされたもので、文字列情報などからなる所望のフレーズ(例えば「こんにちは」など)を品質の良い音声として声色を変化させて再生(出力)することができる音声再生装置を提供するものである。
【0007】
【課題を解決するための手段】
上記課題を解決するため、この発明は以下の構成を有する。
即ち、発明は、予め発音単位に対応するフォルマントフレームデータを保持するデータベースである合成辞書を有して、発音単位が羅列された情報が与えられることにより前記合成辞書を用いて音声合成する音声再生装置において、前記合成辞書に保持されている発音単位のフォルマントフレームデータを任意のユーザデータに置き換える置換手段と、前記発音単位が羅列された情報が与えられたときに、前記置換手段によって保持データが置き換えられた前記合成辞書を用いて音声を合成する音声合成手段とを有することを特徴とする。
【0008】
また、発明は、前記ユーザデータがフレーズ単位で取得されたフォルマントフレームデータであることを特徴とする。
【0009】
また、発明は、前記ユーザデータが前記合成辞書に保持されるフォルマントフレームデータを加工する音色パラメータに付加されていることを特徴とする。
【0010】
また、発明は、前記置換手段が、前記ユーザデータが付加されている音色パラメータが与えられ、かつ、再生時に該音色パラメータが指定されたときに、前記合成辞書の保持データであるフォルマントフレームデータを、前記ユーザデータに置き換え、前記音声合成手段は、音声単位の羅列情報が与えられたときに、前記音色パラメータにより置き換えられた合成辞書を用いて音声合成することを特徴とする。
【0011】
また、発明は、楽曲及び音声を同期させて所望データを再生するための情報構造を定義したデータ交換フォーマットに、前記ユーザデータを含ませ、該データ交換フォーマットを用いて音声を合成するものであることを特徴とする。
【0012】
また、発明は、前記データ交換フォーマットとして構成された情報に含まれる楽曲部情報についてはそのまま再生し、該情報に含まれる音声情報については前記置換手段及び前記音声合成手段を用いて再生するものであることを特徴とする。
【0013】
また、発明は、前記データ交換フォーマットが音声パラメータに前記ユーザデータを付加した情報を構成要素とすることを特徴とする。
【0014】
【発明の実施の形態】
以下、図面を参照し、本発明の実施形態について説明する。
図1は、本発明の実施形態に係る音声再生装置の構成を示すブロック図である。まず、本実施形態に係る音声再生装置の基盤構成について説明する。
【0015】
本音声再生装置1は、アプリケーション14、ミドルウェアAPI15、コンバータ16、ドライバ17、デフォルト音色パラメータ18、デフォルト合成辞書19及び音源20を備え、スクリプト11、ユーザ音色パラメータ12、ユーザフレーズ合成辞書(可変長)13が入力されることにより音声を再生する構成となっている。
【0016】
音声再生装置1は、FM音源のリソースを用いたCSM(複合正弦波モデル)音声合成方式によるフォルマント合成により音声を再生する手法を基本としている。そして、本実施形態では、ユーザフレーズ合成辞書13を定義し、音声再生装置1が音色パラメータに音素単位でユーザフレーズを割り付ける。そして、音声再生装置1は再生時において音色パラメータにユーザフレーズ合成辞書13のデータが割り付けられているときは、デフォルト合成辞書19の音素をユーザフレーズに置き換え、その置き換えたデータにより音声合成を行う。なお、上記「音素(Phoneme)」とは、発音の最小単位であり、日本語でいえば母音と子音の2種類がある。次に、音声再生装置1の詳細について説明する。
【0017】
スクリプト11は、「HV(Human Voice:前記手法により合成される音声)」を再生するためのデータフォーマットを定義しているものである。すなわち、スクリプト11は、韻律記号を含んだ合成文字列、発音させる音の設定、再生アプリケーションなどのメッセージからなる音声合成を行うためのフォーマットであり、ユーザによる入力を容易にするために例えばテキスト入力となっている。このスクリプト11におけるデータフォーマットの定義は、言語依存性があり、様々な言語による定義が可能であるが、本実施形態では日本語による定義のみを一例として取り上げる。
【0018】
ユーザフレーズ合成辞書13及びデフォルト合成辞書19は、実際の声を発音文字単位で(例えば「あ」,「い」など)サンプリング及び分析することで8組のフォルマント周波数、フォルマントレベル及びピッチをパラメータとして割り出し、予めフォルマントフレームデータとしてそれらパラメータを発音文字単位で保持しているデータベースである。ユーザフレーズ合成辞書13は、ミドルウェア外に構築されたデータベースであり、かかるデータベースをユーザが任意に作成することができ、保持内容についてはミドルウェアAPI15を介してデフォルト合成辞書19の保持内容と丸ごと入れ替えることができる。すなわち、デフォルト合成辞書19の内容を丸ごとユーザフレーズ合成辞書13の内容に置き換えることができる。一方、デフォルト合成辞書19は、ミドルウェア内に構築されたデータベースである。
【0019】
ユーザフレーズ合成辞書13及びデフォルト合成辞書19としては、それぞれ男声用と女声用との2種類を持つのが好ましい。また、ユーザフレーズ合成辞書13及びデフォルト合成辞書19が保持するフレームデータの間隔により、音声再生装置1の出力音声の品質が変化するが、例えばフレームデータの間隔を20msとする。
【0020】
ユーザ音色パラメータ12及びデフォルト音色パラメータ18は、音声再生装置1の出力音声における声質を制御するパラメータ群である。そして、ユーザ音色パラメータ12及びデフォルト音色パラメータ18は、例えば8組のフォルマント周波数及びフォルマントレベルの変更(ユーザフレーズ合成辞書13及びデフォルト合成辞書19に登録されているフォルマント周波数、フォルマントレベルからの変化量の指定)、並びに、フォルマント合成のための基本波形の指定をすることができ、様々な音色を作り出すことができる。
【0021】
デフォルト音色パラメータ18は、予めミドルウェア内にデフォルトで保持されている音色パラメータセットである。ユーザ音色パラメータ12は、ユーザが任意に作成することができるパラメータであって、ミドルウェアの外側に保持されているものであり、ミドルウェアAPI15を介してデフォルト音色パラメータ18を拡張するものである。
【0022】
アプリケーション14は、スクリプト11を再生するためのソフトウェアである。
ミドルウェアAPI(Application Program Interface)15は、ソフトウェアからなるアプリケーション14と、ミドルウェアからなるコンバータ16、ドライバ17、デフォルト音色パラメータ18及びデフォルト合成辞書19とのインターフェースとなるものである。
【0023】
コンバータ16は、スクリプト11を解釈し、ドライバ17を用いて最終的にフレームデータが連続して構成されるフォルマントフレーム列のデータへ変換するものである。
ドライバ17は、スクリプト11に含まれる発音文字とデフォルト合成辞書19とに基づいてフォルマントフレーム列を生成し、音色パラメータを解釈しフォルマントフレーム列を加工するものである。
音源20はコンバータ16から出力されたデータに対応した音信号を出力するものであり、その音信号がスピーカに出力されて音となる。
【0024】
次に、本実施形態に係る音声再生装置1の特徴について詳細に説明する。
まず、ユーザ音色パラメータ12では、任意の発音単位に対して、ユーザフレーズ合成辞書13が保持するフレーズIDを割り付けるというパラメータがある。図2は発音単位毎にフレーズIDを割り付けたものの一例を示す図である。すなわち、図2はモーラとフレーズIDとの割り付けを示すものである。
なお、モーラとは、拍を意味し、日本語でいえば仮名文字単位である。
【0025】
発音単位毎にフレーズIDを割り付けることにより、ユーザ音色パラメータ12で指定された発音単位がデフォルト合成辞書19ではなく、ユーザフレーズ合成辞書13を用いることを規定する。また、ユーザ音色パラメータ12は、1つの音色パラメータ中に指定できる発音単位数が任意であるとするのが好ましい。上記のように、ユーザ音色パラメータ12において、発音単位毎にフレーズIDを割り付ける構成は本実施形態の一例であり、発音単位に置き換えることができるものであればその手法は問わない。
【0026】
次いで、ユーザフレーズ合成辞書13の詳細について説明する。図3はユーザフレーズ合成辞書13の内容例を示す図である。ユーザフレーズ合成辞書13では、フレーズID毎に、8組のフォルマント周波数、フォルマントレベル及びピッチからなるフレームデータを格納している。図3における「フレーズ」とは、例えば「おはよう」など一つのまとまりを持った句である。そして、「フレーズ」は、単語、音節、文章など、特にまとまりは規定せず、任意の一塊を意味する。
【0027】
ユーザフレーズ合成辞書13を製作するツールは、通常のサウンドファイル(*.wav,*aifなど)から、分析して8組のフォルマント周波数、フォルマントレベル及びピッチからなるフレームデータを生成する分析エンジンを搭載する必要がある。
【0028】
スクリプト11には、声質変更のイベントが用意されているが、このイベントにより、ユーザ音色パラメータ12を指定することができる。
【0029】
例えば、スクリプト11の記述としては、「TJK12みなさんX10あか」とする。
この例では、「K」がデフォルト音色パラメータ18を指定するイベントであり、「X」がユーザ音色パラメータ12を指定するイベントである。また、「X10」が図2に示すユーザ音色パラメータを指定するものとする。
【0030】
そして、この場合、再生音声は「みなさん こんにちは 鈴木です」となる。
「みなさん」はデフォルト音色パラメータ18及びデフォルト合成辞書19を用いた音声となり、また、「こんにちは」と「鈴木です」はユーザ音色パラメータ12及びユーザフレーズ合成辞書13を用いた音声となる。すなわち、「みなさん」は「み」と「な」と「さ」と「ん」のそれぞれのフォルマントフレームデータをデフォルト合成辞書19から読み出して合成した音声となり、「こんにちは」と「鈴木です」はそれぞれのフレーズ単位のフォルマントフレームデータをユーザフレーズ合成辞書13から読み出して合成した音声となる。
【0031】
上記例では、「あ」、「い」、「か」を使ったが、テキストで表記できる文字及び記号であれば何でもよい。また、上記例では、「X10」以降、「あ」は「こんにちは」、「か」は「鈴木です」と発音されるので、次に本来の「あ」を発音させたい時はデフォルト合成辞書に戻す記号(例えばX○○)を入れればよい。
【0032】
次に、本実施形態に係る音声再生装置1で用いられる音楽再生シーケンスデータ(SMAF:Synthetic music Mobile Application Format)のデータ交換フォーマットについて、図4を参照して説明する。図4は、本実施形態に係るSMAFファイルのフォーマットを示す説明図である。SMAFは、音源を用いて音楽を表現するためのデータを配布したり相互に利用したりするためのデータ交換フォーマットの一つであり、携帯端末などにおいてマルチメディアコンテンツを表現するためのデータフォーマット仕様である。
【0033】
図4に示すデータ交換フォーマットのSMAFファイル30は、チャンク(Chunk)と呼ばれるデータの塊が基本構造となっている。チャンクは、固定長(8バイト)のヘッダ部と任意長のボディ部とからなる。ヘッダ部は、4バイトのチャンクIDと4バイトのチャンクサイズに分けられる。チャンクIDはチャンクの識別子に用い、チャンクサイズはボディ部の長さを示している。SMAFファイル30は、それ自体及びそれに含まれる各種データも全てチャンク構造となっている。
【0034】
図4に示すようにSMAFファイル30は、コンテンツ・インフォ・チャンク(Contents Info Chunk)31と、オプショナル・データ・チャンク(Optional Data Chunk)32と、トラック・チャンク(Score Track Chunk)33と、HVチャンク(HV Chunk)36とからなる。
【0035】
コンテンツ・インフォ・チャンク31には、SMAFファイル30についての各種管理用情報が格納されており、例えばコンテンツのクラス、種類、著作権情報、ジャンル名、曲名、アーティスト名、作詞/作曲者名などが格納されている。オプショナル・データ・チャンク32には、例えば著作権情報、ジャンル名、曲名、アーティスト名、作詞/作曲者名などの情報が格納されている。なお、SMAFファイル30においてオプショナル・データ・チャンク32は設けなくてもよい。
【0036】
トラック・チャンク33は、音源へ送り込む楽曲のシーケンス・トラックを格納するチャンクであり、セットアップ・データ・チャンク(Setup Data Chunk(オプション))34及びシーケンス・データ・チャンク(Sequence Data Chunk)35を含んでいる。
【0037】
セットアップ・データ・チャンク34は、音源部分の音色データなどを格納するチャンクであり、イクスクルーシブ・メッセージの並びを格納する。イクスクルーシブ・メッセージは、例えば音色パラメータ登録メッセージである。
【0038】
シーケンス・データ・チャンク35は、実演奏データを格納するものであり、スクリプト11の再生タイミングを決めるHV(Human Voice:音声)ノートオンとその他のシーケンス・イベントとを混在させて格納している。ここで、HVとそれ以外の楽曲のイベントとは、HVのチャネル指定により区別される。
【0039】
HVチャンク36は、HVセットアップ・データ・チャンク(HV Setup Data Chunk(オプション))37と、HVユーザ・フレーズ・辞書チャンク(HV User Phrase Dictionary Chunk(オプション))38と、HV-Sチャンク39とを含んでいる。
【0040】
HVセットアップ・データ・チャンク37には、HVユーザ音色パラメータや、HVのチャネルを指定するためのメッセージが格納されている。また、HV-Sチャンク39には、HV-スクリプトデータが格納されている。
【0041】
HVユーザ・フレーズ・辞書チャンク38には、ユーザフレーズ合成辞書13の内容が格納されている。また、HVセットアップ・データ・チャンク37に格納されるHVユーザ音色パラメータには、図2に示すモーラとフレーズIDを割り付けるパラメータが必要である。
【0042】
これらの図4に示すSMAFファイル30を上記音声再生装置1に適用することにより、楽曲と同期して音声(HV)を再生することができるとともに、ユーザフレーズ合成辞書13の内容についても再生することが可能となる。
【0043】
次に、図1におけるユーザフレーズ合成辞書13及び図4に示すSMAFファイル30を作成するためのツールであるHVオーサリングツールについて、図5を参照して説明する。図5はHVオーサリングツールの一例を示す機能イメージ図である。
【0044】
HVオーサリングツール42は、SMAFファイル30を作成する場合、予めMIDIシーケンサによって作成されたSMF(Standard MIDI File)ファイル41(HVの発音タイミングを決めるノートオンを含む)を読み込み、HVスクリプトUI44及びHVボイスエディタ45から得られた情報を元にSMAFファイル43(SMAFファイル30に相当)への変換処理を行う。
【0045】
HVボイスエディタ45は、HVユーザ音色ファイル48に含まれるHVユーザ音色パラメータ(ユーザ音色パラメータ12に相当)を編集することができるエディタである。このHVボイスエディタ45は、各種のHV音色パラメータの編集に加え、任意のモーラに対してユーザフレーズを割り付けることができる。
【0046】
HVボイスエディタ45のインターフェースとしては、モーラを選択するメニューと、そのモーラに対して任意のサウンドファイル50を割り付ける機能を持つ。HVボイスエディタ45のインターフェースによって割り付けられたサウンドファイル50は、波形分析器46により分析され、8組のフォルマント周波数、フォルマントレベル及びピッチのフレームデータを生成する。これらのフレームデータは、個別ファイル(HVユーザ音色ファイル48、HVユーザ合成辞書ファイル49)として入出力することができる。
【0047】
HVスクリプトUI44は、HVスクリプトを直接編集することができる。このHVスクリプトも、個別ファイル(HVスクリプトファイル47)として入出力することができる。また、本実施形態に係るHVオーサリングツール40は、上記HVオーサリングツール42と、HVスクリプトUI44と、HVボイスエディタ45と、波形分析器46とからなるものとしてもよい。
【0048】
次に、上記音声再生装置1を携帯通信端末に適用した例について、図6を参照して説明する。図6は、音声再生装置1を備える携帯通信端末60の構成例を示すブロック図である。
【0049】
携帯通信端末60は、例えば、携帯電話などからなり、CPU61、ROM62、RAM63、表示部64、バイブレータ65、入力部66、通信部67、アンテナ68、音声処理部69、音源70、スピーカ71及びバス72を備えている。CPU61は、携帯通信端末60全体の制御を行う。ROM62は、各種通信制御プログラム及び楽曲再生のためのプログラムなどの制御プログラム、並びに、各種定数データなどを格納している。
【0050】
RAM63は、ワークエリアとして使用されるとともに、楽曲ファイル及び各種アプリケーションプログラムなどを記憶する。表示部64は、液晶表示装置(LCD)などからなる。バイブレータ65は着信などがあったときに振動する。入力部66は、複数の釦などからなる。通信部67は、変復調部などからなり、アンテナ68に接続されている。
【0051】
音声処理部69は、送話マイク及び受話スピーカに接続されており、通話のために音声信号について符号化及び復号化を行う機能を有する。音源70は、RAM63などに記憶された楽曲ファイルに基づいて楽曲を再生するとともに、音声を再生して、スピーカ71に出力する。バス72は、CPU61、ROM62、RAM63、表示部64、バイブレータ65、入力部66、通信部67、音声処理部69及び音源70の各構成要素間でデータ転送を行うための伝送路である。
【0052】
さらに、通信部67は、HV−スクリプトファイル又は図4に示すSMAFファイル30をコンテンツサーバなどからダウンロードしてRAM63へ記憶させることができる。そして、ROM62には図1に示す音声再生装置1のアプリケーション14及びミドルウェアのプログラムも記憶されている。そのアプリケーション14及びミドルウェアのプログラムはCPU61によって読み出され起動される。また、CPU61は、RAM63で記憶されているHV−スクリプトを解釈してフォルマントフレームデータを生成し、そのフォルマントフレームデータを音源70へ送る。
【0053】
(動作)
次に、上記音声再生装置1の動作について説明する。先ず、ユーザフレーズ合成辞書13の制作方法について説明する。図7は、ユーザフレーズ合成辞書13の制作方法を示すフローチャートである。
【0054】
先ず、図5に示すHVオーサリングツール42を用いて、ユーザフレーズ合成辞書13を使用するHV音色を選択し、HVボイスエディタ45を起動させる(ステップS1)。
次いで、HVボイスエディタ45を用いて、当てはめたいモーラを選択し、サウンドファイルを貼り付ける。すると、HVボイスエディタ45は、ユーザフレーズ辞書(HVユーザ合成辞書ファイル49に相当)を出力する(ステップS2)。
【0055】
次いで、HVボイスエディタ45を用いて、HV音色パラメータを編集する。すると、HVボイスエディタ45は、ユーザ音色パラメータ(HVユーザ音色ファイル48に相当)を出力する(ステップS3)。
【0056】
次いで、HVスクリプトUI44を用いて、HV−スクリプトに、該当するHV音色を指定する声質変更イベントを記述し、再生したいモーラを記述する。すると、HVスクリプトUI44は、HV−スクリプト(HVスクリプトファイル47に相当)を出力する(ステップS4)。
【0057】
次に、音声再生装置1におけるユーザフレーズ辞書の再生動作について、図8を参照して説明する。図8は、音声再生装置1におけるユーザフレーズ合成辞書の再生動作を示すフローチャートである。
先ず、ユーザ音色パラメータ12及びユーザフレーズ合成辞書13を、音声再生装置1のミドルウェアに登録する。そして、スクリプト11を音声再生装置1のミドルウェアに登録し、再生を開始する(ステップS11,S12)。
【0058】
その再生においては、スクリプト11中に、ユーザ音色パラメータ12を指定する声質変更イベント(Xイベント)があるか監視する(ステップS13)。
ステップS13で声質変更イベントを見つけた場合、そのユーザ音色パラメータ12からモーラに割り付けられているフレーズIDを探し、フレーズIDに対応するデータをユーザフレーズ合成辞書13から読み取り、HVドライバが管理するデフォルト合成辞書19のデータのうち、該当するモーラの辞書データをユーザフレーズ合成辞書13のデータに置き換える(ステップS14)。
ステップS14の置き換え処理は、再生前に事前に行ってもよい。
【0059】
ステップS14が終了した場合、及び、ステップS13で声質変更イベントが見つからなかった場合は、コンバータ16がスクリプト11(ステップS14が行われた場合は該ステップS14の置き換え処理後のスクリプト)のモーラを解釈し、HVドライバを用いて最終的にフォルマントフレーム列のデータへコンバートする(ステップS15)。
次いで、ステップS15でコンバートされたデータを音源20により再生する(ステップS16)。
【0060】
次いで、スクリプト11が終了か否か判断し(ステップS17)、終了していない場合は上記ステップS13に戻り、終了した場合はユーザフレーズ辞書の再生動作を終了する。
【0061】
次に、図4に示すSMAFファイル30の制作方法について、図9を参照して説明する。図9は、SMAFファイル30の制作方法を示すフローチャートである。
先ず、図7に示す手順によりユーザフレーズ合成辞書13、ユーザ音色パラメータ12及びスクリプト11を制作する(ステップS21)。
【0062】
次いで、楽曲データ及びHVスクリプトの発音を制御するイベントを含んだSMFファイル41を制作する(ステップS22)。
次いで、図5に示すHVオーサリングツール42へSMFファイル41を入力し、HVオーサリングツール42によりSMFファイル41をSMAFファイル43(SMAFファイル30に相当)に変換する(ステップS23)。
【0063】
そして、ステップS21で作られたユーザ音色パラメータ12が図4に示すSMAFファイル30のHVチャンク36のHVセットアップ・データ・チャンク37へ入れられ、ステップS21で作られたユーザフレーズ合成辞書13が同SMAFファイル30のHVチャンク36のHVユーザ・フレーズ・辞書チャンク38へ入れられ、SMAFファイル30として出力される(ステップS24)。
【0064】
次に、SMAFファイル30の再生方法について図10を参照して説明する。図10は、SMAFファイル30の再生方法を示すフローチャートである。
先ず、SMAFファイル30を図1に示す音声再生装置1のミドルウェアに登録する(ステップS31)。
ここで、音声再生装置1は、通常、SMAFファイル30内の楽曲データの部分をミドルウェアの楽曲再生部に登録し、再生準備を行う。
【0065】
次いで、音声再生装置1は、SMAFファイル30にHVチャンク36があるか否か判断する(ステップS32)。
ステップS32でHVチャンク36があった場合、音声再生装置1はHVチャンク36の内容を解釈する(ステップS33)。
次いで、音声再生装置1は、ユーザ音色パラメータの登録、ユーザフレーズ合成辞書の登録及びスクリプトの登録をする(ステップS34)。
【0066】
ステップS32でHVチャンク36がなかった場合、もしくはステップ34における登録が終了した場合、音声再生装置1は楽曲部のチャンクを解釈する(ステップS35)。
次いで、音声再生装置1は、「スタート」信号に対応してシーケンス・データ・チャンク35内のシーケンスデータ(実演奏データ)の解釈をスタートさせることにより、楽曲再生を行う(ステップS36)。
【0067】
この再生において、音声再生装置1はシーケンスデータにおけるイベントを順次解釈する過程において、そのイベントがHVノートオンであるか否か判断する(ステップS37)。
ステップS37において、HVノートオンであった場合、音声再生装置1はそのHVノートオンで指定されているHVチャンクのHVスクリプトデータの再生を開始する(ステップS38)。
【0068】
このステップS38の後、音声再生装置1は図8に示すユーザフレーズ辞書の再生動作を行う。
すなわち、音声再生装置1はステップS38の再生において、ユーザ音色パラメータ12を指定する声質変更イベント(Xイベント)があるか監視する(ステップS39)。
【0069】
ステップS39で声質変更イベントを見つけた場合、そのユーザ音色パラメータ12からモーラに割り付けられているフレーズIDを探し、フレーズIDに対応するデータをユーザフレーズ合成辞書13から読み取り、HVドライバが管理するデフォルト合成辞書19のデータのうち、該当するモーラの辞書データをユーザフレーズ辞書データに置き換える(ステップS40)。
ステップS40の置き換え処理は、再生前に事前に行ってもよい。
【0070】
ステップS40が終了した場合、及び、ステップS39で声質変更イベントが見つからなかった場合は、コンバータ16がスクリプトのモーラを解釈し、HVドライバを用いて最終的にフォルマントフレーム列のデータへコンバートする(ステップS41)。
【0071】
次いで、音声再生装置1は、ステップS41でコンバートされたデータを音源20のHV部にて再生する(ステップS42)。
次いで、音声再生装置1は、楽曲が終了したか否か判断し(ステップS43)、楽曲が終了した場合はSMAFファイル30の再生を終了させ、楽曲が終了していない場合はステップS37に戻る。
【0072】
ステップS37において、イベントがHVノートオンでなかった場合、音声再生装置1はそのイベントを楽曲データとして、音源再生イベントデータにコンバートする(ステップS44)。
次いで、音声再生装置1は、ステップS44でコンバートされたデータを音源20の楽曲部にて再生する(ステップS45)。
【0073】
これらにより、本実施形態によれば、FM音源のリソースを用いてフォルマント合成により再生する方法において、以下の3つの利点がある。
第1に、本実施形態によれば、ユーザが好みのフレーズを割り付けることができる。これにより、固定辞書に依存することなく、好みの声色により近づけた再生をすることができる。
第2に、本実施形態によれば、デフォルト合成辞書19の一部をユーザフレーズ合成辞書13で置き換えるため、音声再生装置1においてデータ容量が過大に増加することを回避することができる。また、デフォルト合成辞書19の一部を任意のフレーズに置き換えることもできるため、フレーズ単位の発音をすることができ、従来の発音単位の合成音声で生じる各発音のつなぎ目での違和感をなくすことができる。
第3に、本実施形態によれば、HVスクリプトにおいて任意のフレーズ指定をすることができるので、モーラ単位の合成とフレーズ単位の発音を併用することができる。
【0074】
さらに、本実施形態によれば、フレーズを予めサンプリングして構成した波形データを再生する方法に比べて、フォルマントレベルで声色変化させることができる。そして、本実施形態によれば、データサイズ及び品質はフレームレートによるが、サンプリング波形データに比べてはるかに少ないデータ容量で高品質な再生をすることができる。したがって、例えば、本実施形態の音声再生装置1を携帯電話などの携帯通信端末に組み込むことが容易に実行でき、電子メールの内容などを高品質な音声で再生することもできる。
【0075】
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【0076】
【発明の効果】
以上説明したように、本発明によれば、合成辞書に発音単位で保持されているデータを任意のユーザデータに置き換えることができるので、所望のフレーズを品質のよい音声で再生することができる。
【図面の簡単な説明】
【図1】 本発明の実施形態に係る音声再生装置を示すブロック図である。
【図2】 発音単位毎にフレーズIDを割り付けた例を示す図である。
【図3】 ユーザフレーズ合成辞書の内容例を示す図である。
【図4】 SMAFファイルのフォーマットを示す図である。
【図5】 HVオーサリングツールの一例を示す機能イメージ図である。
【図6】 本実施形態の音声再生装置を備える携帯通信端末の一例を示すブロック図である。
【図7】 ユーザフレーズ合成辞書の制作方法のフローチャートである。
【図8】 ユーザフレーズ合成辞書の再生動作のフローチャートである。
【図9】 SMAFファイルの制作方法を示すフローチャートである。
【図10】 SMAFファイル30の再生方法のフローチャートである。
【符号の説明】
1…音声再生装置、11…スクリプト、12…ユーザ音色パラメータ、13…ユーザフレーズ合成辞書(可変長)、14…アプリケーション、15…ミドルウェアAPI、16…コンバータ、17…ドライバ、18…デフォルト音色パラメータ、19…デフォルト合成辞書、20…音源、30…SMAFファイル、31…コンテンツ・インフォ・チャンク、32…オプショナル・データ・チャンク、33…トラック・チャンク、34…セットアップ・データ・チャンク、35…シーケンス・データ・チャンク、36…HVチャンク、37…HVセットアップ・データ・チャンク、38…HVユーザ・フレーズ・辞書チャンク、39…HV-Sチャンク、41…SMFファイル、42…HVオーサリングツール、43…SMAFファイル、44…HVスクリプトUI、45…HVボイスエディタ、46…波形分析器、47…HVスクリプトファイル、48…HVユーザ音色ファイル、49…HVユーザ合成辞書ファイル、50…サウンドファイル
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a sound reproducing device, a sound reproducing apparatus capable of reproducing the high quality for a particular phrase (such as "Hello") in particular by speech synthesis.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, a character string speech conversion device has been devised that converts character string information such as electronic mail into speech and outputs it. As a conventional character string speech conversion device, there is a device that divides character string information into phrase units and outputs the sound at the same time as displaying the content (for example, see Patent Document 1).
[0003]
[Patent Document 1]
JP 2001-7937 A
[0004]
[Problems to be solved by the invention]
However, in the conventional character string speech conversion device, the character string information is divided into phrases and output as speech. However, since the speech output is a set of sounds in pronunciation units (or character units), reproduction of the joint of the pronunciation units is performed. (Sound output) is strange. That is, in the conventional character string speech conversion system may be output by changing the tone of voice with good sound quality for the entire phrase, i.e. there is a problem that can not be output as a natural voice (e.g. "Hello").
[0005]
In order to solve this problem, for example, a method is conceivable in which a voice for a phrase (or phrase) is sampled in advance and stored as voice data, and is output as a voice waveform during reproduction. However, with this method, in order to improve the quality of audio output, the sampling frequency must be increased, and it is necessary to store a large volume of audio data.
[0006]
The present invention has been made to solve the above problems, be reproduced desired phrase consisting of a character string information (such as "Hello") to change the tone of voice as good speech quality (output) An audio reproducing apparatus that can be used is provided.
[0007]
[Means for Solving the Problems]
In order to solve the above problems, the present invention has the following configuration.
That is, Book The present invention provides a speech reproduction apparatus that has a synthesis dictionary that is a database that holds formant frame data corresponding to pronunciation units in advance, and that synthesizes speech using the synthesis dictionary by providing information in which pronunciation units are listed. The replacement unit replaces the formant frame data of the pronunciation unit held in the synthesis dictionary with arbitrary user data, and the stored data is replaced by the replacement unit when the information listing the pronunciation units is given. And speech synthesis means for synthesizing speech using the synthesis dictionary.
[0008]
Also, Book invention Before The user data is formant frame data acquired in units of phrases.
[0009]
Also, Book invention Before The user data is added to a timbre parameter for processing formant frame data held in the synthesis dictionary.
[0010]
Also, Book invention Before When the timbre parameter to which the user data is added is given and the timbre parameter is designated at the time of reproduction, the replacement means adds formant frame data, which is held in the synthesis dictionary, to the user data. The replacement, the speech synthesizing means, synthesizes speech using the synthesis dictionary replaced by the timbre parameter when the enumeration information in units of speech is given.
[0011]
Also, Book invention Is easy The user exchange is included in a data exchange format that defines an information structure for reproducing desired data by synchronizing music and voice, and voice is synthesized using the data exchange format .
[0012]
Also, Book invention Before The music piece information included in the information configured as the data exchange format is reproduced as it is, and the audio information included in the information is reproduced using the replacement unit and the voice synthesizing unit. To do.
[0013]
Also, Book invention Before The data exchange format includes information in which the user data is added to a voice parameter as a constituent element.
[0014]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of an audio reproducing apparatus according to an embodiment of the present invention. First, the basic configuration of the audio reproduction device according to the present embodiment will be described.
[0015]
The audio playback device 1 includes an application 14, a middleware API 15, a converter 16, a driver 17, a default tone color parameter 18, a default synthesis dictionary 19, and a sound source 20, and includes a script 11, a user tone color parameter 12, a user phrase synthesis dictionary (variable length). The audio is reproduced by inputting 13.
[0016]
The sound reproduction device 1 is based on a method of reproducing sound by formant synthesis using a CSM (Composite Sine Wave Model) speech synthesis method using FM sound source resources. And in this embodiment, the user phrase synthetic | combination dictionary 13 is defined and the audio | voice reproduction apparatus 1 allocates a user phrase per phoneme to a timbre parameter. When the data of the user phrase synthesis dictionary 13 is assigned to the timbre parameter at the time of reproduction, the voice reproduction device 1 replaces the phoneme in the default synthesis dictionary 19 with the user phrase, and performs voice synthesis using the replaced data. The “phoneme” is a minimum unit of pronunciation, and there are two types of vowels and consonants in Japanese. Next, the details of the audio reproduction device 1 will be described.
[0017]
The script 11 defines a data format for reproducing “HV (Human Voice: voice synthesized by the above method)”. That is, the script 11 has a format for synthesizing speech composed of a message such as a synthesized character string including prosodic symbols, setting of sound to be generated, and a reproduction application. It has become. The definition of the data format in the script 11 is language-dependent and can be defined in various languages. In this embodiment, only the definition in Japanese is taken as an example.
[0018]
The user phrase synthesizing dictionary 13 and the default synthesizing dictionary 19 sample and analyze an actual voice in units of pronunciation characters (for example, “A”, “I”, etc.), thereby using eight formant frequencies, formant levels, and pitches as parameters. It is a database that is indexed and holds these parameters in advance as phonetic character data as formant frame data. The user phrase synthesizing dictionary 13 is a database constructed outside the middleware, and the user can arbitrarily create such a database, and the retained contents are completely replaced with the retained contents of the default synthetic dictionary 19 via the middleware API 15. Can do. That is, the entire contents of the default synthesis dictionary 19 can be replaced with the contents of the user phrase synthesis dictionary 13. On the other hand, the default synthesis dictionary 19 is a database constructed in the middleware.
[0019]
The user phrase synthesis dictionary 13 and the default synthesis dictionary 19 preferably have two types of male voice and female voice, respectively. Further, the quality of the output sound of the audio reproduction device 1 varies depending on the interval of the frame data held by the user phrase synthesis dictionary 13 and the default synthesis dictionary 19, but the interval of the frame data is set to 20 ms, for example.
[0020]
The user tone color parameter 12 and the default tone color parameter 18 are a group of parameters for controlling the voice quality in the output sound of the sound reproducing device 1. The user tone color parameter 12 and the default tone color parameter 18 are, for example, eight sets of formant frequencies and formant level changes (formant frequencies registered in the user phrase synthesis dictionary 13 and the default synthesis dictionary 19 and the amount of change from the formant level). Designation), and a basic waveform for formant synthesis can be designated, and various timbres can be created.
[0021]
The default timbre parameter 18 is a timbre parameter set that is previously stored in the middleware by default. The user tone color parameter 12 is a parameter that can be arbitrarily created by the user and is held outside the middleware. The user tone color parameter 12 extends the default tone color parameter 18 via the middleware API 15.
[0022]
The application 14 is software for reproducing the script 11.
A middleware API (Application Program Interface) 15 is an interface between an application 14 made of software, a converter 16 made of middleware, a driver 17, a default tone color parameter 18, and a default synthesis dictionary 19.
[0023]
The converter 16 interprets the script 11 and uses the driver 17 to finally convert it into formant frame string data in which frame data is continuously formed.
The driver 17 generates a formant frame sequence based on the pronunciation characters included in the script 11 and the default synthesis dictionary 19, interprets the timbre parameters, and processes the formant frame sequence.
The sound source 20 outputs a sound signal corresponding to the data output from the converter 16, and the sound signal is output to a speaker to become a sound.
[0024]
Next, features of the audio playback device 1 according to the present embodiment will be described in detail.
First, the user tone color parameter 12 includes a parameter for assigning a phrase ID held by the user phrase synthesis dictionary 13 to an arbitrary pronunciation unit. FIG. 2 is a diagram showing an example in which a phrase ID is assigned to each pronunciation unit. That is, FIG. 2 shows allocation of mora and phrase ID.
The mora means a beat, and in Japanese, it is a kana character unit.
[0025]
By assigning a phrase ID to each pronunciation unit, it is specified that the pronunciation unit specified by the user tone color parameter 12 is not the default synthesis dictionary 19 but the user phrase synthesis dictionary 13 is used. The user tone color parameter 12 preferably has an arbitrary number of sounding units that can be specified in one tone color parameter. As described above, the configuration in which the phrase ID is assigned to each sounding unit in the user tone color parameter 12 is an example of this embodiment, and any method can be used as long as it can be replaced with the sounding unit.
[0026]
Next, details of the user phrase synthesis dictionary 13 will be described. FIG. 3 is a diagram showing an example of the contents of the user phrase synthesis dictionary 13. The user phrase synthesis dictionary 13 stores frame data composed of eight sets of formant frequencies, formant levels, and pitches for each phrase ID. The “phrase” in FIG. 3 is a phrase having a single unit such as “good morning”. The “phrase” means an arbitrary lump without defining a group such as a word, a syllable, or a sentence.
[0027]
The tool for creating the user phrase synthesis dictionary 13 is equipped with an analysis engine that analyzes and generates frame data consisting of eight formant frequencies, formant levels, and pitches from normal sound files (* .wav, * aif, etc.). There is a need to.
[0028]
The script 11 has an event for changing voice quality, and the user tone color parameter 12 can be designated by this event.
[0029]
For example, the description of the script 11 is “TJK12 everyone X10 Aka”.
In this example, “K” is an event for specifying the default timbre parameter 18, and “X” is an event for specifying the user timbre parameter 12. Further, “X10” designates the user tone color parameter shown in FIG.
[0030]
And, in this case, the reproduced sound is "Hello everyone is Suzuki".
"Everyone" becomes a voice using the default tone color parameter 18 and default synthesis dictionary 19, also, "Suzuki" and "Hello" is the voice using a user tone color parameter 12 and a user phrase synthesis dictionary 13. In other words, "you" becomes a voice that was synthesized by reading each of the formant frame data of "only" and "Do not" and "of", "I" from the default synthesis dictionary 19, "Suzuki" and "Hello", respectively The phrase-based formant frame data is read from the user phrase synthesis dictionary 13 and synthesized.
[0031]
In the above example, “a”, “i”, and “ka” are used, but any character and symbol that can be expressed in text are acceptable. In addition, in the above example, "X10" and later, "A" is "Hello", because "or" is pronounced "Suzuki", the next time you want to pronounce the original of the "A" is the default synthesis dictionary What is necessary is just to put the symbol to return (for example, XOO).
[0032]
Next, a data exchange format of music reproduction sequence data (SMAF: Synthetic music Mobile Application Format) used in the audio reproducing apparatus 1 according to the present embodiment will be described with reference to FIG. FIG. 4 is an explanatory diagram showing the format of the SMAF file according to the present embodiment. SMAF is one of the data exchange formats for distributing and mutually using data for expressing music using a sound source, and is a data format specification for expressing multimedia contents on mobile terminals and the like. It is.
[0033]
The SMAF file 30 in the data exchange format shown in FIG. 4 has a basic structure of data chunks called “chunks”. The chunk is composed of a fixed length (8 bytes) header part and an arbitrary length body part. The header part is divided into a 4-byte chunk ID and a 4-byte chunk size. The chunk ID is used as a chunk identifier, and the chunk size indicates the length of the body part. The SMAF file 30 has a chunk structure for itself and various data included therein.
[0034]
As shown in FIG. 4, the SMAF file 30 includes a contents info chunk 31, an optional data chunk 32, a track track chunk 33, and an HV chunk. (HV Chunk) 36.
[0035]
The content info chunk 31 stores various management information about the SMAF file 30. For example, the content class, type, copyright information, genre name, song name, artist name, song / composer name, and the like are stored. Stored. The optional data chunk 32 stores information such as copyright information, genre name, song name, artist name, and lyrics / composer name. The optional data chunk 32 may not be provided in the SMAF file 30.
[0036]
The track chunk 33 is a chunk for storing a sequence track of music to be sent to a sound source, and includes a setup data chunk (Setup Data Chunk (option)) 34 and a sequence data chunk (Sequence Data Chunk) 35. Yes.
[0037]
The setup data chunk 34 is a chunk for storing timbre data of the sound source portion and the like, and stores a sequence of exclusive messages. The exclusive message is, for example, a tone color parameter registration message.
[0038]
The sequence data chunk 35 stores actual performance data, and stores a mix of HV (Human Voice) note-on that determines the playback timing of the script 11 and other sequence events. Here, HV and other music events are distinguished by HV channel designation.
[0039]
The HV chunk 36 includes an HV Setup Data Chunk (HV Setup Data Chunk (option)) 37, an HV User Phrase Dictionary Chunk (option) 38, and an HV-S chunk 39. Contains.
[0040]
The HV setup data chunk 37 stores HV user tone color parameters and a message for specifying an HV channel. The HV-S chunk 39 stores HV-script data.
[0041]
The contents of the user phrase synthesis dictionary 13 are stored in the HV user phrase phrase dictionary chunk 38. Also, the HV user tone color parameters stored in the HV setup data chunk 37 require parameters for assigning mora and phrase IDs shown in FIG.
[0042]
By applying the SMAF file 30 shown in FIG. 4 to the audio reproduction device 1, audio (HV) can be reproduced in synchronization with the music, and the contents of the user phrase synthesis dictionary 13 can also be reproduced. Is possible.
[0043]
Next, an HV authoring tool, which is a tool for creating the user phrase synthesis dictionary 13 in FIG. 1 and the SMAF file 30 shown in FIG. 4, will be described with reference to FIG. FIG. 5 is a functional image diagram showing an example of the HV authoring tool.
[0044]
When creating the SMAF file 30, the HV authoring tool 42 reads an SMF (Standard MIDI File) file 41 (including note-on that determines the HV sounding timing) created in advance by a MIDI sequencer, and creates an HV script UI 44 and an HV voice. Based on the information obtained from the editor 45, conversion processing to the SMAF file 43 (corresponding to the SMAF file 30) is performed.
[0045]
The HV voice editor 45 is an editor capable of editing the HV user tone color parameter (corresponding to the user tone color parameter 12) included in the HV user tone color file 48. The HV voice editor 45 can assign a user phrase to an arbitrary mora in addition to editing various HV tone parameters.
[0046]
The HV voice editor 45 has an interface for selecting a mora and a function for assigning an arbitrary sound file 50 to the mora. The sound file 50 allocated by the interface of the HV voice editor 45 is analyzed by the waveform analyzer 46 to generate eight sets of formant frequency, formant level and pitch frame data. These frame data can be input / output as individual files (HV user tone color file 48, HV user synthesis dictionary file 49).
[0047]
The HV script UI 44 can directly edit the HV script. This HV script can also be input / output as an individual file (HV script file 47). Further, the HV authoring tool 40 according to the present embodiment may include the HV authoring tool 42, the HV script UI 44, the HV voice editor 45, and the waveform analyzer 46.
[0048]
Next, an example in which the audio reproduction device 1 is applied to a mobile communication terminal will be described with reference to FIG. FIG. 6 is a block diagram illustrating a configuration example of the mobile communication terminal 60 including the audio reproduction device 1.
[0049]
The mobile communication terminal 60 includes, for example, a mobile phone, and includes a CPU 61, a ROM 62, a RAM 63, a display unit 64, a vibrator 65, an input unit 66, a communication unit 67, an antenna 68, an audio processing unit 69, a sound source 70, a speaker 71, and a bus. 72. The CPU 61 controls the entire mobile communication terminal 60. The ROM 62 stores various communication control programs, control programs such as a music reproduction program, and various constant data.
[0050]
The RAM 63 is used as a work area and stores music files and various application programs. The display unit 64 includes a liquid crystal display device (LCD). Vibrator 65 vibrates when an incoming call is received. The input unit 66 includes a plurality of buttons. The communication unit 67 includes a modem unit and the like, and is connected to the antenna 68.
[0051]
The voice processing unit 69 is connected to a transmission microphone and a reception speaker, and has a function of encoding and decoding a voice signal for a call. The sound source 70 reproduces music based on the music file stored in the RAM 63 or the like, reproduces sound, and outputs it to the speaker 71. The bus 72 is a transmission path for transferring data among the constituent elements of the CPU 61, ROM 62, RAM 63, display unit 64, vibrator 65, input unit 66, communication unit 67, audio processing unit 69, and sound source 70.
[0052]
Further, the communication unit 67 can download the HV-script file or the SMAF file 30 shown in FIG. 4 from the content server or the like and store it in the RAM 63. The ROM 62 also stores the application 14 and middleware program of the audio reproduction device 1 shown in FIG. The application 14 and middleware program are read and activated by the CPU 61. Further, the CPU 61 generates formant frame data by interpreting the HV-script stored in the RAM 63, and sends the formant frame data to the sound source 70.
[0053]
(Operation)
Next, the operation of the audio playback device 1 will be described. First, a method for producing the user phrase synthesis dictionary 13 will be described. FIG. 7 is a flowchart showing a method for producing the user phrase synthesis dictionary 13.
[0054]
First, by using the HV authoring tool 42 shown in FIG. 5, the HV tone color using the user phrase synthesis dictionary 13 is selected, and the HV voice editor 45 is activated (step S1).
Next, using the HV voice editor 45, a mora to be applied is selected and a sound file is pasted. Then, the HV voice editor 45 outputs a user phrase dictionary (corresponding to the HV user synthesis dictionary file 49) (step S2).
[0055]
Next, the HV voice parameter is edited using the HV voice editor 45. Then, the HV voice editor 45 outputs a user tone color parameter (corresponding to the HV user tone color file 48) (step S3).
[0056]
Next, using the HV script UI 44, a voice quality change event for designating the corresponding HV tone is described in the HV-script, and a mora to be reproduced is described. Then, the HV script UI 44 outputs an HV-script (corresponding to the HV script file 47) (step S4).
[0057]
Next, the reproduction | regeneration operation | movement of the user phrase dictionary in the audio | voice reproduction apparatus 1 is demonstrated with reference to FIG. FIG. 8 is a flowchart showing the reproduction operation of the user phrase synthesis dictionary in the audio reproduction device 1.
First, the user tone color parameter 12 and the user phrase synthesis dictionary 13 are registered in the middleware of the sound reproducing device 1. Then, the script 11 is registered in the middleware of the audio playback device 1 and playback is started (steps S11 and S12).
[0058]
In the reproduction, it is monitored whether there is a voice quality change event (X event) for designating the user tone color parameter 12 in the script 11 (step S13).
When a voice quality change event is found in step S13, the phrase ID assigned to the mora is searched from the user tone parameter 12, and the data corresponding to the phrase ID is read from the user phrase synthesis dictionary 13 and the default synthesis managed by the HV driver. Of the data in the dictionary 19, the dictionary data of the corresponding mora is replaced with the data of the user phrase synthesis dictionary 13 (step S14).
The replacement process in step S14 may be performed in advance before reproduction.
[0059]
When step S14 ends and when no voice quality change event is found in step S13, converter 16 interprets the mora of script 11 (or the script after the replacement process in step S14 if step S14 is performed). Then, the data is finally converted into formant frame sequence data using the HV driver (step S15).
Next, the data converted in step S15 is reproduced by the sound source 20 (step S16).
[0060]
Next, it is determined whether or not the script 11 is finished (step S17). If not finished, the process returns to step S13. If finished, the reproduction operation of the user phrase dictionary is finished.
[0061]
Next, a method for producing the SMAF file 30 shown in FIG. 4 will be described with reference to FIG. FIG. 9 is a flowchart showing a method for producing the SMAF file 30.
First, the user phrase synthesis dictionary 13, the user tone color parameter 12, and the script 11 are produced according to the procedure shown in FIG. 7 (step S21).
[0062]
Next, the SMF file 41 including an event for controlling the music data and the pronunciation of the HV script is produced (step S22).
Next, the SMF file 41 is inputted to the HV authoring tool 42 shown in FIG. 5, and the SMF file 41 is converted into the SMAF file 43 (corresponding to the SMAF file 30) by the HV authoring tool 42 (step S23).
[0063]
Then, the user tone color parameter 12 created in step S21 is put into the HV setup data chunk 37 of the HV chunk 36 of the SMAF file 30 shown in FIG. 4, and the user phrase synthesis dictionary 13 created in step S21 is stored in the same SMAF. It is put into the HV user / phrase / dictionary chunk 38 of the HV chunk 36 of the file 30 and outputted as the SMAF file 30 (step S24).
[0064]
Next, a method for reproducing the SMAF file 30 will be described with reference to FIG. FIG. 10 is a flowchart showing a method of reproducing the SMAF file 30.
First, the SMAF file 30 is registered in the middleware of the audio reproduction device 1 shown in FIG. 1 (step S31).
Here, the audio reproducing apparatus 1 normally registers the music data portion in the SMAF file 30 in the middleware music reproducing unit and prepares for reproduction.
[0065]
Next, the audio reproducing device 1 determines whether or not the HV chunk 36 is present in the SMAF file 30 (step S32).
If there is an HV chunk 36 in step S32, the audio reproducing device 1 interprets the contents of the HV chunk 36 (step S33).
Next, the sound reproducing device 1 registers user tone color parameters, registers a user phrase synthesis dictionary, and registers a script (step S34).
[0066]
When there is no HV chunk 36 in step S32, or when the registration in step 34 is completed, the audio reproducing device 1 interprets the chunk of the music part (step S35).
Next, the audio reproducing device 1 performs music reproduction by starting interpretation of the sequence data (actual performance data) in the sequence data chunk 35 in response to the “start” signal (step S36).
[0067]
In this reproduction, in the process of sequentially interpreting events in the sequence data, the audio reproduction device 1 determines whether or not the event is HV note-on (step S37).
If it is determined in step S37 that the HV note is on, the audio reproduction device 1 starts reproducing the HV script data of the HV chunk designated by the HV note on (step S38).
[0068]
After this step S38, the audio reproducing device 1 performs the reproducing operation of the user phrase dictionary shown in FIG.
That is, the audio reproducing device 1 monitors whether or not there is a voice quality change event (X event) that specifies the user tone color parameter 12 in the reproduction in step S38 (step S39).
[0069]
If a voice quality change event is found in step S39, the phrase ID assigned to the mora is searched from the user tone parameter 12 and the data corresponding to the phrase ID is read from the user phrase synthesis dictionary 13 and the default synthesis managed by the HV driver. Of the data in the dictionary 19, the corresponding mora dictionary data is replaced with user phrase dictionary data (step S40).
The replacement process in step S40 may be performed in advance before reproduction.
[0070]
When step S40 is completed, and when no voice quality change event is found in step S39, the converter 16 interprets the script mora and finally converts it to formant frame sequence data using the HV driver (step S40). S41).
[0071]
Next, the audio reproducing device 1 reproduces the data converted in step S41 in the HV portion of the sound source 20 (step S42).
Next, the audio reproducing device 1 determines whether or not the music has ended (step S43). When the music has ended, the audio reproducing device 1 ends the reproduction of the SMAF file 30, and when the music has not ended, the process returns to step S37.
[0072]
In step S37, when the event is not HV note-on, the audio reproducing device 1 converts the event into music source reproduction event data as music data (step S44).
Next, the audio reproducing device 1 reproduces the data converted in step S44 on the music portion of the sound source 20 (step S45).
[0073]
Thus, according to the present embodiment, the method of reproducing by formant synthesis using the resources of the FM sound source has the following three advantages.
First, according to this embodiment, a user can assign a favorite phrase. Thereby, it is possible to perform reproduction closer to the favorite voice color without depending on the fixed dictionary.
Secondly, according to the present embodiment, a part of the default synthesis dictionary 19 is replaced with the user phrase synthesis dictionary 13, so that it is possible to avoid an excessive increase in the data capacity in the audio reproduction device 1. In addition, since a part of the default synthesis dictionary 19 can be replaced with an arbitrary phrase, it is possible to pronounce in units of phrases, and to eliminate the uncomfortable feeling at the joints of the pronunciations that occur in the synthesized speech of conventional pronunciation units. it can.
Thirdly, according to the present embodiment, since an arbitrary phrase can be designated in the HV script, synthesis in mora units and pronunciation in phrase units can be used in combination.
[0074]
Furthermore, according to the present embodiment, it is possible to change the voice color at the formant level as compared with the method of reproducing the waveform data configured by sampling the phrase in advance. According to the present embodiment, although the data size and quality depend on the frame rate, high-quality reproduction can be performed with a much smaller data capacity than the sampling waveform data. Therefore, for example, the audio reproducing device 1 of the present embodiment can be easily incorporated into a mobile communication terminal such as a mobile phone, and the contents of an e-mail can be reproduced with high quality audio.
[0075]
As mentioned above, although embodiment of this invention was explained in full detail with reference to drawings, the specific structure is not restricted to this embodiment, The design change etc. of the range which does not deviate from the summary of this invention are included.
[0076]
【The invention's effect】
As described above, according to the present invention, data held in the pronunciation unit in the synthesis dictionary can be replaced with arbitrary user data, so that a desired phrase can be reproduced with high quality sound.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an audio reproduction device according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating an example in which a phrase ID is assigned to each sound generation unit.
FIG. 3 is a diagram showing an example of the contents of a user phrase synthesis dictionary.
FIG. 4 is a diagram showing a format of a SMAF file.
FIG. 5 is a functional image diagram showing an example of an HV authoring tool.
FIG. 6 is a block diagram illustrating an example of a mobile communication terminal including the audio reproduction device according to the present embodiment.
FIG. 7 is a flowchart of a method for creating a user phrase synthesis dictionary.
FIG. 8 is a flowchart of a reproduction operation of a user phrase synthesis dictionary.
FIG. 9 is a flowchart illustrating a method for producing a SMAF file.
10 is a flowchart of a method for reproducing a SMAF file 30. FIG.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Voice reproduction apparatus, 11 ... Script, 12 ... User tone color parameter, 13 ... User phrase synthetic | combination dictionary (variable length), 14 ... Application, 15 ... Middleware API, 16 ... Converter, 17 ... Driver, 18 ... Default tone color parameter, 19 ... Default composition dictionary, 20 ... Sound source, 30 ... SMAF file, 31 ... Content info chunk, 32 ... Optional data chunk, 33 ... Track chunk, 34 ... Setup data chunk, 35 ... Sequence data Chunk, 36 ... HV chunk, 37 ... HV setup data chunk, 38 ... HV user phrase / dictionary chunk, 39 ... HV-S chunk, 41 ... SMF file, 42 ... HV authoring tool, 43 ... SMAF file, 44 ... HV script UI 45 ... HV voice editor 46 ... waveform analyzer 47 ... HV script file 48 ... HV user tone file 49 ... HV user synthesis dictionary file 50 ... sound file

Claims (6)

予め発音単位に対応するフォルマントフレームデータを保持するデータベースである合成辞書を有して、発音単位が羅列された情報が与えられることにより前記合成辞書を用いて音声合成する音声再生装置において、
前記合成辞書に保持されている発音単位のフォルマントフレームデータをフレーズ単位で取得されたフォルマントフレームデータであるユーザデータに置き換える置換手段と、
前記発音単位が羅列された情報が与えられたときに、前記置換手段によって保持データが置き換えられた前記合成辞書を用いて音声を合成する音声合成手段とを有することを特徴とする音声再生装置。
In a voice reproduction apparatus that has a synthesis dictionary that is a database that holds formant frame data corresponding to pronunciation units in advance, and that synthesizes speech using the synthesis dictionary by being given information in which pronunciation units are listed,
Substitution means for replacing formant frame data in pronunciation units held in the synthesis dictionary with user data that is formant frame data acquired in phrase units ;
And a voice synthesizing unit that synthesizes a voice using the synthesis dictionary in which retained data is replaced by the replacing unit when the information in which the pronunciation units are arranged is given.
前記ユーザデータは、前記合成辞書に保持されるフォルマントフレームデータを加工する音色パラメータに付加されていることを特徴とする請求項記載の音声再生装置。The user data, sound reproducing apparatus according to claim 1, characterized in that it is added to the tone color parameters for processing the formant frame data held in the synthesis dictionary. 前記置換手段は、前記ユーザデータが付加されている音色パラメータが与えられ、かつ、再生時に該音色パラメータが指定されたときに、前記合成辞書の保持データであるフォルマントフレームデータを、前記ユーザデータに置き換え、
前記音声合成手段は、音声単位の羅列情報が与えられたときに、前記音色パラメータにより置き換えられた合成辞書を用いて音声合成することを特徴とする請求項1または2のいずれか一項に記載の音声再生装置。
When the timbre parameter to which the user data is added is given and the timbre parameter is designated at the time of reproduction, the replacement means converts formant frame data, which is data held in the synthesis dictionary, to the user data. Replace,
Said speech synthesis means, when the enumeration information of the speech units given according to any one of claims 1 or 2, characterized in that the speech synthesized using synthesis dictionary is replaced by the tone color parameter Audio playback device.
前記音声再生装置は、
楽曲及び音声を同期させて所望データを再生するための情報構造を定義したデータ交換フォーマットに、前記ユーザデータを含ませ、該データ交換フォーマットを用いて音声を合成するものであることを特徴とする請求項1から3のいずれか一項に記載の音声再生装置。
The audio playback device
The user exchange is included in a data exchange format that defines an information structure for reproducing desired data by synchronizing music and voice, and voice is synthesized using the data exchange format. The audio reproduction device according to any one of claims 1 to 3 .
前記音声再生装置は、
前記データ交換フォーマットとして構成された情報に含まれる楽曲部情報についてはそのまま再生し、該情報に含まれる音声情報については前記置換手段及び前記音声合成手段を用いて再生するものであることを特徴とする請求項に記載の音声再生装置。
The audio playback device
The music piece information included in the information configured as the data exchange format is reproduced as it is, and the audio information included in the information is reproduced using the replacing unit and the voice synthesizing unit. The sound reproducing device according to claim 4 .
前記データ交換フォーマットは、音声パラメータに前記ユーザデータを付加した情報を構成要素とすることを特徴とする請求項4または5記載の音声再生装置。6. The audio reproducing apparatus according to claim 4 , wherein the data exchange format includes information obtained by adding the user data to an audio parameter.
JP2003152895A 2003-05-29 2003-05-29 Audio playback device Expired - Fee Related JP4244706B2 (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2003152895A JP4244706B2 (en) 2003-05-29 2003-05-29 Audio playback device
TW093115132A TWI265718B (en) 2003-05-29 2004-05-27 Speech and music reproduction apparatus
CNB2004100474146A CN1310209C (en) 2003-05-29 2004-05-28 Speech and music regeneration device
KR1020040038415A KR100612780B1 (en) 2003-05-29 2004-05-28 Speech and music reproduction apparatus
HK05101981A HK1069433A1 (en) 2003-05-29 2005-03-08 Speech and music reproduction apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003152895A JP4244706B2 (en) 2003-05-29 2003-05-29 Audio playback device

Publications (2)

Publication Number Publication Date
JP2004354748A JP2004354748A (en) 2004-12-16
JP4244706B2 true JP4244706B2 (en) 2009-03-25

Family

ID=34047998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003152895A Expired - Fee Related JP4244706B2 (en) 2003-05-29 2003-05-29 Audio playback device

Country Status (1)

Country Link
JP (1) JP4244706B2 (en)

Also Published As

Publication number Publication date
JP2004354748A (en) 2004-12-16

Similar Documents

Publication Publication Date Title
US7230177B2 (en) Interchange format of voice data in music file
KR100591655B1 (en) Speech Synthesis Method, Speech Synthesis Device and Computer-readable Recording Media for Speech Synthesis
US5890115A (en) Speech synthesizer utilizing wavetable synthesis
JP2000194360A (en) Method and device for electronically generating sound
KR20010030034A (en) Musical sound generation control apparatus, portable terminal using the same and system
JP2001215979A (en) Karaoke device
CN101000761B (en) Tone synthesis apparatus and method
KR100634142B1 (en) Potable terminal device
CN100461262C (en) Terminal device, guide voice reproducing method and storage medium
JP4244706B2 (en) Audio playback device
JP2002196779A (en) Method and apparatus for changing musical sound of sound signal
JP2005208394A (en) Singing voice generating unit, its program and portable communication equipment having singing voice generating function
KR100612780B1 (en) Speech and music reproduction apparatus
JPH11161298A (en) Method and device for voice synthesizer
JP2003029774A (en) Voice waveform dictionary distribution system, voice waveform dictionary preparing device, and voice synthesizing terminal equipment
KR100731232B1 (en) Musical data editing and reproduction apparatus, and portable information terminal therefor
JPH0895588A (en) Speech synthesizing device
JP2000231396A (en) Speech data making device, speech reproducing device, voice analysis/synthesis device and voice information transferring device
JP2005156946A (en) Music reproducing device, voice reproducing device, method for reproducing music and voice and its program
KR101236496B1 (en) E-mail Transmission Terminal and E-mail System
JP2004294795A (en) Tone synthesis control data, recording medium recording the same, data generating device, program, and tone synthesizer
JPH1011096A (en) Karaoke device
JP2005107136A (en) Voice and musical piece reproducing device
JP2004157238A (en) Mobile terminal
JP2005229511A (en) Musical sound generation apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081229

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140116

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees