JP3870583B2 - 音声合成装置および記憶媒体 - Google Patents
音声合成装置および記憶媒体 Download PDFInfo
- Publication number
- JP3870583B2 JP3870583B2 JP35015498A JP35015498A JP3870583B2 JP 3870583 B2 JP3870583 B2 JP 3870583B2 JP 35015498 A JP35015498 A JP 35015498A JP 35015498 A JP35015498 A JP 35015498A JP 3870583 B2 JP3870583 B2 JP 3870583B2
- Authority
- JP
- Japan
- Prior art keywords
- vowel
- character string
- morpheme
- vcv
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 claims description 36
- 238000003786 synthesis reaction Methods 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 abstract description 15
- 239000002131 composite material Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
Images
Description
【発明の属する技術分野】
本発明は、入力された文字列を合成音声で読み上げる音声合成装置、およびその音声合成装置を機能させるためのコンピュータプログラムが記憶された記憶媒体に関する。
【0002】
【従来の技術】
従来、音声合成装置では、音声合成の対象となる入力文字列の総てを1文字単位で音声合成すると、合成音声間に不連続部分が発生し、不自然に聞こえてしまうため、言語としての意味合いを有する所定数の音節に基づいて作成された形態素などの合成単位については、形態素単位で発声したものを記憶しておき、その形態素などの合成単位とそれ以外の合成単位とを組み合わせることにより、自然に聞こえる合成音声を作成する手法が知られている。
その手法の一例を図5に示す。図5は、「デンワバンゴー」という合成音声を得る場合の具体例を示すものであり、「デ」と発声した音声から作成されたVCV(母音−子音−母音の連続した単位)と、「エン」と発声した音声から作成されたVCVと、「ワ」と発声した音声から作成されたVCVと、「バンゴー」と発声した音声から作成された形態素とを合成することにより、「デンワバンゴー」という合成音声を得る。なお、図5においてQは無音を表す。
【0003】
【発明が解決しようとする課題】
しかし、上記従来の手法によれば、VCVと形態素とを組み合わせることにより、ある程度自然に聞こえるようになるが、図5に示すように、形態素の先頭の子音「b」の前には無音Qが付されていることから、VCV「wa」と、形態素「bango:」の「ba」との間に無音Qが存在してしまうため、合成音声「デンワバンゴー」を出力した場合、「デンワ」と「バンゴー」との間が途切れてしまい、不自然に聞こえるという問題がある。
つまり、従来の音声合成装置では、VCVと、形態素とを合成する場合、VCVと形態素との間が途切れてしまい、不自然に聞こえるという問題がある。
【0004】
そこで、本発明は、VCVと、形態素とを合成する場合、VCVと形態素との間が途切れず、自然に聞こえる音声合成装置、およびその音声合成装置を機能させるためのコンピュータプログラムが記憶された記憶媒体を実現することを目的とする。
【0005】
【課題を解決するための手段】
本発明は、上記目的を達成するため、請求項1に記載の発明では、言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない形態素単位の音声データが記憶された第1の記憶手段と、母音定常部から開始し、子音を経て前記第1の記憶手段に記憶された前記形態素単位の音声データの最初の音節の母音定常部と同一の母音を最後の母音定常部に有するVCV単位の音声データが記憶された第2の記憶手段と、文字列を入力する文字列入力手段と、この文字列入力手段によって入力された文字列の中に、前記第1の記憶手段に記憶された形態素単位の音声データに対応する文字列が存在するか否かを判定する判定手段と、この判定手段によって前記文字列入力手段によって入力された文字列の中に前記第1の記憶手段に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを前記第1の記憶手段から読出し、前記入力された文字列の内、前記第1の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、VCV単位の音声データを前記第2の記憶手段から読出し、前記第2の記憶手段から読出したVCV単位の音声データが前記入力された文字列の前半部に対応するものであり、かつ、前記第1の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、前記読出したVCV単位の音声データおよび形態素単位の音声データを、前記VCV単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて1つの母音となるように合成する合成手段と、この合成手段によって合成された合成音声を出力する出力手段と、が備えられたという技術的手段を採用する。
【0006】
請求項2に記載の発明では、請求項1に記載の音声合成装置において、前記第1の記憶手段に記憶された形態素単位の音声データの中で、文末に用いる形態素単位の音声データは、最初の音節の母音定常部から最後の音節に続く無音を含む部分までの所定数の音節に基づいて作成されたものであるという技術的手段を採用する。
【0007】
請求項3に記載の発明では、言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない形態素単位の音声データが記憶された第1の記憶領域と、母音定常部から開始し、子音を経て前記第1の記憶手段に記憶された前記形態素単位の音声データの最初の音節の母音定常部と同一の母音を最後の母音定常部に有するVCV単位の音声データが記憶された第2の記憶領域とを有しており、文字列を入力する文字列入力処理と、この文字列入力処理によって入力された文字列の中に、前記第1の記憶領域に記憶された形態素単位の音声データに対応する文字列が存在するか否かを判定する判定処理と、この判定処理によって前記文字列入力処理によって入力された文字列の中に前記第1の記憶領域に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを前記第1の記憶領域から読出し、前記入力された文字列の内、前記第1の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、VCV単位の音声データを前記第2の記憶手段から読出し、前記第2の記憶手段から読出したVCV単位の音声データが前記入力された文字列の前半部に対応するものであり、かつ、前記第1の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、前記読出したVCV単位の音声データおよび形態素単位の音声データを、前記VCV単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて1つの母音となるように合成する合成処理と、この合成処理によって合成された合成音声を出力する出力処理と、をコンピュータに実行させるための音声合成処理プログラムを含むコンピュータプログラムが記憶された記憶媒体という技術的手段を採用する。
【0008】
【作用】
請求項1および請求項2に記載の発明では、第1の記憶手段が記憶する形態素単位の音声データは、言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない。また、第2の記憶手段が記憶するVCV単位の音声データは、母音定常部から開始し、子音を経て第1の記憶手段に記憶された形態素の最初の音節の母音定常部と同一の母音を最後に有する母音定常部で終了する。
そして、判定手段は、入力された文字列の中に形態素単位の音声データに対応する文字列が含まれているかを判定し、合成手段は、判定手段によって文字列入力手段によって入力された文字列の中に第1の記憶手段に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを第1の記憶手段から読出し、入力された文字列の内、前記第1の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、VCV単位の音声データを第2の記憶手段から読出し、第2の記憶手段から読出したVCV単位の音声データが入力された文字列の前半部に対応するものであり、かつ、第1の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、読出したVCV単位の音声データおよび形態素単位の音声データを、前記VCV単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて1つの母音となるように合成する。
つまり、VCV単位の音声データの後に形態素単位の音声データを合成する場合、形態素単位の音声データの最初の音節は、先頭に無音が存在せず、母音定常部から開始しており、従来のように、無音から開始していないし、さらに、VCV単位の音声データおよび形態素単位の音声データを、VCV単位の音声データの最後の母音定常部に有する母音と形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて1つの母音となるように合成するため、合成音声は、VCVと形態素との間が途切れない自然な合成音声を出力できる。また、形態素単位の音声データの最後の音節は母音定常部で終了し、後尾には無音が存在しないため、形態素単位の音声データの後にVCV単位の音声データを合成する場合も、形態素とVCVとの間が途切れない自然な合成音声を出力できる。
【0009】
また、形態素が文末にくる場合には、請求項2に記載の発明のように、第1の記憶手段に記憶された形態素単位の音声データの中で、文末に用いる形態素単位の音声データを、最初の音節の母音定常部から最後の音節に続く無音を含む部分までの所定数の音節に基づいて作成されたものにすることにより、最後の音節を自然な合成音声で出力できる。
【0010】
そして、請求項3に記載の発明では、言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない形態素単位の音声データが記憶された第1の記憶領域と、母音定常部から開始し、子音を経て前記第1の記憶手段に記憶された前記形態素単位の音声データの最初の音節の母音定常部と同一の母音を最後の母音定常部に有するVCV単位の音声データが記憶された第2の記憶領域とを有しており、文字列を入力する文字列入力処理と、この文字列入力処理によって入力された文字列の中に、前記第1の記憶領域に記憶された形態素単位の音声データに対応する文字列が存在するか否かを判定する判定処理と、この判定処理によって前記文字列入力処理によって入力された文字列の中に前記第1の記憶領域に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを前記第1の記憶領域から読出し、前記入力された文字列の内、前記第1の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、VCV単位の音声データを前記第2の記憶手段から読出し、前記第2の記憶手段から読出したVCV単位の音声データが前記入力された文字列の前半部に対応するものであり、かつ、前記第1の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、前記読出したVCV単位の音声データおよび形態素単位の音声データを、前記VCV単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて1つの母音となるように合成する合成処理と、この合成処理によって合成された合成音声を出力する出力処理と、をコンピュータに実行させるための音声合成処理プログラムを含むコンピュータプログラムが記憶された記憶媒体という構成であるため、その記憶媒体を用いることにより、前述の請求項1に記載の音声合成装置を実現できる。
つまり、たとえば、後述する発明の実施の形態に記載するように、上記音声合成装置は、音声合成装置に内蔵されたCPUによって機能することから、そのCPUが実行する音声合成処理プログラムが記憶された上記記憶媒体としてのハードディスクドライブ(以下、HDDと略称する)などを音声合成装置に設けることによって、上記請求項1に記載の音声合成装置を実現できるからである。
【0011】
【発明の実施の形態】
以下、本発明の音声合成装置の一実施形態について図を参照して説明する。
なお、以下では、「電話番号」という文字列を入力し、「デンワバンゴー」という合成音声を出力する場合を例に挙げて説明する。
最初に、本実施形態の音声合成装置の主な電気的構成について、それを示す図1を参照して説明する。
本実施形態の音声合成装置10には、音声合成処理などを行うCPU20が内蔵されており、CPU20は、入出力インターフェース14に接続されており、入出力インターフェース14には、HDD13が接続されている。
ここで、HDD13の記憶内容について、それを示す図2(a)を参照して説明する。
HDD13には、形態素単位の音声データ、形態素の読み、アクセント型、文法などのデータが記憶された辞書13aと、VCVデータベース13cと、形態素データベース13dと、CPU20が音声合成処理を行うための音声合成処理プログラム13eなどが記憶されている。
【0012】
VCVデータベース13cは、母音定常部から開始し、子音を経て母音定常部で終了する合成単位から構成されており、形態素データベース13dは、形態素単位で発声した音声を、その最初の音節の母音定常部から最後の音節の母音定常部までを切り出した合成単位から構成されている。
本実施形態では、VCVデータベース13cおよび形態素データベース13dの記憶内容を説明する図2(b)に示すように、VCVデータベース13cは、「de」と発声した音声から作成されたVCV単位の音声データ(D0)、「en」と発声した音声から作成されたVCV単位の音声データ(D1)、「n wa」と発声した音声から作成されたVCV単位の音声データ(D2)、「a ba」と発声した音声から作成されたVCV単位の音声データ(D3)などから構成されている。また、形態素データベース13dは、「bango:」と発声した音声から作成された形態素単位の音声データ(D10)、「shiteiru」と発生した音声から作成された文末用の形態素単位の音声データ(D20)などが記憶されている。
形態素単位の音声データD10は、最初の音節「ba」の母音「a」の母音定常部から開始し、最後の音節「go:」の母音定常部「o:」で終了している。つまり、形態素単位の音声データD10の先頭および後尾には無音Qが存在しない。また、形態素単位の音声データD20は、最初の音節「shi」の母音「i」の母音定常部から開始し、最後の音節「ru」に続く無音Qを含む部分で終了している。つまり、形態素単位の音声データD20の後尾には無音Qが存在する。
【0013】
ここで、図1の説明に戻り、入出力インターフェース14には、RAM11と、ROM12とが接続されている。ROM12には、この音声合成装置10を起動させるための起動プログラムなどが記憶されており、RAM11は、ROM12またはHDD13から読出されたプログラムやCPU20の処理結果などを一時的に格納する。また、入出力インターフェース14には、CPU20によって合成された音声をアナログの音声信号に変換するとともに、所定の増幅を行うオーディオ部15が接続されており、このオーディオ部15にはスピーカ16が接続されている。さらに、入出力インターフェース14には、文字列を入力するためのキーボード17と、このキーボード17によって入力された文字列などを表示するディスプレイ18とが接続されている。
【0014】
次に、CPU20が実行する音声合成処理の流れについて図2(c)および図3を参照しつつ、図4を中心に説明する。
図2(c)は、VCV単位の音声データの後に形態素単位の音声データを合成する原理を模式的に示す説明図であり、図3は、CPU20が実行する音声合成処理の内容をブロックで示す説明図であり、図4は、CPU20が実行する音声合成処理の流れを示すフローチャートである。
まず、音声合成装置10を操作する者(以下、操作者と称する)が、音声合成処理プログラム13eを立上げ、キーボード17によって「電話番号」と入力すると、CPU20は、その文字列を入力し(図4のステップ(以下、Sと称する)10)、音声合成指令があるか否かを判定する(S12)。この音声合成指令は、たとえば、キーボード17の実行キーを押すことにより行う。
【0015】
CPU20は、音声合成指令があると判定すると(S12:Yes)、言語解析部21によって、入力された文字列の言語解析を行う(S14)。この言語解析では、辞書13aを参照しながら、入力された文字列を、読みを表す片仮名と韻律記号とから構成される合成文字列に変換し、その合成文字列を音声パラメータ設定部22に送る処理が行われる。韻律記号は、アクセント句やフレーズ句であることを表す区切り記号と、アクセントやポーズを表す記号とから構成される。ここでは、入力された文字列「電話番号」を合成文字列「デンワバ’ンゴー」に変換し、その合成文字列を音声パラメータ設定部22に送る処理が行われる。
続いて、CPU20は、音声パラメータ設定部22により、言語解析部21から送られた合成文字列を入力し(S16)、その合成文字列の中に形態素データベース13dに記憶されている形態素単位の音声データに対応する合成文字列が含まれているか否かを判定する(S18)。
ここでは、音声パラメータ設定部22は、合成文字列「デンワバ’ンゴー」の中の合成文字列「バンゴー」が形態素データベース13dに記憶されている形態素単位の音声データ「bango:」と対応すると判定する(S18:Yes)。
【0016】
続いて、音声パラメータ設定部22は、形態素データベース13dに記憶されている形態素単位の音声データに対応する合成文字列については形態素データベース13dに記憶されている形態素単位の音声データのアドレスを設定する(S20)。ここでは、形態素単位の音声データ「bango:」のアドレスD10を設定する。
続いて、音声パラメータ設定部22は、形態素データベース13dに記憶されている形態素単位の音声データに対応しない合成文字列についてはVCVデータベース13cに記憶されているVCV単位の音声データのアドレスを設定する(S22)。ここでは、合成文字列「デンワ」が形態素単位の音声データに対応しないため、VCVデータベース13cに記憶されているVCV単位の音声データ「de」、VCV単位の音声データ「en」、VCV単位の音声データ「a wa」およびVCV単位の音声データ「a ba」の各アドレスD0、D1、D2およびD3を設定する。
さらに、音声パラメータ設定部22は、言語解析部21において解析されたアクセントやアクセント句記号に基づいて、合成音声のピッチや音韻継続時間などのパラメータを各アドレスD0〜D10に対応付けて設定し、これらを音声合成部23に送る。
【0017】
そして、音声合成部23は、音声パラメータ設定部22で設定された各アドレズD0〜D3に対応するVCV単位の音声データをVCVデータベース13cから読出すとともに、アドレスD10に対応する形態素単位の音声データを形態素データベース13dから読出し、それらを図2(c)に示すように合成する(S24)。
つまり、VCV単位の音声データ「ba」の子音「b」の次の母音「a」の母音定常部までの部分と、形態素単位の音声データの最初の母音「a」の母音定常部から開始する部分とが合成され、1つの母音「a」が合成される。
続いて、音声合成部23は、上記合成されたデータをオーディオ部15(図1)へ出力する(S26)。そして、オーディオ部15は、音声合成部23から出力されたデータを、設定されているパラメータに対応するアナログの音声信号に変換するとともに、所定の増幅を行ってスピーカ16へ出力し、スピーカ16が合成音声を再生する。ここでは、スピーカ16は「デンワバンゴー」と再生するが、図2(c)に示すように、VCV単位の音声データの後尾と形態素単位の音声データの先頭との間には無音Qが存在しないため、VCVと形態素との間が途切れない自然な音で再生できる。
なお、合成文字列の中に形態素単位の音声データと対応する合成文字列が含まれていない場合は(S18:No)、総ての合成文字列についてVCVデータベース13cのVCV単位の音声データを設定する(S28)。
【0018】
以上のように、本実施形態の音声合成装置10を使用すれば、VCV単位の音声データと、形態素単位の音声データとを合成する場合、VCVと形態素との間が途切れず、自然に聞こえる合成音声を再生することができる。
また、上記実施形態では、VCV単位の音声データの後に形態素単位の音声データを合成する場合を例に挙げて説明したが、形態素単位の音声データの後にVCV単位の音声データを合成することもできる。この場合も、形態素単位の音声データの最後の音節は母音定常部で終了しており、無音Qが付されていないため、形態素とVCVとの間が途切れない自然な合成音声を再生することができる。
さらに、合成文字列の中に「シテイル」というような文末に用いる文字列が含まれている場合には、その文字列に対応する文末用の形態素単位の音声データD20「shiteiru Q」(図2(b))を読出し合成する。
つまり、最後の音節に続く無音Qを含む部分までを読出して合成することができるため、文末の合成音声の最後を自然な合成音声で出力することができる。
【0019】
ところで、形態素データベース13dが、本発明の第1の記憶手段、または、第1の記憶領域に対応し、VCVデータベース13cが、第2の記憶手段、または、第2の記憶領域に対応し、キーボード17が文字列入力手段に対応する。
また、上記実施形態では、音声合成処理プログラム13eが音声合成装置10内のHDD13に記憶されている構成を用いたが、音声合成処理プログラム13eをCD−ROMやフロッピーディスクなどに記憶し、それらを本音声合成装置10に備えられた読取装置(図示省略)を用いてHDD13やRAM11にインストールすることによって音声合成処理を行うように構成することもできる。この場合、上記CD−ROMやFDなどが、請求項3に記載の記憶媒体として機能する。さらに、外部情報処理装置から有線または無線の通信手段を介してコンピュータプログラムを読み込んで動作させることもできる。
【0020】
また、CPU20が実行するS18が、請求項1の判定手段および請求項3の判定処理として機能し、S20〜S24およびS28が、請求項1の合成手段および請求項3の合成処理として機能し、S26が請求項1の出力手段および請求項3の出力処理として機能する。
【0021】
【発明の効果】
以上のように、請求項1および請求項2に記載の発明によれば、言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない形態素単位の音声データが記憶された第1の記憶手段と、母音定常部から開始し、子音を経て前記第1の記憶手段に記憶された前記形態素単位の音声データの最初の音節の母音定常部と同一の母音を最後の母音定常部に有するVCV単位の音声データが記憶された第2の記憶手段と、文字列を入力する文字列入力手段と、この文字列入力手段によって入力された文字列の中に、前記第1の記憶手段に記憶された形態素単位の音声データに対応する文字列が存在するか否かを判定する判定手段と、この判定手段によって前記文字列入力手段によって入力された文字列の中に前記第1の記憶手段に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを前記第1の記憶手段から読出し、前記入力された文字列の内、前記第1の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、VCV単位の音声データを前記第2の記憶手段から読出し、前記第2の記憶手段から読出したVCV単位の音声データが前記入力された文字列の前半部に対応するものであり、かつ、前記第1の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、前記読出したVCV単位の音声データおよび形態素単位の音声データを、前記VCV単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて1つの母音となるように合成する合成手段と、この合成手段によって合成された合成音声を出力する出力手段とを備える。
したがって、VCV単位の音声データの後に形態素単位の音声データを合成する場合、形態素単位の音声データの最初の音節は、先頭に無音が存在せず、母音定常部から開始しており、従来のように、無音から開始していないし、さらに、VCV単位の音声データおよび形態素単位の音声データを、VCV単位の音声データの最後の母音定常部に有する母音と形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて1つの母音となるように合成するため、合成音声は、VCVと形態素との間が途切れない自然な合成音声を出力できる。また、形態素単位の音声データの最後の音節は母音定常部で終了し、後尾には無音が存在しないため、形態素単位の音声データの後にVCV単位の音声データを合成する場合も、形態素とVCVとの間が途切れない自然な合成音声を出力できる。
【0022】
また、形態素が文末にくる場合には、請求項2に記載の発明のように、第1の記憶手段に記憶された形態素単位の音声データの中で、文末に用いる形態素単位の音声データを、最初の音節の母音定常部から最後の音節に続く無音を含む部分までの所定数の音節に基づいて作成されたものにすることにより、最後の音節を自然な合成音声で出力できる。
【0023】
そして、請求項3に記載の発明によれば、言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない形態素単位の音声データが記憶された第1の記憶領域と、母音定常部から開始し、子音を経て前記第1の記憶手段に記憶された前記形態素単位の音声データの最初の音節の母音定常部と同一の母音を最後の母音定常部に有するVCV単位の音声データが記憶された第2の記憶領域とを有しており、文字列を入力する文字列入力処理と、この文字列入力処理によって入力された文字列の中に、前記第1の記憶領域に記憶された形態素および第2の記憶領域に記憶されたVCVのいずれが存在するか否かを判定する判定処理と、この判定処理によって前記文字列入力処理によって入力された文字列の中に前記第1の記憶領域に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを前記第1の記憶領域から読出し、前記入力された文字列の内、前記第1の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、VCV単位の音声データを前記第2の記憶手段から読出し、前記第2の記憶手段から読出したVCV単位の音声データが前記入力された文字列の前半部に対応するものであり、かつ、前記第1の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、前記読出したVCV単位の音声データおよび形態素単位の音声データを、前記VCV単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて1つの母音となるように合成する合成処理と、この合成処理によって合成された合成音声を出力する出力処理と、をコンピュータに実行させるための音声合成処理プログラムを含むコンピュータプログラムが記憶された記憶媒体という構成であるため、その記憶媒体を用いることにより、前述の請求項1に記載の音声合成装置を実現できる。
【図面の簡単な説明】
【図1】 本発明実施形態の音声合成装置の主な電気的構成を示す説明図である。
【図2】 図2(a)は、HDD13の記憶内容を示す説明図であり、図2(b)は、VCVデータベース13cおよび形態素データベース13dの記憶内容を示す説明図であり、図2(c)は、VCVの後に形態素を合成する原理を模式的に示す説明図である。
【図3】 CPU20が実行する音声合成処理の内容をブロックで示す説明図である。
【図4】 CPU20が実行する音声合成処理の流れを示すフローチャートである。
【図5】 従来の合成音声を作成する手法を示す説明図である。
【符号の説明】
10 音声合成装置
13 HDD
13c VCVデータベース(第2の記憶手段)
13d 形態素データベース(第1の記憶手段)
13e 音声合成処理プログラム
16 スピーカ
17 キーボード(文字列入力手段)
20 CPU
21 言語解析部
22 音声パラメータ設定部
23 音声合成部
Claims (3)
- 言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない形態素単位の音声データが記憶された第1の記憶手段と、
母音定常部から開始し、子音を経て前記第1の記憶手段に記憶された前記形態素単位の音声データの最初の音節の母音定常部と同一の母音を最後の母音定常部に有するVCV単位の音声データが記憶された第2の記憶手段と、
文字列を入力する文字列入力手段と、
この文字列入力手段によって入力された文字列の中に、前記第1の記憶手段に記憶された形態素単位の音声データに対応する文字列が存在するか否かを判定する判定手段と、
この判定手段によって前記文字列入力手段によって入力された文字列の中に前記第1の記憶手段に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを前記第1の記憶手段から読出し、前記入力された文字列の内、前記第1の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、VCV単位の音声データを前記第2の記憶手段から読出し、前記第2の記憶手段から読出したVCV単位の音声データが前記入力された文字列の前半部に対応するものであり、かつ、前記第1の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、前記読出したVCV単位の音声データおよび形態素単位の音声データを、前記VCV単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて1つの母音となるように合成する合成手段と、
この合成手段によって合成された合成音声を出力する出力手段と、
が備えられたことを特徴とする音声合成装置。 - 前記第1の記憶手段に記憶された形態素単位の音声データの中で、文末に用いる形態素単位の音声データは、最初の音節の母音定常部から最後の音節に続く無音を含む部分までの所定数の音節に基づいて作成されたものであることを特徴とする請求項1に記載の音声合成装置。
- 言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない形態素単位の音声データが記憶された第1の記憶領域と、
母音定常部から開始し、子音を経て前記第1の記憶手段に記憶された前記形態素単位の音声データの最初の音節の母音定常部と同一の母音を最後の母音定常部に有するVCV単位の音声データが記憶された第2の記憶領域とを有しており、
文字列を入力する文字列入力処理と、
この文字列入力処理によって入力された文字列の中に、前記第1の記憶領域に記憶された形態素単位の音声データに対応する文字列が存在するか否かを判定する判定処理と、
この判定処理によって前記文字列入力処理によって入力された文字列の中に前記第1の記憶領域に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを前記第1の記憶領域から読出し、前記入力された文字列の内、前記第1の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、VCV単位の音声データを前記第2の記憶手段から読出し、前記第2の記憶手段から読出したVCV単位の音声データが前記入力された文字列の前半部に対応するものであり、かつ、前記第1の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、前記読出したVCV単位の音声データおよび形態素単位の音声データを、前記VCV単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて1つの母音となるように合成する合成処理と、
この合成処理によって合成された合成音声を出力する出力処理と、
をコンピュータに実行させるための音声合成処理プログラムを含むコンピュータプログラムが記憶されたことを特徴とする記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35015498A JP3870583B2 (ja) | 1998-12-09 | 1998-12-09 | 音声合成装置および記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35015498A JP3870583B2 (ja) | 1998-12-09 | 1998-12-09 | 音声合成装置および記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000172287A JP2000172287A (ja) | 2000-06-23 |
JP3870583B2 true JP3870583B2 (ja) | 2007-01-17 |
Family
ID=18408599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP35015498A Expired - Fee Related JP3870583B2 (ja) | 1998-12-09 | 1998-12-09 | 音声合成装置および記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3870583B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3830387B2 (ja) * | 2001-12-27 | 2006-10-04 | 株式会社第一興商 | リクエスト曲に特典を付与する仕組みに特徴を有するカラオケシステム、多機能カラオケリモコン装置 |
-
1998
- 1998-12-09 JP JP35015498A patent/JP3870583B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000172287A (ja) | 2000-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US7010489B1 (en) | Method for guiding text-to-speech output timing using speech recognition markers | |
JP5198046B2 (ja) | 音声処理装置及びそのプログラム | |
JP2003295882A (ja) | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP3518898B2 (ja) | 音声合成装置 | |
JP3870583B2 (ja) | 音声合成装置および記憶媒体 | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP4026512B2 (ja) | 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置 | |
JP3681111B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2001134283A (ja) | 音声合成装置および音声合成方法 | |
JP2894447B2 (ja) | 複合音声単位を用いた音声合成装置 | |
JP2642617B2 (ja) | 音声合成装置 | |
JP4736524B2 (ja) | 音声合成装置及び音声合成プログラム | |
JPH11282494A (ja) | 音声合成装置および記憶媒体 | |
JP4056647B2 (ja) | 波形接続型音声合成装置および方法 | |
JP2573586B2 (ja) | 規則型音声合成装置 | |
JP2001236086A (ja) | テキスト音声合成出力機能を有するゲーム装置 | |
JP2584236B2 (ja) | 規則音声合成装置 | |
JP2573585B2 (ja) | 音声スペクトルパタン生成装置 | |
JPH05210482A (ja) | 発音辞書管理方法 | |
JP2578876B2 (ja) | 文章読み上げ装置 | |
JP2006017819A (ja) | 音声合成方法、音声合成プログラム及び音声合成装置 | |
JP2001282274A (ja) | 音声合成装置及びその制御方法及び記憶媒体 | |
JPH04243299A (ja) | 音声出力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040922 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060718 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060821 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061009 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091027 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101027 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101027 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111027 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |