JP3870583B2

JP3870583B2 - 音声合成装置および記憶媒体

Info

Publication number: JP3870583B2
Application number: JP35015498A
Authority: JP
Inventors: 英之星川; 慈明小松
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 1998-12-09
Filing date: 1998-12-09
Publication date: 2007-01-17
Anticipated expiration: 2018-12-09
Also published as: JP2000172287A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力された文字列を合成音声で読み上げる音声合成装置、およびその音声合成装置を機能させるためのコンピュータプログラムが記憶された記憶媒体に関する。
【０００２】
【従来の技術】
従来、音声合成装置では、音声合成の対象となる入力文字列の総てを１文字単位で音声合成すると、合成音声間に不連続部分が発生し、不自然に聞こえてしまうため、言語としての意味合いを有する所定数の音節に基づいて作成された形態素などの合成単位については、形態素単位で発声したものを記憶しておき、その形態素などの合成単位とそれ以外の合成単位とを組み合わせることにより、自然に聞こえる合成音声を作成する手法が知られている。
その手法の一例を図５に示す。図５は、「デンワバンゴー」という合成音声を得る場合の具体例を示すものであり、「デ」と発声した音声から作成されたＶＣＶ（母音−子音−母音の連続した単位）と、「エン」と発声した音声から作成されたＶＣＶと、「ワ」と発声した音声から作成されたＶＣＶと、「バンゴー」と発声した音声から作成された形態素とを合成することにより、「デンワバンゴー」という合成音声を得る。なお、図５においてＱは無音を表す。
【０００３】
【発明が解決しようとする課題】
しかし、上記従来の手法によれば、ＶＣＶと形態素とを組み合わせることにより、ある程度自然に聞こえるようになるが、図５に示すように、形態素の先頭の子音「ｂ」の前には無音Ｑが付されていることから、ＶＣＶ「ｗａ」と、形態素「ｂａｎｇｏ：」の「ｂａ」との間に無音Ｑが存在してしまうため、合成音声「デンワバンゴー」を出力した場合、「デンワ」と「バンゴー」との間が途切れてしまい、不自然に聞こえるという問題がある。
つまり、従来の音声合成装置では、ＶＣＶと、形態素とを合成する場合、ＶＣＶと形態素との間が途切れてしまい、不自然に聞こえるという問題がある。
【０００４】
そこで、本発明は、ＶＣＶと、形態素とを合成する場合、ＶＣＶと形態素との間が途切れず、自然に聞こえる音声合成装置、およびその音声合成装置を機能させるためのコンピュータプログラムが記憶された記憶媒体を実現することを目的とする。
【０００５】
【課題を解決するための手段】
本発明は、上記目的を達成するため、請求項１に記載の発明では、言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない形態素単位の音声データが記憶された第１の記憶手段と、母音定常部から開始し、子音を経て前記第１の記憶手段に記憶された前記形態素単位の音声データの最初の音節の母音定常部と同一の母音を最後の母音定常部に有するＶＣＶ単位の音声データが記憶された第２の記憶手段と、文字列を入力する文字列入力手段と、この文字列入力手段によって入力された文字列の中に、前記第１の記憶手段に記憶された形態素単位の音声データに対応する文字列が存在するか否かを判定する判定手段と、この判定手段によって前記文字列入力手段によって入力された文字列の中に前記第１の記憶手段に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを前記第１の記憶手段から読出し、前記入力された文字列の内、前記第１の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、ＶＣＶ単位の音声データを前記第２の記憶手段から読出し、前記第２の記憶手段から読出したＶＣＶ単位の音声データが前記入力された文字列の前半部に対応するものであり、かつ、前記第１の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、前記読出したＶＣＶ単位の音声データおよび形態素単位の音声データを、前記ＶＣＶ単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて１つの母音となるように合成する合成手段と、この合成手段によって合成された合成音声を出力する出力手段と、が備えられたという技術的手段を採用する。
【０００６】
請求項２に記載の発明では、請求項１に記載の音声合成装置において、前記第１の記憶手段に記憶された形態素単位の音声データの中で、文末に用いる形態素単位の音声データは、最初の音節の母音定常部から最後の音節に続く無音を含む部分までの所定数の音節に基づいて作成されたものであるという技術的手段を採用する。
【０００７】
請求項３に記載の発明では、言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない形態素単位の音声データが記憶された第１の記憶領域と、母音定常部から開始し、子音を経て前記第１の記憶手段に記憶された前記形態素単位の音声データの最初の音節の母音定常部と同一の母音を最後の母音定常部に有するＶＣＶ単位の音声データが記憶された第２の記憶領域とを有しており、文字列を入力する文字列入力処理と、この文字列入力処理によって入力された文字列の中に、前記第１の記憶領域に記憶された形態素単位の音声データに対応する文字列が存在するか否かを判定する判定処理と、この判定処理によって前記文字列入力処理によって入力された文字列の中に前記第１の記憶領域に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを前記第１の記憶領域から読出し、前記入力された文字列の内、前記第１の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、ＶＣＶ単位の音声データを前記第２の記憶手段から読出し、前記第２の記憶手段から読出したＶＣＶ単位の音声データが前記入力された文字列の前半部に対応するものであり、かつ、前記第１の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、前記読出したＶＣＶ単位の音声データおよび形態素単位の音声データを、前記ＶＣＶ単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて１つの母音となるように合成する合成処理と、この合成処理によって合成された合成音声を出力する出力処理と、をコンピュータに実行させるための音声合成処理プログラムを含むコンピュータプログラムが記憶された記憶媒体という技術的手段を採用する。
【０００８】
【作用】
請求項１および請求項２に記載の発明では、第１の記憶手段が記憶する形態素単位の音声データは、言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない。また、第２の記憶手段が記憶するＶＣＶ単位の音声データは、母音定常部から開始し、子音を経て第１の記憶手段に記憶された形態素の最初の音節の母音定常部と同一の母音を最後に有する母音定常部で終了する。
そして、判定手段は、入力された文字列の中に形態素単位の音声データに対応する文字列が含まれているかを判定し、合成手段は、判定手段によって文字列入力手段によって入力された文字列の中に第１の記憶手段に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを第１の記憶手段から読出し、入力された文字列の内、前記第１の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、ＶＣＶ単位の音声データを第２の記憶手段から読出し、第２の記憶手段から読出したＶＣＶ単位の音声データが入力された文字列の前半部に対応するものであり、かつ、第１の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、読出したＶＣＶ単位の音声データおよび形態素単位の音声データを、前記ＶＣＶ単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて１つの母音となるように合成する。
つまり、ＶＣＶ単位の音声データの後に形態素単位の音声データを合成する場合、形態素単位の音声データの最初の音節は、先頭に無音が存在せず、母音定常部から開始しており、従来のように、無音から開始していないし、さらに、ＶＣＶ単位の音声データおよび形態素単位の音声データを、ＶＣＶ単位の音声データの最後の母音定常部に有する母音と形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて１つの母音となるように合成するため、合成音声は、ＶＣＶと形態素との間が途切れない自然な合成音声を出力できる。また、形態素単位の音声データの最後の音節は母音定常部で終了し、後尾には無音が存在しないため、形態素単位の音声データの後にＶＣＶ単位の音声データを合成する場合も、形態素とＶＣＶとの間が途切れない自然な合成音声を出力できる。
【０００９】
また、形態素が文末にくる場合には、請求項２に記載の発明のように、第１の記憶手段に記憶された形態素単位の音声データの中で、文末に用いる形態素単位の音声データを、最初の音節の母音定常部から最後の音節に続く無音を含む部分までの所定数の音節に基づいて作成されたものにすることにより、最後の音節を自然な合成音声で出力できる。
【００１０】
そして、請求項３に記載の発明では、言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない形態素単位の音声データが記憶された第１の記憶領域と、母音定常部から開始し、子音を経て前記第１の記憶手段に記憶された前記形態素単位の音声データの最初の音節の母音定常部と同一の母音を最後の母音定常部に有するＶＣＶ単位の音声データが記憶された第２の記憶領域とを有しており、文字列を入力する文字列入力処理と、この文字列入力処理によって入力された文字列の中に、前記第１の記憶領域に記憶された形態素単位の音声データに対応する文字列が存在するか否かを判定する判定処理と、この判定処理によって前記文字列入力処理によって入力された文字列の中に前記第１の記憶領域に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを前記第１の記憶領域から読出し、前記入力された文字列の内、前記第１の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、ＶＣＶ単位の音声データを前記第２の記憶手段から読出し、前記第２の記憶手段から読出したＶＣＶ単位の音声データが前記入力された文字列の前半部に対応するものであり、かつ、前記第１の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、前記読出したＶＣＶ単位の音声データおよび形態素単位の音声データを、前記ＶＣＶ単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて１つの母音となるように合成する合成処理と、この合成処理によって合成された合成音声を出力する出力処理と、をコンピュータに実行させるための音声合成処理プログラムを含むコンピュータプログラムが記憶された記憶媒体という構成であるため、その記憶媒体を用いることにより、前述の請求項１に記載の音声合成装置を実現できる。
つまり、たとえば、後述する発明の実施の形態に記載するように、上記音声合成装置は、音声合成装置に内蔵されたＣＰＵによって機能することから、そのＣＰＵが実行する音声合成処理プログラムが記憶された上記記憶媒体としてのハードディスクドライブ（以下、ＨＤＤと略称する）などを音声合成装置に設けることによって、上記請求項１に記載の音声合成装置を実現できるからである。
【００１１】
【発明の実施の形態】
以下、本発明の音声合成装置の一実施形態について図を参照して説明する。
なお、以下では、「電話番号」という文字列を入力し、「デンワバンゴー」という合成音声を出力する場合を例に挙げて説明する。
最初に、本実施形態の音声合成装置の主な電気的構成について、それを示す図１を参照して説明する。
本実施形態の音声合成装置１０には、音声合成処理などを行うＣＰＵ２０が内蔵されており、ＣＰＵ２０は、入出力インターフェース１４に接続されており、入出力インターフェース１４には、ＨＤＤ１３が接続されている。
ここで、ＨＤＤ１３の記憶内容について、それを示す図２（ａ）を参照して説明する。
ＨＤＤ１３には、形態素単位の音声データ、形態素の読み、アクセント型、文法などのデータが記憶された辞書１３ａと、ＶＣＶデータベース１３ｃと、形態素データベース１３ｄと、ＣＰＵ２０が音声合成処理を行うための音声合成処理プログラム１３ｅなどが記憶されている。
【００１２】
ＶＣＶデータベース１３ｃは、母音定常部から開始し、子音を経て母音定常部で終了する合成単位から構成されており、形態素データベース１３ｄは、形態素単位で発声した音声を、その最初の音節の母音定常部から最後の音節の母音定常部までを切り出した合成単位から構成されている。
本実施形態では、ＶＣＶデータベース１３ｃおよび形態素データベース１３ｄの記憶内容を説明する図２（ｂ）に示すように、ＶＣＶデータベース１３ｃは、「ｄｅ」と発声した音声から作成されたＶＣＶ単位の音声データ（Ｄ０）、「ｅｎ」と発声した音声から作成されたＶＣＶ単位の音声データ（Ｄ１）、「ｎｗａ」と発声した音声から作成されたＶＣＶ単位の音声データ（Ｄ２）、「ａｂａ」と発声した音声から作成されたＶＣＶ単位の音声データ（Ｄ３）などから構成されている。また、形態素データベース１３ｄは、「ｂａｎｇｏ：」と発声した音声から作成された形態素単位の音声データ（Ｄ１０）、「ｓｈｉｔｅｉｒｕ」と発生した音声から作成された文末用の形態素単位の音声データ（Ｄ２０）などが記憶されている。
形態素単位の音声データＤ１０は、最初の音節「ｂａ」の母音「ａ」の母音定常部から開始し、最後の音節「ｇｏ：」の母音定常部「ｏ：」で終了している。つまり、形態素単位の音声データＤ１０の先頭および後尾には無音Ｑが存在しない。また、形態素単位の音声データＤ２０は、最初の音節「ｓｈｉ」の母音「ｉ」の母音定常部から開始し、最後の音節「ｒｕ」に続く無音Ｑを含む部分で終了している。つまり、形態素単位の音声データＤ２０の後尾には無音Ｑが存在する。
【００１３】
ここで、図１の説明に戻り、入出力インターフェース１４には、ＲＡＭ１１と、ＲＯＭ１２とが接続されている。ＲＯＭ１２には、この音声合成装置１０を起動させるための起動プログラムなどが記憶されており、ＲＡＭ１１は、ＲＯＭ１２またはＨＤＤ１３から読出されたプログラムやＣＰＵ２０の処理結果などを一時的に格納する。また、入出力インターフェース１４には、ＣＰＵ２０によって合成された音声をアナログの音声信号に変換するとともに、所定の増幅を行うオーディオ部１５が接続されており、このオーディオ部１５にはスピーカ１６が接続されている。さらに、入出力インターフェース１４には、文字列を入力するためのキーボード１７と、このキーボード１７によって入力された文字列などを表示するディスプレイ１８とが接続されている。
【００１４】
次に、ＣＰＵ２０が実行する音声合成処理の流れについて図２（ｃ）および図３を参照しつつ、図４を中心に説明する。
図２（ｃ）は、ＶＣＶ単位の音声データの後に形態素単位の音声データを合成する原理を模式的に示す説明図であり、図３は、ＣＰＵ２０が実行する音声合成処理の内容をブロックで示す説明図であり、図４は、ＣＰＵ２０が実行する音声合成処理の流れを示すフローチャートである。
まず、音声合成装置１０を操作する者（以下、操作者と称する）が、音声合成処理プログラム１３ｅを立上げ、キーボード１７によって「電話番号」と入力すると、ＣＰＵ２０は、その文字列を入力し（図４のステップ（以下、Ｓと称する）１０）、音声合成指令があるか否かを判定する（Ｓ１２）。この音声合成指令は、たとえば、キーボード１７の実行キーを押すことにより行う。
【００１５】
ＣＰＵ２０は、音声合成指令があると判定すると（Ｓ１２：Ｙｅｓ）、言語解析部２１によって、入力された文字列の言語解析を行う（Ｓ１４）。この言語解析では、辞書１３ａを参照しながら、入力された文字列を、読みを表す片仮名と韻律記号とから構成される合成文字列に変換し、その合成文字列を音声パラメータ設定部２２に送る処理が行われる。韻律記号は、アクセント句やフレーズ句であることを表す区切り記号と、アクセントやポーズを表す記号とから構成される。ここでは、入力された文字列「電話番号」を合成文字列「デンワバ’ンゴー」に変換し、その合成文字列を音声パラメータ設定部２２に送る処理が行われる。
続いて、ＣＰＵ２０は、音声パラメータ設定部２２により、言語解析部２１から送られた合成文字列を入力し（Ｓ１６）、その合成文字列の中に形態素データベース１３ｄに記憶されている形態素単位の音声データに対応する合成文字列が含まれているか否かを判定する（Ｓ１８）。
ここでは、音声パラメータ設定部２２は、合成文字列「デンワバ’ンゴー」の中の合成文字列「バンゴー」が形態素データベース１３ｄに記憶されている形態素単位の音声データ「ｂａｎｇｏ：」と対応すると判定する（Ｓ１８：Ｙｅｓ）。
【００１６】
続いて、音声パラメータ設定部２２は、形態素データベース１３ｄに記憶されている形態素単位の音声データに対応する合成文字列については形態素データベース１３ｄに記憶されている形態素単位の音声データのアドレスを設定する（Ｓ２０）。ここでは、形態素単位の音声データ「ｂａｎｇｏ：」のアドレスＤ１０を設定する。
続いて、音声パラメータ設定部２２は、形態素データベース１３ｄに記憶されている形態素単位の音声データに対応しない合成文字列についてはＶＣＶデータベース１３ｃに記憶されているＶＣＶ単位の音声データのアドレスを設定する（Ｓ２２）。ここでは、合成文字列「デンワ」が形態素単位の音声データに対応しないため、ＶＣＶデータベース１３ｃに記憶されているＶＣＶ単位の音声データ「ｄｅ」、ＶＣＶ単位の音声データ「ｅｎ」、ＶＣＶ単位の音声データ「ａｗａ」およびＶＣＶ単位の音声データ「ａｂａ」の各アドレスＤ０、Ｄ１、Ｄ２およびＤ３を設定する。
さらに、音声パラメータ設定部２２は、言語解析部２１において解析されたアクセントやアクセント句記号に基づいて、合成音声のピッチや音韻継続時間などのパラメータを各アドレスＤ０〜Ｄ１０に対応付けて設定し、これらを音声合成部２３に送る。
【００１７】
そして、音声合成部２３は、音声パラメータ設定部２２で設定された各アドレズＤ０〜Ｄ３に対応するＶＣＶ単位の音声データをＶＣＶデータベース１３ｃから読出すとともに、アドレスＤ１０に対応する形態素単位の音声データを形態素データベース１３ｄから読出し、それらを図２（ｃ）に示すように合成する（Ｓ２４）。
つまり、ＶＣＶ単位の音声データ「ｂａ」の子音「ｂ」の次の母音「ａ」の母音定常部までの部分と、形態素単位の音声データの最初の母音「ａ」の母音定常部から開始する部分とが合成され、１つの母音「ａ」が合成される。
続いて、音声合成部２３は、上記合成されたデータをオーディオ部１５（図１）へ出力する（Ｓ２６）。そして、オーディオ部１５は、音声合成部２３から出力されたデータを、設定されているパラメータに対応するアナログの音声信号に変換するとともに、所定の増幅を行ってスピーカ１６へ出力し、スピーカ１６が合成音声を再生する。ここでは、スピーカ１６は「デンワバンゴー」と再生するが、図２（ｃ）に示すように、ＶＣＶ単位の音声データの後尾と形態素単位の音声データの先頭との間には無音Ｑが存在しないため、ＶＣＶと形態素との間が途切れない自然な音で再生できる。
なお、合成文字列の中に形態素単位の音声データと対応する合成文字列が含まれていない場合は（Ｓ１８：Ｎｏ）、総ての合成文字列についてＶＣＶデータベース１３ｃのＶＣＶ単位の音声データを設定する（Ｓ２８）。
【００１８】
以上のように、本実施形態の音声合成装置１０を使用すれば、ＶＣＶ単位の音声データと、形態素単位の音声データとを合成する場合、ＶＣＶと形態素との間が途切れず、自然に聞こえる合成音声を再生することができる。
また、上記実施形態では、ＶＣＶ単位の音声データの後に形態素単位の音声データを合成する場合を例に挙げて説明したが、形態素単位の音声データの後にＶＣＶ単位の音声データを合成することもできる。この場合も、形態素単位の音声データの最後の音節は母音定常部で終了しており、無音Ｑが付されていないため、形態素とＶＣＶとの間が途切れない自然な合成音声を再生することができる。
さらに、合成文字列の中に「シテイル」というような文末に用いる文字列が含まれている場合には、その文字列に対応する文末用の形態素単位の音声データＤ２０「ｓｈｉｔｅｉｒｕＱ」（図２（ｂ））を読出し合成する。
つまり、最後の音節に続く無音Ｑを含む部分までを読出して合成することができるため、文末の合成音声の最後を自然な合成音声で出力することができる。
【００１９】
ところで、形態素データベース１３ｄが、本発明の第１の記憶手段、または、第１の記憶領域に対応し、ＶＣＶデータベース１３ｃが、第２の記憶手段、または、第２の記憶領域に対応し、キーボード１７が文字列入力手段に対応する。
また、上記実施形態では、音声合成処理プログラム１３ｅが音声合成装置１０内のＨＤＤ１３に記憶されている構成を用いたが、音声合成処理プログラム１３ｅをＣＤ−ＲＯＭやフロッピーディスクなどに記憶し、それらを本音声合成装置１０に備えられた読取装置（図示省略）を用いてＨＤＤ１３やＲＡＭ１１にインストールすることによって音声合成処理を行うように構成することもできる。この場合、上記ＣＤ−ＲＯＭやＦＤなどが、請求項３に記載の記憶媒体として機能する。さらに、外部情報処理装置から有線または無線の通信手段を介してコンピュータプログラムを読み込んで動作させることもできる。
【００２０】
また、ＣＰＵ２０が実行するＳ１８が、請求項１の判定手段および請求項３の判定処理として機能し、Ｓ２０〜Ｓ２４およびＳ２８が、請求項１の合成手段および請求項３の合成処理として機能し、Ｓ２６が請求項１の出力手段および請求項３の出力処理として機能する。
【００２１】
【発明の効果】
以上のように、請求項１および請求項２に記載の発明によれば、言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない形態素単位の音声データが記憶された第１の記憶手段と、母音定常部から開始し、子音を経て前記第１の記憶手段に記憶された前記形態素単位の音声データの最初の音節の母音定常部と同一の母音を最後の母音定常部に有するＶＣＶ単位の音声データが記憶された第２の記憶手段と、文字列を入力する文字列入力手段と、この文字列入力手段によって入力された文字列の中に、前記第１の記憶手段に記憶された形態素単位の音声データに対応する文字列が存在するか否かを判定する判定手段と、この判定手段によって前記文字列入力手段によって入力された文字列の中に前記第１の記憶手段に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを前記第１の記憶手段から読出し、前記入力された文字列の内、前記第１の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、ＶＣＶ単位の音声データを前記第２の記憶手段から読出し、前記第２の記憶手段から読出したＶＣＶ単位の音声データが前記入力された文字列の前半部に対応するものであり、かつ、前記第１の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、前記読出したＶＣＶ単位の音声データおよび形態素単位の音声データを、前記ＶＣＶ単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて１つの母音となるように合成する合成手段と、この合成手段によって合成された合成音声を出力する出力手段とを備える。
したがって、ＶＣＶ単位の音声データの後に形態素単位の音声データを合成する場合、形態素単位の音声データの最初の音節は、先頭に無音が存在せず、母音定常部から開始しており、従来のように、無音から開始していないし、さらに、ＶＣＶ単位の音声データおよび形態素単位の音声データを、ＶＣＶ単位の音声データの最後の母音定常部に有する母音と形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて１つの母音となるように合成するため、合成音声は、ＶＣＶと形態素との間が途切れない自然な合成音声を出力できる。また、形態素単位の音声データの最後の音節は母音定常部で終了し、後尾には無音が存在しないため、形態素単位の音声データの後にＶＣＶ単位の音声データを合成する場合も、形態素とＶＣＶとの間が途切れない自然な合成音声を出力できる。
【００２２】
また、形態素が文末にくる場合には、請求項２に記載の発明のように、第１の記憶手段に記憶された形態素単位の音声データの中で、文末に用いる形態素単位の音声データを、最初の音節の母音定常部から最後の音節に続く無音を含む部分までの所定数の音節に基づいて作成されたものにすることにより、最後の音節を自然な合成音声で出力できる。
【００２３】
そして、請求項３に記載の発明によれば、言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない形態素単位の音声データが記憶された第１の記憶領域と、母音定常部から開始し、子音を経て前記第１の記憶手段に記憶された前記形態素単位の音声データの最初の音節の母音定常部と同一の母音を最後の母音定常部に有するＶＣＶ単位の音声データが記憶された第２の記憶領域とを有しており、文字列を入力する文字列入力処理と、この文字列入力処理によって入力された文字列の中に、前記第１の記憶領域に記憶された形態素および第２の記憶領域に記憶されたＶＣＶのいずれが存在するか否かを判定する判定処理と、この判定処理によって前記文字列入力処理によって入力された文字列の中に前記第１の記憶領域に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを前記第１の記憶領域から読出し、前記入力された文字列の内、前記第１の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、ＶＣＶ単位の音声データを前記第２の記憶手段から読出し、前記第２の記憶手段から読出したＶＣＶ単位の音声データが前記入力された文字列の前半部に対応するものであり、かつ、前記第１の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、前記読出したＶＣＶ単位の音声データおよび形態素単位の音声データを、前記ＶＣＶ単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて１つの母音となるように合成する合成処理と、この合成処理によって合成された合成音声を出力する出力処理と、をコンピュータに実行させるための音声合成処理プログラムを含むコンピュータプログラムが記憶された記憶媒体という構成であるため、その記憶媒体を用いることにより、前述の請求項１に記載の音声合成装置を実現できる。
【図面の簡単な説明】
【図１】本発明実施形態の音声合成装置の主な電気的構成を示す説明図である。
【図２】図２（ａ）は、ＨＤＤ１３の記憶内容を示す説明図であり、図２（ｂ）は、ＶＣＶデータベース１３ｃおよび形態素データベース１３ｄの記憶内容を示す説明図であり、図２（ｃ）は、ＶＣＶの後に形態素を合成する原理を模式的に示す説明図である。
【図３】ＣＰＵ２０が実行する音声合成処理の内容をブロックで示す説明図である。
【図４】ＣＰＵ２０が実行する音声合成処理の流れを示すフローチャートである。
【図５】従来の合成音声を作成する手法を示す説明図である。
【符号の説明】
１０音声合成装置
１３ＨＤＤ
１３ｃＶＣＶデータベース（第２の記憶手段）
１３ｄ形態素データベース（第１の記憶手段）
１３ｅ音声合成処理プログラム
１６スピーカ
１７キーボード（文字列入力手段）
２０ＣＰＵ
２１言語解析部
２２音声パラメータ設定部
２３音声合成部

Claims

言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない形態素単位の音声データが記憶された第１の記憶手段と、
母音定常部から開始し、子音を経て前記第１の記憶手段に記憶された前記形態素単位の音声データの最初の音節の母音定常部と同一の母音を最後の母音定常部に有するＶＣＶ単位の音声データが記憶された第２の記憶手段と、
文字列を入力する文字列入力手段と、
この文字列入力手段によって入力された文字列の中に、前記第１の記憶手段に記憶された形態素単位の音声データに対応する文字列が存在するか否かを判定する判定手段と、
この判定手段によって前記文字列入力手段によって入力された文字列の中に前記第１の記憶手段に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを前記第１の記憶手段から読出し、前記入力された文字列の内、前記第１の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、ＶＣＶ単位の音声データを前記第２の記憶手段から読出し、前記第２の記憶手段から読出したＶＣＶ単位の音声データが前記入力された文字列の前半部に対応するものであり、かつ、前記第１の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、前記読出したＶＣＶ単位の音声データおよび形態素単位の音声データを、前記ＶＣＶ単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて１つの母音となるように合成する合成手段と、
この合成手段によって合成された合成音声を出力する出力手段と、
が備えられたことを特徴とする音声合成装置。
前記第１の記憶手段に記憶された形態素単位の音声データの中で、文末に用いる形態素単位の音声データは、最初の音節の母音定常部から最後の音節に続く無音を含む部分までの所定数の音節に基づいて作成されたものであることを特徴とする請求項１に記載の音声合成装置。
言語としての意味合いを有する所定数の音節に基づいて作成されており、かつ、最初の音節の母音定常部から開始し、最後の音節の母音定常部で終了し、さらに、前記最初の音節の先頭および前記最後の音節の後尾には、それぞれ無音が存在しない形態素単位の音声データが記憶された第１の記憶領域と、
母音定常部から開始し、子音を経て前記第１の記憶手段に記憶された前記形態素単位の音声データの最初の音節の母音定常部と同一の母音を最後の母音定常部に有するＶＣＶ単位の音声データが記憶された第２の記憶領域とを有しており、
文字列を入力する文字列入力処理と、
この文字列入力処理によって入力された文字列の中に、前記第１の記憶領域に記憶された形態素単位の音声データに対応する文字列が存在するか否かを判定する判定処理と、
この判定処理によって前記文字列入力処理によって入力された文字列の中に前記第１の記憶領域に記憶された形態素単位の音声データに対応する文字列が存在すると判定された場合には、その文字列に対応する形態素単位の音声データを前記第１の記憶領域から読出し、前記入力された文字列の内、前記第１の記憶手段に記憶された形態素単位の音声データに対応しない文字列に対しては、ＶＣＶ単位の音声データを前記第２の記憶手段から読出し、前記第２の記憶手段から読出したＶＣＶ単位の音声データが前記入力された文字列の前半部に対応するものであり、かつ、前記第１の記憶手段から読出した形態素単位の音声データが前記入力された文字列の後半部に対応するものである場合のみ、前記読出したＶＣＶ単位の音声データおよび形態素単位の音声データを、前記ＶＣＶ単位の音声データの最後の母音定常部に有する母音と前記形態素単位の音声データの最初の音節の母音定常部に有する母音とが合成されて１つの母音となるように合成する合成処理と、
この合成処理によって合成された合成音声を出力する出力処理と、
をコンピュータに実行させるための音声合成処理プログラムを含むコンピュータプログラムが記憶されたことを特徴とする記憶媒体。