JP4441380B2 - Speech synthesis apparatus, speech synthesis method, and speech synthesis program - Google Patents
Speech synthesis apparatus, speech synthesis method, and speech synthesis program Download PDFInfo
- Publication number
- JP4441380B2 JP4441380B2 JP2004313621A JP2004313621A JP4441380B2 JP 4441380 B2 JP4441380 B2 JP 4441380B2 JP 2004313621 A JP2004313621 A JP 2004313621A JP 2004313621 A JP2004313621 A JP 2004313621A JP 4441380 B2 JP4441380 B2 JP 4441380B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- sub
- cost
- text
- prosodic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、テキスト内容から合成音声を生成する音声合成装置、音声合成方法及び音声合成プログラムに関する。 The present invention relates to a speech synthesizer that generates synthesized speech from text content, a speech synthesis method, and a speech synthesis program.
近年、大容量な記憶装置の使用コストの低下に伴い、数十分以上の大容量の音声データをそのまま大容量の記憶装置に蓄積し、入力されたテキスト及び韻律情報に応じて音声素片を適切に選択し、接続・変形することで高品質な音声を合成する波形接続型コーパスベース音声合成方法が提案されている(例えば、特許文献1、非特許文献1参照)。
この方法では、まず、音声デー夕ベースから、合成したい文字列に対応する音韻系列と部分的または完全に一致する音声素片をバイナリーツリー等で構成された音声素片辞書を用いて検索する。次に、音声素片の類似度を評価するための複数のパラメータに基づく評価尺度に従って、検索された多数の音声素片にコスト付けを行う。そして、DP(Dynamic Programming:動的計画法)等の方法によって、これらの音声素片の中から適切な音声素片の組み合わせを選択し、選択された音声素片を順に接続することで音声合成を行う(例えば、非特許文献2参照)。
In recent years, with the reduction in the cost of using large-capacity storage devices, tens of minutes or more of large-capacity speech data is stored as it is in a large-capacity storage device, and speech segments are stored according to input text and prosodic information. A waveform-connected corpus-based speech synthesis method that synthesizes high-quality speech by appropriately selecting, connecting, and transforming has been proposed (see, for example,
In this method, first, a speech unit partially or completely matching a phoneme sequence corresponding to a character string to be synthesized is searched from a speech database using a speech unit dictionary composed of a binary tree or the like. Next, according to an evaluation scale based on a plurality of parameters for evaluating the similarity between speech units, the retrieved speech units are costed. Then, by using a method such as DP (Dynamic Programming), speech synthesis is performed by selecting an appropriate combination of speech units from these speech units and connecting the selected speech units in order. (For example, refer nonpatent literature 2).
このような方式によって、原理的には肉声同等の高品質な合成音声を生成することが可能になってきている。しかし、この方式で高品質な合成音声が生成できるのは、適切な音声素片が音声デー夕ベースに存在していることが前提であって、そもそも適切な音声素片が音声デー夕ベースに存在しない場合には、高品質な合成音声を生成することはできない。従って、様々なテキストを高品質に音声合成するためには、豊富な音声素片のバリエーションを含む音声データベースを用いることが必須である。そのため近年では、音声素片のバリエーションを増やし合成音声を高品質化するために、音声データベースの容量をより一層増加させる方向で開発が進んでいる。
しかし、音声素片の音声データベースを大容量化することによって合成音声の高品質化を図る手法では、実際上、高品質な合成音声を生成できない場合があるという問題点がある。
すなわち、音声データベースを大容量化することで、ある程度の合成音声の品質は向上されてきたものの、時間的・費用的な問題から音声デー夕ベースに収録可能な音声情報の量には限界がある。そのため、事実上、日本語として想定できる全ての音声素片を音声デー夕ベースに収録しておくことは不可能である。
However, the technique for improving the quality of synthesized speech by increasing the capacity of the speech database of speech units has a problem that, in practice, high-quality synthesized speech may not be generated.
In other words, although the quality of synthesized speech has been improved to some extent by increasing the volume of the speech database, the amount of speech information that can be recorded in the speech database is limited due to time and cost issues. . For this reason, it is virtually impossible to record all speech segments that can be assumed as Japanese in the speech database.
また、音声データベースに音声を収録するためには、予め読み上げるための文章(収録用テキスト)を用意する必要があるが、ここでも日本語として想定できる全てのテキストを集めることは不可能である。そのため、音声データベースへの音声収録の際には、ある程度限定された内容のテキストを読み上げることになり、その結果、音声デー夕ベースに収録される音声の内容には偏りが生じる。具体的には、例えば日常的な会話など音声としては一般的だが、それを書き起こしたテキストなどが通常は存在しない分野の場合にはテキストを集めることは困難であるし、医療や法律分野などの専門分野のように分野特有の専門用語が多数ある場合には、全ての分野の専門用語やそれを含むテキストを集めることは困難である。その結果、結果音声デー夕ベースに収録される音声は、新聞や小説等の簡単かつ大量に収集可能な分野のテキストを基本として生成された収録用テキストを読み上げたものが中心となる。そのため、基本となるテキストを十分収集できない分野では、他の分野のテキストを読み上げて収録した音声素片を用いて合成音声を作成せざるを得ない。 In addition, in order to record the voice in the voice database, it is necessary to prepare a sentence (recording text) to be read out in advance, but here too, it is impossible to collect all the text that can be assumed as Japanese. For this reason, text recorded in the voice database is read to a certain extent, and as a result, the contents of the voice recorded in the voice database are biased. Specifically, for example, it is common for speech such as everyday conversation, but it is difficult to collect text in the field where the text that transcribes it usually does not exist, medical and legal fields etc. If there are a lot of domain-specific technical terms, such as the technical field of, it is difficult to collect technical terms of all fields and texts containing them. As a result, the speech recorded in the resulting speech database is mainly read out from the recording text generated based on the texts of fields that can be collected easily and in large quantities, such as newspapers and novels. For this reason, in a field where the basic text cannot be collected sufficiently, synthesized speech must be created using speech segments that are read out and recorded in text from other fields.
以上のような状況下、非特許文献2では、適切な音声素片を選択する手法として、単独又は複数の物理的なパラメー夕を組み合わせた物理的な尺度と、ピッチやパワー等の韻律的な尺度を組み合わせた評価尺度を設定し、それらの尺度に基づいて音声デー夕ベースから音声素片を選択する手法をとっている。具体的には、まず、物理的なパラメータから音声間の類似度を算出するサブコスト関数を音声の各物理パラメータに対して準備する。次に、このサブコスト関数に、合成音声を生成しようとする入力テキストから計算上求められた物理パラメータと、音声デー夕ベースの音声素片の物理パラメータとを代入し、入力テキストと音声素片とのサブコストを求める。なお、このサブコストは、物理パラメータごとに求められる。そして、先見的な知識に基づいてこれらのサブコストを重み付けし、それらを組み合わせて、入力テキストと音声素片との総合コストを求め、この総合コストに基づいて音声素片が適切であるか否かを判断する。
Under the circumstances as described above, in
しかしながら、通常、適正なバランスをとってこのサブコストの重み付けを行うことは困難である。なぜなら、テキストの種類によって使用される言葉の頻度も異なり、最も良い合成音声が得られるサブコストの重み付けも異なってくるからである。そのため、従来は、多様なテキストを用いてそれらの音声合成を行い、その合成音声の品質が平均的に向上するようにサブコストの重み付けをチューニングする場合が多かった。
その結果、これにより決定される重み付けは、平均的なテキスト或いは音声データベースに多く収録されているような一般的な分野のテキストの合成に適したものとなる。従って、専門分野や音声デー夕ベースに収録されていないような分野のテキストを合成した場合には、音声デー夕ベースから最適な音声素片を選択することができず、より高品質な合成音声を生成できる可能性がありながら実際に合成された音声の品質は低いという課題が存在した。
However, it is usually difficult to weight this sub-cost with an appropriate balance. This is because the frequency of words used differs depending on the type of text, and the sub-cost weighting for obtaining the best synthesized speech also differs. For this reason, conventionally, voices are synthesized using various texts, and the sub-cost weighting is often tuned so that the quality of the synthesized speech is improved on average.
As a result, the weighting determined thereby is suitable for synthesizing texts in general fields such as those recorded in the average text or speech database. Therefore, when synthesizing text in a specialized field or a field that is not recorded in the speech database, it is not possible to select the optimal speech segment from the speech database, resulting in higher quality synthesized speech. However, there is a problem that the quality of the synthesized speech is low, although there is a possibility that it can be generated.
本発明はこのような点に鑑みてなされたものであり、入力されたテキストから生成される合成音声の品質を現実的に向上させることが可能な技術を提供することを目的とする。 The present invention has been made in view of these points, and an object of the present invention is to provide a technology capable of realistically improving the quality of synthesized speech generated from input text.
本発明では上記課題を解決するために、入力されたテキストの内容に基づいて、当該テキストを、予め決められたカテゴリのうちの少なくとも1つのカテゴリに割り当て、テキストが割り当てられたカテゴリに対応するサブコスト重みを決定する。また、入力されたテキストの読み情報及び韻律情報を抽出し、入力されたテキストの読み情報及び韻律情報の組をキーとして、音声素片、その読み情報及び韻律情報を対応付けた音声データベースから、これらの組の類似範囲に属する読み情報及び韻律情報の組を選択する。次に、入力されたテキストの読み情報及び韻律情報の組と、探索手段において選択された読み情報及び韻律情報の組とを用い、これらの音韻及び韻律要素ごとの類似度を示すサブコスト値を算出し、サブコスト値をサブコスト重みで重み付けして統合した総合コスト値を算出する。そして、総合コスト値を最小値化する音声素片を選択し、選択された音声素片を接続して合成音声を生成する。 In the present invention, in order to solve the above problem, the text is assigned to at least one of predetermined categories based on the contents of the input text, and the sub-cost corresponding to the category to which the text is assigned. Determine the weight. Further, the reading information and prosodic information of the input text are extracted, and from the speech database associating the speech unit, the reading information and the prosodic information with the set of the input text reading information and the prosodic information as a key, A set of reading information and prosodic information belonging to the similar range of these sets is selected. Next, using a set of reading information and prosodic information of the input text and a reading information and prosodic information set selected by the search means, a sub-cost value indicating the similarity for each phoneme and prosodic element is calculated. Then, the total cost value obtained by integrating the sub cost values by weighting the sub cost weights is calculated. Then, a speech unit that minimizes the total cost value is selected, and the selected speech unit is connected to generate a synthesized speech.
ここで、入力されたテキストのカテゴリに対応するサブコスト重みを決定し、それをもとに総合コスト値を算出している。そのため、カテゴリごとに最適なサブコスト重みを用いて総合コストを算出することができる。その結果、全てのカテゴリに平均的に適しているサブコスト重みを用いて総合コストを算出する場合に比べ、より適した音声素片を選択することが可能となる。 Here, the sub cost weight corresponding to the input text category is determined, and the total cost value is calculated based on the sub cost weight. Therefore, the total cost can be calculated using the optimum sub cost weight for each category. As a result, it is possible to select a speech unit that is more suitable than the case where the total cost is calculated using sub-cost weights that are averagely suitable for all categories.
以上のように、本発明では、入力されたテキストのカテゴリに対応するサブコスト重みを用いて総合コストを算出し、音声素片を選択することとしたため、合成音声の品質を現実的に向上させることが可能となる。 As described above, according to the present invention, the total cost is calculated using the sub-cost weight corresponding to the input text category, and the speech segment is selected, so that the quality of the synthesized speech can be improved practically. Is possible.
以下、本発明の実施の形態を図面を参照して説明する。
<構成>
図1は、本形態における音声合成装置1の概念的な構成図の例示である。
この図に例示するように、音声合成装置1は、入力部5、テキストメモリ10、音声データベースメモリ20、メモリ30、テキスト分類部40、サブコスト重み決定部50、音韻韻律抽出部60、探索部70、サブコスト算出部80、総合コスト計算部90、音声素片選択部100、音声素片接続部110及び制御部120を有している。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<Configuration>
FIG. 1 is an illustration of a conceptual configuration diagram of a
As illustrated in this figure, the
ここで、メモリ30は、カテゴリ情報格納領域31、サブコスト対応表格納領域32、サブコスト重み情報格納領域33、音律韻律格納領域34、探索結果格納領域35、サブコスト格納領域36、総合コスト格納領域37及び選択音声素片格納領域38を有している。また、音韻韻律抽出部60は、テキスト解析部61及び韻律物理パラメータ抽出部62を有している。
なお、本形態の音声合成装置1は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)、ハードディスク装置等から構成される公知のコンピュータに所定のプログラム(音声合成プログラム)を実行させることにより構成されるものである。
Here, the memory 30 includes a category information storage area 31, a sub cost correspondence
Note that the
<前処理>
次に、本形態の音声合成方法における前処理について説明する。
[音声データベース]
まず、音声データベースメモリ20に、音声合成に必要な音声素片等を有する音声データベースを格納する。
図2は、本形態における音声データベース200のデータ構成の例示である。
図2に例示するように、この例の音声データベース200は、音韻列221(「読み情報」に相当)、韻律情報222及び音声素片データ(デジタル信号データであり「音声素片」に相当)が対応付けられて構成される。
<Pretreatment>
Next, preprocessing in the speech synthesis method of this embodiment will be described.
[Audio database]
First, the
FIG. 2 shows an example of the data structure of the
As illustrated in FIG. 2, the
この例の音韻列221は、テキストをローマ字表記した場合のローマ字(音韻)の列であり、この例では「A」「Ai」「Au」「I」等が音韻列として格納されている。
韻律情報222は、韻律指標222aと韻律物理パラメータ222bから構成される。ここで、韻律指標222aは、対応する音声素片の韻律の大まかな指標を示すデータであり、この例では、前音韻環境222aa、後音韻環境222ab及びアクセント222acが韻律指標222aに相当する。また、この例の前音韻環境222aaとは、対応する音韻列221に対し時系列的に前の音韻を示すデータであり、この例ではポーズ(無音状態)を示す「#」が設定されている。さらに、この例の後音韻環境222abとは、対応する音韻列221に対し時系列的に後の音韻を示すデータであり、この例ではポーズ(無音状態)を示す「#」や音韻を示す「S」「G」「N」「T」「R」等が設定されている。また、この例のアクセント222acとは、対応する音韻列221にアクセントがあるか、あるとすればどこにアクセントがあるかを示すデータである。この例では、「0」は対応する音韻列221にアクセントがないことを示し、「1」は対応する音韻列221の一音目にアクセントがあり、「2」は2音目にアクセントがあることを示している。
The
The
また、韻律物理パラメータ222bとは、対応する音声素片の韻律の物理量を示すデータであり、この例では、平均F0(基準周波数)(Hz)222ba、F0の傾斜(Hz/ms)222bb、時間長(ms)222bc、パワー(dB)222bdが韻律物理パラメータ222bに相当する。
[サブコスト対応表]
本形態では、メモリ30のサブコスト対応表格納領域32にサブコスト対応表を格納しておく。
The prosodic physical parameter 222b is data indicating the physical quantity of the prosody of the corresponding speech unit. In this example, the average F0 (reference frequency) (Hz) 222ba, the slope of F0 (Hz / ms) 222bb, time The length (ms) 222bc and the power (dB) 222bd correspond to the prosodic physical parameter 222b.
[Sub cost correspondence table]
In this embodiment, the sub cost correspondence table is stored in the sub cost correspondence
図3は、本形態におけるサブコスト対応表300のデータ構成の例示である。
この例のサブコスト対応表300は、テキストのカテゴリとサブコストとを対応付けた表である。図3の例のサブコスト対応表300は、N個のカテゴリ1〜NのカテゴリとM個のサブコストA〜Mとに対し、サブコスト重みを対応付けた表である。
この例の場合、「カテゴリ1」に対し、「サブコストA」「サブコストB」…「サブコストC」のサブコスト重み「W1A」「W1B」…「W1M」が対応付けられ、「カテゴリ2」に対し、「サブコストA」「サブコストB」…「サブコストC」のサブコスト重み「W2A」「W2B」…「W2M」が対応付けられ、「カテゴリN」に対し、「サブコストA」「サブコストB」…「サブコストC」のサブコスト重み「WNA」「WNB」…「WNM」が対応付けられている。
FIG. 3 is an example of the data configuration of the sub-cost correspondence table 300 in the present embodiment.
The sub-cost correspondence table 300 in this example is a table in which text categories and sub-costs are associated with each other. The sub-cost correspondence table 300 in the example of FIG. 3 is a table in which sub-cost weights are associated with
In this example, “
ここで、「カテゴリ」とは、テキストの分野や種類を示す情報である。このカテゴリは事前に決定しておくが、そのカテゴリは、単一の分類基準をもとに分野や種類を分類したものであってもよく、また、複数の分類基準をもとに分野や種類を分類したものであってもよい。具体的には、例えば「媒体の種類」という単一の分類基準をもとに「辞書」「雑誌」「本」のようにカテゴリを設定してもよく、例えば「媒体の種類」「分野」という2つの分類基準をもとに「辞書」「雑誌」「本」というカテゴリと「自然科学」「文学」「法律」というカテゴリとを多次元的に設定してもよい。 Here, “category” is information indicating the field and type of text. This category is determined in advance, but the category may be a category or category classified based on a single classification criterion, or a category or category based on multiple classification criteria. May be classified. Specifically, for example, categories such as “dictionary”, “magazine”, and “book” may be set based on a single classification standard “medium type”. For example, “medium type” “field” The categories “dictionary”, “magazine”, “book” and “natural science”, “literature”, and “law” may be set multidimensionally based on the two classification criteria.
また、この例の「サブコスト」とは、2つの音声間における、読み情報及び音韻情報の各要素の類似度を示す値である。すなわち、読み情報の類似度を示すサブコスト、音韻情報である平均F0の類似度を示すサブコスト、アクセントの類似度を示すサブコスト等を例示できる。なお、本形態の音声合成処理では、読み情報のみについてのサブコストを用いることとしてもよく、音韻情報のみのサブコストを用いることとしてもよく、音韻情報の一部に係るサブコストのみを用いることとしてもよいが、多くの種類のサブコストを用いたほうが高い品質の合成音声を生成できる。 In addition, the “sub cost” in this example is a value indicating the similarity of each element of reading information and phonological information between two sounds. That is, a sub cost indicating the similarity of reading information, a sub cost indicating a similarity of average F0 that is phonemic information, a sub cost indicating a similarity of accent, and the like can be exemplified. Note that in the speech synthesis processing of this embodiment, the sub-cost for only reading information may be used, the sub-cost for only phonemic information may be used, or only the sub-cost related to a part of phonemic information may be used. However, higher quality synthesized speech can be generated using many types of sub-costs.
さらに、「サブコスト重み」とは、複数のサブコストから総合コスト(2つの音声間における類似度を示すコスト)を算出する際に用いる、各サブコストの重み付け定数を意味する。例えば、サブコストA,B,Cに対するサブコスト重みがWA,WB,WCであった場合、WA・AとWB・BとWC・Cとによって総合コストが決定される。
[サブコスト対応表の生成手法]
サブコスト対応表300のカテゴリは、例えば、テキスト分類部40が実行する手順(後述)によって、所定のテキストを、単一の分類基準或いは複数の分類基準をもとに設定された予備的なカテゴリに割り当て、当該テキストが複数の当該予備的なカテゴリに割り当てられることとなった場合に、当該複数の予備的なカテゴリを1つのカテゴリに統合するという処理により決定する。
Furthermore, the “sub cost weight” means a weighting constant for each sub cost used when calculating the total cost (cost indicating the similarity between two voices) from a plurality of sub costs. For example, sub-cost A, B, sub-cost weight for C is W A, W B, if a W C, W A · A and W B · B and total cost by the W C · C is determined.
[Method for generating sub-cost correspondence table]
The categories of the sub-cost correspondence table 300 are, for example, a predetermined text is converted into a preliminary category set based on a single classification criterion or a plurality of classification criteria by a procedure (described later) executed by the
すなわち、まず音声言語に関する先見的な知見に基づいてテキストが分類できそうなカテゴリを単一の分類基準をもとに予備的に決める。次に、音声デー夕ベース200中に含まれる音声素片データ223を収録する時に読み上げた収録リスト(テキスト)を、これらの予備的なカテゴリに分類する。その結果、同じテキストが単一の予備的なカテゴリに分類された場合には、この予備的なカテゴリをサブコスト対応表300のカテゴリとして決定し、同じテキストが複数の予備的なカテゴリに重複して分類された場合には、このテキストが分類された複数の予備的なカテゴリを1つのカテゴリとして新たに生成する。例えば、予備的なカテゴリとしてAからJまで10のカテゴリを考えたとき、収録リスト(テキスト)が単一のカテゴリB、D、GとカテゴリAとカテゴリCの多重力テゴリ、カテゴリBとカテゴリDの多重力テゴリのように分類されたとする。この場合、カテゴリB、D、Gはそのまま単一のカテゴリとし、カテゴリAとカテゴリCの多重カテゴリをカテゴリKとし、カテゴリBとカテゴリDの多重力テゴリをカテゴリLとして新たに定義する。これは、実際には、カテゴリAの特徴とカテゴリCの特徴とを備えたテキスト(或いはカテゴリAとカテゴリCが本来1つのカテゴリであった)や、カテゴリBの特徴とカテゴリDの特徴とを備えたテキストが存在したため、これらのテキストのカテゴリK,Lを新たに設定したものである。また、例えば収録リスト(テキスト)が分類され無かったカテゴリC、E、F、H、T、Jを統合して、カテゴリMを新たに設けてもよい。これは、実際には、カテゴリC、E、F、H、T、Jに存在するテキストが存在しなかったため、これらのカテゴリをカテゴリMに統合したものである。この場合、結果的にカテゴリは、A、B、D、G、K、L、Mの7カテゴリとなる。こうすることで、単に先見的なテキストの種別だけでカテゴリを分けるより、実際に音声合成で用いる音声デー夕ベースに適合したカテゴリの設定が可能となる。
That is, based on a priori knowledge about the spoken language, a category in which text can be classified is preliminarily determined based on a single classification standard. Next, the recording list (text) read out when recording the
また、サブコスト対応表300のサブコスト重みは、例えば、以下のように決定する。
すなわち、上述のようにカテゴリを決定した後、大量のテキストコーパスを新たに設定したカテゴリで分類し(後述)、カテゴリ毎に複数のテキスト抽出して、まずは初期値として適当なサブコスト重みでそれらのテキストに対応する合成音声を作成し聴取して品質を確認する。後はカテゴリ毎に適宜サブコスト値を調整しながら合成音の作成、聴取を繰り返すことで適切なサブコストを割り出し、各カテゴリに対応する各サブコストのサブコスト重みを決定する。以上により、サブコスト対応表300が作成される。
Moreover, the sub cost weight of the sub cost correspondence table 300 is determined as follows, for example.
That is, after determining a category as described above, a large number of text corpora are classified according to a newly set category (described later), a plurality of texts are extracted for each category, and first, those sub-cost weights are used as initial values. Create and listen to synthesized speech corresponding to the text to check the quality. After that, an appropriate subcost is determined by repeating the creation and listening of the synthesized sound while appropriately adjusting the subcost value for each category, and the subcost weight of each subcost corresponding to each category is determined. Thus, the sub cost correspondence table 300 is created.
[テキストの入力]
合成音声を生成しようとするテキストを入力部5に入力し、この入力されたテキストをテキストメモリ10に格納しておく。
<音声合成処理>
次に、本形態における音声合成処理について説明する。なお、以下の処理は制御部120の制御のもと行われる。
[処理の概要]
まず、テキスト分類部40において(図1)、入力テキストが少なくとも1つ以上のカテゴリに分類される。次に、サブコスト重み決定部50で、分類されたカテゴリに基づいてサブコスト重み係数が決定される。また、音韻韻律抽出部60のテキスト解析部61において、入力テキストから読み情報と韻律指標を取得し、韻律物理パラメータ抽出部62で、この韻律指標から韻律物理パラメータが計算される。次に、探索部70で、読み情報及び韻律指標に対応する音声素片が探索された後、サブコスト算出部80及び総合コスト計算部90で、音韻韻律抽出部60が抽出した読み情報及び韻律物理パラメー夕と、音声素片に対応する読み情報及び韻律物理パラメータとから、サブコスト関数及びサブコスト重み係数を用いて総合コストが計算される。そして最後に音声素片選択部100及び音声素片接続部110で、計算された総合コスト値に基づいて音声素片を選択・接続することで音声が合成される。
[Enter text]
A text for generating a synthesized speech is input to the input unit 5, and the input text is stored in the
<Speech synthesis processing>
Next, speech synthesis processing in this embodiment will be described. Note that the following processing is performed under the control of the
[Process overview]
First, in the text classification unit 40 (FIG. 1), the input text is classified into at least one category. Next, the sub cost
[処理の詳細]
図4は、本形態における音声合成処理を説明するための流れ図である。
以下、この図に従って、本形態の音声合成処理の詳細を説明する。
まず、テキスト分類部40が、テキストメモリ10からテキスト(「入力されたテキスト」に相当)を読み出し(ステップS1)、この内容に基づいて、当該テキストを、予め決められたカテゴリのうちの少なくとも1つのカテゴリに割り当てる(ステップS2)。なお、この「予め決められたカテゴリ」は、前述したサブコスト対応表300のカテゴリである。また、このテキストを予め決めておいたカテゴリヘ分類する方法は、これまで様々な方法が提案されてきたが、例えば、Joachims, T. "Text Categorization with Support Vector Machines: Learning with Many Relevant Features", Proc. of 10th European Conference on Machine Learning (ECML-98), pp.137-142(1998)を基本とした特願平11−191064「テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体」や、特願2002−204434「テキストの多重トピックス抽出方法および装置、テキストの多量トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体」などの方法により、比較的良好に分類することが可能である。
[Details of processing]
FIG. 4 is a flowchart for explaining speech synthesis processing in this embodiment.
Hereinafter, the details of the speech synthesis processing of this embodiment will be described with reference to FIG.
First, the
また、このカテゴリが単一の分類基準をもとに分類されたものであった場合(<前処理>参照)、テキスト分類部40は、入力されたテキストを、いずれか1つのカテゴリに割り当てる。一方、このカテゴリが複数の分類基準をもとに分類されたものであった場合、テキスト分類部40は、入力されたテキストを、複数のカテゴリに割り当てることもありうる。そして、以上のように割り当てられたカテゴリを特定するカテゴリ情報はメモリ30に送られ、そのカテゴリ情報格納領域31に格納される。
次に、サブコスト重み決定部50が、カテゴリ情報格納領域31からカテゴリ情報を読み出し、このカテゴリ情報をもとにサブコスト対応表格納領域32のサブコスト対応表300(図3)を参照し、テキストが割り当てられたカテゴリに対応するサブコスト重みを決定する(ステップS3)。
When this category is classified based on a single classification standard (see <Preprocessing>), the
Next, the sub-cost
このサブコスト重みの決定方法は、入力されたテキストが1つのカテゴリのみに割り当てられた場合と複数のカテゴリに割り当てられた場合とで異なる。
[入力されたテキストが1つのカテゴリのみに割り当てられた場合]
この場合は、割り当てられた1つのカテゴリに対応するサブコスト重みをそのまま利用し、そのサブコスト重みを示すサブコスト重み情報をサブコスト重み情報格納領域33に格納する。例えば、図3における「カテゴリ1」が割り当てられた場合には、サブコスト対応表300において、「カテゴリ1」に対応付けられた「サブコストA」「サブコストB」…「サブコストC」のサブコスト重み「W1A」「W1B」…「W1M」が特定され、これらの情報がサブコスト重み情報格納領域33に格納する。
The method of determining the sub-cost weight differs depending on whether the input text is assigned to only one category or a plurality of categories.
[When the entered text is assigned to only one category]
In this case, the sub cost weight corresponding to one assigned category is used as it is, and the sub cost weight information indicating the sub cost weight is stored in the sub cost weight information storage area 33. For example, when “
[入力されたテキストが複数のカテゴリに割り当てられた場合]
この場合は、これら複数のカテゴリに対応する予備サブコスト重みをそれぞれ決定し、当該予備サブコスト重みを、入力されたテキストと各カテゴリとの類似度(尤度を含む)をもとに重み付けして合計(サブコスト重みの重み付け和)し、この合計値を、カテゴリに対応するサブコスト重みとして決定する。
[When the entered text is assigned to multiple categories]
In this case, the preliminary sub cost weights corresponding to the plurality of categories are respectively determined, and the preliminary sub cost weights are weighted based on the similarity (including likelihood) between the input text and each category, and totaled. (Weighted sum of sub-cost weights), and this total value is determined as a sub-cost weight corresponding to the category.
例えば入力されたテキストがN個のカテゴリに重複分類された場合に、以下のようにサブコスト重みWを決定する。なお、ここではカテゴリiのサブコスト重みをWci=(w1ci,w2ci,w3ci,…,wmci)、mをサブコスト数、Wjをサブコストjにおけるサブコスト重み、Piをカテゴリiに対応する尤度または類似度とする。
次に、音韻韻律抽出部60は、テキストメモリ10からステップS1で読み出したのと同じテキスト(「入力されたテキスト」に相当)を読み出し(ステップS4)、その読み情報及び韻律情報を抽出してメモリ30の音韻韻律格納領域34に格納する。この例の場合、まず、音韻韻律抽出部60のテキスト解析部61が、このテキストのテキスト解析処理を行い、読み情報と韻律指標とを抽出し、これらを音韻韻律格納領域34に格納する(ステップS5)。この例のテキスト解析処理は、主に形態素解析処理と、読み・アクセント付与処理からなるが、これらの処理方法については、従来から様々な方法が存在し、例えば、特許3379643「形態素解析方法および形態素解析プログラムを記録した記録媒体」や、特許3518340「読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記録媒体」などの方法に基づいて処理を行うこともできる。
Next, the phonological
次に、韻律物理パラメータ抽出部62において、メモリ30の音韻韻律格納領域34から、ステップS5で抽出された韻律指標を読み出し、この韻律指標に基づいて韻律物理パラメータを求めて音韻韻律格納領域34に格納する(ステップS6)。ここで、韻律物理パラメータとしては、ピッチ(基本周波数)や音素継続時間長などがあるが、それらを求める方式も従来から存在する。例えば、特許3240691「ピッチパタン生成方法、その装置及びプログラム記録媒体」や、特許3344487「音声基本周波数パターン生成装置」の方法によってピッチ(基本周波数)を求めることが可能である。また、例えば、海木ら、「言語情報を利用した母音継続時間長の制御」vol. 75, No. 3 pp. 467-473、信学論や、M. D. Riley. "Tree-based modeling for speech synthesis." In G. Bailly, C. Benoit , and T. R. Sawallis, editors, Talking Machine: Theories, Models, and Designs, pages 265-273. Elsevier, 1992.などの方法で音素継続時間長を求めることができる。
Next, the prosodic physical
次に、探索部70が、メモリ30の音韻韻律格納領域34から読み情報及び韻律指標(ステップS5で格納されたものであり「入力されたテキストの読み情報及び韻律情報の組」に相当)を読み出し、この組をキーとして音声データベースメモリ20の音声データベース200(図2)を探索し、当該音声データベースから、これらの組の類似範囲に属する音韻列221(読み情報)及び韻律情報222(韻律指標222a+韻律物理パラメータ222b)の組と、それらに対応付けられている音声素片データ223を選択・抽出する。そして、抽出された音声素片データ223、音韻列221(読み情報)及び韻律情報222(韻律指標222a+韻律物理パラメータ222b)の探索結果は、メモリ30の探索結果格納領域35に格納される(ステップS7)。
Next, the
なお、ここでいう「類似範囲」とは、例えば、読み情報及び韻律情報が完全一致するもの、一部一致するもの、コストによって特定される類似度が高いもの等を含む概念である。例えば、読み情報が「ア」であれば「ア」と発音されている音声素片、すなわち音声データベース200の音韻列221が「A」である音声素片データ223や、韻律指標も用い、読みが「ア」、アクセント有りである音声素片、すなわち音声データベース200の音韻列221が「A」であってアクセント222acが「1」である音声素片データ223が類似範囲として探索されることになる。また、このステップで抽出される探索結果は1つに限られず、条件を満たすすべての音声素片データ223、音韻列221(読み情報)及び韻律情報222(韻律指標222a+韻律物理パラメータ222b)の抽出・格納が行われる。
Note that the “similarity range” here is a concept including, for example, a case where reading information and prosodic information are completely matched, a portion of which is matched, and a high similarity specified by cost. For example, if the reading information is “A”, the speech unit pronounced as “A”, that is, the
次に、サブコスト算出部80において、メモリ30の音韻韻律格納領域34から、入力テキストの読み情報(ステップS5で抽出)と韻律物理パラメータ(ステップS6で抽出)と(「入力されたテキストの読み情報及び韻律情報の組」に相当)を読み出し、探索結果格納領域35から読み情報及び韻律物理パラメータ222b(ステップS7で探索されたものであり「探索部70において選択された読み情報及び韻律情報の組」に相当)を読み出す。そして、サブコスト算出部80は、これらを用いて音韻及び韻律要素ごとの類似度を示すサブコストを算出し、算出されたサブコストを対応する音声素片データに対応付けてサブコスト格納領域36に格納する(ステップS8)。
Next, the
なお、このサブコストの計算は、例えば、以下のようにサブコスト関数を用いて行うことができる(「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法」、日本音響学会講演論文集、2-6-10、pp. 239-240、1990/9)。
[サブコスト関数]
以下にこの例のサブコスト関数を示す。
(1)読み情報に対応するサブコスト関数
C1(n)=1/en
ただし、入力テキストの読み情報としての音韻系列と、音声素片の読み情報しての音韻系列(音声素片データに対応付けられた音韻系列)との間で一致する音韻数をnとする。
This sub-cost can be calculated using, for example, a sub-cost function as follows ("Waveform Selection Method Considering Spectral Continuity in Waveform Editing Type Synthesis Method", Proceedings of the Acoustical Society of Japan, 2 -6-10, pp. 239-240, 1990/9).
[Sub-cost function]
The sub-cost function of this example is shown below.
(1) sub-cost function C 1 corresponding to the reading information (n) = 1 / e n
However, the number of phonemes that coincides between the phoneme sequence as the reading information of the input text and the phoneme sequence as the reading information of the speech unit (phoneme sequence associated with the speech unit data) is n.
(2)平均ピッチに対するサブコスト関数
C2(Vp,Vs)=|Vp−Vs|2
ただし、入力テキストから抽出した音韻物理パラメータの平均ピッチをVpとし、音声素片の平均ピッチ(音声素片データに対応付けられた平均F0)をVsとする。
(3)ピッチ傾きに対するサブコスト関数
C3(Fp,Fs)=|Fp−Fs|2
ただし、入力テキストから抽出した音韻物理パラメータのピッチ傾きをFpとし、音声素片のピッチ傾き(音声素片データに対応付けられたF0の傾斜)をFsとする。
(2) Sub-cost function for average pitch C 2 (Vp, Vs) = | Vp−Vs | 2
However, let Vp be the average pitch of the phoneme physical parameters extracted from the input text, and let Vs be the average pitch of the speech segments (average F0 associated with the speech segment data).
(3) Sub-cost function for pitch inclination C 3 (Fp, Fs) = | Fp−Fs | 2
However, the pitch inclination of the phoneme physical parameter extracted from the input text is Fp, and the pitch inclination of the speech segment (the slope of F0 associated with the speech segment data) is Fs.
(4)時間長に対するサブコスト関数
C4(Tp,Ts)=|Tp−Ts|2
ただし、入力テキストから抽出した音韻物理パラメータの時間長をTpとし、音声素片の時間長(音声素片データに対応付けられた時間長)をTsとする。
(5)振幅に対するサブコスト関数
C5(Ap,As)=|Ap−As|2
ただし、入力テキストから抽出した音韻物理パラメータの振幅をApとし、音声素片の時間長(音声素片データに対応付けられたパワー)をAsとする。
(4) Sub cost function for time length C 4 (Tp, Ts) = | Tp−Ts | 2
However, the time length of the phoneme physical parameter extracted from the input text is Tp, and the time length of the speech unit (the time length associated with the speech unit data) is Ts.
(5) Sub cost function for amplitude C 5 (Ap, As) = | Ap−As | 2
However, the amplitude of the phoneme physical parameter extracted from the input text is Ap, and the time length of the speech unit (power associated with the speech unit data) is As.
以上のサブコスト関数にステップS8で読み出した各情報を代入することで各サブコスト値を求めることができる。なお、ステップS8の処理はステップS7で抽出された各データの組に対して行われ、それぞれに対して算出されたサブコストを対応する音声素片データに対応付けて格納する。
次に、総合コスト計算部90が、メモリ30のサブコスト重み情報格納領域33からステップS3で算出されたサブコスト重み情報を読み出し、サブコスト格納領域36からステップS8で算出された各サブコストを読み出し、これらを用いて、サブコスト値をサブコスト重みで重み付けして統合した総合コスト値を算出し、メモリ30の総合コスト格納領域37に格納する(ステップS9)。
Each sub cost value can be obtained by substituting each information read in step S8 into the above sub cost function. Note that the processing in step S8 is performed for each data set extracted in step S7, and the sub cost calculated for each is stored in association with the corresponding speech segment data.
Next, the total
この例の総合コストの算出は、音声素片ごとに行われる。例えば、サブコスト関数を上記の(1)〜(5)とした場合、以下のように総合コストが算出される。
[総合コスト]
(6)Ω=ω2・C2+ω3・C3+ω4・C4+ω5・C5を算出する。
(7) ω1・C1+(1−ω1)・Ωを算出する。
(8)総合コストPnew=(1+G)・Pを算出する。
なお、C1,C2,C3,C4,C5は、ステップS8で、サブコスト関数C1(n),C2(Vp,Vs),C3(Fp,Fs),C4(Tp,Ts),C5(Ap,As)に、それぞれn,Vp,Vs,Fp,Fs,Tp,Ts,Ap,Asを代入して算出されたサブコストを示す。また、ω1,ω2,ω3,ω4,ω5は、サブコストC1,C2,C3,C4,C5のサブコスト重みを示す。さらにGは音響的な定数を示す。
The calculation of the total cost in this example is performed for each speech unit. For example, when the sub cost function is the above (1) to (5), the total cost is calculated as follows.
[Total cost]
(6) Ω = ω 2 · C 2 + ω 3 · C 3 + ω 4 · C 4 + ω 5 · C 5 is calculated.
(7) Calculate ω 1 · C 1 + (1−ω 1 ) · Ω.
(8) The total cost Pnew = (1 + G) · P is calculated.
C 1 , C 2 , C 3 , C 4 , and C 5 are sub-cost functions C 1 (n), C 2 (Vp, Vs), C 3 (Fp, Fs), and C 4 (Tp) in step S8. , Ts) and C 5 (Ap, As) are sub-costs calculated by substituting n, Vp, Vs, Fp, Fs, Tp, Ts, Ap, As, respectively. Further, ω 1 , ω 2 , ω 3 , ω 4 , and ω 5 indicate sub-cost weights of the sub-costs C 1 , C 2 , C 3 , C 4 , and C 5 . Further, G represents an acoustic constant.
なお、このステップはステップS8で算出された全てのデータの組に対して行われ、算出された各総合コストは、対応する音声素片データに関連付けられてメモリ30の総合コスト格納領域37に格納される。
次に、音声素片選択部100が、メモリ30の総合コスト格納領域37から、ステップS9で格納された総合コストを抽出し、その最小値を求める。なお、この最小値の算出は、一般的なDP法を用いることで容易に実現可能である。そして、音声素片選択部100は、求めた最小の総合コストに対応付けられている音声素片データ(「総合コスト値を最小値化する音声素片」に相当)を総合コスト格納領域37から読み出し(「選択」に相当)、それをメモリ30の選択音声素片格納領域38に格納する(ステップS10)。
This step is performed for all data sets calculated in step S8, and the calculated total costs are stored in the total cost storage area 37 of the memory 30 in association with the corresponding speech segment data. Is done.
Next, the speech
次に、制御部120が、テキストメモリ10に格納されている1つのテキストについての全ての音声素片データが選択されたか否かを判断する(ステップS11)。ここで、全ての音声素片データが選択されていなければステップS5に戻り、全ての音声素片データが選択されていればステップS12に進む。
ステップS12では、音声素片接続部110が、メモリ30の選択音声素片格納領域38から各音声素片データ(「音声素片選択手段が選択した音声素片」に相当)を読み出し、これらを順に接続して合成音声を生成して出力する(ステップS12)。
Next, the
In step S12, the speech
なお、選択された音声素片データを単に時間的な順序で接続してもよいが、異なる音声素片データ間を時間的又は周波数的に補間することも容易である(特願平5−217337「音声合成方法および装置」)。また、韻律物理パラメータに基づいて選択された音声素片データに対して信号処理を施した後、これらを接続しても良い(Y. Stylianou, “Concatenative Speech Synthesis using a Harmonic plus Noise Model." In: The 3rd ESCA/COCOSDA Workshop on Speech Synthesis, Jenolan Caves, NSW, Australia, NOV. 1998, Paper H.1.)
<本形態の特徴>
以上のように、本形態では、入力されたテキストを、その内容に応じて予め決めておいたテキストカテゴリの少なくともどれか1つに分類し、そのカテゴリに基づいてサブコスト関数に対する重み付けであるサブコスト重みを変更し、結果として音声素片の選択において基本となる総合コストの計算方法を変更することとした。これにより、テキストの内容に応じた最適な合成音声を生成することが可能となる。
Note that the selected speech unit data may be simply connected in temporal order, but it is also easy to interpolate between different speech unit data in terms of time or frequency (Japanese Patent Application No. 5-217337). "Speech synthesis method and apparatus"). In addition, after processing speech unit data selected based on prosodic physical parameters, these may be connected (Y. Stylianou, “Concatenative Speech Synthesis using a Harmonic plus Noise Model.” In : The 3rd ESCA / COCOSDA Workshop on Speech Synthesis, Jenolan Caves, NSW, Australia, NOV. 1998, Paper H.1.)
<Features of this embodiment>
As described above, in this embodiment, the input text is classified into at least one of the text categories determined in advance according to the contents, and the sub-cost weight which is a weight for the sub-cost function based on the category. As a result, the calculation method of the total cost, which is the basis for selecting speech segments, was changed. Thereby, it is possible to generate an optimal synthesized speech corresponding to the content of the text.
すなわち、前述したように、本形態では、予め様々なテキストを想定してその内容に応じた複数のカテゴリを設定し、分類されたカテゴリごとにそのカテゴリを代表するようなテキストをいくつか集める。そして、それらのテキストを実際に合成するとともにその合成音声の品質が最もよくなるように、サブコスト関数に対する重みであるサブコスト重みを調整することで、分類されたカテゴリ毎に最適なサブコスト重みを見つけ出しておく。そして、テキストのカテゴリに最適なサブコスト重みを用いて総合コストを計算し、それに基づいて音声素片を選択すする。その結果、従来、全ての入力テキストに対して同一の総合コストの計算方法に基づく音声素片選択が行われ、結果として音声デー夕ベースに多く存在するような一般的なテキスト以外の分野では高音質の合成音声が生成できないという問題を解決することができる。 That is, as described above, in this embodiment, various categories are assumed in advance, a plurality of categories are set according to the contents, and several texts representing the categories are collected for each classified category. Then, by synthesizing those texts and adjusting the sub-cost weight, which is a weight for the sub-cost function, so that the quality of the synthesized speech is best, the optimum sub-cost weight is found for each classified category. . Then, the total cost is calculated using the optimum sub-cost weight for the text category, and a speech segment is selected based on the total cost. As a result, speech unit selection based on the same total cost calculation method is conventionally performed for all input texts, and as a result, it is high in fields other than general texts that exist in many speech databases. It is possible to solve the problem that it is not possible to generate synthesized speech of sound quality.
<ハードウェア構成>
図5は、本形態における音声合成装置400をノイマン型のコンピュータで実現する場合のブロック図である。
この図に例示するように、この例の音声合成装置400は、入力部410、出力部420、CPU430、RAM440、ROM450、ハードディスク装置460及びこれらを通信可能に接続するバス470を有している。
入力部410は、例えば、テキストデータ等の入力を受け付けるUSB(Universal Serial Bus)等のインタフェース或いはキーボード、マウス、タッチパネル等の入力デバイスである。また出力部420は、例えば、生成された合成音声データを出力するUSB等のインタフェース或いはスピーカ等の音声出力装置である。
<Hardware configuration>
FIG. 5 is a block diagram when the
As illustrated in this figure, the
The
また、ハードディスク装置460には、Microsoft社のWindows(登録商標)等のOS(Operating System)プログラム461、音声合成プログラム462、音声データベース463、サブコスト対応表464及びテキスト情報465が格納される。
ここで、音声合成プログラム462は、上述した図4の処理を実行するアプリケーションソフトウェアである、また、音声データベース463は、図2の音声データベース200と同様のデータベースであり、サブコスト対応表464は、図3のサブコスト対応表300と同様なデータである。また、テキスト情報465は、入力部410から入力された合成音声が生成されるテキストである。
The
Here, the
音声合成装置400が、音声合成処理を実行する場合、まず、CPU430は、ハードディスク装置460のOSプログラム461、音声合成プログラム462、音声データベース463、サブコスト対応表464及びテキスト情報465を一旦RAM440に読み込む。そして、CPU430は、このRAM440から読み込んだOSプログラム461を実行させた上で音声合成プログラム462を実行し、前述した図4の各処理を行う。なお、この場合、RAM440が、テキストメモリ10、音声データベースメモリ20及びメモリ30に相当することになる。また、CPU430が、ハードディスク装置460のOSプログラム461、音声合成プログラム462、音声データベース463、サブコスト対応表464及びテキスト情報465の少なくとも一部をハードディスク装置460から直接読み込んで処理を行うこととしてもよいことは言うまでもない。
When the
<音声合成プログラム>
また、前述の各処理内容を記述した音声合成プログラム462は、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
<Speech synthesis program>
Also, the
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータ(音声合成装置400)は、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムをハードディスク装置460に格納し、それに沿った処理を上述のように実行することとなるが、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
For example, a computer (speech synthesizer 400) that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in the
<変形例等>
なお、本発明は上述の実施の形態に限定されるものではない。例えば、本形態では、ステップS7の音声素片データの探索に音韻指標を用い、ステップS8のサブコストの算出に音韻物理パラメータを用いることとしたが、ステップS7の音声素片データの探索に音韻物理パラメータ(「韻律情報」に相当)を用いることとしてもよく、また、ステップS8のサブコストの算出に音韻指標(「韻律情報」に相当)を用いることとしてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、処理ループの構成も説明したものに限定されない。
<Modifications>
The present invention is not limited to the embodiment described above. For example, in this embodiment, the phoneme index is used for searching the speech unit data in step S7, and the phoneme physical parameter is used for calculating the sub-cost in step S8. However, the phoneme physics is used for searching the speech unit data in step S7. A parameter (corresponding to “prosodic information”) may be used, and a phoneme index (corresponding to “prosodic information”) may be used for calculating the sub-cost in step S8.
In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Further, the configuration of the processing loop is not limited to that described.
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Needless to say, other modifications are possible without departing from the spirit of the present invention.
本発明の利用分野としては音声合成分野が挙げられる。 The field of application of the present invention includes the field of speech synthesis.
1,400 音声合成装置
20 音声データベースメモリ
40 テキスト分類部
50 サブコスト重み決定部
60 音韻韻律抽出部
61 テキスト解析部
62 音韻物理パラメータ抽出部
70 探索部
80 サブコスト算出部
90 総合コスト計算部
100 音声素片選択部
DESCRIPTION OF SYMBOLS 1,400
Claims (7)
音声素片、その読み情報及び韻律情報を対応付けた音声データベースを格納する音声データベースメモリと、
入力されたテキストの内容に基づいて、当該テキストを、予め決められたカテゴリのうちの少なくとも1つのカテゴリに割り当てるテキスト分類手段と、
前記テキストが割り当てられた前記カテゴリに対応するサブコスト重みを決定するサブコスト重み決定手段と、
前記入力されたテキストの読み情報及び韻律情報を抽出する音韻韻律抽出手段と、
前記入力されたテキストの読み情報及び韻律情報の組をキーとして前記音声データベースを探索し、当該音声データベースから、これらの組の類似範囲に属する読み情報及び韻律情報の組を選択する探索手段と、
前記入力されたテキストの読み情報及び韻律情報の組と、前記探索手段において選択された読み情報及び韻律情報の組とを用い、これらの音韻及び韻律要素ごとの類似度を示すサブコスト値を算出するサブコスト算出手段と、
前記サブコスト値を前記サブコスト重みで重み付けして統合した総合コスト値を算出する総合コスト計算手段と、
前記総合コスト値を最小値化する前記音声素片を選択する音声素片選択手段と、
前記音声素片選択手段が選択した前記音声素片を接続する音声素片接続手段と、
を有することを特徴とする音声合成装置。 In a speech synthesizer that selects and synthesizes an appropriate speech segment from a speech database corresponding to the input text,
A speech database memory storing a speech database in which speech segments, their reading information and prosodic information are associated;
Text classification means for assigning the text to at least one of predetermined categories based on the contents of the input text;
Sub-cost weight determining means for determining a sub-cost weight corresponding to the category to which the text is assigned;
Phonological prosody extraction means for extracting the input text reading information and prosodic information;
Search means for searching the speech database using a set of input text reading information and prosodic information as a key, and selecting from the speech database a set of reading information and prosodic information belonging to a similar range of these sets;
Using the set of reading information and prosodic information of the input text and the reading information and prosodic information set selected by the search means, a sub-cost value indicating the similarity for each phoneme and prosodic element is calculated. Sub-cost calculation means;
A total cost calculating means for calculating a total cost value obtained by weighting and integrating the sub cost value with the sub cost weight;
Speech unit selection means for selecting the speech unit that minimizes the total cost value;
Speech unit connection means for connecting the speech units selected by the speech unit selection means;
A speech synthesizer characterized by comprising:
前記音声データベースの韻律情報は、
対応する音声素片の韻律の指標である韻律指標と、韻律の物理量である韻律物理パラメータと、によって構成され、
前記音韻韻律抽出手段が前記入力されたテキストから抽出する韻律情報は、
韻律指標及び韻律物理パラメータであり、
前記探索手段は、
前記入力されたテキストの読み情報及び韻律指標をキーとして前記音声データベースを探索し、当該音声データベースから、これらの組の類似範囲に属する読み情報及び韻律情報の組を選択する手段であり、
前記サブコスト算出手段がサブコスト値の算出に用いる韻律情報は、
韻律物理パラメータである、
ことを特徴とする音声合成装置。 The speech synthesizer according to claim 1,
The prosodic information of the speech database is
A prosodic index that is a prosodic index of the corresponding speech segment, and a prosodic physical parameter that is a physical quantity of the prosody,
The prosodic information extracted from the input text by the phonological prosody extracting means is:
Prosodic indices and prosodic physical parameters,
The search means includes
Searching the speech database using the input text reading information and prosodic index as a key, and selecting from the speech database a set of reading information and prosodic information belonging to a similar range of these sets,
The prosodic information used by the sub-cost calculating means for calculating the sub-cost value is:
Prosodic physics parameters,
A speech synthesizer characterized by the above.
前記予め決められたカテゴリは、
単一の分類基準をもとに分類されたカテゴリであり、
前記テキスト分類手段は、
前記入力されたテキストを、いずれか1つのカテゴリに割り当てる手段であり、
前記サブコスト重み決定手段は、
前記テキストが割り当てられた1つのカテゴリに対応するサブコスト重みを決定する手段である、
ことを特徴とする音声合成装置。 The speech synthesizer according to claim 1,
The predetermined category is:
A category classified based on a single classification criterion,
The text classification means includes:
Means for assigning the inputted text to any one of the categories;
The sub-cost weight determining means includes
Means for determining a sub-cost weight corresponding to one category to which the text is assigned;
A speech synthesizer characterized by the above.
前記予め決められたカテゴリは、
複数の分類基準をもとに分類されたカテゴリであり、
前記サブコスト重み決定手段は、
前記入力されたテキストが1つのカテゴリのみに割り当てられた場合、この1つのカテゴリに対応するサブコスト重みを決定し、
前記入力されたテキストが複数のカテゴリに割り当てられた場合、これら複数のカテゴリに対応する予備サブコスト重みをそれぞれ決定し、当該予備サブコスト重みを、前記入力されたテキストと前記各カテゴリとの類似度をもとに重み付けして合計し、この合計値を、前記カテゴリに対応するサブコスト重みとして決定する手段である、
ことを特徴とする音声合成装置。 The speech synthesizer according to claim 1,
The predetermined category is:
A category classified based on multiple classification criteria,
The sub-cost weight determining means includes
If the entered text is assigned to only one category, determine a sub-cost weight corresponding to this one category;
When the input text is assigned to a plurality of categories, spare sub-cost weights corresponding to the plurality of categories are respectively determined, and the spare sub-cost weight is determined based on the similarity between the input text and each category. A means for weighting and summing the original values and determining the total value as a sub-cost weight corresponding to the category.
A speech synthesizer characterized by the above.
前記予め決められたカテゴリは、
前記テキスト分類手段が実行する手順によって所定のテキストを予備的なカテゴリに割り当て、当該テキストが複数の当該予備的なカテゴリに割り当てられることとなった場合に、当該複数の予備的なカテゴリを1つのカテゴリに統合して生成されたカテゴリを有する、
ことを特徴とする音声合成装置。 The speech synthesizer according to claim 1,
The predetermined category is:
When a predetermined text is assigned to a preliminary category according to a procedure executed by the text classification means, and the text is assigned to a plurality of the preliminary categories, the plurality of preliminary categories are assigned to one Have categories generated by integrating into categories,
A speech synthesizer characterized by the above.
音声データベースメモリに、音声素片、その読み情報及び韻律情報を対応付けた音声データベースを格納しておき、
テキスト分類手段が、入力されたテキストの内容に基づいて、当該テキストを、予め決められたカテゴリのうちの少なくとも1つのカテゴリに割り当て、
サブコスト重み決定手段が、前記テキストが割り当てられた前記カテゴリに対応するサブコスト重みを決定し、
音韻韻律抽出手段が、前記入力されたテキストの読み情報及び韻律情報を抽出し、
探索手段が、前記入力されたテキストの読み情報及び韻律情報の組をキーとして前記音声データベースを探索し、当該音声データベースから、これらの組の類似範囲に属する読み情報及び韻律情報の組を選択し、
前記サブコスト算出手段が、前記入力されたテキストの読み情報及び韻律情報の組と、前記探索手段において選択された読み情報及び韻律情報の組とを用い、これらの音韻及び韻律要素ごとの類似度を示すサブコスト値を算出し、
総合コスト計算手段が、前記サブコスト値を前記サブコスト重みで重み付けして統合した総合コスト値を算出し、
音声素片選択手段が、前記総合コスト値を最小値化する前記音声素片を選択し、
音声素片接続手段が、前記音声素片選択手段が選択した前記音声素片を接続する、
ことを特徴とする音声合成方法。 In a speech synthesis method for selecting and synthesizing appropriate speech segments from a speech database in accordance with input text,
In the speech database memory, a speech database in which speech segments, their reading information and prosodic information are associated is stored,
A text classification means assigns the text to at least one of predetermined categories based on the content of the input text,
A sub cost weight determining means determines a sub cost weight corresponding to the category to which the text is assigned;
The phonological prosody extraction means extracts the input text reading information and prosody information,
A search means searches the speech database using a set of input reading information and prosodic information of the text as a key, and selects a set of reading information and prosodic information belonging to a similar range of these sets from the speech database. ,
The sub-cost calculating means uses the set of reading information and prosodic information of the input text and the set of reading information and prosodic information selected by the searching means, and calculates the similarity for each of these phonemes and prosodic elements. Calculate the sub-cost value shown,
Comprehensive cost calculation means calculates the integrated cost value obtained by weighting and integrating the sub cost value with the sub cost weight,
A speech segment selection means selects the speech segment that minimizes the total cost value;
A speech unit connection means connects the speech units selected by the speech unit selection means;
A speech synthesis method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004313621A JP4441380B2 (en) | 2004-10-28 | 2004-10-28 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004313621A JP4441380B2 (en) | 2004-10-28 | 2004-10-28 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006126413A JP2006126413A (en) | 2006-05-18 |
JP4441380B2 true JP4441380B2 (en) | 2010-03-31 |
Family
ID=36721245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004313621A Expired - Fee Related JP4441380B2 (en) | 2004-10-28 | 2004-10-28 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4441380B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102107447B1 (en) * | 2018-07-03 | 2020-06-02 | 주식회사 한글과컴퓨터 | Text to speech conversion apparatus for providing a translation function based on application of an optional speech model and operating method thereof |
KR102107445B1 (en) * | 2018-07-03 | 2020-06-02 | 주식회사 한글과컴퓨터 | Text to speech converting apparatus capable of applying an optional speech model and operating method thereof |
-
2004
- 2004-10-28 JP JP2004313621A patent/JP4441380B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006126413A (en) | 2006-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10453442B2 (en) | Methods employing phase state analysis for use in speech synthesis and recognition | |
US9721558B2 (en) | System and method for generating customized text-to-speech voices | |
JP2007249212A (en) | Method, computer program and processor for text speech synthesis | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
JP2002530703A (en) | Speech synthesis using concatenation of speech waveforms | |
JPH1083277A (en) | Connected read-aloud system and method for converting text into voice | |
CN101814288B (en) | Method and equipment for self-adaption of speech synthesis duration model | |
JP4247289B1 (en) | Speech synthesis apparatus, speech synthesis method and program thereof | |
JP4441380B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP2013164609A (en) | Singing synthesizing database generation device, and pitch curve generation device | |
JP5020763B2 (en) | Apparatus, method, and program for generating decision tree for speech synthesis | |
JP5875504B2 (en) | Speech analysis device, method and program | |
JP5020759B2 (en) | Segment database generation apparatus, method and program for various speech synthesizers | |
JP4607660B2 (en) | Music search apparatus and music search method | |
JPH10254471A (en) | Voice synthesizer | |
Raghavendra et al. | A multilingual screen reader in Indian languages | |
JP3881970B2 (en) | Speech data set creation device for perceptual test, computer program, sub-cost function optimization device for speech synthesis, and speech synthesizer | |
JP5155836B2 (en) | Recorded text generation device, method and program | |
EP1589524B1 (en) | Method and device for speech synthesis | |
KR102785242B1 (en) | Device, method and computer program for synthesizing voice | |
JP4607659B2 (en) | Music search apparatus and music search method | |
JP4787686B2 (en) | TEXT SELECTION DEVICE, ITS METHOD, ITS PROGRAM, AND RECORDING MEDIUM | |
EP1640968A1 (en) | Method and device for speech synthesis | |
JP2008191525A (en) | F0 value time series generating device, its method, its program and its recording medium | |
JP6479637B2 (en) | Sentence set generation device, sentence set generation method, program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20061219 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091222 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100108 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130115 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4441380 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |