[go: up one dir, main page]

JP4441380B2 - Speech synthesis apparatus, speech synthesis method, and speech synthesis program - Google Patents

Speech synthesis apparatus, speech synthesis method, and speech synthesis program Download PDF

Info

Publication number
JP4441380B2
JP4441380B2 JP2004313621A JP2004313621A JP4441380B2 JP 4441380 B2 JP4441380 B2 JP 4441380B2 JP 2004313621 A JP2004313621 A JP 2004313621A JP 2004313621 A JP2004313621 A JP 2004313621A JP 4441380 B2 JP4441380 B2 JP 4441380B2
Authority
JP
Japan
Prior art keywords
speech
sub
cost
text
prosodic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004313621A
Other languages
Japanese (ja)
Other versions
JP2006126413A (en
Inventor
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004313621A priority Critical patent/JP4441380B2/en
Publication of JP2006126413A publication Critical patent/JP2006126413A/en
Application granted granted Critical
Publication of JP4441380B2 publication Critical patent/JP4441380B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To actually improve quality of a synthesis speech generated from an input text. <P>SOLUTION: A text classification part 40 assigns the input text to a prescribed category, and a sub-cost weighing determining part 50 determines sub-cost weighing corresponding to the category. In addition, a phoneme rhythm extractor 60 extracts reading information and rhythm information of the input text, and selects a group of the reading information and the rhythm information belonging to the similar range of the group from a speech database memory 20 by regarding the group as a key. Next, a sub-cost calculator 80 uses the group of the reading information and the rhythm information of the input text and a group of selected reading information and rhythm information to calculate a sub-cost value. A total cost calculator 90 calculates a total cost value weighing and integrating it by sub-cost weighing. An elementary speech unit selector 100 selects elementary speech unit minimizing the total cost value, and an elementary speech unit connector 110 connects them to generate synthesis speech. <P>COPYRIGHT: (C)2006,JPO&amp;NCIPI

Description

本発明は、テキスト内容から合成音声を生成する音声合成装置、音声合成方法及び音声合成プログラムに関する。   The present invention relates to a speech synthesizer that generates synthesized speech from text content, a speech synthesis method, and a speech synthesis program.

近年、大容量な記憶装置の使用コストの低下に伴い、数十分以上の大容量の音声データをそのまま大容量の記憶装置に蓄積し、入力されたテキスト及び韻律情報に応じて音声素片を適切に選択し、接続・変形することで高品質な音声を合成する波形接続型コーパスベース音声合成方法が提案されている(例えば、特許文献1、非特許文献1参照)。
この方法では、まず、音声デー夕ベースから、合成したい文字列に対応する音韻系列と部分的または完全に一致する音声素片をバイナリーツリー等で構成された音声素片辞書を用いて検索する。次に、音声素片の類似度を評価するための複数のパラメータに基づく評価尺度に従って、検索された多数の音声素片にコスト付けを行う。そして、DP(Dynamic Programming:動的計画法)等の方法によって、これらの音声素片の中から適切な音声素片の組み合わせを選択し、選択された音声素片を順に接続することで音声合成を行う(例えば、非特許文献2参照)。
In recent years, with the reduction in the cost of using large-capacity storage devices, tens of minutes or more of large-capacity speech data is stored as it is in a large-capacity storage device, and speech segments are stored according to input text and prosodic information. A waveform-connected corpus-based speech synthesis method that synthesizes high-quality speech by appropriately selecting, connecting, and transforming has been proposed (see, for example, Patent Document 1 and Non-Patent Document 1).
In this method, first, a speech unit partially or completely matching a phoneme sequence corresponding to a character string to be synthesized is searched from a speech database using a speech unit dictionary composed of a binary tree or the like. Next, according to an evaluation scale based on a plurality of parameters for evaluating the similarity between speech units, the retrieved speech units are costed. Then, by using a method such as DP (Dynamic Programming), speech synthesis is performed by selecting an appropriate combination of speech units from these speech units and connecting the selected speech units in order. (For example, refer nonpatent literature 2).

このような方式によって、原理的には肉声同等の高品質な合成音声を生成することが可能になってきている。しかし、この方式で高品質な合成音声が生成できるのは、適切な音声素片が音声デー夕ベースに存在していることが前提であって、そもそも適切な音声素片が音声デー夕ベースに存在しない場合には、高品質な合成音声を生成することはできない。従って、様々なテキストを高品質に音声合成するためには、豊富な音声素片のバリエーションを含む音声データベースを用いることが必須である。そのため近年では、音声素片のバリエーションを増やし合成音声を高品質化するために、音声データベースの容量をより一層増加させる方向で開発が進んでいる。
特許2761552号公報 M. Beutnagel, A. Conkie, J. Schoroeter, Y. Stylianou, and A. Sydral, "Chose the best to modify the least: A new generation concatenative synthesis system", in Proc. Eurospeech'99, 1999, pp. 2291-2294 波形編集型規則合成法における波形選択法、広川他、電子情報通信学会音声研究会資料、SP89-114, pp.33-40(1990)
In principle, it has become possible to generate high-quality synthesized speech equivalent to the real voice. However, high-quality synthesized speech can be generated with this method on the premise that an appropriate speech unit exists in the speech database, and in the first place, an appropriate speech unit is created in the speech database. If it does not exist, high-quality synthesized speech cannot be generated. Therefore, in order to synthesize various texts with high quality, it is essential to use a speech database including a variety of speech segment variations. Therefore, in recent years, in order to increase the variation of speech units and to improve the quality of synthesized speech, development has progressed in the direction of further increasing the capacity of the speech database.
Japanese Patent No. 2761552 M. Beutnagel, A. Conkie, J. Schoroeter, Y. Stylianou, and A. Sydral, "Chose the best to modify the least: A new generation concatenative synthesis system", in Proc. Eurospeech'99, 1999, pp. 2291 -2294 Waveform selection method in waveform editing type rule synthesis method, Hirokawa et al., IEICE Technical Report, SP89-114, pp.33-40 (1990)

しかし、音声素片の音声データベースを大容量化することによって合成音声の高品質化を図る手法では、実際上、高品質な合成音声を生成できない場合があるという問題点がある。
すなわち、音声データベースを大容量化することで、ある程度の合成音声の品質は向上されてきたものの、時間的・費用的な問題から音声デー夕ベースに収録可能な音声情報の量には限界がある。そのため、事実上、日本語として想定できる全ての音声素片を音声デー夕ベースに収録しておくことは不可能である。
However, the technique for improving the quality of synthesized speech by increasing the capacity of the speech database of speech units has a problem that, in practice, high-quality synthesized speech may not be generated.
In other words, although the quality of synthesized speech has been improved to some extent by increasing the volume of the speech database, the amount of speech information that can be recorded in the speech database is limited due to time and cost issues. . For this reason, it is virtually impossible to record all speech segments that can be assumed as Japanese in the speech database.

また、音声データベースに音声を収録するためには、予め読み上げるための文章(収録用テキスト)を用意する必要があるが、ここでも日本語として想定できる全てのテキストを集めることは不可能である。そのため、音声データベースへの音声収録の際には、ある程度限定された内容のテキストを読み上げることになり、その結果、音声デー夕ベースに収録される音声の内容には偏りが生じる。具体的には、例えば日常的な会話など音声としては一般的だが、それを書き起こしたテキストなどが通常は存在しない分野の場合にはテキストを集めることは困難であるし、医療や法律分野などの専門分野のように分野特有の専門用語が多数ある場合には、全ての分野の専門用語やそれを含むテキストを集めることは困難である。その結果、結果音声デー夕ベースに収録される音声は、新聞や小説等の簡単かつ大量に収集可能な分野のテキストを基本として生成された収録用テキストを読み上げたものが中心となる。そのため、基本となるテキストを十分収集できない分野では、他の分野のテキストを読み上げて収録した音声素片を用いて合成音声を作成せざるを得ない。   In addition, in order to record the voice in the voice database, it is necessary to prepare a sentence (recording text) to be read out in advance, but here too, it is impossible to collect all the text that can be assumed as Japanese. For this reason, text recorded in the voice database is read to a certain extent, and as a result, the contents of the voice recorded in the voice database are biased. Specifically, for example, it is common for speech such as everyday conversation, but it is difficult to collect text in the field where the text that transcribes it usually does not exist, medical and legal fields etc. If there are a lot of domain-specific technical terms, such as the technical field of, it is difficult to collect technical terms of all fields and texts containing them. As a result, the speech recorded in the resulting speech database is mainly read out from the recording text generated based on the texts of fields that can be collected easily and in large quantities, such as newspapers and novels. For this reason, in a field where the basic text cannot be collected sufficiently, synthesized speech must be created using speech segments that are read out and recorded in text from other fields.

以上のような状況下、非特許文献2では、適切な音声素片を選択する手法として、単独又は複数の物理的なパラメー夕を組み合わせた物理的な尺度と、ピッチやパワー等の韻律的な尺度を組み合わせた評価尺度を設定し、それらの尺度に基づいて音声デー夕ベースから音声素片を選択する手法をとっている。具体的には、まず、物理的なパラメータから音声間の類似度を算出するサブコスト関数を音声の各物理パラメータに対して準備する。次に、このサブコスト関数に、合成音声を生成しようとする入力テキストから計算上求められた物理パラメータと、音声デー夕ベースの音声素片の物理パラメータとを代入し、入力テキストと音声素片とのサブコストを求める。なお、このサブコストは、物理パラメータごとに求められる。そして、先見的な知識に基づいてこれらのサブコストを重み付けし、それらを組み合わせて、入力テキストと音声素片との総合コストを求め、この総合コストに基づいて音声素片が適切であるか否かを判断する。   Under the circumstances as described above, in Non-Patent Document 2, as a method of selecting an appropriate speech segment, a physical scale combining a single or a plurality of physical parameters, and a prosody such as pitch and power. An evaluation scale combining scales is set, and a speech unit is selected from the speech database based on those scales. Specifically, first, a sub-cost function for calculating the similarity between speeches from physical parameters is prepared for each physical parameter of speech. Next, the physical parameters calculated from the input text to be generated synthesized speech and the physical parameters of the speech unit based on the speech database are substituted into this sub-cost function, and the input text, speech unit, Find the subcost of. This sub cost is obtained for each physical parameter. Then, these sub-costs are weighted based on a priori knowledge, and they are combined to obtain the total cost of the input text and the speech unit, and whether or not the speech unit is appropriate based on this total cost. Judging.

しかしながら、通常、適正なバランスをとってこのサブコストの重み付けを行うことは困難である。なぜなら、テキストの種類によって使用される言葉の頻度も異なり、最も良い合成音声が得られるサブコストの重み付けも異なってくるからである。そのため、従来は、多様なテキストを用いてそれらの音声合成を行い、その合成音声の品質が平均的に向上するようにサブコストの重み付けをチューニングする場合が多かった。
その結果、これにより決定される重み付けは、平均的なテキスト或いは音声データベースに多く収録されているような一般的な分野のテキストの合成に適したものとなる。従って、専門分野や音声デー夕ベースに収録されていないような分野のテキストを合成した場合には、音声デー夕ベースから最適な音声素片を選択することができず、より高品質な合成音声を生成できる可能性がありながら実際に合成された音声の品質は低いという課題が存在した。
However, it is usually difficult to weight this sub-cost with an appropriate balance. This is because the frequency of words used differs depending on the type of text, and the sub-cost weighting for obtaining the best synthesized speech also differs. For this reason, conventionally, voices are synthesized using various texts, and the sub-cost weighting is often tuned so that the quality of the synthesized speech is improved on average.
As a result, the weighting determined thereby is suitable for synthesizing texts in general fields such as those recorded in the average text or speech database. Therefore, when synthesizing text in a specialized field or a field that is not recorded in the speech database, it is not possible to select the optimal speech segment from the speech database, resulting in higher quality synthesized speech. However, there is a problem that the quality of the synthesized speech is low, although there is a possibility that it can be generated.

本発明はこのような点に鑑みてなされたものであり、入力されたテキストから生成される合成音声の品質を現実的に向上させることが可能な技術を提供することを目的とする。   The present invention has been made in view of these points, and an object of the present invention is to provide a technology capable of realistically improving the quality of synthesized speech generated from input text.

本発明では上記課題を解決するために、入力されたテキストの内容に基づいて、当該テキストを、予め決められたカテゴリのうちの少なくとも1つのカテゴリに割り当て、テキストが割り当てられたカテゴリに対応するサブコスト重みを決定する。また、入力されたテキストの読み情報及び韻律情報を抽出し、入力されたテキストの読み情報及び韻律情報の組をキーとして、音声素片、その読み情報及び韻律情報を対応付けた音声データベースから、これらの組の類似範囲に属する読み情報及び韻律情報の組を選択する。次に、入力されたテキストの読み情報及び韻律情報の組と、探索手段において選択された読み情報及び韻律情報の組とを用い、これらの音韻及び韻律要素ごとの類似度を示すサブコスト値を算出し、サブコスト値をサブコスト重みで重み付けして統合した総合コスト値を算出する。そして、総合コスト値を最小値化する音声素片を選択し、選択された音声素片を接続して合成音声を生成する。   In the present invention, in order to solve the above problem, the text is assigned to at least one of predetermined categories based on the contents of the input text, and the sub-cost corresponding to the category to which the text is assigned. Determine the weight. Further, the reading information and prosodic information of the input text are extracted, and from the speech database associating the speech unit, the reading information and the prosodic information with the set of the input text reading information and the prosodic information as a key, A set of reading information and prosodic information belonging to the similar range of these sets is selected. Next, using a set of reading information and prosodic information of the input text and a reading information and prosodic information set selected by the search means, a sub-cost value indicating the similarity for each phoneme and prosodic element is calculated. Then, the total cost value obtained by integrating the sub cost values by weighting the sub cost weights is calculated. Then, a speech unit that minimizes the total cost value is selected, and the selected speech unit is connected to generate a synthesized speech.

ここで、入力されたテキストのカテゴリに対応するサブコスト重みを決定し、それをもとに総合コスト値を算出している。そのため、カテゴリごとに最適なサブコスト重みを用いて総合コストを算出することができる。その結果、全てのカテゴリに平均的に適しているサブコスト重みを用いて総合コストを算出する場合に比べ、より適した音声素片を選択することが可能となる。   Here, the sub cost weight corresponding to the input text category is determined, and the total cost value is calculated based on the sub cost weight. Therefore, the total cost can be calculated using the optimum sub cost weight for each category. As a result, it is possible to select a speech unit that is more suitable than the case where the total cost is calculated using sub-cost weights that are averagely suitable for all categories.

以上のように、本発明では、入力されたテキストのカテゴリに対応するサブコスト重みを用いて総合コストを算出し、音声素片を選択することとしたため、合成音声の品質を現実的に向上させることが可能となる。   As described above, according to the present invention, the total cost is calculated using the sub-cost weight corresponding to the input text category, and the speech segment is selected, so that the quality of the synthesized speech can be improved practically. Is possible.

以下、本発明の実施の形態を図面を参照して説明する。
<構成>
図1は、本形態における音声合成装置1の概念的な構成図の例示である。
この図に例示するように、音声合成装置1は、入力部5、テキストメモリ10、音声データベースメモリ20、メモリ30、テキスト分類部40、サブコスト重み決定部50、音韻韻律抽出部60、探索部70、サブコスト算出部80、総合コスト計算部90、音声素片選択部100、音声素片接続部110及び制御部120を有している。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<Configuration>
FIG. 1 is an illustration of a conceptual configuration diagram of a speech synthesizer 1 in the present embodiment.
As illustrated in this figure, the speech synthesizer 1 includes an input unit 5, a text memory 10, a speech database memory 20, a memory 30, a text classification unit 40, a sub-cost weight determination unit 50, a phonological prosody extraction unit 60, and a search unit 70. , A sub cost calculation unit 80, a total cost calculation unit 90, a speech unit selection unit 100, a speech unit connection unit 110, and a control unit 120.

ここで、メモリ30は、カテゴリ情報格納領域31、サブコスト対応表格納領域32、サブコスト重み情報格納領域33、音律韻律格納領域34、探索結果格納領域35、サブコスト格納領域36、総合コスト格納領域37及び選択音声素片格納領域38を有している。また、音韻韻律抽出部60は、テキスト解析部61及び韻律物理パラメータ抽出部62を有している。
なお、本形態の音声合成装置1は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)、ハードディスク装置等から構成される公知のコンピュータに所定のプログラム(音声合成プログラム)を実行させることにより構成されるものである。
Here, the memory 30 includes a category information storage area 31, a sub cost correspondence table storage area 32, a sub cost weight information storage area 33, a phoneme prosody storage area 34, a search result storage area 35, a sub cost storage area 36, an overall cost storage area 37, and A selected speech segment storage area 38 is provided. The phonological prosody extraction unit 60 includes a text analysis unit 61 and a prosodic physical parameter extraction unit 62.
Note that the speech synthesizer 1 according to the present embodiment causes a known computer including a CPU (Central Processing Unit), a RAM (Random Access Memory), a hard disk device, and the like to execute a predetermined program (speech synthesis program). It is comprised by.

<前処理>
次に、本形態の音声合成方法における前処理について説明する。
[音声データベース]
まず、音声データベースメモリ20に、音声合成に必要な音声素片等を有する音声データベースを格納する。
図2は、本形態における音声データベース200のデータ構成の例示である。
図2に例示するように、この例の音声データベース200は、音韻列221(「読み情報」に相当)、韻律情報222及び音声素片データ(デジタル信号データであり「音声素片」に相当)が対応付けられて構成される。
<Pretreatment>
Next, preprocessing in the speech synthesis method of this embodiment will be described.
[Audio database]
First, the speech database memory 20 stores a speech database having speech segments necessary for speech synthesis.
FIG. 2 shows an example of the data structure of the voice database 200 in this embodiment.
As illustrated in FIG. 2, the speech database 200 of this example includes a phoneme string 221 (corresponding to “reading information”), prosodic information 222 and speech segment data (digital signal data, corresponding to “speech segment”). Are associated with each other.

この例の音韻列221は、テキストをローマ字表記した場合のローマ字(音韻)の列であり、この例では「A」「Ai」「Au」「I」等が音韻列として格納されている。
韻律情報222は、韻律指標222aと韻律物理パラメータ222bから構成される。ここで、韻律指標222aは、対応する音声素片の韻律の大まかな指標を示すデータであり、この例では、前音韻環境222aa、後音韻環境222ab及びアクセント222acが韻律指標222aに相当する。また、この例の前音韻環境222aaとは、対応する音韻列221に対し時系列的に前の音韻を示すデータであり、この例ではポーズ(無音状態)を示す「#」が設定されている。さらに、この例の後音韻環境222abとは、対応する音韻列221に対し時系列的に後の音韻を示すデータであり、この例ではポーズ(無音状態)を示す「#」や音韻を示す「S」「G」「N」「T」「R」等が設定されている。また、この例のアクセント222acとは、対応する音韻列221にアクセントがあるか、あるとすればどこにアクセントがあるかを示すデータである。この例では、「0」は対応する音韻列221にアクセントがないことを示し、「1」は対応する音韻列221の一音目にアクセントがあり、「2」は2音目にアクセントがあることを示している。
The phoneme string 221 in this example is a string of Roman characters (phonemes) when the text is written in Roman letters. In this example, “A”, “Ai”, “Au”, “I”, and the like are stored as phoneme strings.
The prosodic information 222 includes a prosodic index 222a and a prosodic physical parameter 222b. Here, the prosody index 222a is data indicating a rough index of the prosody of the corresponding speech segment. In this example, the front phoneme environment 222aa, the rear phoneme environment 222ab, and the accent 222ac correspond to the prosody index 222a. Further, the previous phoneme environment 222aa in this example is data indicating the previous phoneme in time series with respect to the corresponding phoneme string 221, and in this example, “#” indicating a pause (silent state) is set. . Further, the postphoneme environment 222ab in this example is data indicating a phoneme subsequent to the corresponding phoneme string 221 in time series. In this example, “#” indicating a pause (silent state) or “ S, “G”, “N”, “T”, “R” and the like are set. Further, the accent 222ac in this example is data indicating whether the corresponding phoneme string 221 has an accent, and if so, where the accent is. In this example, “0” indicates that the corresponding phoneme string 221 has no accent, “1” has an accent on the first note of the corresponding phoneme string 221, and “2” has an accent on the second note. It is shown that.

また、韻律物理パラメータ222bとは、対応する音声素片の韻律の物理量を示すデータであり、この例では、平均F0(基準周波数)(Hz)222ba、F0の傾斜(Hz/ms)222bb、時間長(ms)222bc、パワー(dB)222bdが韻律物理パラメータ222bに相当する。
[サブコスト対応表]
本形態では、メモリ30のサブコスト対応表格納領域32にサブコスト対応表を格納しておく。
The prosodic physical parameter 222b is data indicating the physical quantity of the prosody of the corresponding speech unit. In this example, the average F0 (reference frequency) (Hz) 222ba, the slope of F0 (Hz / ms) 222bb, time The length (ms) 222bc and the power (dB) 222bd correspond to the prosodic physical parameter 222b.
[Sub cost correspondence table]
In this embodiment, the sub cost correspondence table is stored in the sub cost correspondence table storage area 32 of the memory 30.

図3は、本形態におけるサブコスト対応表300のデータ構成の例示である。
この例のサブコスト対応表300は、テキストのカテゴリとサブコストとを対応付けた表である。図3の例のサブコスト対応表300は、N個のカテゴリ1〜NのカテゴリとM個のサブコストA〜Mとに対し、サブコスト重みを対応付けた表である。
この例の場合、「カテゴリ1」に対し、「サブコストA」「サブコストB」…「サブコストC」のサブコスト重み「W1A」「W1B」…「W1M」が対応付けられ、「カテゴリ2」に対し、「サブコストA」「サブコストB」…「サブコストC」のサブコスト重み「W2A」「W2B」…「W2M」が対応付けられ、「カテゴリN」に対し、「サブコストA」「サブコストB」…「サブコストC」のサブコスト重み「WNA」「WNB」…「WNM」が対応付けられている。
FIG. 3 is an example of the data configuration of the sub-cost correspondence table 300 in the present embodiment.
The sub-cost correspondence table 300 in this example is a table in which text categories and sub-costs are associated with each other. The sub-cost correspondence table 300 in the example of FIG. 3 is a table in which sub-cost weights are associated with N categories 1 to N and M sub-costs A to M.
In this example, “Category 1” is associated with sub-cost weights “W 1A ”, “W 1B ”,... “W 1M ” of “Sub Cost A”, “Sub Cost B”,. Are associated with sub-cost weights “W 2A ”, “W 2B ”, “W 2M ” of “sub-cost C”, and “sub-cost A” “sub-cost” for “category N” Sub-cost weights “W NA ”, “W NB ”,... “W NM ” of “B”.

ここで、「カテゴリ」とは、テキストの分野や種類を示す情報である。このカテゴリは事前に決定しておくが、そのカテゴリは、単一の分類基準をもとに分野や種類を分類したものであってもよく、また、複数の分類基準をもとに分野や種類を分類したものであってもよい。具体的には、例えば「媒体の種類」という単一の分類基準をもとに「辞書」「雑誌」「本」のようにカテゴリを設定してもよく、例えば「媒体の種類」「分野」という2つの分類基準をもとに「辞書」「雑誌」「本」というカテゴリと「自然科学」「文学」「法律」というカテゴリとを多次元的に設定してもよい。   Here, “category” is information indicating the field and type of text. This category is determined in advance, but the category may be a category or category classified based on a single classification criterion, or a category or category based on multiple classification criteria. May be classified. Specifically, for example, categories such as “dictionary”, “magazine”, and “book” may be set based on a single classification standard “medium type”. For example, “medium type” “field” The categories “dictionary”, “magazine”, “book” and “natural science”, “literature”, and “law” may be set multidimensionally based on the two classification criteria.

また、この例の「サブコスト」とは、2つの音声間における、読み情報及び音韻情報の各要素の類似度を示す値である。すなわち、読み情報の類似度を示すサブコスト、音韻情報である平均F0の類似度を示すサブコスト、アクセントの類似度を示すサブコスト等を例示できる。なお、本形態の音声合成処理では、読み情報のみについてのサブコストを用いることとしてもよく、音韻情報のみのサブコストを用いることとしてもよく、音韻情報の一部に係るサブコストのみを用いることとしてもよいが、多くの種類のサブコストを用いたほうが高い品質の合成音声を生成できる。   In addition, the “sub cost” in this example is a value indicating the similarity of each element of reading information and phonological information between two sounds. That is, a sub cost indicating the similarity of reading information, a sub cost indicating a similarity of average F0 that is phonemic information, a sub cost indicating a similarity of accent, and the like can be exemplified. Note that in the speech synthesis processing of this embodiment, the sub-cost for only reading information may be used, the sub-cost for only phonemic information may be used, or only the sub-cost related to a part of phonemic information may be used. However, higher quality synthesized speech can be generated using many types of sub-costs.

さらに、「サブコスト重み」とは、複数のサブコストから総合コスト(2つの音声間における類似度を示すコスト)を算出する際に用いる、各サブコストの重み付け定数を意味する。例えば、サブコストA,B,Cに対するサブコスト重みがWA,WB,WCであった場合、WA・AとWB・BとWC・Cとによって総合コストが決定される。
[サブコスト対応表の生成手法]
サブコスト対応表300のカテゴリは、例えば、テキスト分類部40が実行する手順(後述)によって、所定のテキストを、単一の分類基準或いは複数の分類基準をもとに設定された予備的なカテゴリに割り当て、当該テキストが複数の当該予備的なカテゴリに割り当てられることとなった場合に、当該複数の予備的なカテゴリを1つのカテゴリに統合するという処理により決定する。
Furthermore, the “sub cost weight” means a weighting constant for each sub cost used when calculating the total cost (cost indicating the similarity between two voices) from a plurality of sub costs. For example, sub-cost A, B, sub-cost weight for C is W A, W B, if a W C, W A · A and W B · B and total cost by the W C · C is determined.
[Method for generating sub-cost correspondence table]
The categories of the sub-cost correspondence table 300 are, for example, a predetermined text is converted into a preliminary category set based on a single classification criterion or a plurality of classification criteria by a procedure (described later) executed by the text classification unit 40. When the assignment and the text are assigned to a plurality of the preliminary categories, the determination is made by a process of integrating the plurality of preliminary categories into one category.

すなわち、まず音声言語に関する先見的な知見に基づいてテキストが分類できそうなカテゴリを単一の分類基準をもとに予備的に決める。次に、音声デー夕ベース200中に含まれる音声素片データ223を収録する時に読み上げた収録リスト(テキスト)を、これらの予備的なカテゴリに分類する。その結果、同じテキストが単一の予備的なカテゴリに分類された場合には、この予備的なカテゴリをサブコスト対応表300のカテゴリとして決定し、同じテキストが複数の予備的なカテゴリに重複して分類された場合には、このテキストが分類された複数の予備的なカテゴリを1つのカテゴリとして新たに生成する。例えば、予備的なカテゴリとしてAからJまで10のカテゴリを考えたとき、収録リスト(テキスト)が単一のカテゴリB、D、GとカテゴリAとカテゴリCの多重力テゴリ、カテゴリBとカテゴリDの多重力テゴリのように分類されたとする。この場合、カテゴリB、D、Gはそのまま単一のカテゴリとし、カテゴリAとカテゴリCの多重カテゴリをカテゴリKとし、カテゴリBとカテゴリDの多重力テゴリをカテゴリLとして新たに定義する。これは、実際には、カテゴリAの特徴とカテゴリCの特徴とを備えたテキスト(或いはカテゴリAとカテゴリCが本来1つのカテゴリであった)や、カテゴリBの特徴とカテゴリDの特徴とを備えたテキストが存在したため、これらのテキストのカテゴリK,Lを新たに設定したものである。また、例えば収録リスト(テキスト)が分類され無かったカテゴリC、E、F、H、T、Jを統合して、カテゴリMを新たに設けてもよい。これは、実際には、カテゴリC、E、F、H、T、Jに存在するテキストが存在しなかったため、これらのカテゴリをカテゴリMに統合したものである。この場合、結果的にカテゴリは、A、B、D、G、K、L、Mの7カテゴリとなる。こうすることで、単に先見的なテキストの種別だけでカテゴリを分けるより、実際に音声合成で用いる音声デー夕ベースに適合したカテゴリの設定が可能となる。   That is, based on a priori knowledge about the spoken language, a category in which text can be classified is preliminarily determined based on a single classification standard. Next, the recording list (text) read out when recording the speech segment data 223 included in the speech database 200 is classified into these preliminary categories. As a result, when the same text is classified into a single preliminary category, this preliminary category is determined as a category of the sub-cost correspondence table 300, and the same text is duplicated into a plurality of preliminary categories. When classified, a plurality of preliminary categories into which the text is classified are newly generated as one category. For example, when 10 categories from A to J are considered as preliminary categories, the recording list (text) is a single category B, D, G, category A and category C, and category B and category D. It is classified as a multiple force category. In this case, categories B, D, and G are newly defined as single categories, multiple categories of categories A and C are defined as category K, and multiple power categories of categories B and D are newly defined as category L. In practice, this includes text with category A and category C features (or category A and category C were originally one category), and category B and category D features. Since the prepared texts exist, categories K and L of these texts are newly set. Further, for example, categories C, E, F, H, T, and J in which the recording list (text) is not classified may be integrated to newly provide category M. In reality, there is no text that exists in categories C, E, F, H, T, and J, and these categories are integrated into category M. In this case, as a result, there are seven categories of A, B, D, G, K, L, and M. In this way, it is possible to set a category suitable for the speech database actually used in speech synthesis, rather than simply categorizing categories based on the type of foresight text.

また、サブコスト対応表300のサブコスト重みは、例えば、以下のように決定する。
すなわち、上述のようにカテゴリを決定した後、大量のテキストコーパスを新たに設定したカテゴリで分類し(後述)、カテゴリ毎に複数のテキスト抽出して、まずは初期値として適当なサブコスト重みでそれらのテキストに対応する合成音声を作成し聴取して品質を確認する。後はカテゴリ毎に適宜サブコスト値を調整しながら合成音の作成、聴取を繰り返すことで適切なサブコストを割り出し、各カテゴリに対応する各サブコストのサブコスト重みを決定する。以上により、サブコスト対応表300が作成される。
Moreover, the sub cost weight of the sub cost correspondence table 300 is determined as follows, for example.
That is, after determining a category as described above, a large number of text corpora are classified according to a newly set category (described later), a plurality of texts are extracted for each category, and first, those sub-cost weights are used as initial values. Create and listen to synthesized speech corresponding to the text to check the quality. After that, an appropriate subcost is determined by repeating the creation and listening of the synthesized sound while appropriately adjusting the subcost value for each category, and the subcost weight of each subcost corresponding to each category is determined. Thus, the sub cost correspondence table 300 is created.

[テキストの入力]
合成音声を生成しようとするテキストを入力部5に入力し、この入力されたテキストをテキストメモリ10に格納しておく。
<音声合成処理>
次に、本形態における音声合成処理について説明する。なお、以下の処理は制御部120の制御のもと行われる。
[処理の概要]
まず、テキスト分類部40において(図1)、入力テキストが少なくとも1つ以上のカテゴリに分類される。次に、サブコスト重み決定部50で、分類されたカテゴリに基づいてサブコスト重み係数が決定される。また、音韻韻律抽出部60のテキスト解析部61において、入力テキストから読み情報と韻律指標を取得し、韻律物理パラメータ抽出部62で、この韻律指標から韻律物理パラメータが計算される。次に、探索部70で、読み情報及び韻律指標に対応する音声素片が探索された後、サブコスト算出部80及び総合コスト計算部90で、音韻韻律抽出部60が抽出した読み情報及び韻律物理パラメー夕と、音声素片に対応する読み情報及び韻律物理パラメータとから、サブコスト関数及びサブコスト重み係数を用いて総合コストが計算される。そして最後に音声素片選択部100及び音声素片接続部110で、計算された総合コスト値に基づいて音声素片を選択・接続することで音声が合成される。
[Enter text]
A text for generating a synthesized speech is input to the input unit 5, and the input text is stored in the text memory 10.
<Speech synthesis processing>
Next, speech synthesis processing in this embodiment will be described. Note that the following processing is performed under the control of the control unit 120.
[Process overview]
First, in the text classification unit 40 (FIG. 1), the input text is classified into at least one category. Next, the sub cost weight determination unit 50 determines a sub cost weight coefficient based on the classified category. Further, the text analysis unit 61 of the phonological prosody extraction unit 60 acquires reading information and prosodic indices from the input text, and the prosodic physical parameter extraction unit 62 calculates prosodic physical parameters from the prosodic indices. Next, after the speech unit corresponding to the reading information and the prosodic index is searched by the search unit 70, the reading information and the prosodic physics extracted by the phoneme prosody extraction unit 60 by the sub cost calculation unit 80 and the total cost calculation unit 90 are searched. The total cost is calculated using the sub-cost function and the sub-cost weight coefficient from the parameters and the reading information and prosodic physical parameters corresponding to the speech segment. Finally, the speech unit selection unit 100 and the speech unit connection unit 110 synthesize speech by selecting and connecting speech units based on the calculated total cost value.

[処理の詳細]
図4は、本形態における音声合成処理を説明するための流れ図である。
以下、この図に従って、本形態の音声合成処理の詳細を説明する。
まず、テキスト分類部40が、テキストメモリ10からテキスト(「入力されたテキスト」に相当)を読み出し(ステップS1)、この内容に基づいて、当該テキストを、予め決められたカテゴリのうちの少なくとも1つのカテゴリに割り当てる(ステップS2)。なお、この「予め決められたカテゴリ」は、前述したサブコスト対応表300のカテゴリである。また、このテキストを予め決めておいたカテゴリヘ分類する方法は、これまで様々な方法が提案されてきたが、例えば、Joachims, T. "Text Categorization with Support Vector Machines: Learning with Many Relevant Features", Proc. of 10th European Conference on Machine Learning (ECML-98), pp.137-142(1998)を基本とした特願平11−191064「テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体」や、特願2002−204434「テキストの多重トピックス抽出方法および装置、テキストの多量トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体」などの方法により、比較的良好に分類することが可能である。
[Details of processing]
FIG. 4 is a flowchart for explaining speech synthesis processing in this embodiment.
Hereinafter, the details of the speech synthesis processing of this embodiment will be described with reference to FIG.
First, the text classification unit 40 reads text (corresponding to “input text”) from the text memory 10 (step S1), and based on this content, the text is classified into at least one of predetermined categories. Assigned to one category (step S2). The “predetermined category” is a category of the sub-cost correspondence table 300 described above. Various methods have been proposed to classify this text into predetermined categories. For example, Joachims, T. "Text Categorization with Support Vector Machines: Learning with Many Relevant Features", Proc. Of 10th European Conference on Machine Learning (ECML-98), pp.137-142 (1998), Japanese Patent Application No. 11-191064 “Text Classification Learning Method and Device, and Storage Medium Stored Text Classification Learning Program” ”And Japanese Patent Application No. 2002-204434“ Method and apparatus for extracting multiple topics of text, program for extracting a large amount of topics of text, and recording medium on which the program is recorded ”, and the like. .

また、このカテゴリが単一の分類基準をもとに分類されたものであった場合(<前処理>参照)、テキスト分類部40は、入力されたテキストを、いずれか1つのカテゴリに割り当てる。一方、このカテゴリが複数の分類基準をもとに分類されたものであった場合、テキスト分類部40は、入力されたテキストを、複数のカテゴリに割り当てることもありうる。そして、以上のように割り当てられたカテゴリを特定するカテゴリ情報はメモリ30に送られ、そのカテゴリ情報格納領域31に格納される。
次に、サブコスト重み決定部50が、カテゴリ情報格納領域31からカテゴリ情報を読み出し、このカテゴリ情報をもとにサブコスト対応表格納領域32のサブコスト対応表300(図3)を参照し、テキストが割り当てられたカテゴリに対応するサブコスト重みを決定する(ステップS3)。
When this category is classified based on a single classification standard (see <Preprocessing>), the text classification unit 40 assigns the input text to any one category. On the other hand, when this category is classified based on a plurality of classification criteria, the text classification unit 40 may assign the input text to a plurality of categories. Then, the category information specifying the assigned category as described above is sent to the memory 30 and stored in the category information storage area 31.
Next, the sub-cost weight determination unit 50 reads the category information from the category information storage area 31, refers to the sub-cost correspondence table 300 (FIG. 3) of the sub-cost correspondence table storage area 32 based on this category information, and assigns text. A sub-cost weight corresponding to the given category is determined (step S3).

このサブコスト重みの決定方法は、入力されたテキストが1つのカテゴリのみに割り当てられた場合と複数のカテゴリに割り当てられた場合とで異なる。
[入力されたテキストが1つのカテゴリのみに割り当てられた場合]
この場合は、割り当てられた1つのカテゴリに対応するサブコスト重みをそのまま利用し、そのサブコスト重みを示すサブコスト重み情報をサブコスト重み情報格納領域33に格納する。例えば、図3における「カテゴリ1」が割り当てられた場合には、サブコスト対応表300において、「カテゴリ1」に対応付けられた「サブコストA」「サブコストB」…「サブコストC」のサブコスト重み「W1A」「W1B」…「W1M」が特定され、これらの情報がサブコスト重み情報格納領域33に格納する。
The method of determining the sub-cost weight differs depending on whether the input text is assigned to only one category or a plurality of categories.
[When the entered text is assigned to only one category]
In this case, the sub cost weight corresponding to one assigned category is used as it is, and the sub cost weight information indicating the sub cost weight is stored in the sub cost weight information storage area 33. For example, when “category 1” in FIG. 3 is assigned, sub-cost weight “W” of “sub-cost A” “sub-cost B”... “Sub-cost C” associated with “category 1” in the sub-cost correspondence table 300 is assigned. “ 1A ”, “W 1B ”... “W 1M ” are specified, and these pieces of information are stored in the sub-cost weight information storage area 33.

[入力されたテキストが複数のカテゴリに割り当てられた場合]
この場合は、これら複数のカテゴリに対応する予備サブコスト重みをそれぞれ決定し、当該予備サブコスト重みを、入力されたテキストと各カテゴリとの類似度(尤度を含む)をもとに重み付けして合計(サブコスト重みの重み付け和)し、この合計値を、カテゴリに対応するサブコスト重みとして決定する。
[When the entered text is assigned to multiple categories]
In this case, the preliminary sub cost weights corresponding to the plurality of categories are respectively determined, and the preliminary sub cost weights are weighted based on the similarity (including likelihood) between the input text and each category, and totaled. (Weighted sum of sub-cost weights), and this total value is determined as a sub-cost weight corresponding to the category.

例えば入力されたテキストがN個のカテゴリに重複分類された場合に、以下のようにサブコスト重みWを決定する。なお、ここではカテゴリiのサブコスト重みをWci=(w1ci,w2ci,w3ci,…,wmci)、mをサブコスト数、Wjをサブコストjにおけるサブコスト重み、Piをカテゴリiに対応する尤度または類似度とする。

Figure 0004441380
以上のように決定されたサブコスト重みを示すサブコスト重み情報は、メモリ30に送られ、そのサブコスト重み情報格納領域33に格納される。 For example, when the input text is duplicated and classified into N categories, the sub cost weight W is determined as follows. Here, sub-cost weights W ci = category i is (w1 ci, w2 ci, w3 ci, ..., wm ci), m the sub-cost number, sub-cost weights in subcost j to Wj, likelihood corresponding to Pi to category i Degree or similarity.
Figure 0004441380
The sub cost weight information indicating the sub cost weight determined as described above is sent to the memory 30 and stored in the sub cost weight information storage area 33.

次に、音韻韻律抽出部60は、テキストメモリ10からステップS1で読み出したのと同じテキスト(「入力されたテキスト」に相当)を読み出し(ステップS4)、その読み情報及び韻律情報を抽出してメモリ30の音韻韻律格納領域34に格納する。この例の場合、まず、音韻韻律抽出部60のテキスト解析部61が、このテキストのテキスト解析処理を行い、読み情報と韻律指標とを抽出し、これらを音韻韻律格納領域34に格納する(ステップS5)。この例のテキスト解析処理は、主に形態素解析処理と、読み・アクセント付与処理からなるが、これらの処理方法については、従来から様々な方法が存在し、例えば、特許3379643「形態素解析方法および形態素解析プログラムを記録した記録媒体」や、特許3518340「読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記録媒体」などの方法に基づいて処理を行うこともできる。   Next, the phonological prosody extraction unit 60 reads the same text (corresponding to “input text”) read from the text memory 10 in step S1 (step S4), and extracts the reading information and prosodic information. Stored in the phoneme prosody storage area 34 of the memory 30. In the case of this example, first, the text analysis unit 61 of the phonological prosody extraction unit 60 performs text analysis processing of this text, extracts reading information and prosodic indices, and stores them in the phonological prosody storage area 34 (steps). S5). The text analysis process in this example mainly includes a morphological analysis process and a reading / accenting process. However, there are various conventional methods for these processing methods. For example, Japanese Patent No. 3337943 “Morphological Analysis Method and Morphological Analysis”. The processing can also be performed based on a method such as “a recording medium on which an analysis program is recorded” or Japanese Patent No. 3518340 “a recording medium on which a reading prosodic information setting method and apparatus and a reading prosodic information setting program are stored”.

次に、韻律物理パラメータ抽出部62において、メモリ30の音韻韻律格納領域34から、ステップS5で抽出された韻律指標を読み出し、この韻律指標に基づいて韻律物理パラメータを求めて音韻韻律格納領域34に格納する(ステップS6)。ここで、韻律物理パラメータとしては、ピッチ(基本周波数)や音素継続時間長などがあるが、それらを求める方式も従来から存在する。例えば、特許3240691「ピッチパタン生成方法、その装置及びプログラム記録媒体」や、特許3344487「音声基本周波数パターン生成装置」の方法によってピッチ(基本周波数)を求めることが可能である。また、例えば、海木ら、「言語情報を利用した母音継続時間長の制御」vol. 75, No. 3 pp. 467-473、信学論や、M. D. Riley. "Tree-based modeling for speech synthesis." In G. Bailly, C. Benoit , and T. R. Sawallis, editors, Talking Machine: Theories, Models, and Designs, pages 265-273. Elsevier, 1992.などの方法で音素継続時間長を求めることができる。   Next, the prosodic physical parameter extraction unit 62 reads out the prosodic indices extracted in step S5 from the phonological prosody storage area 34 of the memory 30, obtains the prosodic physical parameters based on the prosodic indices, and stores them in the phonological prosody storage area 34. Store (step S6). Here, the prosodic physical parameters include pitch (fundamental frequency), phoneme duration, and the like. Conventionally, there are methods for obtaining them. For example, the pitch (fundamental frequency) can be obtained by the method of Japanese Patent No. 3240691 “Pitch Pattern Generation Method, Apparatus and Program Recording Medium” and Japanese Patent No. 3344487 “Fundamental Audio Frequency Pattern Generation Device”. Also, for example, Kaiki et al., “Control of vowel duration using linguistic information” vol. 75, No. 3 pp. 467-473, Shinsei theory, MD Riley. “Tree-based modeling for speech synthesis. . "In G. Bailly, C. Benoit, and TR Sawallis, editors, Talking Machine: Theories, Models, and Designs, pages 265-273. Elsevier, 1992.

次に、探索部70が、メモリ30の音韻韻律格納領域34から読み情報及び韻律指標(ステップS5で格納されたものであり「入力されたテキストの読み情報及び韻律情報の組」に相当)を読み出し、この組をキーとして音声データベースメモリ20の音声データベース200(図2)を探索し、当該音声データベースから、これらの組の類似範囲に属する音韻列221(読み情報)及び韻律情報222(韻律指標222a+韻律物理パラメータ222b)の組と、それらに対応付けられている音声素片データ223を選択・抽出する。そして、抽出された音声素片データ223、音韻列221(読み情報)及び韻律情報222(韻律指標222a+韻律物理パラメータ222b)の探索結果は、メモリ30の探索結果格納領域35に格納される(ステップS7)。   Next, the search unit 70 reads the reading information and the prosodic index (stored in step S5 and corresponds to “a set of input text reading information and prosodic information”) from the phonological prosody storage area 34 of the memory 30. The speech database 200 (FIG. 2) in the speech database memory 20 is searched using this set as a key, and the phoneme string 221 (reading information) and prosody information 222 (prosodic index) belonging to the similar range of these sets are searched from the speech database. 222a + prosodic physical parameters 222b) and speech segment data 223 associated therewith are selected / extracted. The search results of the extracted speech segment data 223, phoneme string 221 (reading information), and prosody information 222 (prosodic index 222a + prosodic physical parameter 222b) are stored in the search result storage area 35 of the memory 30 (step). S7).

なお、ここでいう「類似範囲」とは、例えば、読み情報及び韻律情報が完全一致するもの、一部一致するもの、コストによって特定される類似度が高いもの等を含む概念である。例えば、読み情報が「ア」であれば「ア」と発音されている音声素片、すなわち音声データベース200の音韻列221が「A」である音声素片データ223や、韻律指標も用い、読みが「ア」、アクセント有りである音声素片、すなわち音声データベース200の音韻列221が「A」であってアクセント222acが「1」である音声素片データ223が類似範囲として探索されることになる。また、このステップで抽出される探索結果は1つに限られず、条件を満たすすべての音声素片データ223、音韻列221(読み情報)及び韻律情報222(韻律指標222a+韻律物理パラメータ222b)の抽出・格納が行われる。   Note that the “similarity range” here is a concept including, for example, a case where reading information and prosodic information are completely matched, a portion of which is matched, and a high similarity specified by cost. For example, if the reading information is “A”, the speech unit pronounced as “A”, that is, the speech unit data 223 in which the phoneme string 221 of the speech database 200 is “A”, and the prosodic index are also used. Is searched for as a similar range, that is, the speech unit data 223 in which the phoneme sequence 221 of the speech database 200 is “A” and the accent 222ac is “1”. Become. In addition, the search result extracted in this step is not limited to one. Extraction of all speech segment data 223, phoneme string 221 (reading information) and prosodic information 222 (prosodic index 222a + prosodic physical parameter 222b) satisfying the conditions is performed. • Storage is performed.

次に、サブコスト算出部80において、メモリ30の音韻韻律格納領域34から、入力テキストの読み情報(ステップS5で抽出)と韻律物理パラメータ(ステップS6で抽出)と(「入力されたテキストの読み情報及び韻律情報の組」に相当)を読み出し、探索結果格納領域35から読み情報及び韻律物理パラメータ222b(ステップS7で探索されたものであり「探索部70において選択された読み情報及び韻律情報の組」に相当)を読み出す。そして、サブコスト算出部80は、これらを用いて音韻及び韻律要素ごとの類似度を示すサブコストを算出し、算出されたサブコストを対応する音声素片データに対応付けてサブコスト格納領域36に格納する(ステップS8)。   Next, the sub-cost calculator 80 reads the input text reading information (extracted in step S5), the prosodic physical parameters (extracted in step S6), and ("input text reading information) from the phoneme prosody storage area 34 of the memory 30. And the prosody information set ”), and from the search result storage area 35, the reading information and the prosodic physical parameter 222b (searched in step S7 and“ the set of the reading information and the prosody information selected by the search unit 70 ”). Is equivalent). Then, the sub cost calculation unit 80 calculates a sub cost indicating the similarity for each phoneme and prosodic element using these, and stores the calculated sub cost in association with the corresponding speech element data in the sub cost storage area 36 ( Step S8).

なお、このサブコストの計算は、例えば、以下のようにサブコスト関数を用いて行うことができる(「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法」、日本音響学会講演論文集、2-6-10、pp. 239-240、1990/9)。
[サブコスト関数]
以下にこの例のサブコスト関数を示す。
(1)読み情報に対応するサブコスト関数
(n)=1/e
ただし、入力テキストの読み情報としての音韻系列と、音声素片の読み情報しての音韻系列(音声素片データに対応付けられた音韻系列)との間で一致する音韻数をnとする。
This sub-cost can be calculated using, for example, a sub-cost function as follows ("Waveform Selection Method Considering Spectral Continuity in Waveform Editing Type Synthesis Method", Proceedings of the Acoustical Society of Japan, 2 -6-10, pp. 239-240, 1990/9).
[Sub-cost function]
The sub-cost function of this example is shown below.
(1) sub-cost function C 1 corresponding to the reading information (n) = 1 / e n
However, the number of phonemes that coincides between the phoneme sequence as the reading information of the input text and the phoneme sequence as the reading information of the speech unit (phoneme sequence associated with the speech unit data) is n.

(2)平均ピッチに対するサブコスト関数
(Vp,Vs)=|Vp−Vs|
ただし、入力テキストから抽出した音韻物理パラメータの平均ピッチをVpとし、音声素片の平均ピッチ(音声素片データに対応付けられた平均F0)をVsとする。
(3)ピッチ傾きに対するサブコスト関数
(Fp,Fs)=|Fp−Fs|
ただし、入力テキストから抽出した音韻物理パラメータのピッチ傾きをFpとし、音声素片のピッチ傾き(音声素片データに対応付けられたF0の傾斜)をFsとする。
(2) Sub-cost function for average pitch C 2 (Vp, Vs) = | Vp−Vs | 2
However, let Vp be the average pitch of the phoneme physical parameters extracted from the input text, and let Vs be the average pitch of the speech segments (average F0 associated with the speech segment data).
(3) Sub-cost function for pitch inclination C 3 (Fp, Fs) = | Fp−Fs | 2
However, the pitch inclination of the phoneme physical parameter extracted from the input text is Fp, and the pitch inclination of the speech segment (the slope of F0 associated with the speech segment data) is Fs.

(4)時間長に対するサブコスト関数
(Tp,Ts)=|Tp−Ts|
ただし、入力テキストから抽出した音韻物理パラメータの時間長をTpとし、音声素片の時間長(音声素片データに対応付けられた時間長)をTsとする。
(5)振幅に対するサブコスト関数
(Ap,As)=|Ap−As|
ただし、入力テキストから抽出した音韻物理パラメータの振幅をApとし、音声素片の時間長(音声素片データに対応付けられたパワー)をAsとする。
(4) Sub cost function for time length C 4 (Tp, Ts) = | Tp−Ts | 2
However, the time length of the phoneme physical parameter extracted from the input text is Tp, and the time length of the speech unit (the time length associated with the speech unit data) is Ts.
(5) Sub cost function for amplitude C 5 (Ap, As) = | Ap−As | 2
However, the amplitude of the phoneme physical parameter extracted from the input text is Ap, and the time length of the speech unit (power associated with the speech unit data) is As.

以上のサブコスト関数にステップS8で読み出した各情報を代入することで各サブコスト値を求めることができる。なお、ステップS8の処理はステップS7で抽出された各データの組に対して行われ、それぞれに対して算出されたサブコストを対応する音声素片データに対応付けて格納する。
次に、総合コスト計算部90が、メモリ30のサブコスト重み情報格納領域33からステップS3で算出されたサブコスト重み情報を読み出し、サブコスト格納領域36からステップS8で算出された各サブコストを読み出し、これらを用いて、サブコスト値をサブコスト重みで重み付けして統合した総合コスト値を算出し、メモリ30の総合コスト格納領域37に格納する(ステップS9)。
Each sub cost value can be obtained by substituting each information read in step S8 into the above sub cost function. Note that the processing in step S8 is performed for each data set extracted in step S7, and the sub cost calculated for each is stored in association with the corresponding speech segment data.
Next, the total cost calculation unit 90 reads the sub cost weight information calculated in step S3 from the sub cost weight information storage area 33 of the memory 30, reads each sub cost calculated in step S8 from the sub cost storage area 36, The total cost value obtained by integrating the weighted sub cost values with the sub cost weight is calculated and stored in the total cost storage area 37 of the memory 30 (step S9).

この例の総合コストの算出は、音声素片ごとに行われる。例えば、サブコスト関数を上記の(1)〜(5)とした場合、以下のように総合コストが算出される。
[総合コスト]
(6)Ω=ω・C+ω・C+ω・C+ω・Cを算出する。
(7) ω・C+(1−ω)・Ωを算出する。
(8)総合コストPnew=(1+G)・Pを算出する。
なお、C,C,C,C,Cは、ステップS8で、サブコスト関数C(n),C(Vp,Vs),C(Fp,Fs),C(Tp,Ts),C(Ap,As)に、それぞれn,Vp,Vs,Fp,Fs,Tp,Ts,Ap,Asを代入して算出されたサブコストを示す。また、ω,ω,ω,ω,ωは、サブコストC,C,C,C,Cのサブコスト重みを示す。さらにGは音響的な定数を示す。
The calculation of the total cost in this example is performed for each speech unit. For example, when the sub cost function is the above (1) to (5), the total cost is calculated as follows.
[Total cost]
(6) Ω = ω 2 · C 2 + ω 3 · C 3 + ω 4 · C 4 + ω 5 · C 5 is calculated.
(7) Calculate ω 1 · C 1 + (1−ω 1 ) · Ω.
(8) The total cost Pnew = (1 + G) · P is calculated.
C 1 , C 2 , C 3 , C 4 , and C 5 are sub-cost functions C 1 (n), C 2 (Vp, Vs), C 3 (Fp, Fs), and C 4 (Tp) in step S8. , Ts) and C 5 (Ap, As) are sub-costs calculated by substituting n, Vp, Vs, Fp, Fs, Tp, Ts, Ap, As, respectively. Further, ω 1 , ω 2 , ω 3 , ω 4 , and ω 5 indicate sub-cost weights of the sub-costs C 1 , C 2 , C 3 , C 4 , and C 5 . Further, G represents an acoustic constant.

なお、このステップはステップS8で算出された全てのデータの組に対して行われ、算出された各総合コストは、対応する音声素片データに関連付けられてメモリ30の総合コスト格納領域37に格納される。
次に、音声素片選択部100が、メモリ30の総合コスト格納領域37から、ステップS9で格納された総合コストを抽出し、その最小値を求める。なお、この最小値の算出は、一般的なDP法を用いることで容易に実現可能である。そして、音声素片選択部100は、求めた最小の総合コストに対応付けられている音声素片データ(「総合コスト値を最小値化する音声素片」に相当)を総合コスト格納領域37から読み出し(「選択」に相当)、それをメモリ30の選択音声素片格納領域38に格納する(ステップS10)。
This step is performed for all data sets calculated in step S8, and the calculated total costs are stored in the total cost storage area 37 of the memory 30 in association with the corresponding speech segment data. Is done.
Next, the speech element selection unit 100 extracts the total cost stored in step S9 from the total cost storage area 37 of the memory 30, and obtains the minimum value thereof. The calculation of the minimum value can be easily realized by using a general DP method. Then, the speech unit selection unit 100 extracts speech unit data (corresponding to “speech unit that minimizes the total cost value”) associated with the determined minimum total cost from the total cost storage area 37. Read (corresponding to “select”) and store it in the selected speech segment storage area 38 of the memory 30 (step S10).

次に、制御部120が、テキストメモリ10に格納されている1つのテキストについての全ての音声素片データが選択されたか否かを判断する(ステップS11)。ここで、全ての音声素片データが選択されていなければステップS5に戻り、全ての音声素片データが選択されていればステップS12に進む。
ステップS12では、音声素片接続部110が、メモリ30の選択音声素片格納領域38から各音声素片データ(「音声素片選択手段が選択した音声素片」に相当)を読み出し、これらを順に接続して合成音声を生成して出力する(ステップS12)。
Next, the control unit 120 determines whether or not all speech segment data for one text stored in the text memory 10 has been selected (step S11). Here, if all the speech unit data has not been selected, the process returns to step S5, and if all the speech unit data has been selected, the process proceeds to step S12.
In step S12, the speech unit connection unit 110 reads each speech unit data (corresponding to “speech unit selected by the speech unit selection unit”) from the selected speech unit storage area 38 of the memory 30, and these are read out. By connecting in order, a synthesized speech is generated and output (step S12).

なお、選択された音声素片データを単に時間的な順序で接続してもよいが、異なる音声素片データ間を時間的又は周波数的に補間することも容易である(特願平5−217337「音声合成方法および装置」)。また、韻律物理パラメータに基づいて選択された音声素片データに対して信号処理を施した後、これらを接続しても良い(Y. Stylianou, “Concatenative Speech Synthesis using a Harmonic plus Noise Model." In: The 3rd ESCA/COCOSDA Workshop on Speech Synthesis, Jenolan Caves, NSW, Australia, NOV. 1998, Paper H.1.)
<本形態の特徴>
以上のように、本形態では、入力されたテキストを、その内容に応じて予め決めておいたテキストカテゴリの少なくともどれか1つに分類し、そのカテゴリに基づいてサブコスト関数に対する重み付けであるサブコスト重みを変更し、結果として音声素片の選択において基本となる総合コストの計算方法を変更することとした。これにより、テキストの内容に応じた最適な合成音声を生成することが可能となる。
Note that the selected speech unit data may be simply connected in temporal order, but it is also easy to interpolate between different speech unit data in terms of time or frequency (Japanese Patent Application No. 5-217337). "Speech synthesis method and apparatus"). In addition, after processing speech unit data selected based on prosodic physical parameters, these may be connected (Y. Stylianou, “Concatenative Speech Synthesis using a Harmonic plus Noise Model.” In : The 3rd ESCA / COCOSDA Workshop on Speech Synthesis, Jenolan Caves, NSW, Australia, NOV. 1998, Paper H.1.)
<Features of this embodiment>
As described above, in this embodiment, the input text is classified into at least one of the text categories determined in advance according to the contents, and the sub-cost weight which is a weight for the sub-cost function based on the category. As a result, the calculation method of the total cost, which is the basis for selecting speech segments, was changed. Thereby, it is possible to generate an optimal synthesized speech corresponding to the content of the text.

すなわち、前述したように、本形態では、予め様々なテキストを想定してその内容に応じた複数のカテゴリを設定し、分類されたカテゴリごとにそのカテゴリを代表するようなテキストをいくつか集める。そして、それらのテキストを実際に合成するとともにその合成音声の品質が最もよくなるように、サブコスト関数に対する重みであるサブコスト重みを調整することで、分類されたカテゴリ毎に最適なサブコスト重みを見つけ出しておく。そして、テキストのカテゴリに最適なサブコスト重みを用いて総合コストを計算し、それに基づいて音声素片を選択すする。その結果、従来、全ての入力テキストに対して同一の総合コストの計算方法に基づく音声素片選択が行われ、結果として音声デー夕ベースに多く存在するような一般的なテキスト以外の分野では高音質の合成音声が生成できないという問題を解決することができる。   That is, as described above, in this embodiment, various categories are assumed in advance, a plurality of categories are set according to the contents, and several texts representing the categories are collected for each classified category. Then, by synthesizing those texts and adjusting the sub-cost weight, which is a weight for the sub-cost function, so that the quality of the synthesized speech is best, the optimum sub-cost weight is found for each classified category. . Then, the total cost is calculated using the optimum sub-cost weight for the text category, and a speech segment is selected based on the total cost. As a result, speech unit selection based on the same total cost calculation method is conventionally performed for all input texts, and as a result, it is high in fields other than general texts that exist in many speech databases. It is possible to solve the problem that it is not possible to generate synthesized speech of sound quality.

<ハードウェア構成>
図5は、本形態における音声合成装置400をノイマン型のコンピュータで実現する場合のブロック図である。
この図に例示するように、この例の音声合成装置400は、入力部410、出力部420、CPU430、RAM440、ROM450、ハードディスク装置460及びこれらを通信可能に接続するバス470を有している。
入力部410は、例えば、テキストデータ等の入力を受け付けるUSB(Universal Serial Bus)等のインタフェース或いはキーボード、マウス、タッチパネル等の入力デバイスである。また出力部420は、例えば、生成された合成音声データを出力するUSB等のインタフェース或いはスピーカ等の音声出力装置である。
<Hardware configuration>
FIG. 5 is a block diagram when the speech synthesizer 400 according to the present embodiment is realized by a Neumann computer.
As illustrated in this figure, the speech synthesizer 400 of this example includes an input unit 410, an output unit 420, a CPU 430, a RAM 440, a ROM 450, a hard disk device 460, and a bus 470 that connects these components so as to communicate with each other.
The input unit 410 is, for example, an interface such as a USB (Universal Serial Bus) that accepts input of text data or the like, or an input device such as a keyboard, a mouse, and a touch panel. The output unit 420 is an audio output device such as an interface such as a USB or a speaker that outputs the generated synthesized audio data.

また、ハードディスク装置460には、Microsoft社のWindows(登録商標)等のOS(Operating System)プログラム461、音声合成プログラム462、音声データベース463、サブコスト対応表464及びテキスト情報465が格納される。
ここで、音声合成プログラム462は、上述した図4の処理を実行するアプリケーションソフトウェアである、また、音声データベース463は、図2の音声データベース200と同様のデータベースであり、サブコスト対応表464は、図3のサブコスト対応表300と同様なデータである。また、テキスト情報465は、入力部410から入力された合成音声が生成されるテキストである。
The hard disk device 460 stores an OS (Operating System) program 461 such as Microsoft Windows (registered trademark), a speech synthesis program 462, a speech database 463, a sub-cost correspondence table 464, and text information 465.
Here, the speech synthesis program 462 is application software for executing the processing of FIG. 4 described above. The speech database 463 is a database similar to the speech database 200 of FIG. 3 is the same data as the sub-cost correspondence table 300 in FIG. Further, the text information 465 is text in which synthesized speech input from the input unit 410 is generated.

音声合成装置400が、音声合成処理を実行する場合、まず、CPU430は、ハードディスク装置460のOSプログラム461、音声合成プログラム462、音声データベース463、サブコスト対応表464及びテキスト情報465を一旦RAM440に読み込む。そして、CPU430は、このRAM440から読み込んだOSプログラム461を実行させた上で音声合成プログラム462を実行し、前述した図4の各処理を行う。なお、この場合、RAM440が、テキストメモリ10、音声データベースメモリ20及びメモリ30に相当することになる。また、CPU430が、ハードディスク装置460のOSプログラム461、音声合成プログラム462、音声データベース463、サブコスト対応表464及びテキスト情報465の少なくとも一部をハードディスク装置460から直接読み込んで処理を行うこととしてもよいことは言うまでもない。   When the speech synthesizer 400 executes speech synthesis processing, the CPU 430 first loads the OS program 461, speech synthesis program 462, speech database 463, sub cost correspondence table 464, and text information 465 of the hard disk device 460 into the RAM 440 once. The CPU 430 executes the speech synthesis program 462 after executing the OS program 461 read from the RAM 440, and performs each process of FIG. In this case, the RAM 440 corresponds to the text memory 10, the voice database memory 20, and the memory 30. In addition, the CPU 430 may directly read at least a part of the OS program 461, the speech synthesis program 462, the speech database 463, the sub cost correspondence table 464, and the text information 465 of the hard disk device 460 from the hard disk device 460 and perform processing. Needless to say.

<音声合成プログラム>
また、前述の各処理内容を記述した音声合成プログラム462は、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
<Speech synthesis program>
Also, the speech synthesis program 462 describing the above-described processing contents can be recorded on a computer-readable recording medium. The computer-readable recording medium may be any medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory. Specifically, for example, the magnetic recording device may be a hard disk device or a flexible Discs, magnetic tapes, etc. as optical disks, DVD (Digital Versatile Disc), DVD-RAM (Random Access Memory), CD-ROM (Compact Disc Read Only Memory), CD-R (Recordable) / RW (ReWritable), etc. As the magneto-optical recording medium, MO (Magneto-Optical disc) or the like can be used, and as the semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory) or the like can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータ(音声合成装置400)は、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムをハードディスク装置460に格納し、それに沿った処理を上述のように実行することとなるが、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
For example, a computer (speech synthesizer 400) that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in the hard disk device 460, and performs processing in accordance with the program. As described above, as another execution form of the program, the computer may directly read the program from the portable recording medium and execute processing according to the program. Each time a program is transferred from the server computer, processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

<変形例等>
なお、本発明は上述の実施の形態に限定されるものではない。例えば、本形態では、ステップS7の音声素片データの探索に音韻指標を用い、ステップS8のサブコストの算出に音韻物理パラメータを用いることとしたが、ステップS7の音声素片データの探索に音韻物理パラメータ(「韻律情報」に相当)を用いることとしてもよく、また、ステップS8のサブコストの算出に音韻指標(「韻律情報」に相当)を用いることとしてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、処理ループの構成も説明したものに限定されない。
<Modifications>
The present invention is not limited to the embodiment described above. For example, in this embodiment, the phoneme index is used for searching the speech unit data in step S7, and the phoneme physical parameter is used for calculating the sub-cost in step S8. However, the phoneme physics is used for searching the speech unit data in step S7. A parameter (corresponding to “prosodic information”) may be used, and a phoneme index (corresponding to “prosodic information”) may be used for calculating the sub-cost in step S8.
In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Further, the configuration of the processing loop is not limited to that described.

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Needless to say, other modifications are possible without departing from the spirit of the present invention.

本発明の利用分野としては音声合成分野が挙げられる。   The field of application of the present invention includes the field of speech synthesis.

本形態における音声合成装置の概念的な構成図の例示である。It is an illustration of the conceptual block diagram of the speech synthesizer in this form. 本形態における音声データベースのデータ構成の例示である。It is an example of the data structure of the audio | voice database in this form. 本形態におけるサブコスト対応表のデータ構成の例示である。It is an example of the data structure of the sub cost correspondence table | surface in this form. 本形態における音声合成処理を説明するための流れ図である。It is a flowchart for demonstrating the speech synthesis process in this form. 本形態における音声合成装置400をノイマン型のコンピュータで実現する場合のブロック図である。It is a block diagram in the case of implement | achieving the speech synthesizer 400 in this form with a Neumann computer.

符号の説明Explanation of symbols

1,400 音声合成装置
20 音声データベースメモリ
40 テキスト分類部
50 サブコスト重み決定部
60 音韻韻律抽出部
61 テキスト解析部
62 音韻物理パラメータ抽出部
70 探索部
80 サブコスト算出部
90 総合コスト計算部
100 音声素片選択部
DESCRIPTION OF SYMBOLS 1,400 Speech synthesis apparatus 20 Speech database memory 40 Text classification part 50 Sub cost weight determination part 60 Phonological prosody extraction part 61 Text analysis part 62 Phonological physical parameter extraction part 70 Search part 80 Sub cost calculation part 90 Total cost calculation part 100 Speech unit Select part

Claims (7)

入力されたテキストに対応して、音声データベースから適切な音声素片を選択し合成する音声合成装置において、
音声素片、その読み情報及び韻律情報を対応付けた音声データベースを格納する音声データベースメモリと、
入力されたテキストの内容に基づいて、当該テキストを、予め決められたカテゴリのうちの少なくとも1つのカテゴリに割り当てるテキスト分類手段と、
前記テキストが割り当てられた前記カテゴリに対応するサブコスト重みを決定するサブコスト重み決定手段と、
前記入力されたテキストの読み情報及び韻律情報を抽出する音韻韻律抽出手段と、
前記入力されたテキストの読み情報及び韻律情報の組をキーとして前記音声データベースを探索し、当該音声データベースから、これらの組の類似範囲に属する読み情報及び韻律情報の組を選択する探索手段と、
前記入力されたテキストの読み情報及び韻律情報の組と、前記探索手段において選択された読み情報及び韻律情報の組とを用い、これらの音韻及び韻律要素ごとの類似度を示すサブコスト値を算出するサブコスト算出手段と、
前記サブコスト値を前記サブコスト重みで重み付けして統合した総合コスト値を算出する総合コスト計算手段と、
前記総合コスト値を最小値化する前記音声素片を選択する音声素片選択手段と、
前記音声素片選択手段が選択した前記音声素片を接続する音声素片接続手段と、
を有することを特徴とする音声合成装置。
In a speech synthesizer that selects and synthesizes an appropriate speech segment from a speech database corresponding to the input text,
A speech database memory storing a speech database in which speech segments, their reading information and prosodic information are associated;
Text classification means for assigning the text to at least one of predetermined categories based on the contents of the input text;
Sub-cost weight determining means for determining a sub-cost weight corresponding to the category to which the text is assigned;
Phonological prosody extraction means for extracting the input text reading information and prosodic information;
Search means for searching the speech database using a set of input text reading information and prosodic information as a key, and selecting from the speech database a set of reading information and prosodic information belonging to a similar range of these sets;
Using the set of reading information and prosodic information of the input text and the reading information and prosodic information set selected by the search means, a sub-cost value indicating the similarity for each phoneme and prosodic element is calculated. Sub-cost calculation means;
A total cost calculating means for calculating a total cost value obtained by weighting and integrating the sub cost value with the sub cost weight;
Speech unit selection means for selecting the speech unit that minimizes the total cost value;
Speech unit connection means for connecting the speech units selected by the speech unit selection means;
A speech synthesizer characterized by comprising:
請求項1記載の音声合成装置であって、
前記音声データベースの韻律情報は、
対応する音声素片の韻律の指標である韻律指標と、韻律の物理量である韻律物理パラメータと、によって構成され、
前記音韻韻律抽出手段が前記入力されたテキストから抽出する韻律情報は、
韻律指標及び韻律物理パラメータであり、
前記探索手段は、
前記入力されたテキストの読み情報及び韻律指標をキーとして前記音声データベースを探索し、当該音声データベースから、これらの組の類似範囲に属する読み情報及び韻律情報の組を選択する手段であり、
前記サブコスト算出手段がサブコスト値の算出に用いる韻律情報は、
韻律物理パラメータである、
ことを特徴とする音声合成装置。
The speech synthesizer according to claim 1,
The prosodic information of the speech database is
A prosodic index that is a prosodic index of the corresponding speech segment, and a prosodic physical parameter that is a physical quantity of the prosody,
The prosodic information extracted from the input text by the phonological prosody extracting means is:
Prosodic indices and prosodic physical parameters,
The search means includes
Searching the speech database using the input text reading information and prosodic index as a key, and selecting from the speech database a set of reading information and prosodic information belonging to a similar range of these sets,
The prosodic information used by the sub-cost calculating means for calculating the sub-cost value is:
Prosodic physics parameters,
A speech synthesizer characterized by the above.
請求項1記載の音声合成装置であって、
前記予め決められたカテゴリは、
単一の分類基準をもとに分類されたカテゴリであり、
前記テキスト分類手段は、
前記入力されたテキストを、いずれか1つのカテゴリに割り当てる手段であり、
前記サブコスト重み決定手段は、
前記テキストが割り当てられた1つのカテゴリに対応するサブコスト重みを決定する手段である、
ことを特徴とする音声合成装置。
The speech synthesizer according to claim 1,
The predetermined category is:
A category classified based on a single classification criterion,
The text classification means includes:
Means for assigning the inputted text to any one of the categories;
The sub-cost weight determining means includes
Means for determining a sub-cost weight corresponding to one category to which the text is assigned;
A speech synthesizer characterized by the above.
請求項1記載の音声合成装置であって、
前記予め決められたカテゴリは、
複数の分類基準をもとに分類されたカテゴリであり、
前記サブコスト重み決定手段は、
前記入力されたテキストが1つのカテゴリのみに割り当てられた場合、この1つのカテゴリに対応するサブコスト重みを決定し、
前記入力されたテキストが複数のカテゴリに割り当てられた場合、これら複数のカテゴリに対応する予備サブコスト重みをそれぞれ決定し、当該予備サブコスト重みを、前記入力されたテキストと前記各カテゴリとの類似度をもとに重み付けして合計し、この合計値を、前記カテゴリに対応するサブコスト重みとして決定する手段である、
ことを特徴とする音声合成装置。
The speech synthesizer according to claim 1,
The predetermined category is:
A category classified based on multiple classification criteria,
The sub-cost weight determining means includes
If the entered text is assigned to only one category, determine a sub-cost weight corresponding to this one category;
When the input text is assigned to a plurality of categories, spare sub-cost weights corresponding to the plurality of categories are respectively determined, and the spare sub-cost weight is determined based on the similarity between the input text and each category. A means for weighting and summing the original values and determining the total value as a sub-cost weight corresponding to the category.
A speech synthesizer characterized by the above.
請求項1記載の音声合成装置であって、
前記予め決められたカテゴリは、
前記テキスト分類手段が実行する手順によって所定のテキストを予備的なカテゴリに割り当て、当該テキストが複数の当該予備的なカテゴリに割り当てられることとなった場合に、当該複数の予備的なカテゴリを1つのカテゴリに統合して生成されたカテゴリを有する、
ことを特徴とする音声合成装置。
The speech synthesizer according to claim 1,
The predetermined category is:
When a predetermined text is assigned to a preliminary category according to a procedure executed by the text classification means, and the text is assigned to a plurality of the preliminary categories, the plurality of preliminary categories are assigned to one Have categories generated by integrating into categories,
A speech synthesizer characterized by the above.
入力されたテキストに対応して、音声データベースから適切な音声素片を選択し合成する音声合成方法において、
音声データベースメモリに、音声素片、その読み情報及び韻律情報を対応付けた音声データベースを格納しておき、
テキスト分類手段が、入力されたテキストの内容に基づいて、当該テキストを、予め決められたカテゴリのうちの少なくとも1つのカテゴリに割り当て、
サブコスト重み決定手段が、前記テキストが割り当てられた前記カテゴリに対応するサブコスト重みを決定し、
音韻韻律抽出手段が、前記入力されたテキストの読み情報及び韻律情報を抽出し、
探索手段が、前記入力されたテキストの読み情報及び韻律情報の組をキーとして前記音声データベースを探索し、当該音声データベースから、これらの組の類似範囲に属する読み情報及び韻律情報の組を選択し、
前記サブコスト算出手段が、前記入力されたテキストの読み情報及び韻律情報の組と、前記探索手段において選択された読み情報及び韻律情報の組とを用い、これらの音韻及び韻律要素ごとの類似度を示すサブコスト値を算出し、
総合コスト計算手段が、前記サブコスト値を前記サブコスト重みで重み付けして統合した総合コスト値を算出し、
音声素片選択手段が、前記総合コスト値を最小値化する前記音声素片を選択し、
音声素片接続手段が、前記音声素片選択手段が選択した前記音声素片を接続する、
ことを特徴とする音声合成方法。
In a speech synthesis method for selecting and synthesizing appropriate speech segments from a speech database in accordance with input text,
In the speech database memory, a speech database in which speech segments, their reading information and prosodic information are associated is stored,
A text classification means assigns the text to at least one of predetermined categories based on the content of the input text,
A sub cost weight determining means determines a sub cost weight corresponding to the category to which the text is assigned;
The phonological prosody extraction means extracts the input text reading information and prosody information,
A search means searches the speech database using a set of input reading information and prosodic information of the text as a key, and selects a set of reading information and prosodic information belonging to a similar range of these sets from the speech database. ,
The sub-cost calculating means uses the set of reading information and prosodic information of the input text and the set of reading information and prosodic information selected by the searching means, and calculates the similarity for each of these phonemes and prosodic elements. Calculate the sub-cost value shown,
Comprehensive cost calculation means calculates the integrated cost value obtained by weighting and integrating the sub cost value with the sub cost weight,
A speech segment selection means selects the speech segment that minimizes the total cost value;
A speech unit connection means connects the speech units selected by the speech unit selection means;
A speech synthesis method characterized by the above.
請求項1から5の何れかに記載の音声合成装置としてコンピュータを機能させるための音声合成プログラム。   A speech synthesis program for causing a computer to function as the speech synthesizer according to claim 1.
JP2004313621A 2004-10-28 2004-10-28 Speech synthesis apparatus, speech synthesis method, and speech synthesis program Expired - Fee Related JP4441380B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004313621A JP4441380B2 (en) 2004-10-28 2004-10-28 Speech synthesis apparatus, speech synthesis method, and speech synthesis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004313621A JP4441380B2 (en) 2004-10-28 2004-10-28 Speech synthesis apparatus, speech synthesis method, and speech synthesis program

Publications (2)

Publication Number Publication Date
JP2006126413A JP2006126413A (en) 2006-05-18
JP4441380B2 true JP4441380B2 (en) 2010-03-31

Family

ID=36721245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004313621A Expired - Fee Related JP4441380B2 (en) 2004-10-28 2004-10-28 Speech synthesis apparatus, speech synthesis method, and speech synthesis program

Country Status (1)

Country Link
JP (1) JP4441380B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102107447B1 (en) * 2018-07-03 2020-06-02 주식회사 한글과컴퓨터 Text to speech conversion apparatus for providing a translation function based on application of an optional speech model and operating method thereof
KR102107445B1 (en) * 2018-07-03 2020-06-02 주식회사 한글과컴퓨터 Text to speech converting apparatus capable of applying an optional speech model and operating method thereof

Also Published As

Publication number Publication date
JP2006126413A (en) 2006-05-18

Similar Documents

Publication Publication Date Title
US10453442B2 (en) Methods employing phase state analysis for use in speech synthesis and recognition
US9721558B2 (en) System and method for generating customized text-to-speech voices
JP2007249212A (en) Method, computer program and processor for text speech synthesis
US8626510B2 (en) Speech synthesizing device, computer program product, and method
JP2002530703A (en) Speech synthesis using concatenation of speech waveforms
JPH1083277A (en) Connected read-aloud system and method for converting text into voice
CN101814288B (en) Method and equipment for self-adaption of speech synthesis duration model
JP4247289B1 (en) Speech synthesis apparatus, speech synthesis method and program thereof
JP4441380B2 (en) Speech synthesis apparatus, speech synthesis method, and speech synthesis program
JP2013164609A (en) Singing synthesizing database generation device, and pitch curve generation device
JP5020763B2 (en) Apparatus, method, and program for generating decision tree for speech synthesis
JP5875504B2 (en) Speech analysis device, method and program
JP5020759B2 (en) Segment database generation apparatus, method and program for various speech synthesizers
JP4607660B2 (en) Music search apparatus and music search method
JPH10254471A (en) Voice synthesizer
Raghavendra et al. A multilingual screen reader in Indian languages
JP3881970B2 (en) Speech data set creation device for perceptual test, computer program, sub-cost function optimization device for speech synthesis, and speech synthesizer
JP5155836B2 (en) Recorded text generation device, method and program
EP1589524B1 (en) Method and device for speech synthesis
KR102785242B1 (en) Device, method and computer program for synthesizing voice
JP4607659B2 (en) Music search apparatus and music search method
JP4787686B2 (en) TEXT SELECTION DEVICE, ITS METHOD, ITS PROGRAM, AND RECORDING MEDIUM
EP1640968A1 (en) Method and device for speech synthesis
JP2008191525A (en) F0 value time series generating device, its method, its program and its recording medium
JP6479637B2 (en) Sentence set generation device, sentence set generation method, program

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20061219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091222

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130115

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4441380

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees