[go: up one dir, main page]

JPH01211798A - Regular synthesizing device for voice - Google Patents

Regular synthesizing device for voice

Info

Publication number
JPH01211798A
JPH01211798A JP63037947A JP3794788A JPH01211798A JP H01211798 A JPH01211798 A JP H01211798A JP 63037947 A JP63037947 A JP 63037947A JP 3794788 A JP3794788 A JP 3794788A JP H01211798 A JPH01211798 A JP H01211798A
Authority
JP
Japan
Prior art keywords
voice
speaker
signal
conversion
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63037947A
Other languages
Japanese (ja)
Other versions
JP2880508B2 (en
Inventor
Masanobu Abe
匡伸 阿部
Hisao Kuwabara
尚夫 桑原
Kiyohiro Kano
清宏 鹿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Original Assignee
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T R JIDO HONYAKU DENWA KENKYUSHO KK filed Critical A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority to JP63037947A priority Critical patent/JP2880508B2/en
Publication of JPH01211798A publication Critical patent/JPH01211798A/en
Application granted granted Critical
Publication of JP2880508B2 publication Critical patent/JP2880508B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To add individual features of a 2nd speaker while minimizing individual voice information which is prepared by providing a regular synthesizing means which synthesizes the voice signal of a 1st standard speaker and a voice converting means which converts the voice signal of the 1st speaker into the voice signal of the 2nd speaker to whom the individual features are to be added. CONSTITUTION:The regular synthesis part 20 including a unit set information file 21 of voice receives a character information signal s1 and refers to the unit set information file 21 of voice to synthesize the voice signal s2 of the standard speaker A. Then the voice quantity conversion part 30 receives the voice signal s2 of the speaker A and refers to a previously registered voice individual information file 40 of the speaker B whose voice is to be given individuality to convert the voice quality of the speech signal (regularly synthetic voice) of the speaker A into the voice quality of the speaker B, thereby outputting the voice signal s4 of the speaker B. Consequently, while the individual voice information is minimized, the individuality of the speaker is given to the regularly synthetic voice.

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は、音声の規則合成装置に関し、特に、音質を
変換して出力する規則合成装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a rule-based synthesis device for speech, and particularly to a rule-based synthesis device that converts and outputs sound quality.

[従来の技術および発明が解決しようとする課題]従来
の規則合成システムで出力される合成音の音質は、1つ
または数種類(男性の音声、女性の音声、子供らしい音
声および老人のような音声など)に限られている。しか
し、現実に規則合成システムを使用する場合には、各個
人が音声の個人性を持っているように、出力される合成
音声の音質も個人的な特徴を持っていることが望まれる
[Prior Art and Problems to be Solved by the Invention] Conventional rule synthesis systems output synthesized sounds of one or several types (male voice, female voice, childlike voice, and elderly voice). etc.) are limited to However, when a rule synthesis system is actually used, it is desirable that the sound quality of the output synthesized voice also have individual characteristics, just as each person has individual characteristics in their voice.

また、これとは別に、規則合成音に、希望する特定の人
の音質を持たせたい要求もある。
Apart from this, there is also a demand for the rule-synthesized speech to have the desired sound quality of a specific person.

しかし、従来の規則合成システムでは、(1) 規則合
成に用いられる音声単位は、成る話者が発声した数百側
の音声から作成されるため、発声者の負担が大きい。
However, in conventional rule synthesis systems, (1) the speech units used for rule synthesis are created from hundreds of voices uttered by a given speaker, which places a heavy burden on the speaker;

(2) 音声単位の作成は、全自動で行なうのが難しく
、人手がかかり、沢山の話者について音声の単位を作成
するのは事実上不可能である。
(2) Creation of speech units is difficult and labor-intensive to perform fully automatically, and it is virtually impossible to create speech units for many speakers.

(3) 規則合成に用いられる音声の単位セットを各話
者ごとに作ると、格納しておくメモリ量が膨大なものと
なる。
(3) If a unit set of speech used for rule synthesis is created for each speaker, the amount of memory to be stored will become enormous.

などのような理由により、上記の要求を実現することが
できないという課題があった。
For the following reasons, there was a problem in that the above requirements could not be realized.

この発明は、上記のような課題を解決するためになされ
たもので、発声者、規則合成のためのデータ作成者およ
び規則合成システムの負担をできる限り少なく保ちなが
ら、規則合成音に発声者の個人性を持たせることを目的
とする。
This invention was made in order to solve the above-mentioned problems, and it is possible to reduce the burden on the speaker, the data creator for rule synthesis, and the rule synthesis system as much as possible, while adding the burden on the speaker to the rule synthesized speech. The purpose is to give it individuality.

[課題を解決するための手段] この発明に係る音声の規則合成装置は、外部から文字情
報信号を受け、標準となる第1の話者の音声単位信号集
合を参照することにより、第1の話者の音声信号を合成
する規則合成手段と、第1の話者の音声を、音声に個人
的特徴を付与したい第2の話者の音声に変換するのに必
要な変換信号を蓄積した変換信号ファイル手段と、合成
された第1の話者の音声信号を変換信号ファイル手段に
蓄積された変換信号に基づいて、第2の話者の音声信号
に変換する音声変換手段とを含む。
[Means for Solving the Problems] A speech rule synthesis device according to the present invention receives a character information signal from the outside, and by referring to a standard set of speech unit signals of a first speaker, synthesizes a first speech unit signal. A rule synthesis means for synthesizing speech signals of speakers, and a conversion device that stores conversion signals necessary for converting the speech of a first speaker into the speech of a second speaker who wants to add personal characteristics to the speech. It includes a signal file means, and a voice conversion means for converting the synthesized first speaker's voice signal into a second speaker's voice signal based on the converted signal stored in the converted signal file means.

[作用コ この発明における音声の規則合成装置は、規則合成手段
により標準となる第1の話者の音声信号を規則合成した
後で、音声変換手段により変換信号ファイル手段に蓄積
された変換信号に従って、その第1の音声信号を個人的
特徴を有する第2の話者の音声信号に変換するので、音
声の特徴が異なる個人ごとに規則合成するのに必要な音
声単位集合を準備する必要がない。
[Operation] The speech rule synthesis device according to the present invention performs rule synthesis of the standard first speaker's speech signal by the rule synthesis means, and then synthesizes the voice signal by the voice conversion means according to the converted signal stored in the converted signal file means. , the first speech signal is converted into the speech signal of the second speaker having individual characteristics, so there is no need to prepare a set of speech units necessary for regular synthesis for each individual with different speech characteristics. .

[発明の実施例コ 第1図は、この発明による規則合成装置の一実施例を示
すブロック図である。
[Embodiment of the Invention] FIG. 1 is a block diagram showing an embodiment of a rule synthesis apparatus according to the invention.

第1図を参照して、入力部10に、外部から文字および
アクセント型などの文字列ならびに韻律信号を含む文字
情報信号s1が与えられる。音声の・単位セット情報フ
ァイル21を含む規則合成部20は、文字情報信号s1
を受け、音声の単位セット情報ファイル21を参照して
、標準の話者Aの音声信号s2を合成する。ここで、音
声の単位セット情報ファイル21は、標準話者Aについ
て、音素や音節などの音声の単位となる情報が予め蓄え
られたデータベースである。
Referring to FIG. 1, a character information signal s1 including character strings such as characters and accent types, and a prosody signal is applied to input unit 10 from the outside. A rule synthesis unit 20 including a voice unit set information file 21 generates a character information signal s1.
, and synthesizes a standard speech signal s2 of speaker A with reference to the speech unit set information file 21. Here, the speech unit set information file 21 is a database in which information about the standard speaker A, which is a speech unit such as a phoneme or a syllable, is stored in advance.

声質変換部30は、話者Aの音声信号s2を受け、予め
登録されている、音声に個人性を付与したい話者Bの音
声個人情報ファイル40を参照して、話者Aの音声信号
(規則合成音)s2の声質を、話者Bの声質に変換し、
話者Bの音声信号S4として出力する。
The voice quality converting unit 30 receives the voice signal s2 of the speaker A, refers to a pre-registered voice personal information file 40 of the speaker B who wants to add individuality to the voice, and converts the voice signal s2 of the speaker A ( Ruled synthesized speech) Convert the voice quality of s2 to the voice quality of speaker B,
It is output as speaker B's audio signal S4.

声質変換部30における声質変換方法として、ベクトル
量子化を利用した声質変換法が用いられる。この方法は
、規則合成部20の基準となった標準話者Aと、音声に
個人性を付与したい話者Bとの間の声質変換を、各話者
のコードブックの対応づけである変換コードブックによ
って行なうものである。
As a voice quality conversion method in the voice quality conversion unit 30, a voice quality conversion method using vector quantization is used. This method converts the voice quality between a standard speaker A, which is the standard for the rule synthesis unit 20, and a speaker B, who wants to add individuality to the voice, using a conversion code that is a correspondence between the codebooks of each speaker. This is done using a book.

変換コードブックは、個人性を付与したい話者の音声の
パワー、ピッチ周波数およびスペクトル情報を含み、音
声の特徴が離散的に表現されている。第1図の音声個人
情報ファイル40は、この変換コードブックの内容を含
む。
The conversion codebook includes the power, pitch frequency, and spectrum information of the speaker's voice to which individuality is to be added, and the characteristics of the voice are expressed discretely. The audio personal information file 40 in FIG. 1 includes the contents of this conversion codebook.

第2図は、変換コードブックの作成手順を示すフロー図
である。
FIG. 2 is a flow diagram showing the procedure for creating a conversion codebook.

第2図を参照して、以下に変換コードブック41.42
.43を求める手順について説明する。
Referring to Figure 2, below is the conversion code book 41.42
.. The procedure for finding 43 will be explained.

まず、ステップ301および302において、話者Aお
よび話者Bのそれぞれの音声にLPG分析を施し、パワ
ー、ピッチ周波数およびスペクトルパラメータを求める
。次に、ステップ30Bおよび304において、スペク
トルパラメータをベクトル量子化し、ステップ305お
よび306でパワーをスカラー量子化し、ステップ30
7および308においてピッチ周波数をスカラー量子化
する。
First, in steps 301 and 302, the voices of speaker A and speaker B are subjected to LPG analysis to obtain power, pitch frequency, and spectral parameters. Next, the spectral parameters are vector quantized in steps 30B and 304, the power is scalar quantized in steps 305 and 306, and the power is scalar quantized in steps 30B and 304.
7 and 308, the pitch frequency is scalar quantized.

話者Aおよび話者Bの発声した音声の時間対応をとるた
めに、スペクトルパラメータを用いて、ステップ309
においてDouble  5plit法によるDPマツ
チングを行なう。ここで得られた時間対応の情報を基に
して、ステップ3101311および312において、
各特徴量について話者Aと話者Bの対応関係を求め、ヒ
ストグラムを作成する。スペクトルパラメータおよびパ
ワーの変換コードブック41.43は、このヒスドグラ
ムを重みとした話者Bの特徴ベクトルの線形結合で求め
る。また、ピッチ周波数の変換コードブック42は、こ
のヒストグラムの最大値を与える話者Bの特徴ベクトル
で作成する。
Step 309 uses the spectral parameters to take the time correspondence of the voices uttered by speaker A and speaker B.
DP matching is performed using the Double 5plit method. Based on the time-related information obtained here, in steps 3101311 and 312,
The correspondence between speaker A and speaker B is determined for each feature, and a histogram is created. The spectral parameter and power conversion codebooks 41 and 43 are obtained by linear combination of feature vectors of speaker B using this hisdogram as weight. Further, the pitch frequency conversion codebook 42 is created using the feature vector of speaker B that gives the maximum value of this histogram.

第3図は、声質変換部30における声質変換手順を示す
フロー図である。
FIG. 3 is a flow diagram showing the voice quality conversion procedure in the voice quality conversion section 30.

第3図を参照して、以下に変換コードブックを用いた声
質変換方法について説明する。話者Aの音声信号s2は
、ステップ401においてLPG分析され、パワー、ピ
ッチ周波数およびスペクトルパラメータが抽出される。
A voice quality conversion method using a conversion codebook will be described below with reference to FIG. The speech signal s2 of speaker A is subjected to LPG analysis in step 401 to extract power, pitch frequency and spectral parameters.

次に、ステップ402において話者Aのスペクトルコー
ドブックからのスペクトルパラメータがベクトル量子化
され、ステップ403において話者Aのパワーコードブ
ックからのパワーがスカラー量子化され、ステップ40
4において話者Aのピッチ周波数コードブックからのピ
ッチ周波数がスカラー量子化される。これらの量子化さ
れたパラメータを復号化する過程において、前述の変換
コードブック41.42.43が使用される。すなわち
、ステップ405において、話者Aから話者Bへのスペ
クトル変換コードブック41を用い、ステップ406に
おいて、パワー変換コードブック43を用い、ステップ
407においてピッチ周波数変換コードブック42を用
いる。そして、変換された各パラメータを用いてステッ
プ408で話者Bの音声信号s4が合成される。
Next, the spectral parameters from speaker A's spectral codebook are vector quantized in step 402, the powers from speaker A's power codebook are scalar quantized in step 403, and step 40
4, the pitch frequencies from speaker A's pitch frequency codebook are scalar quantized. In the process of decoding these quantized parameters, the aforementioned transformation codebooks 41.42.43 are used. That is, in step 405, the spectrum conversion codebook 41 from speaker A to speaker B is used, in step 406, the power conversion codebook 43 is used, and in step 407, the pitch frequency conversion codebook 42 is used. Then, the speech signal s4 of speaker B is synthesized in step 408 using each of the converted parameters.

第4図は、この発明による規則合成装置を含む規則合成
システムのハードウェア構成を示す概略ブロック図であ
る。
FIG. 4 is a schematic block diagram showing the hardware configuration of a rule synthesis system including a rule synthesis apparatus according to the present invention.

第4図を参照して、この規則合成システムは、アンプ1
とローパスフィルタ2とA/D変換器3とコンピュータ
システム4とを含む。アンプ1は入力された音声信号を
増幅するものであり、ローパスフィルタ2は増幅された
音声信号から折返し雑音を除去するものである。A/D
変換器3は音声信号を12kHzのサンプリング信号に
より、16ビツトのディジタル信号に変換するものであ
る。コンピュータシステム4は、規則合成装置(演算処
理部)5と磁気ディスク6と端末類7とプリンタ8とを
含む。この発明による音声の規則合成装置は第4図の規
則合成装置5内において構成される。
Referring to FIG. 4, this rule synthesis system consists of amplifier 1
, a low-pass filter 2 , an A/D converter 3 , and a computer system 4 . The amplifier 1 is for amplifying an input audio signal, and the low-pass filter 2 is for removing aliasing noise from the amplified audio signal. A/D
The converter 3 converts the audio signal into a 16-bit digital signal using a 12 kHz sampling signal. The computer system 4 includes a rule synthesis device (arithmetic processing unit) 5, a magnetic disk 6, terminals 7, and a printer 8. The speech rule synthesis device according to the present invention is constructed within the rule synthesis device 5 shown in FIG.

[発明の効果] 以上のように、この発明によれば、標準となる第1の話
者の音声信号を合成する規則合成手段と、第1の話者の
音声信号を個人的特徴を付与したい第2の話者の音声信
号に変換する音声変換手段とを含むので、予め準備すべ
き個人的音声情報を最少限に保ちながら、第1の話者す
なわち標準の話者の規則合成音に第2の話者の個人的特
徴を付与することができる。
[Effects of the Invention] As described above, according to the present invention, there is provided a rule synthesis means for synthesizing a standard voice signal of the first speaker, and a method for imparting personal characteristics to the voice signal of the first speaker. and a voice converting means for converting the voice signal into the voice signal of the second speaker, so that the synthesized speech of the first speaker, that is, the standard speaker, can be converted into the regular synthesized voice of the first speaker, that is, the standard speaker, while keeping the personal voice information that must be prepared in advance to a minimum. It is possible to add the personal characteristics of the second speaker.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は、この発明による規則合成装置の一実施例を示
すブロック図である。第2図は、変換コードブックの作
成手順を示すフロー図である。第3図は、声質変換部に
おける声質変換手順を示すフロー図である。第4図は、
この発明による規則合成装置を含む規則合成システムの
ハードウェア構成を示す概略ブロック図である。 図において、1はアンプ、2はローパスフィルタ、3は
A/D変換器、4はコンピュータシステム、5は規則合
成装置、10は入力部、20は規則合成部、21は音声
単位セット情報ファイル、30は声質変換部、40は音
声個人情報ファイル、50は出力部、slは文字情報信
号、s2は話者Aの音声信号、s3は話者Bの音声個人
情報信号、s4は話者Bの音声信号を示す。
FIG. 1 is a block diagram showing an embodiment of a rule synthesis device according to the present invention. FIG. 2 is a flow diagram showing the procedure for creating a conversion codebook. FIG. 3 is a flow diagram showing the voice quality conversion procedure in the voice quality conversion section. Figure 4 shows
1 is a schematic block diagram showing the hardware configuration of a rule synthesis system including a rule synthesis device according to the present invention. In the figure, 1 is an amplifier, 2 is a low-pass filter, 3 is an A/D converter, 4 is a computer system, 5 is a rule synthesis device, 10 is an input section, 20 is a rule synthesis section, 21 is an audio unit set information file, 30 is a voice quality conversion unit, 40 is a voice personal information file, 50 is an output unit, sl is a text information signal, s2 is a voice signal of speaker A, s3 is a voice personal information signal of speaker B, and s4 is a voice personal information signal of speaker B. Indicates an audio signal.

Claims (1)

【特許請求の範囲】 標準となる第1の話者の音声単位信号の集合を含み、外
部から文字情報信号を受け、前記音声単位信号集合を参
照することにより、前記第1の話者の音声信号を合成す
る規則合成手段と、 前記第1の話者の音声を、音声に個人的特徴を付与した
い第2の話者の音声に変換するのに必要な変換信号が蓄
積された変換信号ファイル手段と、合成された前記第1
の話者の音声信号を受け、前記変換信号ファイル手段に
蓄積された変換信号に基づいて、前記第1の話者の音声
信号を前記第2の話者の音声信号に変換する音声変換手
段とを含む、音声の規則合成装置。
[Scope of Claims] It includes a standard set of voice unit signals of a first speaker, receives a character information signal from the outside, and refers to the set of voice unit signals, thereby generating the voice of the first speaker. a rule synthesis means for synthesizing signals; and a conversion signal file storing conversion signals necessary for converting the voice of the first speaker into the voice of a second speaker whose voice is desired to have personal characteristics. means, and the synthesized first
voice conversion means for receiving the voice signal of the first speaker and converting the voice signal of the first speaker into the voice signal of the second speaker based on the conversion signal stored in the conversion signal file means; A speech rule synthesis device, including:
JP63037947A 1988-02-19 1988-02-19 Speech rule synthesizer Expired - Fee Related JP2880508B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63037947A JP2880508B2 (en) 1988-02-19 1988-02-19 Speech rule synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63037947A JP2880508B2 (en) 1988-02-19 1988-02-19 Speech rule synthesizer

Publications (2)

Publication Number Publication Date
JPH01211798A true JPH01211798A (en) 1989-08-24
JP2880508B2 JP2880508B2 (en) 1999-04-12

Family

ID=12511746

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63037947A Expired - Fee Related JP2880508B2 (en) 1988-02-19 1988-02-19 Speech rule synthesizer

Country Status (1)

Country Link
JP (1) JP2880508B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002063610A1 (en) * 2001-02-02 2002-08-15 Nec Corporation Voice code sequence converting device and method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61166600A (en) * 1985-01-19 1986-07-28 三洋電機株式会社 Voice snthesizer

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61166600A (en) * 1985-01-19 1986-07-28 三洋電機株式会社 Voice snthesizer

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002063610A1 (en) * 2001-02-02 2002-08-15 Nec Corporation Voice code sequence converting device and method
US7505899B2 (en) 2001-02-02 2009-03-17 Nec Corporation Speech code sequence converting device and method in which coding is performed by two types of speech coding systems

Also Published As

Publication number Publication date
JP2880508B2 (en) 1999-04-12

Similar Documents

Publication Publication Date Title
CN101578659B (en) Voice tone converting device and voice tone converting method
US4661915A (en) Allophone vocoder
US4754485A (en) Digital processor for use in a text to speech system
JP2002328695A (en) Method for generating personalized voice from text
WO2006104988B1 (en) Hybrid speech synthesizer, method and use
JP2001034280A (en) Electronic mail receiving device and electronic mail system
JP2709926B2 (en) Voice conversion method
JPH01211798A (en) Regular synthesizing device for voice
JPH0215080B2 (en)
JPH01211799A (en) Regular synthesizing device for multilingual voice
JPH05307395A (en) Voice synthesizer
JP2002525663A (en) Digital voice processing apparatus and method
JP2951514B2 (en) Voice quality control type speech synthesizer
JPH09319391A (en) Speech synthesizing method
US7130799B1 (en) Speech synthesis method
JPH07200554A (en) Sentence read-aloud device
JP2642617B2 (en) Speech synthesizer
JP2674280B2 (en) Speech synthesizer
JPH05127697A (en) Speech synthesis method by division of linear transfer section of formant
JP2956936B2 (en) Speech rate control circuit of speech synthesizer
US6418406B1 (en) Synthesis of high-pitched sounds
JP2658068B2 (en) Voice processor
JPH04147300A (en) Speaker's voice quality conversion and processing system
JPH03288898A (en) Voice synthesizer
JPH02236600A (en) Circuit for giving emotion of synthesized voice information

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees