[go: up one dir, main page]

JP4359087B2 - Speech synthesizer - Google Patents

Speech synthesizer Download PDF

Info

Publication number
JP4359087B2
JP4359087B2 JP2003191289A JP2003191289A JP4359087B2 JP 4359087 B2 JP4359087 B2 JP 4359087B2 JP 2003191289 A JP2003191289 A JP 2003191289A JP 2003191289 A JP2003191289 A JP 2003191289A JP 4359087 B2 JP4359087 B2 JP 4359087B2
Authority
JP
Japan
Prior art keywords
compound word
separation
words
semantic information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003191289A
Other languages
Japanese (ja)
Other versions
JP2004102242A5 (en
JP2004102242A (en
Inventor
良文 ▲廣▼瀬
勝義 山上
由実 脇田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2003191289A priority Critical patent/JP4359087B2/en
Publication of JP2004102242A publication Critical patent/JP2004102242A/en
Publication of JP2004102242A5 publication Critical patent/JP2004102242A5/ja
Application granted granted Critical
Publication of JP4359087B2 publication Critical patent/JP4359087B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a device and a method for voice synthesis that can represent a compound word with sufficient precision. <P>SOLUTION: A compound word extraction part 12 extracts a compound word (a word string constituting the compound word) from text information divided into words. A meaning imparting part 13 picks up meaning information on the words constituting the compound word from a thesaurus dictionary part 18 to generate compound word meaning information and imparts it to the extracted compound word. A rule application part 14 while referring to a separation rule stored in a separation rule dictionary part 19 determines a position where the compound word is separated according to the compound word meaning information imparted to the compound word. A rhythm generation part 15 generates rhythm of the text information according to the determined separation position. A voice synthesis part 16 generates a synthesized voice of the text information according to the generated rhythm. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、入力されたテキスト情報から、テキスト情報に応じた音声を合成する音声合成装置に関する。
【0002】
【従来の技術】
例えば新聞記事などのテキスト情報においては、複数の名詞が連続して並べられることにより1つの名詞を構成する複合語が頻繁に登場する。テキスト情報を音声情報に変換して音声を出力する音声合成装置において、複合語全体で1つのアクセント句を形成した場合、複合語をひと続きに発声するため、合成音が聞き取り難くなる。
【0003】
このため、従来の音声合成装置では、複合語の構成要素(複合語を構成する単語)の間に「助詞」または「ポーズ」を挿入する、ということを行っている(例えば、特許文献1参照)。
【0004】
【特許文献1】
特開平10−228471号公報
【0005】
【発明が解決しようとする課題】
しかしながら、従来の音声合成装置では、複合語に「助詞」または「ポーズ」を挿入する規則は、(1)目的語の後には「を」を挿入したり(2)副詞の後には「に」を挿入したりするなどの単純な規則であるが、実際には、目的語のあとに必ず「を」を挿入するとは限らず、また、すべての目的語のあとに「ポーズ」が挿入されるとは限らないので、複合語の表現を変換する精度が、十分ではないという問題があった。
【0006】
本発明は、かかる点に鑑みてなされたものであり、十分な精度で複合語を表現することができる音声合成装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明の音声合成装置は、複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出手段と、抽出された複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与手段と、複合語意味情報および当該複合語意味情報に対応する分離位置を示す少なくとも一つの分離規則を予め記憶する記憶手段と、付与された複合語意味情報に基づいて、前記記憶手段に記憶された分離規則の一つを適用して、抽出された複合語を分離する位置を決定する決定手段と、決定された分離位置に基づいてテキスト情報の韻律を生成する生成手段と、を有する構成を採る。
【0008】
この構成によれば、テキスト情報から抽出された複合語を構成する複数の単語の意味を示し複合語に付与された複合語意味情報に基づいて、抽出された複合語を分離する位置を決定し、決定された分離位置に基づいて、テキスト情報の韻律を生成するため、テキスト情報に含まれる複合語を適切な位置でアクセント句毎に分離することができ、複合語の構造を理解しやすい合成音を生成することができ、十分な精度で複合語を表現することができる。
【0009】
本発明の音声合成方法は、複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出ステップと、抽出した複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与ステップと、付与した複合語意味情報に基づいて、複合語意味情報および当該複合語意味情報に対応する分離位置を示しかつ記憶手段に記憶された分離規則の一つを適用して、抽出した複合語を分離する位置を決定する決定ステップと、決定した分離位置に基づいてテキスト情報の韻律を生成する生成ステップと、を有するようにした。
【0010】
この方法によれば、テキスト情報から抽出された複合語を構成する複数の単語の意味を示し複合語に付与された複合語意味情報に基づいて、抽出された複合語を分離する位置を決定し、決定された分離位置に基づいて、テキスト情報の韻律を生成するため、テキスト情報に含まれる複合語を適切な位置でアクセント句毎に分離することができ、複合語の構造を理解しやすい合成音を生成することができ、十分な精度で複合語を表現することができる。
【0011】
本発明の音声合成用プログラムは、コンピュータに、複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出機能と、抽出した複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与機能と、付与した複合語意味情報に基づいて、複合語意味情報および当該複合語意味情報に対応する分離位置を示しかつ記憶手段に記憶された分離規則の一つを適用して、抽出した複合語を分離する位置を決定する決定機能と、決定した分離位置に基づいてテキスト情報の韻律を生成する生成機能と、を実現させるようにした。
【0012】
このプログラムによれば、テキスト情報から抽出された複合語を構成する複数の単語の意味を示し複合語に付与された複合語意味情報に基づいて、抽出された複合語を分離する位置を決定し、決定された分離位置に基づいて、テキスト情報の韻律を生成するため、テキスト情報に含まれる複合語を適切な位置でアクセント句毎に分離することができ、複合語の構造を理解しやすい合成音を生成することができ、十分な精度で複合語を表現することができる。
【0013】
本発明の記録媒体は、コンピュータに、複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出機能と、抽出した複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与機能と、付与した複合語意味情報に基づいて、複合語意味情報および当該複合語意味情報に対応する分離位置を示しかつ記憶手段に記憶された分離規則の一つを適用して、抽出した複合語を分離する位置を決定する決定機能と、決定した分離位置に基づいてテキスト情報の韻律を生成する生成機能と、を実現させる音声合成用プログラムが記録されるようにした。
【0014】
この記録媒体によれば、テキスト情報から抽出された複合語を構成する複数の単語の意味を示し複合語に付与された複合語意味情報に基づいて、抽出された複合語を分離する位置を決定し、決定された分離位置に基づいて、テキスト情報の韻律を生成するため、テキスト情報に含まれる複合語を適切な位置でアクセント句毎に分離することができ、複合語の構造を理解しやすい合成音を生成することができ、十分な精度で複合語を表現することができる。
【0015】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
【0016】
本発明においては、意味の類似した複合語はその複合語の構造の面においても類似しているという特徴を利用している。各要素単語の意味情報の連鎖パタンを用いて、複合語のアクセント句を分離する(すなわち、ポーズを挿入する)規則の自動構築を行う。
【0017】
(実施の形態1)
本発明の実施の形態1に係る音声合成装置の構成を、図1を参照しながら説明する。
【0018】
11は入力されたテキスト情報を単語に分割する形態素解析部であり、12は分割された単語列から複合語を形成する単語列を抽出する複合語抽出部であり、13は単語に意味情報を付与する意味情報付与部であり、14は分離規則を参照して、入力された複合語の分離位置を決定する規則適用部であり、15は分離位置(分離されたアクセント句)にしたがって韻律を生成する韻律生成部であり、16は生成された韻律に基づいて入力テキストの合成音を生成する音声合成部であり、17は入力されたテキスト情報を単語単位に分割するための単語辞書部であり、18は単語の意味情報を保持するシソーラス辞書部であり、19は分離規則辞書部である。
【0019】
以上のように構成された本発明の実施の形態1に係る音声合成装置の動作について、2つの動作例を挙げて説明する。
【0020】
第1の動作例では、説明を容易にするため、具体的なテキスト情報として、「日本政府当局者は、1日…」を本実施の形態に係る音声合成装置において合成して読み上げる場合を挙げて説明する。
【0021】
まず、形態素解析部11では、入力されたテキスト情報を、単語辞書部17を用いて形態素解析を行い単語に分割する。「日本政府当局者は、1日…」というテキストに対して形態素解析を行う場合、「日本・政府・当局・者・は・、・1・日・…」(ここで、「・」は単語分離を表す。)というように、単語単位に分割する。なお、形態素解析の具体的な方法は特に限定されない。
【0022】
このように単語単位に分割されたテキスト情報は、次に複合語抽出部12に送られる。複合語抽出部12では、単語単位に分割されたテキスト情報に含まれる複合語を抽出する。抽出方法としては、例えば、名詞、接頭語、又は接尾語が連続してなる単語列を抽出する方法が挙げられる。上記の例では、「日本・政府・当局・者」という複合語が抽出される。以下、抽出された複合語を「テキスト内複合語」と言う。
【0023】
意味情報付与部13では、テキスト内複合語に、このテキスト内複合語を構成する各単語(ここでは、「日本」「政府」「当局」「者」)が有する意味情報を付与する。
【0024】
より詳しく説明すると、シソーラス辞書部18には、「日本」という単語には「国名」という意味情報、「政府」という単語には「政府機関」という意味情報、「当局」という単語には「政府機関」という意味情報、「者」という単語には「接尾語」というように、単語と、この単語が有する意味情報とが対応づけられて記憶されている。
【0025】
意味情報付与部13では、シソーラス辞書部18を参照しながら、テキスト内複合語を構成する各単語(「日本」「政府」「当局」「者」)の意味情報を拾い上げて複合語意味情報を生成する。この場合、「国名」「政府機関」「政府機関」「接尾語」という複合語意味情報が生成される。以下、この複合語意味情報を「テキスト内複合語意味情報」と言う。なお、意味情報の抽象度は段階的に変更できるような意味辞書を用いても良い。
【0026】
テキスト内複合語意味情報は、規則適用部14に送られる。規則適用部14では、テキスト内複合語意味情報(この例では「国名」「政府機関」「政府機関」「接尾語」)が、どの意味情報と意味情報との間で分離されるべきかという分離位置(この分離位置を、「テキスト内複合語分離位置」という)を決定する。
【0027】
これについてより詳細に説明すると、例えば、図2に示す通り、連続する4つの意味情報を順に並べて構成される複合語意味情報「進退」「運営」「接尾語」「計画」であれば、「接尾語」と「計画」との間(すなわち、3番目と4番目の意味情報の間)を、連続する4つの意味情報を順に並べて構成される複合語意味情報「国」「会議」「接尾語」「役職」であれば、「接尾語」と「役職」との間(すなわち、3番目と4番目の意味情報の間)を、連続する4つの意味情報を順に並べて構成される複合語意味情報「交わり」「原理」「関係」「接尾語」であれば、「原理」と「関係」との間(すなわち、2番目と3番目の意味情報の間)を、また、連続する4つの意味情報を順に並べて構成される複合語意味情報「集合」「軍人」「会議」「文章」であれば、「会議」と「文章」との間(すなわち、3番目と4番目の意味情報の間)を、それぞれ分離位置とする。
【0028】
分離規則辞書部19には、上記の通り、意味情報が連続して並べられてそれぞれ構成されている複数個の複合語意味情報と、各複合語意味情報のうちどの意味情報と意味情報との間で複合語が分離されるべきかという分離位置とが対応づけられて記憶(記録)されている。規則適用部14では、このような分離規則辞書部19を参照しながら、テキスト内複合語分離位置の決定を行う。
【0029】
分離規則辞書部19に、連続する4つの意味情報を順に並べて構成される複合語意味情報「国名」「政府機関」「政府機関」「接尾語」であれば、分離位置は「政府機関」と「政府機関」との間(すなわち、分離位置は意味情報の2番目と3番目との間)であることが記憶(記録)されていれば、規則適用部14は、「国名」「政府機関」「政府機関」「接尾語」からなるテキスト内複合語意味情報に対応するテキスト内複合語分離位置が「政府機関」と「政府機関」との間にあるということを決定する。
【0030】
最後に、このようにして分離位置が決定された複合語を韻律生成部15に送る。韻律生成部15は入力されたテキスト情報に適切な韻律を付与し、音声合成部16に韻律情報を送る。音声合成部17は、韻律生成部16が生成した韻律に基づいて音声を合成する。この音声合成時にテキスト内複合語分離位置においてポーズがかかる。すなわち、上記の例であれば、「にほんせいふ(ポーズ)とうきょくしゃ」という音声が合成され、発音される。
【0031】
このようにして、テキスト情報中に含まれる複合語を適切な位置でアクセント句分離可能となり、複合語の構造を理解しやすい合成音を生成できる。
【0032】
次に、第2の動作例では、説明を容易にするため、具体的なテキスト情報として、「アメリカ連邦捜査局は、1日…」を本実施の形態に係る音声合成装置において合成して読み上げる場合を挙げて説明する。
【0033】
上記第1の動作例では、分離規則辞書部19に記憶(記録)されている複合語意味情報と、テキスト内複合語意味情報とが完全一致する場合について説明したが、ここで説明する第2の動作例では、分離規則辞書部19に記憶(記録)されている複合語意味情報と、テキスト内複合語意味情報とが部分的にしか一致しない場合について説明する。
【0034】
形態素解析部11により単語に分割されたテキスト情報からテキスト内複合語を複合語抽出部12により抽出し、当該テキスト内複合語の各単語が有する意味情報を並べてテキスト内複合語意味情報を意味情報付与部13が生成することまでは第1の動作例と同様である。上記の例であれば、テキスト内複合語は「アメリカ」「連邦」「捜査」「局」となり、シソーラス辞書部18に「アメリカ」の意味情報は「国名」、「連邦」の意味情報は「政府機関」、「捜査」の意味情報は「調査」、「局」の意味情報は「接尾語」であることが記憶(記録)されていれば、意味情報生成部13は、テキスト内複合語意味情報として「国名」「政府機関」「調査」「接尾語」を生成する。
【0035】
すなわち、分離規則辞書部19には、「国名」「政府機関」「調査」「接尾語」というテキスト内複合語意味情報と完全一致する複合語意味情報が存在しない。
【0036】
この場合は、まず、テキスト内複合語意味情報の第1番目の意味情報(上記の例では「国名」)を「任意」にして、分離規則辞書部19に「任意」「政府機関」「調査」「接尾語」という複合語意味情報が存在するかどうかを判断する。説明を容易にするため、ここでは、このような複合語意味情報が存在しなかったとする。なお、本明細書および図面では、この「任意」の意味を「*」または「(*)」により表すことがある。
【0037】
そして、第1番目の意味情報を「国名」に戻して、第2番目の意味情報を「任意」にする。そして、分離規則辞書部19に「国名」「(*)」「調査」「接頭語」という複合語意味情報が存在するかどうかを判断する。説明を容易にするため、ここでは、このような複合語意味情報が存在しなかったと仮定する。
【0038】
そして、第2番目の意味情報を「政府機関」に戻して、第3番目の意味情報を「任意」にする。そして、分離規則辞書部19に「国名」「政府機関」「(*)」「接頭語」という複合語意味情報が存在するかどうかを判断する。
【0039】
上記第1の動作例にて説明したように、分離規則辞書部19に、連続する4つの意味情報を順に並べて構成される複合語意味情報「国名」「政府機関」「政府機関」「接尾語」の分離位置は「政府機関」と「政府機関」との間であるということが記憶(記録)されているので、「国名」「政府機関」「(*)」「接頭語」というテキスト内複合語意味情報は、分離規則辞書部19に記憶(記録)されている複合語意味情報「国名」「政府機関」「政府機関」「接尾語」と部分一致している。
【0040】
分離規則辞書部19には、複合語意味情報「国名」「政府機関」「政府機関」「接尾語」の分離位置が「政府機関」と「政府機関」との間であることが記憶(記録)されているので、「国名」「政府機関」「(*)」「接頭語」という複合語意味情報も「政府機関」と「(*)」との間にあると決定する。これ以後の動作は、上記第1の動作例と同様である。
【0041】
したがって、第2の動作例によれば、「あめりかれんぽう(ポーズ)そうさきょく」という音声が合成され、発音される。
【0042】
この第2の動作例によれば、分離規則辞書部19にテキスト内複合語意味情報と完全に一致する複合語意味情報が存在しない場合であっても、おおよそ正しい分離位置を推定することができる。このように、第2の動作例においても、テキスト情報中に含まれる複合語を適切な位置でアクセント句毎に分離可能となり、複合語の構造を理解しやすい合成音を生成することができる。
【0043】
なお、テキスト内複合語意味情報の1つの意味情報を「(*)」にしても、分離規則辞書部19に記憶(記録)されている複合語意味情報の中から意味情報が合致する複合語意味情報が存在しない場合には、「(*)」を2つ乃至3つに増やし、テキスト内複合語意味情報の複数の意味情報を「(*)」にして、分離規則辞書部19に記憶(記録)されている複合語意味情報の中から意味情報が合致する複合語意味情報と合致するかどうかを判断しても良い。
【0044】
また、テキスト内複合語意味情報の1つの意味情報を「(*)」にすることにより、分離規則辞書部19に記憶(記録)されている複合語意味情報の中から意味情報が合致する複合語意味情報が複数個存在する場合には、これらの合致する複数個の複合語意味情報の中の一つを適宜選択しても良い。
【0045】
また、テキスト内複合語意味情報の全部の意味情報を「(*)」にしない限り、分離規則辞書部19に記憶(記録)されている複合語意味情報の中から意味情報が合致する複合語意味情報が存在しない場合がある。この場合には、致し方ないが、「分離位置なし」としてポーズなしで音声を合成し、発音させることにする。または、予め決定しておいた位置で分離し、音声を合成しても良い。
【0046】
このように、本実施の形態によれば、テキスト情報中に含まれる複合語を適切な位置でアクセント句毎に分離可能となり、複合語の構造を理解しやすい合成音を生成することができる。
【0047】
(実施の形態2)
図3は、本発明の実施の形態2に係る音声合成装置の構成を示す図である。なお、本実施の形態に係る音声合成装置は、実施の形態1において説明した音声合成装置と同様の基本的構成を有しており、同一の構成要素には同一の参照符号を付し、その説明を省略する。
【0048】
図3に示す音声合成装置は、図1に示す音声合成装置の構成要素に加えて、複合語のアクセント句分離規則を構築する分離規則構築部21と、複合語のアクセント句分離規則学習用の学習データベース(DB)22とを有する。
【0049】
ここでは、本実施の形態の特徴である、音声合成装置の分離規則構築部21における分離位置の学習方法について、説明する。
【0050】
分離位置を学習する際には、学習DB22において、図2に示すようなDBが用いられる。このDBに記憶される各データは、複合語を構成する単語と、単語が保有する意味情報(図中括弧内の情報)と、分離位置を示す分離位置情報とを持つ。例えば分離すべきでない複合語には、分離位置情報として「0」が付与される。
【0051】
なお、分離位置情報は1つの複合語に対して複数の分離位置情報を保持しても良い。
【0052】
分離規則の自動構築は、この学習DB22を用いて行われる。構築方法を以下に説明する。ここで、本発明における規則とは、複合語を構成する各単語の意味情報の連鎖パタンによってアクセント句毎に分離する分離規則である。例えば、「C1」「C2」「C3」「C4」という意味情報の連鎖パタンにおいて(C1〜C4は意味情報を表す)、「C2」と「C3」の間でアクセント句毎に分離する、という規則がある。
【0053】
分離規則構築のフローを図4に示す。まず、ステップS200では、学習DB22から1つのデータを選択する。そして、ステップS300では、ステップS200で選択した意味情報の連鎖パタンと同一のパタンを持つデータを収集する。
【0054】
そして、ステップS400では、ステップS300でデータ数が増加したか否かを判断する。この判断の結果として、データ数に変化がない場合(S400:NO)は、ステップS200に戻る。一方、データ数が増加していた場合(S400:YES)は、ステップS500に進む。
【0055】
ステップS500では、ステップS300で集めたデータのうち、ステップS200で選んだデータと同一の位置に分離位置があるデータの割合(選択されたデータにおける分離位置の信頼度)を算出し、算出された割合(信頼度)を予め設定された閾値と比較する。この比較の結果として、同一の分離位置である割合が閾値以上である場合(S500:YES)は、ステップS600に進む。一方、閾値未満である場合(S500:NO)は、ステップS700に進む。
【0056】
ステップS600では、ステップS200で選択したデータにおける意味情報の連鎖パタンを規則化する。そして、ステップS700では、学習DB22における全てのデータについてステップS200からステップS600を処理したか否かを判断し、まだ処理していないデータが存在する場合(S700:NO)は、ステップS200に戻る。一方、全てのデータを処理した場合(S700:YES)は、分離規則構築を終了する。
【0057】
以上のように構築した分離規則の適用例を説明する。図5の(A)に示すように、「韓国政府当局者」と「日本政府当局者」というデータが学習DB22に存在した場合、各データの意味情報の連鎖パタンである「(国名)(政府機関)(政府機関)(接尾語)」に対する分離位置が全て「2」であるため、「(国名)(政府機関)/(政府機関)(接尾語)」を規則化する。ここで、「/」は分離位置を表す。一方、図5の(B)に示すように、未知データとして「アメリカ政府当局者」という複合語が入力された場合には上記規則化された「(国名)(政府機関)/(政府機関)(接尾語)」における意味情報の連鎖パタンと一致するため、この規則を適用し、「アメリカ政府/当局者」というように「アメリカ政府」の直後で適切に分離することが可能となる。
【0058】
なお、このような規則を構築する場合、最も精度が高い分離規則は、あらゆる組合せの意味情報の連鎖パタンについて全て網羅的に規則化することにより得られる。しかし、網羅的に規則化することはデータ量から見て容易ではない。例えば、4単語から構成される複合語の場合、Ncパタン存在し(意味情報の種類数をNcとする)、このような規則を学習するために学習DB22を構築することは容易ではない。
【0059】
そこで、本発明では、以下に示す方法によりアクセント句分離の決定に影響を及ぼさない単語を、全ての単語を含む意味クラス(以下「ワイルドカード」と言う)と見なす。このワイルドカードを用いることにより、高い精度を保ちながら規則の適用範囲を拡張することが可能となる。
【0060】
ワイルドカードを導入した場合、複合語を構成する単語毎に、ワイルドカード化するかどうかを判断するため、N個の単語の連鎖(以下「N連鎖」と言う)の複合語の場合、(2−1)通りの適用のパタンがある。図6に、N=3、4、5のときのワイルドカード適用パタンについて示す。なお、N>5の場合も同様にパタンを設定することが可能である。例えば、ワイルドカードを適用した場合、「C1」「C2」「*」「*」(先頭がC1、2番目がC2で、3番目、4番目はどの単語でも良い)という連鎖パタンを持つ複合語はC1の後で分離する、という規則を構築することになる。
【0061】
なお、ワイルドカード適用のパタン数を削減するために、ワイルドカード化するパタンに制約を設けても良い。より具体的には、連続した単語をワイルドカードとみなさない、という制約を設けても良い。例えば、「*」「C1」「C2」「*」はワイルドカード適用パタンとして有効であるが、「*」「*」「C1」「C2」は無効である。ここで、記号「*」はワイルドカードを適用した単語を示す。
【0062】
以下、ワイルドカードを用いてN連鎖の複合語の分離規則を構築する動作について、図7を参照しながら説明する。
【0063】
まず、ステップS100では、図6に示すワイルドカードの適用パタンの中から1つを選び、選択されたワイルドカードを学習DB22の全データに適用する。
【0064】
例えば、0個のワイルドカードを適用するときは、学習DB22に記憶されている各データにおけるどの単語にも適用しない。また、1個のワイルドカードを適用するときは、学習DB22に記憶されている各データにおけるいずれか1つの単語に適用する。つまり、4連鎖の複合語のデータの場合は、4つのパタンの適用が可能である。また、2個のワイルドカードを適用するときは、学習DB22に記憶されている各データにおけるいずれか2つの単語に適用する。つまり、4連鎖の複合語のデータの場合は、6つのパタンの適用が可能である。
【0065】
そして、ステップS200では、学習DB22から1つのデータを選択する。例えば、「(国名)(政府機関)/(政府機関)(接尾語)」という意味情報の連鎖パタンを有するデータが選択される。
【0066】
そして、ステップS300では、ステップS200で選択した意味情報の連鎖パタンと同一のパタンを持つデータを収集する。
【0067】
例えば、図8に示す通り、データ#1〜#4を記憶している学習DB22において0個のワイルドカードが適用されている場合、上記選択されたデータと同一のパタンを持つデータは、データ#1、#2である。一方、1個のワイルドカードが先頭の単語に適用されている場合はデータ#1〜#3が、また、2個のワイルドカードが先頭および3番目の単語に適用されている場合はデータ#1〜#4が、それぞれ上記選択されたデータと同一のパタンを持つ。
【0068】
そして、ステップS400では、ステップS300でデータ数が増加したか否かを判断する。この判断の結果として、データ数に変化がない場合(S400:NO)は、ステップS200に戻る。一方、データ数が増加していた場合(S400:YES)は、ステップS500に進む。
【0069】
例えば、図8において、1個のワイルドカードが適用されたときは、0個のワイルドカードが適用されたときと比べて、収集されたデータ数が1つ増加している。また、2個のワイルドカードが適用されたときは、0個のワイルドカードが適用されたときと比べて、収集されたデータ数が2つ増加している。
【0070】
ステップS500では、ステップS300で集めたデータのうち、ステップS200で選んだデータと同一の位置に分離位置があるデータの割合(選択されたデータにおける分離位置の信頼度)を算出し、算出された割合(信頼度)を予め設定された閾値と比較する。
【0071】
例えば、図8において、1個のワイルドカードが適用されているときに収集された各データ#1〜#3の分離位置が上記選択されたデータの分離位置と一致する割合、つまり選択されたデータの分離位置の信頼度は100%である。また、2個のワイルドカードが適用されているときに収集された各データ#1〜#4の分離位置が上記選択されたデータの分離位置と一致する割合、つまり選択されたデータの分離位置の信頼度は100%である。
【0072】
この比較の結果として、同一の分離位置である割合が閾値以上である場合(S500:YES)は、ステップS600に進む。一方、閾値未満である場合(S500:NO)は、ステップS700に進む。
【0073】
ステップS600では、ステップS200で選択した意味情報の連鎖パタンを規則化する。
【0074】
ステップS700では、学習DB22における全てのデータについてステップS200からステップS600を処理したか否かを判断し、まだ処理していないデータが存在する場合(S700:NO)は、ステップS200に戻る。一方、全てのデータを処理した場合(S700:YES)は、ステップS800に進む。
【0075】
ステップS800では、図6に示したワイルドカードの適用パタンの全てについて処理を実行したか否かを判断する。判断の結果として、まだ適用していないワイルドカードのパタンが存在する場合(S800:NO)にはステップS100を実行する。一方、全てのワイルドカードのパタンについて処理した場合(S800:YES)は、動作を終了する。
【0076】
なお、図6では、N連鎖の複合語のワイルドカード適用パタンを(2−1)通りとしているが、全ての構成要素にワイルドカードを適用し、どの規則にも適用されなかった複合語に対する分離位置を設定するようにしても良い。
【0077】
また、規則の信頼度を高めるために、規則化するときに最低限必要なデータの出現頻度を設定するようにしても良い。例えば、「データ中に3回以上出現した連鎖パタンのみ規則化する」というような制約を設けても良い。
【0078】
このようにして、N連鎖の複合語であればどのような複合語であっても、規則構築を行い、規則化することが可能である。
【0079】
ワイルドカードを導入することにより、図9の(A)および(B)に示すように意味情報の連鎖パタンの一部が異なるような複合語が入力された場合にも、精度良く規則を適用することが可能となる。
【0080】
図9の(A)には、学習DB22に存在する「韓国政府当局者」と「ロシア外務省筋」という複合語から「(国名)(政府機関)/(*)(接尾語)」という分離規則を構築した例が示されている。図9の(B)に示すように、未知データである「アメリカ連邦捜査局」という複合語が入力された場合には、この複合語の意味情報の連鎖パタンは「(国名)(政府機関)/(調査)(接尾語)」である。上記二つの連鎖パタンにおいてそれぞれ3番目に位置している意味情報は(調査)と(政府機関)であり互いに異なるが、ワイルドカードの適用により「アメリカ連邦」の直後で適切に分離し、「アメリカ連邦/捜査局」とすることが可能となる。
【0081】
ところで、ワイルドカードを導入した場合、1つの連鎖パタンに対して適用可能な規則が複数存在することがある。このとき、2つの基準に基づいて、適用可能な複数の規則の中から1つを選択する。
【0082】
ここで用いられる第1の基準は、ワイルドカードを適用した単語数が少ない方の規則を優先的に選択する、という基準である。図10に示す通り、一般的には、適用されるワイルドカード数が少ない規則の方が高い精度を有する一方、適用されるワイルドカード数が多い規則の方が高いカバレッジを有する。そこで、例えば、「(国名)(政府機関)/(*)(*)」という規則と「(国名)/(*)(*)(*)」という規則が適用可能である場合、ワイルドカードが少ない前者の規則を選択し、適用する。
【0083】
また、ここで用いられる第2の基準は、規則を構築したときの信頼度が高い方の規則を優先的に選択する、という基準である。例えば、信頼度が80%である「(*)(政府機関)/(*)(*)」という規則と、信頼度が75%である「(国名)/(*)(*)(*)」という規則が適用可能である場合、信頼度が高い前者の規則を選択し、適用する。
【0084】
上記の基準を予め設定しておくことにより、1つの連鎖パタンに対して適用可能な規則が複数存在する場合においても最適な分離規則を適用することができる。
【0085】
なお、これらの基準に基づく分離規則の優先順位は、各分離規則を構築するときに決定されるものである。このため、全ての分離規則をこの優先順位に基づいて予め整列しておき、分離規則が適用可能な否かを、優先順位の高い規則から順に判断することにより、最初に適用可能と判断された分離規則を最適な分離規則として適用することが可能になる。この場合、各分離規則の信頼度を保持しておく必要性がなくなる。
【0086】
以上の説明では、複合語のアクセント句の分離規則について述べたが、本実施の形態により、複合語のアクセント句の分離位置を決定するだけでなく、複合語を構成する各単語間に挿入する語句(例えば、助詞など)を決定する規則も構築することが可能である。
【0087】
以下に、単語間に語句を挿入する例について説明する。学習DB22として、図11に示す通り、分離位置情報とその分離位置に挿入すべき語句を記述したDBを用意する。例えば、「国家・評議・会・議長」という複合語の場合、「国家評議会の議長」というように助詞を挿入するという変換を行うことができるように、分離位置(3番目)に助詞「の」を挿入するということを示す情報を持つ学習DB22を構築する。
【0088】
規則の構築方法は、前述の方法と同じ方法で構築が可能であるが、上記フローのステップS204において、分離位置だけでなく挿入される助詞の種類も一致する割合(信頼度)を計算するように変更すれば、上記のDBを構築することが可能である。
【0089】
なお、本発明は上記の実施の形態に限定されず、様々な実施の形態に実施することが可能である。例えば、上記実施の形態では、音声合成方法を音声合成装置で実行しているが、コンピュータ上でソフトウェアとして実行しても良い。
【0090】
例えば、上記実施の形態で説明した音声合成方法を実行するプログラムを予め例えばROM(Read Only Memory)などの記録媒体に記録しておき、そのプログラムをCPU(Central Processor Unit)によって動作させるようにしても良い。
【0091】
【発明の効果】
以上説明したように、本発明によれば、上記の複合語分離方法を用いることにより、音声合成装置において、テキスト情報中に含まれる複合語を適切な位置でアクセント句毎の分離を行うことが可能となり、複合語の構造を理解しやすい合成音を生成することができ、十分な精度で複合語を表現することができるので実用上の価値は大きい。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係る音声合成装置の構成を示す図
【図2】本発明の実施の形態1に係るテキスト内複合語分離位置を説明するための図
【図3】本発明の実施の形態2に係る音声合成装置の構成を示す図
【図4】本発明の実施の形態2において、分離規則構築の動作を説明するためのフロー図
【図5】本発明の実施の形態2において、構築された分離規則を未知データに適用した例を説明するための図
【図6】本発明の実施の形態2に係るワイルドカード適用パタンを示す図
【図7】本発明の実施の形態2において、ワイルドカードを用いた分離規則構築の動作を説明するためのフロー図
【図8】本発明の実施の形態2において、ワイルドカードを用いた分離規則構築の動作の具体例を説明するための図
【図9】本発明の実施の形態2において、ワイルドカードを用いて構築された分離規則を未知データに適用した例を説明するための図
【図10】本発明の実施の形態2において、適用する分離規則を選択するときの第1の基準を説明するための図
【図11】本発明の実施の形態2に係るテキスト内複合語分離位置および挿入語句を説明するための図
【符号の説明】
11 形態素解析部
12 複合語抽出部
13 意味情報付与部
14 規則適用部
15 韻律生成部
16 音声合成部
17 単語辞書部
18 シソーラス辞書部
19 分離規則辞書部
21 分離規則構築部
22 学習データベース
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech synthesizer that synthesizes speech corresponding to text information from input text information.
[0002]
[Prior art]
For example, in text information such as newspaper articles, compound words constituting one noun frequently appear by arranging a plurality of nouns continuously. In a speech synthesizer that converts text information into speech information and outputs speech, when one accent phrase is formed for the entire compound word, the compound word is uttered continuously, making it difficult to hear the synthesized sound.
[0003]
For this reason, in a conventional speech synthesizer, a “particle” or “pause” is inserted between components of a compound word (words constituting the compound word) (see, for example, Patent Document 1). ).
[0004]
[Patent Document 1]
Japanese Patent Laid-Open No. 10-228471
[0005]
[Problems to be solved by the invention]
However, in the conventional speech synthesizer, the rules for inserting “particles” or “pauses” into compound words are (1) inserting “wo” after the object or (2) “ni” after the adverb. It is a simple rule, such as inserting, but in practice, it is not always necessary to insert “o” after the object, and “pause” is inserted after all objects. Therefore, there is a problem that the accuracy of converting the expression of the compound word is not sufficient.
[0006]
The present invention has been made in view of such a point, and an object thereof is to provide a speech synthesizer capable of expressing a compound word with sufficient accuracy.
[0007]
[Means for Solving the Problems]
The speech synthesizer of the present invention includes an extraction unit that extracts a compound word from text information including a compound word formed by linking a plurality of words, and a plurality of words constituting the compound word are extracted from the extracted compound word. An assigning means for giving compound word meaning information indicating meaning; Storage means for storing in advance at least one separation rule indicating compound word semantic information and a separation position corresponding to the compound word semantic information; Based on the given compound word semantic information, Applying one of the separation rules stored in the storage means; A configuration having a determining unit that determines a position where the extracted compound word is separated and a generating unit that generates a prosody of text information based on the determined separating position is adopted.
[0008]
According to this configuration, the position where the extracted compound word is separated is determined based on the compound word semantic information given to the compound word indicating the meaning of the plurality of words constituting the compound word extracted from the text information. Since the prosody of the text information is generated based on the determined separation position, the compound word included in the text information can be separated for each accent phrase at an appropriate position, and the composition of the compound word is easy to understand. Sound can be generated and compound words can be expressed with sufficient accuracy.
[0009]
The speech synthesis method of the present invention includes an extraction step of extracting a compound word from text information including a compound word formed by linking a plurality of words, and meanings of a plurality of words constituting the compound word in the extracted compound word Based on the grant step to give the compound word semantic information indicating, and the given compound word semantic information, Applying one of the separation rules indicating the compound word semantic information and the separation position corresponding to the compound word semantic information and stored in the storage means, A determination step for determining a position for separating the extracted compound word; and a generation step for generating a prosody of the text information based on the determined separation position.
[0010]
According to this method, the position where the extracted compound word is separated is determined based on the compound word semantic information given to the compound word indicating the meaning of the plurality of words constituting the compound word extracted from the text information. Since the prosody of the text information is generated based on the determined separation position, the compound word included in the text information can be separated for each accent phrase at an appropriate position, and the composition of the compound word is easy to understand. Sound can be generated and compound words can be expressed with sufficient accuracy.
[0011]
The speech synthesis program according to the present invention includes an extraction function for extracting a compound word from text information including a compound word formed by linking a plurality of words in a computer, and a plurality of components constituting the compound word in the extracted compound word. Based on the grant function to give compound word semantic information indicating the meaning of the word and the given compound word semantic information, Applying one of the separation rules indicating the compound word semantic information and the separation position corresponding to the compound word semantic information and stored in the storage means, A determination function for determining a position for separating the extracted compound word and a generation function for generating a prosody of text information based on the determined separation position are realized.
[0012]
According to this program, the position where the extracted compound word is separated is determined based on the compound word meaning information given to the compound word indicating the meaning of the plurality of words constituting the compound word extracted from the text information. Since the prosody of the text information is generated based on the determined separation position, the compound word included in the text information can be separated for each accent phrase at an appropriate position, and the composition of the compound word is easy to understand. Sound can be generated and compound words can be expressed with sufficient accuracy.
[0013]
The recording medium of the present invention includes an extraction function for extracting a compound word from text information including a compound word formed by linking a plurality of words to a computer, and a plurality of words constituting the compound word in the extracted compound word. Based on the grant function to give compound word semantic information indicating the meaning of Applying one of the separation rules indicating the compound word semantic information and the separation position corresponding to the compound word semantic information and stored in the storage means, A speech synthesis program that realizes a determination function for determining a position for separating the extracted compound word and a generation function for generating a prosody of text information based on the determined separation position is recorded.
[0014]
According to this recording medium, the position where the extracted compound word is separated is determined based on the compound word meaning information given to the compound word indicating the meaning of the plurality of words constituting the compound word extracted from the text information. Since the prosody of the text information is generated based on the determined separation position, the compound word included in the text information can be separated for each accent phrase at an appropriate position, and the structure of the compound word is easy to understand. A synthesized sound can be generated and a compound word can be expressed with sufficient accuracy.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0016]
In the present invention, a compound word having a similar meaning utilizes the feature that the compound word is similar in terms of the structure. A rule for separating accent phrases of compound words (that is, inserting a pose) is automatically constructed using a chain pattern of semantic information of each element word.
[0017]
(Embodiment 1)
The configuration of the speech synthesizer according to Embodiment 1 of the present invention will be described with reference to FIG.
[0018]
11 is a morphological analysis unit that divides input text information into words, 12 is a compound word extraction unit that extracts a word string that forms a compound word from the divided word strings, and 13 is semantic information for words. 14 is a rule application unit that determines the separation position of the input compound word by referring to the separation rule, and 15 is a prosody according to the separation position (separated accent phrase). A prosody generation unit 16 generates a speech synthesis unit 16 that generates a synthesized sound of input text based on the generated prosody, and a word dictionary unit 17 divides the input text information into words. Yes, 18 is a thesaurus dictionary part that holds word semantic information, and 19 is a separation rule dictionary part.
[0019]
The operation of the speech synthesizer according to Embodiment 1 of the present invention configured as described above will be described with reference to two operation examples.
[0020]
In the first operation example, for ease of explanation, a case where “Japanese government officials make a day…” is synthesized and read by the speech synthesizer according to the present embodiment as specific text information is given. I will explain.
[0021]
First, the morphological analysis unit 11 divides the input text information into words by performing morphological analysis using the word dictionary unit 17. When performing a morphological analysis on the text “Japanese government officials have a day…”, “Japan, government, authorities, people, ..., 1 day ...” (where “·” is the word It is divided into units of words. A specific method of morphological analysis is not particularly limited.
[0022]
Thus, the text information divided | segmented into the word unit is sent to the compound word extraction part 12 next. The compound word extraction unit 12 extracts compound words included in the text information divided into words. As an extraction method, for example, there is a method of extracting a word string composed of continuous nouns, prefixes or suffixes. In the above example, the compound word “Japan / Government / Authority / Person” is extracted. Hereinafter, the extracted compound word is referred to as “in-text compound word”.
[0023]
The semantic information giving unit 13 gives semantic information possessed by each word (here, “Japan”, “government”, “authority”, “person”) constituting the compound word in the text to the compound word in the text.
[0024]
More specifically, the thesaurus dictionary 18 includes the meaning information “country name” for the word “Japan”, the meaning information “government” for the word “government”, and the “government” for the word “authority”. The meaning information “institution” and the word “person” are stored in association with the word and the meaning information of the word, such as “suffix”.
[0025]
The semantic information adding unit 13 refers to the thesaurus dictionary unit 18 and picks up the semantic information of each word (“Japan”, “government”, “authority”, “person”) that constitutes the compound word in the text to obtain the compound word semantic information. Generate. In this case, compound word semantic information of “country name”, “government agency”, “government agency”, and “suffix” is generated. Hereinafter, this compound word semantic information is referred to as “in-text compound word semantic information”. A semantic dictionary that can change the abstraction level of the semantic information step by step may be used.
[0026]
The compound word semantic information in the text is sent to the rule application unit 14. The rule application unit 14 determines which semantic information and semantic information the compound word semantic information in the text (in this example, “country name” “government agency” “government agency” “suffix”) should be separated. A separation position (this separation position is referred to as “in-text compound word separation position”) is determined.
[0027]
This will be described in more detail. For example, as shown in FIG. 2, if the compound word semantic information “advance / retreat”, “operation”, “suffix”, and “plan” are configured by sequentially arranging four consecutive semantic information, “ Compound word semantic information “country” “conference” “suffix” composed of four consecutive semantic information in order between “suffix” and “plan” (that is, between the third and fourth semantic information) "Word" and "position", a compound word composed of "suffix" and "position" (that is, between the third and fourth semantic information) and four consecutive semantic information arranged in order If the semantic information is “community”, “principle”, “relation”, or “suffix”, the “principle” is related to “relation” (that is, between the second and third semantic information), and the continuous 4 Compound word semantic information “aggregation” “military” “conference” If the sentence ", between the" Meeting "," text "(i.e., between the third and fourth semantic information), and each separate position.
[0028]
As described above, the separation rule dictionary unit 19 includes a plurality of compound word semantic information each of which is constituted by consecutively arranging semantic information, and which semantic information and semantic information among the compound word semantic information. A separation position indicating whether the compound word should be separated is stored (recorded) in association with each other. The rule application unit 14 determines the compound word separation position in the text while referring to such a separation rule dictionary unit 19.
[0029]
In the separation rule dictionary unit 19, if the compound word semantic information “country name”, “government agency”, “government agency”, and “suffix” composed of four consecutive semantic informations arranged in order, the separation position is “government agency”. If it is stored (recorded) that it is between the “government agencies” (that is, the separation position is between the second and third semantic information), the rule application unit 14 determines the “country name” “government agency”. It is determined that the compound word separation position in the text corresponding to the compound word semantic information consisting of “government agency” and “suffix” is between “government agency” and “government agency”.
[0030]
Finally, the compound word whose separation position is determined in this way is sent to the prosody generation unit 15. The prosody generation unit 15 gives an appropriate prosody to the input text information, and sends the prosody information to the speech synthesis unit 16. The speech synthesizer 17 synthesizes speech based on the prosody generated by the prosody generator 16. During the speech synthesis, a pause is applied at the compound word separation position in the text. In other words, in the above example, the voice “Japanese and pause” is synthesized and pronounced.
[0031]
In this way, compound phrases included in text information can be separated into accent phrases at appropriate positions, and a synthesized sound that can easily understand the structure of compound words can be generated.
[0032]
Next, in the second operation example, for ease of explanation, as the specific text information, “US Federal Bureau of Investigation is one day” is synthesized and read by the speech synthesizer according to the present embodiment. A case will be described.
[0033]
In the first operation example, the case where the compound word semantic information stored (recorded) in the separation rule dictionary unit 19 completely matches the compound word semantic information in the text has been described. In the operation example, a case where the compound word semantic information stored (recorded) in the separation rule dictionary unit 19 and the compound word semantic information in the text only partially match will be described.
[0034]
An in-text compound word is extracted from the text information divided into words by the morpheme analyzing unit 11, and the compound word extracting unit 12 extracts the compound word semantic information in the text by arranging the semantic information of each word of the compound word in the text. The process up to generation by the assigning unit 13 is the same as that in the first operation example. In the above example, the compound words in the text are “America”, “Federal”, “Investigation”, and “Station”, and the thesaurus dictionary section 18 has the meaning information of “USA” as “country name” and the meaning information of “federation” as “ If it is stored (recorded) that the meaning information of “government agency” and “investigation” is “survey”, and the meaning information of “station” is “suffix”, the meaning information generation unit 13 may include compound words in the text. As the semantic information, “country name”, “government agency”, “survey”, and “suffix” are generated.
[0035]
That is, in the separation rule dictionary unit 19, there is no compound word semantic information that completely matches the compound word semantic information in the text of “country name”, “government agency”, “survey”, and “suffix”.
[0036]
In this case, first, the first semantic information (“country name” in the above example) of the compound word semantic information in the text is set to “arbitrary”, and “arbitrary” “government agency” “investigation” is stored in the separation rule dictionary unit 19. It is determined whether or not the compound word semantic information “suffix” exists. For ease of explanation, it is assumed here that such compound word semantic information does not exist. In the present specification and drawings, the meaning of “arbitrary” may be represented by “*” or “(*)”.
[0037]
Then, the first semantic information is returned to “country name”, and the second semantic information is set to “arbitrary”. Then, it is determined whether or not compound word semantic information “country name”, “(*)”, “search”, and “prefix” exists in the separation rule dictionary unit 19. For ease of explanation, it is assumed here that such compound word semantic information does not exist.
[0038]
Then, the second semantic information is returned to “government agency”, and the third semantic information is set to “arbitrary”. Then, it is determined whether or not compound word semantic information “country name”, “government agency”, “(*)”, and “prefix” exists in the separation rule dictionary unit 19.
[0039]
As described in the first operation example, compound word semantic information “country name”, “government agency”, “government agency”, “suffix” composed of four consecutive pieces of semantic information arranged in order in the separation rule dictionary unit 19. ”Is recorded (recorded) between“ government agency ”and“ government agency ”, so in the text“ country name ”“ government agency ”“ (*) ”“ prefix ” The compound word semantic information partially matches the compound word semantic information “country name”, “government agency”, “government agency”, and “suffix” stored (recorded) in the separation rule dictionary unit 19.
[0040]
The separation rule dictionary unit 19 stores (records) that the separation position of the compound word semantic information “country name”, “government agency”, “government agency”, and “suffix” is between “government agency” and “government agency”. Therefore, it is determined that the compound word semantic information of “country name”, “government agency”, “(*)”, and “prefix” is also between “government agency” and “(*)”. The subsequent operation is the same as in the first operation example.
[0041]
Therefore, according to the second operation example, a voice of “Amekari Kangpo (pause)” is synthesized and pronounced.
[0042]
According to the second operation example, even when there is no compound word semantic information that completely matches the compound word semantic information in the text in the separation rule dictionary unit 19, an approximately correct separation position can be estimated. . As described above, also in the second operation example, the compound word included in the text information can be separated for each accent phrase at an appropriate position, and a synthesized sound that can easily understand the structure of the compound word can be generated.
[0043]
Even if one meaning information of the compound word semantic information in the text is “(*)”, the compound word whose semantic information matches from the compound word semantic information stored (recorded) in the separation rule dictionary unit 19. If there is no semantic information, the number of “(*)” is increased to two or three, and a plurality of semantic information of the compound word semantic information in the text is set to “(*)” and stored in the separation rule dictionary unit 19. It may be determined whether or not the compound word semantic information matches with the compound word semantic information with which the semantic information matches among the (recorded) compound word semantic information.
[0044]
Further, by setting one semantic information of the compound word semantic information in the text to “(*)”, the compound in which the semantic information matches among the compound word semantic information stored (recorded) in the separation rule dictionary unit 19. When there are a plurality of word meaning information, one of the matching compound word meaning information may be selected as appropriate.
[0045]
Further, unless all semantic information in the compound word semantic information in the text is set to “(*)”, the compound word whose semantic information matches from the compound word semantic information stored (recorded) in the separation rule dictionary unit 19. There may be no semantic information. In this case, there is nothing to do, but the speech is synthesized and pronounced without a pause as “no separation position”. Alternatively, the speech may be synthesized by separating at a predetermined position.
[0046]
As described above, according to the present embodiment, a compound word included in text information can be separated for each accent phrase at an appropriate position, and a synthesized sound that can easily understand the structure of the compound word can be generated.
[0047]
(Embodiment 2)
FIG. 3 is a diagram showing the configuration of the speech synthesis apparatus according to Embodiment 2 of the present invention. Note that the speech synthesizer according to the present embodiment has the same basic configuration as the speech synthesizer described in Embodiment 1, and the same components are denoted by the same reference numerals, Description is omitted.
[0048]
The speech synthesizer shown in FIG. 3 includes, in addition to the constituent elements of the speech synthesizer shown in FIG. 1, a separation rule construction unit 21 that constructs a compound word accent phrase separation rule, and a compound word accent phrase separation rule learning. And a learning database (DB) 22.
[0049]
Here, the separation position learning method in the separation rule construction unit 21 of the speech synthesizer, which is a feature of the present embodiment, will be described.
[0050]
When learning the separation position, the learning DB 22 uses a DB as shown in FIG. Each data stored in the DB has words constituting a compound word, semantic information held by the word (information in parentheses in the figure), and separation position information indicating a separation position. For example, “0” is given as separation position information to compound words that should not be separated.
[0051]
The separation position information may hold a plurality of pieces of separation position information for one compound word.
[0052]
The automatic construction of the separation rules is performed using this learning DB 22. The construction method will be described below. Here, the rule in the present invention is a separation rule that separates each accent phrase by a chain pattern of semantic information of each word constituting the compound word. For example, in a chain pattern of semantic information “C1”, “C2”, “C3”, and “C4” (C1 to C4 represent semantic information), the accent phrase is separated between “C2” and “C3”. There are rules.
[0053]
The separation rule construction flow is shown in FIG. First, in step S200, one data is selected from learning DB22. In step S300, data having the same pattern as the chain pattern of the semantic information selected in step S200 is collected.
[0054]
In step S400, it is determined whether the number of data has increased in step S300. If there is no change in the number of data as a result of this determination (S400: NO), the process returns to step S200. On the other hand, if the number of data has increased (S400: YES), the process proceeds to step S500.
[0055]
In step S500, a ratio of data having a separation position at the same position as the data selected in step S200 out of the data collected in step S300 (reliability of the separation position in the selected data) is calculated and calculated. The ratio (reliability) is compared with a preset threshold value. As a result of this comparison, when the ratio of the same separation position is equal to or greater than the threshold (S500: YES), the process proceeds to step S600. On the other hand, if it is less than the threshold (S500: NO), the process proceeds to step S700.
[0056]
In step S600, the chain pattern of semantic information in the data selected in step S200 is regularized. In step S700, it is determined whether or not steps S200 to S600 have been processed for all data in the learning DB 22. If there is data that has not yet been processed (S700: NO), the process returns to step S200. On the other hand, when all the data has been processed (S700: YES), the separation rule construction ends.
[0057]
An application example of the separation rule constructed as described above will be described. As shown in FIG. 5A, when the data “Korean government officials” and “Japanese government officials” exist in the learning DB 22, “(country)” (government) Since the separation positions for “institution) (government agency) (suffix)” are all “2”, “(country name) (government agency) / (government agency) (suffix)” is regularized. Here, “/” represents a separation position. On the other hand, as shown in FIG. 5B, when the compound word “US government official” is input as unknown data, the above-mentioned regularized “(country name) (government organization) / (government organization)” Since this matches the semantic information chain pattern in (suffix), it is possible to apply this rule and to properly separate immediately after the “American government”, such as “American government / authority”.
[0058]
When constructing such a rule, the separation rule with the highest accuracy can be obtained by comprehensively defining all the chain patterns of semantic information of all combinations. However, it is not easy from the viewpoint of the amount of data to make the rules comprehensive. For example, in the case of a compound word composed of 4 words, Nc 4 There is a pattern (the number of types of semantic information is Nc), and it is not easy to construct the learning DB 22 to learn such rules.
[0059]
Therefore, in the present invention, a word that does not affect the determination of accent phrase separation by the following method is regarded as a semantic class (hereinafter referred to as “wild card”) including all words. By using this wild card, it is possible to extend the application range of the rule while maintaining high accuracy.
[0060]
In the case of introducing a wild card, in order to determine whether or not to make a wild card for each word constituting a compound word, in the case of a compound word of a chain of N words (hereinafter referred to as “N chain”), (2 N -1) There are patterns of application. FIG. 6 shows a wild card application pattern when N = 3, 4, and 5. In the case of N> 5, the pattern can be set similarly. For example, when a wild card is applied, a compound word having a chain pattern of “C1”, “C2”, “*”, “*” (the first is C1, the second is C2, and the third and fourth may be any word). Would construct a rule that would separate after C1.
[0061]
In order to reduce the number of wildcard application patterns, restrictions may be placed on the patterns to be wildcarded. More specifically, a restriction that consecutive words are not regarded as wild cards may be provided. For example, “*”, “C1”, “C2” and “*” are valid as wildcard application patterns, but “*”, “*”, “C1” and “C2” are invalid. Here, the symbol “*” indicates a word to which a wild card is applied.
[0062]
The operation of constructing an N-chain compound word separation rule using a wild card will be described below with reference to FIG.
[0063]
First, in step S100, one of the wild card application patterns shown in FIG. 6 is selected, and the selected wild card is applied to all data in the learning DB 22.
[0064]
For example, when 0 wildcards are applied, they are not applied to any word in each data stored in the learning DB 22. Moreover, when applying one wild card, it applies to any one word in each data memorize | stored in learning DB22. That is, in the case of 4-chain compound word data, four patterns can be applied. When two wild cards are applied, they are applied to any two words in each data stored in the learning DB 22. In other words, six patterns can be applied in the case of four-chain compound word data.
[0065]
In step S200, one piece of data is selected from the learning DB 22. For example, data having a chain pattern of semantic information “(country name) (government agency) / (government agency) (suffix)” is selected.
[0066]
In step S300, data having the same pattern as the chain pattern of the semantic information selected in step S200 is collected.
[0067]
For example, as shown in FIG. 8, when 0 wild cards are applied in the learning DB 22 storing data # 1 to # 4, data having the same pattern as the selected data is data # 1 and # 2. On the other hand, when one wildcard is applied to the first word, data # 1 to # 3 is used, and when two wildcards are applied to the first and third words, data # 1 is used. -# 4 each have the same pattern as the selected data.
[0068]
In step S400, it is determined whether the number of data has increased in step S300. If there is no change in the number of data as a result of this determination (S400: NO), the process returns to step S200. On the other hand, if the number of data has increased (S400: YES), the process proceeds to step S500.
[0069]
For example, in FIG. 8, when one wildcard is applied, the number of collected data is increased by one compared to when 0 wildcards are applied. In addition, when two wild cards are applied, the number of collected data is increased by two compared to when zero wild cards are applied.
[0070]
In step S500, a ratio of data having a separation position at the same position as the data selected in step S200 out of the data collected in step S300 (reliability of the separation position in the selected data) is calculated and calculated. The ratio (reliability) is compared with a preset threshold value.
[0071]
For example, in FIG. 8, the ratio at which the separation positions of the data # 1 to # 3 collected when one wildcard is applied matches the separation position of the selected data, that is, the selected data The reliability of the separation position is 100%. Further, the ratio at which the separation positions of the data # 1 to # 4 collected when two wild cards are applied matches the separation position of the selected data, that is, the separation position of the selected data. The reliability is 100%.
[0072]
As a result of this comparison, when the ratio of the same separation position is equal to or greater than the threshold (S500: YES), the process proceeds to step S600. On the other hand, if it is less than the threshold (S500: NO), the process proceeds to step S700.
[0073]
In step S600, the chain pattern of the semantic information selected in step S200 is regularized.
[0074]
In step S700, it is determined whether or not steps S200 to S600 have been processed for all the data in the learning DB 22. If there is data that has not yet been processed (S700: NO), the process returns to step S200. On the other hand, when all the data has been processed (S700: YES), the process proceeds to step S800.
[0075]
In step S800, it is determined whether processing has been executed for all of the wildcard application patterns shown in FIG. If there is a wild card pattern that has not been applied as a result of the determination (S800: NO), step S100 is executed. On the other hand, when all the wild card patterns have been processed (S800: YES), the operation ends.
[0076]
In FIG. 6, the wild card application pattern of N-chain compound words is (2 N -1) As described above, a wild card may be applied to all components, and a separation position for a compound word that has not been applied to any rule may be set.
[0077]
Further, in order to increase the reliability of the rule, the appearance frequency of the minimum data necessary for the rule may be set. For example, a restriction such as “regulate only chain patterns that appear three or more times in the data” may be provided.
[0078]
In this way, any compound word as long as it is an N-linked compound word can be ruled and regularized.
[0079]
By introducing a wild card, the rule is applied with high accuracy even when a compound word having a different part of the chain pattern of semantic information is input as shown in FIGS. 9 (A) and 9 (B). It becomes possible.
[0080]
9A shows a separation of “(country) (government agency) / (*) (suffix)” from the compound word “Korean government officials” and “Russian Foreign Ministry sources” existing in the learning DB 22. An example of building a rule is shown. As shown in FIG. 9B, when a compound word “US Federal Bureau of Investigation”, which is unknown data, is input, the chain pattern of semantic information of this compound word is “(country name) (government agency)”. / (Survey) (suffix) ". The third semantic information in the above two chain patterns is (Survey) and (Government agency), which are different from each other. “Federal / Investigative Bureau”.
[0081]
By the way, when a wild card is introduced, there may be a plurality of rules that can be applied to one chain pattern. At this time, one of a plurality of applicable rules is selected based on the two criteria.
[0082]
The first criterion used here is a criterion of preferentially selecting a rule with a smaller number of words to which a wild card is applied. As shown in FIG. 10, in general, a rule with a smaller number of applied wild cards has higher accuracy, while a rule with a larger number of applied wild cards has higher coverage. Therefore, for example, when the rule “(country name) (government organization) / (*) (*)” and the rule “(country name) / (*) (*) (*)” are applicable, Select and apply the fewer former rules.
[0083]
The second criterion used here is a criterion for preferentially selecting a rule with higher reliability when a rule is constructed. For example, the rule “(*) (government agency) / (*) (*)” with a reliability of 80% and “(country) / (*) (*) (*) with a reliability of 75%. Is applicable, the former rule with high reliability is selected and applied.
[0084]
By setting the above criteria in advance, the optimum separation rule can be applied even when there are a plurality of rules that can be applied to one chain pattern.
[0085]
The priority order of the separation rules based on these criteria is determined when each separation rule is constructed. For this reason, all the separation rules are arranged in advance based on this priority order, and whether or not the separation rules can be applied is judged in order from the rule with the highest priority order. The separation rule can be applied as the optimum separation rule. In this case, it is not necessary to maintain the reliability of each separation rule.
[0086]
In the above description, the separation rule of the accent phrase of the compound word has been described, but according to the present embodiment, not only the separation position of the accent phrase of the compound word is determined but also inserted between each word constituting the compound word. Rules that determine phrases (eg, particles) can also be constructed.
[0087]
Below, the example which inserts a phrase between words is demonstrated. As the learning DB 22, as shown in FIG. 11, a DB describing separation position information and words to be inserted at the separation position is prepared. For example, in the case of the compound word “state / council / meeting / chairperson”, the particle “ The learning DB 22 having information indicating that “no” is inserted is constructed.
[0088]
The rule construction method can be constructed by the same method as described above, but in step S204 of the above flow, the ratio (reliability) that matches not only the separation position but also the type of particle to be inserted is calculated. It is possible to construct the above DB by changing to
[0089]
Note that the present invention is not limited to the above-described embodiment, and can be implemented in various embodiments. For example, in the above embodiment, the speech synthesis method is executed by the speech synthesizer, but may be executed as software on the computer.
[0090]
For example, a program for executing the speech synthesis method described in the above embodiment is recorded in advance on a recording medium such as a ROM (Read Only Memory), and the program is operated by a CPU (Central Processor Unit). Also good.
[0091]
【The invention's effect】
As described above, according to the present invention, by using the compound word separation method described above, the compound words included in the text information can be separated for each accent phrase at an appropriate position in the speech synthesizer. Therefore, it is possible to generate a synthesized sound that can easily understand the structure of the compound word, and the compound word can be expressed with sufficient accuracy.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration of a speech synthesizer according to Embodiment 1 of the present invention.
FIG. 2 is a view for explaining compound word separation positions in text according to Embodiment 1 of the present invention;
FIG. 3 is a diagram showing a configuration of a speech synthesizer according to Embodiment 2 of the present invention.
FIG. 4 is a flowchart for explaining the operation of constructing a separation rule in the second embodiment of the present invention.
FIG. 5 is a diagram for explaining an example in which a constructed separation rule is applied to unknown data in Embodiment 2 of the present invention;
FIG. 6 is a diagram showing a wild card application pattern according to the second embodiment of the present invention.
FIG. 7 is a flowchart for explaining an operation of constructing a separation rule using a wild card in Embodiment 2 of the present invention;
FIG. 8 is a diagram for explaining a specific example of an operation for constructing a separation rule using a wild card in Embodiment 2 of the present invention;
FIG. 9 is a diagram for explaining an example in which a separation rule constructed using a wild card is applied to unknown data in Embodiment 2 of the present invention;
FIG. 10 is a diagram for explaining a first criterion when selecting a separation rule to be applied in the second embodiment of the present invention;
FIG. 11 is a diagram for explaining compound word separation positions and insertion words / phrases according to Embodiment 2 of the present invention;
[Explanation of symbols]
11 Morphological analyzer
12 Compound word extractor
13 Semantic information adding unit
14 Rule Application Department
15 Prosody generation part
16 Speech synthesis unit
17 Word dictionary
18 Thesaurus dictionary
19 Separation Rule Dictionary
21 Separation Rule Construction Department
22 Learning database

Claims (10)

複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出手段と、
抽出された複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与手段と、
複合語を構成する複数の単語を含むデータを予め記憶するデータベースと、
前記データの複数の単語の少なくともいずれか一つを分離位置の決定に影響を及ぼさない単語とするワイルドカードを用いて、複合語意味情報および当該複合語意味情報に対応する分離位置を示す分離規則を構築する構築手段と、
少なくとも一つの前記分離規則を記憶する記憶手段と、
付与された複合語意味情報に基づいて、前記記憶手段に記憶された分離規則の一つを適用して、抽出された複合語を分離する位置を決定する決定手段と、
決定された分離位置に基づいてテキスト情報の韻律を生成する生成手段と、
を有することを特徴とする音声合成装置。
Extraction means for extracting the compound word from text information including a compound word formed by linking a plurality of words;
A granting unit for giving, to the extracted compound word, compound word meaning information indicating the meaning of a plurality of words constituting the compound word;
A database that stores in advance data including a plurality of words constituting a compound word;
Separation rule that indicates compound word semantic information and a separation position corresponding to the compound word semantic information using a wild card in which at least one of the plurality of words of the data is a word that does not affect the determination of the separation position Construction means to build
Storage means for storing at least one said separation rule;
Determining means for applying one of the separation rules stored in the storage means based on the given compound word semantic information to determine a position for separating the extracted compound words;
Generating means for generating a prosody of text information based on the determined separation position;
A speech synthesizer characterized by comprising:
複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出手段と、Extraction means for extracting the compound word from text information including a compound word formed by linking a plurality of words;
抽出された複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与手段と、  A granting unit for giving, to the extracted compound word, compound word meaning information indicating the meaning of a plurality of words constituting the compound word;
複合語を構成する複数の単語の少なくともいずれか一つを分離位置の決定に影響を及ぼさない単語とするワイルドカードを用いて構築された、複合語意味情報および当該複合語意味情報に対応する分離位置を示す分離規則を記憶する記憶手段と、  Compound word semantic information and separation corresponding to the compound word semantic information constructed using wildcards, in which at least one of a plurality of words constituting the compound word is a word that does not affect the determination of the separation position. Storage means for storing a separation rule indicating a position;
付与された複合語意味情報に基づいて、前記記憶手段に記憶された分離規則の一つを適用して、抽出された複合語を分離する位置を決定する決定手段と、  Determining means for determining a position for separating the extracted compound word by applying one of the separation rules stored in the storage means based on the given compound word semantic information;
決定された分離位置に基づいてテキスト情報の韻律を生成する生成手段と、  Generating means for generating text information prosody based on the determined separation position;
を有することを特徴とする音声合成装置。A speech synthesizer characterized by comprising:
前記決定手段は、
前記記憶手段に記憶された複数の分離規則が適用可能である場合、用いられたワイルドカード数に基づいて、当該複数の分離規則の中から適用する分離規則を選択する、
ことを特徴とする請求項1又は2請求項記載の音声合成装置。
The determining means includes
When a plurality of separation rules stored in the storage means are applicable, a separation rule to be applied is selected from the plurality of separation rules based on the number of wildcards used.
The speech synthesizer according to claim 1 or 2 .
複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出手段と、
抽出された複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与手段と、
複合語の分離位置を含むデータを予め記憶するデータベースと、
前記データベースに記憶されたデータから一つのデータを選択し、選択されたデータと同一の複合語意味情報を含むデータを前記データベースに記憶されたデータの中から収集し、収集されたデータの数に対する選択されたデータと同一の分離位置を含むデータの数の割合の信頼度を取得し、取得された割合に基づいて前記データを規則化し、規則化されたデータを用いて、複合語意味情報および当該複合語意味情報に対応する分離位置を示す分離規則を構築する構築手段と、
少なくとも一つの前記分離規則を記憶する記憶手段と、
付与された複合語意味情報に基づいて、前記記憶手段に記憶された分離規則の一つを適用して、抽出された複合語を分離する位置を決定する決定手段と、
決定された分離位置に基づいてテキスト情報の韻律を生成する生成手段と、
を有することを特徴とする音声合成装置。
Extraction means for extracting the compound word from text information including a compound word formed by linking a plurality of words;
A granting unit for giving, to the extracted compound word, compound word meaning information indicating the meaning of a plurality of words constituting the compound word;
A database that pre-stores data including separation positions of compound words;
One data is selected from the data stored in the database, data including the same compound word semantic information as the selected data is collected from the data stored in the database, and the number of collected data is Obtaining the reliability of the ratio of the number of data including the same separation position as the selected data, regularizing the data based on the acquired ratio, and using the regularized data, compound word semantic information and A construction means for constructing a separation rule indicating a separation position corresponding to the compound word semantic information;
Storage means for storing at least one said separation rule;
Determining means for applying one of the separation rules stored in the storage means based on the given compound word semantic information to determine a position for separating the extracted compound words;
Generating means for generating a prosody of text information based on the determined separation position;
A speech synthesizer characterized by comprising:
前記決定手段は、
前記記憶手段に記憶されている複数の分離規則が適用可能である場合、取得された割合の高い規則から、当該複数の分離規則の中から適用する分離規則を選択する、
ことを特徴とする請求項4記載の音声合成装置。
The determining means includes
When a plurality of separation rules stored in the storage means are applicable, a separation rule to be applied is selected from among the plurality of separation rules that have been acquired,
The speech synthesizer according to claim 4 .
前記決定手段は、
付与された複合語意味情報と完全一致する複合語意味情報が前記記憶手段に記憶されていない場合、前記記憶手段に記憶されかつ付与された複合語意味情報と部分一致する複合語意味情報に対応する分離位置を、抽出された複合語の分離位置とする、
ことを特徴とする請求項1から5のいずれかに記載の音声合成装置。
The determining means includes
Corresponds to compound word meaning information that is stored in the storage means and partially matches the assigned compound word meaning information, when compound word meaning information that completely matches the assigned compound word meaning information is not stored in the storage means Is the separation position of the extracted compound word,
The speech synthesizer according to any one of claims 1 to 5, wherein
前記決定手段は、
付与された複合語意味情報と完全一致する複合語意味情報が前記記憶手段に記憶されていない場合、付与された複合語意味情報の一部を任意の意味に置換することにより、前記記憶手段に記憶されかつ付与された複合語意味情報と部分一致する複合語意味情報を検索する、
ことを特徴とする請求項6記載の音声合成装置。
The determining means includes
When the compound word meaning information that completely matches the assigned compound word meaning information is not stored in the storage means, by replacing a part of the given compound word meaning information with an arbitrary meaning, the storage means Search for compound word semantic information that partially matches the stored and assigned compound word semantic information.
The speech synthesizer according to claim 6 .
複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出ステップと、
抽出した複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与ステップと、
付与した複合語意味情報に基づいて、データベースに記憶された複合語を構成する複数の単語の少なくともいずれか一つを分離位置の決定に影響を及ぼさない単語とするワイルドカードを用いて構築された、複合語意味情報および当該複合語意味情報に対応する分離位置を示しかつ記憶手段に記憶された分離規則の一つを適用して、抽出した複合語を分離する位置を決定する決定ステップと、
決定した分離位置に基づいてテキスト情報の韻律を生成する生成ステップと、
を有することを特徴とする音声合成方法。
An extraction step for extracting the compound word from text information including the compound word formed by linking a plurality of words;
An assigning step of giving compound word semantic information indicating the meaning of a plurality of words constituting the compound word to the extracted compound word;
Based on the given compound word semantic information, it was constructed using wildcards that set at least one of the words that make up the compound word stored in the database as words that do not affect the determination of the separation position. , a determination step of determining a position shows the separation position corresponding to the compound word semantic information and the compound word semantic information and by applying the one of the stored separated rule storage means, for separating the extracted compound words,
Generating step for generating text information prosody based on the determined separation position;
A speech synthesis method characterized by comprising:
コンピュータに、
複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出機能と、
抽出した複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与機能と、
付与した複合語意味情報に基づいて、データベースに記憶された複合語を構成する複数の単語の少なくともいずれか一つを分離位置の決定に影響を及ぼさない単語とするワイルドカードを用いて構築された、複合語意味情報および当該複合語意味情報に対応する分離位置を示しかつ記憶手段に記憶された分離規則の一つを適用して、抽出した複合語を分離する位置を決定する決定機能と、
決定した分離位置に基づいてテキスト情報の韻律を生成する生成機能と、
を実現させるための音声合成用プログラム。
On the computer,
An extraction function for extracting a compound word from text information including a compound word formed by linking a plurality of words;
A grant function for giving compound word semantic information indicating the meaning of a plurality of words constituting the compound word to the extracted compound word;
Based on the given compound word semantic information, it was constructed using wildcards that set at least one of the words that make up the compound word stored in the database as words that do not affect the determination of the separation position. indicates a separation position corresponding to the compound word semantic information and the compound word semantic information and by applying the one of the stored separated rule storage means, a determination function of determining the position of separating the extracted compound words,
A generation function for generating text information prosody based on the determined separation position;
Speech synthesis program for realizing
コンピュータに、
複数の単語が連鎖してなる複合語を含むテキスト情報から当該複合語を抽出する抽出機能と、
抽出した複合語に、当該複合語を構成する複数の単語の意味を示す複合語意味情報を付与する付与機能と、
付与した複合語意味情報に基づいて、データベースに記憶された複合語を構成する複数の単語の少なくともいずれか一つを分離位置の決定に影響を及ぼさない単語とするワイルドカードを用いて構築された、複合語意味情報および当該複合語意味情報に対応する分離位置を示しかつ記憶手段に記憶された分離規則の一つを適用して、抽出した複合語を分離する位置を決定する決定機能と、
決定した分離位置に基づいてテキスト情報の韻律を生成する生成機能と、
を実現させるための音声合成用プログラムが記録された記録媒体。
On the computer,
An extraction function for extracting a compound word from text information including a compound word formed by linking a plurality of words;
A grant function for giving compound word semantic information indicating the meaning of a plurality of words constituting the compound word to the extracted compound word;
Based on the given compound word semantic information, it was constructed using wildcards that set at least one of the words that make up the compound word stored in the database as words that do not affect the determination of the separation position. indicates a separation position corresponding to the compound word semantic information and the compound word semantic information and by applying the one of the stored separated rule storage means, a determination function of determining the position of separating the extracted compound words,
A generation function for generating text information prosody based on the determined separation position;
A recording medium on which a speech synthesis program for realizing is recorded.
JP2003191289A 2002-07-15 2003-07-03 Speech synthesizer Expired - Fee Related JP4359087B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003191289A JP4359087B2 (en) 2002-07-15 2003-07-03 Speech synthesizer

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002205201 2002-07-15
JP2003191289A JP4359087B2 (en) 2002-07-15 2003-07-03 Speech synthesizer

Publications (3)

Publication Number Publication Date
JP2004102242A JP2004102242A (en) 2004-04-02
JP2004102242A5 JP2004102242A5 (en) 2006-07-13
JP4359087B2 true JP4359087B2 (en) 2009-11-04

Family

ID=32300200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003191289A Expired - Fee Related JP4359087B2 (en) 2002-07-15 2003-07-03 Speech synthesizer

Country Status (1)

Country Link
JP (1) JP4359087B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007075446A (en) * 2005-09-15 2007-03-29 Square Enix Co Ltd Video game processing apparatus and video game processing program
JP4751299B2 (en) * 2006-11-02 2011-08-17 富士通株式会社 Reading information generation device, reading information generation method, reading information generation program, and speech synthesizer
JP4794429B2 (en) * 2006-12-27 2011-10-19 富士通株式会社 Reading information generation device, reading information generation method, reading information generation program, and speech synthesizer

Also Published As

Publication number Publication date
JP2004102242A (en) 2004-04-02

Similar Documents

Publication Publication Date Title
Goldsmith Phonological theory: the essential readings
Frisch 11 Language processing and segmental OCP effects
JP4559950B2 (en) Prosody control rule generation method, speech synthesis method, prosody control rule generation device, speech synthesis device, prosody control rule generation program, and speech synthesis program
US7197457B2 (en) Method for statistical language modeling in speech recognition
Zeldes et al. An NLP pipeline for Coptic
Lignos Modeling infant word segmentation
Braun Production and perception of thematic contrast in German
JP4359087B2 (en) Speech synthesizer
JP5853595B2 (en) Morphological analyzer, method, program, speech synthesizer, method, program
Tjalve et al. Pronunciation variation modelling using accent features
Llitjós et al. Improving pronunciation accuracy of proper names with language origin classes
Khalifa et al. Towards learning Arabic morphophonology
Güneş et al. The derivational timing of ellipsis
Szeredi Exceptionality in vowel harmony
Kominek Tts from zero: Building synthetic voices for new languages
Hockett Yokuts as testing-ground for linguistic methods
Felice Cyclicity and Linearity in Morphology: The View from Icelandic, Gã, and Kabyle
Berg et al. The interplay of left-and right-branching effects: A phonotactic analysis of Korean syllable structure
Arısoy et al. Turkish dictation system for broadcast news applications
Bovingdon et al. Statistical analysis of the source origin of Maltese
Pellegrini et al. Experimental detection of vowel pronunciation variants in Amharic.
Samlowski The syllable as a processing unit in speech production: evidence from frequency effects on coarticulation
Dokkara et al. Verb Morphological Generator for Telugu
Oliver et al. An inflectional database for gitksan
Adda-Decker et al. Multilingual dictionaries

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060525

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090714

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090807

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120814

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4359087

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130814

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees