[go: up one dir, main page]

JP2001282815A - Summary reading device - Google Patents

Summary reading device

Info

Publication number
JP2001282815A
JP2001282815A JP2000092955A JP2000092955A JP2001282815A JP 2001282815 A JP2001282815 A JP 2001282815A JP 2000092955 A JP2000092955 A JP 2000092955A JP 2000092955 A JP2000092955 A JP 2000092955A JP 2001282815 A JP2001282815 A JP 2001282815A
Authority
JP
Japan
Prior art keywords
text
input
speech
reading
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000092955A
Other languages
Japanese (ja)
Other versions
JP2001282815A5 (en
Inventor
Kenji Nagamatsu
健司 永松
Yoshinori Kitahara
義典 北原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000092955A priority Critical patent/JP2001282815A/en
Publication of JP2001282815A publication Critical patent/JP2001282815A/en
Publication of JP2001282815A5 publication Critical patent/JP2001282815A5/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 メール読み上げシステムや観光ガイドシステ
ムなどのテキスト読み上げシステムにおいて、利用者が
必要な情報をより早く聞くことを可能とする要約読み上
げ装置を提供することである。 【解決手段】 本発明の要約読み上げ装置は、テキスト
入力手段と言語解析手段と音声合成手段を持つテキスト
読み上げ装置において、入力テキストの長さに対して読
み上げられる合成音声の長さの割合である要約率を入力
する要約率入力手段と、合成される音声の長さが入力テ
キストの長さに比して指定された要約率になるように、
入力テキストの中から部分テキストを1つまたは複数個
選択する部分テキスト選択手段とを有することを特徴と
する。 【効果】 付加情報が付与されていないテキストに対し
て、利用者が指定した要約率になるように要約して、重
要な部分だけを読み上げる要約読み上げ装置を提供で
き、テキストの内容をすばやく理解できるようになる。
(57) [Summary] [PROBLEMS] To provide a summary reading device that enables a user to hear necessary information faster in a text reading system such as a mail reading system or a sightseeing guide system. SOLUTION: In the text-to-speech apparatus having a text input means, a language analysis means, and a speech synthesis means, a summary-speech apparatus according to the present invention is a summary which is a ratio of a length of a synthesized speech read to a length of an input text. A summarization rate input means for inputting a rate, and a length of voice to be synthesized is set to a specified summarization rate compared to a length of the input text.
Partial text selecting means for selecting one or more partial texts from the input text. [Effect] For a text to which no additional information is added, a summary reading device that reads out only important portions by summarizing to a summarization rate specified by a user can be provided, so that the contents of the text can be quickly understood. Become like

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【発明の属する分野】本発明は音声合成方法に係り、さ
らに詳しくは入力テキスト中からある部分テキストを選
択して読み上げる要約音声合成方法に係る。さらに詳し
くは、言語解析処理の結果を利用して、それぞれの部分
テキストに対して付加された属性情報を基に部分テキス
トを選択して読み上げる要約音声合成方法に関する。
[0001] 1. Field of the Invention [0002] The present invention relates to a speech synthesis method, and more particularly to a summary speech synthesis method for selecting and reading out a partial text from input text. More specifically, the present invention relates to a summary speech synthesis method for selecting and reading out a partial text based on attribute information added to each partial text using a result of a language analysis process.

【従来の技術】メール読み上げシステムとして、センタ
ーに電話をかけて自分宛に到着したメールを読み上げさ
せるシステムである株式会社フレックス・ファゥムの
「電子Q便」、メール読み上げ機能を搭載したパソコン
として株式会社日立製作所の「Persona」などが
ある。これらを含めて、現在販売されている音声読み上
げソフトにおいては、入力されたテキストをすべて読み
上げるようになっている。また、特開平9−25137
3号公報のように、入力テキスト中に読み上げ部分を示
すタグを付与したフォーマットを定義する技術や、特開
平5−224688や特開平6−83381などのよう
に、特定のキーワードが含まれる部分を声の種類や速さ
を変えて読み上げる技術などがある。
2. Description of the Related Art As an e-mail reading system, "Family Electronic Mail" of Flex Pharm Co., Ltd., which is a system that calls a center and reads out e-mails arriving at you, is a personal computer equipped with an e-mail reading function. Hitachi's "Persona" and others. These and other currently-available text-to-speech softwares read all input texts. Also, Japanese Patent Application Laid-Open No. 9-25137
As disclosed in Japanese Unexamined Patent Application Publication No. 3 (1994) -302, a technique for defining a format in which a tag indicating a reading part is added to an input text, or a part including a specific keyword, such as JP-A-5-224688 and JP-A-6-83381, is used. There are techniques to read out aloud by changing the type and speed of the voice.

【発明が解決しようとする課題】このため、ユーザは読
み上げ内容すべてを聞かざるを得ず、多くのメールの内
容を確認する場合など、必要な用件が現れるまでに多く
の時間が費やされることが多かった。また、特定キーワ
ードの部分などを、声の調子を変えて読み上げ、ユーザ
の注意を促す技術はあっても、不要な部分を自動的に読
み飛ばすシステムは存在しない。特開平9−25137
3号公報のフォーマットを用いれば、読み飛ばしを行な
う読み上げシステムの実現は可能だが、そのフォーマッ
トに従い、入力テキストに対してあらかじめ人手による
タグ付けを必要とする。本発明は、上記の問題点を鑑
み、メール読み上げシステムなどの音声読み上げシステ
ムにおいて、利用者が必要な情報だけを素早く聞ける要
約読み上げ装置を提供することを目的とする。
For this reason, the user is forced to listen to all the contents read out, and a lot of time is spent until necessary messages appear, such as when confirming the contents of many e-mails. There were many. In addition, although there is a technology to read a part of a specific keyword or the like while changing the tone of the voice to call attention of the user, there is no system that automatically skips an unnecessary part. JP-A-9-25137
The use of the format of Japanese Patent Publication No. 3 can realize a text-to-speech system for skipping, but requires manual tagging of input text in advance according to the format. SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and has as its object to provide a summary reading device that allows a user to quickly hear only necessary information in a voice reading system such as a mail reading system.

【課題を解決するための手段】前記目的を達成するた
め、本発明の要約読み上げ装置は、テキスト入力手段と
言語解析手段と音声合成手段を持つテキスト読み上げ装
置において、入力テキストの長さ(文字数または読み上
げ時間など)に対して読み上げられる合成音声の長さの
相対比率、または読み上げられる合成音声の長さ(文字
数または読み上げ時間など)の絶対値である要約率を入
力する要約率入力手段と、合成される音声の長さが入力
テキストの長さに比して指定された要約率になるよう
に、入力テキストの中から部分テキストを1つまたは複
数個選択する部分テキスト選択手段とを有することを特
徴とする。本発明のテキスト読み上げ装置によれば、入
力されたテキストを言語解析した結果を参照して、重要
なフレーズ、または品詞や文字種などの情報で判別され
た部分テキストだけを読み上げるため、従来のすべての
テキストを読み上げるメール読み上げシステムに比べ
て、利用者がテキスト内容の概略を把握するのに要する
時間を削減することができる。
To achieve the above object, the present invention provides a text-to-speech apparatus including a text input unit, a language analysis unit, and a speech synthesis unit. Summarization rate input means for inputting a relative ratio of the length of the synthesized speech read out to the readout time or the summarization rate which is the absolute value of the length of the synthesized speech read out (the number of characters or the readout time); Partial text selecting means for selecting one or a plurality of partial texts from the input text so that the length of the voice to be input has a specified summarization rate compared to the length of the input text. Features. According to the text-to-speech apparatus of the present invention, by referring to the result of linguistic analysis of input text and reading out only important phrases or partial texts determined based on information such as part of speech or character type, all conventional text-to-speech devices are used. Compared to a text-to-speech system that reads text, the time required for the user to grasp the outline of the text content can be reduced.

【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照しながら説明する。図1は本発明のテキ
スト読み上げシステムの基本的構成について説明するた
めの図である。同図に示されるように、本発明のテキス
ト読み上げシステムの基本的構成は、入力テキスト10
0を入力するテキスト入力手段200と、入力テキスト
に対して言語解析を行なう言語解析手段300と、要約
率400を入力する要約率入力手段500と、入力され
た要約率に基づき、入力テキストから読み上げるべき部
分テキストを選択する部分テキスト選択手段600と、
選択された部分テキストを合成音声800に変換する音
声合成手段700とで構成される。テキスト入力手段2
00としては、フロッピー(登録商標)ディスクやCD
ROMなどの情報記憶メディア、電話・無線・衛星通信
回線などのネットワークなどを用いることができる。言
語解析手段300としては、少なくとも、入力テキスト
を単語に分割して読みおよびアクセント情報を付加する
形態素解析処理を持ち、好ましくはさらに構文・意味解
析処理をも行なう機能を有する。ここでの処理について
は、「自然言語処理」(長尾真著、岩波書店)などに詳
細な記述がある。要約率入力手段500としては、スイ
ッチ・ダイヤル・電話のプッシュボタンなどの数値入力
装置、キーボードなどの文字入力装置、または数字音声
認識装置などを用いることができる。部分テキスト選択
手段600は、言語解析手段300で入力テキスト10
0を分割し、解析した後、分割された各部分テキストに
対して付与された言語的解析結果情報を利用して、入力
テキスト100からある部分テキスト群を選択し、それ
を音声合成手段700へと出力する処理を行なう。音声
合成手段700としては、アクセントや韻律を指定する
韻律記号を付与した読みテキストを入力すると、単位音
韻波形の選択処理、該波形の接続処理、韻律処理などを
行なう従来の音声合成技術を利用することができる。以
上に説明したような基本的構成を有する本発明のテキス
ト読み上げシステムに関し、以下、具体的な実施の形態
について詳細に説明する。図2は請求項1に記載の本発
明を、電話回線を利用したメール要約読み上げシステム
として実施した場合の全体構成図について説明するため
の図である。同図に示されるように、本発明の電話回線
を利用したメール要約読み上げシステムとしての実施例
の構成は、電話回線を通じて利用者に音声の提示、また
は利用者からのプッシュボタンや音声などによる応答を
システム側へと伝える機能を有する電話回線音声接続手
段900と、電話回線音声接続手段900を介して利用
者との対話処理を行ない、利用者が読み上げたい入力メ
ールテキスト110を選択する、対話処理を利用したメ
ール選択手段120と、メール選択手段120で選択さ
れた入力メールテキスト110を要約読み上げ装置へと
入力するメール入力手段210と、入力されたメールテ
キストの言語解析処理を行う言語解析手段300と、電
話回線音声接続手段900を介して利用者との対話処理
を行い、利用者がメールテキストをどの程度の要約率で
読み上げたいかを指定する、対話処理を利用した要約率
入力手段510と、言語解析手段300で言語解析処理
された入力メールテキスト解析結果と、要約率入力手段
510で入力された要約率を参照して、読み上げるべき
部分テキストを一つ、または複数個選択する部分テキス
ト選択手段600と、部分テキスト選択手段600で選
択された部分テキストを合成音声に変換し、電話回線音
声接続手段900を介して、利用者に対してメールを読
み上げる音声合成手段700とで構成される。次に、本
発明によるメール要約読み上げシステムでの処理過程を
説明する。電話回線音声接続手段900を介して利用者
からの回線接続があったとき、電話回線音声接続手段9
00は、ユーザ認証処理を行い、利用者を決定した後、
対話処理を利用したメール選択手段120を起動する。
対話処理を利用したメール選択手段120は、利用者宛
に現在受信されているメールの件数およびそれぞれのメ
ールタイトルを読み上げるなどして利用者に読み上げ可
能なメールを知らせた後、どのメールを読み上げるかを
利用者に指定させる。利用者からのメール指定方法とし
ては、メール番号をプッシュボタンで指定させたり、メ
ール番号を音声認識させるなどの方法がありえる。ま
た、タイトルや送信者を音声認識して指定させるなどの
方法もありえる。メール選択手段120は利用者が読み
たいメールを指定する情報をメール入力手段210へと
出力する。メール入力手段210は、メール選択手段1
20から入力したメール指定情報を参照し、現在、その
利用者宛に受信されているメールの中から、利用者が指
定したメールテキスト110を選び、言語解析手段30
0へと出力する。メール選択処理が終わった時点で、対
話処理を利用した要約率入力手段510が起動される。
要約率入力手段510は、この利用者がすでに登録した
要約率を参照したり、または、新たに利用者に問い合わ
せるなどして、要約率を入力する。利用者からの要約率
入力には、プッシュボタンで指定させたり、要約率を音
声認識させるなどの方法がありえる。ここで利用者に指
定させる要約率としては、メールテキスト全体の文字数
・単語数などに対する、読み上げ部分の文字数・単語数
などの比率、または音声合成による読み上げに要する時
間の比率という相対値として指定することも可能であ
り、また何文字・何語・何文以内という値や、音声合成
による読み上げ時間何秒以内という絶対値として指定す
ることも可能である。要約率入力手段510は、こうし
て指定された要約率を部分テキスト選択手段600へと
出力する。言語解析手段300は、メール入力手段21
0から入力されたメールに対して言語解析処理を行う。
具体的な処理方法は「自然言語処理」(長尾真著、岩波
書店)などに詳細な記述があるのでここでは述べない。
言語解析手段300は解析結果として図4に示す言語解
析情報を作成する。図4の解析結果はあくまで一例であ
り、さらに細かい係り受け関係の解析などを行う場合も
ありえる。図4で、単語番号305は入力メールテキス
ト110中でその単語が出現した順番を格納し、単語3
10は入力メールテキスト110を形態素解析処理して
単語へと分割した場合のそれぞれの単語文字列を格納
し、読み320はそれぞれの単語文字列に対応する読み
文字列を格納し、品詞330はそれぞれの単語文字列に
対応する品詞情報を格納し、文字種340はそれぞれの
単語文字列がどの文字種であるかを格納する。ここで、
読み320、品詞330、文字種340は、単語辞書情
報などを利用して取得することが可能である。言語解析
手段300で解析され、図4に示される言語解析結果
は、要約率入力手段510から出力された要約率ととも
に、部分テキスト選択手段600へと入力される。部分
テキスト選択手段600の内部構成図を図3に示す。部
分テキスト選択手段600は、図4に示される言語解析
手段300で解析された言語解析結果を入力し、その単
語310それぞれに対応する重要度を決定する重要度付
与手段610と、各単語に対して重要度を定義した単語
―重要度辞書660と、重要度が付与された言語解析結
果を重要度順にソートする重要度順ソート手段620
と、要約率入力手段510から入力された要約率に基づ
き、読み上げるべき単語の範囲を決定する要約量決定手
段630と、読み上げるように決定された単語310を
入力テキストに現れた順番にソートする文章順ソート手
段と、これらの各手段の間で解析結果の受け渡しを行う
ためのデータ記憶手段である解析結果記憶装置650
と、で構成される。この構成方法は辞書に格納された各
単語の重要度に基づいて部分テキスト選択を行う一つの
実施例であり、図4に示す言語解析結果中の品詞330
や文字種340などの情報を参照し、品詞や文字種ごと
に重要度を与える実施方法もある。また、単語や品詞、
文字種の情報から数式を用いてさらに詳細な重要度を計
算する実施方法もありえる。次に、部分テキスト選択手
段600における処理過程を図3を用いて説明する。言
語解析手段300で解析処理され、図4に示される言語
解析結果は、一旦、解析結果記憶装置650に記憶され
る。次に重要度付与手段610が起動される。重要度付
与手段610は、図5に示す単語―重要度情報が格納さ
れた単語―重要度辞書660を参照しながら、図4に示
される言語解析結果内の単語310それぞれについて、
その単語の重要度を取得し、図6に示す重要度解析情報
を解析結果記憶手段650に格納する。ここで、単語―
重要度辞書660は、どのような単語を重要と見なすか
によって内容は異なり、例えば、請求項2に記載の発明
を実施する場合には、重要と見なすべき品詞情報を持つ
単語に高い重要度が与えられた単語―重要度辞書に切り
替えることになり、請求項3に記載の発明を実施する場
合には、重要と見なすべき文字種情報を持つ単語に高い
重要度が与えられた単語―重要度辞書に切り替えること
になる。もちろん、品詞や文字種以外に、それぞれの単
語の使用頻度などを考慮して利用者独自の重要度を与え
た辞書を用いることもでき、これらの各種重要度から、
ある数式に基づいて重要度を総合的に計算して用いるこ
ともできる。こうして定められた単語―重要度辞書66
0は、メール読み上げサービスの提供者があらかじめ定
めておく必要があるため、サービスの利用者それぞれが
個人ごとに重要だと見なす単語―重要度情報とは無関係
の、たとえば日本語という言語に固有の、一般的な重要
度を指定する必要がある。すなわち、単語「話し合い」
よりも単語「会議」の重要度が高くなるように、または
品詞「普通名詞」よりも品詞「固有名詞」の重要度が高
くなるようにするなどの指定となっていなければならな
い。このような一般的な重要度を指定した単語―重要度
辞書660の構成方法としては、例えば膨大な日本語文
章を集めた日本語コーパスから、document frequencyや
inverted document frequencyなどを用いた単語に対す
る重要度計算手法を利用すればよい。これについて詳し
くは前述の文献「自然言語処理」(長尾真編)などがあ
る。さらに、サービスの利用者それぞれが考える単語―
重要度情報を集めた単語―重要度辞書を別に用意して併
せて利用することも可能である。この場合、例えば単語
音声認識などを用いた単語・品詞・文字種などの入力手
段と、プッシュボタンなどを用いた重要度数値入力手段
を用いて、利用者に重要度を付与したい単語・品詞・文
字種とその重要度を入力させ、単語―重要度ユーザ辞書
として、言語一般に関する単語―重要度辞書660と別
に記録しておけばよい。部分テキスト選択手段600で
は、まず単語―重要度ユーザ辞書を参照し、求める単語
・品詞・文字種の重要度が指定されていればそれを利用
し、指定されていなければ一般的な単語―重要度辞書6
60の重要度を利用するようにすることで実現できる。
次に重要度順ソート手段620が起動される。重要度ソ
ート手段620は、解析結果記憶装置650から図6に
示す重要度解析情報を取り出し、重要度613の大きい
順にソートする。この処理によって、図6に示す重要度
解析情報は、図7のようにソートされる。ソートされた
重要度解析情報は、解析結果記憶装置650に格納され
る。次に要約量決定手段630が起動される。要約量決
定手段630は、解析結果記憶手段650から図7に示
すソートされた重要度解析情報を取り出し、重要度の高
い方から単語612の文字数を加算していく。加算結果
が入力メールテキスト110の全体の文字数にしめる比
率が、別途、要約量決定手段630に入力された要約率
と最も近くなる位置の単語までを取り出し、解析結果記
憶装置650に格納する。例えば、要約率として50%
が入力された場合、図7に示されるソートされた重要度
解析情報を解析結果記憶装置650から取り出した後、
重要度の高い単語から順に単語の文字数を加算してい
き、入力メールテキスト110の文字数(図4に示す例
の場合、24)に占める比率を、図8のように求める。
そして、入力された要約率50%に最も近くなる単語
「行な」までが選択され、それより重要度が高い部分が
図9のように取り出された後、解析結果記憶装置650
に格納される。また、要約率として、音声合成による読
み上げ時間での相対比率が指定された場合は、図11に
示す単語の文字数と読み上げ時間との対応表を参照し
て、重要度の高い単語から順に単語の読み上げ時間を加
算していき、入力メールテキスト110の全体を読み上
げるために要する時間との比率が、指定要約率と最も近
くなる位置の単語までを取り出し、解析結果記憶装置6
50に格納する。また、要約率として読み上げ時間何秒
以内という絶対値が指定された場合には、図11に示す
単語の文字数と読み上げ時間との対応表を参照して、重
要度の高い単語から順に単語の読み上げ時間を加算して
いき、指定読み上げ時間に最も近くなる位置の単語まで
を取り出し、解析結果記憶装置650に格納する。ここ
では選択された単語・語句を音声合成により読み上げる
ために要する時間の算出を、 簡単に文字数と読み上げ
時間の対応表図11を参照して行なったが、より正確に
は各単語・語句に対し実際に音声合成処理を施した後に
生成された音声データの長さを算出した方が良い。これ
は、文字数が同じでも単語に含まれる音素の違いによっ
て、またはユーザが指定する読み上げ速度などによって
も読み上げ時間は異なってくるためである。しかし、こ
のように単語・語句それぞれに音声合成処理を施すとか
なりの処理時間を要する場合もあり、やや簡略化した手
法として、単語―重要度辞書にその単語を音声合成した
場合の読み上げ時間情報も併せて格納しておき、その値
を参照しても良い。次に文章順ソート手段640が起動
される。文章順ソート手段640は、解析結果記憶装置
650より、図9に示される、要約量決定手段により出
力された重要度解析情報を取り出し、単語番号611を
キーにソートする。これにより、図10に示す重要度解
析情報が出力され、音声合成手段700へと渡される。
最後に音声合成手段700が起動され、部分テキスト選
択手段600から出力された、図10に示す重要度解析
情報を元に、その単語611部分を順番に読み上げた合
成音声を生成する。このとき、単語をそのまま読み上げ
てもよいし、また、この例の場合の単語「行な」のよう
に動詞の一部など、そのまま読み上げては意味の通じな
い単語の場合には、言語解析手段300が参照している
単語辞書を用いて、その単語の原形に戻した後に読み上
げることも可能である。さらに、図4に示す入力メール
の言語解析結果を参照し、図10に示す重要度解析情報
内のある単語、例えば「来週」を音声合成により読み上
げた後、今読み上げた単語「来週」の単語番号3から、
次の読み上げ単語「ミーティング」の単語番号5まで
を、図4の言語解析結果内で探索し、句点「、」があっ
た場合にはある一定時間の無音区間を置き、読点「。」
があった場合には句点よりも長い無音区間を置くなどの
処理を取ることもできる。このような処理を行なうこと
により、単語・品詞・文字種に基づき単語を抜き出す文
章要約技術と音声合成処理を組み合わせた以上の、本発
明だけの利点が得られる。最後に、音声合成手段700
で生成された合成音声は、電話回線音声接続手段900
を介して、利用者へと伝えられる。以上のように、本発
明によるメール要約読み上げシステムでは、利用者がそ
の都度指定した、または利用者がすでに登録した要約率
になるように、メールを要約して読み上げることができ
ることになる。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a diagram for explaining a basic configuration of a text-to-speech system of the present invention. As shown in the figure, the basic configuration of the text-to-speech system of the present invention is such that the input text 10
Text input means 200 for inputting 0, linguistic analysis means 300 for performing linguistic analysis on the input text, summarization rate input means 500 for inputting the summarization rate 400, and read out from the input text based on the input summarization rate A partial text selecting means 600 for selecting a partial text to be processed;
And a voice synthesizing unit 700 for converting the selected partial text into a synthesized voice 800. Text input means 2
00 is a floppy disk or CD
An information storage medium such as a ROM and a network such as a telephone / wireless / satellite communication line can be used. The linguistic analysis means 300 has at least a morphological analysis process of dividing the input text into words and adding reading and accent information, and preferably has a function of further performing a syntax / semantic analysis process. This process is described in detail in "Natural Language Processing" (by Makoto Nagao, Iwanami Shoten). As the summarization rate input means 500, a numerical input device such as a switch, dial, or telephone push button, a character input device such as a keyboard, or a numeric voice recognition device can be used. The partial text selecting means 600 outputs the input text 10
After dividing and analyzing 0, a certain partial text group is selected from the input text 100 using the linguistic analysis result information given to each of the divided partial texts, and the selected partial text group is sent to the speech synthesis unit 700. Is output. As the speech synthesis means 700, when a reading text to which a prosodic symbol specifying an accent or a prosody is added is input, a conventional speech synthesis technique of performing a unit phoneme waveform selection process, a connection process of the waveform, a prosody process, and the like is used. be able to. A specific embodiment of the text-to-speech system of the present invention having the basic configuration described above will be described in detail below. FIG. 2 is a diagram for explaining an overall configuration diagram in the case where the present invention described in claim 1 is implemented as a mail summary reading system using a telephone line. As shown in the figure, the configuration of the embodiment of the present invention as a mail summary reading system using a telephone line is to present a voice to a user through a telephone line, or to respond to a push button or voice from the user. Telephone line connection means 900 having a function of transmitting the message to the system side, and interactive processing with the user through the telephone line voice connection means 900 to select the input mail text 110 that the user wants to read out. , A mail input unit 210 for inputting the input mail text 110 selected by the mail selection unit 120 to the summary reading device, and a language analysis unit 300 for performing a language analysis process on the input mail text. Dialogue processing with the user through the telephone line voice connection means 900, and the user The summarization rate input unit 510 that uses interactive processing to specify how much the summarization rate is desired to be read out, the input mail text analysis result subjected to language analysis processing by the language analysis unit 300, and the summation rate input unit 510 inputs With reference to the summarization rate, a partial text selecting means 600 for selecting one or a plurality of partial texts to be read out, and a partial text selected by the partial text selecting means 600 are converted into a synthesized voice, and the telephone line voice is converted. The voice synthesizing unit 700 reads out a mail to the user via the connection unit 900. Next, the processing steps in the mail summary reading system according to the present invention will be described. When there is a line connection from the user via the telephone line voice connection means 900, the telephone line voice connection means 9
00 performs user authentication processing and determines the user,
The mail selection unit 120 using the interactive processing is started.
The mail selecting unit 120 using the interactive processing notifies the user of the readable mail by reading out the number of mails currently received to the user and the respective mail titles, and then determines which mail is read out. To the user. As a method of specifying an e-mail from the user, there may be a method of specifying an e-mail number by a push button, or a method of recognizing a mail number by voice. Further, there may be a method of specifying a title or a sender by voice recognition. The mail selecting means 120 outputs information designating the mail that the user wants to read to the mail input means 210. The mail input unit 210 is a mail selection unit 1
Reference is made to the mail designation information inputted from the user 20, and the mail text 110 designated by the user is selected from the mails currently received for the user, and the language analysis means 30 is selected.
Output to 0. When the mail selection process is completed, the summarization rate input unit 510 using the interactive process is activated.
The summarization rate input unit 510 inputs the summarization rate by referring to the summarization rate already registered by the user, or by inquiring a new user. The user can input the summarization rate by a push button, or can recognize the summarization rate by voice. Here, the summarization rate to be specified by the user is specified as a relative value such as a ratio of the number of characters and words of the reading portion to the number of characters and words of the entire mail text or a ratio of a time required for reading by voice synthesis. It can also be specified as a value of within a number of characters, words, or sentences, or an absolute value of within a few seconds reading time by speech synthesis. The summarization rate input means 510 outputs the summarization rate specified in this way to the partial text selection means 600. The language analysis means 300 is provided by the mail input means 21
The language analysis processing is performed on the mail input from 0.
The specific processing method is described in detail in "Natural Language Processing" (by Makoto Nagao, Iwanami Shoten), etc., and will not be described here.
The linguistic analysis means 300 creates linguistic analysis information shown in FIG. 4 as an analysis result. The analysis result of FIG. 4 is merely an example, and a more detailed analysis of the dependency relationship may be performed. In FIG. 4, the word number 305 stores the order in which the word appears in the input mail text 110, and the word 3
10 stores each word character string when the input mail text 110 is divided into words by morphological analysis processing, reading 320 stores a reading character string corresponding to each word character string, and part of speech 330 Is stored, and the character type 340 stores the character type of each word character string. here,
The reading 320, the part of speech 330, and the character type 340 can be acquired using word dictionary information or the like. The linguistic analysis result analyzed by the linguistic analysis means 300 and shown in FIG. 4 is input to the partial text selecting means 600 together with the digest rate output from the digest rate input means 510. FIG. 3 shows an internal configuration diagram of the partial text selection means 600. The partial text selecting unit 600 receives the linguistic analysis result analyzed by the linguistic analyzing unit 300 shown in FIG. 4 and determines the importance corresponding to each of the words 310. Word-importance dictionary 660 in which importance is defined by the user, and importance order sorting means 620 that sorts the linguistic analysis results to which the importance is assigned in order of importance.
And a summary amount determining means 630 for determining the range of words to be read out based on the summary rate input from the summary rate input means 510, and a sentence for sorting the words 310 determined to be read out in the order in which they appear in the input text. An analysis result storage device 650 which is a data storage unit for transferring an analysis result between the sequential sorting unit and each of these units.
And This construction method is one embodiment in which a partial text is selected based on the importance of each word stored in the dictionary, and the part of speech 330 in the language analysis result shown in FIG.
There is also an implementation method of giving importance to each part of speech or character type by referring to information such as the character type and the character type 340. Also, words and parts of speech,
There may be an implementation method for calculating more detailed importance using mathematical formulas from information on character types. Next, the processing steps in the partial text selection means 600 will be described with reference to FIG. The linguistic analysis result analyzed by the linguistic analysis means 300 and shown in FIG. 4 is temporarily stored in the analysis result storage device 650. Next, the importance assigning means 610 is activated. The importance assigning means 610 refers to the word-importance dictionary 660 storing the word-importance information shown in FIG. 5 and, for each of the words 310 in the linguistic analysis result shown in FIG.
The importance of the word is obtained, and the importance analysis information shown in FIG. 6 is stored in the analysis result storage unit 650. Where the word-
The contents of the importance dictionary 660 differ depending on what words are regarded as important. For example, when the invention described in claim 2 is implemented, words having part of speech information to be regarded as important have a high importance. The word-importance dictionary is switched to the given word-importance dictionary, and in the case of implementing the invention according to claim 3, a word-importance dictionary in which words having character type information to be regarded as important are given high importance Will be switched to. Of course, in addition to the parts of speech and character types, it is also possible to use a dictionary that gives the user its own importance in consideration of the frequency of use of each word, etc. From these various importances,
The importance may be comprehensively calculated and used based on a certain mathematical expression. Word-importance dictionary 66 thus determined
0 is a word that each user of the service considers to be important to each individual because it is necessary for the provider of the mail reading service to determine in advance. , You need to specify a general importance. That is, the word "discussion"
The designation must be such that the importance of the word "conference" is higher than that of the word "conference", or the importance of the part of speech "proper noun" is higher than that of the part of speech "ordinary noun". As a method of constructing such a word-importance dictionary 660 specifying a general importance, for example, a document frequency or a document frequency from a Japanese corpus collecting a large amount of Japanese sentences is used.
What is necessary is just to use the importance calculation method for words using an inverted document frequency or the like. The details of this are described in the above-mentioned document “Natural Language Processing” (edited by Makoto Nagao). Furthermore, words that each user of the service thinks-
It is also possible to separately prepare a word-importance dictionary in which importance information is collected and use it together. In this case, for example, a word, part-of-speech, and character type for which the user wants to assign importance to the user by using input means such as word, part-of-speech, and character type using word voice recognition and the like, and importance value input means using a push button or the like And its importance, and record it as a word-importance user dictionary separately from the word-importance dictionary 660 relating to general languages. The partial text selecting means 600 first refers to the word-importance user dictionary, and if the importance of the desired word / part of speech / character type is specified, uses it. If not, the general word-importance is used. Dictionary 6
This can be realized by utilizing the importance of 60.
Next, the importance order sorting unit 620 is activated. The importance sorting means 620 extracts the importance analysis information shown in FIG. 6 from the analysis result storage device 650 and sorts the information in the descending order of the importance 613. By this process, the importance analysis information shown in FIG. 6 is sorted as shown in FIG. The sorted importance analysis information is stored in the analysis result storage device 650. Next, the summary amount determination means 630 is activated. The summary amount determination unit 630 extracts the sorted importance analysis information shown in FIG. 7 from the analysis result storage unit 650, and adds the number of characters of the word 612 in descending order of importance. The word whose position is the closest to the summarization rate input to the summarization amount determining means 630 is extracted from the sum of the number of characters of the input mail text 110 and stored in the analysis result storage device 650. For example, a summary rate of 50%
Is input, after extracting the sorted importance analysis information shown in FIG. 7 from the analysis result storage device 650,
The number of characters in the word is added in order from the word having the highest importance, and the ratio of the input mail text 110 to the number of characters (24 in the example shown in FIG. 4) is obtained as shown in FIG.
Then, the word "line" which is closest to the input summary rate of 50% is selected, and a portion having a higher importance than that is extracted as shown in FIG.
Is stored in When the relative ratio in the reading time by speech synthesis is specified as the summarization rate, the words are read in descending order of importance with reference to the correspondence table between the number of characters of the word and the reading time shown in FIG. The reading time is added, and a word at a position where the ratio to the time required to read the entire input mail text 110 is closest to the designated summary rate is extracted, and the analysis result storage device 6
50. If an absolute value of the reading time within seconds is specified as the summarization rate, referring to the correspondence table of the number of characters of words and the reading time shown in FIG. The time is added, and words up to the position closest to the designated reading time are extracted and stored in the analysis result storage device 650. Here, the calculation of the time required for reading out the selected word / phrase by speech synthesis was performed simply with reference to the correspondence table of the number of characters and the reading time, but more precisely, for each word / phrase, It is better to calculate the length of the voice data generated after actually performing the voice synthesis processing. This is because the reading time differs depending on the phoneme included in the word even if the number of characters is the same, or depending on the reading speed specified by the user. However, if speech synthesis processing is performed on each word / phrase in this way, considerable processing time may be required. As a slightly simplified method, the reading time information when the word is synthesized in the word-importance dictionary is used. May be stored together, and the value thereof may be referred to. Next, the text order sorting unit 640 is activated. The sentence order sorting unit 640 extracts the importance analysis information output by the summary amount determination unit shown in FIG. 9 from the analysis result storage device 650, and sorts using the word number 611 as a key. As a result, the importance analysis information shown in FIG. 10 is output and passed to the speech synthesis unit 700.
Finally, the speech synthesis unit 700 is activated, and generates a synthesized speech in which the words 611 are read out in order based on the importance analysis information shown in FIG. At this time, the word may be read aloud as it is, or in the case of a word that does not make sense if read aloud as it is, such as a part of a verb such as the word "line" in this example, a language analysis means It is also possible to use the word dictionary referred to by 300 to read back after returning to the original form of the word. Further, referring to the linguistic analysis result of the input mail shown in FIG. 4, a certain word in the importance analysis information shown in FIG. 10, for example, "Next week" is read out by speech synthesis, and then the word of the word "Next week" read out now is read out. From number 3,
A search is made in the linguistic analysis result of FIG. 4 up to word number 5 of the next reading word “meeting”, and if there is a period “,”, a silent section for a certain period of time is set, and the reading point “.”
If there is, processing such as placing a silent section longer than a period can be taken. By performing such processing, the advantages of the present invention alone can be obtained as compared with the combination of the sentence summarization technique for extracting words based on words, parts of speech, and character types and speech synthesis processing. Finally, the voice synthesis means 700
The synthesized speech generated by the telephone line speech connection means 900
Is transmitted to the user via. As described above, in the e-mail summary reading system according to the present invention, e-mail can be summarized and read out so that the summarization rate specified by the user each time or registered by the user is the summarization rate.

【発明の効果】本発明によれば、付加情報が付与されて
いないテキストに対して、利用者が指定した要約率にな
るように要約して、重要な部分だけを読み上げる要約読
み上げ装置を提供でき、テキストの内容をすばやく理解
できるようになる。
According to the present invention, it is possible to provide a summary reading device that summarizes text to which no additional information is added so as to have a summarization rate designated by a user and reads only important portions. , Will be able to understand the contents of the text quickly.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の基本的構成図の一実施例である。FIG. 1 is an embodiment of a basic configuration diagram of the present invention.

【図2】本発明の処理フローの一実施例である。FIG. 2 is an embodiment of a processing flow of the present invention.

【図3】本発明の部分テキスト選択手段の一実施例であ
る。
FIG. 3 is an embodiment of a partial text selecting means of the present invention.

【図4】本発明の言語処理結果の一実施例である。FIG. 4 is an example of a language processing result of the present invention.

【図5】本発明の単語―重要度情報の一実施例である。FIG. 5 is an embodiment of word-importance information of the present invention.

【図6】本発明の重要度解析の一実施例である。FIG. 6 is an embodiment of importance analysis according to the present invention.

【図7】本発明のソートされた重要度解析の一実施例で
ある。
FIG. 7 is an embodiment of a sorted importance analysis of the present invention.

【図8】本発明のソートされた重要度解析の一実施例で
ある。
FIG. 8 is an embodiment of the sorted importance analysis of the present invention.

【図9】本発明の要約量決定手段で取り出された重要度
解析の一実施例である。
FIG. 9 is an embodiment of the importance analysis extracted by the summary amount determination means of the present invention.

【図10】本発明の単語番号順にソートされた重要度解
析の一実施例である。
FIG. 10 is an embodiment of importance analysis sorted in the order of word numbers according to the present invention.

【図11】本発明の単語文字数と読み上げ時間との対応
表の一実施例である。
FIG. 11 is an embodiment of a correspondence table between the number of word characters and the reading time according to the present invention.

【符号の説明】[Explanation of symbols]

100…入力テキスト、110…入力メールテキスト、
120…対話処理を利用したメール選択手段、200…
テキスト入力手段、210…メール入力手段、300…
言語解析手段、305…単語番号、310…単語、32
0…読み、330…品詞、340…文字種、400…要
約率、500…要約率入力手段、510…対話処理を利
用した要約率入力手段、600…部分テキスト選択手
段、610…重要度付与手段、611…単語番号、61
2…単語、613…重要度、620…重要度順ソート手
段、630…要約量決定手段、640…文章順ソート手
段、650…解析結果記憶装置、660…単語−重要度
辞書、661…単語、662…重要度、700…音声合
成手段、800…合成音声、900…電話回線音声接続
手段。
100 ... input text, 110 ... input mail text,
120 ... Email selection means using interactive processing, 200 ...
Text input means, 210 ... Email input means, 300 ...
Language analysis means, 305: word number, 310: word, 32
0: reading, 330: part of speech, 340: character type, 400: summary rate, 500: summary rate input means, 510: summary rate input means using interactive processing, 600: partial text selection means, 610: importance assigning means, 611: word number, 61
2 ... word, 613 ... importance, 620 ... importance order sorter, 630 ... summarization amount determiner, 640 ... text order sorter, 650 ... analysis result storage device, 660 ... word-importance dictionary, 661 ... word, 662: importance, 700: voice synthesis means, 800: synthesized voice, 900: telephone line voice connection means.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】入力されたテキストに対応する合成音声を
生成して音声合成を行なう読み上げ装置において、 テキストの長さに対する、そのテキストを読み上げる合
成音声の長さの相対比率、または読み上げられる合成音
声の長さの絶対値である要約率を入力する要約率入力手
段と、 合成される音声の長さが入力テキストの長さに比して指
定された要約率になるように、入力テキストの中から部
分テキストを1つまたは複数個選択する部分テキスト選
択手段とを持つことを特徴とする要約読み上げ装置。
1. A reading apparatus for generating a synthesized speech corresponding to an input text and performing speech synthesis, wherein a relative ratio of a length of the synthesized speech for reading the text to a length of the text, or a synthesized speech to be read. A summarization rate input means for inputting a summarization rate which is an absolute value of the length of the input text; And a partial text selecting means for selecting one or a plurality of partial texts from a summary text.
【請求項2】請求項1に記載の要約読み上げ装置におい
て、 入力テキストの言語解析を行う言語解析手段と、 読み上げるべき品詞情報を記載した読み上げ品詞リスト
とを有し、 上記部分テキスト選択手段は、言語解析手段により入力
テキストを言語解析した結果、入力テキスト中のそれぞ
れの部分テキストに付加される品詞情報を参照して、上
記品詞リストに含まれる品詞情報を持つ部分テキストの
みを読み上げることを特徴とする要約読み上げ装置。
2. The summary reading device according to claim 1, further comprising: a language analyzing unit that performs a language analysis of the input text; and a reading part-of-speech list that describes part-of-speech information to be read. As a result of linguistic analysis of the input text by the linguistic analysis means, referring to the part of speech information added to each partial text in the input text, only the partial text having the part of speech information included in the above part of speech list is read out. Summary reading aloud.
【請求項3】請求項1に記載の要約読み上げ装置におい
て、 入力テキストの言語解析を行う言語解析手段と、 読み上げるべき文字種情報を記載した読み上げ文字種リ
ストとを有し、 上記部分テキスト選択手段は、言語解析手段により入力
テキストを言語解析した結果、入力テキスト中のそれぞ
れの部分テキストに付加される文字種情報を参照して、
上記読み上げ文字種リストに含まれる文字種情報を持つ
部分テキストのみを読み上げることを特徴とする要約読
み上げ装置。
3. The summary reading device according to claim 1, further comprising: a language analysis unit for performing a language analysis of the input text; and a reading character type list in which character type information to be read is described. As a result of language analysis of the input text by the language analysis means, referring to the character type information added to each partial text in the input text,
A summary reading device, which reads out only a partial text having character type information included in the reading character type list.
JP2000092955A 2000-03-28 2000-03-28 Summary reading device Pending JP2001282815A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000092955A JP2001282815A (en) 2000-03-28 2000-03-28 Summary reading device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000092955A JP2001282815A (en) 2000-03-28 2000-03-28 Summary reading device

Publications (2)

Publication Number Publication Date
JP2001282815A true JP2001282815A (en) 2001-10-12
JP2001282815A5 JP2001282815A5 (en) 2004-11-04

Family

ID=18608211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000092955A Pending JP2001282815A (en) 2000-03-28 2000-03-28 Summary reading device

Country Status (1)

Country Link
JP (1) JP2001282815A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241778A (en) * 2002-02-15 2003-08-29 Canon Inc Information processing apparatus and information processing method
WO2004097656A1 (en) * 2003-04-30 2004-11-11 International Business Machines Corporation Content creation system, content creation method, computer-executable program for executing the content creation method, computer-readable recording medium containing the program, graphical user interface system, and display control method
US7230177B2 (en) 2002-11-19 2007-06-12 Yamaha Corporation Interchange format of voice data in music file
JP2008164759A (en) * 2006-12-27 2008-07-17 Nippon Telegr & Teleph Corp <Ntt> Speech synthesis method, speech synthesizer, program, recording medium
JP2020057195A (en) * 2018-10-02 2020-04-09 テクマトリックス株式会社 Summary generation server, summary generation system, and summary generation method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241778A (en) * 2002-02-15 2003-08-29 Canon Inc Information processing apparatus and information processing method
US7230177B2 (en) 2002-11-19 2007-06-12 Yamaha Corporation Interchange format of voice data in music file
WO2004097656A1 (en) * 2003-04-30 2004-11-11 International Business Machines Corporation Content creation system, content creation method, computer-executable program for executing the content creation method, computer-readable recording medium containing the program, graphical user interface system, and display control method
CN100422966C (en) * 2003-04-30 2008-10-01 国际商业机器公司 System, method, and program for content creation, readable medium for recording the program, and graphical user interface system and display control method
JP2008164759A (en) * 2006-12-27 2008-07-17 Nippon Telegr & Teleph Corp <Ntt> Speech synthesis method, speech synthesizer, program, recording medium
JP2020057195A (en) * 2018-10-02 2020-04-09 テクマトリックス株式会社 Summary generation server, summary generation system, and summary generation method

Similar Documents

Publication Publication Date Title
US6901364B2 (en) Focused language models for improved speech input of structured documents
EP1345394B1 (en) Voice message processing system and method
US20060069567A1 (en) Methods, systems, and products for translating text to speech
US20040193398A1 (en) Front-end architecture for a multi-lingual text-to-speech system
US20020110248A1 (en) Audio renderings for expressing non-audio nuances
US20030074196A1 (en) Text-to-speech conversion system
JPH10274997A (en) Document reading-aloud device
CN100547654C (en) speech synthesis device
JP3270356B2 (en) Utterance document creation device, utterance document creation method, and computer-readable recording medium storing a program for causing a computer to execute the utterance document creation procedure
JP2001282815A (en) Summary reading device
WO2011004502A1 (en) Speech editing/synthesizing device and speech editing/synthesizing method
GB2378877A (en) Prosodic boundary markup mechanism
KR20040028038A (en) System and method of automatically converting text to image using by language processing technology
JPH05224687A (en) Japanese sentence reading word conversion edit processing method
JPH10274999A (en) Document reading-aloud device
JP2002132282A (en) Electronic text reading aloud system
JP3668583B2 (en) Speech synthesis apparatus and method
JPH0561637A (en) Voice synthesizing mail system
JP2001014309A (en) Character conversion device and method, and recording medium recording character conversion program
JP2012194775A (en) Information processor control method, control program and information processor
JP2003228389A (en) Response reading device
JP2000285112A (en) Device and method for predictive input and recording medium
KR100571835B1 (en) Method and apparatus for generating recorded sentences for building voice corpus
JP2002207494A (en) Speech synthesizer, method of synthesizing speech, and computer-readable storage medium with speech synthesizing program recorded thereon
JP4344508B2 (en) Sentence generation system, sentence generation method, program

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060829

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061226