[go: up one dir, main page]

JP2006030326A - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP2006030326A
JP2006030326A JP2004205362A JP2004205362A JP2006030326A JP 2006030326 A JP2006030326 A JP 2006030326A JP 2004205362 A JP2004205362 A JP 2004205362A JP 2004205362 A JP2004205362 A JP 2004205362A JP 2006030326 A JP2006030326 A JP 2006030326A
Authority
JP
Japan
Prior art keywords
phrase
intermediate language
data
word
editing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004205362A
Other languages
English (en)
Inventor
Kenji Nagamatsu
健司 永松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004205362A priority Critical patent/JP2006030326A/ja
Publication of JP2006030326A publication Critical patent/JP2006030326A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】文書に応じた語句の読みを実現する。
【解決手段】読み上げ対象の文書の中間言語を編集する上記編集手段が、表示手段に表示される上記中間言語に対して入力される修正指示を受け付けて、該修正指示の情報を記憶手段に記憶するものであり、
修正指示は、少なくとも修正対象の語句の指定と、該修正反映の条件指定を含む音声合成装置又は音声データ作成装置。
【選択図】図1

Description

本発明は音声データ作成装置に関係する。特に、音声合成装置への入力データである中間言語と呼ばれる音声データを編集する中間言語編集システムに関する。
銀行の残高照会や株価情報の提供などの単なる情報の読み上げでのみ利用されてきた音声合成装置が、最近では自動車のカーナビゲーション装置に代表される車載用情報端末や携帯電話などにも搭載されるようになってきている。 これらの情報提供装置では、時事ニュースやサービス会社からの案内などの情報を読み上げるために音声合成装置が用いられている。このような用途では、できるだけ読み間違いやイントネーションの不自然さがなくなるように、あらかじめ情報提供元が、音声合成装置への入力となる中間言語データを正しく修正しておくことが重要である。
この目的のため、中間言語データを編集する装置、ツール類を利用して、様々な読み上げスタイルを指定できるように中間言語データを編集するための技術がある。例として読み上げる文章の中で複数の読みを持つ単語があった場合、音声合成装置で読み上げる途中でも、編集者が正しい読みを指定できるようにする機能とともに、指定された正しい読み情報を元の文書データと関連づけて保存する技術がある(例えば、特許文献1参照)。
特開平7−134597号公報
上記の特許文献1記載の技術では読み記号への変換の際に、共起辞書というデータを用いて複数の読みを持つ単語に対してその単語の近隣にどのような単語があるかによって読みを変更するという機能を実現している。その上で、出力された読みが間違っていた場合、その複数の読みを持つ単語に対して正しい読みを保存し、別の文書で同じ単語が出現した際にその修正された読みへと変換する技術を発明している。
しかし、この技術では、その読みの修正がどのような条件の場合になりたつかを保存できないため、修正された読みが保存されている単語は、常に同じ読みに修正されるという問題がある。さらに、単語の読みとは異なり、音声の抑揚はその単語単独で定まるものではなく、その近隣の語句やフレーズの存在、特徴によって変わってくることが知られているが、特許文献1記載の技術では、抑揚の文脈依存性を適切に扱える機構が含まれない。本発明では、ある単語のある単語の正しい読みが、別のある単語やフレーズが近くにあるか、またはその単語を含む文書内容の分野・カテゴリーによって異なってくる場合等に、その単語・フレーズの関係に関する情報も併せて保存することで、より適切に読み・アクセント・イントネーションの修正結果を反映できるようにする。
漢字を含む読み上げ対象文書から中間言語を生成する生成手段と、中間言語を編集する編集手段とを有する音声データ生成装置、若しくは音声合成装置。特に、編集手段は、表示手段に表示される上記中間言語に対して入力される修正指示を受け付けて、該修正指示の情報を記憶手段に記憶するものであって、修正指示は、少なくとも修正対象の語句の指定と、該修正反映の条件指定を含む。又、その編集手段におけるユーザインタフェイスも開示する。
本発明によれば、ある単語・フレーズに対して正しい読み・アクセントになるようにまた聞き取りやすい抑揚になるように調整・編集した中間言語データをそのデータを再利用可能な条件とともに登録フレーズデータとして記録しておき、現在編集中の文書内で再利用可能な場合は自動的に挿入することで、従来の音声データ作成装置では正しく反映できなかった文脈による違いを扱えるようになる。
以下、本発明の実施形態について、図面を参照しながら説明する。
図1は本発明の音声データ作成装置の基本的構成について説明する図である。
同図に示されるように、本発明の音声データ作成装置の基本的構成は、読み上げる漢字かな混じり文章が記録された文書データ記録装置0010と、そこから編集処理を行なう文書データを入力する文書データ入力手段0020と、入力された文書データの各単語に読み・アクセント情報を付与する中間言語生成手段0030と、生成された中間言語データの編集機能を提供する中間言語編集手段0060と、生成された中間言語データや編集作業の状態を表示する中間言語表示装置0050と、生成された中間言語データを視聴のために合成音声に変換する音声合成装置0070と、変換された合成音声を再生する音声再生装置0080と、編集作業において利用者の編集指示を入力する編集指示入力装置0090と、編集された中間言語を出力する中間言語出力装置0100とを持つ音声データ作成装置である。
更に、ある単語・フレーズの正しい読み・アクセント・イントネーション情報を別の単語・フレーズまたは文書内容カテゴリーの情報と関連づけた登録フレーズ情報を利用者の指定により作成する登録フレーズ指定手段0110と、その登録フレーズを記録装置に格納する登録フレーズ格納手段0130と、登録フレーズを記録保持する登録フレーズ記録装置0150と、登録フレーズ記録装置からある単語・フレーズに関する登録フレーズ情報を検索する登録フレーズ検索手段0140と、検索された登録フレーズ情報を元に元の単語・フレーズの正しい読み・アクセント・イントネーションを中間言語データに挿入する登録フレーズ挿入手段0120と、中間言語生成手段や登録フレーズ挿入手段から出力された言語情報に基づいて中間言語データ内の個々の単語・フレーズに対する読み・アクセント・イントネーションの候補となりうるパタンを生成する読み・アクセント候補生成手段0040を有する。
図1において、文書データ記録装置0010をサーバーに置き、文書データ入力手段0020がネットワークを介して文書データを取得する実施形態もありえる。また、文書データ記録装置0010と文書データ入力手段0020と中間言語生成手段0030をサーバーにおき、中間言語編集手段0060がネットワークを介して中間言語データを取得する実施形態もありえる。また、登録フレーズ記録装置0150をサーバーにおき、登録フレーズ格納手段0130や登録フレーズ検索手段0140がネットワークを介して登録フレーズ記録装置0150との間で登録フレーズ情報をやり取りする実施形態もありえる。
次に、本発明の基本的構成図1において、各要素を具体的にどのような装置として構成されるかについて説明する。
文書データ記録装置0010は、中間言語化して読み・アクセント・イントネーションなどを編集するための漢字かな混じり文章が記録された装置であり、ハードディスク、CDROMなどの記録媒体である。文書データ入力手段0020は、文書データ記録装置0010から文書データを入力する手段であり、ハードディスクディスクデバイスドライバー、CDROMデバイスドライバーなどのプログラムである。また、文書データ記録装置0010がサーバーに置かれている場合は、文書データ入力手段0020はネットワークを介してデータを受信するネットワークデバイスドライバーなどのプログラムである。中間言語生成手段0030は、漢字かな混じり文章として入力された文書データに対して、言語解析を行なう装置であり、少なくとも、入力文章を単語に分割して読みおよびアクセント情報を付加する形態素解析処理を持ち、好ましくはさらに構文・意味解析処理をも行なう機能を有する。形態素解析とは漢字かな混じり文を個々の単語に分割する処理であり、品詞間の接続可能性を規定した接続データと品詞のコストを定義したコストデータをもとに、コスト最小法や文節数最小法などの手法を用いて実現する。
また、構文解析は品詞の関係構造を規定する文法データとLRパーザやCYK解析などの構文解析手法を用いて、入力文章に対する係り受け関係を出力する。読み・アクセント候補生成手段0040は、中間言語生成手段0030から出力された言語解析データと、登録フレーズ検索手段0120から出力された登録フレーズ情報をもとに、複数の読みやアクセント、複数のイントネーションの候補を持つ単語・フレーズそれぞれに対する変更候補リストデータを生成し、中間言語編集手段へと出力する。読み・アクセント候補生成手段0040の実現方法は、以降の実施形態の詳細において説明する。中間言語表示装置0050は、中間言語編集手段0060から出力された中間言語データを利用者に対して表示する機能を持ち、CRTなどの文字・画像表示装置を利用することができる。
中間言語編集手段0060は、読み・アクセント候補生成手段0040から出力された変更候補リストデータを利用して、中間言語生成手段0030から出力された中間言語データを中間言語表示装置0050に表示するとともに、利用者からの編集指示を編集指示入力装置0090から受け取り、中間言語データ内での単語・フレーズの読み・アクセントの変更や、イントネーションの調整などの中間言語編集機能を提供する。中間言語編集手段0060の実現方法は、以降の実施形態の詳細において説明する。
音声合成装置0070は、中間言語生成手段0030から出力された中間言語データや、中間言語編集手段0060で編集された中間言語データを入力として、音声波形データへと変換する機能を持ち、従来の音声合成手法を利用して実現できる。
音声再生装置0080は音声合成装置0070で変換された音声波形データを実際の音声として再生するスピーカーである。編集指示入力装置0090は、利用者が編集指示を中間言語編集手段0060に伝えるための装置であり、マウスやキーボード、またはタブレットなどの情報入力装置を用いて実現することができる。中間言語出力装置0100は、中間言語編集手段0060で正しい読み・アクセント、適切なイントネーションに調整された中間言語データを外部記録装置に出力したり、またはネットワークを介して別のシステムに送信したりする機能を有する。尚、外部記録装置への出力を行う場合はハードディスクデバイスドライバーのようなプログラムとして、ネットワークを介した送信を行う場合はネットワーク転送プログラムとして実現できる。
登録フレーズ指定手段0110は、中間言語編集手段0060を使って利用者が正しい読み・アクセント、適切なイントネーションに調整した結果の中間言語データ、または中間言語データの一部の単語・フレーズを、その近傍の単語・フレーズ、または文書の内容やカテゴリーなどの情報と関連づけて指定する機能を持ち、関連づけられたデータは登録フレーズ格納手段0130を介して登録フレーズ記録装置0150に格納される。中間言語編集手段0060は、中間言語表示装置0050での中間言語データの表示の際に、中間言語生成手段0030からの出力結果である中間言語データ内の単語・フレーズに対して、読み・アクセント候補生成手段0040の出力結果である変更候補リストデータ、それに登録フレーズ記録装置0150から登録フレーズ検索手段0120を介して検索された登録フレーズ情報を対応づけて表示する。検索された登録フレーズデータを中間言語データ内のどの位置に挿入して表示するかは、登録フレーズ挿入手段0120が判定する。登録フレーズ指定手段0110、登録フレーズ格納手段0130、登録フレーズ検索手段0140、登録フレーズ挿入手段0120はそれぞれコンピュータプログラムを装置の処理装置で読み込むことで実現され、その詳細な実現方法は、以降の実施例において説明する。
以上、説明したような本発明の基本的構成を基に、より具体的な形態で実施する例を以下で説明する。
第1番の実施形態として、図1の基本的構成を採り、基本的なGUI編集機能を備えた中間言語編集システムとして、本発明を実施した場合を説明する。
図2は実施例1の編集画面レイアウトの一例である。画面左側には編集対象となる文書データリスト1010が表示され、画面右上には現在、編集中の文書内容1020が表示され、画面右下には現在編集中の文書の中間言語データ1030が表示されている。
図3は実施例1の中間言語編集システムの各装置・手段での処理内容の処理のフローチャートである。まず、本中間言語編集システムが起動すると(ステップ2010)、文書データ記録装置0010から編集対象となる複数の文書データを読み込み、その文書タイトルを中間言語表示装置0050の文書データリスト領域1010にリスト表示する(ステップ2020)。次に、本中間言語編集システムは利用者からの編集対象文書の指定待ちループに入る(ステップ2030)。編集指示入力装置0090を介して、利用者が編集対象となる文書データを文書データリストの中から選ぶと、本中間言語編集システムは編集対象文書の内容表示を行なう(ステップ2040)。この内容表示とは、指定された編集文書の内容を文書データ記録装置0010から読み込み、文書内容領域1020に表示する処理である。次に、読み込んだ指定文書の内容を中間言語生成手段0030に入力して、中間言語データへと変換する(ステップ2050)。前述のように、中間言語生成手段0030は、形態素解析や構文解析などの言語解析手法を用いて中間言語データへの変換を行なう。中間言語生成手段では従来の形態素解析手法や構文解析手法等を用いることができる。
中間言語生成手段0030で行なわれる形態素解析の結果を図4に示す。形態素解析処理の結果、入力文章は単語に分割され、かつ、それぞれの単語に対して読み・アクセントの候補が辞書データから検索される。図4の例では、18番目の形態素「最高値」に対して、「サイコ’ーチ」という読み・アクセントの候補(第1候補)と、「サイタカ’ネ」という第2候補が検索されたことを示している。
また、中間言語生成手段0030で構文解析処理が行なわれた場合の解析結果例を図5に示す。図5の例では、「本日の」という文節と「株式」という文節が共に「市況は」という文節に係っていることなど、文節間の係り受け関係が解析されている。さらには、中間言語生成手段0030では、入力文章中の単語の読みそれぞれについて、近くにどのような単語があったらその読みで読まれることが多いかを示す、共起データと呼ばれるデータを共起データ辞書から検索しておく場合もある。共起データの例を図6に示す。図6の例では、形態素「最高値」は、近くに「気温」「実験」などの単語があった場合に「サイコ’ーチ」という読み・アクセントになることが多く、近くに「株価」「株式」「終値」などの単語があった場合には「サイタカ’ネ」という読み・アクセントになることが多いことを示している。
中間言語生成手段0030では、最終的に図4から図6のような解析結果を総合して、一番もっともらしい読み・アクセントを用いた中間言語データを生成する。図7と図8に中間言語データの例を示す。図7は共起データを用いなかった場合、図8は適切な共起データが存在し、「最高値」の読み・アクセントを正しく付与できた場合を示している。
こうして中間言語生成手段0030で生成された中間言語データ、および言語解析データは、次に読み・アクセント候補生成手段0040に渡され、読み・アクセント候補生成処理(ステップ2060)が行なわれるとともに、登録フレーズ検索手段0140に渡され、登録フレーズの検索処理(ステップ2070)が行なわれる。次に、読み・アクセント候補生成処理(ステップ2060)では、中間言語生成手段0030から出力された中間言語データ(図7、図8)と、言語解析データ(図4、図5、図6)をもとに、複数の読み・アクセントを持つ単語を抜き出し、かつその単語に対する複数の読み・アクセントのリストを作成する。
ここでの文書データ例では、図9に示すように単語「最高値」のみが複数の読み・アクセント候補を持つ。図9の例は、中間言語生成手段0030で共起データ図6を用いずに解析処理を行なった場合の読み・アクセント候補リストであり、「サイコ’ーチ」が第1候補、「サイタカ’ネ」が第2候補となっている。もし、中間言語生成手段0030で図6の共起データを用いて解析処理を行なった場合は、図9の第1候補、第2候補の順番は入れ替わる。
一方、中間言語生成手段0030から出力された中間言語データ、および言語解析データは登録フレーズ検索手段0140に入力され、その文章内の単語・フレーズに対応する登録フレーズデータが登録フレーズ記録装置0150内に存在しているかどうかを検索する(ステップ2070)。本発明における登録フレーズデータとは、以前の中間言語編集作業において、正しい読み・アクセントと聞き取りやすい抑揚に調整された結果を、その単語・フレーズと共に格納したデータを意味する。
登録フレーズ記録装置0150に格納されている登録フレーズデータの例を図10に示す。図10の登録フレーズデータ例の意味は、「終値で」という単語・フレーズ9010に対する調整済み読み・アクセント・抑揚データ9040が「#80オワリ’ネデ|1」であり、その調整済みデータはその単語・フレーズ「終値で」の直後(+1)に関連単語・フレーズ「今年」がある場合に再利用できるということを示している。ここで「#80」や「|1」などのデータが抑揚などの聴きやすさを調整するパラメータである。中間言語のテキストデータの中にそのまま埋め込む形で韻律・抑揚の調整パラメータを記述するため、上記調整済み中間言語データをそのまま保存すれば、調整された韻律も保存され、その後の処理に活かすことができる。図10のもう一つのデータ例では、「最高値」に対する調整済みデータ「サイタカ’ネ」は、「株価」や「終値」という単語・フレーズが元の単語から見て前後5単語以内に存在していれば、再利用できるということを示している。
これ以降の説明では、登録フレーズ検索処理(ステップ2070)を行なった結果、登録フレーズ記録装置0150から図10に示す二つの登録フレーズデータが検索されたものとする。次に、登録フレーズ検索処理(ステップ2070)で検索された登録フレーズデータ(図10)は、登録フレーズ挿入手段0120に渡され、登録フレーズ挿入処理(ステップ2090)が行なわれる。登録フレーズ挿入処理(ステップ2090)では、中間言語生成処理(ステップ2050)から出力された中間言語データの中で、検索された登録フレーズデータに一致する部分を、その調整済み読み・アクセント・抑揚データで置換する処理を行なう。図8の中間言語データ、および図10の登録フレーズデータに対して、登録フレーズ挿入処理を行なった結果を図11に示す。
次に、登録フレーズ挿入手段0120から出力された中間言語データ(図11)、および、読み・アクセント候補生成手段0040から出力された読み・アクセント候補リスト(図9)は、中間言語編集手段0060に渡され、編集文書の中間言語表示処理(ステップ2080)が行なわれる。編集文書の中間言語表示処理(ステップ2080)では、中間言語データ(図11)、および読み・アクセント候補リスト(図9)を、中間言語表示装置0050上で利用者にとって見やすく、かつ編集しやすいレイアウトで表示する。この編集文書の中間言語表示処理(ステップ2080)で表示された中間言語データの例を図12に示す。このレイアウト例ではアクセント句と呼ばれる単位ごとに、メニュー形式で変更候補を示しており、この説明例の場合、「終値で」と「最高値を」の二つの語句に対して、それぞれ二つの変更候補が示されている。さらに、登録フレーズ挿入処理(ステップ2090)の結果、「終値で」に対しては記録されていた調整済み読み・アクセント・抑揚データ「#80オワリ’ネデ|1」が第1候補として挿入され、「最高値を」に対しては読み・アクセント候補生成処理(ステップ2060)から出力された読み・アクセント候補リストの中で、検索された登録フレーズデータに一致する「サイタカ’ネ」に対応する第2候補がすでに選ばれていることを示している。
こうして、編集文書の中間言語表示処理(ステップ2080)によって、中間言語表示装置0050に中間言語データが表示されると、中間言語編集手段0060は利用者からの編集指示を受け付けるループ(ステップ2100)に入る。編集指示入力装置0090を介して、利用者からの中間言語編集指示要求が発生すると、中間言語編集手段0060は指示された編集処理の実行を行なう(ステップ2110)。
編集処理の実行が完了すると、中間言語編集手段0060は再び利用者からの編集指示を受け付けるループに戻る(ステップ2120、ステップ2100)。ここで、利用者から入力された編集指示が、編集中文書データの編集終了要求であった場合(ステップ2120)、システムは編集結果の中間言語出力処理(ステップ2130)を行なった後、次に編集する文書データの指定待ちループに戻る(ステップ2020)。編集結果の中間言語出力処理(ステップ2130)は、利用者の編集指示を実行した結果、最終的に作成された中間言語データ(図11など)を、中間言語出力装置0100によって、外部記録媒体への保存、もしくはネットワークを介してサーバー装置などへの送信処理が行なわれる。
次に、編集指示入力装置0090を介して、利用者から個別の編集指示があった場合について説明する。編集指示の入力方法には、大きく分けて、編集対象となる語句・フレーズを指定してから、その対象語句・フレーズにどのような編集操作を行なうかを指定するという方法と、逆に次に行なう編集操作を指定してから、その操作対象となる語句・フレーズを指定するという方法がありえる。本発明の編集指示入力装置0090は、編集指示指定操作が終わった後に編集対象語句・フレーズと編集操作内容を合わせて中間言語編集手段0060に渡すことで、どちらの指定方法であっても対応することは可能である。また、対象と操作を別々に指定する方法のほかに、マウスとキーボード、またはマウスと音声などのように異なる入力装置を使って、対象と操作を同時に指定するという場合もありえるが、このような指定方法であっても、同様である。よって、中間言語編集手段0060は、そのどちらかの手法を前提としたものである必要はない。
編集操作の一例として、まず、読み・アクセントの変更を説明する。
図12のように表示された中間言語レイアウトにおいて、利用者が「サイタカ’ネオ」を指定し、その読み・アクセントを「サイコ’ーチオ」に変更するという編集指示が行なわれたとする。
この編集指示入力は、例えば、編集指示入力装置0090がマウスだったとして、現在、有効になっている「サイタカ’ネオ」をクリックすることで編集対象語句・フレーズの指定を行い、次に「サイコ’ーチオ」をクリックして別の読み・アクセント候補への変更という編集指示を指定することでシステムに入力することができる。中間言語編集手段0060は、この編集指示を受けて、「最高値を」に対応する読み・アクセントデータを現在の「サイタカ’ネオ」から「サイコ’ーチオ」に変更する処理を、指示された編集処理の実行ステップ(ステップ2110)で実施する。この編集結果は、中間言語編集手段0060によって、中間言語表示装置0050の中間言語レイアウト上でも更新される。
次に、登録フレーズ指定という編集指示について説明する。
登録フレーズ指定処理は、利用者が編集指示入力装置0090を介して、中間言語編集手段0060に登録フレーズ指定という編集指示を行なうことで、実行される。この登録フレーズ指定処理は、図10に示すような登録フレーズデータを新たに記録・保存するための処理であり、ここで保存された登録フレーズデータは、別の文書データの編集作業において、登録フレーズ検索手段0140で検索され、再利用される。
図13に登録フレーズ指定処理のフローチャートを示す。
図13は、編集指示入力装置0090での編集指示の指定が、編集操作を指定した後に編集対象となる単語・フレーズを指定する順序である場合のフローチャートであるが、前述のようにこの順番は逆になる場合もあり、また、同時に指定される場合もある。以下では、あらかじめ図6に示す共起データや、図10に示す登録フレーズデータが保存されていなかった場合を想定して説明する。この場合、図2の文書内容表示領域1020に表示されている文章例に対する中間言語データとしては図8に示す誤りを含むものが出力され、中間言語表示装置0050には、図14に示す中間言語データレイアウトが表示されることになるが、その後、この状態の中間言語データに対して利用者が中間言語編集処理を行い、「最高値を」に対する正しい読み・アクセントの選択、および、「終値で」に対する聴きやすい抑揚の指定がなされた後、最終的に図13に示す中間言語データに編集されたとする。
この状態で、まず、編集指示入力装置0090を介して利用者によって登録フレーズ指定操作が指示されると、中間言語編集装置0060は、登録フレーズ指定手段0110を起動する(ステップ12010)。次に登録フレーズ指定手段0110は、登録単語・フレーズ指定処理を実行し(ステップ12020)、登録フレーズデータの本体である再利用したい単語・フレーズの指定入力を受け付ける。この指定入力は、例えば、中間言語表示装置0050に表示されている当該単語・フレーズ位置をマウスでクリックしたり、または中間言語表示装置0050中間言語データ内に表示されているカーソルを当該単語・フレーズ位置までキーボードなどで移動させた後、例えば、リターンキーなどの特別なキー入力を行なわせるなどの入力方法を採用することができる。ここでは、この登録フレーズ指定処理(ステップ12020)によって、図12の「#80オワリネ’デ|1」という調整済み単語が選択されたものとする。
次に登録フレーズ指定手段0110は、関連単語・フレーズ指定処理を実行し(ステップ12030)、先に入力した登録単語・フレーズ「#80オワリネ’デ|1」の調整に対して文脈データとなる関連単語・フレーズの指定入力を受け付ける。この指定入力も、マウスやキーボードを使って同様に指定させることが可能である。ただし、中間言語表示装置0050上で複数の単語・フレーズが選択表示されることになるため、その違いを明確にさせる目的で、選択された単語・フレーズの色を変えたり、または文字の大きさや書体を変えるなどの表示方法の変更を行なうことが有効である。
次に登録フレーズ指定手段0110は、関連語位置の調整入力処理(ステップ12040)を実行し、関連単語・フレーズが登録単語・フレーズからどのような位置関係にあるかの情報を入力させる。この入力は、二つの単語・フレーズの間にある形態素の個数を、システムが自動的にカウントしたものを利用してもよく、また、その値を利用者に提示して、調整した値を入力させるなどの方法をとってもよい。次に登録フレーズ指定手段0110は、ステップ12020からステップ12040までで入力された登録単語・フレーズデータ、関連単語・フレーズデータ、および関連語位置データをもとに、登録フレーズデータの生成処理(ステップ12050)を実行する。この処理は、それまでのステップで入力された3種の情報を、登録フレーズ記憶装置0150に格納可能なデータ形態に変換するものであり、具体的には、図10に示す4つのフィールド値を持つデータベースレコードなどの構造を用いることが可能である。
次に、こうして生成された登録フレーズデータは、登録フレーズ格納手段0130に渡され、登録フレーズ記録装置0150に記録・保存される。こうして新たに記録・保存された登録フレーズ情報は、本実施例1の前半の説明で述べたとおり、別の文書データの編集作業において自動的に再利用され、その結果、正しい読み・アクセント、聞き取りやすい抑揚がより適切に付与されることが可能となる。
第2番目の実施例として、本発明における登録フレーズ指定手段0110の実施の際に、GUIを用いてより直感的な指定ができるようにした中間言語編集ツールの例を説明する。実施例2の処理の流れは、登録フレーズ指定手段0110の中での処理(図13のフローチャートで示される処理)以外はすべて実施例1の場合と同一であるので、ここでの説明は省略する。
以下、図3の中間言語編集ツールの処理フローにおいて、編集指示として登録フレーズの指定が選択されて登録フレーズ指定手段0110が起動され、図13に示す登録フレーズ指定処理が開始されて以降の処理について説明する。
実施例1では、登録単語・フレーズ指定(ステップ12020)、関連単語・フレーズ指定(ステップ12030)での指定方法としてキーボード、マウス、または音声入力などで指定する実施形態を説明したが、関連単語・フレーズとしてどのようなものを指定すればよいのかについては、音声・言語・文法に関するある程度の知識がないと難しい場合が多い。これに対して、実施例2では、メニュー形式での指定方法を実現する。
図15に本実施例の画面レイアウト例を示す。図15は、登録フレーズ指定手段0110が起動され、図13のフローチャートに従って登録フレーズ指定処理が開始された後、マウスカーソルを登録したい単語・フレーズ上でクリックすることで登録単語・フレーズ指定処理(ステップ12020)が完了し、それに対するシステムの応答として、関連単語・フレーズおよびその関連語位置の候補をメニュー形式で表示している時点のレイアウトである。
図16に本実施例における登録フレーズ指定処理のフローチャートを示す。図13のフローチャートからは、関連単語・フレーズ指定処理(ステップ12030)が関連単語・フレーズ候補リスト生成処理(ステップ15030)に変わり、また関連語位置の調整入力処理(ステップ12040)がユーザからの候補選択待ち処理(ステップ15040)に変わっている。さらに図16の関連単語・フレーズ候補リスト生成処理(ステップ15030)の内部詳細処理を説明するフローチャートを図17に示す。
以下、図16、図17のフローチャートに従って本実施例における登録フレーズ指定手段0110の動作について説明する。まず、編集指示入力装置0090によって、ユーザから登録フレーズ指定という編集指示が中間言語編集手段0060に送られる。次に、中間言語編集手段0060は登録フレーズ指定手段0110を起動し、登録フレーズの指定処理へと移行する。ここで、図16のフローチャートに制御が移り、最初に登録単語・フレーズ指定処理(ステップ15020)が実行される。
本実施例では登録単語・フレーズ指定処理(ステップ15020)は、マウスカーソルで登録したい単語をクリックすることで、またはドラッグなどの操作で単語を複数選択して登録したいフレーズを決定した後にそのフレーズをクリックすることで完了する。ここでどの単語、またはどのフレーズが選択されたかを示す情報が、次の関連単語・フレーズ候補生成処理(ステップ15030)に渡される。この関連単語・フレーズ候補生成処理(ステップ15030)では、登録単語・フレーズ指定処理(ステップ15020)から渡された登録したい単語・フレーズに関する情報を元に、その単語・フレーズに関連の深い単語・フレーズを推定し、関連の深さによって並べ替えたリストを作成するという処理を行なう。
次に、図17のフローチャートに移動し、関連単語・フレーズ候補リスト生成処理が開始される。まず、登録単語フレーズ指定処理(ステップ15020)から渡された登録単語・フレーズの品詞推定処理(ステップ16030)と、その登録単語・フレーズの直前と直後の単語の抽出およびその品詞推定および句読点の有無などの判定を行なう直前・直後位置の単語・品詞・句読点の判定処理(ステップ16040)と、登録単語・フレーズを含む文書内で特徴的な語句を抽出する文書内からの特徴単語抽出処理(ステップ16020)が実行される。これらの3つの処理はそれぞれ並列に実行してもよく、また一つずつ順番に実行してもよい。
まず、文書内からの特徴単語抽出処理(ステップ16020)は、例えば図2に示す例文の場合、この文書が経済・株式に関するものであることを判定し、この文書内から「株式」「経済」「最高値」などの特徴語句を抽出する。この特徴語句抽出処理には、例えば、大量のテキストコーパスから計算した単語の出現頻度(出現確率)情報や、または複数単語の組での同時出現頻度(同時出現確率)などの情報を用いて、実現することができる。
図18に単語の出現確率辞書の例を示す。図18のように各単語に対してあるテキストコーパス内での出現確率を記述した辞書データを参照し、文書内に含まれる各単語の出現確率を求めると、例えばその中で一番小さい出現確率の単語が重要度が高い、すなわち特徴語句と見なすことができる。次に、登録単語・フレーズ品詞推定処理(ステップ16030)は、形態素解析で用いる単語辞書を用いて検索すればよく、または中間言語生成手段0030から中間言語データと共に品詞や係り受けなどの言語情報を渡してもらい、それを利用してもよい。次に、直前・直後位置の単語・品詞・句読点の判定処理(ステップ16040)は、登録単語・フレーズの直前と直後の単語を取り出し、上述の手法でその品詞を推定し、さらに直前直後に句読点が存在するかどうかをチェックすればよいので、詳細は省略する。
この登録単語フレーズ指定処理(ステップ15020)から渡された登録単語・フレーズの品詞推定処理(ステップ16030)と、その登録単語・フレーズの直前と直後の単語の抽出およびその品詞推定および句読点の有無などの判定を行なう直前・直後位置の単語・品詞・句読点の判定処理(ステップ16040)と、登録単語・フレーズを含む文書内で特徴的な語句を抽出する文書内からの特徴単語抽出処理(ステップ16020)の処理の結果、例えば、図19に示すようなデータが得られる。
この3つの処理は、関連語句・フレーズ候補リスト作成のための関連条件種別を列挙するために、それぞれ異なる観点からの条件を抽出する。関連条件種別が多くなるほど、以下の判定における精度が向上することが予想され、また、ここで抽出される条件は、抑揚・読みなどの違いに特に関連の深いものであることが望ましい。
本実施例2で挙げた登録単語・フレーズの品詞推定処理(ステップ16030)、直前・直後位置の単語・品詞・句読点の判定処理(ステップ16040)、文書内からの特徴単語抽出処理(ステップ16020)はその一例であり、必ずしもこれら3つである必要はなく、また、これら3つを必ず同時に実行しなければならないものでもない。
次に、図19に示す判定結果データは、調整事例コーパスの検索処理(ステップ16050)に渡される。この調整事例コーパスの検索処理(ステップ16050)では、これまでに行なった単語・フレーズへの読み・アクセント・抑揚の調整結果、およびその単語・フレーズの調整に関連があると判定された語句・フレーズが登録されている調整事例コーパスを参照し、図19の関連語句・フレーズ候補それぞれに対して、それがどの程度、登録しようとしている調整結果と関連しているかを表す数値である調整品質予測値を付与する。
この予測値付与処理の手順は、調整事例コーパスの構成が例えば図20のようになっている場合に、まず現在登録しようとしている語句・フレーズの単語・品詞と調整事例コーパス内の登録語句・フレーズとを比較し、その一致度に基づいて対応する関連条件種別を並び替えた後、その一致度を調整品質予測値として出力することで実現できる。一致度は、単語1つが一致すれば+10ポイント、品詞が1つ一致すれば+5ポイントのようにして定めておき、その値を加算、もしくは何らかの演算を行い算出できる。この調整事例コーパスのデータには、本発明の中間言語編集ツールを使って以前に登録された登録フレーズ情報を変換・蓄積しておいたものでもよく、また、あらかじめ、人手により調整規則として抽出・登録されたものでもよい。
次に、調整事例コーパスの検索処理(ステップ16050)で調整品質予測値を付与された候補リスト(図19)は、調整品質予測値による並び替え処理(ステップ16060)で予測値の大きい順番で並び替えられる。その結果を図21に示す。
次に、この結果は、フローチャート図16のユーザからの候補選択待ち処理(ステップ15040)に渡され、登録単語・フレーズ「#80オワリ’ネデ|1」に対する関連語句・位置候補メニューの形態に変換され、中間言語表示装置0050上に表示される。この表示されたメニューの中からユーザによってその一つの関連語句・位置候補が選択されると、登録フレーズデータ生成処理(ステップ15050)を経て、登録フレーズ格納処理(ステップ15060)が実行され、指定された登録語句・フレーズが適切な関連語句・位置情報とともに保存されることになる。この登録フレーズデータ生成処理(ステップ15050)と登録フレーズ格納処理(ステップ15060)については、実施例1で説明した通りであるため、省略する。
本実施例2によれば、音声・言語・文法などの専門知識に乏しいユーザであってもシステムが提示した関連語句候補の中から選択すればよいため、単語・フレーズの読み・アクセント・抑揚の調整結果を適切な関連語句とともに登録フレーズ情報として容易に保存・再利用することができるようになる。また、本実施例2に係る別の画面レイアウト例として、図22のように、直前語句に関する条件が左側に、直後語句に関する条件が右側に、文書特徴語に関する条件が上側に、などのように「直前」「直後」「文書」などの語句から連想される位置に対応する候補メニューを表示する場合も考えられる。
本発明の基本的構成、および実施例1のシステム構成を示す図。 本発明の中間言語編集システムの画面レイアウト例を示す図。 本発明の実施例1における処理のフローチャートを示す図。 本発明の実施例1において、中間言語生成手段で内部的に解析される形態素解析データの一例を示す図。 本発明の実施例1において、中間言語生成手段で内部的に解析される構文解析データの一例を示す図。 本発明の実施例1において、中間言語生成手段で内部的に解析される共起解析データの一例を示す図。 本発明の実施例1において、中間言語生成手段から出力される中間言語データの一例を示す図。 本発明の実施例1において、中間言語生成手段から出力される中間言語データの一例を示す図。 本発明の実施例1において、読み・アクセント候補生成手段から出力される読み・アクセント候補リストデータの一例を示す図。 本発明の実施例1において、登録フレーズ記録装置から登録フレーズ検索手段によって検索される登録フレーズデータの一例を示す図。 本発明の実施例1において、登録フレーズ挿入手段から出力される登録フレーズデータを適用した後の中間言語データの一例を示す図。 本発明の実施例1において、編集文書の中間言語表示処理によって中間言語表示装置に表示される中間言語データレイアウトの一例を示す図。 本発明の実施例1において、登録フレーズの指定処理のフローチャートを示す図。 本発明の実施例1において、登録フレーズデータが存在しなかった場合に編集文書の中間言語表示処理によって中間言語表示装置に表示される中間言語データレイアウトの一例を示す図。 本発明の実施例2において、登録フレーズ指定処理を行なっている途中の画面レイアウトの一例を示す図。 本発明の実施例2において、登録フレーズの指定処理のフローチャートを示す図。 本発明の実施例2において、関連単語・フレーズ候補リスト生成処理のフローチャートを示す図。 本発明の実施例2において、文書内からの特徴単語抽出処理に用いる単語出現確率辞書の構成を示す図。 本発明の実施例2において、関連単語・フレーズ候補リスト生成処理の途中で生成される関連語句・フレーズ候補リストの一例を示す図。 本発明の実施例2において、調整事例コーパスの構成を示す図。 本発明の実施例2において、調整品質予測値で並び替えられた結果の関連語句・フレーズ候補リストの一例を示す図。 本発明の実施例2に係る別の画面レイアウトの一例を示す図。
符号の説明
0010…文書データ記録装置、0020…文書データ入力手段、0030…中間言語生成手段、0040…読み・アクセント候補生成手段、0050…中間言語表示装置、0060…中間言語編集手段、0070…音声合成装置、0080…音声再生装置、0090…編集指示入力装置、0100…中間言語出力装置、0110…登録フレーズ指定手段、0120…登録フレーズ挿入手段、0130…登録フレーズ格納手段、0140…登録フレーズ検索手段、0150…登録フレーズ記録装置、1010…文書データリスト表示領域、1020…文書内容表示領域、1030…中間言語データ表示領域、2010…起動処理ステップ、2020…文書データ読み込み・表示処理ステップ、2030…編集文書の指定あり判断ステップ、2040…編集文書の内容表示処理ステップ、2050…中間言語生成処理ステップ、2060…読み・アクセント候補生成処理ステップ、2070…登録フレーズ検索処理ステップ、2080…編集文書の中間言語表示処理ステップ、2090…登録フレーズ挿入処理ステップ、2100…編集指示の入力あり判断ステップ、2110…指示された編集処理の実行処理ステップ、2120…編集終了判断ステップ、2130…編集結果の中間言語出力処理ステップ、3010…形態素番号、3020…形態素表記、3030…品詞、3040…読み・アクセント(第1候補)、3050…読み・アクセント(第2候補)、5010…形態素、5020…読み・アクセント、5030…共起単語リスト、8010…形態素、8020…読み・アクセント(第1候補)、8030…読み・アクセント(第2候補)、9010…単語・フレーズ、9020…関連単語・フレーズ、9030…関連語の位置、9040…調整済み読み・アクセント・抑揚、12010…登録フレーズ指定開始ステップ、12020…登録単語・フレーズ指定処理ステップ、12030…関連単語・フレーズ指定処理ステップ、12040…関連語位置の調整入力処理ステップ、12050…登録フレーズデータ生成処理ステップ、12060…登録フレーズ格納処理ステップ、12070…登録フレーズ指定終了ステップ、15010…登録フレーズ指定開始ステップ、15020…登録単語・フレーズ指定処理ステップ、15030…関連単語・フレーズ候補リスト生成処理ステップ、15040…ユーザからの候補選択待ち処理ステップ、15050…登録フレーズデータ生成処理ステップ、15060…登録フレーズ格納処理ステップ、15070…登録フレーズ指定終了ステップ、16010…関連単語・フレーズ候補リスト生成処理開始ステップ、16020…文書内からの特徴単語抽出処理ステップ、16030…登録単語・フレーズ品詞推定処理ステップ、16040…直前・直後位置の単語・品詞・句読点の判定処理ステップ、16050…調整事例コーパスの検索処理ステップ、16060…調整品質予測値による並び替え処理ステップ、16070…関連単語・フレーズ候補リスト生成処理終了ステップ。

Claims (5)

  1. 漢字を含む読み上げ対象文書の入力手段と、
    上記読み上げ対象文書から中間言語を生成する生成手段と、
    上記中間言語を編集する編集手段と
    上記編集された中間言語に基づいて音声合成を行う音声合成手段と、
    上記合成された音声の出力手段とを有し、
    上記編集手段は、表示手段に表示される上記中間言語に対して入力される修正指示を受け付けて、該修正指示の情報を記憶手段に記憶し、
    上記修正指示は、少なくとも修正対象の語句の指定と、該修正反映の条件指定を含むものであることを特徴とする音声合成装置。
  2. 上記修正反映の条件指定は、上記修正対象語句の共起語句の情報を含むことを特徴とする請求項1記載の音声合成装置。
  3. 上記修正反映の条件指定は、さらに上記共起語句の位置条件の情報も含むことを特徴とする請求項1又は2に記載の音声合成装置。
  4. 上記編集手段は、上記表示手段に上記中間言語とともに複数の上記条件の候補を提示して、上記入力手段からの選択指示を受け付けることを特徴とする請求項1乃至3の何れかに記載の音声合成装置。
  5. 上記編集手段は、上記入力された修正対象の語句の品詞推定と、該修正対象語句の前後の単語の品詞を推定と、上記対象文書中の特徴語句の抽出を行い、これらの結果を過去の上記修正の記録と比較して決定した修正条件を上記表示手段に表示することを特徴とする請求項1乃至4の何れかに記載の音声合成装置。
JP2004205362A 2004-07-13 2004-07-13 音声合成装置 Pending JP2006030326A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004205362A JP2006030326A (ja) 2004-07-13 2004-07-13 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004205362A JP2006030326A (ja) 2004-07-13 2004-07-13 音声合成装置

Publications (1)

Publication Number Publication Date
JP2006030326A true JP2006030326A (ja) 2006-02-02

Family

ID=35896795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004205362A Pending JP2006030326A (ja) 2004-07-13 2004-07-13 音声合成装置

Country Status (1)

Country Link
JP (1) JP2006030326A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7353399B2 (en) 2002-07-31 2008-04-01 Trek 2000 International Ltd. Method and apparatus of storage anti-piracy key encryption (SAKE) device to control data access for networks
JP2009075263A (ja) * 2007-09-19 2009-04-09 Kddi Corp 音声認識装置およびコンピュータプログラム
US7549161B2 (en) 2001-06-28 2009-06-16 Trek 2000 International Ltd. Portable device having biometrics-based authentication capabilities
US7631121B2 (en) 2002-05-13 2009-12-08 Trek 2000 International Ltd. System and apparatus for compressing and decompressing data stored to a portable data storage device
US7650470B2 (en) 2001-06-28 2010-01-19 Trek 2000 International, Ltd. Method and devices for data transfer
US8209462B2 (en) 2000-02-21 2012-06-26 Trek 2000 International Ltd. Portable data storage device
JP2013097534A (ja) * 2011-10-31 2013-05-20 Fujitsu Ltd 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム
JP2013213874A (ja) * 2012-03-30 2013-10-17 Fujitsu Ltd 音声合成プログラム、音声合成方法および音声合成装置
JP2014197117A (ja) * 2013-03-29 2014-10-16 富士通株式会社 音声合成装置及び言語辞書登録方法
JP2015022162A (ja) * 2013-07-19 2015-02-02 株式会社東芝 音声合成システムおよび音声変換支援装置
JP2015172657A (ja) * 2014-03-12 2015-10-01 株式会社東芝 音声合成システム、音声変換支援装置および音声変換支援方法
JP2016122033A (ja) * 2014-12-24 2016-07-07 日本電気株式会社 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム
JP2017058472A (ja) * 2015-09-15 2017-03-23 株式会社東芝 編集支援装置、編集支援方法及びプログラム
JPWO2020225888A1 (ja) * 2019-05-08 2020-11-12

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209462B2 (en) 2000-02-21 2012-06-26 Trek 2000 International Ltd. Portable data storage device
US7549161B2 (en) 2001-06-28 2009-06-16 Trek 2000 International Ltd. Portable device having biometrics-based authentication capabilities
US7650470B2 (en) 2001-06-28 2010-01-19 Trek 2000 International, Ltd. Method and devices for data transfer
US7631121B2 (en) 2002-05-13 2009-12-08 Trek 2000 International Ltd. System and apparatus for compressing and decompressing data stored to a portable data storage device
US7353399B2 (en) 2002-07-31 2008-04-01 Trek 2000 International Ltd. Method and apparatus of storage anti-piracy key encryption (SAKE) device to control data access for networks
JP2009075263A (ja) * 2007-09-19 2009-04-09 Kddi Corp 音声認識装置およびコンピュータプログラム
JP2013097534A (ja) * 2011-10-31 2013-05-20 Fujitsu Ltd 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム
JP2013213874A (ja) * 2012-03-30 2013-10-17 Fujitsu Ltd 音声合成プログラム、音声合成方法および音声合成装置
JP2014197117A (ja) * 2013-03-29 2014-10-16 富士通株式会社 音声合成装置及び言語辞書登録方法
JP2015022162A (ja) * 2013-07-19 2015-02-02 株式会社東芝 音声合成システムおよび音声変換支援装置
JP2015172657A (ja) * 2014-03-12 2015-10-01 株式会社東芝 音声合成システム、音声変換支援装置および音声変換支援方法
JP2016122033A (ja) * 2014-12-24 2016-07-07 日本電気株式会社 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム
JP2017058472A (ja) * 2015-09-15 2017-03-23 株式会社東芝 編集支援装置、編集支援方法及びプログラム
JPWO2020225888A1 (ja) * 2019-05-08 2020-11-12
WO2020225888A1 (ja) * 2019-05-08 2020-11-12 日本電信電話株式会社 読み曖昧性解消装置、読み曖昧性解消方法、及び読み曖昧性解消プログラム
JP7243818B2 (ja) 2019-05-08 2023-03-22 日本電信電話株式会社 読み曖昧性解消装置、読み曖昧性解消方法、及び読み曖昧性解消プログラム

Similar Documents

Publication Publication Date Title
US8346537B2 (en) Input apparatus, input method and input program
US8214197B2 (en) Apparatus, system, method, and computer program product for resolving ambiguities in translations
EP1096472B1 (en) Audio playback of a multi-source written document
Schultz et al. Multilingual speech processing
US7546529B2 (en) Method and system for providing alternatives for text derived from stochastic input sources
US20070198245A1 (en) Apparatus, method, and computer program product for supporting in communication through translation between different languages
JP2963463B2 (ja) 対話型言語解析装置
US20020120451A1 (en) Apparatus and method for providing information by speech
US20060224378A1 (en) Communication support apparatus and computer program product for supporting communication by performing translation between languages
US20080208563A1 (en) Apparatus and method for translating speech in source language into target language, and computer program product for executing the method
JP2006030326A (ja) 音声合成装置
CN101009094B (zh) 支持发音信息编辑的系统和方法
JP2009140466A (ja) 使用者製作問答データに基づいた会話辞書サービスの提供方法及びシステム
JP5423466B2 (ja) 音声合成装置、音声合成方法、及び音声合成プログラム
Öktem et al. Corpora compilation for prosody-informed speech processing
JP2004326367A (ja) テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
KR20120004196A (ko) 백과사전을 이용한 번역 서비스 장치 및 그 방법
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JP2008243222A (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP3589972B2 (ja) 音声合成装置
JP4643183B2 (ja) 翻訳装置および翻訳プログラム
JP5169602B2 (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
JPH09325787A (ja) 音声合成方法、音声合成装置、文章への音声コマンド組み込み方法、及び装置
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
WO2022196087A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060424