JP2006030326A

JP2006030326A - 音声合成装置

Info

Publication number: JP2006030326A
Application number: JP2004205362A
Authority: JP
Inventors: Kenji Nagamatsu; 健司永松
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2004-07-13
Filing date: 2004-07-13
Publication date: 2006-02-02

Abstract

【課題】文書に応じた語句の読みを実現する。
【解決手段】読み上げ対象の文書の中間言語を編集する上記編集手段が、表示手段に表示される上記中間言語に対して入力される修正指示を受け付けて、該修正指示の情報を記憶手段に記憶するものであり、
修正指示は、少なくとも修正対象の語句の指定と、該修正反映の条件指定を含む音声合成装置又は音声データ作成装置。
【選択図】図１

Description

本発明は音声データ作成装置に関係する。特に、音声合成装置への入力データである中間言語と呼ばれる音声データを編集する中間言語編集システムに関する。

銀行の残高照会や株価情報の提供などの単なる情報の読み上げでのみ利用されてきた音声合成装置が、最近では自動車のカーナビゲーション装置に代表される車載用情報端末や携帯電話などにも搭載されるようになってきている。これらの情報提供装置では、時事ニュースやサービス会社からの案内などの情報を読み上げるために音声合成装置が用いられている。このような用途では、できるだけ読み間違いやイントネーションの不自然さがなくなるように、あらかじめ情報提供元が、音声合成装置への入力となる中間言語データを正しく修正しておくことが重要である。

この目的のため、中間言語データを編集する装置、ツール類を利用して、様々な読み上げスタイルを指定できるように中間言語データを編集するための技術がある。例として読み上げる文章の中で複数の読みを持つ単語があった場合、音声合成装置で読み上げる途中でも、編集者が正しい読みを指定できるようにする機能とともに、指定された正しい読み情報を元の文書データと関連づけて保存する技術がある（例えば、特許文献１参照）。

特開平７−１３４５９７号公報

上記の特許文献１記載の技術では読み記号への変換の際に、共起辞書というデータを用いて複数の読みを持つ単語に対してその単語の近隣にどのような単語があるかによって読みを変更するという機能を実現している。その上で、出力された読みが間違っていた場合、その複数の読みを持つ単語に対して正しい読みを保存し、別の文書で同じ単語が出現した際にその修正された読みへと変換する技術を発明している。

しかし、この技術では、その読みの修正がどのような条件の場合になりたつかを保存できないため、修正された読みが保存されている単語は、常に同じ読みに修正されるという問題がある。さらに、単語の読みとは異なり、音声の抑揚はその単語単独で定まるものではなく、その近隣の語句やフレーズの存在、特徴によって変わってくることが知られているが、特許文献１記載の技術では、抑揚の文脈依存性を適切に扱える機構が含まれない。本発明では、ある単語のある単語の正しい読みが、別のある単語やフレーズが近くにあるか、またはその単語を含む文書内容の分野・カテゴリーによって異なってくる場合等に、その単語・フレーズの関係に関する情報も併せて保存することで、より適切に読み・アクセント・イントネーションの修正結果を反映できるようにする。

漢字を含む読み上げ対象文書から中間言語を生成する生成手段と、中間言語を編集する編集手段とを有する音声データ生成装置、若しくは音声合成装置。特に、編集手段は、表示手段に表示される上記中間言語に対して入力される修正指示を受け付けて、該修正指示の情報を記憶手段に記憶するものであって、修正指示は、少なくとも修正対象の語句の指定と、該修正反映の条件指定を含む。又、その編集手段におけるユーザインタフェイスも開示する。

本発明によれば、ある単語・フレーズに対して正しい読み・アクセントになるようにまた聞き取りやすい抑揚になるように調整・編集した中間言語データをそのデータを再利用可能な条件とともに登録フレーズデータとして記録しておき、現在編集中の文書内で再利用可能な場合は自動的に挿入することで、従来の音声データ作成装置では正しく反映できなかった文脈による違いを扱えるようになる。

以下、本発明の実施形態について、図面を参照しながら説明する。
図１は本発明の音声データ作成装置の基本的構成について説明する図である。
同図に示されるように、本発明の音声データ作成装置の基本的構成は、読み上げる漢字かな混じり文章が記録された文書データ記録装置００１０と、そこから編集処理を行なう文書データを入力する文書データ入力手段００２０と、入力された文書データの各単語に読み・アクセント情報を付与する中間言語生成手段００３０と、生成された中間言語データの編集機能を提供する中間言語編集手段００６０と、生成された中間言語データや編集作業の状態を表示する中間言語表示装置００５０と、生成された中間言語データを視聴のために合成音声に変換する音声合成装置００７０と、変換された合成音声を再生する音声再生装置００８０と、編集作業において利用者の編集指示を入力する編集指示入力装置００９０と、編集された中間言語を出力する中間言語出力装置０１００とを持つ音声データ作成装置である。

更に、ある単語・フレーズの正しい読み・アクセント・イントネーション情報を別の単語・フレーズまたは文書内容カテゴリーの情報と関連づけた登録フレーズ情報を利用者の指定により作成する登録フレーズ指定手段０１１０と、その登録フレーズを記録装置に格納する登録フレーズ格納手段０１３０と、登録フレーズを記録保持する登録フレーズ記録装置０１５０と、登録フレーズ記録装置からある単語・フレーズに関する登録フレーズ情報を検索する登録フレーズ検索手段０１４０と、検索された登録フレーズ情報を元に元の単語・フレーズの正しい読み・アクセント・イントネーションを中間言語データに挿入する登録フレーズ挿入手段０１２０と、中間言語生成手段や登録フレーズ挿入手段から出力された言語情報に基づいて中間言語データ内の個々の単語・フレーズに対する読み・アクセント・イントネーションの候補となりうるパタンを生成する読み・アクセント候補生成手段００４０を有する。

図１において、文書データ記録装置００１０をサーバーに置き、文書データ入力手段００２０がネットワークを介して文書データを取得する実施形態もありえる。また、文書データ記録装置００１０と文書データ入力手段００２０と中間言語生成手段００３０をサーバーにおき、中間言語編集手段００６０がネットワークを介して中間言語データを取得する実施形態もありえる。また、登録フレーズ記録装置０１５０をサーバーにおき、登録フレーズ格納手段０１３０や登録フレーズ検索手段０１４０がネットワークを介して登録フレーズ記録装置０１５０との間で登録フレーズ情報をやり取りする実施形態もありえる。

次に、本発明の基本的構成図１において、各要素を具体的にどのような装置として構成されるかについて説明する。
文書データ記録装置００１０は、中間言語化して読み・アクセント・イントネーションなどを編集するための漢字かな混じり文章が記録された装置であり、ハードディスク、ＣＤＲＯＭなどの記録媒体である。文書データ入力手段００２０は、文書データ記録装置００１０から文書データを入力する手段であり、ハードディスクディスクデバイスドライバー、ＣＤＲＯＭデバイスドライバーなどのプログラムである。また、文書データ記録装置００１０がサーバーに置かれている場合は、文書データ入力手段００２０はネットワークを介してデータを受信するネットワークデバイスドライバーなどのプログラムである。中間言語生成手段００３０は、漢字かな混じり文章として入力された文書データに対して、言語解析を行なう装置であり、少なくとも、入力文章を単語に分割して読みおよびアクセント情報を付加する形態素解析処理を持ち、好ましくはさらに構文・意味解析処理をも行なう機能を有する。形態素解析とは漢字かな混じり文を個々の単語に分割する処理であり、品詞間の接続可能性を規定した接続データと品詞のコストを定義したコストデータをもとに、コスト最小法や文節数最小法などの手法を用いて実現する。

また、構文解析は品詞の関係構造を規定する文法データとＬＲパーザやＣＹＫ解析などの構文解析手法を用いて、入力文章に対する係り受け関係を出力する。読み・アクセント候補生成手段００４０は、中間言語生成手段００３０から出力された言語解析データと、登録フレーズ検索手段０１２０から出力された登録フレーズ情報をもとに、複数の読みやアクセント、複数のイントネーションの候補を持つ単語・フレーズそれぞれに対する変更候補リストデータを生成し、中間言語編集手段へと出力する。読み・アクセント候補生成手段００４０の実現方法は、以降の実施形態の詳細において説明する。中間言語表示装置００５０は、中間言語編集手段００６０から出力された中間言語データを利用者に対して表示する機能を持ち、ＣＲＴなどの文字・画像表示装置を利用することができる。

中間言語編集手段００６０は、読み・アクセント候補生成手段００４０から出力された変更候補リストデータを利用して、中間言語生成手段００３０から出力された中間言語データを中間言語表示装置００５０に表示するとともに、利用者からの編集指示を編集指示入力装置００９０から受け取り、中間言語データ内での単語・フレーズの読み・アクセントの変更や、イントネーションの調整などの中間言語編集機能を提供する。中間言語編集手段００６０の実現方法は、以降の実施形態の詳細において説明する。

音声合成装置００７０は、中間言語生成手段００３０から出力された中間言語データや、中間言語編集手段００６０で編集された中間言語データを入力として、音声波形データへと変換する機能を持ち、従来の音声合成手法を利用して実現できる。
音声再生装置００８０は音声合成装置００７０で変換された音声波形データを実際の音声として再生するスピーカーである。編集指示入力装置００９０は、利用者が編集指示を中間言語編集手段００６０に伝えるための装置であり、マウスやキーボード、またはタブレットなどの情報入力装置を用いて実現することができる。中間言語出力装置０１００は、中間言語編集手段００６０で正しい読み・アクセント、適切なイントネーションに調整された中間言語データを外部記録装置に出力したり、またはネットワークを介して別のシステムに送信したりする機能を有する。尚、外部記録装置への出力を行う場合はハードディスクデバイスドライバーのようなプログラムとして、ネットワークを介した送信を行う場合はネットワーク転送プログラムとして実現できる。

登録フレーズ指定手段０１１０は、中間言語編集手段００６０を使って利用者が正しい読み・アクセント、適切なイントネーションに調整した結果の中間言語データ、または中間言語データの一部の単語・フレーズを、その近傍の単語・フレーズ、または文書の内容やカテゴリーなどの情報と関連づけて指定する機能を持ち、関連づけられたデータは登録フレーズ格納手段０１３０を介して登録フレーズ記録装置０１５０に格納される。中間言語編集手段００６０は、中間言語表示装置００５０での中間言語データの表示の際に、中間言語生成手段００３０からの出力結果である中間言語データ内の単語・フレーズに対して、読み・アクセント候補生成手段００４０の出力結果である変更候補リストデータ、それに登録フレーズ記録装置０１５０から登録フレーズ検索手段０１２０を介して検索された登録フレーズ情報を対応づけて表示する。検索された登録フレーズデータを中間言語データ内のどの位置に挿入して表示するかは、登録フレーズ挿入手段０１２０が判定する。登録フレーズ指定手段０１１０、登録フレーズ格納手段０１３０、登録フレーズ検索手段０１４０、登録フレーズ挿入手段０１２０はそれぞれコンピュータプログラムを装置の処理装置で読み込むことで実現され、その詳細な実現方法は、以降の実施例において説明する。
以上、説明したような本発明の基本的構成を基に、より具体的な形態で実施する例を以下で説明する。

第１番の実施形態として、図１の基本的構成を採り、基本的なＧＵＩ編集機能を備えた中間言語編集システムとして、本発明を実施した場合を説明する。
図２は実施例１の編集画面レイアウトの一例である。画面左側には編集対象となる文書データリスト１０１０が表示され、画面右上には現在、編集中の文書内容１０２０が表示され、画面右下には現在編集中の文書の中間言語データ１０３０が表示されている。

図３は実施例１の中間言語編集システムの各装置・手段での処理内容の処理のフローチャートである。まず、本中間言語編集システムが起動すると（ステップ２０１０）、文書データ記録装置００１０から編集対象となる複数の文書データを読み込み、その文書タイトルを中間言語表示装置００５０の文書データリスト領域１０１０にリスト表示する（ステップ２０２０）。次に、本中間言語編集システムは利用者からの編集対象文書の指定待ちループに入る（ステップ２０３０）。編集指示入力装置００９０を介して、利用者が編集対象となる文書データを文書データリストの中から選ぶと、本中間言語編集システムは編集対象文書の内容表示を行なう（ステップ２０４０）。この内容表示とは、指定された編集文書の内容を文書データ記録装置００１０から読み込み、文書内容領域１０２０に表示する処理である。次に、読み込んだ指定文書の内容を中間言語生成手段００３０に入力して、中間言語データへと変換する（ステップ２０５０）。前述のように、中間言語生成手段００３０は、形態素解析や構文解析などの言語解析手法を用いて中間言語データへの変換を行なう。中間言語生成手段では従来の形態素解析手法や構文解析手法等を用いることができる。

中間言語生成手段００３０で行なわれる形態素解析の結果を図４に示す。形態素解析処理の結果、入力文章は単語に分割され、かつ、それぞれの単語に対して読み・アクセントの候補が辞書データから検索される。図４の例では、１８番目の形態素「最高値」に対して、「サイコ’ーチ」という読み・アクセントの候補（第１候補）と、「サイタカ’ネ」という第２候補が検索されたことを示している。

また、中間言語生成手段００３０で構文解析処理が行なわれた場合の解析結果例を図５に示す。図５の例では、「本日の」という文節と「株式」という文節が共に「市況は」という文節に係っていることなど、文節間の係り受け関係が解析されている。さらには、中間言語生成手段００３０では、入力文章中の単語の読みそれぞれについて、近くにどのような単語があったらその読みで読まれることが多いかを示す、共起データと呼ばれるデータを共起データ辞書から検索しておく場合もある。共起データの例を図６に示す。図６の例では、形態素「最高値」は、近くに「気温」「実験」などの単語があった場合に「サイコ’ーチ」という読み・アクセントになることが多く、近くに「株価」「株式」「終値」などの単語があった場合には「サイタカ’ネ」という読み・アクセントになることが多いことを示している。

中間言語生成手段００３０では、最終的に図４から図６のような解析結果を総合して、一番もっともらしい読み・アクセントを用いた中間言語データを生成する。図７と図８に中間言語データの例を示す。図７は共起データを用いなかった場合、図８は適切な共起データが存在し、「最高値」の読み・アクセントを正しく付与できた場合を示している。
こうして中間言語生成手段００３０で生成された中間言語データ、および言語解析データは、次に読み・アクセント候補生成手段００４０に渡され、読み・アクセント候補生成処理（ステップ２０６０）が行なわれるとともに、登録フレーズ検索手段０１４０に渡され、登録フレーズの検索処理（ステップ２０７０）が行なわれる。次に、読み・アクセント候補生成処理（ステップ２０６０）では、中間言語生成手段００３０から出力された中間言語データ（図７、図８）と、言語解析データ（図４、図５、図６）をもとに、複数の読み・アクセントを持つ単語を抜き出し、かつその単語に対する複数の読み・アクセントのリストを作成する。

ここでの文書データ例では、図９に示すように単語「最高値」のみが複数の読み・アクセント候補を持つ。図９の例は、中間言語生成手段００３０で共起データ図６を用いずに解析処理を行なった場合の読み・アクセント候補リストであり、「サイコ’ーチ」が第１候補、「サイタカ’ネ」が第２候補となっている。もし、中間言語生成手段００３０で図６の共起データを用いて解析処理を行なった場合は、図９の第１候補、第２候補の順番は入れ替わる。

一方、中間言語生成手段００３０から出力された中間言語データ、および言語解析データは登録フレーズ検索手段０１４０に入力され、その文章内の単語・フレーズに対応する登録フレーズデータが登録フレーズ記録装置０１５０内に存在しているかどうかを検索する（ステップ２０７０）。本発明における登録フレーズデータとは、以前の中間言語編集作業において、正しい読み・アクセントと聞き取りやすい抑揚に調整された結果を、その単語・フレーズと共に格納したデータを意味する。

登録フレーズ記録装置０１５０に格納されている登録フレーズデータの例を図１０に示す。図１０の登録フレーズデータ例の意味は、「終値で」という単語・フレーズ９０１０に対する調整済み読み・アクセント・抑揚データ９０４０が「＃８０オワリ’ネデ｜１」であり、その調整済みデータはその単語・フレーズ「終値で」の直後（＋１）に関連単語・フレーズ「今年」がある場合に再利用できるということを示している。ここで「＃８０」や「｜１」などのデータが抑揚などの聴きやすさを調整するパラメータである。中間言語のテキストデータの中にそのまま埋め込む形で韻律・抑揚の調整パラメータを記述するため、上記調整済み中間言語データをそのまま保存すれば、調整された韻律も保存され、その後の処理に活かすことができる。図１０のもう一つのデータ例では、「最高値」に対する調整済みデータ「サイタカ’ネ」は、「株価」や「終値」という単語・フレーズが元の単語から見て前後５単語以内に存在していれば、再利用できるということを示している。

これ以降の説明では、登録フレーズ検索処理（ステップ２０７０）を行なった結果、登録フレーズ記録装置０１５０から図１０に示す二つの登録フレーズデータが検索されたものとする。次に、登録フレーズ検索処理（ステップ２０７０）で検索された登録フレーズデータ（図１０）は、登録フレーズ挿入手段０１２０に渡され、登録フレーズ挿入処理（ステップ２０９０）が行なわれる。登録フレーズ挿入処理（ステップ２０９０）では、中間言語生成処理（ステップ２０５０）から出力された中間言語データの中で、検索された登録フレーズデータに一致する部分を、その調整済み読み・アクセント・抑揚データで置換する処理を行なう。図８の中間言語データ、および図１０の登録フレーズデータに対して、登録フレーズ挿入処理を行なった結果を図１１に示す。

次に、登録フレーズ挿入手段０１２０から出力された中間言語データ（図１１）、および、読み・アクセント候補生成手段００４０から出力された読み・アクセント候補リスト（図９）は、中間言語編集手段００６０に渡され、編集文書の中間言語表示処理（ステップ２０８０）が行なわれる。編集文書の中間言語表示処理（ステップ２０８０）では、中間言語データ（図１１）、および読み・アクセント候補リスト（図９）を、中間言語表示装置００５０上で利用者にとって見やすく、かつ編集しやすいレイアウトで表示する。この編集文書の中間言語表示処理（ステップ２０８０）で表示された中間言語データの例を図１２に示す。このレイアウト例ではアクセント句と呼ばれる単位ごとに、メニュー形式で変更候補を示しており、この説明例の場合、「終値で」と「最高値を」の二つの語句に対して、それぞれ二つの変更候補が示されている。さらに、登録フレーズ挿入処理（ステップ２０９０）の結果、「終値で」に対しては記録されていた調整済み読み・アクセント・抑揚データ「＃８０オワリ’ネデ｜１」が第１候補として挿入され、「最高値を」に対しては読み・アクセント候補生成処理（ステップ２０６０）から出力された読み・アクセント候補リストの中で、検索された登録フレーズデータに一致する「サイタカ’ネ」に対応する第２候補がすでに選ばれていることを示している。

こうして、編集文書の中間言語表示処理（ステップ２０８０）によって、中間言語表示装置００５０に中間言語データが表示されると、中間言語編集手段００６０は利用者からの編集指示を受け付けるループ（ステップ２１００）に入る。編集指示入力装置００９０を介して、利用者からの中間言語編集指示要求が発生すると、中間言語編集手段００６０は指示された編集処理の実行を行なう（ステップ２１１０）。

編集処理の実行が完了すると、中間言語編集手段００６０は再び利用者からの編集指示を受け付けるループに戻る（ステップ２１２０、ステップ２１００）。ここで、利用者から入力された編集指示が、編集中文書データの編集終了要求であった場合（ステップ２１２０）、システムは編集結果の中間言語出力処理（ステップ２１３０）を行なった後、次に編集する文書データの指定待ちループに戻る（ステップ２０２０）。編集結果の中間言語出力処理（ステップ２１３０）は、利用者の編集指示を実行した結果、最終的に作成された中間言語データ（図１１など）を、中間言語出力装置０１００によって、外部記録媒体への保存、もしくはネットワークを介してサーバー装置などへの送信処理が行なわれる。

次に、編集指示入力装置００９０を介して、利用者から個別の編集指示があった場合について説明する。編集指示の入力方法には、大きく分けて、編集対象となる語句・フレーズを指定してから、その対象語句・フレーズにどのような編集操作を行なうかを指定するという方法と、逆に次に行なう編集操作を指定してから、その操作対象となる語句・フレーズを指定するという方法がありえる。本発明の編集指示入力装置００９０は、編集指示指定操作が終わった後に編集対象語句・フレーズと編集操作内容を合わせて中間言語編集手段００６０に渡すことで、どちらの指定方法であっても対応することは可能である。また、対象と操作を別々に指定する方法のほかに、マウスとキーボード、またはマウスと音声などのように異なる入力装置を使って、対象と操作を同時に指定するという場合もありえるが、このような指定方法であっても、同様である。よって、中間言語編集手段００６０は、そのどちらかの手法を前提としたものである必要はない。

編集操作の一例として、まず、読み・アクセントの変更を説明する。
図１２のように表示された中間言語レイアウトにおいて、利用者が「サイタカ’ネオ」を指定し、その読み・アクセントを「サイコ’ーチオ」に変更するという編集指示が行なわれたとする。

この編集指示入力は、例えば、編集指示入力装置００９０がマウスだったとして、現在、有効になっている「サイタカ’ネオ」をクリックすることで編集対象語句・フレーズの指定を行い、次に「サイコ’ーチオ」をクリックして別の読み・アクセント候補への変更という編集指示を指定することでシステムに入力することができる。中間言語編集手段００６０は、この編集指示を受けて、「最高値を」に対応する読み・アクセントデータを現在の「サイタカ’ネオ」から「サイコ’ーチオ」に変更する処理を、指示された編集処理の実行ステップ（ステップ２１１０）で実施する。この編集結果は、中間言語編集手段００６０によって、中間言語表示装置００５０の中間言語レイアウト上でも更新される。

次に、登録フレーズ指定という編集指示について説明する。
登録フレーズ指定処理は、利用者が編集指示入力装置００９０を介して、中間言語編集手段００６０に登録フレーズ指定という編集指示を行なうことで、実行される。この登録フレーズ指定処理は、図１０に示すような登録フレーズデータを新たに記録・保存するための処理であり、ここで保存された登録フレーズデータは、別の文書データの編集作業において、登録フレーズ検索手段０１４０で検索され、再利用される。

図１３に登録フレーズ指定処理のフローチャートを示す。
図１３は、編集指示入力装置００９０での編集指示の指定が、編集操作を指定した後に編集対象となる単語・フレーズを指定する順序である場合のフローチャートであるが、前述のようにこの順番は逆になる場合もあり、また、同時に指定される場合もある。以下では、あらかじめ図６に示す共起データや、図１０に示す登録フレーズデータが保存されていなかった場合を想定して説明する。この場合、図２の文書内容表示領域１０２０に表示されている文章例に対する中間言語データとしては図８に示す誤りを含むものが出力され、中間言語表示装置００５０には、図１４に示す中間言語データレイアウトが表示されることになるが、その後、この状態の中間言語データに対して利用者が中間言語編集処理を行い、「最高値を」に対する正しい読み・アクセントの選択、および、「終値で」に対する聴きやすい抑揚の指定がなされた後、最終的に図１３に示す中間言語データに編集されたとする。

この状態で、まず、編集指示入力装置００９０を介して利用者によって登録フレーズ指定操作が指示されると、中間言語編集装置００６０は、登録フレーズ指定手段０１１０を起動する（ステップ１２０１０）。次に登録フレーズ指定手段０１１０は、登録単語・フレーズ指定処理を実行し（ステップ１２０２０）、登録フレーズデータの本体である再利用したい単語・フレーズの指定入力を受け付ける。この指定入力は、例えば、中間言語表示装置００５０に表示されている当該単語・フレーズ位置をマウスでクリックしたり、または中間言語表示装置００５０中間言語データ内に表示されているカーソルを当該単語・フレーズ位置までキーボードなどで移動させた後、例えば、リターンキーなどの特別なキー入力を行なわせるなどの入力方法を採用することができる。ここでは、この登録フレーズ指定処理（ステップ１２０２０）によって、図１２の「＃８０オワリネ’デ｜１」という調整済み単語が選択されたものとする。

次に登録フレーズ指定手段０１１０は、関連単語・フレーズ指定処理を実行し（ステップ１２０３０）、先に入力した登録単語・フレーズ「＃８０オワリネ’デ｜１」の調整に対して文脈データとなる関連単語・フレーズの指定入力を受け付ける。この指定入力も、マウスやキーボードを使って同様に指定させることが可能である。ただし、中間言語表示装置００５０上で複数の単語・フレーズが選択表示されることになるため、その違いを明確にさせる目的で、選択された単語・フレーズの色を変えたり、または文字の大きさや書体を変えるなどの表示方法の変更を行なうことが有効である。

次に登録フレーズ指定手段０１１０は、関連語位置の調整入力処理（ステップ１２０４０）を実行し、関連単語・フレーズが登録単語・フレーズからどのような位置関係にあるかの情報を入力させる。この入力は、二つの単語・フレーズの間にある形態素の個数を、システムが自動的にカウントしたものを利用してもよく、また、その値を利用者に提示して、調整した値を入力させるなどの方法をとってもよい。次に登録フレーズ指定手段０１１０は、ステップ１２０２０からステップ１２０４０までで入力された登録単語・フレーズデータ、関連単語・フレーズデータ、および関連語位置データをもとに、登録フレーズデータの生成処理（ステップ１２０５０）を実行する。この処理は、それまでのステップで入力された３種の情報を、登録フレーズ記憶装置０１５０に格納可能なデータ形態に変換するものであり、具体的には、図１０に示す４つのフィールド値を持つデータベースレコードなどの構造を用いることが可能である。

次に、こうして生成された登録フレーズデータは、登録フレーズ格納手段０１３０に渡され、登録フレーズ記録装置０１５０に記録・保存される。こうして新たに記録・保存された登録フレーズ情報は、本実施例１の前半の説明で述べたとおり、別の文書データの編集作業において自動的に再利用され、その結果、正しい読み・アクセント、聞き取りやすい抑揚がより適切に付与されることが可能となる。

第2番目の実施例として、本発明における登録フレーズ指定手段０１１０の実施の際に、ＧＵＩを用いてより直感的な指定ができるようにした中間言語編集ツールの例を説明する。実施例２の処理の流れは、登録フレーズ指定手段０１１０の中での処理（図１３のフローチャートで示される処理）以外はすべて実施例１の場合と同一であるので、ここでの説明は省略する。
以下、図３の中間言語編集ツールの処理フローにおいて、編集指示として登録フレーズの指定が選択されて登録フレーズ指定手段０１１０が起動され、図１３に示す登録フレーズ指定処理が開始されて以降の処理について説明する。

実施例１では、登録単語・フレーズ指定（ステップ１２０２０）、関連単語・フレーズ指定（ステップ１２０３０）での指定方法としてキーボード、マウス、または音声入力などで指定する実施形態を説明したが、関連単語・フレーズとしてどのようなものを指定すればよいのかについては、音声・言語・文法に関するある程度の知識がないと難しい場合が多い。これに対して、実施例２では、メニュー形式での指定方法を実現する。

図１５に本実施例の画面レイアウト例を示す。図１５は、登録フレーズ指定手段０１１０が起動され、図１３のフローチャートに従って登録フレーズ指定処理が開始された後、マウスカーソルを登録したい単語・フレーズ上でクリックすることで登録単語・フレーズ指定処理（ステップ１２０２０）が完了し、それに対するシステムの応答として、関連単語・フレーズおよびその関連語位置の候補をメニュー形式で表示している時点のレイアウトである。

図１６に本実施例における登録フレーズ指定処理のフローチャートを示す。図１３のフローチャートからは、関連単語・フレーズ指定処理（ステップ１２０３０）が関連単語・フレーズ候補リスト生成処理（ステップ１５０３０）に変わり、また関連語位置の調整入力処理（ステップ１２０４０）がユーザからの候補選択待ち処理（ステップ１５０４０）に変わっている。さらに図１６の関連単語・フレーズ候補リスト生成処理（ステップ１５０３０）の内部詳細処理を説明するフローチャートを図１７に示す。

以下、図１６、図１７のフローチャートに従って本実施例における登録フレーズ指定手段０１１０の動作について説明する。まず、編集指示入力装置００９０によって、ユーザから登録フレーズ指定という編集指示が中間言語編集手段００６０に送られる。次に、中間言語編集手段００６０は登録フレーズ指定手段０１１０を起動し、登録フレーズの指定処理へと移行する。ここで、図１６のフローチャートに制御が移り、最初に登録単語・フレーズ指定処理（ステップ１５０２０）が実行される。

本実施例では登録単語・フレーズ指定処理（ステップ１５０２０）は、マウスカーソルで登録したい単語をクリックすることで、またはドラッグなどの操作で単語を複数選択して登録したいフレーズを決定した後にそのフレーズをクリックすることで完了する。ここでどの単語、またはどのフレーズが選択されたかを示す情報が、次の関連単語・フレーズ候補生成処理（ステップ１５０３０）に渡される。この関連単語・フレーズ候補生成処理（ステップ１５０３０）では、登録単語・フレーズ指定処理（ステップ１５０２０）から渡された登録したい単語・フレーズに関する情報を元に、その単語・フレーズに関連の深い単語・フレーズを推定し、関連の深さによって並べ替えたリストを作成するという処理を行なう。

次に、図１７のフローチャートに移動し、関連単語・フレーズ候補リスト生成処理が開始される。まず、登録単語フレーズ指定処理（ステップ１５０２０）から渡された登録単語・フレーズの品詞推定処理（ステップ１６０３０）と、その登録単語・フレーズの直前と直後の単語の抽出およびその品詞推定および句読点の有無などの判定を行なう直前・直後位置の単語・品詞・句読点の判定処理（ステップ１６０４０）と、登録単語・フレーズを含む文書内で特徴的な語句を抽出する文書内からの特徴単語抽出処理（ステップ１６０２０）が実行される。これらの３つの処理はそれぞれ並列に実行してもよく、また一つずつ順番に実行してもよい。

まず、文書内からの特徴単語抽出処理（ステップ１６０２０）は、例えば図２に示す例文の場合、この文書が経済・株式に関するものであることを判定し、この文書内から「株式」「経済」「最高値」などの特徴語句を抽出する。この特徴語句抽出処理には、例えば、大量のテキストコーパスから計算した単語の出現頻度（出現確率）情報や、または複数単語の組での同時出現頻度（同時出現確率）などの情報を用いて、実現することができる。

図１８に単語の出現確率辞書の例を示す。図１８のように各単語に対してあるテキストコーパス内での出現確率を記述した辞書データを参照し、文書内に含まれる各単語の出現確率を求めると、例えばその中で一番小さい出現確率の単語が重要度が高い、すなわち特徴語句と見なすことができる。次に、登録単語・フレーズ品詞推定処理（ステップ１６０３０）は、形態素解析で用いる単語辞書を用いて検索すればよく、または中間言語生成手段００３０から中間言語データと共に品詞や係り受けなどの言語情報を渡してもらい、それを利用してもよい。次に、直前・直後位置の単語・品詞・句読点の判定処理（ステップ１６０４０）は、登録単語・フレーズの直前と直後の単語を取り出し、上述の手法でその品詞を推定し、さらに直前直後に句読点が存在するかどうかをチェックすればよいので、詳細は省略する。

この登録単語フレーズ指定処理（ステップ１５０２０）から渡された登録単語・フレーズの品詞推定処理（ステップ１６０３０）と、その登録単語・フレーズの直前と直後の単語の抽出およびその品詞推定および句読点の有無などの判定を行なう直前・直後位置の単語・品詞・句読点の判定処理（ステップ１６０４０）と、登録単語・フレーズを含む文書内で特徴的な語句を抽出する文書内からの特徴単語抽出処理（ステップ１６０２０）の処理の結果、例えば、図１９に示すようなデータが得られる。

この３つの処理は、関連語句・フレーズ候補リスト作成のための関連条件種別を列挙するために、それぞれ異なる観点からの条件を抽出する。関連条件種別が多くなるほど、以下の判定における精度が向上することが予想され、また、ここで抽出される条件は、抑揚・読みなどの違いに特に関連の深いものであることが望ましい。
本実施例２で挙げた登録単語・フレーズの品詞推定処理（ステップ１６０３０）、直前・直後位置の単語・品詞・句読点の判定処理（ステップ１６０４０）、文書内からの特徴単語抽出処理（ステップ１６０２０）はその一例であり、必ずしもこれら３つである必要はなく、また、これら３つを必ず同時に実行しなければならないものでもない。

次に、図１９に示す判定結果データは、調整事例コーパスの検索処理（ステップ１６０５０）に渡される。この調整事例コーパスの検索処理（ステップ１６０５０）では、これまでに行なった単語・フレーズへの読み・アクセント・抑揚の調整結果、およびその単語・フレーズの調整に関連があると判定された語句・フレーズが登録されている調整事例コーパスを参照し、図１９の関連語句・フレーズ候補それぞれに対して、それがどの程度、登録しようとしている調整結果と関連しているかを表す数値である調整品質予測値を付与する。

この予測値付与処理の手順は、調整事例コーパスの構成が例えば図２０のようになっている場合に、まず現在登録しようとしている語句・フレーズの単語・品詞と調整事例コーパス内の登録語句・フレーズとを比較し、その一致度に基づいて対応する関連条件種別を並び替えた後、その一致度を調整品質予測値として出力することで実現できる。一致度は、単語１つが一致すれば＋１０ポイント、品詞が１つ一致すれば＋５ポイントのようにして定めておき、その値を加算、もしくは何らかの演算を行い算出できる。この調整事例コーパスのデータには、本発明の中間言語編集ツールを使って以前に登録された登録フレーズ情報を変換・蓄積しておいたものでもよく、また、あらかじめ、人手により調整規則として抽出・登録されたものでもよい。

次に、調整事例コーパスの検索処理（ステップ１６０５０）で調整品質予測値を付与された候補リスト（図１９）は、調整品質予測値による並び替え処理（ステップ１６０６０）で予測値の大きい順番で並び替えられる。その結果を図２１に示す。
次に、この結果は、フローチャート図１６のユーザからの候補選択待ち処理（ステップ１５０４０）に渡され、登録単語・フレーズ「＃８０オワリ’ネデ｜１」に対する関連語句・位置候補メニューの形態に変換され、中間言語表示装置００５０上に表示される。この表示されたメニューの中からユーザによってその一つの関連語句・位置候補が選択されると、登録フレーズデータ生成処理（ステップ１５０５０）を経て、登録フレーズ格納処理（ステップ１５０６０）が実行され、指定された登録語句・フレーズが適切な関連語句・位置情報とともに保存されることになる。この登録フレーズデータ生成処理（ステップ１５０５０）と登録フレーズ格納処理（ステップ１５０６０）については、実施例１で説明した通りであるため、省略する。

本実施例２によれば、音声・言語・文法などの専門知識に乏しいユーザであってもシステムが提示した関連語句候補の中から選択すればよいため、単語・フレーズの読み・アクセント・抑揚の調整結果を適切な関連語句とともに登録フレーズ情報として容易に保存・再利用することができるようになる。また、本実施例２に係る別の画面レイアウト例として、図２２のように、直前語句に関する条件が左側に、直後語句に関する条件が右側に、文書特徴語に関する条件が上側に、などのように「直前」「直後」「文書」などの語句から連想される位置に対応する候補メニューを表示する場合も考えられる。

本発明の基本的構成、および実施例１のシステム構成を示す図。本発明の中間言語編集システムの画面レイアウト例を示す図。本発明の実施例１における処理のフローチャートを示す図。本発明の実施例１において、中間言語生成手段で内部的に解析される形態素解析データの一例を示す図。本発明の実施例１において、中間言語生成手段で内部的に解析される構文解析データの一例を示す図。本発明の実施例１において、中間言語生成手段で内部的に解析される共起解析データの一例を示す図。本発明の実施例１において、中間言語生成手段から出力される中間言語データの一例を示す図。本発明の実施例１において、中間言語生成手段から出力される中間言語データの一例を示す図。本発明の実施例１において、読み・アクセント候補生成手段から出力される読み・アクセント候補リストデータの一例を示す図。本発明の実施例１において、登録フレーズ記録装置から登録フレーズ検索手段によって検索される登録フレーズデータの一例を示す図。本発明の実施例１において、登録フレーズ挿入手段から出力される登録フレーズデータを適用した後の中間言語データの一例を示す図。本発明の実施例１において、編集文書の中間言語表示処理によって中間言語表示装置に表示される中間言語データレイアウトの一例を示す図。本発明の実施例１において、登録フレーズの指定処理のフローチャートを示す図。本発明の実施例１において、登録フレーズデータが存在しなかった場合に編集文書の中間言語表示処理によって中間言語表示装置に表示される中間言語データレイアウトの一例を示す図。本発明の実施例２において、登録フレーズ指定処理を行なっている途中の画面レイアウトの一例を示す図。本発明の実施例２において、登録フレーズの指定処理のフローチャートを示す図。本発明の実施例２において、関連単語・フレーズ候補リスト生成処理のフローチャートを示す図。本発明の実施例２において、文書内からの特徴単語抽出処理に用いる単語出現確率辞書の構成を示す図。本発明の実施例２において、関連単語・フレーズ候補リスト生成処理の途中で生成される関連語句・フレーズ候補リストの一例を示す図。本発明の実施例２において、調整事例コーパスの構成を示す図。本発明の実施例２において、調整品質予測値で並び替えられた結果の関連語句・フレーズ候補リストの一例を示す図。本発明の実施例２に係る別の画面レイアウトの一例を示す図。

符号の説明

００１０…文書データ記録装置、００２０…文書データ入力手段、００３０…中間言語生成手段、００４０…読み・アクセント候補生成手段、００５０…中間言語表示装置、００６０…中間言語編集手段、００７０…音声合成装置、００８０…音声再生装置、００９０…編集指示入力装置、０１００…中間言語出力装置、０１１０…登録フレーズ指定手段、０１２０…登録フレーズ挿入手段、０１３０…登録フレーズ格納手段、０１４０…登録フレーズ検索手段、０１５０…登録フレーズ記録装置、１０１０…文書データリスト表示領域、１０２０…文書内容表示領域、１０３０…中間言語データ表示領域、２０１０…起動処理ステップ、２０２０…文書データ読み込み・表示処理ステップ、２０３０…編集文書の指定あり判断ステップ、２０４０…編集文書の内容表示処理ステップ、２０５０…中間言語生成処理ステップ、２０６０…読み・アクセント候補生成処理ステップ、２０７０…登録フレーズ検索処理ステップ、２０８０…編集文書の中間言語表示処理ステップ、２０９０…登録フレーズ挿入処理ステップ、２１００…編集指示の入力あり判断ステップ、２１１０…指示された編集処理の実行処理ステップ、２１２０…編集終了判断ステップ、２１３０…編集結果の中間言語出力処理ステップ、３０１０…形態素番号、３０２０…形態素表記、３０３０…品詞、３０４０…読み・アクセント（第１候補）、３０５０…読み・アクセント（第２候補）、５０１０…形態素、５０２０…読み・アクセント、５０３０…共起単語リスト、８０１０…形態素、８０２０…読み・アクセント（第１候補）、８０３０…読み・アクセント（第２候補）、９０１０…単語・フレーズ、９０２０…関連単語・フレーズ、９０３０…関連語の位置、９０４０…調整済み読み・アクセント・抑揚、１２０１０…登録フレーズ指定開始ステップ、１２０２０…登録単語・フレーズ指定処理ステップ、１２０３０…関連単語・フレーズ指定処理ステップ、１２０４０…関連語位置の調整入力処理ステップ、１２０５０…登録フレーズデータ生成処理ステップ、１２０６０…登録フレーズ格納処理ステップ、１２０７０…登録フレーズ指定終了ステップ、１５０１０…登録フレーズ指定開始ステップ、１５０２０…登録単語・フレーズ指定処理ステップ、１５０３０…関連単語・フレーズ候補リスト生成処理ステップ、１５０４０…ユーザからの候補選択待ち処理ステップ、１５０５０…登録フレーズデータ生成処理ステップ、１５０６０…登録フレーズ格納処理ステップ、１５０７０…登録フレーズ指定終了ステップ、１６０１０…関連単語・フレーズ候補リスト生成処理開始ステップ、１６０２０…文書内からの特徴単語抽出処理ステップ、１６０３０…登録単語・フレーズ品詞推定処理ステップ、１６０４０…直前・直後位置の単語・品詞・句読点の判定処理ステップ、１６０５０…調整事例コーパスの検索処理ステップ、１６０６０…調整品質予測値による並び替え処理ステップ、１６０７０…関連単語・フレーズ候補リスト生成処理終了ステップ。

Claims

漢字を含む読み上げ対象文書の入力手段と、
上記読み上げ対象文書から中間言語を生成する生成手段と、
上記中間言語を編集する編集手段と
上記編集された中間言語に基づいて音声合成を行う音声合成手段と、
上記合成された音声の出力手段とを有し、
上記編集手段は、表示手段に表示される上記中間言語に対して入力される修正指示を受け付けて、該修正指示の情報を記憶手段に記憶し、
上記修正指示は、少なくとも修正対象の語句の指定と、該修正反映の条件指定を含むものであることを特徴とする音声合成装置。
上記修正反映の条件指定は、上記修正対象語句の共起語句の情報を含むことを特徴とする請求項１記載の音声合成装置。
上記修正反映の条件指定は、さらに上記共起語句の位置条件の情報も含むことを特徴とする請求項１又は２に記載の音声合成装置。
上記編集手段は、上記表示手段に上記中間言語とともに複数の上記条件の候補を提示して、上記入力手段からの選択指示を受け付けることを特徴とする請求項１乃至３の何れかに記載の音声合成装置。
上記編集手段は、上記入力された修正対象の語句の品詞推定と、該修正対象語句の前後の単語の品詞を推定と、上記対象文書中の特徴語句の抽出を行い、これらの結果を過去の上記修正の記録と比較して決定した修正条件を上記表示手段に表示することを特徴とする請求項１乃至４の何れかに記載の音声合成装置。