JP2005266009A

JP2005266009A - データ変換プログラムおよびデータ変換装置

Info

Publication number: JP2005266009A
Application number: JP2004075166A
Authority: JP
Inventors: Kiyomi Doi; 清美土居
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2004-03-16
Filing date: 2004-03-16
Publication date: 2005-09-29

Abstract

【課題】本発明の目的は、聴覚により、ＨＴＭＬデータの内容をユーザがより正確に把握することができるようにすることである。
【解決手段】本発明は、ＨＴＭＬデータを、当該ＨＴＭＬデータの内容を当該コンピュータに音声で出力させるための音声出力データに変換するためのプログラムである。ここで、ＨＴＭＬデータには、Ｗｅｂページとして表示された際の表示内容の構造を示すタグが含まれており、コンピュータは、ＨＴＭＬデータのタグと、当該タグの内容に応じた音声を出力するための変換データとの組合せを記憶している。このような環境において、本発明に係るプログラムは、ＨＴＭＬデータを読みこみ、読みこんだＨＴＭＬデータに含まれるタグの内容に応じた変換データを、コンピュータが記憶している組合せを参照して取得し、特定した変換データに基づいて、音声出力データを生成するようにしている。
【選択図】図１

Description

本発明は、データ変換プログラムに関し、より特定的には、コンピュータにおいて実行され、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）データを、当該ＨＴＭＬデータの内容を当該コンピュータに音声で出力させるための音声出力データに変換するためのデータ変換プログラムに関する発明である。

近年、通信技術の発展や携帯端末の高機能化に伴い、携帯電話やカーナビゲーションシステム等を用いたインターネットのアクセスが増加している。上記携帯電話やカーナビゲーションシステム等では、従来のパーソナルコンピュータを用いた場合と異なり、より容易に操作できるユーザインタフェースが求められる。具体的には、従来では視覚により認識されていたＷｅｂページの内容を、音声によりユーザに認識させるユーザインタフェースが求められている。このようなユーザインタフェースを実現するためのシステムとして、ＶｏｉｃｅＸＭＬが用いられたシステムが存在する。当該ＶｏｉｃｅＸＭＬが用いられたシステムは、ＨＴＭＬデータにより作成されたＷｅｂページが表示された携帯電話やカーナビゲーションシステム等を、音声対話により操作するシステムである。

ここで、上記ＶｏｉｃｅＸＭＬのデータ（以下、ＶｏｉｃｅＸＭＬデータと称す）を、ＨＴＭＬデータに基づいて生成するシステムが、従来から存在している。このようなシステムでは、まず、ＶｏｉｃｅＸＭＬデータに変換したいＨＴＭＬデータが、コンピュータ（携帯電話やカーナビゲーションシステム）に入力される。ＨＴＭＬデータを取得したコンピュータは、当該ＨＴＭＬデータを構文解析する。次に、当該コンピュータは、構文解析したＨＴＭＬデータから、文字情報のみを抽出する。最後に、当該コンピュータは、当該文字情報の音声データを生成して、当該音声データに基づいて音声を出力する。これにより、ユーザは、当該ＨＴＭＬデータに基づいて表示されるべきＷｅｂページの内容を、音声により認識することが可能となる。

また、ユーザは、コンピュータから出力される音声に対して、声を発して応答することにより、当該コンピュータを操作することが可能である。具体的には、ユーザは、コンピュータから出力される音声に対して声を発して返事する。応じて、コンピュータは、ユーザが発した声を認識して、文字が入力されたものと擬制して動作を行う。これにより、ユーザは、音声対話によりコンピュータを操作することが可能となる。
特開２０００−１８７４９３号公報

ところで、ＨＴＭＬデータにより表示されるＷｅｂページには、さまざまなフォントや色の文字が使用されている。そして、文字のフォントや色は、ＨＴＭＬデータ中のタグにより設定されている。

しかしながら、上記システムでは、ＨＴＭＬデータに含まれるタグが無視された状態でＶｏｉｃｅＸＭＬデータが生成されている。そのため、当該システムにおいて、コンピュータから出力される音声は、文字のフォントや色などに関わらず、単調なリズムおよび大きさで出力されていた。そのため、ユーザは、当該Ｗｅｂページにおいてどの部分が重要であるかを判断することが困難であった。

また、ユーザがアンケートに答えるために情報を入力することができる形式のＷｅｂペ
ージでは、当該ユーザに性別や年齢等を選択させるための選択欄が存在する。このような選択欄も、ＨＴＭＬデータ中ではタグにより設定されている。そのため、上記従来のシステムにより、このようなＨＴＭＬデータがＶｏｉｃｅＸＭＬデータに変換された場合、当該選択欄がうまく音声により表現されない。さらに、コンピュータは、ＨＴＭＬデータの文字情報のみを抽出しただけである。そのため、コンピュータは、選択欄に対する応答と、画面を介して入力された応答とを結びつけることができない。

すなわち、上記従来のシステムでは、ＨＴＭＬデータ中のタグを認識せずにＶｏｉｃｅＸＭＬデータが生成されていたので、ユーザにとって、非常に利便性が悪かった。

そこで、本発明の目的は、当該ＨＴＭＬデータに含まれるタグを、ＶｏｉｃｅＸＭＬデータに反映させて、ＨＴＭＬデータをＶｏｉｃｅＸＭＬデータに変換できるデータ変換プログラムを提供することである。

本発明は、コンピュータにおいて実行され、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）データを、当該ＨＴＭＬデータの内容を当該コンピュータに音声で出力させるための音声出力データに変換するためのプログラムである。ここで、ＨＴＭＬデータには、当該ＨＴＭＬデータが読みこまれてＷｅｂページとして表示された際の表示内容の構造を示すタグが含まれており、コンピュータは、ＨＴＭＬデータのタグと、当該タグの内容に応じた音声を出力するための変換データとの組合せを記憶している。このような環境において、本発明に係るプログラムは、ＨＴＭＬデータを読みこみ、読みこんだＨＴＭＬデータに含まれるタグの内容に応じた変換データを、コンピュータが記憶している組合せを参照して取得し、特定した変換データに基づいて、音声出力データを生成するようにしている。

なお、表示内容は、文字の情報である場合には、タグは、表示内容に該当する文字の情報の表示形式を示しており、変換データは、タグが付された文字の情報の表示形式に応じた音声出力方式で、当該文字の情報を前記コンピュータに音声出力させるためのデータであることが望ましい。

また、タグは、コンピュータがユーザに対して操作を要求するための情報を含み、変換データは、タグにおいてコンピュータが要求している操作に応じた音声が出力されるためのデータであってもよい。

また、音声出力データは、メインデータとサブデータとを含んでいてもよい。この場合には、メインデータには、ＨＴＭＬデータの表示内容が音声として出力されるための情報が含まれており、サブデータには、タグにおいてコンピュータが要求している操作に応じた音声が出力されるための情報が含まれており、メインデータのコンピュータがユーザに対して操作を要求するポイントには、サブデータが読みこまれるべき指示が存在している。

また、音声出力データは、ＶｏｉｃｅＸＭＬ（ｅＸｔｅｎｓｉｏｎＭａｒｋｕｐＬａｎｇｕａｇｅ）データであることが望ましい。

なお、本発明は、プログラムのみならず、当該プログラムを格納したデータ変換装置に対しても向けられている。

本発明に係るデータ変換プログラムによれば、当該ＨＴＭＬデータに含まれるタグを、
当該タグの内容に応じた音声出力に変換して音声出力データを生成している。そのため、ユーザは、当該音声出力データによりコンピュータから出力される音声に基づいて、タグの情報を取得することが可能となる。その結果、ユーザは、聴覚により、よりＨＴＭＬデータの内容を正確に把握することができるようになる。

なお、ＨＴＭＬデータによりＷｅｂページに表示される表示内容が文字の情報であり、タグは、当該文字の情報の表示方式を示している。そして、変換データが、タグに付された文字の情報の表示形式に応じた音声出力方式を示すデータである。そのため、ユーザは、Ｗｅｂページ中の文字情報の重要度等を音声の速度、大きさあるいは高さにより認識することができるようになる。

また、タグは、コンピュータがユーザに対して操作を要求するための情報を含み、変換データは、タグにおいてコンピュータが要求している操作に応じた音声が出力されるためのデータである。そのため、ユーザは、送信ボタンを示すタグ等といったユーザに操作を要求するタグを音声により認識することができるようになる。

また、Ｗｅｂページの表示内容を音声出力するためのメインデータとユーザに対して要求される操作内容を示すサブデータとが関連付けられているので、これらの２つのデータが連動させることができる。

（第１の実施形態）
以下に、本発明の第１の実施形態に係るデータ変換プログラムについて図面を参照しながら説明する。ここで、図１は、当該データ変換プログラムが格納されたコンピュータ（以下、データ変換装置と称す）の構成を示した機能ブロック図である。図１に示すデータ変換装置は、当該データ変換装置は、例えば、携帯電話やカーナビゲーションシステムのコンピュータにデータ変換プログラムがインストールされたものである。当該データ変換装置は、図２に示すようなＷｅｂページの文字情報を音声出力するためのＶｏｉｃｅＸＭＬデータを、当該ＷｅｂページのＨＴＭＬデータに基づいて生成する装置である。なお、当該データ変換装置は、ＶｏｉｃｅＸＭＬデータがデータ変換装置において実行された場合に、図２の太字の部分を通常よりも大きな音声で出力したり、下線が付された部分の読む速度を遅くしたりできるようにして、当該ＶｏｉｃｅＸＭＬデータを生成する。かかる動作を実現するために、当該データ変換装置は、ＨＴＭＬデータのタグを読み出して、当該タグの内容に基づいてＶｏｉｃｅＸＭＬデータを生成している。なお、図２は、Ｗｅｂページの一例を示した図である。

以下に、図面を参照しながら、当該データ変換プログラムの各構成部の説明を行う。なお、図３は、図２のＷｅｂページのソースであるＨＴＭＬデータである。また、図４は、図３のＨＴＭＬデータを構文解析して得られる中間データである。具体的には、図３の中間データは、ＨＴＭＬデータを各記述内容（テキスト情報や画像情報）を順番に読み出して、各記述内容のデータ種別、タグ種別およびテキスト情報等の情報を、表にまとめたデータである。なお、タグ番号は、ＨＴＭＬデータの記述内容の番号を示している。データ種別は、記述内容がテキストデータであるか画像データであるかを示している。タグ種別は、記述内容に付されたタグの種別を示している。また、テキスト情報／ファイル名は、記述内容を示している。具体的には、記述内容がテキスト情報の場合には、文章が記述され。記述内容が画像の場合には、ファイル名が記述される。

ここで、図１のデータ変換装置は、ドキュメント解析部１、中間データ記憶部２、シナリオ生成部３、対話シナリオ記憶部４および対話処理部５を備える。ドキュメント解析部１は、入力されてきた図３に示すＨＴＭＬデータを構文解析して、図４に示す中間データ
を生成する。なお、当該ドキュメント解析部１は、例えばインターネットエクスプローラのパーサー機能により実現される。中間データ記憶部２は、ドキュメント解析部１が生成した中間データを一時的に記憶する部分である。シナリオ生成部３は、中間データに基づいて、ＶｏｉｃｅＸＭＬを生成し、図５に示すように、出力方式記憶部１１、方式選択部１２およびシナリオ出力部１３を備える。なお、図５は、シナリオ生成部３の構成を示したブロック図である。

出力方式記憶部１１は、ＨＴＭＬデータのタグと、当該タグに対応する音声の出力設定との組合せを示す対応テーブルを記憶している。図６は、当該対応テーブルの構成の一例を示した図である。図６に示す対応テーブルは、タグ種別と、当該タグ種別に対応する出力設定とが記述されている。具体的には、タイトルを示す「ｈ１」のタグが付されたテキスト情報は、音量を０．７（通常音量よりも大きい音量）に設定されて出力される。また、タイトルを示す「ｈ３」のタグが付されたテキスト情報は、音量を０．６（通常音量よりも大きい音量）に設定されて出力される。また、下線が付されていることを示す「ｕ」のタグが付されたテキスト情報は、ピッチ（音の高さ）が２５０に設定されて出力される。また、出典・参照先を示す「ｃｉｔｅ」のタグが付されたテキスト情報は、読出し速度が１００（通常速度よりも遅い速度）に設定される。

方式選択部１２は、図６に示す対応テーブルを参照して、図４に示す中間データに含まれるタグに対応する出力設定を特定する。シナリオ出力部１３は、方式選択部１２が選択した出力設定に対応するＶｏｉｃｅＸＭＬデータ用のタグを生成して、図７に示すＶｏｉｃｅＸＭＬデータを生成する。ここで、図７は、方式選択部１２で生成されるＶｏｉｃｅＸＭＬデータの一例を示した図である。対話シナリオ記憶部４は、ＶｏｉｃｅＸＭＬデータを記憶する。

対話処理部５は、音声認識部６と音声出力部７とを備える。音声認識部６は、ユーザが発した音声を認識し、当該音声をユーザからの指示として、指示に応じた動作をコンピュータに行わせる。音声出力部７は、対話シナリオ記憶部４が記憶しているＶｏｉｃｅＸＭＬデータを読み出して、図３に示すＷｅｂページの内容を音声により読上げる。

以上のように構成されたデータ変換装置について、以下に動作を説明する。なお、本実施形態で示す各処理は、コンピュータを用いてソフトウェア的に実現するか、あるいはそれら各処理を行う専用のハードウェア回路を用いて実現することができる。

まず、ドキュメント解析部１に図３に示すＨＴＭＬデータが入力されてから、図４に示す中間データが生成されるところまでの間に、当該データ変換装置が行う動作について説明する。

データ変換装置は、インターネット等のネットワークを介して、もしくはローカルのファイルシステムよりＨＴＭＬデータを読み込む。応じて、ドキュメント解析部１は、当該ＨＴＭＬデータの構文解析を行い、中間データを生成する。具体的には、ドキュメント解析部１は、当該ＨＴＭＬデータに含まれるテキスト情報あるいは画像ファイルのファイル名を読み出して、中間データのテキスト情報／ファイル名の欄に記入する。次に、ドキュメント解析部１は、各テキスト情報がテキスト情報であるのか画像情報であるのかを判定し、判定結果を中間データのデータ種別の欄に記入する。次に、ドキュメント解析部１は、テキスト情報あるいは画像ファイルのファイル名に付されたタグを読み出して、読み出したタグを中間データのタグ種別の欄に記入する。以上の動作により、図４に示す中間データが生成される。なお、当該構文解析は、前述の通り、インターネットエクスプローラのパーサー機能などを用いて実現することが可能である。

次に、データ変換装置が中間データに基づいて、ＶｏｉｃｅＸＭＬデータを生成する際に行う動作について、図面を参照しながら説明する。なお、図８は、このときに、方式選択部１２が行う動作を示したフローチャートである。

まず、方式選択部１２は、中間データ中から次のタグ番号のデータを取り出す（ステップＳ１）。なお、最初の取り出し動作の場合には、方式選択部１２は、タグ番号が１番のデータを取り出す。

次に、方式選択部１２は、取り出したデータが最後のタグ番号のデータであるか否かを判定する（ステップＳ３）。取り出したデータが最後のタグ番号のデータである場合には、本処理は、終了する。取り出したデータが最後のタグ番号のデータでない場合には、本処理は、ステップＳ５に進む。

取り出したタグが最後のタグ番号のデータでない場合には、方式選択部１２は、取り出したデータがテキスト情報であるか否かを判定する（ステップＳ５）。取り出したデータがテキスト情報である場合には、本処理はステップＳ７に進む。一方、取り出したデータがテキストデータでない場合には、本処理はステップＳ１７に進む。

タグ情報がテキスト情報である場合、方式選択部１２は、出力方式の選択を行う。具体的には、方式選択部１２は、図４の中間データのタグ種別の欄を参照し、ＨＴＭＬのマークアップによるタグ修飾がされているか否かを判定する（ステップＳ７）。タグ修飾がされている場合には、本処理はステップＳ９に進む。一方、タグ修飾がされていない場合には、本処理はステップＳ１７に進む。

タグ修飾がされている場合には、方式選択部１２は、中間データのタグ種別の欄からタグを取り出す（ステップ９）。タグを取得した方式選択部１２は、図６に示す対応テーブルを参照して、当該タグが登録されているか否かを判定する（ステップＳ１１）。タグが登録されている場合には、本処理はステップＳ１３に進む。一方、タグが登録されていない場合には、本処理はステップＳ１７に進む。

タグが登録されている場合、方式選択部１２は、図６の対応テーブルを参照して、取得したタグに対応する出力設定の情報を取得する（ステップＳ１３）。出力設定の情報を取得した方式選択部１２は、当該出力設定の情報をテキスト情報に付加して、シナリオ出力部１３に出力する（ステップＳ１５）。応じて、当該シナリオ出力部１３は、出力設定の情報とテキスト情報とを取得する。

上記ステップＳ１７において、シナリオ出力部１３は、当該出力設定の情報の内容に応じたＶｏｉｃｅＸＭＬデータ用の韻律変更のタグを生成して、テキスト情報に付加して、ＶｏｉｃｅＸＭＬデータに対して出力する（ステップＳ１７）。なお、当該ステップＳ１７において、出力設定の情報が付加されていない場合には、当該シナリオ出力部１３は、テキスト情報または画像情報をそのままＶｏｉｃｅＸＭＬデータに出力する。この後、本処理は、ステップＳ１に戻る。そして、ステップＳ１〜１７の処理は、最後のタグ番号に到達するまで繰り返し行われる。

ここで、上記フローチャートに示す動作の具体例として、図３のＨＴＭＬデータの３行目の「＜ｈ１＞一つ目の見出し＜／ｈ１＞」を例にとって説明する。図３に示すＨＴＭＬデータの「＜ｈ１＞一つ目の見出し＜／ｈ１＞」の行は、図４の中間データの１番のタグ番号の欄に格納されている。ここで、１番のタグ番号のデータは、テキスト情報であり、タグ種別の欄には、タグが記入されている。そのため、方式選択部１２は、タグ種別である「ｈ１」を読み出す。

次に、方式選択部１２は、読出したタグ「ｈ１」に対応する出力設定の情報を、対応テーブルから読み出す。なお、タグ「ｈ１」に対応する出力設定の情報は、音量０．７が登録されている。そこで、方式選択部１２は、音量０．７の出力設定の情報を、「一つ目の見出し」というテキスト情報に付加して、シナリオ出力部１３に出力する。

次に、シナリオ出力部１３は、テキスト情報「一つ目の見出し」を０．７の音量で出力することを示すタグを生成して、当該テキスト情報「一つ目の見出し」に付加して、ＶｏｉｃｅＸＭＬデータに出力する。具体的には、シナリオ出力部１３は、最初に音声出力することを示すタグである「ｐｒｏｍｐｔ」を付する。次に、当該シナリオ出力部１３は、出力する韻律を設定するためのタグ「ｐｒｏｓ」を付したの後に、音量を０．７に設定する「ｖｏｌ＝”０．７”」を付して、ＶｏｉｃｅＸＭＬデータに出力する。以上の作業が、各タグ番号のデータに対して行われて、図７に示すＶｏｉｃｅＸＭＬデータが完成する。

なお、シナリオ生成部では、ＶｏｉｃｅＸＭＬデータのルート要素やその他のドキュメントとしての体裁を整えるためのタグ要素の出力も行うが、本発明の主眼ではないので、省略する。

なお、対話処理部５では、生成したＶｏｉｃｅＸＭＬデータを読み込み、音声認識、音声合成などの音声入出力機能を用いて、シナリオに基づいたユーザとの音声対話処理を実行する。

以上のように、本実施形態に係るデータ変換装置によれば、ＨＴＭＬデータ中のタグが、当該タグに対応した出力方式を持ったＶｏｉｃｅＸＭＬデータ用のタグに変換される。その結果、タグの内容に応じた音声出力が実現されるようになり、ユーザは、音声によりＨＴＭＬデータの内容を容易に認識できるようになった。

なお、本実施の形態では、ＨＴＭＬデータが解析され、中間データに格納された後に対話シナリオの生成が行われたが、ＨＴＭＬデータの解析処理と並行してシナリオが生成されてもよい。

また、出力設定をタグ種別ごととしたが、タグ要素と属性値との組合せによって、出力設定を行うことも可能である。

（第２の実施形態）
以下に、本発明の第２の実施形態に係るデータ変換プログラムについて図面を参照しながら説明する。ここで、図９は、当該データ変換プログラムが格納されたコンピュータ（以下、データ変換装置と称す）の構成を示した機能ブロック図である。図９に示すデータ変換装置は、第１の実施形態と同様にＷｅｂページの文字情報を音声出力するためのＶｏｉｃｅＸＭＬデータを、当該ＷｅｂページのＨＴＭＬデータに基づいて生成する装置である。ただし、本実施形態に係るデータ変換装置は、第１の実施形態と異なり、ユーザに対して一方的にＷｅｂページの内容を読上げるのではなく、読上げと応答受け付けとをＷｅｂページの内容に応じて行うことができる。具体的には、当該データ変換装置は、図１０に示すような辞書検索の画面において、音声により入力を促すと共に、ユーザからの入力を待ちうけることができるＶｏｉｃｅＸＭＬデータを生成する。かかる動作を実現するために、当該データ変換装置は、ＨＴＭＬデータのタグを読み出して、当該タグの内容に基づいてＶｏｉｃｅＸＭＬデータを生成している。なお、図１０は、Ｗｅｂページの一例を示した図である。図１０の２行目の空欄は、検索する単語が入力される欄である。また、図１０の「クエリ送信」は、ユーザがクリックして検索する単語を送信するためのボタン
である。

以下に、図面を参照しながら、当該データ変換プログラムの各構成部の説明を行う。なお、図１１は、図１０のＷｅｂページのソースであるＨＴＭＬデータである。また、図１２は、図１１のＨＴＭＬデータを構文解析して得られる中間データである。具体的には、図１１の中間データは、ＨＴＭＬデータを各記述内容（テキスト情報や画像情報）を順番に読み出して、各記述内容のデータ種別、タグ種別およびテキスト情報等の情報を、表にまとめたデータである。なお、タグ番号は、ＨＴＭＬデータの記述内容の番号を示している。データ種別は、記述内容がテキストデータであるか画像データであるかを示している。タグ種別は、記述内容に付されたタグの種別を示している。また、テキスト情報／ファイル名は、記述内容を示している。具体的には、記述内容がテキスト情報の場合には、文章が記述され。記述内容が画像の場合には、ファイル名が記述される。

図９に示すデータ変換装置は、ドキュメント解析部１、中間データ記憶部２、シナリオ生成部３３、対話シナリオ記憶部３４、操作ポイント保存部３５および対話処理部５を備える。ドキュメント解析部１は、入力されてきた図１１に示すＨＴＭＬデータを構文解析して、図１２に示す中間データを生成する。なお、当該ドキュメント解析部１は、例えばインターネットエクスプローラのパーサー機能により実現される。中間データ記憶部２は、ドキュメント解析部１が生成した中間データを一時的に記憶する部分である。シナリオ生成部３３は、中間データに基づいて、読上げ用ファイルと操作用ファイルとの２種類のＶｏｉｃｅＸＭＬデータを生成し、図１３に示すように、読上げ用ファイル生成部４０と操作用ファイル生成部４１とを備える。

ここで、読上げ用ファイルと操作用ファイルとについて、図面を参照しながら説明する。図１４は、読上げ用ファイルの一例を示した図である。また、図１５は、操作用ファイルの一例を示した図である。

読上げ用ファイルは、図１０に示すＷｅｂページを音声により読上げる際のメインルーチンの役割を果たす。操作用ファイルは、図１０に示すＷｅｂページを音声により読上げる際のサブルーチンの役割を果たす。以下に、図１０に示すＷｅｂページを例にとって説明する。

図１０に示すＷｅｂページには、通常のテキスト情報と、文字入力の為の空欄と、送信ボタンとが含まれている。このようなＷｅｂページでは、図１１に示すように、通常のテキスト情報の部分（すなわち、「辞書検索」の部分）と、「ｆｏｒｍ」のタグにより囲まれた部分（すなわち、空欄と送信ボタンの部分）とが存在する。このような場合には、読上げ用ファイルに、「ｆｏｒｍ」のタグにより囲まれた部分以外のテキスト情報の読上げが書き込まれると共に、「ｆｏｒｍ」に囲まれた部分については、操作用ファイルを読みこむ旨が書きこまれる。そして、当該操作用ファイルには、「ｆｏｒｍ」に囲まれた部分のテキスト情報と空欄と送信ボタンとに関する情報が、音声情報として書きこまれる。

以下に、図１４に示す読上げ用ファイルの詳細について説明する。まず、図１４の（１）の部分では、Ｗｅｂページに表示されている「辞書検索」の文字が読上げられる為の記述がなされる。次に、図１４の（２）の部分では、ユーザが「はい」か「いいえ」の返事をすることを示す記述がなされる。図１４の（３）の部分では、ユーザに対して文字を入力するか否かを問い掛ける音声をデータ変換装置が発するためのテキスト情報が記述される。図１４の（４）の部分では、図１４の（３）の部分での問い掛けに対するユーザの応答が、「はい」の場合には、操作ファイル「ｆｏｒｍ．ｖｘｍｌ」に含まれる操作フォームの部分に進む為の指示が記入される。次に、図１５に示す操作ファイルの詳細について説明する。

まず、図１５の（１）の部分では、ユーザに文字の入力を開始することを通知する音声を出力するため記述がなされる。次に、図１５の（２）の部分では、図１０のＷｅｂページに示した「検索する言葉を入力して下さい。」のテキスト情報を音声出力させるための記述がなされる。次に、図１５の（３）の部分では、ユーザにテキスト情報の入力を促す音声を出力するための記述がなされる。次に、図１５の（４）の部分では、ユーザに対して、入力したテキスト情報を送信する否かを問い掛ける音声を出力するための記述がなされる。また、併せて、ユーザからの応答が「はい」の場合には、当該ユーザが入力したテキスト情報を送信する操作を行うための記述がなされる。

次に、操作ポイント保存部３５について説明する。操作ポイント保存部３５は、図１６に示すような対応表を記憶している。当該対応表は、ＨＴＭＬデータ中にどのような操作をユーザに促すためのタグがどこに存在のかを示す表である。具体的には、タグ番号は、ユーザに操作を促すタグが存在する場所を示す。操作種別は、ユーザに促される操作が何であるのかを示す。また、操作フォーム名は、このようなタグがＨＴＭＬデータ中に複数存在する場合に、それぞれを識別可能とするために付される名前である。なお、当該対応表は、データ選択部６２が、中間データを読み出した際に、当該データ選択部６２により生成される。

ここで、図９および図１３の説明に戻る。図１３は、シナリオ生成部３３の詳細な構成を示した機能ブロック図である。当該シナリオ生成部３３は、読上げ用ファイル生成部４０と操作用ファイル生成部４１とを含む。

まず、操作用ファイル生成部４１について説明する。操作用ファイル生成部４１は、中間データおよび図１８に示す対応表に基づいて、操作用ファイルを生成し、テーブル記憶部６１とデータ選択部６２とを含む。テーブル記憶部６１は、図１７に示す変換テーブルを記憶している。当該変換テーブルは、ＨＴＭＬデータ中に含まれるタグと、当該タグに対応するＶｏｉｃｅＸＭＬデータ用のタグを含むデータとが関連付けられて格納されている。当該ＶｏｉｃｅＸＭＬデータ用のタグを含むデータは、ＨＴＭＬデータ中のタグの内容に対応する音声を出力させるためのデータである。データ選択部６２は、ＨＴＭＬデータ中のタグを読み出して、当該タグに対応するＶｏｉｃｅＸＭＬデータ用のタグを含むデータを選択し、操作用ファイルに記入する。

読上げ用ファイル生成部４０は、中間データに基づいて、読上げ用ファイルを生成し、遷移用ファイル記憶部５１とファイル選択部５２とを含む。遷移用ファイル記憶部５１は、図１８に示す遷移用ファイルを複数パターン記憶している。ここで、遷移用ファイルについて説明する。図１８は、遷移用ファイルの一例を示した図である。遷移用ファイルは、ユーザに操作を促すためタグがＨＴＭＬデータ中にある場合に、その旨を音声出力させると共に、操作用ファイルに進むための指示を出すためのＶｏｉｃｅＸＭＬデータ用の記述である。なお、図１８に示す遷移用ファイルは、ユーザに対して空欄に文字を入力させると共に当該文字の送信させるＷｅｂページにおいて、ユーザに文字の入力を促す音声を出力すると共に、操作用ファイルに進む指示を出すための記述がなされたものである。なお、図１８は、遷移ファイルの一例である。そのため、遷移用ファイル記憶部５１は、「ｆｏｒｍ」以外の複数のタグに対しても、同様の遷移ファイルを記憶している。ファイル選択部５２は、ユーザに操作を促すタグがＨＴＭＬデータ中に含まれている場合には、当該タグに対応する遷移ファイルを読み出して、読上げ用ファイルに記入する。

図９の対話シナリオ記憶部３４は、読上げ用ファイルと操作用ファイルとを記憶する。

対話処理部５は、音声認識部６と音声出力部７とを備える。音声認識部６は、ユーザが
発した音声を認識し、当該音声をユーザからの指示として、指示に応じた動作をコンピュータに行わせる。音声出力部７は、対話シナリオ記憶部３４が記憶しているＶｏｉｃｅＸＭＬデータを読み出して、図１０に示すＷｅｂページの内容を音声により読上げる。

まず、ドキュメント解析部１に図１０に示すＨＴＭＬデータが入力されてから、図１１に示す中間データが生成されるところまでの間に、当該データ変換装置が行う動作について説明する。

データ変換装置は、インターネット等のネットワークを介して、もしくはローカルのファイルシステムよりＨＴＭＬデータを読み込む。応じて、ドキュメント解析部１は、当該ＨＴＭＬデータの構文解析を行い、中間データを生成する。具体的には、ドキュメント解析部１は、当該ＨＴＭＬデータに含まれる各テキスト情報を読み出して、中間データのテキスト情報／ファイル名の欄に記入する。次に、ドキュメント解析部１は、各テキスト情報がテキスト情報であるのか画像情報であるのかを判定し、判定結果を中間データのデータ種別の欄に記入する。次に、ドキュメント解析部１は、各テキスト情報に付されたタグを読み出して、読み出したタグを中間データのタグ種別の欄に記入する。以上の動作により、図１１に示す中間データが生成される。なお、当該構文解析は、前述の通り、インターネットエクスプローラのパーサー機能などを用いて実現することが可能である。

次に、データ変換装置が、中間データに基づいて操作用ファイルと読上げ用ファイルとを生成する際に行う動作について、図面を参照しながら説明する。なお、図１９は、操作用ファイルが生成される際に、操作用ファイル生成部４１が行う動作を示したフローチャートである。また、図２０は、読上げ用ファイル「ｆｏｒｍ．ｖｘｍｌ」が生成される際に、読上げ用ファイル生成部４０が行う動作を示したフローチャートである。まず、操作用ファイルの生成について説明する。

まず、データ選択部６２は、操作フォームの識別子である「ｆｏｒｍｉｄ」を操作用ファイルに記入する（ステップＳ５１）。なお、本実施形態では、「ｆｏｒｍ１」が、「ｆｏｒｍｉｄ」として記入される。これは、本実施形態では、操作ファイル中の操作フォームが一つだけしか存在しないからである。なお、操作フォームが複数存在する場合には、順次、「ｆｏｒｍ２」、「ｆｏｒｍ３」と識別子が付与されていく。

次に、データ選択部６２は、中間データ記憶部２の中間データから、前回読出したタグ番号の次のタグ番号のデータを取り出す（ステップＳ５３）。なお、データ選択部６２は、初回の場合には、タグ番号が１のデータを取り出す。次に、データ選択部６２は、取り出したデータのタグ番号が最後であるか否かを判定する（ステップＳ５５）。取り出したデータのタグ番号が最後のタグ番号である場合には、本処理は終了する。一方、取り出したデータのタグ番号が最後のタグ番号でない場合には、本処理はステップＳ５７に進む。

タグ番号が最後のタグでない場合、データ選択部６２は、図１２の中間データのタグ種別の欄を参照し、ＨＴＭＬのマークアップによるタグ修飾がされているか否かを判定する（ステップＳ５７）。タグ修飾がされている場合には、本処理はステップＳ５９に進む。一方、タグ修飾がされていない場合には、本処理はステップＳ６５に進む。

タグ修飾されている場合には、データ選択部６２は、中間データからタグ種別を取得する（ステップＳ５９）。次に、データ選択部６２は、テーブル記憶部６１に格納されてい
る変換テーブルを参照して、当該タグに対応するＶｏｉｃｅＸＭＬデータ用のタグを含むデータが登録されているか否かを判定する（ステップＳ６１）。データが登録されている場合には、本処理はステップＳ６３に進む。一方、データが登録されていない場合には、本処理はステップＳ６５に進む。

データが登録されている場合には、データ選択部６２は、当該ＶｏｉｃｅＸＭＬデータ用のタグを含むデータを取得する（ステップＳ６３）。さらに、データ選択部６２は、図１６に示す対応表を生成する（ステップＳ６４）。具体的には、データ選択部６２は、処理中のデータのタグ番号と、操作種別を対応表に対して記入する。さらに、データ選択部６２は、操作フォーム名を対応表に対して入力する。なお、当該操作フォーム名は、「ｆｏｒｍ１」、「ｆｏｒｍ２」・・・と順次付されていく。この後、本処理はステップＳ６５に進む。

上記ステップＳ６５において、データ選択部６２は、テキスト情報または上記ＶｏｉｃｅＸＭＬデータ用のタグを含むデータを、操作用ファイルに出力する。この後、本処理は、ステップＳ５３に戻る。そして、ステップＳ５３〜６５に示す処理が繰り返されることにより、操作用ファイルが完成する。

次に、図２０を用いて、操作用ファイルの生成について説明する。最初に、ファイル選択部５２は、中間データ記憶部２の中間データから、前回読出したタグ番号の次のタグ番号のデータを取り出す（ステップＳ３１）。なお、ファイル選択部５２は、初回の場合には、タグ番号が１のデータを取り出す。次に、ファイル選択部５２は、取り出したデータのタグ番号が最後であるか否かを判定する（ステップＳ３３）。取り出したデータのタグ番号が最後のタグ番号である場合には、本処理は終了する。一方、取り出したデータのタグ番号が最後のタグ番号でない場合には、本処理はステップＳ３５に進む。

取り出したデータのタグ番号が最後のタグ番号でない場合には、ファイル選択部５２は、データ種別を参照して、データ形式がいずれのデータであるかを判定する（ステップＳ３５）。データ種別がフォームである場合には、本処理はステップＳ３７に進む。データ種別がテキストである場合には、本処理はステップＳ３９に進む。データ種別がフォームでもテキストでもない場合には、本処理はステップＳ３１に戻る。

データ種別がテキストである場合には、ファイル選択部５２は、テキスト情報／ファイル名の欄に記入されているテキスト情報を、読上げ用ファイルに出力する（ステップＳ３９）。この後、本処理はステップＳ３１に戻る。

一方、データ種別がフォームである場合には、ファイル選択部５２は、図１２の中間データを参照して、範囲最終タグまで中間データを読み飛ばす（ステップＳ３７）。そして、ファイル選択部５２は、当該フォームに該当する図１７に示す遷移ファイルを遷移用ファイル記憶部５１から取得し、読上げ用ファイルに出力する（ステップＳ４１）。さらに、ファイル選択部５２は、図１６に示す対応表を参照して、遷移用ファイル中の操作フォーム名を入力すべき場所に、操作フォーム名を入力する（ステップＳ４３）。なお、本実施形態では、ファイル選択部５２は、操作ポイント保存部３５の対応表から操作種別としてフォーム操作、操作フォーム名としてｆｏｒｍ１を取り出す。そして、ファイル選択部５２は、取得した操作フォーム名「ｆｏｒｍ１」を、遷移用ファイルに出力する。これにより、読上げ用ファイルと操作ファイルとが関連付けられる。この後、本処理は、ステップＳ３１に戻る。

なお、対話処理部５では、生成した読上げ用ファイルおよび操作ファイルを読み込み、音声認識、音声合成などの音声入出力機能を用いて、シナリオに基づいたユーザとの音声
対話処理を実行する。

以上のように、本実施形態に係るデータ変換装置によれば、ＨＴＭＬデータ中のタグに基づいて、ＶｏｉｃｅＸＭＬデータ用のタグや、当該ＶｏｉｃｅＸＭＬデータ用のタグとテキスト情報とを含んだデータが新たに生成される。その結果、従来では、音声として読上げることができなかった送信ボタンの有無を音声で出力することや、当該送信ボタンを押すことを促す音声を出力することといった複雑な動作をすることが可能となった。

なお、本実施形態では、読上げ用ファイルと操作ファイルとの２種類のファイルが用いられているが、ファイルの種類はこれに限らない。例えば、読上げ用ファイルと操作ファイルとが一つのファイルにまとめられていてもよい。

本発明に係るデータ変換プログラムは、聴覚により、ＨＴＭＬデータの内容をユーザがより正確に把握することができる効果を有し、コンピュータにおいて実行され、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）データを、当該ＨＴＭＬデータの内容を当該コンピュータに音声で出力させるための音声出力データに変換するためのプログラム等として有用である。

本発明の第１の実施形態に係るデータ変換装置の機能ブロック図Ｗｅｂページの一例を示した図図２のＷｅｂページのソースであるＨＴＭＬデータを示した図図３のＨＴＭＬデータを構文解析して得られる中間データを示した図シナリオ生成部の詳細を示したブロック図対応テーブルの構成の一例を示した図方式選択部で生成されるＶｏｉｃｅＸＭＬデータの一例を示した図データ変換装置が中間データに基づいて、ＶｏｉｃｅＸＭＬデータを生成する際に行う動作を示したフローチャート本発明の第２の実施形態に係るデータ変換装置の構成を示した機能ブロック図Ｗｅｂページの一例を示した図図１０のＷｅｂページのソースであるＨＴＭＬデータを示した図図１１のＨＴＭＬデータを構文解析して得られる中間データを示した図シナリオ生成部の詳細な構成を示した機能ブロック図読上げ用ファイルの一例を示した図操作用ファイルの一例を示した図変換テーブルの一例を示した図遷移用ファイルの一例を示した図対応表の一例を示した図操作用ファイルが生成される際に、操作用ファイル生成部が行う動作を示したフローチャート読上げ用ファイルが生成される際に、読上げ用ファイル生成部が行う動作を示したフローチャート

符号の説明

１ドキュメント解析部
２中間データ記憶部
３シナリオ生成部
４対話シナリオ記憶部
５対話処理部
６音声認識部
７音声出力部
１１出力方式記憶部
１２方式選択部
１３シナリオ出力部
３３シナリオ生成部
３４対話シナリオ記憶部
３５操作ポイント保存部
４０読上げ用ファイル生成部
４１操作用ファイル生成部
５１遷移用ファイル記憶部
５２ファイル選択部
６１テーブル記憶部
６２データ選択部

Claims

コンピュータにおいて実行され、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）データを、当該ＨＴＭＬデータの内容を当該コンピュータに音声で出力させるための音声出力データに変換するためのプログラムであって、
前記ＨＴＭＬデータには、当該ＨＴＭＬデータが読みこまれてＷｅｂページとして表示された際の表示内容の構造を示すタグが含まれており、
前記コンピュータは、前記ＨＴＭＬデータのタグと、当該タグの内容に応じた音声を出力するための変換データとの組合せを記憶しており、
前記ＨＴＭＬデータを読みこむプログラムステップと、
読みこんだＨＴＭＬデータに含まれるタグの内容に応じた前記変換データを、前記コンピュータが記憶している組合せを参照して取得するプログラムステップと、
取得した前記変換データに基づいて、前記音声出力データを生成するプログラムステップとを備える、データ変換プログラム。
前記表示内容は、文字の情報であり、
前記タグは、前記表示内容に該当する文字の情報の表示形式を示しており、
前記変換データは、前記タグが付された文字の情報の表示形式に応じた音声出力方式で、当該文字の情報を前記コンピュータに音声出力させるためのデータであることを特徴とする、請求項１に記載のデータ変換プログラム。
前記タグは、前記コンピュータがユーザに対して操作を要求するための情報を含み、
前記変換データは、前記タグにおいて前記コンピュータが要求している操作に応じた音声が出力されるためのデータであることを特徴とする、請求項１に記載のデータ変換プログラム。
前記音声出力データは、メインデータとサブデータとを含んでおり、
前記メインデータには、前記ＨＴＭＬデータの表示内容が音声として出力されるための情報が含まれており、
前記サブデータには、前記タグにおいて前記コンピュータが要求している操作に応じた音声が出力されるための情報が含まれており、
前記メインデータのコンピュータがユーザに対して操作を要求するポイントには、前記サブデータが読みこまれるべき指示が存在することを特徴とする、請求項３に記載のデータ変換プログラム。
前記音声出力データは、ＶｏｉｃｅＸＭＬ（ｅＸｔｅｎｓｉｏｎＭａｒｋｕｐＬａｎｇｕａｇｅ）データであることを特徴とする、請求項１に記載のデータ変換プログラム。
ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）データを、当該ＨＴＭＬデータの内容を音声で出力するための音声出力データに変換する装置であって、
前記ＨＴＭＬデータには、当該ＨＴＭＬデータが読みこまれてＷｅｂページとして表示された際の表示内容の構造を示すタグが含まれており、
前記ＨＴＭＬデータを読みこむ読みこみ手段と、
前記ＨＴＭＬデータのタグと、当該タグの内容に応じた音声を出力するための変換データとの組合せを記憶する記憶手段と、
前記読みこみ手段が読みこんだＨＴＭＬデータに含まれるタグの内容に応じた前記変換データを、前記記憶手段が記憶している組合せを参照して取得する取得手段と、
前記取得手段が取得した前記変換データに基づいて、前記音声出力データを生成する生成手段とを備える、データ変換装置。