[go: up one dir, main page]

JP2005266009A - データ変換プログラムおよびデータ変換装置 - Google Patents

データ変換プログラムおよびデータ変換装置 Download PDF

Info

Publication number
JP2005266009A
JP2005266009A JP2004075166A JP2004075166A JP2005266009A JP 2005266009 A JP2005266009 A JP 2005266009A JP 2004075166 A JP2004075166 A JP 2004075166A JP 2004075166 A JP2004075166 A JP 2004075166A JP 2005266009 A JP2005266009 A JP 2005266009A
Authority
JP
Japan
Prior art keywords
data
tag
html
conversion
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004075166A
Other languages
English (en)
Inventor
Kiyomi Doi
清美 土居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2004075166A priority Critical patent/JP2005266009A/ja
Publication of JP2005266009A publication Critical patent/JP2005266009A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 本発明の目的は、聴覚により、HTMLデータの内容をユーザがより正確に把握することができるようにすることである。
【解決手段】 本発明は、HTMLデータを、当該HTMLデータの内容を当該コンピュータに音声で出力させるための音声出力データに変換するためのプログラムである。ここで、HTMLデータには、Webページとして表示された際の表示内容の構造を示すタグが含まれており、コンピュータは、HTMLデータのタグと、当該タグの内容に応じた音声を出力するための変換データとの組合せを記憶している。このような環境において、本発明に係るプログラムは、HTMLデータを読みこみ、読みこんだHTMLデータに含まれるタグの内容に応じた変換データを、コンピュータが記憶している組合せを参照して取得し、特定した変換データに基づいて、音声出力データを生成するようにしている。
【選択図】 図1

Description

本発明は、データ変換プログラムに関し、より特定的には、コンピュータにおいて実行され、HTML(Hyper Text Markup Language)データを、当該HTMLデータの内容を当該コンピュータに音声で出力させるための音声出力データに変換するためのデータ変換プログラムに関する発明である。
近年、通信技術の発展や携帯端末の高機能化に伴い、携帯電話やカーナビゲーションシステム等を用いたインターネットのアクセスが増加している。上記携帯電話やカーナビゲーションシステム等では、従来のパーソナルコンピュータを用いた場合と異なり、より容易に操作できるユーザインタフェースが求められる。具体的には、従来では視覚により認識されていたWebページの内容を、音声によりユーザに認識させるユーザインタフェースが求められている。このようなユーザインタフェースを実現するためのシステムとして、VoiceXMLが用いられたシステムが存在する。当該VoiceXMLが用いられたシステムは、HTMLデータにより作成されたWebページが表示された携帯電話やカーナビゲーションシステム等を、音声対話により操作するシステムである。
ここで、上記VoiceXMLのデータ(以下、VoiceXMLデータと称す)を、HTMLデータに基づいて生成するシステムが、従来から存在している。このようなシステムでは、まず、VoiceXMLデータに変換したいHTMLデータが、コンピュータ(携帯電話やカーナビゲーションシステム)に入力される。HTMLデータを取得したコンピュータは、当該HTMLデータを構文解析する。次に、当該コンピュータは、構文解析したHTMLデータから、文字情報のみを抽出する。最後に、当該コンピュータは、当該文字情報の音声データを生成して、当該音声データに基づいて音声を出力する。これにより、ユーザは、当該HTMLデータに基づいて表示されるべきWebページの内容を、音声により認識することが可能となる。
また、ユーザは、コンピュータから出力される音声に対して、声を発して応答することにより、当該コンピュータを操作することが可能である。具体的には、ユーザは、コンピュータから出力される音声に対して声を発して返事する。応じて、コンピュータは、ユーザが発した声を認識して、文字が入力されたものと擬制して動作を行う。これにより、ユーザは、音声対話によりコンピュータを操作することが可能となる。
特開2000−187493号公報
ところで、HTMLデータにより表示されるWebページには、さまざまなフォントや色の文字が使用されている。そして、文字のフォントや色は、HTMLデータ中のタグにより設定されている。
しかしながら、上記システムでは、HTMLデータに含まれるタグが無視された状態でVoiceXMLデータが生成されている。そのため、当該システムにおいて、コンピュータから出力される音声は、文字のフォントや色などに関わらず、単調なリズムおよび大きさで出力されていた。そのため、ユーザは、当該Webページにおいてどの部分が重要であるかを判断することが困難であった。
また、ユーザがアンケートに答えるために情報を入力することができる形式のWebペ
ージでは、当該ユーザに性別や年齢等を選択させるための選択欄が存在する。このような選択欄も、HTMLデータ中ではタグにより設定されている。そのため、上記従来のシステムにより、このようなHTMLデータがVoiceXMLデータに変換された場合、当該選択欄がうまく音声により表現されない。さらに、コンピュータは、HTMLデータの文字情報のみを抽出しただけである。そのため、コンピュータは、選択欄に対する応答と、画面を介して入力された応答とを結びつけることができない。
すなわち、上記従来のシステムでは、HTMLデータ中のタグを認識せずにVoiceXMLデータが生成されていたので、ユーザにとって、非常に利便性が悪かった。
そこで、本発明の目的は、当該HTMLデータに含まれるタグを、VoiceXMLデータに反映させて、HTMLデータをVoiceXMLデータに変換できるデータ変換プログラムを提供することである。
本発明は、コンピュータにおいて実行され、HTML(Hyper Text Markup Language)データを、当該HTMLデータの内容を当該コンピュータに音声で出力させるための音声出力データに変換するためのプログラムである。ここで、HTMLデータには、当該HTMLデータが読みこまれてWebページとして表示された際の表示内容の構造を示すタグが含まれており、コンピュータは、HTMLデータのタグと、当該タグの内容に応じた音声を出力するための変換データとの組合せを記憶している。このような環境において、本発明に係るプログラムは、HTMLデータを読みこみ、読みこんだHTMLデータに含まれるタグの内容に応じた変換データを、コンピュータが記憶している組合せを参照して取得し、特定した変換データに基づいて、音声出力データを生成するようにしている。
なお、表示内容は、文字の情報である場合には、タグは、表示内容に該当する文字の情報の表示形式を示しており、変換データは、タグが付された文字の情報の表示形式に応じた音声出力方式で、当該文字の情報を前記コンピュータに音声出力させるためのデータであることが望ましい。
また、タグは、コンピュータがユーザに対して操作を要求するための情報を含み、変換データは、タグにおいてコンピュータが要求している操作に応じた音声が出力されるためのデータであってもよい。
また、音声出力データは、メインデータとサブデータとを含んでいてもよい。この場合には、メインデータには、HTMLデータの表示内容が音声として出力されるための情報が含まれており、サブデータには、タグにおいてコンピュータが要求している操作に応じた音声が出力されるための情報が含まれており、メインデータのコンピュータがユーザに対して操作を要求するポイントには、サブデータが読みこまれるべき指示が存在している。
また、音声出力データは、VoiceXML(eXtension Markup Language)データであることが望ましい。
なお、本発明は、プログラムのみならず、当該プログラムを格納したデータ変換装置に対しても向けられている。
本発明に係るデータ変換プログラムによれば、当該HTMLデータに含まれるタグを、
当該タグの内容に応じた音声出力に変換して音声出力データを生成している。そのため、ユーザは、当該音声出力データによりコンピュータから出力される音声に基づいて、タグの情報を取得することが可能となる。その結果、ユーザは、聴覚により、よりHTMLデータの内容を正確に把握することができるようになる。
なお、HTMLデータによりWebページに表示される表示内容が文字の情報であり、タグは、当該文字の情報の表示方式を示している。そして、変換データが、タグに付された文字の情報の表示形式に応じた音声出力方式を示すデータである。そのため、ユーザは、Webページ中の文字情報の重要度等を音声の速度、大きさあるいは高さにより認識することができるようになる。
また、タグは、コンピュータがユーザに対して操作を要求するための情報を含み、変換データは、タグにおいてコンピュータが要求している操作に応じた音声が出力されるためのデータである。そのため、ユーザは、送信ボタンを示すタグ等といったユーザに操作を要求するタグを音声により認識することができるようになる。
また、Webページの表示内容を音声出力するためのメインデータとユーザに対して要求される操作内容を示すサブデータとが関連付けられているので、これらの2つのデータが連動させることができる。
(第1の実施形態)
以下に、本発明の第1の実施形態に係るデータ変換プログラムについて図面を参照しながら説明する。ここで、図1は、当該データ変換プログラムが格納されたコンピュータ(以下、データ変換装置と称す)の構成を示した機能ブロック図である。図1に示すデータ変換装置は、当該データ変換装置は、例えば、携帯電話やカーナビゲーションシステムのコンピュータにデータ変換プログラムがインストールされたものである。当該データ変換装置は、図2に示すようなWebページの文字情報を音声出力するためのVoiceXMLデータを、当該WebページのHTMLデータに基づいて生成する装置である。なお、当該データ変換装置は、VoiceXMLデータがデータ変換装置において実行された場合に、図2の太字の部分を通常よりも大きな音声で出力したり、下線が付された部分の読む速度を遅くしたりできるようにして、当該VoiceXMLデータを生成する。かかる動作を実現するために、当該データ変換装置は、HTMLデータのタグを読み出して、当該タグの内容に基づいてVoiceXMLデータを生成している。なお、図2は、Webページの一例を示した図である。
以下に、図面を参照しながら、当該データ変換プログラムの各構成部の説明を行う。なお、図3は、図2のWebページのソースであるHTMLデータである。また、図4は、図3のHTMLデータを構文解析して得られる中間データである。具体的には、図3の中間データは、HTMLデータを各記述内容(テキスト情報や画像情報)を順番に読み出して、各記述内容のデータ種別、タグ種別およびテキスト情報等の情報を、表にまとめたデータである。なお、タグ番号は、HTMLデータの記述内容の番号を示している。データ種別は、記述内容がテキストデータであるか画像データであるかを示している。タグ種別は、記述内容に付されたタグの種別を示している。また、テキスト情報/ファイル名は、記述内容を示している。具体的には、記述内容がテキスト情報の場合には、文章が記述され。記述内容が画像の場合には、ファイル名が記述される。
ここで、図1のデータ変換装置は、ドキュメント解析部1、中間データ記憶部2、シナリオ生成部3、対話シナリオ記憶部4および対話処理部5を備える。ドキュメント解析部1は、入力されてきた図3に示すHTMLデータを構文解析して、図4に示す中間データ
を生成する。なお、当該ドキュメント解析部1は、例えばインターネットエクスプローラのパーサー機能により実現される。中間データ記憶部2は、ドキュメント解析部1が生成した中間データを一時的に記憶する部分である。シナリオ生成部3は、中間データに基づいて、VoiceXMLを生成し、図5に示すように、出力方式記憶部11、方式選択部12およびシナリオ出力部13を備える。なお、図5は、シナリオ生成部3の構成を示したブロック図である。
出力方式記憶部11は、HTMLデータのタグと、当該タグに対応する音声の出力設定との組合せを示す対応テーブルを記憶している。図6は、当該対応テーブルの構成の一例を示した図である。図6に示す対応テーブルは、タグ種別と、当該タグ種別に対応する出力設定とが記述されている。具体的には、タイトルを示す「h1」のタグが付されたテキスト情報は、音量を0.7(通常音量よりも大きい音量)に設定されて出力される。また、タイトルを示す「h3」のタグが付されたテキスト情報は、音量を0.6(通常音量よりも大きい音量)に設定されて出力される。また、下線が付されていることを示す「u」のタグが付されたテキスト情報は、ピッチ(音の高さ)が250に設定されて出力される。また、出典・参照先を示す「cite」のタグが付されたテキスト情報は、読出し速度が100(通常速度よりも遅い速度)に設定される。
方式選択部12は、図6に示す対応テーブルを参照して、図4に示す中間データに含まれるタグに対応する出力設定を特定する。シナリオ出力部13は、方式選択部12が選択した出力設定に対応するVoiceXMLデータ用のタグを生成して、図7に示すVoiceXMLデータを生成する。ここで、図7は、方式選択部12で生成されるVoiceXMLデータの一例を示した図である。対話シナリオ記憶部4は、VoiceXMLデータを記憶する。
対話処理部5は、音声認識部6と音声出力部7とを備える。音声認識部6は、ユーザが発した音声を認識し、当該音声をユーザからの指示として、指示に応じた動作をコンピュータに行わせる。音声出力部7は、対話シナリオ記憶部4が記憶しているVoiceXMLデータを読み出して、図3に示すWebページの内容を音声により読上げる。
以上のように構成されたデータ変換装置について、以下に動作を説明する。なお、本実施形態で示す各処理は、コンピュータを用いてソフトウェア的に実現するか、あるいはそれら各処理を行う専用のハードウェア回路を用いて実現することができる。
まず、ドキュメント解析部1に図3に示すHTMLデータが入力されてから、図4に示す中間データが生成されるところまでの間に、当該データ変換装置が行う動作について説明する。
データ変換装置は、インターネット等のネットワークを介して、もしくはローカルのファイルシステムよりHTMLデータを読み込む。応じて、ドキュメント解析部1は、当該HTMLデータの構文解析を行い、中間データを生成する。具体的には、ドキュメント解析部1は、当該HTMLデータに含まれるテキスト情報あるいは画像ファイルのファイル名を読み出して、中間データのテキスト情報/ファイル名の欄に記入する。次に、ドキュメント解析部1は、各テキスト情報がテキスト情報であるのか画像情報であるのかを判定し、判定結果を中間データのデータ種別の欄に記入する。次に、ドキュメント解析部1は、テキスト情報あるいは画像ファイルのファイル名に付されたタグを読み出して、読み出したタグを中間データのタグ種別の欄に記入する。以上の動作により、図4に示す中間データが生成される。なお、当該構文解析は、前述の通り、インターネットエクスプローラのパーサー機能などを用いて実現することが可能である。
次に、データ変換装置が中間データに基づいて、VoiceXMLデータを生成する際に行う動作について、図面を参照しながら説明する。なお、図8は、このときに、方式選択部12が行う動作を示したフローチャートである。
まず、方式選択部12は、中間データ中から次のタグ番号のデータを取り出す(ステップS1)。なお、最初の取り出し動作の場合には、方式選択部12は、タグ番号が1番のデータを取り出す。
次に、方式選択部12は、取り出したデータが最後のタグ番号のデータであるか否かを判定する(ステップS3)。取り出したデータが最後のタグ番号のデータである場合には、本処理は、終了する。取り出したデータが最後のタグ番号のデータでない場合には、本処理は、ステップS5に進む。
取り出したタグが最後のタグ番号のデータでない場合には、方式選択部12は、取り出したデータがテキスト情報であるか否かを判定する(ステップS5)。取り出したデータがテキスト情報である場合には、本処理はステップS7に進む。一方、取り出したデータがテキストデータでない場合には、本処理はステップS17に進む。
タグ情報がテキスト情報である場合、方式選択部12は、出力方式の選択を行う。具体的には、方式選択部12は、図4の中間データのタグ種別の欄を参照し、HTMLのマークアップによるタグ修飾がされているか否かを判定する(ステップS7)。タグ修飾がされている場合には、本処理はステップS9に進む。一方、タグ修飾がされていない場合には、本処理はステップS17に進む。
タグ修飾がされている場合には、方式選択部12は、中間データのタグ種別の欄からタグを取り出す(ステップ9)。タグを取得した方式選択部12は、図6に示す対応テーブルを参照して、当該タグが登録されているか否かを判定する(ステップS11)。タグが登録されている場合には、本処理はステップS13に進む。一方、タグが登録されていない場合には、本処理はステップS17に進む。
タグが登録されている場合、方式選択部12は、図6の対応テーブルを参照して、取得したタグに対応する出力設定の情報を取得する(ステップS13)。出力設定の情報を取得した方式選択部12は、当該出力設定の情報をテキスト情報に付加して、シナリオ出力部13に出力する(ステップS15)。応じて、当該シナリオ出力部13は、出力設定の情報とテキスト情報とを取得する。
上記ステップS17において、シナリオ出力部13は、当該出力設定の情報の内容に応じたVoiceXMLデータ用の韻律変更のタグを生成して、テキスト情報に付加して、VoiceXMLデータに対して出力する(ステップS17)。なお、当該ステップS17において、出力設定の情報が付加されていない場合には、当該シナリオ出力部13は、テキスト情報または画像情報をそのままVoiceXMLデータに出力する。この後、本処理は、ステップS1に戻る。そして、ステップS1〜17の処理は、最後のタグ番号に到達するまで繰り返し行われる。
ここで、上記フローチャートに示す動作の具体例として、図3のHTMLデータの3行目の「<h1>一つ目の見出し</h1>」を例にとって説明する。図3に示すHTMLデータの「<h1>一つ目の見出し</h1>」の行は、図4の中間データの1番のタグ番号の欄に格納されている。ここで、1番のタグ番号のデータは、テキスト情報であり、タグ種別の欄には、タグが記入されている。そのため、方式選択部12は、タグ種別である「h1」を読み出す。
次に、方式選択部12は、読出したタグ「h1」に対応する出力設定の情報を、対応テーブルから読み出す。なお、タグ「h1」に対応する出力設定の情報は、音量0.7が登録されている。そこで、方式選択部12は、音量0.7の出力設定の情報を、「一つ目の見出し」というテキスト情報に付加して、シナリオ出力部13に出力する。
次に、シナリオ出力部13は、テキスト情報「一つ目の見出し」を0.7の音量で出力することを示すタグを生成して、当該テキスト情報「一つ目の見出し」に付加して、VoiceXMLデータに出力する。具体的には、シナリオ出力部13は、最初に音声出力することを示すタグである「prompt」を付する。次に、当該シナリオ出力部13は、出力する韻律を設定するためのタグ「pros」を付したの後に、音量を0.7に設定する「vol=”0.7”」を付して、VoiceXMLデータに出力する。以上の作業が、各タグ番号のデータに対して行われて、図7に示すVoiceXMLデータが完成する。
なお、シナリオ生成部では、VoiceXMLデータのルート要素やその他のドキュメントとしての体裁を整えるためのタグ要素の出力も行うが、本発明の主眼ではないので、省略する。
なお、対話処理部5では、生成したVoiceXMLデータを読み込み、音声認識、音声合成などの音声入出力機能を用いて、シナリオに基づいたユーザとの音声対話処理を実行する。
以上のように、本実施形態に係るデータ変換装置によれば、HTMLデータ中のタグが、当該タグに対応した出力方式を持ったVoiceXMLデータ用のタグに変換される。その結果、タグの内容に応じた音声出力が実現されるようになり、ユーザは、音声によりHTMLデータの内容を容易に認識できるようになった。
なお、本実施の形態では、HTMLデータが解析され、中間データに格納された後に対話シナリオの生成が行われたが、HTMLデータの解析処理と並行してシナリオが生成されてもよい。
また、出力設定をタグ種別ごととしたが、タグ要素と属性値との組合せによって、出力設定を行うことも可能である。
(第2の実施形態)
以下に、本発明の第2の実施形態に係るデータ変換プログラムについて図面を参照しながら説明する。ここで、図9は、当該データ変換プログラムが格納されたコンピュータ(以下、データ変換装置と称す)の構成を示した機能ブロック図である。図9に示すデータ変換装置は、第1の実施形態と同様にWebページの文字情報を音声出力するためのVoiceXMLデータを、当該WebページのHTMLデータに基づいて生成する装置である。ただし、本実施形態に係るデータ変換装置は、第1の実施形態と異なり、ユーザに対して一方的にWebページの内容を読上げるのではなく、読上げと応答受け付けとをWebページの内容に応じて行うことができる。具体的には、当該データ変換装置は、図10に示すような辞書検索の画面において、音声により入力を促すと共に、ユーザからの入力を待ちうけることができるVoiceXMLデータを生成する。かかる動作を実現するために、当該データ変換装置は、HTMLデータのタグを読み出して、当該タグの内容に基づいてVoiceXMLデータを生成している。なお、図10は、Webページの一例を示した図である。図10の2行目の空欄は、検索する単語が入力される欄である。また、図10の「クエリ送信」は、ユーザがクリックして検索する単語を送信するためのボタン
である。
以下に、図面を参照しながら、当該データ変換プログラムの各構成部の説明を行う。なお、図11は、図10のWebページのソースであるHTMLデータである。また、図12は、図11のHTMLデータを構文解析して得られる中間データである。具体的には、図11の中間データは、HTMLデータを各記述内容(テキスト情報や画像情報)を順番に読み出して、各記述内容のデータ種別、タグ種別およびテキスト情報等の情報を、表にまとめたデータである。なお、タグ番号は、HTMLデータの記述内容の番号を示している。データ種別は、記述内容がテキストデータであるか画像データであるかを示している。タグ種別は、記述内容に付されたタグの種別を示している。また、テキスト情報/ファイル名は、記述内容を示している。具体的には、記述内容がテキスト情報の場合には、文章が記述され。記述内容が画像の場合には、ファイル名が記述される。
図9に示すデータ変換装置は、ドキュメント解析部1、中間データ記憶部2、シナリオ生成部33、対話シナリオ記憶部34、操作ポイント保存部35および対話処理部5を備える。ドキュメント解析部1は、入力されてきた図11に示すHTMLデータを構文解析して、図12に示す中間データを生成する。なお、当該ドキュメント解析部1は、例えばインターネットエクスプローラのパーサー機能により実現される。中間データ記憶部2は、ドキュメント解析部1が生成した中間データを一時的に記憶する部分である。シナリオ生成部33は、中間データに基づいて、読上げ用ファイルと操作用ファイルとの2種類のVoiceXMLデータを生成し、図13に示すように、読上げ用ファイル生成部40と操作用ファイル生成部41とを備える。
ここで、読上げ用ファイルと操作用ファイルとについて、図面を参照しながら説明する。図14は、読上げ用ファイルの一例を示した図である。また、図15は、操作用ファイルの一例を示した図である。
読上げ用ファイルは、図10に示すWebページを音声により読上げる際のメインルーチンの役割を果たす。操作用ファイルは、図10に示すWebページを音声により読上げる際のサブルーチンの役割を果たす。以下に、図10に示すWebページを例にとって説明する。
図10に示すWebページには、通常のテキスト情報と、文字入力の為の空欄と、送信ボタンとが含まれている。このようなWebページでは、図11に示すように、通常のテキスト情報の部分(すなわち、「辞書検索」の部分)と、「form」のタグにより囲まれた部分(すなわち、空欄と送信ボタンの部分)とが存在する。このような場合には、読上げ用ファイルに、「form」のタグにより囲まれた部分以外のテキスト情報の読上げが書き込まれると共に、「form」に囲まれた部分については、操作用ファイルを読みこむ旨が書きこまれる。そして、当該操作用ファイルには、「form」に囲まれた部分のテキスト情報と空欄と送信ボタンとに関する情報が、音声情報として書きこまれる。
以下に、図14に示す読上げ用ファイルの詳細について説明する。まず、図14の(1)の部分では、Webページに表示されている「辞書検索」の文字が読上げられる為の記述がなされる。次に、図14の(2)の部分では、ユーザが「はい」か「いいえ」の返事をすることを示す記述がなされる。図14の(3)の部分では、ユーザに対して文字を入力するか否かを問い掛ける音声をデータ変換装置が発するためのテキスト情報が記述される。図14の(4)の部分では、図14の(3)の部分での問い掛けに対するユーザの応答が、「はい」の場合には、操作ファイル「form.vxml」に含まれる操作フォームの部分に進む為の指示が記入される。次に、図15に示す操作ファイルの詳細について説明する。
まず、図15の(1)の部分では、ユーザに文字の入力を開始することを通知する音声を出力するため記述がなされる。次に、図15の(2)の部分では、図10のWebページに示した「検索する言葉を入力して下さい。」のテキスト情報を音声出力させるための記述がなされる。次に、図15の(3)の部分では、ユーザにテキスト情報の入力を促す音声を出力するための記述がなされる。次に、図15の(4)の部分では、ユーザに対して、入力したテキスト情報を送信する否かを問い掛ける音声を出力するための記述がなされる。また、併せて、ユーザからの応答が「はい」の場合には、当該ユーザが入力したテキスト情報を送信する操作を行うための記述がなされる。
次に、操作ポイント保存部35について説明する。操作ポイント保存部35は、図16に示すような対応表を記憶している。当該対応表は、HTMLデータ中にどのような操作をユーザに促すためのタグがどこに存在のかを示す表である。具体的には、タグ番号は、ユーザに操作を促すタグが存在する場所を示す。操作種別は、ユーザに促される操作が何であるのかを示す。また、操作フォーム名は、このようなタグがHTMLデータ中に複数存在する場合に、それぞれを識別可能とするために付される名前である。なお、当該対応表は、データ選択部62が、中間データを読み出した際に、当該データ選択部62により生成される。
ここで、図9および図13の説明に戻る。図13は、シナリオ生成部33の詳細な構成を示した機能ブロック図である。当該シナリオ生成部33は、読上げ用ファイル生成部40と操作用ファイル生成部41とを含む。
まず、操作用ファイル生成部41について説明する。操作用ファイル生成部41は、中間データおよび図18に示す対応表に基づいて、操作用ファイルを生成し、テーブル記憶部61とデータ選択部62とを含む。テーブル記憶部61は、図17に示す変換テーブルを記憶している。当該変換テーブルは、HTMLデータ中に含まれるタグと、当該タグに対応するVoiceXMLデータ用のタグを含むデータとが関連付けられて格納されている。当該VoiceXMLデータ用のタグを含むデータは、HTMLデータ中のタグの内容に対応する音声を出力させるためのデータである。データ選択部62は、HTMLデータ中のタグを読み出して、当該タグに対応するVoiceXMLデータ用のタグを含むデータを選択し、操作用ファイルに記入する。
読上げ用ファイル生成部40は、中間データに基づいて、読上げ用ファイルを生成し、遷移用ファイル記憶部51とファイル選択部52とを含む。遷移用ファイル記憶部51は、図18に示す遷移用ファイルを複数パターン記憶している。ここで、遷移用ファイルについて説明する。図18は、遷移用ファイルの一例を示した図である。遷移用ファイルは、ユーザに操作を促すためタグがHTMLデータ中にある場合に、その旨を音声出力させると共に、操作用ファイルに進むための指示を出すためのVoiceXMLデータ用の記述である。なお、図18に示す遷移用ファイルは、ユーザに対して空欄に文字を入力させると共に当該文字の送信させるWebページにおいて、ユーザに文字の入力を促す音声を出力すると共に、操作用ファイルに進む指示を出すための記述がなされたものである。なお、図18は、遷移ファイルの一例である。そのため、遷移用ファイル記憶部51は、「form」以外の複数のタグに対しても、同様の遷移ファイルを記憶している。ファイル選択部52は、ユーザに操作を促すタグがHTMLデータ中に含まれている場合には、当該タグに対応する遷移ファイルを読み出して、読上げ用ファイルに記入する。
図9の対話シナリオ記憶部34は、読上げ用ファイルと操作用ファイルとを記憶する。
対話処理部5は、音声認識部6と音声出力部7とを備える。音声認識部6は、ユーザが
発した音声を認識し、当該音声をユーザからの指示として、指示に応じた動作をコンピュータに行わせる。音声出力部7は、対話シナリオ記憶部34が記憶しているVoiceXMLデータを読み出して、図10に示すWebページの内容を音声により読上げる。
以上のように構成されたデータ変換装置について、以下に動作を説明する。なお、本実施形態で示す各処理は、コンピュータを用いてソフトウェア的に実現するか、あるいはそれら各処理を行う専用のハードウェア回路を用いて実現することができる。
まず、ドキュメント解析部1に図10に示すHTMLデータが入力されてから、図11に示す中間データが生成されるところまでの間に、当該データ変換装置が行う動作について説明する。
データ変換装置は、インターネット等のネットワークを介して、もしくはローカルのファイルシステムよりHTMLデータを読み込む。応じて、ドキュメント解析部1は、当該HTMLデータの構文解析を行い、中間データを生成する。具体的には、ドキュメント解析部1は、当該HTMLデータに含まれる各テキスト情報を読み出して、中間データのテキスト情報/ファイル名の欄に記入する。次に、ドキュメント解析部1は、各テキスト情報がテキスト情報であるのか画像情報であるのかを判定し、判定結果を中間データのデータ種別の欄に記入する。次に、ドキュメント解析部1は、各テキスト情報に付されたタグを読み出して、読み出したタグを中間データのタグ種別の欄に記入する。以上の動作により、図11に示す中間データが生成される。なお、当該構文解析は、前述の通り、インターネットエクスプローラのパーサー機能などを用いて実現することが可能である。
次に、データ変換装置が、中間データに基づいて操作用ファイルと読上げ用ファイルとを生成する際に行う動作について、図面を参照しながら説明する。なお、図19は、操作用ファイルが生成される際に、操作用ファイル生成部41が行う動作を示したフローチャートである。また、図20は、読上げ用ファイル「form.vxml」が生成される際に、読上げ用ファイル生成部40が行う動作を示したフローチャートである。まず、操作用ファイルの生成について説明する。
まず、データ選択部62は、操作フォームの識別子である「form id」を操作用ファイルに記入する(ステップS51)。なお、本実施形態では、「form1」が、「form id」として記入される。これは、本実施形態では、操作ファイル中の操作フォームが一つだけしか存在しないからである。なお、操作フォームが複数存在する場合には、順次、「form2」、「form3」と識別子が付与されていく。
次に、データ選択部62は、中間データ記憶部2の中間データから、前回読出したタグ番号の次のタグ番号のデータを取り出す(ステップS53)。なお、データ選択部62は、初回の場合には、タグ番号が1のデータを取り出す。次に、データ選択部62は、取り出したデータのタグ番号が最後であるか否かを判定する(ステップS55)。取り出したデータのタグ番号が最後のタグ番号である場合には、本処理は終了する。一方、取り出したデータのタグ番号が最後のタグ番号でない場合には、本処理はステップS57に進む。
タグ番号が最後のタグでない場合、データ選択部62は、図12の中間データのタグ種別の欄を参照し、HTMLのマークアップによるタグ修飾がされているか否かを判定する(ステップS57)。タグ修飾がされている場合には、本処理はステップS59に進む。一方、タグ修飾がされていない場合には、本処理はステップS65に進む。
タグ修飾されている場合には、データ選択部62は、中間データからタグ種別を取得する(ステップS59)。次に、データ選択部62は、テーブル記憶部61に格納されてい
る変換テーブルを参照して、当該タグに対応するVoiceXMLデータ用のタグを含むデータが登録されているか否かを判定する(ステップS61)。データが登録されている場合には、本処理はステップS63に進む。一方、データが登録されていない場合には、本処理はステップS65に進む。
データが登録されている場合には、データ選択部62は、当該VoiceXMLデータ用のタグを含むデータを取得する(ステップS63)。さらに、データ選択部62は、図16に示す対応表を生成する(ステップS64)。具体的には、データ選択部62は、処理中のデータのタグ番号と、操作種別を対応表に対して記入する。さらに、データ選択部62は、操作フォーム名を対応表に対して入力する。なお、当該操作フォーム名は、「form1」、「form2」・・・と順次付されていく。この後、本処理はステップS65に進む。
上記ステップS65において、データ選択部62は、テキスト情報または上記VoiceXMLデータ用のタグを含むデータを、操作用ファイルに出力する。この後、本処理は、ステップS53に戻る。そして、ステップS53〜65に示す処理が繰り返されることにより、操作用ファイルが完成する。
次に、図20を用いて、操作用ファイルの生成について説明する。最初に、ファイル選択部52は、中間データ記憶部2の中間データから、前回読出したタグ番号の次のタグ番号のデータを取り出す(ステップS31)。なお、ファイル選択部52は、初回の場合には、タグ番号が1のデータを取り出す。次に、ファイル選択部52は、取り出したデータのタグ番号が最後であるか否かを判定する(ステップS33)。取り出したデータのタグ番号が最後のタグ番号である場合には、本処理は終了する。一方、取り出したデータのタグ番号が最後のタグ番号でない場合には、本処理はステップS35に進む。
取り出したデータのタグ番号が最後のタグ番号でない場合には、ファイル選択部52は、データ種別を参照して、データ形式がいずれのデータであるかを判定する(ステップS35)。データ種別がフォームである場合には、本処理はステップS37に進む。データ種別がテキストである場合には、本処理はステップS39に進む。データ種別がフォームでもテキストでもない場合には、本処理はステップS31に戻る。
データ種別がテキストである場合には、ファイル選択部52は、テキスト情報/ファイル名の欄に記入されているテキスト情報を、読上げ用ファイルに出力する(ステップS39)。この後、本処理はステップS31に戻る。
一方、データ種別がフォームである場合には、ファイル選択部52は、図12の中間データを参照して、範囲最終タグまで中間データを読み飛ばす(ステップS37)。そして、ファイル選択部52は、当該フォームに該当する図17に示す遷移ファイルを遷移用ファイル記憶部51から取得し、読上げ用ファイルに出力する(ステップS41)。さらに、ファイル選択部52は、図16に示す対応表を参照して、遷移用ファイル中の操作フォーム名を入力すべき場所に、操作フォーム名を入力する(ステップS43)。なお、本実施形態では、ファイル選択部52は、操作ポイント保存部35の対応表から操作種別としてフォーム操作、操作フォーム名としてform1を取り出す。そして、ファイル選択部52は、取得した操作フォーム名「form1」を、遷移用ファイルに出力する。これにより、読上げ用ファイルと操作ファイルとが関連付けられる。この後、本処理は、ステップS31に戻る。
なお、対話処理部5では、生成した読上げ用ファイルおよび操作ファイルを読み込み、音声認識、音声合成などの音声入出力機能を用いて、シナリオに基づいたユーザとの音声
対話処理を実行する。
以上のように、本実施形態に係るデータ変換装置によれば、HTMLデータ中のタグに基づいて、VoiceXMLデータ用のタグや、当該VoiceXMLデータ用のタグとテキスト情報とを含んだデータが新たに生成される。その結果、従来では、音声として読上げることができなかった送信ボタンの有無を音声で出力することや、当該送信ボタンを押すことを促す音声を出力することといった複雑な動作をすることが可能となった。
なお、本実施形態では、読上げ用ファイルと操作ファイルとの2種類のファイルが用いられているが、ファイルの種類はこれに限らない。例えば、読上げ用ファイルと操作ファイルとが一つのファイルにまとめられていてもよい。
本発明に係るデータ変換プログラムは、聴覚により、HTMLデータの内容をユーザがより正確に把握することができる効果を有し、コンピュータにおいて実行され、HTML(Hyper Text Markup Language)データを、当該HTMLデータの内容を当該コンピュータに音声で出力させるための音声出力データに変換するためのプログラム等として有用である。
本発明の第1の実施形態に係るデータ変換装置の機能ブロック図 Webページの一例を示した図 図2のWebページのソースであるHTMLデータを示した図 図3のHTMLデータを構文解析して得られる中間データを示した図 シナリオ生成部の詳細を示したブロック図 対応テーブルの構成の一例を示した図 方式選択部で生成されるVoiceXMLデータの一例を示した図 データ変換装置が中間データに基づいて、VoiceXMLデータを生成する際に行う動作を示したフローチャート 本発明の第2の実施形態に係るデータ変換装置の構成を示した機能ブロック図 Webページの一例を示した図 図10のWebページのソースであるHTMLデータを示した図 図11のHTMLデータを構文解析して得られる中間データを示した図 シナリオ生成部の詳細な構成を示した機能ブロック図 読上げ用ファイルの一例を示した図 操作用ファイルの一例を示した図 変換テーブルの一例を示した図 遷移用ファイルの一例を示した図 対応表の一例を示した図 操作用ファイルが生成される際に、操作用ファイル生成部が行う動作を示したフローチャート 読上げ用ファイルが生成される際に、読上げ用ファイル生成部が行う動作を示したフローチャート
符号の説明
1 ドキュメント解析部
2 中間データ記憶部
3 シナリオ生成部
4 対話シナリオ記憶部
5 対話処理部
6 音声認識部
7 音声出力部
11 出力方式記憶部
12 方式選択部
13 シナリオ出力部
33 シナリオ生成部
34 対話シナリオ記憶部
35 操作ポイント保存部
40 読上げ用ファイル生成部
41 操作用ファイル生成部
51 遷移用ファイル記憶部
52 ファイル選択部
61 テーブル記憶部
62 データ選択部

Claims (6)

  1. コンピュータにおいて実行され、HTML(Hyper Text Markup Language)データを、当該HTMLデータの内容を当該コンピュータに音声で出力させるための音声出力データに変換するためのプログラムであって、
    前記HTMLデータには、当該HTMLデータが読みこまれてWebページとして表示された際の表示内容の構造を示すタグが含まれており、
    前記コンピュータは、前記HTMLデータのタグと、当該タグの内容に応じた音声を出力するための変換データとの組合せを記憶しており、
    前記HTMLデータを読みこむプログラムステップと、
    読みこんだHTMLデータに含まれるタグの内容に応じた前記変換データを、前記コンピュータが記憶している組合せを参照して取得するプログラムステップと、
    取得した前記変換データに基づいて、前記音声出力データを生成するプログラムステップとを備える、データ変換プログラム。
  2. 前記表示内容は、文字の情報であり、
    前記タグは、前記表示内容に該当する文字の情報の表示形式を示しており、
    前記変換データは、前記タグが付された文字の情報の表示形式に応じた音声出力方式で、当該文字の情報を前記コンピュータに音声出力させるためのデータであることを特徴とする、請求項1に記載のデータ変換プログラム。
  3. 前記タグは、前記コンピュータがユーザに対して操作を要求するための情報を含み、
    前記変換データは、前記タグにおいて前記コンピュータが要求している操作に応じた音声が出力されるためのデータであることを特徴とする、請求項1に記載のデータ変換プログラム。
  4. 前記音声出力データは、メインデータとサブデータとを含んでおり、
    前記メインデータには、前記HTMLデータの表示内容が音声として出力されるための情報が含まれており、
    前記サブデータには、前記タグにおいて前記コンピュータが要求している操作に応じた音声が出力されるための情報が含まれており、
    前記メインデータのコンピュータがユーザに対して操作を要求するポイントには、前記サブデータが読みこまれるべき指示が存在することを特徴とする、請求項3に記載のデータ変換プログラム。
  5. 前記音声出力データは、VoiceXML(eXtension Markup Language)データであることを特徴とする、請求項1に記載のデータ変換プログラム。
  6. HTML(Hyper Text Markup Language)データを、当該HTMLデータの内容を音声で出力するための音声出力データに変換する装置であって、
    前記HTMLデータには、当該HTMLデータが読みこまれてWebページとして表示された際の表示内容の構造を示すタグが含まれており、
    前記HTMLデータを読みこむ読みこみ手段と、
    前記HTMLデータのタグと、当該タグの内容に応じた音声を出力するための変換データとの組合せを記憶する記憶手段と、
    前記読みこみ手段が読みこんだHTMLデータに含まれるタグの内容に応じた前記変換データを、前記記憶手段が記憶している組合せを参照して取得する取得手段と、
    前記取得手段が取得した前記変換データに基づいて、前記音声出力データを生成する生成手段とを備える、データ変換装置。
JP2004075166A 2004-03-16 2004-03-16 データ変換プログラムおよびデータ変換装置 Pending JP2005266009A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004075166A JP2005266009A (ja) 2004-03-16 2004-03-16 データ変換プログラムおよびデータ変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004075166A JP2005266009A (ja) 2004-03-16 2004-03-16 データ変換プログラムおよびデータ変換装置

Publications (1)

Publication Number Publication Date
JP2005266009A true JP2005266009A (ja) 2005-09-29

Family

ID=35090665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004075166A Pending JP2005266009A (ja) 2004-03-16 2004-03-16 データ変換プログラムおよびデータ変換装置

Country Status (1)

Country Link
JP (1) JP2005266009A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172597A (ja) * 2005-11-28 2007-07-05 Canon Inc 音声処理装置及び音声処理方法
WO2014117645A1 (zh) * 2013-01-29 2014-08-07 华为终端有限公司 信息的识别方法和装置
WO2016151761A1 (ja) * 2015-03-24 2016-09-29 株式会社東芝 音訳支援装置、音訳支援方法及び音訳支援プログラム
CN112069775A (zh) * 2020-08-21 2020-12-11 完美世界控股集团有限公司 数据的转换方法及装置、存储介质、电子装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172597A (ja) * 2005-11-28 2007-07-05 Canon Inc 音声処理装置及び音声処理方法
WO2014117645A1 (zh) * 2013-01-29 2014-08-07 华为终端有限公司 信息的识别方法和装置
US9390711B2 (en) 2013-01-29 2016-07-12 Huawei Device Co., Ltd. Information recognition method and apparatus
WO2016151761A1 (ja) * 2015-03-24 2016-09-29 株式会社東芝 音訳支援装置、音訳支援方法及び音訳支援プログラム
JPWO2016151761A1 (ja) * 2015-03-24 2017-06-15 株式会社東芝 音訳支援装置、音訳支援方法及び音訳支援プログラム
US10373606B2 (en) 2015-03-24 2019-08-06 Kabushiki Kaisha Toshiba Transliteration support device, transliteration support method, and computer program product
CN112069775A (zh) * 2020-08-21 2020-12-11 完美世界控股集团有限公司 数据的转换方法及装置、存储介质、电子装置

Similar Documents

Publication Publication Date Title
US8073700B2 (en) Retrieval and presentation of network service results for mobile device using a multimodal browser
US7546382B2 (en) Methods and systems for authoring of mixed-initiative multi-modal interactions and related browsing mechanisms
JP4225703B2 (ja) 情報アクセス方法、情報アクセスシステムおよびプログラム
JP2000137596A (ja) 対話型音声応答システム
US20060136220A1 (en) Controlling user interfaces with voice commands from multiple languages
US20030187656A1 (en) Method for the computer-supported transformation of structured documents
EP1215656A2 (en) Idiom handling in voice service systems
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及系统
US20170372695A1 (en) Information providing system
CN110232921A (zh) 基于生活服务的语音操作方法、装置、智能电视及系统
JP2012073519A (ja) 読み上げ支援装置、方法、およびプログラム
JP7200533B2 (ja) 情報処理装置およびプログラム
JPH10124293A (ja) 音声指令可能なコンピュータとそれ用の媒体
JP2005266009A (ja) データ変換プログラムおよびデータ変換装置
JP2003157095A (ja) 音声認識装置及びその方法、プログラム
Rössler et al. Multimodal interaction for mobile environments
US20240046035A1 (en) Program, file generation method, information processing device, and information processing system
JP2002229578A (ja) 音声合成装置及び音声合成方法並びに音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体
US7054813B2 (en) Automatic generation of efficient grammar for heading selection
JP2005181358A (ja) 音声認識合成システム
WO2011004000A2 (en) Information distributing system with feedback mechanism
KR20200028158A (ko) 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램
JP2004029457A (ja) 音声対話装置、および音声対話プログラム
JP2002288170A (ja) 多言語間コミュニケーション支援システム
CN116956826A (zh) 一种数据处理方法、装置、电子设备和存储介质