JP2008096489A - Voice system, voice method, voice server, and voice program - Google Patents
Voice system, voice method, voice server, and voice program Download PDFInfo
- Publication number
- JP2008096489A JP2008096489A JP2006274814A JP2006274814A JP2008096489A JP 2008096489 A JP2008096489 A JP 2008096489A JP 2006274814 A JP2006274814 A JP 2006274814A JP 2006274814 A JP2006274814 A JP 2006274814A JP 2008096489 A JP2008096489 A JP 2008096489A
- Authority
- JP
- Japan
- Prior art keywords
- text
- voice
- word
- level
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
本発明は、テキストを、テキストに含まれる単語の少なくとも一部を読み上げた音声データとして取得するための音声化システム、音声化方法、音声化サーバ及び音声化プログラムに関する。 The present invention relates to a speech system, a speech method, a speech server, and a speech program for acquiring text as speech data obtained by reading out at least a part of words included in the text.
外国語、特に日本語のように表意文字に固有語の発音を割り当てているもの(所謂訓読み)や、英語のように複数の言語から単語及びその発音規則を借用しているもの、或いはロシア語のようにアクセントの位置によって母音の発音が変化するようなものを習得しようとする際には、その言語を習得しようとする人(以下習得者と称す)にとって身近な文書(例えば習得者に取って興味のある分野のニュース記事や、技術文書)と、その文書を読み上げた音声とを相互参照しながら学習を進めていくことが有効である。 Foreign languages, especially those that assign unique words to ideographs such as Japanese (so-called cautionary readings), those that borrow words and their pronunciation rules from multiple languages, such as English, or Russian When trying to learn something that changes the pronunciation of the vowels depending on the position of the accent, such as It is effective to proceed with learning while cross-referencing the news articles and technical documents of the field of interest and the voices that read the documents.
ここで、習得者にとって興味のある分野は習得者ごとに異なり、多岐の分野に渡っている。そこで、インターネットを介して公衆に開示されている各種ニュース記事や技術文書等の文書を取得し、これを読み上げた音声データを生成し、この音声データと文書とを相互参照しながら学習を進めていくことが考えられる。このような学習を可能とするシステムとして、特許文献1のようなものがある。
特許文献1には、ゲートウェイサーバ型の音声読み上げサーバが開示されている。すなわち、インターネット上で公開されている文書を読み上げた音声データの取得を希望する場合は、音声読み上げサーバの利用者はインターネットに接続されている端末(PCなど)でウェブブラウザなどのユーザエージェントを実行し、このユーザエージェントを操作して音声読み上げサーバにHTTPリクエストを送信する。この時、このHTTPリクエストには、音声データの取得を希望する文書を示すURL(Uniform Resource Locator)が含まれる。
音声読み上げサーバは、このURLに対応する文書を取得し、次いでこの文書からテキスト部分のみを抜き出す。例えば、文書がHTMLで記述されたものであるなら、タグやコメント、SGML宣言などを除去したテキスト部分のみを取り出すことになる。音声読み上げサーバは、この抜き出されたテキスト部分を読み上げた音声データを音声合成等を使用して生成する。最後に、音声読み上げサーバはこの音声データそのもの、或いはこの音声データのURLをHTTPリクエストに対するレスポンスとして送信する。かくして、使用者は音声データを取得し、文書とこの文書を読み上げた音声の双方を参照可能となる。 The voice reading server acquires a document corresponding to this URL, and then extracts only the text portion from this document. For example, if the document is described in HTML, only the text part from which tags, comments, SGML declarations, etc. are removed is extracted. The speech reading server generates speech data that reads out the extracted text portion by using speech synthesis or the like. Finally, the voice reading server transmits the voice data itself or the URL of the voice data as a response to the HTTP request. Thus, the user can acquire the audio data and can refer to both the document and the audio read out from the document.
上記の構成は、インターネット上で公開されている任意の文書を読み上げた音声データを取得するものである。上記の構成においてはある文書について、その文書全体、或いはその文書のまとまった一部分(1段落、1頁など)を読み上げた音声データが取得されるものである。その言語をネイティブ言語としない言語学習者にとって、学習の際に重要となるのは、特定の語がどのように発音されるかである。しかしながら、上記構成においては、ある程度まとまった文章単位で読み上げが行われるので、特にその言語をネイティブ言語としていないものにとって、いま読み上げられているのが文書中のどの部分であるかを判別するのは容易ではないケースも多い。すなわち、特許文献1の構成は、自然言語の学習という観点からは、上記の理由から必ずしも優れたものとはいえなかった。
The configuration described above is to acquire voice data read out from an arbitrary document published on the Internet. In the above configuration, audio data obtained by reading out the entire document or a part of the document (one paragraph, one page, etc.) is acquired. For language learners who do not make their language a native language, what is important in learning is how a particular word is pronounced. However, in the above configuration, reading is performed in units of a certain amount of sentences, so it is particularly difficult to determine which part of the document is being read out, especially for those whose language is not a native language. There are many cases that are not easy. That is, the configuration of
本発明は上記の問題に鑑みてなされたものであり、言語習得者にとって利用しやすい、すなわち文書とそれを読み上げた音声との相互参照が容易であるような形で音声データを提供可能な音声化システム、音声化方法、音声化サーバ及び音声化プログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and is an audio that can provide audio data in a form that is easy for a language learner to use, that is, a cross-reference between a document and the audio that is read out is easy. An object is to provide an audio system, an audio method, an audio server, and an audio program.
上記の目的を解決するため、本発明においては、テキストに関するテキスト情報及び利用者のレベル情報を端末から受信し、受信したテキスト情報に基づいてテキストを取得し、レベル情報に基づいて取得したテキストに含まれる単語の中から使用者のレベル以上の読み上げ難易度の単語を抽出し、抽出された単語を読み上げた音声データを取得し、テキストに該音声データへのリンクアンカーを埋め込んでHTMLファイルを作成し、作成されたHTMLファイルを該端末に送信する。 In order to solve the above object, in the present invention, text information related to text and user level information are received from the terminal, the text is acquired based on the received text information, and the text acquired based on the level information is obtained. Extract words that are difficult to read from the user's level from among the included words, acquire voice data that reads the extracted words, and create an HTML file by embedding the link anchor to the voice data in the text Then, the created HTML file is transmitted to the terminal.
従って、本発明の構成によれば、システムの利用者である言語学習者の習得レベルに応じた単語のみに対する音声データが作成される。加えて、利用者は読み上げを希望するテキストにこの音声データへのリンクアンカーが埋め込まれたHTMLファイルを受けとることになる。このHTMLファイルを開くと、文書の所々の単語にリンクアンカーが割り当てられたハイパーテキスト文書が表示され、利用者はこのリンクアンカーを操作してその単語の音声データを取得・再生することによって、特定の単語の発音を理解することができる。 Therefore, according to the configuration of the present invention, voice data for only words according to the acquisition level of a language learner who is a user of the system is created. In addition, the user receives an HTML file in which a link anchor to the voice data is embedded in text desired to be read out. When this HTML file is opened, a hypertext document in which link anchors are assigned to various words in the document is displayed, and the user operates the link anchors to acquire and play back the voice data of the words. Can understand the pronunciation of words.
好ましくは、テキスト情報とは、テキストのURLを含むか、テキスト自身を含む。また、抽出された単語を読み上げた音声データを、音声合成によって生成する構成としてもよい。また、所定のネットワークは、例えばインターネットである。 Preferably, the text information includes a text URL or the text itself. Moreover, it is good also as a structure which produces | generates the speech data which read the extracted word by speech synthesis. The predetermined network is, for example, the Internet.
以上のように、本発明によれば、文書とそれを読み上げた音声との相互参照が容易であるような形で音声データを提供可能な音声化システムが実現される。 As described above, according to the present invention, an audio system that can provide audio data in a form that facilitates cross-referencing between a document and the audio read out is realized.
以下、本発明の実施の形態に付き、図面を参照して詳細に説明する。図1は、本実施形態による音声化システムの全体を示す概念図である。本実施形態においては、音声化システム1は、音声化サーバ100と端末200とを備える。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a conceptual diagram showing the entire voice system according to the present embodiment. In the present embodiment, the
端末200は、ダイヤルアップ接続やxDSL接続などによってインターネットに接続可能な端末である。また、端末200は、例えばウェブブラウザを実行可能なPCであり、音声化システム1の利用者は、この端末200上でウェブブラウザを実行・操作して、音声化サーバ100より所望の文書の単語の音声データを得る。端末200は、音声データを再生するためのデバイス(PCM音源及び、スピーカまたはヘッドホン)を備えており、音声化サーバ100から得た音声データを再生することが可能である。
The
音声化サーバ100は、インターネットに接続されている音声化ゲートウェイサーバ110と、このゲートウェイサーバ110とLAN(Local Area Network)経由で接続されているレベル格納データベース120及びTTS(Text−To−Speech)サーバ130を有する。
The
音声化ゲートウェイサーバ110は、HTTP(HyperText Transfer Protocol)に基づいて端末200との間でデータの送受信が可能な、一種のWebサーバである。また、音声化ゲートウェイサーバ110は、HTTPユーザエージェントとしての機能をも有しており、端末200からのリクエストに基づいて、インターネット上の他のウェブサーバ300から文書データを取得することができる。
The
レベル格納データベース120とは、ある単語とこの単語を平易に読み上げられるだけの語学習得レベルとを対比させたデータベースである。音声化ゲートウェイサーバ110は、文書中に含まれる任意の単語について、その単語に関連づけられた語学習得レベルを取得可能である。
The
TTSサーバ130は、音声化ゲートウェイサーバ110からテキストを受信すると、このテキストを読み上げた音声データを音声合成によって生成し、これを音声化ゲートウェイサーバ110に送信する。
When the
以上説明した構成においては、音声化ゲートウェイサーバ110のみがインターネットに接続され、レベル格納データベース120及びTTSサーバ130はこの音声化ゲートウェイサーバ110とLAN経由で接続されている。しかしながら本発明は上記構成に限定されるものではない。例えば、レベル格納データベース120及びTTSサーバ130の何れか一方または双方がインターネットに接続されており、これらと音声化ゲートウェイサーバ110とがインターネットを介してデータのやり取りをおこなっても良い。また、本実施形態においては音声化ゲートウェイサーバ110、レベル格納データベース120、TTSサーバ130が夫々別々の装置として示されているが、単一のサーバ装置が音声化ゲートウェイサーバ110、レベル格納データベース120、TTSサーバ130としての機能を兼ね備える構成もまた、本発明の範囲内である。
In the configuration described above, only the
以上説明した構成によって、文書の音声データを端末200の使用者(語学習得者)が得るまでの手順に付き説明する。まず、使用者がウェブブラウザを操作して、音声化ゲートウェイサーバ110に接続する。接続が完了すると、図2のように文書URL入力用ページがブラウザの文書表示エリアに表示される。
With the configuration described above, a procedure until the user (word learner) of the
この文書URL入力用ページには、テキスト行入力コントロール(single−line text input control)T1、ボタンB1、ラジオボタンR1が表示される。テキスト行入力コントロールT1は、端末200の使用者が、音声読み上げを希望する文書(プレーンテキスト、HTML文書等)のURLを入力するための領域である。使用者は、端末200のキーボードを操作して、このテキスト行入力コントロールT1に文字を入力することができる。
A text line input control (single-line text input control) T1, a button B1, and a radio button R1 are displayed on the document URL input page. The text line input control T1 is an area for the user of the
ラジオボタンR1は、図2中に縦方向に4つ並べられており、この4つのラジオボタンR1の何れかを選択することによって、使用者の語学習得レベルを選択するものである。使用者は、端末200のマウスを操作することによって、カーソルCを所望のラジオボタンR1に移動させ、次いでマウスのボタンをクリックすることによって所望のラジオボタンを選択することができる。
Four radio buttons R1 are arranged in the vertical direction in FIG. 2, and the user's word learning level is selected by selecting any one of the four radio buttons R1. The user can select the desired radio button by operating the mouse of the
ボタンB1は、テキスト行入力コントロールT1及びラジオボタンR1の内容を音声化ゲートウェイサーバ110に送信するためのボタンである。使用者は、端末200のマウスを操作することによって、カーソルCをボタンに重ね、次いでマウスのボタンをクリックすることによってテキスト行入力コントロールT1及びラジオボタンR1の内容を送信する。
The button B1 is a button for transmitting the contents of the text line input control T1 and the radio button R1 to the
すなわち、使用者は、キーボード等を用いて所望の文書のURLをテキスト行入力コントロールT1に入力し、使用者自身の語学習得レベルに応じたラジオボタンR1を選択し、最後にボタンB1を操作して、所望の文書のURL及び使用者自身の語学習得レベルをゲートウェイサーバ110に送信する。
That is, the user inputs the URL of a desired document into the text line input control T1 using a keyboard or the like, selects the radio button R1 corresponding to the user's own word learning level, and finally operates the button B1. Then, the URL of the desired document and the user's own word learning acquisition level are transmitted to the
ゲートウェイサーバ110は、端末200から文書のURLと使用者の語学習得レベルを受信すると、図3のフローチャートに示されるルーチンを実行する。このルーチンが開始すると、最初にステップS1が実行される。
When the
ステップS1では、ゲートウェイサーバ110は、端末200から送信されたURLに対応する文書があるかどうかの確認をおこなう。このURLに対応する文書が無い、若しくはこのURLに対応する文書はあるがゲートウェイサーバ110が対応していないエンコーディングの文書であった、といった場合は(S1:NO)、ステップS11を実行する。ステップS11では、エラーメッセージを端末200に送信する。一方、ステップS1において、端末200から送信されたURLに対応する文書があり、且つその文書がゲートウェイサーバ110が対応していないエンコーディングで記述されていることが確認された場合は(S1:YES)、ステップS2に進む。
In step S <b> 1, the
ステップS2では、ゲートウェイサーバ110は、ユーザエージェント機能を利用してURLに対応する外部のウェブサーバ300から文書をダウンロードする。次いで、ステップS3に進む。
In step S2, the
ステップS3では、文書の整形がおこなわれる。すなわち、文書がHTMLファイルである場合は、不要なタグやコメントやSGML宣言などを除去し、純粋な文書のみを抽出する。また、文書が整形済の(すなわち、所定の文字数ごとに強制的に改行コードが挿入されている)プレーンテキストである場合は、改行コードを除去する。さらに、文書の言語が日本語のように単語同士を区切る文字を持たないものであるならば、文書の形態解析を行って、文書を単語ごとに分割する。これらの文書の整形方法については既知であるため、詳細な説明は省略する。次いで、ステップS4に進む。 In step S3, the document is shaped. That is, when the document is an HTML file, unnecessary tags, comments, SGML declarations, etc. are removed, and only a pure document is extracted. If the document is a plain text that has been formatted (that is, a line feed code is forcibly inserted every predetermined number of characters), the line feed code is removed. Furthermore, if the language of the document does not have characters that separate words from each other like Japanese, the form of the document is analyzed to divide the document into words. Since the formatting method of these documents is known, detailed description is omitted. Next, the process proceeds to step S4.
ステップS4では、ステップS3で整形を行った文書に含まれる単語を文書の先頭から順に一つずつ抽出する。この際、日本語における助詞や助動詞、英語におけるbe動詞や代名詞、助動詞など、一つの文書内に多く出現し、また語学学習者にとってもきわめて平易であることが既知である単語については抽出しない構成としてもよい。次いでステップS5に進む。 In step S4, words included in the document shaped in step S3 are extracted one by one from the top of the document. At this time, words that frequently appear in one document, such as Japanese verbs and auxiliary verbs, English be verbs, pronouns, auxiliary verbs, and the like that are known to be very easy for language learners are not extracted. It is good. Next, the process proceeds to step S5.
ステップS5では、ゲートウェイサーバ110は、ステップS4で抽出された単語について、レベル格納データベース120に問い合わせを行う。レベル格納データベース120では、図4のように単語の各々について、そのレベルを参照できるようになっている。言語が日本語であるならば、初等教育で習う単語や音読みのみで発音可能な単語については低いレベルが割り当てられ、漢字単体の音読みにも訓読みにも無い発音が割り当てられているような単語については高いレベルが割り当てられるようになっている。レベル格納データベース120は、ゲートウェイサーバ110より単語のテキストを受信すると、この単語のレベルをゲートウェイサーバ110に送り返す。かくして、ゲートウェイサーバ110は、その単語の難易度レベルを取得する。ゲートウェイサーバ110は、次いで、ステップS6(図3)を実行する。
In step S5, the
ステップS6では、ゲートウェイサーバ110はステップS5で取得した単語の難易度レベルと、本ルーチンの開始時に端末200から受け取っている使用者の言語習得レベルとを比較する。ここで、単語の難易度レベルが使用者の言語習得レベル以上であるなら(S6:YES)、この単語を読み上げた音声データが必要であると判断し、ステップS7に進む。一方、ステップS6において単語の難易度レベルが使用者の言語習得レベル未満であるなら(S6:NO)、この単語については音声データを用意する必要はないと判断し、ステップS4にもどり、文書内に次に現れる単語の抽出を行う。
In step S6, the
ステップS7では、ゲートウェイサーバ110はTTSサーバ130に問い合わせを行う。具体的には、ゲートウェイサーバ110はステップS4で抽出した単語のテキストをTTSサーバ130に送信する。TTSサーバ130は、音声合成によってこの単語を読み上げた音声データを作成し、これをゲートウェイサーバ110に送り返す。ゲートウェイサーバ110は、受信したデータをサーバのストレージ手段に保存する。なお、ストレージ手段の容量が使用済みの音声データによって圧迫されるのを防止するため、ステップS7の実行から一定時間後(例えば1時間後)に、音声データを消去する構成としてもよい。次いで、ステップS8に進む。
In step S7, the
ステップS8では、ステップS7で得た音声データへのリンクアンカー(HTMLにおけるA要素)をステップS3で整形した文書に埋め込む。次いで、ステップS9に進む。 In step S8, the link anchor (A element in HTML) to the audio data obtained in step S7 is embedded in the document shaped in step S3. Next, the process proceeds to step S9.
ステップS9では、文書の最後まで単語の検索(ステップS4)が完了したかどうかの判定が行われる。文書の最後まで単語の検索が済んだのであれば(S9:YES)、ステップS10に進む。一方、文書の最後まで単語の検索を終えていないのであれば(S9:NO)、まだ抽出すべき単語が残されている可能性があるということなので、ステップS4に戻り、他の単語の抽出を行う。 In step S9, it is determined whether the word search (step S4) has been completed up to the end of the document. If the word has been searched to the end of the document (S9: YES), the process proceeds to step S10. On the other hand, if the word search has not been completed until the end of the document (S9: NO), it means that there is a possibility that the word to be extracted still remains, so the process returns to step S4 to extract other words. I do.
ステップS10では、ステップS3によって一旦整形され、ステップS8にてリンクアンカーが埋め込まれた文書に、ヘッダやタイトル要素など、HTMLファイルとして必要なデータが追記され、HTMLファイルが作成される。次いで、ゲートウェイサーバ110は、このHTMLファイルを端末200に送信し、本ルーチンを終了させる。
In step S10, necessary data as an HTML file, such as a header and a title element, is added to the document once shaped in step S3 and embedded with the link anchor in step S8, thereby creating an HTML file. Next, the
端末200は、このHTMLファイルを受信すると、ブラウザを制御してこのHTMLファイルをWebページとして表示する。ブラウザに表示されるWebページの一例を図5に示す。図5に示されるように、文書中には音声データへのリンクが設けられた単語が強調表現(本実施形態においては下線)で表示され、端末200の使用者はこのリンクを操作する(例えばカーソルをこの単語に重ねてマウスのボタンをクリックする)ことによって、この単語を読み上げた音声データをダウンロードして聴くことができる。 When the terminal 200 receives the HTML file, the terminal 200 controls the browser to display the HTML file as a Web page. An example of the Web page displayed on the browser is shown in FIG. As shown in FIG. 5, a word provided with a link to audio data is displayed in an emphasized expression (underlined in this embodiment) in the document, and the user of the terminal 200 operates this link (for example, If you place the cursor on this word and click the mouse button), you can download and listen to the voice data that reads out this word.
以上のように、本実施形態によれば、文書中の単語を読み上げた音声データが文書中にリンクとして示されたHTML文書を端末200の使用者は取得できるので、テキストである文書と、その文書中の単語を読み上げた音声とを相互参照しながら自然言語の学習を効率的に進めていくことが出来るようになる。さらに、言語習得者のレベルに応じて音声と関連づけられる単語は変化するので、言語習得者は自分のレベルにあったHTML文書を取得できる。 As described above, according to the present embodiment, since the user of the terminal 200 can acquire the HTML document in which the voice data read out from the word in the document is indicated as a link in the document, It becomes possible to efficiently advance learning of natural language while cross-referencing the speech that reads out the words in the document. Furthermore, since the word associated with the sound changes according to the level of the language learner, the language learner can acquire an HTML document suitable for his / her level.
なお、本実施形態においては、端末200から所望の文書のURLを送信する構成としているが、代わりに、文書自身を直接音声化ゲートウェイサーバに送信する構成としてもよい。 In the present embodiment, the URL of the desired document is transmitted from the terminal 200, but instead, the document itself may be directly transmitted to the voice gateway server.
1 音声化システム
100 音声化サーバ
110 音声化ゲートウェイサーバ
120 レベル格納データベース
130 TTSサーバ
200 端末
300 ウェブサーバ
1
Claims (16)
前記端末が、
テキストに関するテキスト情報及び利用者のレベル情報を入力する情報入力手段と、
該テキスト情報及び該レベル情報を前記音声化サーバに送信する通信手段と、
表示手段と、を有し、
前記音声化サーバが、
該テキスト情報に対応するテキストを取得するテキスト取得手段と、
該レベル情報に基づいて利用者のレベル以上の読み上げ難易度を有する単語を該テキストから抽出する単語抽出手段と、
前記単語抽出手段によって抽出された単語の音声データを取得する音声データ取得手段と、
該テキストに音声データへのリンクアンカーが埋めこまれたHTMLデータを作成するHTMLデータ作成手段と、
前記HTMLデータ作成手段によって作成されたHTMLデータを前記端末に送信するデータ送信手段と、を有し、
前記表示手段は、前記音声化サーバより受信したHTMLデータを表示する、
ことを特徴とする音声化システム。 An audio system including a terminal and an audio server connected to each other via a predetermined network,
The terminal is
Information input means for inputting text information about the text and user level information;
Communication means for transmitting the text information and the level information to the voice server;
Display means,
The voice server is
Text acquisition means for acquiring text corresponding to the text information;
Word extraction means for extracting from the text a word having a reading difficulty level equal to or higher than the level of the user based on the level information;
Voice data acquisition means for acquiring voice data of words extracted by the word extraction means;
HTML data creation means for creating HTML data in which link anchors to voice data are embedded in the text;
Data transmitting means for transmitting the HTML data created by the HTML data creating means to the terminal,
The display means displays HTML data received from the voice server.
An audio system characterized by that.
前記単語抽出手段は、該テキストに含まれる単語の各々について前記難易度データベースに問い合わせを行って各単語の読み上げ難易度を取得することによって、利用者のレベル以上の読み上げ難易度を有する単語を該テキストから抽出する、
ことを特徴とする請求項1に記載の音声化システム。 The voice server further includes a difficulty level database in which a word and a difficulty level of reading the word are stored in association with each other.
The word extraction means makes an inquiry to the difficulty level database for each word included in the text to obtain a reading difficulty level of each word, thereby obtaining a word having a reading difficulty level equal to or higher than a user's level. Extract from text,
The voice system according to claim 1.
該受信したテキスト情報に基づいてテキストを取得し、
該レベル情報に基づいて、該テキストに含まれる単語の中から該利用者のレベル以上の読み上げ難易度の単語を抽出し、
該抽出された単語を読み上げた音声データを取得し、
該テキストに該音声データへのリンクアンカーを埋め込んでHTMLファイルを作成し、
該作成されたHTMLファイルを該端末に送信する、
ことを特徴とする音声化方法。 Receive text information about the text and user level information from the terminal,
Obtain text based on the received text information,
Based on the level information, from the words included in the text, a word having a difficulty level of reading that is higher than the level of the user is extracted,
Obtaining voice data reading the extracted words;
An HTML file is created by embedding a link anchor to the voice data in the text,
Sending the created HTML file to the terminal;
An audio method characterized by the above.
該受信したテキスト情報に基づいてテキストを取得するテキスト取得手段と、
該レベル情報に基づいて、該テキストに含まれる単語の中から、該使用者のレベル以上の読み上げ難易度の単語を抽出する単語抽出手段と、
該抽出された単語を読み上げた音声データを取得する音声データ取得手段と、
該テキストに該音声データへのリンクアンカーを埋め込んでHTMLデータを作成するHTMLデータ作成手段と、
該作成されたHTMLデータを該端末に送信するデータ送信手段と、
を有する、音声化サーバ。 Text receiving means for receiving text information about the text and user level information from the terminal;
Text acquisition means for acquiring text based on the received text information;
Based on the level information, a word extracting means for extracting a word having a difficulty level of reading equal to or higher than the level of the user from words included in the text;
Voice data acquisition means for acquiring voice data reading the extracted word;
HTML data creating means for creating HTML data by embedding a link anchor to the voice data in the text;
Data transmission means for transmitting the created HTML data to the terminal;
A voice server.
該受信したテキスト情報に基づいてテキストを取得するテキスト取得手順と、
該レベル情報に基づいて、該テキストに含まれる単語の中から該使用者のレベル以上の読み上げ難易度の単語を抽出する単語抽出手順と、
該抽出された単語を読み上げた音声データを取得する音声データ取得手順と、
該テキストに該音声データへのリンクアンカーを埋め込んでHTMLデータを作成するHTMLデータ作成手順と、
該作成されたHTMLデータを該端末に送信するデータ送信手順と、
を実行するための音声化プログラム。 A text reception procedure for receiving text information about the text and user level information from the terminal;
A text acquisition procedure for acquiring text based on the received text information;
Based on the level information, a word extraction procedure for extracting a word having a difficulty level of reading equal to or higher than the level of the user from words included in the text;
A voice data acquisition procedure for acquiring voice data reading the extracted word;
HTML data creation procedure for creating HTML data by embedding a link anchor to the voice data in the text;
A data transmission procedure for transmitting the created HTML data to the terminal;
An audio program for running.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006274814A JP2008096489A (en) | 2006-10-06 | 2006-10-06 | Voice system, voice method, voice server, and voice program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006274814A JP2008096489A (en) | 2006-10-06 | 2006-10-06 | Voice system, voice method, voice server, and voice program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008096489A true JP2008096489A (en) | 2008-04-24 |
Family
ID=39379437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006274814A Pending JP2008096489A (en) | 2006-10-06 | 2006-10-06 | Voice system, voice method, voice server, and voice program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008096489A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010282612A (en) * | 2009-06-05 | 2010-12-16 | Voiceware Co Ltd | Web reader system using tts server and method thereof |
JP2017116710A (en) * | 2015-12-24 | 2017-06-29 | 大日本印刷株式会社 | Voice distribution system and document distribution system |
-
2006
- 2006-10-06 JP JP2006274814A patent/JP2008096489A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010282612A (en) * | 2009-06-05 | 2010-12-16 | Voiceware Co Ltd | Web reader system using tts server and method thereof |
JP2017116710A (en) * | 2015-12-24 | 2017-06-29 | 大日本印刷株式会社 | Voice distribution system and document distribution system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3959180B2 (en) | Communication translation device | |
US7805290B2 (en) | Method, apparatus, and program for transliteration of documents in various indian languages | |
TWI355595B (en) | Cpmputer-readable storage medium,character input e | |
JP2006244296A (en) | Reading file creation device, link reading device, and program | |
AU2011335900A1 (en) | Text conversion and representation system | |
US10373606B2 (en) | Transliteration support device, transliteration support method, and computer program product | |
JPH10124293A (en) | Speech commandable computer and medium for the same | |
JP2008096489A (en) | Voice system, voice method, voice server, and voice program | |
JP7140016B2 (en) | Audio output method, audio output system and program | |
JP4012047B2 (en) | Electronic document creation apparatus, electronic document creation method, and program causing computer to execute the method | |
Ghose et al. | Architecture of a web browser for visually handicapped people | |
KR100916814B1 (en) | Method, system and computer readable recording medium for extracting text based on tag information | |
JP2005050156A (en) | Method and system for replacing content | |
JP2009086597A (en) | Text-to-speech conversion service system and method | |
JP4584166B2 (en) | Web page text automatic detection device | |
KR100771017B1 (en) | Instant Reaction English Learning Method through Parts of Speech | |
WO2004059548A1 (en) | Language learning method using flash | |
JP2002229578A (en) | Device and method for voice synthesis, and computer- readable recording medium with recorded voice synthesizing program | |
KR20050035784A (en) | Voice supporting web browser through conversion of html contents and method for supporting voice reproduction | |
WO2013061718A1 (en) | Apparatus for providing text data with synthesized voice information and method for providing text data | |
TW434492B (en) | Hyper text-to-speech conversion method | |
JP2024128578A (en) | Text content providing system, text content providing method, computer program, and web file | |
Raggett et al. | Voice Browsers | |
KR100586044B1 (en) | Method and device for automatic conversion to web content providing simultaneous information transmission and audio interface through visual and auditory hearing | |
CA2438888C (en) | A method to access web page text information that is difficult to read |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20080502 |