JP4515186B2 - Speech dictionary creation device, speech dictionary creation method, and program - Google Patents
Speech dictionary creation device, speech dictionary creation method, and program Download PDFInfo
- Publication number
- JP4515186B2 JP4515186B2 JP2004222876A JP2004222876A JP4515186B2 JP 4515186 B2 JP4515186 B2 JP 4515186B2 JP 2004222876 A JP2004222876 A JP 2004222876A JP 2004222876 A JP2004222876 A JP 2004222876A JP 4515186 B2 JP4515186 B2 JP 4515186B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- character string
- storage unit
- url
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 69
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000013500 data storage Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 9
- 238000012546 transfer Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Abstract
Description
この発明は、音声を認識して文字列に変換する際に用いられる音声辞書データを作成する音声辞書作成装置、音声辞書作成方法、及びプログラムに関する。 The present invention relates to a speech dictionary creation device, a speech dictionary creation method, and a program for creating speech dictionary data used when speech is recognized and converted into a character string.
音声認識装置は、その一部または別個に音声辞書作成装置とともに用いられる。これは、たとえば用途によって、同じ「こうかい」という発音でも「公開」「後悔」「航海」などがあり、日本語の係り受けを使っても「こうかい−する」でいずれも成立することから、使用者側がどの用例を使うか指定してやらないと音声認識した結果の文字が、意図したものが得られないからである。このような音声辞書があらかじめ準備されている場合もあるが、それでも使用者側で優先順位(選択順序)などを調整してやらないと望む結果が得がたいので、やはり音声辞書を操作する必要が生じる。また、そもそも音声認識装置にとって既知でない単語である「未知語」が含まれていると、音声認識に支障を生じるため、そのような未知語を音声辞書作成装置で追加して音声認識装置の認識率を高めるのである。 The speech recognition device is used in part or separately with the speech dictionary creation device. This is because, for example, depending on the application, the same pronunciation “Koukai” can be “public”, “regret”, “voyage”, etc. This is because if the user side does not specify which example to use, the intended character as a result of speech recognition cannot be obtained. In some cases, such a speech dictionary is prepared in advance, but it is still necessary to operate the speech dictionary because it is difficult to obtain a desired result unless the user adjusts the priority (selection order). In addition, if an "unknown word" that is a word that is unknown to the speech recognition device is included in the first place, it will interfere with speech recognition. Therefore, such an unknown word is added by the speech dictionary creation device and the speech recognition device recognizes it. Increase the rate.
このような音声辞書作成を行う場合、従来はひとつひとつの単語を、人間が辞書登録を行っており、実用に耐える辞書を作成するのには多くの工数を必要とした。また、あらかじめ準備された辞書を用いる場合でも、用途によって認識される単語の優先順位が異なるために、使用者による試行錯誤によって音声辞書を操作する手間が膨大に必要であった。また、大規模な長文を認識して効率を上げるような試みも行われていたが、用意する文章が必ずしも話者が意図したものに近似しているとは限らないので、やはり多く修正の工数が必要とされていた。 In the case of creating such a voice dictionary, humans have conventionally registered a dictionary for each word, and it took a lot of man-hours to create a practical dictionary. Further, even when a dictionary prepared in advance is used, the priority order of the words recognized by the application is different, so that it takes a lot of labor to operate the speech dictionary by trial and error by the user. In addition, attempts have been made to increase efficiency by recognizing large, long sentences, but since the prepared text does not always approximate what the speaker intended, there are still many man-hours for correction. Was needed.
なお、音声認識により音声を文字列に変換する処理において、変換する文字列の候補が複数ある場合に、過去に入力された文字列の履歴に基づいて複数の候補の中から適切な候補を選択する音声認識装置及び音声認識方法が特許文献1に開示されている。
前述した通り、音声認識装置の使用者が音声を文字列に変換する際の優先順位をひとつひとつ登録することにより実用に耐え得る音声辞書を作成するには多くの工数が必要である。また、音声辞書作成装置があらかじめ備える音声辞書を用いる場合であっても、使用者の用途に応じて優先順位を調整するには膨大な手間がかかった。また、特許文献1に開示されている音声認識装置及び音声認識方法を用いる場合であっても、過去に入力された文字列の履歴が無ければ適切な文字列の候補を選択することができない。
As described above, it takes a lot of man-hours to create a speech dictionary that can withstand practical use by registering the priorities for converting speech into character strings one by one by the user of the speech recognition apparatus. Further, even when a speech dictionary provided in advance in the speech dictionary creation device is used, it takes a great deal of time to adjust the priority order according to the user's application. Even when the speech recognition apparatus and speech recognition method disclosed in
本発明は前記課題に鑑み案出されたもので、インターネット接続手段がありインターネット接続手段を通じて提供されている文字入力可能なサイトに音声認識装置を使って文字入力を行いたいときに、短期間に実用に耐え得る音声辞書作成を可能にすることを目的とする。 The present invention has been devised in view of the above problems, and when a user has an Internet connection means and wants to input characters using a speech recognition apparatus in a site where characters can be input provided through the Internet connection means, The purpose is to enable the creation of a speech dictionary that can withstand practical use.
インターネット網に接続された読込処理部が文字入力を行おうとするサイトまたはそのサイトからリンクされたサイトまたはその他特に関連が深いとして使用者が指定したサイトを読み込んで、そのデータを文字列抽出部に受け渡す。文字列抽出部は、受け渡されたデータを単語等の音声認識に使用する文字列として解析してその結果を音声辞書作成部に受け渡す。音声辞書作成部は文字列抽出部から受け渡されたデータに従って、単語の使用頻度を調整したり、未知語を追加するなどの処理を行って音声辞書を作成し音声認識装置の音声辞書を作成する。 The reading processing unit connected to the Internet network reads the site where the character input is to be performed, the site linked from the site, or the other site specified by the user as being particularly relevant, and the data is read to the character string extracting unit. Deliver. The character string extraction unit analyzes the received data as a character string used for speech recognition of a word or the like, and passes the result to the speech dictionary creation unit. The speech dictionary creation unit creates a speech dictionary by adjusting the frequency of use of words and adding unknown words according to the data passed from the character string extraction unit, and creates a speech dictionary for the speech recognition device. To do.
従来は1件1件試行錯誤しながら人手によって音声辞書を作成していたが、本発明ではインターネット上から音声辞書を作成するためのデータを得ることとし、その範囲を、音声入力を行おうとするサイト、またそのリンク先、または使用者が特に関連が深いとして指定したサイトをデータ取得対象とする点が異なる。また、単に長文を音声辞書作成に使用するのではなく、その範囲を、音声入力を行おうとするサイト、またそのリンク先、または使用者が特に関連が深いとして指定したサイトをデータ取得対象とする点が異なる。 Conventionally, a voice dictionary is created manually by trial and error one by one. However, in the present invention, data for creating a voice dictionary is obtained from the Internet, and the range is to be used for voice input. The difference is that the site, the link destination, or the site designated by the user as being particularly relevant is targeted for data acquisition. Also, rather than simply using a long sentence to create a speech dictionary, the scope of the data acquisition targets sites that are intended to be used for speech input, links to them, or sites that the user has specified as being particularly relevant. The point is different.
インターネットの性質を利用して、音声入力を行おうとするサイトそのもの又そのリンク先から音声辞書を作成する。また、以上でデータ量が不足である場合には使用者が任意に関連の深いと思われるサイトを読込処理部に追加することができる。このような手段により、効率的に音声辞書の作成を行う手段を提供する。 Utilizing the nature of the Internet, a voice dictionary is created from the site or the link destination where the voice is to be input. In addition, when the amount of data is insufficient as described above, a user can arbitrarily add a site that seems to be closely related to the read processing unit. By such means, means for efficiently creating a speech dictionary is provided.
インターネット上に文字入力を受け付ける文字入力サイトが存在しており、インターネット網に接続されたインターネット接続装置がこの文字入力サイトに接続されており、インターネット接続装置に音声認識装置が付加されていて文字入力サイトに音声認識された文字を送信しようとするときに、インターネット網に接続された読込処理部が文字入力を行おうとするサイトまたはそのサイトからリンクされたサイトまたはその他特に関連が深いとして使用者が指定したサイトを読み込んで、そのデータを文字列抽出部に受け渡し、文字列抽出部は、受け渡されたデータを単語等の音声認識に使用する文字列として解析してその結果を音声辞書作成部に受け渡し、音声辞書作成部は文字列抽出部から受け渡されたデータに従って、単語の使用頻度を調整したり未知語を追加するなどの処理を行って音声辞書を作成して音声認識装置の音声辞書を作成し、この音声辞書を音声認識装置が用いることで効率的な音声認識処理による文字入力処理を行う。 There is a character input site that accepts character input on the Internet. An Internet connection device connected to the Internet network is connected to this character input site, and a voice recognition device is added to the Internet connection device. When trying to send a voice-recognized character to a site, the user may consider that the reading processing unit connected to the Internet network attempts to input the character, the site linked from that site, or other particularly relevant The specified site is read and the data is passed to the character string extraction unit. The character string extraction unit analyzes the received data as a character string used for speech recognition of words and the like, and the result is a voice dictionary creation unit. The voice dictionary creation unit uses words according to the data received from the character string extraction unit. Create a speech dictionary by adjusting the degree or adding unknown words to create a speech dictionary for the speech recognition device. The speech recognition device uses this speech dictionary for efficient speech recognition processing. Perform character input processing.
本発明の音声辞書作成装置は、CPU、メモリ、及びインターネットに接続するための通信インタフェースと、前記メモリに設けられた記憶領域である、第一の音声辞書記憶部、第二の音声辞書記憶部、読込URL記憶部、及び出現頻度記憶部と、前記CPUが前記メモリに記憶されているプログラムを実行することにより実現される、読込処理部、文字列抽出部、及び音声辞書作成部と、を備え、前記第一の音声辞書記憶部には、単語等の文字列を示す文字列データと、当該文字列の読みを示す読みデータとが対応付けて記憶され、前記読込URL記憶部には、WebページのURLが記憶され、前記読込処理部は、前記読込URL記憶部に記憶されている前記URLで指定されるWebページを、インターネット上のWebサーバにアクセスすることにより取得し、前記文字列抽出部は、前記読込処理部が取得した前記Webページを構成しているデータに含まれている前記文字列データを抽出して前記文字列データごとの出現頻度を求め、前記文字列データ及び前記出現頻度を示すデータである出現頻度データを対応付けて前記出現頻度記憶部に記憶し、前記音声辞書作成部は、前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記第一の音声辞書記憶部から取得し、取得した前記読みデータが同一の複数の前記文字列データの夫々に対して、音声認識によって得られる前記読みデータを前記複数の前記文字列データのうちから選択される一の文字列データに変換する際の前記文字列データの選択順序を前記出現頻度データに基づいて決定し、前記文字列データ、前記読みデータ、及び前記選択順序を示すデータである選択順序データを対応付けて、音声を認識して文字列に変換する際に用いられるデータである音声辞書データを生成し、当該音声辞書データを前記第二の音声辞書記憶部に記憶することとする。 The speech dictionary creation device of the present invention includes a CPU, a memory, a communication interface for connecting to the Internet, and a first speech dictionary storage unit and a second speech dictionary storage unit which are storage areas provided in the memory. A read URL storage unit, an appearance frequency storage unit, and a read processing unit, a character string extraction unit, and a speech dictionary creation unit realized by the CPU executing a program stored in the memory. The first voice dictionary storage unit stores character string data indicating a character string such as a word and reading data indicating a reading of the character string in association with each other, and the reading URL storage unit stores The URL of the Web page is stored, and the read processing unit accesses the Web page specified by the URL stored in the read URL storage unit to a Web server on the Internet. The character string extraction unit extracts the character string data included in the data constituting the Web page acquired by the read processing unit, and appears for each character string data. The frequency is obtained, the character string data and the appearance frequency data which is data indicating the appearance frequency are associated with each other and stored in the appearance frequency storage unit, and the speech dictionary creation unit is stored in the appearance frequency storage unit The reading data corresponding to the character string data is acquired from the first speech dictionary storage unit, and the acquired reading data is obtained by speech recognition for each of the plurality of character string data having the same reading data. The selection order of the character string data when converting the data into one character string data selected from the plurality of character string data is determined based on the appearance frequency data The character string data, the reading data, and the selection order data that is the data indicating the selection order are associated with each other to generate speech dictionary data that is data used when the speech is recognized and converted into a character string. The speech dictionary data is stored in the second speech dictionary storage unit.
また、本発明のプログラムは、CPU、メモリ、及びインターネットに接続するための通信インタフェースと、前記メモリに設けられた記憶領域である、単語等の文字列を示す文字列データと、当該文字列の読みを示す読みデータとが対応付けて記憶されている第一の音声辞書記憶部と、WebページのURLが記憶されている読込URL記憶部と、を備えるコンピュータに、前記読込URL記憶部に記憶されている前記URLで指定されるWebページを、インターネット上のWebサーバにアクセスすることにより取得する手順と、取得した前記Webページに含まれている前記文字列データを抽出して前記文字列データごとの出現頻度を求める手順と、前記文字列データ及び前記出現頻度を示すデータである出現頻度データを対応付けて前記メモリに設けられた記憶領域である出現頻度記憶部に記憶する手順と、前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記第一の音声辞書記憶部から取得する手順と、取得した前記読みデータが同一の複数の前記文字列データの夫々に対して、音声認識によって得られる前記読みデータを前記複数の前記文字列データのうちから選択される一の文字列データに変換する際の前記文字列データの選択順序を前記出現頻度データに基づいて決定する手順と、前記文字列データ、前記読みデータ、及び前記選択順序を示すデータである選択順序データを対応付けて、音声を認識して文字列に変換する際に用いられるデータである音声辞書データを生成し、当該音声辞書データを前記メモリに設けられた記憶領域である第二の音声辞書記憶部に記憶する手順と、を実行させるためのものである。 The program of the present invention includes a CPU, a memory, a communication interface for connecting to the Internet, character string data indicating a character string such as a word, which is a storage area provided in the memory, Stored in the read URL storage unit in a computer comprising a first voice dictionary storage unit storing reading data indicating readings in association with each other and a read URL storage unit storing a URL of a Web page A procedure for acquiring a Web page specified by the URL that is specified by accessing a Web server on the Internet, and extracting the character string data included in the acquired Web page to extract the character string data Associating the procedure for obtaining the appearance frequency for each character with the character string data and the appearance frequency data that is the data indicating the appearance frequency The procedure of storing in the appearance frequency storage unit, which is a storage area provided in the memory, and the reading data corresponding to the character string data stored in the appearance frequency storage unit from the first speech dictionary storage unit One character selected from among the plurality of character string data for the reading data obtained by voice recognition for each of the plurality of character string data having the same reading data and the acquired reading data Corresponds to the procedure for determining the selection order of the character string data when converting to column data based on the appearance frequency data, and the selection order data that is the data indicating the character string data, the reading data, and the selection order In addition, voice dictionary data, which is data used when recognizing voice and converting it into a character string, is generated, and the voice dictionary data is stored in the memory. Is intended for executing the instructions stored in the second speech dictionary storage unit is a region.
音声認識技術の発達に伴い、音声認識プログラムを用いて音声を文字列に変換することが行われている。例えば、営業日報等の文字入力が必要なWebページへの文字入力や、学術論文等の文書データの作成等において用いられている。このような音声認識プログラムでは、音声を文字列に変換するための音声辞書が用いられる。音声認識プログラムが初めから備える標準の音声辞書(以後、「標準辞書」と称する。本発明の「第一の音声辞書」に該当。)には、例えば、「こうかい」という読みに対して「後悔」や「公開」、「航海」等の文字列が、変換される優先順位とともに記憶されている。音声認識プログラムは、認識した音声に対応する文字列を標準辞書の優先順位に従って決定する。 With the development of speech recognition technology, speech is converted into a character string using a speech recognition program. For example, it is used for character input to a Web page that requires character input such as a daily business report, or creation of document data such as academic papers. In such a speech recognition program, a speech dictionary for converting speech into a character string is used. For example, a standard speech dictionary (hereinafter referred to as “standard dictionary”, which corresponds to the “first speech dictionary” of the present invention) included in the speech recognition program is “ Character strings such as “regret”, “public”, and “voyage” are stored together with the priority order to be converted. The voice recognition program determines a character string corresponding to the recognized voice according to the priority order of the standard dictionary.
したがって、音声認識プログラムの使用者は、音声が使用者の意図する文字に変換されるよう、標準辞書に設定されている優先順位を調整する必要がある。例えば、対象が海洋分野であれば「航海」の優先順位を上げる等の作業が必要となる。 Therefore, the user of the voice recognition program needs to adjust the priority order set in the standard dictionary so that the voice is converted into the character intended by the user. For example, if the target is the marine field, work such as raising the priority of “voyage” is required.
本発明のプログラムは、音声認識プログラムとともにコンピュータ(音声辞書作成装置)にインストールされて用いられる。そして、このような音声辞書作成装置を用いれば、音声認識させて文字入力を行おうとしている分野に関連するサイトのWebページのURLを読込URL記憶部に記憶させておくだけで、そのWebページにおける文字列の出現頻度に応じた優先順位が設定された音声辞書(以後、「ユーザ辞書」と称する。本発明の「第二の音声辞書」に該当。)を得ることができる。 The program of the present invention is installed and used in a computer (voice dictionary creation device) together with a voice recognition program. If such a speech dictionary creation device is used, the URL of a web page of a site related to the field in which character recognition is performed by voice recognition is simply stored in the read URL storage unit. A speech dictionary (hereinafter referred to as “user dictionary”, which corresponds to the “second speech dictionary” of the present invention) in which priorities are set in accordance with the appearance frequency of the character string in FIG.
なお、ユーザ辞書は、標準辞書とは別の新たな辞書として作成されることとしてもよいし、標準辞書を更新することにより作成されることとしてもよい。また、第一の音声辞書は、音声認識プログラムの標準辞書に限らず、文字列と読みが対応付けられているものであればよい。例えば、仮名漢字変換プログラムが備える仮名漢字変換用の辞書を第一の音声辞書として用いることも可能である。また、生成されたユーザ辞書は、音声認識における文字変換に限らず、仮名漢字変換においても使用可能である。 Note that the user dictionary may be created as a new dictionary different from the standard dictionary, or may be created by updating the standard dictionary. Further, the first speech dictionary is not limited to the standard dictionary of the speech recognition program, but may be any one as long as a character string and a reading are associated with each other. For example, a kana-kanji conversion dictionary provided in the kana-kanji conversion program can be used as the first speech dictionary. The generated user dictionary can be used not only for character conversion in speech recognition but also for kana-kanji conversion.
さらに、本発明のプログラムは、前記出現頻度記憶部に記憶されている前記文字列データのうち、前記第一の音声辞書記憶部に記憶されていない前記文字列データをディスプレイやプリンタ等の所定の出力装置に出力する手順と、前記コンピュータが備える所定の入力装置から入力される、前記出力装置に出力された前記文字列データによって表される文字列の読みを示す前記読みデータを受け付け、当該文字列データ及び当該読みデータを対応付けて前記メモリに設けられた記憶領域である読みデータ記憶部に記憶する手順と、を更に備え、前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを取得する前記手順は、前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記第一の音声辞書記憶部または前記読みデータ記憶部から取得する手順であることとしてもよい。 Furthermore, the program according to the present invention is configured to store the character string data that is not stored in the first phonetic dictionary storage unit among the character string data stored in the appearance frequency storage unit. Receiving the reading data indicating the reading of the character string represented by the procedure of outputting to the output device and the character string data output from the predetermined input device included in the computer and output to the output device; And a procedure for associating the column data and the reading data with each other and storing them in the reading data storage unit that is a storage area provided in the memory, and corresponding to the character string data stored in the appearance frequency storage unit The step of acquiring the reading data includes the reading data corresponding to the character string data stored in the appearance frequency storage unit. Of it may be a procedure for acquiring a speech dictionary storage unit or the read data storage unit.
取得したWebページ中に、標準辞書に登録されていない文字列(以後、「未登録語」と称する。)が存在する場合、その文字列の読みを登録する必要がある。そこで、音声辞書作成装置によって未登録語がディスプレイ等の出力装置に出力され、ユーザが未登録語の読みをキーボードやマイク等の入力装置から入力する。そして、音声辞書作成装置は、未登録語も含めて同音異義語の優先順位を設定したユーザ辞書を生成する。このように、未登録語が多く存在する新しい技術分野等においても、文字列の出現頻度に応じた優先順位が設定されたユーザ辞書を得ることができ、音声を意図した文字列に変換することができる確率を高めることができる。 If there is a character string that is not registered in the standard dictionary (hereinafter referred to as “unregistered word”) in the acquired Web page, it is necessary to register the reading of the character string. Therefore, the unregistered word is output to an output device such as a display by the speech dictionary creation device, and the user inputs reading of the unregistered word from an input device such as a keyboard or a microphone. Then, the speech dictionary creation device creates a user dictionary in which the priority order of homonyms including unregistered words is set. In this way, even in a new technical field where there are many unregistered words, it is possible to obtain a user dictionary with a priority set according to the appearance frequency of the character string, and to convert the speech into a character string intended Can increase the probability of being able to.
また、本発明のプログラムは、Webページに対応する画像や文字列等をディスプレイに表示するソフトウェアであるWebブラウザがユーザから指定されたWebページのURLを記憶する記憶領域であるURL記憶部に記憶されている前記URLを取得する手順と、前記URL記憶部から取得した前記URLを前記読込URL記憶部に記憶する手順と、を更に備えることとしてもよい。 The program of the present invention is stored in a URL storage unit, which is a storage area for storing a URL of a Web page designated by a user by a Web browser, which is software that displays an image, a character string, or the like corresponding to the Web page on a display. It is also possible to further include a procedure for acquiring the URL that has been stored and a procedure for storing the URL acquired from the URL storage unit in the read URL storage unit.
一般的に、Webブラウザは、ユーザからの指定により特定のWebページのURLを記憶しておく記憶部(以後、「URL記憶部」と称する。)を備えている。ユーザは、自分の業務や研究等に関連するWebページのURLを、このURL記憶部に登録しておくことが多い。そこで、このURL記憶部に記憶されているURLを本発明における読込URL記憶部に記憶することで、ユーザは音声辞書作成用に別途URLを登録することなく、業務や研究等に関連する分野のWebページにおける文字列の出現頻度に応じた優先順位が設定された音声辞書を得ることができる。 In general, a Web browser includes a storage unit (hereinafter referred to as “URL storage unit”) that stores a URL of a specific Web page as designated by a user. In many cases, a user registers a URL of a Web page related to his / her work or research in the URL storage unit. Therefore, by storing the URL stored in the URL storage unit in the read URL storage unit according to the present invention, the user does not register a separate URL for creating a speech dictionary, but in a field related to business or research. It is possible to obtain a speech dictionary in which priorities are set according to the appearance frequency of character strings on a Web page.
さらに、本発明のプログラムは、前記読込URL記憶部が記憶する複数の前記URLのうち、ユーザによって指定される前記URLを受け付ける手順を更に備え、前記URL記憶部に記憶されている前記URLを取得する前記手順は、前記URL記憶部に記憶されている前記URLのうち、ユーザによって指定される前記URLを前記URL記憶部から取得する手順であることとしてもよい。 Furthermore, the program of the present invention further includes a procedure of accepting the URL specified by the user among the plurality of URLs stored in the read URL storage unit, and acquires the URL stored in the URL storage unit The procedure to be performed may be a procedure for acquiring, from the URL storage unit, the URL specified by a user among the URLs stored in the URL storage unit.
URL記憶部には、多様な分野のWebページのURLが登録されている場合がある。そこで、ユーザは、URL記憶部に登録されているURLの中から、ユーザが文字入力を行おうとしている分野に合うWebページのURLを指定する。なお、ユーザがURL記憶部に分野ごとのフォルダを設けている場合は、そのフォルダを選択することで、そのフォルダの中に格納されている複数のURLが指定されるようにすることもできる。 There are cases where URLs of Web pages in various fields are registered in the URL storage unit. Therefore, the user designates the URL of the Web page that matches the field in which the user is trying to input characters from the URLs registered in the URL storage unit. When the user has a folder for each field in the URL storage unit, a plurality of URLs stored in the folder can be specified by selecting the folder.
このように、Webブラウザが備えるURL記憶部に多様な分野のWebページのURLが登録されている場合においても、ユーザが文字入力を行おうとしている分野に応じた優先順位が設定された音声辞書を得ることができる。また、ユーザがURLを分野別に整理してURL記憶部に登録しておくことにより、目的とする分野に応じた音声辞書を容易に得ることができる。 Thus, even when URLs of Web pages in various fields are registered in the URL storage unit provided in the Web browser, a speech dictionary in which priorities are set according to the fields in which the user is trying to input characters. Can be obtained. In addition, when the user organizes URLs by field and registers them in the URL storage unit, a speech dictionary corresponding to the target field can be easily obtained.
また、Webページに設定された他のWebページへのリンクを辿る階層数を示すリンク階層データが前記メモリに設けられた記憶領域であるリンク階層記憶部に記憶され、 前記読込URL記憶部に記憶されている前記URLで指定される前記Webページを取得する前記手順には、取得した前記Webページを構成しているデータに含まれている他のWebページへのリンクを示すURLであるリンク先URLを抽出して当該リンク先URLで指定される前記他のWebページを取得する処理を、前記リンク階層記憶部に記憶されている前記リンク階層データによって示される前記階層数に応じて繰り返し実行する手順が含まれていることとしてもよい。 In addition, link hierarchy data indicating the number of hierarchies that follow links to other Web pages set in the Web page is stored in a link hierarchy storage unit that is a storage area provided in the memory, and stored in the read URL storage unit In the procedure for acquiring the Web page specified by the URL that is specified, a link destination that is a URL indicating a link to another Web page included in the data constituting the acquired Web page The process of extracting the URL and acquiring the other Web page specified by the link destination URL is repeatedly executed according to the number of levels indicated by the link level data stored in the link level storage unit. Procedures may be included.
Webページには、そのWebページに関連するWebページのリンクが設定されていることが多い。そこで、音声辞書作成装置は、読込URL記憶部に記憶されているURLが示すWebページを取得する際に、そのWebページに設定されたリンクを辿って別のWebページを取得する。ここで、リンクを無限に辿ると、あらゆる分野のWebページが取得されてしまい、目的とする分野に応じた音声辞書を作成することができない。逆に、リンクを辿る階層数を少なくすると、取得できる文字列数が限られ、実用的な音声辞書を作成することができない。そこで、ユーザが、リンクを辿る階層数をリンク階層記憶部に設定しておくことにより、ユーザが目的とする分野に応じた音声辞書を作成することができる。 In many cases, a web page link related to the web page is set in the web page. Therefore, when acquiring the Web page indicated by the URL stored in the read URL storage unit, the speech dictionary creating apparatus acquires another Web page by following the link set for the Web page. Here, if the link is traced infinitely, Web pages in all fields are acquired, and a speech dictionary corresponding to the target field cannot be created. Conversely, if the number of layers following the link is reduced, the number of character strings that can be acquired is limited, and a practical speech dictionary cannot be created. Therefore, when the user sets the number of layers following the link in the link layer storage unit, a speech dictionary corresponding to the field intended by the user can be created.
さらに、前記リンク階層記憶部には、前記読込URL記憶部に記憶されている前記WebページのURLごとに前記リンク階層データが記憶され、前記他のWebページを取得する前記処理を、前記階層数に応じて繰り返し実行する前記手順は、前記他のWebページを取得する前記処理を、前記URL記憶部に記憶されている前記URLに対応する前記リンク階層データによって示される前記階層数に応じて繰り返し実行する手順であることとしてもよい。 Further, the link hierarchy storage unit stores the link hierarchy data for each URL of the Web page stored in the read URL storage unit, and the process of acquiring the other Web page is performed according to the number of layers. The procedure of repeatedly executing the process according to the process repeats the process of acquiring the other Web page according to the number of levels indicated by the link level data corresponding to the URL stored in the URL storage unit. It may be a procedure to be executed.
読込URL記憶部に記憶されているURLが示すWebページの特性に応じて、リンクを辿る階層数を指定することができる。例えば、ある分野の用語集のWebページであるような場合、そのWebページには、ユーザが目的とする分野の文字列が多く含まれており、リンクを更に辿る必要がない場合がある。一方、例えば、ある分野の総合サイトの入口にあるWebページ(トップページ)であるような場合、そのWebページに設定されたリンクを辿ることにより、ユーザが目的とする分野の文字列を得ることができる。このように、読込URL記憶部に記憶されているURLが示すWebページごとに、リンクを辿る階層数を指定可能とすることで、目的とする分野に一段と合致した音声辞書を作成することができる。 The number of hierarchies to follow the link can be designated according to the characteristics of the Web page indicated by the URL stored in the read URL storage unit. For example, in the case of a web page of a glossary of a certain field, there are cases where the web page includes a large number of character strings in the field targeted by the user, and there is no need to follow the link further. On the other hand, for example, when it is a Web page (top page) at the entrance of a general site in a certain field, the user can obtain a character string in the target field by following the link set in the Web page. Can do. In this way, by making it possible to specify the number of layers following the link for each Web page indicated by the URL stored in the read URL storage unit, it is possible to create a speech dictionary that further matches the target field. .
また、本発明のプログラムが、Webページを表示するソフトウェアが備える表示するWebページのURLを入力するエリアに入力されたURLを取得し、取得した当該URLを前記読込URL記憶部に記憶する手順を更に備えることとしてもよい。 In addition, the program of the present invention acquires a URL input to an area for inputting a URL of a Web page to be displayed provided in software for displaying the Web page, and stores the acquired URL in the read URL storage unit. Further, it may be provided.
例えば、ユーザが音声認識を利用して文字入力を行おうとしているWebページが、営業日報の入力ページである場合、ユーザが入力しようとしている文字列は、そのWebページに含まれている過去の営業日報等に含まれていることが多い。このような場合、WebブラウザのURL入力エリアに入力されたURLを読込URL記憶部に記憶することにより、ユーザが文字入力を行おうとする際に、別途読込対象のURLを指定することなく、目的に応じた音声辞書を作成することができる。 For example, when a Web page on which a user is trying to input characters using voice recognition is an input page for a daily business report, the character string that the user is trying to input is a past text included in the Web page. It is often included in business daily reports. In such a case, the URL input in the URL input area of the Web browser is stored in the read URL storage unit, so that when the user tries to input characters, the URL to be read is not specified separately. A voice dictionary can be created according to
1件1件試行錯誤を行って実用に耐え得る音声辞書を作成するよりも、効率的に実用に耐え得る音声辞書を作成することができる。また、適当な長文をもとに音声辞書を作成する手段は従来より存在していたが、インターネットの性質を利用してより高い精度で音声辞書の作成を行うことができる。さらに、迅速な音声辞書作成が行えることから、既存のサイトに対して音声認識機能を付加することが容易に行えるようになる。 Rather than creating a speech dictionary that can withstand practical use by performing trial and error on a case-by-case basis, a speech dictionary that can withstand practical use can be created efficiently. In addition, there has been a means for creating a speech dictionary based on an appropriate long sentence, but it is possible to create a speech dictionary with higher accuracy by utilizing the nature of the Internet. Furthermore, since a quick voice dictionary can be created, a voice recognition function can be easily added to an existing site.
このように、本発明によれば、実用に耐え得る音声辞書を効率的に作成する音声辞書作成装置、音声辞書作成方法、及びプログラムを提供することができる。 Thus, according to the present invention, it is possible to provide a speech dictionary creation device, a speech dictionary creation method, and a program that efficiently create a speech dictionary that can be practically used.
===第一の実施形態===
図1は本発明の実施例の構成図であり、インターネット上に文字入力を受け付ける文字入力サイトが存在しており、インターネット網に接続されたインターネット接続装置がこの文字入力サイトに接続されており、インターネット接続装置に音声認識装置が付加されていて文字入力サイトに音声認識された文字を送信できるようになっており、インターネット網に接続された読込処理部が文字入力を行おうとするサイトまたはそのサイトからリンクされたサイトまたはその他特に関連が深いとして使用者が指定したサイトを読み込み、そのデータを文字列抽出部に受け渡し、文字列抽出部は、受け渡されたデータを単語等の音声認識に使用する文字列として解析してその結果を音声辞書作成部に受け渡し、音声辞書作成部は文字列抽出部から受け渡されたデータに従って、単語の使用頻度を調整したり未知語を追加するなどの処理を行って音声辞書を作成して音声認識装置の音声辞書を作成することで効率的な音声認識による文字入力処理を行うものである。
=== First Embodiment ===
FIG. 1 is a configuration diagram of an embodiment of the present invention, where there is a character input site that accepts character input on the Internet, and an Internet connection device connected to the Internet network is connected to the character input site. A site where a speech recognition device is added to the Internet connection device so that the speech-recognized characters can be sent to the character input site, and the site where the reading processing unit connected to the Internet network attempts to input characters or the site Sites linked from or other sites that are specified by the user as particularly relevant are read, and the data is passed to the character string extractor, which uses the received data for speech recognition of words, etc. And the result is passed to the speech dictionary creation unit. The speech dictionary creation unit Characters by efficient speech recognition by creating a speech dictionary by adjusting the frequency of use of words or adding unknown words according to the passed data and creating a speech dictionary of the speech recognition device Input processing is performed.
一般に、音声入力を行おうとするときに問題になるのは、それぞれのサイトによって頻出語、業界用語、慣用句などの用例が異なることが原因である。しかし、これらの言葉はすでに音声入力を行おうとするサイト、またはそのリンク先のサイトにほとんど記述してあるものである。たとえば、船舶業界では「こうかい」は「航海」「公海」として用いられる例が多いはずであり「公開」「更改」などの用例は少なくなるはずである。そこで、「こうかいする」であれば「航海する」となり「公海する」はおかしいので、係り受けの解析から「航海する」が正しい音声認識である確率が高い者と判断できる。そして、インターネットの性質上、すでに文字入力しようとしているサイトまたはリンクされたサイトであれば、やはり船舶業界関連の内容が記述されているはずであり上記のような用例を容易に見出し得る。また、船舶業界で著名なサイトがあれば、そのようなサイトも音声辞書作成に有益であるから必要に応じてそのデータを取得すべきである。また、掲示板のようなサイトにおいては、書き込みしようとする者の前の書き込みを受けたかたちで内容の書き込みが行われるケースが多いはずであり、必然的に音声認識に必要な単語がすでに掲示板サイトに出現していると思われるのである。このようなインターネット自体が有する性質を利用して、読込処理部がインターネットからデータを取得することで結果的に効率的な音声辞書を作成することが可能になるのである。 In general, the problem that arises when trying to input speech is that the usage of frequently used words, industry terms, idioms, etc. differ from site to site. However, these words are mostly written on the site where the voice input is to be made or the linked site. For example, in the marine industry, “Koukai” should be used as “voyage” and “high seas” and there should be fewer examples such as “open” and “renewal”. Therefore, if it is “Like”, it will be “Navigating” and “Going to sea” will be strange, so it can be judged from the analysis of the dependency that the person who has a high probability of “Navigating” is correct speech recognition. In addition, due to the nature of the Internet, if it is a site where characters are already input or a linked site, the contents related to the ship industry should be described, and the above example can be easily found. In addition, if there is a famous site in the ship industry, such a site is also useful for creating a speech dictionary, so that data should be acquired as necessary. In addition, in a site such as a bulletin board, there should be many cases where the content is written in the form of receiving the previous writing of the person trying to write, and the words necessary for speech recognition are already already in the bulletin board site. It seems to have appeared in. Utilizing such properties of the Internet itself, the reading processing unit acquires data from the Internet, and as a result, an efficient speech dictionary can be created.
===第二の実施形態===
==全体構成==
次に、本発明における第二の実施形態について説明する。図2は、第二の実施形態のネットワーク構成を示す図である。音声辞書作成装置1は、本発明における音声辞書作成プログラムを実行する装置であり、パーソナルコンピュータや音声認識に用いられる専用の装置等のコンピュータである。音声辞書作成装置1は、インターネットやイントラネット等のネットワーク2を介して複数のWebサーバ3a,3b,3cと通信することができる。
=== Second Embodiment ===
== Overall structure ==
Next, a second embodiment of the present invention will be described. FIG. 2 is a diagram illustrating a network configuration according to the second embodiment. The speech
Webサーバ3aにはHTML(Hyper Text Markup Language)やXML(eXtensible Markup Language)等のマークアップ言語で記述されたデータであるWebページ4aが保存されている。そして、音声辞書作成装置1はHTTP(Hyper Text Transfer Protocol)に則ってネットワーク2を介してWebサーバ3aにアクセスすることで、Webページ4aを取得することができる。図3に、Webページ4aの一例を示す。Webページ4aには、“<HTML>”や“<TITLE>”等のタグや、Webブラウザに表示される文書である文書データ5等が含まれている。また、Webページ4aには、“<A HREF=”@@@”></A>”というタグを用いて他のWebページへのリンク6が設定されている。「@@@」の部分は、リンク先のWebページのURLを示すものである。
The Web server 3a stores a
なお、Webブラウザとは、Webページを表示するソフトウェアである。図4は、Webページ4aを表示したWebブラウザ7を示す図である。Webブラウザ7は、表示するWebページのURLを入力するURL入力エリア8および文書データ5や画像データ等が表示される表示エリア9が設けられている。URL入力エリア8にWebページ4aのURLが入力されると、音声辞書作成装置1はWebサーバ3aからWebページ4aを取得し、Webページ4aに含まれる文書データ5等を表示エリア9に表示する。表示エリア9には、リンク6も表示されており、ユーザがリンク6をクリックすると、音声辞書作成装置1はリンク先のWebページを取得する。
A web browser is software that displays a web page. FIG. 4 is a diagram showing the
このように、Webページに設定されたリンクを辿ることにより、複数のWebページを取得することができる。図2の例は、Webページ4aにはWebサーバ3bに保存されたWebページ4bへのリンクが設定され、Webページ4bにはWebサーバ3cに保存されたWebページ4cへのリンクが設定されていることを示している。
In this way, a plurality of Web pages can be acquired by following the links set in the Web pages. In the example of FIG. 2, a link to the Web page 4b stored in the
==ハードウェア構成==
図5は、音声辞書作成装置1のハードウェア構成を示す図である。音声辞書作成装置1は、CPU10、メモリ11、記憶装置12、記録媒体読取装置13、通信インタフェース14、入力装置15、出力装置16、及びマイク17を備えている。
== Hardware configuration ==
FIG. 5 is a diagram illustrating a hardware configuration of the speech
CPU10は、音声辞書作成装置1の全体を制御するものであり、記憶装置12に記憶されているプログラムを順次メモリ11に格納し、メモリ11に記憶されているプログラムを実行することができる。記憶装置12は、ハードディスクドライブ等であり、プログラムやデータが記憶される。記録媒体読取装置13は、CD−ROM等の記録媒体18に記録されているプログラムを読みとり、記憶装置12に格納することができる。
The
通信インタフェース14は、ネットワーク2を介してWebサーバ3a,3b,3cとデータの送受信を行うためのインタフェースである。入力装置15は、ユーザからのデータ入力を受け付ける装置であり、例えば、キーボードやマウス等である。出力装置16は、CPU10の処理結果等を出力する装置であり、例えば、ディスプレイやプリンタ等である。マイク17はユーザの発話により発生する音声を取得する装置である。なお、入力装置15、出力装置16、及びマイク17は、音声辞書作成装置1と別体で構成され、ケーブル等を用いて音声辞書作成装置1と接続されることとしてもよい。
The
==機能構成==
図6は、音声辞書作成装置1が備える機能の構成を示す図である。音声辞書作成装置1は、音声認識機能部20、音声辞書作成機能部30、及び記憶部40を備えている。
== Functional configuration ==
FIG. 6 is a diagram illustrating a configuration of functions provided in the speech
音声認識機能部20は、音声辞書作成装置1のメモリ11に記憶されている音声認識プログラムをCPU10が実行することにより実現される、音声取得部21、音声認識部22、及び文字列変換部23を備えている。
The voice
また、音声辞書作成機能部30は、音声辞書作成装置1のメモリ11に記憶されている音声辞書作成プログラムをCPU10が実行することにより実現される、読込処理部31、文字列抽出部32、未登録語出力部33、読みデータ受付部34、音声辞書作成部35、及び入力URL取得部36を備えている。
The speech dictionary
そして、記憶部40は、メモリ11に設けられた記憶領域であり、標準辞書記憶部(本発明の「第一の音声辞書記憶部」に該当。)41、ユーザ辞書記憶部(本発明の「第二の音声辞書記憶部」に該当。)42、読込URL記憶部43、リンク階層記憶部44、出現頻度記憶部45、及び読みデータ記憶部46を含んでいる。
The
音声取得部21は、マイク17から入力された音声データを取得する。音声認識部22は、音声取得部21が取得した音声データによって示される文字を認識して文字データを生成する。文字列変換部23は、音声認識部22が生成した複数の文字データから平仮名の文字列を生成し、平仮名の文字列を漢字や片仮名等の文字列に変換する。
The
なお、文字列変換部23は、文字列を変換する際に、標準辞書記憶部41に記憶されている標準辞書またはユーザ辞書記憶部42に記憶されているユーザ辞書を用いることができる。標準辞書とは、音声認識プログラムをインストールした際等に作成される、基本となる音声辞書である。また、ユーザ辞書とは、ユーザが文字列の追加・変更や、平仮名の文字列に対応する漢字や片仮名の文字列の候補が複数ある場合に、漢字や片仮名の文字列の夫々が選択される順序(優先順位)の変更等を行うことができる音声辞書である。なお、標準辞書を上書き更新してユーザ辞書を生成することも可能である。
The character
図7は、標準辞書記憶部41およびユーザ辞書記憶部42の構造を示す図である。標準辞書記憶部41およびユーザ辞書記憶部42には、文字列データ、読みデータ、及び優先順位データが対応付けられたデータである音声辞書データが記憶されている。文字列データには、漢字や片仮名の文字列が設定され、読みデータには、その文字列の読みを示す平仮名の文字列が設定されている。そして、優先順位データには、文字列変換部23が平仮名の文字列を漢字や片仮名の文字列に変換する際の優先順位を示すデータが設定されている。
FIG. 7 is a diagram showing the structure of the standard
図7に示す例では、「こうかい」という読みに対して「航海」、「公開」、「後悔」の優先順位が順に「1」、「2」、「3」となっている。この場合、文字列変換部23は、「こうかい」という平仮名の文字列を優先順位が最も高い「航海」という漢字の文字列に変換する。
In the example shown in FIG. 7, the priority of “voyage”, “public”, and “regret” is “1”, “2”, and “3” in order with respect to the reading “Koukai”. In this case, the character
読込処理部31は、読込URL記憶部43に記憶されているWebページのURLを取得し、当該URLが示すWebページをWebサーバから取得する。図8は、読込URL記憶部43の構造を示す図である。読込URL記憶部43には、ユーザによって指定されたWebページのURLが記憶されている。読込URL記憶部43に記憶されているURLは、一つであってもよいし、複数であってもよい。
The
また、読込処理部31は、取得したWebページに設定されているリンクを取得し、当該リンクに設定されたURLが示す他のWebページを取得する。このように、読込処理部31は、Webページに設定されたリンクを辿って複数のWebページを取得する。図9は、リンク階層記憶部44の構造を示す図である。リンク階層記憶部44には、読込URL記憶部43に記憶されているURLごとに、リンクを辿る階層数を示すデータであるリンク階層データが設定されている。なお、リンク階層記憶部44には、読込URL記憶部43に記憶されている全てのURLに共通のリンク階層データが一つだけ記憶されていることとしてもよい。
Further, the
文字列抽出部32は、読込処理部31が取得したWebページを構成するデータからタグを除去して得られる文書データから、意味のある単位に分解した文字列データを抽出する。文書データから文字列データを抽出する方法としては、例えば、特開2000−259673号公報に開示されている単語分割方法を用いることができる。そして、文字列抽出部32は、文字列データごとの出現回数をカウントし、文字列データと出現回数を示すデータである出現頻度データとを対応付けて出現頻度記憶部45に記憶する。図10は、出現頻度記憶部45の構造を示す図である。
The character
未登録語出力部33は、出現頻度記憶部45に記憶されている文字列データのうち、標準辞書に登録されていない文字列データをディスプレイ等の出力装置16に出力する。 読みデータ受付部34は、ユーザによって入力装置15やマイク17から入力される、出力装置16に出力された文字列データの読みを示す読みデータを受け付け、当該文字列データと当該読みデータとを対応付けて読みデータ記憶部46に記憶する。図11は、読みデータ記憶部46の構造を示す図である。
The unregistered
音声辞書作成部35は、出現頻度記憶部45に記憶されている文字列データに対応する読みデータを、標準辞書記憶部41または読みデータ記憶部46から取得し、読みデータが同一の文字列データの夫々について、出現頻度データに基づいて優先順位を決定する。つまり、音声辞書作成部35は、読みデータが同一の文字列データに対して、出現回数が多い順に高い優先順位を設定する。そして、音声辞書作成部35は、文字列データ、読みデータ、及び湯煎順位を示すデータである優先順位データを対応付けて音声辞書データを生成し、当該音声辞書データをユーザ辞書記憶部42に記憶する。
The speech
入力URL取得部36は、Webブラウザ7のURL入力エリア8に入力されたURLを取得し、当該URLを読込URL記憶部43に記憶する。つまり、入力URL取得部36は、ユーザがWebブラウザ7に表示させようとしているWebページに基づいて文字列の優先順位を設定する場合に用いられる。
The input
==音声辞書作成処理==
次に、音声辞書作成装置1における音声辞書作成処理について説明する。図12は、音声辞書作成処理のフローチャートである。まず、読込処理部31が、読込URL記憶部43に記憶されているURLを一つ取得する(S1201)。さらに、読込処理部31は、当該URLに対応するリンク階層データをリンク階層記憶部44から取得し(S1202)、リンク階層をカウントするための作業用のデータである作業階層データに0を設定する(S1203)。
== Voice dictionary creation process ==
Next, the speech dictionary creation process in the speech
続いて、読込処理部31は、取得したURLが示すWebページをWebサーバ3a,3b,3cから取得する(S1204)。そして、読込処理部31は作業階層データがリンク階層データと等しいかどうか確認する(S1205)。
Subsequently, the
作業階層データがリンク階層データと等しくない場合(S1205:No)、読込処理部31は、取得したWebページを構成するデータに含まれるリンク先URLを取得し(S1206)、当該リンク先URLが示すWebページを取得する(S1207)。そして、読込処理部31は、作業階層データに1加算し(S1208)、作業階層データとリンク階層データが等しいかどうか確認するステップ(S1205)に戻る。つまり、読込処理部31は、S1205〜S1208の処理を繰り返すことによって、読込URL記憶部43に記憶されているURLが示すWebページからリンク階層データによって示されるリンク階層の範囲内にあるWebページを取得する。
When the work hierarchy data is not equal to the link hierarchy data (S1205: No), the
作業階層データがリンク階層データと等しくなると(S1205:Yes)、読込処理部31は、読込URL記憶部43に未取得のURLがあるかどうか確認する(S1209)。未取得のURLがある間(S1209:Yes)、読込処理部31は、未取得のURLを一つ取得し、Webページを取得する一連の処理(S1201〜S1208)を繰り返し実行する。
When the work hierarchy data becomes equal to the link hierarchy data (S1205: Yes), the
読込処理部31によって読込URL記憶部のURLが全て取得されると(S1209:No)、文字列抽出部32は、読込処理部31が取得したWebページを構成するデータに含まれる文字列データを抽出する(S1210)。そして、文字列抽出部32は、抽出した文字列データごとの出現回数をカウントし、文字列データと出現回数を示す出現頻度データとを対応付けて出現頻度記憶部45に記憶する(S1211)。
When all the URLs in the read URL storage unit are acquired by the read processing unit 31 (S1209: No), the character
続いて、未登録語出力部33は、出現頻度記憶部45に記憶されている文字列データのうち、標準辞書記憶部41に記憶されていない文字列データを抽出し、当該文字列データをディスプレイ等の出力装置16に出力する(S1212)。そして、読みデータ受付部34は、ユーザによってキーボード等の入力装置15やマイク17から入力される当該文字列データに対する読みデータを受け付け、当該文字列データと当該読みデータとを対応付けて読みデータ記憶部46に記憶する(S1213)。
Subsequently, the unregistered
次に、音声辞書作成部35は、出現頻度記憶部45に記憶されている文字列データに対応する読みデータを標準辞書記憶部41または読みデータ記憶部46から取得する(S1214)。そして、音声辞書作成部35は、読みデータが同じ複数の文字列データに対する優先順位を出現頻度記憶部45に記憶されている出現頻度データに基づいて決定する(S1215)。最後に、音声辞書作成部35は、文字列データ、読みデータ、及び優先順位を示すデータである優先順位データを対応付けて音声辞書データを生成し、当該音声辞書データをユーザ辞書記憶部42に記憶する(S1216)。
Next, the speech
ここで、出現頻度データに基づいて優先順位を決定する方法の例を説明する。図13は、優先順位を決定する方法の第一の例を示す図である。まず、音声辞書作成部35は、出現頻度記憶部45に記憶されている出現頻度データの降順に各文字列データの優先順位を設定した音声辞書データをユーザ辞書記憶部42に記憶する(S1301)。そして、音声辞書作成部35は、標準辞書記憶部41に記憶されている文字列データのうち、出現頻度記憶部45に存在しない文字列データについて、S1301で記憶された文字列データよりも後の優先順位を設定して、ユーザ辞書記憶部42に記憶する(S1302)。
Here, an example of a method for determining the priority order based on the appearance frequency data will be described. FIG. 13 is a diagram illustrating a first example of a method for determining a priority order. First, the speech
また、図14は、優先順位を決定する方法の第二の例を示す図である。まず、音声辞書作成部35は、標準辞書記憶部41に記憶されている文字列データの優先順位を、出現頻度記憶部45に記憶されている出現回数分上昇させた音声辞書データをユーザ辞書記憶部42に記憶する(S1401)。図14の例では、「航海」の出現回数は2回であるため、標準辞書の「航海」の優先順位は「3」から「2」上昇し、「1」となる。これに伴い、「後悔」および「公開」の優先順位は1ずつ下げられる。
FIG. 14 is a diagram illustrating a second example of the method for determining the priority order. First, the speech
次に、音声辞書作成部35は、未登録語に最も低い優先順位を設定した音声辞書データをユーザ辞書記憶部42に記憶する(S1402)。図14の例では、未登録語の「公海」に最も低い優先順位「4」が設定され、ユーザ辞書に追加されている。そして、音声辞書作成部35は、追加した未登録語の優先順位を出現頻度記憶部45に記憶されている出現回数分上昇させる(S1403)。図14の例では、「公海」の出現回数は1回であるため、「公海」の優先順位は「4」から「1」上昇し、「3」となる。そして、「公開」の優先順位が「3」から「4」に下げられる。
Next, the speech
図13および図14に例示したように、音声辞書作成部35は、読みデータが同一の複数の文字列データの夫々に対する優先順位データを出現頻度記憶部45に記憶されている出現頻度データに基づいて生成し、文字列データ、読みデータ、及び優先順位データを対応付けた音声辞書データをユーザ辞書記憶部42に記憶することができる。
As illustrated in FIGS. 13 and 14, the speech
==WebブラウザのURL記憶部を利用==
次に、Webブラウザ7が備えるURLの記憶部を読込対象のURLとして用いる場合について説明する。図15は、Webブラウザ7の登録URLメニュー50を表示した図である。ユーザは、自分の気に入ったWebページがあった場合、そのWebページがWebブラウザ7に表示されている際に、登録URLメニュー50で追加ボタン51を選択する。すると、そのWebページのタイトル52が登録URLメニュー50の中に追加される。また、ユーザは登録URLメニュー50の中にフォルダ53を作成し、そのフォルダ53の中にWebページのタイトル54を追加することもできる。
== Use URL storage part of Web browser ==
Next, a case where the URL storage unit included in the
図16は、ユーザが登録URLメニュー50を用いて登録したWebページのURLを記憶しているURL記憶部55の構造を示す図である。URL記憶部55は、メモリ11に設けられた記憶領域である。URL記憶部55には、フォルダ53、Webページのタイトル52,54、及びWebページのURLが対応付けられて記憶されている。
FIG. 16 is a diagram showing the structure of the
読込処理部31は、このURL記憶部55に記憶されているURLを取得し、読込URL記憶部43に記憶することができる。また、読込処理部31は、ユーザによって指定される登録URLメニュー50に登録されたWebページのタイトル52,54やフォルダ53を受け付け、そのタイトル52,54やフォルダ53に対応するURLを読込URL記憶部43に記憶することも可能である。
The
==Webブラウザで入力されたURLを利用==
次に、Webブラウザ7のURL入力エリア8に入力されたURLを読込対象のURLとして用いる場合について説明する。図17は、入力URL取得部36の処理を示すフローチャートである。まず、入力URL取得部36は、ユーザがURL入力エリア8に入力したURLを取得する(S1701)。そして、入力URL取得部36は、取得したURLを読込URL記憶部43に記憶し(S1702)、図12に示した音声辞書作成処理を起動する(S1703)。これにより、URL入力エリア8に入力されたURLが示すWebページ及び当該Webページに設定されたリンクを辿って取得される他のWebページをもとに、ユーザ辞書が生成される。
== Use URL entered by Web browser ==
Next, a case where the URL input in the
以上、音声辞書作成プログラムを実行する音声辞書作成装置1の動作について説明した。前述したように、本発明の音声辞書作成プログラムがインストールされた音声辞書作成装置1を用いれば、音声認識させて文字入力を行おうとしている分野に関連するサイトのWebページのURLを読込URL記憶部43に記憶させておくだけで、そのWebページにおける文字列の出現頻度に応じた優先順位が設定されたユーザ辞書を得ることができる。なお、生成されたユーザ辞書は、音声認識における文字変換に限らず、仮名漢字変換における文字変換においても使用可能である。
The operation of the speech
また、音声辞書作成装置1は未登録語をディスプレイ等の出力装置16に出力する。そして、ユーザが未登録語の読みをキーボードやマイク等の入力装置から入力する。音声辞書作成装置1は、未登録語も含めて同音異義語の優先順位を設定したユーザ辞書を生成する。このように、未登録語が存在する場合においても、文字列の出現頻度に応じた優先順位が設定された音声辞書を得ることができる。
In addition, the voice
また、音声辞書作成装置1は、ユーザがWebブラウザ7の登録URLメニュー50から登録したURLが記憶されているURL記憶部55からURLを取得して読込URL記憶部43に記憶することもできる。ユーザは、自分の業務や研究等に関連するWebページのURLを、このURL記憶部55に登録しておくことが多い。そこで、このURL記憶部55に記憶されているURLを読込URL記憶部に記憶することで、ユーザは音声辞書作成用に別途URLを登録することなく、業務や研究等に関連する分野のWebページにおける文字列の出現頻度に応じた優先順位が設定された音声辞書を得ることができる。
The voice
この場合、URL記憶部55には、多様な分野のWebページのURLが登録されている場合がある。そこで、音声辞書作成装置1は、URL記憶部55に登録されているURLの中から、ユーザによって指定されたURLのみを読込URL記憶部43に記憶することができる。なお、ユーザは、URL記憶部55に分野ごとのフォルダを設けている場合は、そのフォルダを選択することにより、そのフォルダの中に格納されている複数のURLを指定することができる。
In this case, URLs of Web pages in various fields may be registered in the
このように、Webブラウザが備えるURL記憶部55に多様な分野のWebページのURLが登録されている場合においても、ユーザが文字入力を行おうとしている分野に応じた優先順位が設定された音声辞書を得ることができる。また、ユーザがURLを分野別に整理してURL記憶部55に登録しておくことにより、目的とする分野に応じた音声辞書を容易に得ることができる。
As described above, even when URLs of Web pages in various fields are registered in the
また、Webページの特徴として、Webページには関連する他のWebページへのリンクが設定されていることが多い。そこで、音声辞書作成装置1は、読込URL記憶部43に記憶されているURLが示すWebページを取得する際に、そのWebページに設定されたリンクを辿って他のWebページを取得する。ここで、リンクを無限に辿ると、あらゆる分野のWebページが取得されてしまい、目的とする分野に応じた音声辞書を作成することができない。逆に、リンクを辿る階層数を少なくすると、取得できる文字列数が限られ、実用的な音声辞書を作成することができない。そこで、ユーザが、リンクを辿る階層数をリンク階層記憶部44に設定しておくことにより、ユーザが目的とする分野に応じた音声辞書を作成することができる。
In addition, as a feature of a Web page, a link to another related Web page is often set in the Web page. Therefore, when acquiring the Web page indicated by the URL stored in the read
この場合、読込URL記憶部43に記憶されているURLが示すWebページの特性に応じて、リンクを辿る階層数を指定することも可能である。例えば、Webページがある分野の用語集のWebページであるような場合、そのWebページには、ユーザが目的とする分野の文字列が多く含まれており、リンクを更に辿る必要がない場合がある。一方、例えば、ある分野の総合サイトの入口にあるWebページ(トップページ)であるような場合、そのWebページに設定されたリンクを辿ることにより、ユーザが目的とする分野の文字列を得ることができる。このように、読込URL記憶部43に記憶されているURLが示すWebページごとに、リンクを辿る階層数を指定可能とすることで、目的とする分野に一段と合致した音声辞書を作成することができる。
In this case, it is possible to specify the number of hierarchies to follow the link according to the characteristics of the Web page indicated by the URL stored in the read
また、音声辞書作成装置1は、Webブラウザ7のURL入力エリア8に入力されたURLを取得して、取得した当該URLを読込URL記憶部43に記憶することもできる。例えば、ユーザが音声認識を利用して文字入力を行おうとしているWebページが、営業日報の入力ページである場合、ユーザが入力しようとしている文字列は、そのWebページに含まれている過去の営業日報等に含まれていることが多い。このような場合、Webブラウザ7のURL入力エリア8に入力されたURLを読込URL記憶部43に記憶することにより、ユーザが文字入力を行おうとする際に、別途読込対象のURLを指定することなく、目的に応じた音声辞書を作成することができる。
The voice
以上本発明の実施形態について説明したが、以上の実施形態の説明は本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得ると共に本発明にはその等価物が含まれることは勿論である。 Although the embodiment of the present invention has been described above, the above description of the embodiment is intended to facilitate understanding of the present invention and is not intended to limit the present invention. It goes without saying that the present invention can be changed and improved without departing from the gist thereof, and that the present invention includes equivalents thereof.
1 音声辞書作成装置 2 ネットワーク
3a,3b,3c Webサーバ 4a,4b,4c Webページ
5 文書データ 6 リンク
7 Webブラウザ 8 URL入力エリア
9 表示エリア 10 CPU
11 メモリ 12 記憶装置
13 記録媒体読取装置 14 通信インタフェース
15 入力装置 16 出力装置
17 マイク 18 記録媒体
20 音声認識機能部 21 音声取得部
22 音声認識部 23 文字列変換部
30 音声辞書作成機能部 31 読込処理部
32 文字列抽出部 33 未登録語出力部
34 読みデータ受付部 35 音声辞書作成部
36 入力URL取得部 40 記憶部
41 標準辞書記憶部 42 ユーザ辞書記憶部
43 読込URL記憶部 44 リンク階層記憶部
45 出現頻度記憶部 46 読みデータ記憶部
50 登録URLメニュー 51 追加ボタン
52,54 Webページのタイトル 53 フォルダ
55 URL記憶部
DESCRIPTION OF
DESCRIPTION OF
Claims (10)
前記メモリに設けられた記憶領域である、第一の音声辞書記憶部、第二の音声辞書記憶部、読込URL記憶部、及び出現頻度記憶部と、
前記CPUが前記メモリに記憶されているプログラムを実行することにより実現される、読込処理部、文字列抽出部、及び音声辞書作成部と、
を備え、
前記第一の音声辞書記憶部には、単語等の文字列を示す文字列データと、当該文字列の読みを示す読みデータとが対応付けて記憶され、
前記読込URL記憶部には、WebページのURLが記憶され、
前記読込処理部は、前記読込URL記憶部に記憶されている前記URLで指定されるWebページを、インターネット上のWebサーバにアクセスすることにより取得し、
前記文字列抽出部は、
前記読込処理部が取得した前記Webページを構成しているデータに含まれている前記文字列データを抽出して前記文字列データごとの出現頻度を求め、
前記文字列データ及び前記出現頻度を示すデータである出現頻度データを対応付けて前記出現頻度記憶部に記憶し、
前記音声辞書作成部は、
前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記第一の音声辞書記憶部から取得し、
取得した前記読みデータが同一の複数の前記文字列データの夫々に対して、音声認識によって得られる前記読みデータを前記複数の前記文字列データのうちから選択される一の文字列データに変換する際の前記文字列データの選択順序を前記出現頻度データに基づいて決定し、
前記文字列データ、前記読みデータ、及び前記選択順序を示すデータである選択順序データを対応付けて、音声を認識して文字列に変換する際に用いられるデータである音声辞書データを生成し、当該音声辞書データを前記第二の音声辞書記憶部に記憶すること、
を特徴とする音声辞書作成装置。 A communication interface for connecting to a CPU, memory, and the Internet;
A first voice dictionary storage unit, a second voice dictionary storage unit, a read URL storage unit, and an appearance frequency storage unit, which are storage areas provided in the memory;
A read processing unit, a character string extraction unit, and a speech dictionary creation unit, which are realized by the CPU executing a program stored in the memory;
With
In the first speech dictionary storage unit, character string data indicating a character string such as a word and reading data indicating a reading of the character string are stored in association with each other,
The read URL storage unit stores a URL of a Web page,
The read processing unit acquires a Web page specified by the URL stored in the read URL storage unit by accessing a Web server on the Internet,
The character string extraction unit
Extracting the character string data included in the data constituting the web page acquired by the read processing unit to obtain the appearance frequency for each character string data;
Storing the character string data and the appearance frequency data, which is data indicating the appearance frequency, in association with each other in the appearance frequency storage unit;
The voice dictionary creation unit
Obtaining the reading data corresponding to the character string data stored in the appearance frequency storage unit from the first speech dictionary storage unit;
For each of the plurality of character string data having the same acquired reading data, the reading data obtained by voice recognition is converted into one character string data selected from the plurality of character string data. The selection order of the character string data at the time is determined based on the appearance frequency data,
Associating the character string data, the reading data, and selection order data that is data indicating the selection order, and generating speech dictionary data that is data used when recognizing speech and converting it to a character string; Storing the voice dictionary data in the second voice dictionary storage unit;
Voice dictionary creation device characterized by.
前記メモリに設けられた記憶領域である、
単語等の文字列を示す文字列データと、当該文字列の読みを示す読みデータとが対応付けて記憶されている第一の音声辞書記憶部と、
WebページのURLが記憶されている読込URL記憶部と、
を備えるコンピュータに、
前記読込URL記憶部に記憶されている前記URLで指定されるWebページを、インターネット上のWebサーバにアクセスすることにより取得する手順と、
取得した前記Webページに含まれている前記文字列データを抽出して前記文字列データごとの出現頻度を求める手順と、
前記文字列データ及び前記出現頻度を示すデータである出現頻度データを対応付けて前記メモリに設けられた記憶領域である出現頻度記憶部に記憶する手順と、
前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記第一の音声辞書記憶部から取得する手順と、
取得した前記読みデータが同一の複数の前記文字列データの夫々に対して、音声認識によって得られる前記読みデータを前記複数の前記文字列データのうちから選択される一の文字列データに変換する際の前記文字列データの選択順序を前記出現頻度データに基づいて決定する手順と、
前記文字列データ、前記読みデータ、及び前記選択順序を示すデータである選択順序データを対応付けて、音声を認識して文字列に変換する際に用いられるデータである音声辞書データを生成し、当該音声辞書データを前記メモリに設けられた記憶領域である第二の音声辞書記憶部に記憶する手順と、
を実行させるためのプログラム。 A communication interface for connecting to a CPU, memory, and the Internet;
A storage area provided in the memory;
A first voice dictionary storage unit in which character string data indicating a character string such as a word and reading data indicating a reading of the character string are stored in association with each other;
A read URL storage unit in which the URL of the Web page is stored;
On a computer with
Obtaining a Web page specified by the URL stored in the read URL storage unit by accessing a Web server on the Internet;
A procedure for extracting the character string data included in the acquired web page and obtaining an appearance frequency for each character string data;
A procedure for associating the character string data and appearance frequency data that is data indicating the appearance frequency and storing them in an appearance frequency storage unit that is a storage area provided in the memory;
A procedure for acquiring the reading data corresponding to the character string data stored in the appearance frequency storage unit from the first speech dictionary storage unit;
For each of the plurality of character string data having the same acquired reading data, the reading data obtained by voice recognition is converted into one character string data selected from the plurality of character string data. A procedure for determining the selection order of the character string data at the time based on the appearance frequency data;
Associating the character string data, the reading data, and selection order data that is data indicating the selection order, and generating speech dictionary data that is data used when recognizing speech and converting it to a character string; A procedure for storing the speech dictionary data in a second speech dictionary storage unit that is a storage area provided in the memory;
A program for running
前記出現頻度記憶部に記憶されている前記文字列データのうち、前記第一の音声辞書記憶部に記憶されていない前記文字列データをディスプレイやプリンタ等の所定の出力装置に出力する手順と、
前記コンピュータが備える所定の入力装置から入力される、前記出力装置に出力された前記文字列データによって表される文字列の読みを示す前記読みデータを受け付け、当該文字列データ及び当該読みデータを対応付けて前記メモリに設けられた記憶領域である読みデータ記憶部に記憶する手順と、
を更に備え、
前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを取得する前記手順は、前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記第一の音声辞書記憶部または前記読みデータ記憶部から取得する手順であること、
を特徴とするプログラム。 The program according to claim 2,
Among the character string data stored in the appearance frequency storage unit, a procedure for outputting the character string data not stored in the first speech dictionary storage unit to a predetermined output device such as a display or a printer;
The reading data indicating the reading of the character string represented by the character string data output to the output device, which is input from a predetermined input device included in the computer, is received, and the character string data and the reading data are associated with each other. In addition, a procedure for storing in a reading data storage unit which is a storage area provided in the memory;
Further comprising
The procedure of acquiring the reading data corresponding to the character string data stored in the appearance frequency storage unit includes the reading data corresponding to the character string data stored in the appearance frequency storage unit. A procedure to obtain from one voice dictionary storage unit or the reading data storage unit,
A program characterized by
前記メモリに設けられた記憶領域である、
単語等の文字列を示す文字列データと、当該文字列の読みを示す読みデータとが対応付けて記憶されている第一の音声辞書記憶部と、
WebページのURLが記憶されている読込URL記憶部と、
を備えるコンピュータに、
前記読込URL記憶部に記憶されている前記URLで指定されるWebページを、インターネット上のWebサーバにアクセスすることにより取得する手順と、
取得した前記Webページを構成しているデータに含まれている前記文字列データを抽出して前記文字列データごとの出現頻度を求める手順と、
前記文字列データ及び前記出現頻度を示すデータである出現頻度データを対応付けて前記メモリに設けられた記憶領域である出現頻度記憶部に記憶する手順と、
抽出した前記文字列データを前記出力装置に出力する手順と、
前記入力装置から入力される、前記出力装置に出力された前記文字列データによって表される文字列の読みを示す前記読みデータを受け付け、当該文字列データ及び当該読みデータを対応付けて前記メモリに設けられた記憶領域である読みデータ記憶部に記憶する手順と、
前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記読みデータ記憶部から取得する手順と、
取得した前記読みデータが同一の複数の前記文字列データの夫々に対して、音声認識によって得られる前記読みデータを前記読みデータが同一の前記複数の前記文字列データのうちから選択される一の前記文字列データに変換する際の前記文字列データの選択順序を前記出現頻度データに基づいて決定する手順と、
前記文字列データ、前記読みデータ、及び前記選択順序を示すデータである選択順序データを対応付けて、音声を認識して文字列に変換する際に用いられるデータである音声辞書データを生成し、当該音声辞書データを前記メモリに設けられた記憶領域である第二の音声辞書記憶部に記憶する手順と、
を実行させるためのプログラム。 A CPU, a memory, an input device, an output device, and a communication interface connected to the Internet;
A storage area provided in the memory;
A first voice dictionary storage unit in which character string data indicating a character string such as a word and reading data indicating a reading of the character string are stored in association with each other;
A read URL storage unit in which the URL of the Web page is stored;
On a computer with
Obtaining a Web page specified by the URL stored in the read URL storage unit by accessing a Web server on the Internet;
A procedure for extracting the character string data included in the data constituting the acquired web page and obtaining an appearance frequency for each character string data;
A procedure for associating the character string data and appearance frequency data that is data indicating the appearance frequency and storing them in an appearance frequency storage unit that is a storage area provided in the memory;
A procedure for outputting the extracted character string data to the output device;
The reading data indicating the reading of the character string represented by the character string data output from the input device and output to the output device is received, and the character string data and the reading data are associated with each other in the memory. A procedure of storing in a reading data storage unit which is a storage area provided;
A procedure for acquiring the reading data corresponding to the character string data stored in the appearance frequency storage unit from the reading data storage unit;
For each of the plurality of character string data having the same read data, the read data obtained by voice recognition is selected from the plurality of character string data having the same read data. A procedure for determining the selection order of the character string data when converting to the character string data based on the appearance frequency data;
Associating the character string data, the reading data, and selection order data that is data indicating the selection order, and generating speech dictionary data that is data used when recognizing speech and converting it to a character string; A procedure for storing the speech dictionary data in a second speech dictionary storage unit that is a storage area provided in the memory;
A program for running
Webページに対応する画像や文字列等をディスプレイに表示するソフトウェアであるWebブラウザがユーザから指定されたWebページのURLを記憶する記憶領域であるURL記憶部に記憶されている前記URLを取得する手順と、
前記URL記憶部から取得した前記URLを前記読込URL記憶部に記憶する手順と、
を更に備えることを特徴とするプログラム。 The program according to claim 2 or 4,
A Web browser, which is software that displays an image, a character string, or the like corresponding to the Web page on the display, acquires the URL stored in the URL storage unit that is a storage area for storing the URL of the Web page specified by the user. Procedure and
Storing the URL obtained from the URL storage unit in the read URL storage unit;
A program characterized by further comprising:
前記読込URL記憶部が記憶する複数の前記URLのうち、ユーザによって指定される前記URLを受け付ける手順を更に備え、
前記URL記憶部に記憶されている前記URLを取得する前記手順は、前記URL記憶部に記憶されている前記URLのうち、ユーザによって指定される前記URLを前記URL記憶部から取得する手順であること、
を特徴とするプログラム。 The speech dictionary creation program according to claim 5,
A step of accepting the URL specified by the user among the plurality of URLs stored in the read URL storage unit;
The procedure for acquiring the URL stored in the URL storage unit is a procedure for acquiring, from the URL storage unit, the URL specified by the user among the URLs stored in the URL storage unit. thing,
A program characterized by
Webページに設定された他のWebページへのリンクを辿る階層数を示すリンク階層データが前記メモリに設けられた記憶領域であるリンク階層記憶部に記憶され、
前記読込URL記憶部に記憶されている前記URLで指定される前記Webページを取得する前記手順には、
取得した前記Webページを構成しているデータに含まれている他のWebページへのリンクを示すURLであるリンク先URLを抽出して当該リンク先URLで指定される前記他のWebページを取得する処理を、前記リンク階層記憶部に記憶されている前記リンク階層データによって示される前記階層数に応じて繰り返し実行する手順が含まれていること、
を特徴とするプログラム。 The program according to claim 2 or 4,
Link hierarchy data indicating the number of hierarchies that follow links to other web pages set in a web page is stored in a link hierarchy storage unit that is a storage area provided in the memory,
In the procedure of acquiring the Web page specified by the URL stored in the read URL storage unit,
A link destination URL that is a URL indicating a link to another Web page included in the data constituting the acquired Web page is extracted, and the other Web page specified by the link destination URL is acquired. Including a procedure of repeatedly executing the processing to be performed according to the number of levels indicated by the link level data stored in the link level storage unit,
A program characterized by
前記リンク階層記憶部には、前記読込URL記憶部に記憶されている前記WebページのURLごとに前記リンク階層データが記憶され、
前記他のWebページを取得する前記処理を、前記階層数に応じて繰り返し実行する前記手順は、前記他のWebページを取得する前記処理を、前記URL記憶部に記憶されている前記URLに対応する前記リンク階層データによって示される前記階層数に応じて繰り返し実行する手順であること、
を特徴とするプログラム。 The program according to claim 7,
The link hierarchy storage unit stores the link hierarchy data for each URL of the Web page stored in the read URL storage unit,
The procedure of repeatedly executing the process of acquiring the other Web page according to the number of hierarchies corresponds to the URL stored in the URL storage unit of the process of acquiring the other Web page. A procedure that is repeatedly executed according to the number of layers indicated by the link layer data.
A program characterized by
Webページを表示するソフトウェアが備える表示するWebページのURLを入力するエリアに入力されたURLを取得し、取得した当該URLを前記読込URL記憶部に記憶する手順を更に備えることを特徴とするプログラム。 The program according to claim 2 or 4,
A program further comprising a procedure of acquiring a URL input in an area for inputting a URL of a Web page to be displayed provided in software for displaying the Web page, and storing the acquired URL in the read URL storage unit .
前記メモリに設けられた記憶領域である、
単語等の文字列を示す文字列データと、当該文字列の読みを示す読みデータとが対応付けて記憶されている第一の音声辞書記憶部と、
WebページのURLが記憶されている読込URL記憶部と、
を備えるコンピュータが、
前記読込URL記憶部に記憶されている前記URLで指定されるWebページを、インターネット上のWebサーバにアクセスすることにより取得し、
取得した前記Webページに含まれている前記文字列データを抽出して前記文字列データごとの出現頻度を求め、
前記文字列データ及び前記出現頻度を示すデータである出現頻度データを対応付けて前記メモリに設けられた記憶領域である出現頻度記憶部に記憶し、
前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記第一の音声辞書記憶部から取得し、
取得した前記読みデータが同一の複数の前記文字列データの夫々に対して、音声認識によって得られる前記読みデータを前記複数の前記文字列データのうちから選択される一の文字列データに変換する際の前記文字列データの選択順序を前記出現頻度データに基づいて決定し、
前記文字列データ、前記読みデータ、及び前記選択順序を示すデータである選択順序データを対応付けて、音声を認識して文字列に変換する際に用いられるデータである音声辞書データを生成し、当該音声辞書データを前記メモリに設けられた記憶領域である第二の音声辞書記憶部に記憶すること、
を特徴とする音声辞書作成方法。
A communication interface for connecting to a CPU, memory, and the Internet;
A storage area provided in the memory;
A first voice dictionary storage unit in which character string data indicating a character string such as a word and reading data indicating a reading of the character string are stored in association with each other;
A read URL storage unit in which the URL of the Web page is stored;
A computer comprising
Obtaining a Web page specified by the URL stored in the read URL storage unit by accessing a Web server on the Internet;
Extracting the character string data contained in the acquired web page and determining the appearance frequency for each character string data;
The character string data and the appearance frequency data which is the data indicating the appearance frequency are associated with each other and stored in the appearance frequency storage unit which is a storage area provided in the memory,
Obtaining the reading data corresponding to the character string data stored in the appearance frequency storage unit from the first speech dictionary storage unit;
For each of the plurality of character string data having the same acquired reading data, the reading data obtained by voice recognition is converted into one character string data selected from the plurality of character string data. The selection order of the character string data at the time is determined based on the appearance frequency data,
Associating the character string data, the reading data, and selection order data that is data indicating the selection order, and generating speech dictionary data that is data used when recognizing speech and converting it to a character string; Storing the speech dictionary data in a second speech dictionary storage unit which is a storage area provided in the memory;
A voice dictionary creation method characterized by
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004222876A JP4515186B2 (en) | 2003-09-02 | 2004-07-30 | Speech dictionary creation device, speech dictionary creation method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003310299 | 2003-09-02 | ||
JP2004222876A JP4515186B2 (en) | 2003-09-02 | 2004-07-30 | Speech dictionary creation device, speech dictionary creation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005099741A JP2005099741A (en) | 2005-04-14 |
JP4515186B2 true JP4515186B2 (en) | 2010-07-28 |
Family
ID=34467521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004222876A Expired - Fee Related JP4515186B2 (en) | 2003-09-02 | 2004-07-30 | Speech dictionary creation device, speech dictionary creation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4515186B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8719021B2 (en) | 2006-02-23 | 2014-05-06 | Nec Corporation | Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program |
JP4962416B2 (en) * | 2008-06-03 | 2012-06-27 | 日本電気株式会社 | Speech recognition system |
JP5167020B2 (en) * | 2008-08-05 | 2013-03-21 | Kddi株式会社 | Answering machine |
WO2011045846A1 (en) * | 2009-10-16 | 2011-04-21 | 三菱電機株式会社 | Audio recognition device |
JP2015069334A (en) * | 2013-09-27 | 2015-04-13 | 富士通株式会社 | Character conversion program, character conversion device, and character conversion method |
JP6545633B2 (en) * | 2016-03-17 | 2019-07-17 | 株式会社東芝 | Word score calculation device, word score calculation method and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002014693A (en) * | 2000-06-30 | 2002-01-18 | Mitsubishi Electric Corp | Method to provide dictionary for voice recognition system, and voice recognition interface |
JP2002162986A (en) * | 2000-11-27 | 2002-06-07 | Canon Inc | Device and method for information processing and computer-readable memory |
JP2002207731A (en) * | 2001-01-12 | 2002-07-26 | Logo Vista Corp | Field dictionary forming device |
JP2002297177A (en) * | 2001-03-29 | 2002-10-11 | Sharp Corp | Device and method for generating dictionary for voice recognition, voice recognizing device, portable terminal device and program recording medium |
-
2004
- 2004-07-30 JP JP2004222876A patent/JP4515186B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002014693A (en) * | 2000-06-30 | 2002-01-18 | Mitsubishi Electric Corp | Method to provide dictionary for voice recognition system, and voice recognition interface |
JP2002162986A (en) * | 2000-11-27 | 2002-06-07 | Canon Inc | Device and method for information processing and computer-readable memory |
JP2002207731A (en) * | 2001-01-12 | 2002-07-26 | Logo Vista Corp | Field dictionary forming device |
JP2002297177A (en) * | 2001-03-29 | 2002-10-11 | Sharp Corp | Device and method for generating dictionary for voice recognition, voice recognizing device, portable terminal device and program recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP2005099741A (en) | 2005-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7197462B2 (en) | System and method for information access | |
JP5257071B2 (en) | Similarity calculation device and information retrieval device | |
TWI353585B (en) | Computer-implemented method,apparatus, and compute | |
US7962842B2 (en) | Method and systems for accessing data by spelling discrimination letters of link names | |
JP2004310748A (en) | Presentation of data based on user input | |
JP2011018330A (en) | System and method for transforming kanji into vernacular pronunciation string by statistical method | |
CN100368960C (en) | Information processing method and apparatus | |
US20050010422A1 (en) | Speech processing apparatus and method | |
KR100237385B1 (en) | The Implementation Method of Speech Recognizer on the Web Browser | |
JP2009140466A (en) | Method and system for providing conversation dictionary services based on user created dialog data | |
JP6469919B1 (en) | Judgment sentence database creation method, judgment sentence database search method, sentence creation method, judgment sentence database creation apparatus, judgment sentence database retrieval apparatus, sentence creation apparatus, judgment sentence database creation program, judgment sentence database retrieval program, And sentence creation program | |
JP4515186B2 (en) | Speech dictionary creation device, speech dictionary creation method, and program | |
JP2002197118A (en) | Information access method, information access system and storage medium | |
JPH10124293A (en) | Speech commandable computer and medium for the same | |
JP2011165092A (en) | Providing device and acquisition system of document image relevant information | |
JP4738847B2 (en) | Data retrieval apparatus and method | |
JP2005128955A (en) | Information processing method, storage medium, and program | |
Ghose et al. | Architecture of a web browser for visually handicapped people | |
KR100916814B1 (en) | Method, system and computer readable recording medium for extracting text based on tag information | |
JP4953440B2 (en) | Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program | |
JP2009169113A (en) | Language model creation device, language model creation method and language model creation program | |
JPH10307837A (en) | Retrieval device and recording medium recording retrieval program | |
JP4014361B2 (en) | Speech synthesis apparatus, speech synthesis method, and computer-readable recording medium recording speech synthesis program | |
KR102639463B1 (en) | Method for sharing memo of web page using matching common id information | |
JP2009086597A (en) | Text-to-speech conversion service system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070620 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100405 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100413 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100512 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130521 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |