JP2012022053A - Voice recognition device - Google Patents
Voice recognition device Download PDFInfo
- Publication number
- JP2012022053A JP2012022053A JP2010158219A JP2010158219A JP2012022053A JP 2012022053 A JP2012022053 A JP 2012022053A JP 2010158219 A JP2010158219 A JP 2010158219A JP 2010158219 A JP2010158219 A JP 2010158219A JP 2012022053 A JP2012022053 A JP 2012022053A
- Authority
- JP
- Japan
- Prior art keywords
- web page
- unit
- speech recognition
- content
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 79
- 239000000284 extract Substances 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims description 11
- 238000003672 processing method Methods 0.000 claims description 4
- 238000000926 separation method Methods 0.000 description 41
- 230000000877 morphologic effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 6
- 238000000034 method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Abstract
Description
本発明の実施形態は、音声認識に関する。 Embodiments of the present invention relate to speech recognition.
ユーザは、放送波、記録媒体またはネットワーク(例えば、動画共有サイト)を介して様々なコンテンツを利用できる。また、コンテンツ再生装置も多様化している。具体的には、TV受信機に限らず携帯電話機、パーソナルコンピュータ、ビデオゲーム機などがコンテンツ再生機能を備えることがある。 The user can use various contents via a broadcast wave, a recording medium, or a network (for example, a moving image sharing site). In addition, content reproduction apparatuses are diversified. Specifically, not only a TV receiver but also a mobile phone, a personal computer, a video game machine, and the like may have a content reproduction function.
コンテンツに含まれる音声データに対して音声認識を行い、音声認識結果を字幕などとして活用することが提案されている。音声認識は、音響モデル、言語モデル、単語辞書などの音声認識パラメータを用いて実現される。高精度な音声認識結果を得るためには、認識対象の音声データに対して音声認識パラメータを適切に制御することが重要である。例えば放送番組(主にニュース番組)の音声認識のために、手動による音声認識パラメータの制御(音響モデル及び言語モデルの学習など)が行われている。 It has been proposed to perform speech recognition on audio data included in content and use the speech recognition result as subtitles. Speech recognition is realized using speech recognition parameters such as an acoustic model, a language model, and a word dictionary. In order to obtain a highly accurate speech recognition result, it is important to appropriately control speech recognition parameters for speech data to be recognized. For example, for speech recognition of broadcast programs (mainly news programs), manual speech recognition parameter control (such as learning of an acoustic model and a language model) is performed.
コンテンツ毎に音声認識パラメータを手動で制御することは不便である。一方、音声認識パラメータを固定すれば、多様なコンテンツに対して高精度な音声認識を行うことは困難となる。 It is inconvenient to manually control speech recognition parameters for each content. On the other hand, if the speech recognition parameters are fixed, it is difficult to perform highly accurate speech recognition for various contents.
従って、本発明の実施形態は、コンテンツのための音声認識パラメータを自動制御することを目的とする。 Accordingly, embodiments of the present invention are directed to automatically controlling speech recognition parameters for content.
一態様に係る音声認識装置は、音声データを含むコンテンツを取得するコンテンツ取得部と、コンテンツを提供するWebページを取得するWebページ取得部とを含む。この音声認識装置は、コンテンツを提供するWebページに基づく解析を行って、音声データの特徴を示すテキストを抽出するWebページ解析部と、音声データのための音声認識パラメータを、抽出されたテキストに基づいて制御するパラメータ制御部とを含む。この音声認識装置は、制御された音声認識パラメータに従って音声データに対して音声認識を行う音声認識部を含む。 A speech recognition apparatus according to an aspect includes a content acquisition unit that acquires content including audio data, and a Web page acquisition unit that acquires a Web page that provides the content. This speech recognition apparatus performs analysis based on a web page that provides content, extracts a text indicating the characteristics of speech data, and converts speech recognition parameters for speech data into the extracted text. And a parameter control unit that performs control based on the control unit. The speech recognition apparatus includes a speech recognition unit that performs speech recognition on speech data according to controlled speech recognition parameters.
他の態様に係る音声認識装置は、音声データを含むコンテンツを取得するコンテンツ取得部を含む。この音声認識装置は、音声データの音声認識結果、コンテンツから分離された映像データの画像認識結果及びコンテンツから分離されたテキストデータのうち少なくとも一方に基づいてコンテンツに関連するWebページを取得するWebページ取得部を含む。この音声認識装置は、コンテンツに関連するWebページに基づく解析を行って、音声データの特徴を示すテキストを抽出するWebページ解析部と、音声データのための音声認識パラメータを、抽出されたテキストに基づいて制御するパラメータ制御部とを含む。この音声認識装置は、制御された音声認識パラメータに従って音声データに対して音声認識を行う音声認識部を含む。 A speech recognition apparatus according to another aspect includes a content acquisition unit that acquires content including audio data. The speech recognition apparatus acquires a web page related to content based on at least one of a speech recognition result of speech data, an image recognition result of video data separated from the content, and text data separated from the content. Includes an acquisition unit. This speech recognition apparatus performs analysis based on a web page related to content, extracts a text indicating the characteristics of the speech data, and converts speech recognition parameters for the speech data into the extracted text. And a parameter control unit that performs control based on the control unit. The speech recognition apparatus includes a speech recognition unit that performs speech recognition on speech data according to controlled speech recognition parameters.
以下、図面を参照して、本発明の実施形態について説明する。
(第1の実施形態)
図1に示すように、第1の実施形態に係る音声認識装置は、認識対象入力部101、Webページ取得部102、Webページ解析部103、解析パラメータ記憶部104、抽出テキスト処理部105、音声認識パラメータ制御部106、コンテンツ取得部107、コンテンツ解析部108、コンテンツ分離部109、音声入力部110、音声認識部111及び認識結果出力部112を有する。
Embodiments of the present invention will be described below with reference to the drawings.
(First embodiment)
As shown in FIG. 1, the speech recognition apparatus according to the first embodiment includes a recognition
認識対象入力部101は、音声認識の対象となる音声データを含むコンテンツを提供するWebページの識別子をWebページ取得部102及びコンテンツ取得部107に入力する。Webページの識別子は、例えばURL(Uniform Resource Locator)またはURI(Uniform Resource Identifier)の形式で表現される。
The recognition
Webページ取得部102は、認識対象入力部101からのWebページの識別子に従ってWebページを取得する。Webページ取得部102は、取得したWebページをWebページ解析部103に入力する。
The web
Webページ解析部103は、Webページ取得部102からのWebページに基づいて解析を行う。具体的には、Webページ解析部103は、後述する解析パラメータを解析パラメータ記憶部104から取得し、この解析パラメータに従って解析を行う。Webページ解析部103は、この解析処理を通じて、音声認識の対象となる音声データの特徴(音響的特徴、言語的特徴など)を示すテキストを抽出する。Webページ解析部103は、抽出したテキストを抽出テキスト処理部105に入力する。
The web
解析パラメータ記憶部104には、例えば図7に示す形式で解析パラメータが記憶される。図7の例では、解析パラメータ記憶部104は、Webページの識別子と、解析パラメータとを対応付けて記憶する。尚、図7の例では、特定のWebページの識別子に対して解析パラメータが対応付けられているが、全てのWebページの識別子または特定のWebページを除く全てのWebページの識別子に対して共通の解析パラメータが対応付けられてもよい。
In the analysis
図7の例では、解析パラメータは、絞り込み条件及びこの絞り込み条件の適用対象を含む。但し、一部または全部のWebページの識別子に関して、これらのパラメータが指定されなくてもよい。絞り込み条件とは、入力されたWebページに基づく解析を実施するか否かを判定するための条件である。絞り込み条件の適用対象とは、入力されたWebページにおいて絞り込み条件の充足の有無を判定するために参照される範囲である。例えば、Webページの識別子が「http://xxxx.ne.jp」であれば、Webページ解析部103はこのWebページのソースコードにおいて「<title>(.+)</title>」のカッコで示した範囲に文字列「ニュース」が含まれているか否かを判定する(701)。ここで、(.+)という記号は、UNIX(登録商標)または各種プログラミング言語で利用されているように、任意の文字の1個以上の出現(即ち、任意の文字列)を表す正規表現とする。Webページ解析部103は、絞り込み条件が充足されていればWebページに基づく解析を実施し、そうでなければ省略する。また、図7の例では、Webページの識別子「http://xxxx.ne.jp」に対して別の絞り込み条件も対応付けられている。従って、Webページ解析部103は、このWebページのソースコードにおいて「<genre>(.+)</genre)」のカッコで示した範囲に文字列「スポーツ」または文字列「バラエティ」が含まれているか否かを判定する(702)。更に、Webページの識別子が「http://yyyy.ne.jp」であれば、Webページ解析部103はこのWebページのソースコードにおいて「<title>(.+)</title>」のカッコで示した範囲に文字列「○○○○」が含まれているか否かを判定したり(703)、このWebページのソースコードにおいて「(.+)の番組です」のカッコで示した範囲に文字列「□□□□」が含まれているか否かを判定したり(704)する。尚、図7の例では、絞り込み条件適用対象は、HTMLの要素の配置位置またはタグなどのWebページのデータ構造によって規定されたり、特定の文字列によって規定されたりしているが、これらに限られない。
In the example of FIG. 7, the analysis parameter includes a narrowing condition and an application target of the narrowing condition. However, these parameters may not be specified for some or all of the Web page identifiers. The narrowing-down condition is a condition for determining whether or not to perform analysis based on the input Web page. The application target of the narrowing condition is a range that is referred to in order to determine whether or not the narrowing condition is satisfied in the input Web page. For example, if the identifier of the Web page is “http://xxxx.ne.jp”, the Web
Webページ解析部103は、絞り込み条件が充足されていれば、入力されたWebページに基づく解析を実施する。具体的には、Webページ解析部103は、Webページの識別子に対応するテキスト解析対象からWebページの識別子に対応する抽出方法に従ってテキストを抽出する。テキスト解析対象は、入力されたWebページのソースコード(701,703)、別のWebページのソースコード(702,704)などである。入力されたWebページでなく別のWebページのソースコードを解析対象とすることの技術的意義は、入力されたWebページが別のWebページにおいて提供されるコンテンツを引用している場合などに、より詳細な情報を期待できることが挙げられる。テキスト抽出方法は、全文抽出(701)、特定の文字列を含む部分の抽出(703)、Webページのデータ構造によって規定される特定部分の抽出(702,704)など様々である。Webページ解析部103は、1つに限らず複数のテキストを抽出してもよい。
The Web
抽出テキスト処理部105は、Webページ解析部103からの抽出テキストを制御パラメータに変換する。制御パラメータは、後述する音声認識パラメータ制御部106によって音声認識パラメータの制御に使用される。音声認識パラメータは、例えば音響モデル、単語辞書または言語モデルを含む。音響モデルは、音素または音節の周波数パターンなどの音響的特徴を表す。単語辞書は、認識可能な単語の情報(表記情報、品詞情報など)を列挙する。言語モデルは、単語間の接続関係などの言語的特徴を表す。後述する音声認識部111は、音声データの音響的特徴と、認識候補の言語的特徴とに基づく音声認識を行って認識結果を生成する。
The extracted
具体的には、抽出テキスト処理部105は、抽出テキストとWebページ解析部103から指定される抽出テキスト処理方法に従って処理を行う。典型的には、抽出テキスト処理部105は、抽出テキストに対して形態素解析を行う。抽出テキスト処理部105は、これら形態素解析結果を制御パラメータに変換し、音声認識パラメータ制御部106に入力する。例えば、抽出テキスト処理部105は、形態素解析結果から所定のキーワードを検出し、発言者、ジャンル、言語、方言またはシチュエーションなどの制御パラメータとして直接変換してもよいし、人名、地名などを扱うWebサービスを利用して制御パラメータに変換してもよいし、オントロジー辞書を利用して制御パラメータに変換してもよい。また、抽出テキスト処理部105は、コンテンツの再生時間と制御パラメータとの時間的な対応関係を取得できるならば、この制御パラメータを適用する時間的な範囲を指定してもよい。例えばコンテンツを提供するWebページにおいてこのコンテンツの再生時間と対応付けられてコメントなどが記載されていることがある。また、抽出テキスト処理部105は、キーワードの一部または全部を辞書パラメータに変換してもよい。音声認識パラメータ制御部106は、辞書パラメータに対応する単語の情報(表記情報、品詞情報など)を単語辞書に登録したり、この単語の認識優先度を高く設定したりする。更に、抽出テキスト処理部105は、抽出テキストを言語モデルパラメータに変換してもよい。言語モデルパラメータは、言語モデルの更新(学習)などに利用できる。尚、辞書パラメータ及び言語モデルパラメータは、制御パラメータの一部である。
Specifically, the extracted
制御パラメータを図8に例示する。制御パラメータは、例えば、発言者、ジャンル、言語、方言またはシチュエーションなどの様々な属性を含む。「制御パラメータ:発言者」は、「20代男性」、「20代女性」などの発言者の世代及び性別の一方または両方を示すものであってもよいし、特定の個人(アナウンサー、男優、女優など)を示すものであってもよい。「制御パラメータ:発言者」は、音響モデル、言語モデル、単語辞書などの選択に有効である。例えば、「制御パラメータ:発言者」が「女性」であれば、音声認識パラメータ制御部106は女性向けの音響モデルなどを選択することができる。また、「制御パラメータ:発言者」が特定の個人を示すものであれば、音声認識パラメータ制御部106がこの特定の個人に最適化された音響モデル、言語モデル、単語辞書などを選択することができる。
The control parameters are illustrated in FIG. The control parameters include various attributes such as speaker, genre, language, dialect or situation, for example. “Control parameter: speaker” may indicate the generation and / or gender of a speaker such as “male in 20s” and “female in 20s”, or a specific individual (announcer, actor, An actress). “Control parameter: speaker” is effective in selecting an acoustic model, a language model, a word dictionary, and the like. For example, if “control parameter: speaker” is “female”, the speech recognition
「制御パラメータ:ジャンル」は、「ニュース」、「ドラマ」、「バラエティ」などのコンテンツのジャンルを示す。「制御パラメータ:ジャンル」は、音響モデル、言語モデル、単語辞書などの選択に有効である。例えば、「制御パラメータ:ジャンル」が「ニュース」であれば、音声認識パラメータ制御部106はニュース向けの音響モデル、言語モデル及び単語辞書を選択することができる。
“Control parameter: genre” indicates a genre of content such as “news”, “drama”, “variety”, and the like. “Control parameter: genre” is effective for selecting an acoustic model, a language model, a word dictionary, and the like. For example, if “control parameter: genre” is “news”, the speech recognition
「制御パラメータ:言語」は、「日本語」、「英語」、「中国語」などの発言者の使用言語を示す。「制御パラメータ:言語」は、音響モデル、言語モデル、単語辞書などの選択に有効である。「制御パラメータ:方言」は、「標準語」、「関西弁」、「九州弁」など前述の「制御パラメータ:言語」のサブセットに相当する方言を示す。故に、通常、「制御パラメータ:方言」が判明すれば「制御パラメータ:言語」も判明するので、抽出テキスト処理部105は「制御パラメータ:方言」が判明すれば対応する制御「パラメータ:言語」を自動的に決定してもよい。
“Control parameter: language” indicates a language used by a speaker such as “Japanese”, “English”, “Chinese”, and the like. “Control parameter: language” is effective for selecting an acoustic model, a language model, a word dictionary, and the like. “Control parameter: dialect” indicates a dialect corresponding to a subset of the above-mentioned “control parameter: language” such as “standard language”, “Kansai dialect”, “Kyushu dialect”. Therefore, normally, if “control parameter: dialect” is found, “control parameter: language” is also found. Therefore, if “control parameter: dialect” is found, the extracted
「制御パラメータ:シチュエーション」は、「電車内」、「静かな場所」、「自動車内」などの音声データの収録環境を示す。「制御パラメータ:シチュエーション」は、音響モデルの選択、ノイズキャンセリング処理の制御などに有効である。 “Control parameter: situation” indicates an audio data recording environment such as “inside a train”, “quiet location”, “inside a car”, and the like. “Control parameter: situation” is effective for selecting an acoustic model, controlling noise canceling processing, and the like.
図7にも例示されるように、テキスト解析対象、テキスト抽出方法及び抽出テキスト処理方法は、特定のWebページ識別子に対して1組に限らず複数組設けられてもよい(701)。例えば、抽出テキスト処理部105は先頭キーワードをWebページ解析部103に戻し、Webページ解析部103はこの先頭キーワードを含む検索式を生成してもよい。Webページ解析部103は、この検索式を所定の検索エンジンに送信し、検索された1つまたは複数のWebページに基づいてテキストを抽出してもよい。検索された複数のWebページに基づいてテキストを抽出する場合には、個別の優先度が抽出テキストに割り当てられてもよい。優先度は、各Webページの識別子によって決定されてもよいし、検索結果における各Webページのソート順序によって決定されてもよい。優先度は、制御パラメータの数が過剰である場合などに、有効とする制御パラメータの選定するために利用できる。また、図7に例示するように検索されたWebページの識別子に応じてテキスト抽出方法が更に切り替えられてもよい。また、先頭キーワードなどに基づいて検索されたWebページがWebページ解析部103に新たに入力されたWebページとして扱われてもよい。
As illustrated in FIG. 7, the text analysis target, the text extraction method, and the extracted text processing method are not limited to one set for a specific Web page identifier, and a plurality of sets may be provided (701). For example, the extracted
音声認識パラメータ制御部106は、抽出テキスト処理部105からの制御パラメータに従って認識対象の音声データのための音声認識パラメータを制御する。例えば、音声認識パラメータ制御部106は、「制御パラメータ:言語」または「制御パラメータ:方言」に従って音響モデル、言語モデル及び単語辞書を粗く選択し、「制御パラメータ:発言者」または「制御パラメータ:ジャンル」に従って音響モデル、言語モデル及び単語辞書をより細かく選択することができる。また、音声認識パラメータ制御部106は、「制御パラメータ:シチュエーション」に従って音響モデルをより細かく選択したり、ノイズキャンセリング処理の制御などを行ったりしてもよい。音声認識パラメータ制御部106は、辞書パラメータが示す単語を単語辞書に登録したり、この単語の認識優先度を高く設定したりしてもよい。音声認識パラメータ制御部106は、言語モデルパラメータに従って言語モデルを更新してもよい。音声認識パラメータ制御部106は、言語モデルまたは単語辞書を一時的に更新してもよいし、継続的に更新してもよい。即ち、音声認識パラメータ制御部106は、言語モデルまたは単語辞書の更新を、対応する音声認識処理の終了後に無効としてもよいし有効としてもよい。言語モデルまたは単語辞書の更新が一時的であるか継続的であるかは予め定められてもよいし、制御パラメータによって指定されてもよいし、各言語モデルまたは各単語辞書について個別に定められてもよい。
The speech recognition
コンテンツ取得部107は、認識対象入力部101からのWebページの識別子に対応するコンテンツを取得する。コンテンツ取得部107は、取得したコンテンツをコンテンツ解析部108に入力する。
The
コンテンツ解析部108は、コンテンツ取得部107からのコンテンツを解析する。コンテンツ解析部108は、コンテンツからメタデータ及びメディアデータを抽出し、このコンテンツをコンテンツ分離部109に入力する。
The
コンテンツ分離部109は、コンテンツ解析部108からのメディアデータに含まれる音声データを分離する。コンテンツ分離部109は、分離した音声データを音声入力部110に入力する。
The
音声入力部110は、コンテンツ分離部109からの音声データを音声認識部111に適した形式に変換する。音声入力部110は、変換済みの音声データを音声認識部111に入力する。
The
音声認識部111は、認識対象となる音声データに関して前述の音声認識パラメータ制御部106の処理が完了してから、制御された音声認識パラメータに従って音声入力部110からの音声データに対して音声認識を行う。音声認識部111は、認識結果を認識結果出力部112に入力する。
The
認識結果出力部112は、認識結果を出力する。例えば、認識結果出力部112は、認識結果を字幕として図示しない表示部にコンテンツの再生と同期して表示させてもよいし、認識結果をコンテンツのメタデータとして図示しない記憶媒体に保存してもよいし、認識結果をコンテンツのシーン検出に利用してもよい。
The recognition
以上説明したように、第1の実施形態に係る音声認識装置は、コンテンツを提供するWebページに基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、コンテンツのための音声認識パラメータを自動制御できる。 As described above, the speech recognition apparatus according to the first embodiment controls speech recognition parameters based on the Web page that provides content. Therefore, the speech recognition apparatus according to the present embodiment can automatically control speech recognition parameters for content.
(第2の実施形態)
図2に示すように、第2の実施形態に係る音声認識装置は、図1の音声認識装置において音声認識パラメータ制御部106を音声認識パラメータ制御部206に、コンテンツ分離部109をコンテンツ分離部209に夫々置換し、映像入力部213及び画像認識部214を追加した構成に相当する。以下の説明では、図2において図1と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
(Second Embodiment)
As shown in FIG. 2, the speech recognition apparatus according to the second embodiment includes a speech recognition
コンテンツ分離部209は、コンテンツ解析部108からのメディアデータに含まれる音声データ及び映像データを分離する。コンテンツ分離部209は、分離した音声データを音声入力部110に入力する。コンテンツ分離部209は、分離した映像データを映像入力部213に入力する。
The
映像入力部213は、コンテンツ分離部209からの映像データを画像認識部214に適した形式に変換する。映像入力部213は、変換済みの映像データを画像認識部214に入力する。尚、映像データ中の一部のフレームに対する画像認識を省略するために、映像入力部213は、コンテンツ分離部209からの映像データ中のフレームを間引いてもよい。
The
画像認識部214は、映像入力部213からの映像データに対して画像認識を行う。画像認識部214は、認識結果に基づいて前述の制御パラメータを生成し、音声認識パラメータ制御部206に入力する。具体的には、画像認識部214は映像中に表示されたテキスト(例えば、テロップ、番組出演者の名前など)を認識し、このテキストに形態素解析を行ってよい。画像認識部214は、これら形態素解析結果を制御パラメータに変換し、音声認識パラメータ制御部206に入力する。例えば、画像認識部214は、形態素解析結果から所定のキーワードを検出し、発言者、ジャンル、言語、方言またはシチュエーションなどの制御パラメータとして直接変換してもよいし、人名、地名などを扱うWebサービスを利用して制御パラメータに変換してもよいし、オントロジー辞書を利用して制御パラメータに変換してもよい。また、画像認識部214は、コンテンツの再生時間と制御パラメータとの時間的な対応関係を取得できるならば、制御パラメータを適用する時間的な範囲を指定してもよい。例えば、画像認識部214は、テキストが表示される再生時間をメタデータなどから取得できる。また、画像認識部214は、キーワードの一部または全部を辞書パラメータに変換してもよい。更に、画像認識部214は、認識結果を言語モデルパラメータに変換してもよい。言語モデルパラメータは、言語モデルの更新(学習)などに利用できる。
The
画像認識部214は、文字のサイズ、形状(フォント)、画面内位置、表示間隔などに応じて各単語の制御パラメータへの変換方法を切り替えたり、優先度を割り当てたりしてもよい。優先度は、制御パラメータの数が過剰である場合などに、有効とする制御パラメータの選定するために利用できる。例えば、文字のサイズが大きいほど高い優先度を割り当てたり、文字の形状が太字などの強調表示に相当するものであれば高い優先度を割り当てたり、特定の画面内位置(例えば、番組出演者の名前が表示されやすい画面下部など)に高い優先度を割り当てたりしてもよい。また、画像認識部214は、文字に限らず特定の放送局、番組、人物、企業、団体、商品、サービスなどを表す特定のマーク(ロゴ)を認識し、制御パラメータに変換してもよい。例えば、画像認識部214が、特定の番組を示すマークを認識すれば、その番組に対応する「制御パラメータ:ジャンル」、「制御パラメータ:言語」などに変換してもよい。
The
音声認識パラメータ制御部206は、抽出テキスト処理部105及び画像認識部214からの制御パラメータに従って認識対象の音声データのための音声認識パラメータを制御する。例えば、音声認識パラメータ制御部206は、「制御パラメータ:言語」または「制御パラメータ:方言」に従って音響モデル、言語モデル及び単語辞書を粗く選択し、「制御パラメータ:発言者」または「制御パラメータ:ジャンル」に従って音響モデル、言語モデル及び単語辞書をより細かく選択することができる。また、音声認識パラメータ制御部206は、「制御パラメータ:シチュエーション」に従って音響モデルをより細かく選択したり、ノイズキャンセリング処理の制御などを行ったりしてもよい。音声認識パラメータ制御部206は、辞書パラメータが示す単語を単語辞書に登録したり、この単語の認識優先度を高く設定したりしてもよい。音声認識パラメータ制御部206は、言語モデルパラメータに従って言語モデルを更新してもよい。音声認識パラメータ制御部206は、言語モデルまたは単語辞書を一時的に更新してもよいし、継続的に更新してもよい。
The speech recognition
音声認識パラメータ制御部206は、入力される制御パラメータの一部を音声認識パラメータの制御に使用しなくてもよい。例えば、音声認識パラメータ制御部206は、抽出テキスト処理部105及び画像認識部214のいずれか一方からの制御パラメータを優先的に使用してもよいし、抽出テキスト処理部105及び画像認識部214を区別せずに(例えば各制御パラメータに割り当てられた優先度に従って)制御パラメータを選定してもよい。また、音声認識パラメータ制御部206は、抽出テキスト処理部105及び画像認識部214の両方から同一の制御パラメータが入力される場合に、この制御パラメータを優先的に使用してもよい。
The voice recognition
以上説明したように、第2の実施形態に係る音声認識装置は、コンテンツを提供するWebページ及びコンテンツに含まれる映像データの画像認識結果に基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、コンテンツのための音声認識パラメータを自動制御できる。 As described above, the speech recognition apparatus according to the second embodiment controls the speech recognition parameters based on the image recognition result of the video data included in the Web page that provides the content and the content. Therefore, the speech recognition apparatus according to the present embodiment can automatically control speech recognition parameters for content.
(第3の実施形態)
図3に示すように、第3の実施形態に係る音声認識装置は、図1の音声認識装置において音声認識パラメータ制御部106を音声認識パラメータ制御部306に、コンテンツ分離部109をコンテンツ分離部309に夫々置換し、分離テキスト入力部315及び分離テキスト処理部316を追加した構成に相当する。以下の説明では、図3において図1と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
(Third embodiment)
As shown in FIG. 3, the speech recognition apparatus according to the third embodiment includes a speech recognition
コンテンツ分離部309は、コンテンツ解析部108からのメディアデータに含まれる音声データ及びテキストデータを分離する。また、コンテンツ分離部309は、メタデータに含まれるテキストデータを分離してもよい。コンテンツ分離部309は、分離した音声データを音声入力部110に入力する。コンテンツ分離部309は、分離したテキストデータを分離テキスト入力部315に入力する。
The
分離テキスト入力部315は、コンテンツ分離部309からの分離テキストデータを分離テキスト処理部316に適した形式に変換する。分離テキスト入力部315は、変換済みの分離テキストデータを分離テキスト処理部316に入力する。
The separated
分離テキスト処理部316は、分離テキスト入力部315からの分離テキストに基づいて制御パラメータを生成し、音声認識パラメータ制御部306に入力する。具体的には、分離テキスト処理部316は、分離テキストに形態素解析を行ってよい。分離テキスト処理部316は、これら形態素解析結果を制御パラメータに変換し、音声認識パラメータ制御部306に入力する。例えば、分離テキスト処理部316は、形態素解析結果から所定のキーワードを検出し、発言者、ジャンル、言語、方言またはシチュエーションなどの制御パラメータとして直接変換してもよいし、人名、地名などを扱うWebサービスを利用して制御パラメータに変換してもよいし、オントロジー辞書を利用して制御パラメータに変換してもよい。また、分離テキスト処理部316は、コンテンツの再生時間と制御パラメータとの時間的な対応関係を取得できるならば、制御パラメータを適用する時間的な範囲を指定してもよい。また、分離テキスト処理部316は、キーワードの一部または全部を辞書パラメータに変換してもよい。更に、分離テキスト処理部316は、認識結果を言語モデルパラメータに変換してもよい。言語モデルパラメータは、言語モデルの更新(学習)などに利用できる。
The separated
音声認識パラメータ制御部306は、抽出テキスト処理部105及び分離テキスト処理部316からの制御パラメータに従って認識対象の音声データのための音声認識パラメータを制御する。例えば、音声認識パラメータ制御部306は、「制御パラメータ:言語」または「制御パラメータ:方言」に従って音響モデル、言語モデル及び単語辞書を粗く選択し、「制御パラメータ:発言者」または「制御パラメータ:ジャンル」に従って音響モデル、言語モデル及び単語辞書をより細かく選択することができる。また、音声認識パラメータ制御部306は、「制御パラメータ:シチュエーション」に従って音響モデルをより細かく選択したり、ノイズキャンセリング処理の制御などを行ったりしてもよい。音声認識パラメータ制御部306は、辞書パラメータが示す単語を単語辞書に登録したり、この単語の認識優先度を高く設定したりしてもよい。音声認識パラメータ制御部306は、言語モデルパラメータに従って言語モデルを更新してもよい。音声認識パラメータ制御部306は、言語モデルまたは単語辞書を一時的に更新してもよいし、継続的に更新してもよい。
The speech recognition
音声認識パラメータ制御部306は、入力される制御パラメータの一部を音声認識パラメータの制御に使用しなくてもよい。例えば、音声認識パラメータ制御部306は、抽出テキスト処理部105及び分離テキスト処理部316のいずれか一方からの制御パラメータを優先的に使用してもよいし、抽出テキスト処理部105及び分離テキスト処理部316を区別せずに(例えば各制御パラメータに割り当てられた優先度に従って)制御パラメータを選定してもよい。また、音声認識パラメータ制御部306は、抽出テキスト処理部105及び分離テキスト処理部316の両方から同一の制御パラメータが入力される場合に、この制御パラメータを優先的に使用してもよい。
The voice recognition
以上説明したように、第3の実施形態に係る音声認識装置は、コンテンツを提供するWebページ及びコンテンツに含まれるテキストデータに基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、コンテンツのための音声認識パラメータを自動制御できる。 As described above, the speech recognition apparatus according to the third embodiment controls the speech recognition parameters based on the Web page that provides the content and the text data included in the content. Therefore, the speech recognition apparatus according to the present embodiment can automatically control speech recognition parameters for content.
(第4の実施形態)
図4に示すように、第4の実施形態に係る音声認識装置は、図1の音声認識装置において音声認識パラメータ制御部106を音声認識パラメータ制御部406に、コンテンツ分離部109をコンテンツ分離部409に夫々置換し、図2の映像入力部213及び画像認識部214と図3の分離テキスト入力部315及び分離テキスト処理部316とを追加した構成に相当する。以下の説明では、図4において図1、図2または図3と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
(Fourth embodiment)
As shown in FIG. 4, the speech recognition apparatus according to the fourth embodiment includes a speech recognition
コンテンツ分離部409は、コンテンツ解析部108からのメディアデータに含まれる音声データ、映像データ及びテキストデータを分離する。また、コンテンツ分離部409は、メタデータに含まれるテキストデータを分離してもよい。コンテンツ分離部409は、分離した音声データを音声入力部110に入力する。コンテンツ分離部409は、分離した映像データを映像入力部213に入力する。コンテンツ分離部409は、分離したテキストデータを分離テキスト入力部315に入力する。
The
音声認識パラメータ制御部406は、抽出テキスト処理部105、画像認識部214及び分離テキスト処理部316からの制御パラメータに従って認識対象の音声データのための音声認識パラメータを制御する。例えば、音声認識パラメータ制御部406は、「制御パラメータ:言語」または「制御パラメータ:方言」に従って音響モデル、言語モデル及び単語辞書を粗く選択し、「制御パラメータ:発言者」または「制御パラメータ:ジャンル」に従って音響モデル、言語モデル及び単語辞書をより細かく選択することができる。また、音声認識パラメータ制御部406は、「制御パラメータ:シチュエーション」に従って音響モデルをより細かく選択したり、ノイズキャンセリング処理の制御などを行ったりしてもよい。音声認識パラメータ制御部406は、辞書パラメータが示す単語を単語辞書に登録したり、この単語の認識優先度を高く設定したりしてもよい。音声認識パラメータ制御部406は、言語モデルパラメータに従って言語モデルを更新してもよい。音声認識パラメータ制御部406は、言語モデルまたは単語辞書を一時的に更新してもよいし、継続的に更新してもよい。
The speech recognition
音声認識パラメータ制御部406は、入力される制御パラメータの一部を音声認識パラメータの制御に使用しなくてもよい。例えば、音声認識パラメータ制御部406は、抽出テキスト処理部105、画像認識部214及び分離テキスト処理部316のうちの一部からの制御パラメータを優先的に使用してもよいし、抽出テキスト処理部105、画像認識部214及び分離テキスト処理部316を区別せずに(例えば各制御パラメータに割り当てられた優先度に従って)制御パラメータを選定してもよい。また、音声認識パラメータ制御部406は、抽出テキスト処理部105、画像認識部214及び分離テキスト処理部316のうち複数から同一の制御パラメータが入力される場合に、この制御パラメータを優先的に使用してもよい。
The voice recognition
以上説明したように、第4の実施形態に係る音声認識装置は、コンテンツを提供するWebページ、コンテンツに含まれる映像データの画像認識結果及びコンテンツに含まれるテキストデータに基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、コンテンツのための音声認識パラメータを自動制御できる。 As described above, the speech recognition apparatus according to the fourth embodiment controls the speech recognition parameters based on the Web page that provides the content, the image recognition result of the video data included in the content, and the text data included in the content. To do. Therefore, the speech recognition apparatus according to the present embodiment can automatically control speech recognition parameters for content.
(第5の実施形態)
図5に示すように、第5の実施形態に係る音声認識装置は、認識対象入力部501、コンテンツ取得部107、コンテンツ解析部108、コンテンツ分離部509、音声入力部510、第1の音声認識部517、映像入力部513、画像認識部514、分離テキスト入力部515、分離テキスト処理部516、Webページ取得部502、Webページ解析部103、解析パラメータ記憶部104、抽出テキスト処理部105、音声認識パラメータ制御部106、第2の音声認識部511及び認識結果出力部112を有する。以下の説明では、図5において図1と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
(Fifth embodiment)
As shown in FIG. 5, the speech recognition apparatus according to the fifth embodiment includes a recognition
認識対象入力部501は、音声認識の対象となる音声データを含むコンテンツを取得するための情報をコンテンツ取得部107に入力する。この情報は、コンテンツを提供するWebページの識別子に限らず、コンテンツが読み出される記憶媒体のアドレス情報、コンテンツが放送されるチャンネルなどであってもよい。
The recognition
コンテンツ分離部509は、コンテンツ解析部108からのメディアデータに含まれる音声データ、映像データ及びテキストデータを分離する。また、コンテンツ分離部509は、メタデータに含まれるテキストデータを分離してもよい。コンテンツ分離部509は、分離した音声データを音声入力部510に入力する。コンテンツ分離部509は、分離した映像データを映像入力部513に入力する。コンテンツ分離部509は、分離したテキストデータを分離テキスト入力部515に入力する。
The
音声入力部510は、コンテンツ分離部509からの音声データを第1の音声認識部517及び第2の音声認識部511に適した形式に変換する。音声入力部510は、変換済みの音声データを第1の音声認識部517及び第2の音声認識部511に入力する。第1の音声認識部517は、音声入力部510からの音声データに対して音声認識を行う。第1の音声認識部517は、認識結果に含まれる単語またはWebページの識別子を抽出し、Webページ取得部502に入力する。
The
映像入力部513は、コンテンツ分離部509からの映像データを画像認識部514に適した形式に変換する。映像入力部513は、変換済みの映像データを画像認識部514に入力する。尚、映像データ中の一部のフレームに対して画像認識を省略するために、映像入力部513は、コンテンツ分離部509からの映像データ中のフレームを間引いてもよい。
The
画像認識部514は、映像入力部513からの映像データに対して画像認識を行う。画像認識部514は、認識結果から単語またはWebページの識別子を抽出し、Webページ取得部502に入力する。具体的には、画像認識部514は映像中に表示されたテキスト(例えば、テロップ、番組出演者の名前、コンテンツに関連するWebページのURLなど)を認識する。画像認識部514は、この認識結果に含まれる単語またはWebページの識別子をWebページ取得部502に入力する。
The
また、画像認識部514は、文字のサイズ、形状(フォント)、画面内位置、表示間隔などに応じて、単語またはWebページの識別子に優先度を割り当ててもよい。優先度は、単語またはWebページの識別子の数が過剰である場合などに、有効とする単語またはWebページの識別子の選定するために利用できる。例えば、文字のサイズが大きいほど高い優先度を割り当てたり、文字の形状が太字などの強調表示に相当するものであれば高い優先度を割り当てたり、特定の画面内位置(例えば、番組出演者の名前が表示されやすい画面下部など)に高い優先度を割り当てたりしてもよい。或いは、画像認識部514は、文字に限らず特定の放送局、番組、人物、企業、団体、商品、サービスなどを表す特定のマーク(ロゴ)を認識し、対応する単語または対応するWebページの識別子に変換してもよい。
In addition, the
分離テキスト入力部515は、コンテンツ分離部509からの分離テキストデータを分離テキスト処理部516に適した形式に変換する。分離テキスト入力部515は、変換済みの分離テキストデータを分離テキスト処理部516に入力する。
The separated
分離テキスト処理部516は、分離テキスト入力部515からの分離テキストから単語またはWebページの識別子を抽出し、Webページ取得部502に入力する。具体的には、分離テキスト処理部516は、分離テキストに含まれる単語またはWebページの識別子を抽出する。
The separated
Webページ取得部502は、第1の音声認識部517、画像認識部514及び分離テキスト処理部516からの単語またはWebページの識別子に基づいてコンテンツに関連するWebページを取得する。具体的には、Webページ取得部502は、単語が入力された場合には、この単語を使用して検索式を生成する。Webページ取得部502は、この検索式を所定の検索エンジンに送信し、検索結果からWebページを取得する。一方、Webページ取得部502は、Webページの識別子が入力された場合には、このWebページの識別子に従ってWebページを取得する。Webページ取得部502は、取得したWebページをWebページ解析部103に入力する。
The web
また、Webページ取得部502は、検索式に含める単語の数、検索結果から取得するWebページの数、Webページの識別子に従って取得するWebページの数などを制限してもよい。例えば、Webページ取得部502は、第1の音声認識部517、画像認識部514及び分離テキスト処理部516のうち一部からの単語を優先的に検索式に含めてもよいし、これらのうち一部からのWebページの識別子を優先的に選択してWebページを取得してもよい。或いは、Webページ取得部502は、第1の音声認識部517、画像認識部514及び分離テキスト処理部516を区別せずに(例えば各単語に割り当てられた優先度に従って)各単語を重み付けして検索式を生成してもよい。ここで、重み付けすることとは、例えば、優先度の高い順に所定個数以下の単語を組み合わせること、優先度が所定値以上の単語を組み合わせることなどを意味する。また、Webページ取得部502は、第1の音声認識部517、画像認識部514及び分離テキスト処理部516のうち複数から同一の単語または同一のWebページの識別子が入力される場合に、この単語またはWebページの識別子を優先的に使用してもよい。
Further, the Web
第2の音声認識部511は、認識対象となる音声データに関して前述の音声認識パラメータ制御部106の処理が完了してから、音声入力部510からの音声データに対して音声認識を行う。第2の音声認識部511は、認識結果を認識結果出力部112に入力する。尚、第1の音声認識部517及び第2の音声認識部511は、別個のモジュールであってもよいし、一体化されたモジュールであってもよい。
The second
以上説明したように第5の実施形態に係る音声認識装置は、コンテンツから分離された音声データに対する音声認識結果、コンテンツから分離された映像データに対する画像認識結果、コンテンツから分離されたテキストなどに基づいてコンテンツに関連するWebページを取得し、この関連するWebページに基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、コンテンツを提供するWebページが存在しない場合、不明な場合などにも、コンテンツのための音声認識パラメータを自動制御できる。 As described above, the speech recognition apparatus according to the fifth embodiment is based on the speech recognition result for the audio data separated from the content, the image recognition result for the video data separated from the content, the text separated from the content, and the like. The web page related to the content is acquired, and the speech recognition parameter is controlled based on the related web page. Therefore, according to the speech recognition apparatus according to the present embodiment, it is possible to automatically control speech recognition parameters for content even when there is no Web page providing the content or when it is unknown.
本実施形態に係る音声認識装置は、コンテンツに含まれる音声データ、映像データ及びテキストデータを利用してコンテンツに関連するWebページを検索している。しかしながら、必ずしもこれら全てを利用しなくても、本実施形態に係る音声認識装置と類似の効果を得ることができる。音声データを利用しない場合には、図5において第1の音声認識部517は除去されてよい。映像データを利用しない場合には、図5において映像入力部513及び画像認識部514は除去されてよい。テキストデータを利用しない場合には分離テキスト入力部515及び分離テキスト処理部516は除去されてよい。
The speech recognition apparatus according to the present embodiment searches for a web page related to content using audio data, video data, and text data included in the content. However, an effect similar to that of the speech recognition apparatus according to the present embodiment can be obtained without necessarily using all of them. When voice data is not used, the first
(第6の実施形態)
図6に示すように、第6の実施形態に係る音声認識装置は、図5の認識対象入力部501を認識対象入力部601に、Webページ取得部102をWebページ取得部602に夫々置換した構成に相当する。以下の説明では、図6において図5と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
(Sixth embodiment)
As shown in FIG. 6, the speech recognition apparatus according to the sixth embodiment replaces the recognition
認識対象入力部601は、音声認識の対象となる音声データを含むコンテンツを提供するWebページの識別子をWebページ取得部602及びコンテンツ取得部107に入力する。
The recognition
Webページ取得部602は、認識対象入力部601からのWebページの識別子に従ってWebページを取得する。また、Webページ取得部602は、Webページ取得部502と同様に、第1の音声認識部517、画像認識部514及び分離テキスト処理部516からの単語またはWebページの識別子に基づいてコンテンツに関連するWebページを取得する。Webページ取得部602は、取得したWebページをWebページ解析部103に入力する。
The web
一例として、Webページ取得部602は、最初に、認識対象入力部601からのWebページの識別子に従ってWebページを取得する。そして、Webページ取得部602は、このWebページに関して抽出テキスト処理部105が十分な制御パラメータを得られなければ、第1の音声認識部517、画像認識部514及び分離テキスト処理部516からの単語またはWebページの識別子に基づいてコンテンツに関連するWebページを追加的に取得してもよい。
As an example, the Web
別の例として、Webページ取得部602は、最初に、第1の音声認識部517、画像認識部514及び分離テキスト処理部516からの単語またはWebページの識別子に基づいてコンテンツに関連するWebページを取得する。そして、Webページ取得部602は、このWebページに関して抽出テキスト処理部105が十分な制御パラメータを得られなければ、認識対象入力部601からのWebページの識別子に従ってWebページを追加的に取得してもよい。
As another example, the web
別の例として、Webページ取得部602は、認識対象入力部601からのWebページの識別子に従うWebページと、第1の音声認識部517、画像認識部514及び分離テキスト処理部516からの単語またはWebページの識別子に基づくコンテンツに関連するWebページとの両方を並列的に取得してもよい。
As another example, the web
以上説明したように第6の実施形態に係る音声認識装置は、コンテンツを提供するWebページ及びコンテンツに関連するWebページの少なくとも一方に基づいて音声認識パラメータを制御する。従って、本実施形態に係る音声認識装置によれば、音声認識パラメータを自動制御できる。 As described above, the speech recognition apparatus according to the sixth embodiment controls the speech recognition parameters based on at least one of a web page that provides content and a web page related to the content. Therefore, according to the speech recognition apparatus according to the present embodiment, speech recognition parameters can be automatically controlled.
本実施形態に係る音声認識装置は、コンテンツに含まれる音声データ、映像データ及びテキストデータを利用してコンテンツに関連するWebページを検索している。しかしながら、必ずしもこれら全てを利用しなくても、本実施形態に係る音声認識装置と類似の効果を得ることができる。音声データを利用しない場合には、図6において第1の音声認識部517は除去されてよい。映像データを利用しない場合には、図6において映像入力部513及び画像認識部514は除去されてよい。テキストデータを利用しない場合には分離テキスト入力部515及び分離テキスト処理部516は除去されてよい。
The speech recognition apparatus according to the present embodiment searches for a web page related to content using audio data, video data, and text data included in the content. However, an effect similar to that of the speech recognition apparatus according to the present embodiment can be obtained without necessarily using all of them. When voice data is not used, the first
尚、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。 Note that the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying the components without departing from the scope of the invention in the implementation stage. Various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. Further, for example, a configuration in which some components are deleted from all the components shown in each embodiment is also conceivable. Furthermore, you may combine suitably the component described in different embodiment.
例えば、上記各実施形態の処理を実現するプログラムを、コンピュータで読み取り可能な記憶媒体に格納して提供することも可能である。記憶媒体としては、磁気ディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリなど、プログラムを記憶でき、かつ、コンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。 For example, it is possible to provide a program that realizes the processing of each of the above embodiments by storing it in a computer-readable storage medium. The storage medium may be a computer-readable storage medium such as a magnetic disk, optical disk (CD-ROM, CD-R, DVD, etc.), magneto-optical disk (MO, etc.), semiconductor memory, etc. For example, the storage format may be any form.
また、上記各実施形態の処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ(サーバ)上に格納し、ネットワーク経由でコンピュータ(クライアント)にダウンロードさせてもよい。 Further, the program for realizing the processing of each of the above embodiments may be stored on a computer (server) connected to a network such as the Internet and downloaded to the computer (client) via the network.
101・・・認識対象入力部
102・・・Webページ取得部
103・・・Webページ解析部
104・・・解析パラメータ記憶部
105・・・抽出テキスト処理部
106・・・音声認識パラメータ制御部
107・・・コンテンツ取得部
108・・・コンテンツ解析部
109・・・コンテンツ分離部
110・・・音声入力部
111・・・音声認識部
112・・・認識結果出力部
206・・・音声認識パラメータ制御部
209・・・コンテンツ分離部
213・・・映像入力部
214・・・画像認識部
306・・・音声認識パラメータ制御部
309・・・コンテンツ分離部
315・・・分離テキスト入力部
316・・・分離テキスト処理部
406・・・音声認識パラメータ制御部
409・・・コンテンツ分離部
501・・・認識対象入力部
502・・・Webページ取得部
509・・・コンテンツ分離部
510・・・音声入力部
511・・・第2の音声認識部
513・・・映像入力部
514・・・画像認識部
515・・・分離テキスト入力部
516・・・分離テキスト処理部
517・・・第1の音声認識部
601・・・認識対象入力部
602・・・Webページ取得部
DESCRIPTION OF
Claims (11)
前記コンテンツを提供するWebページを取得するWebページ取得部と、
前記コンテンツを提供するWebページに基づく解析を行って、前記音声データの特徴を示すテキストを抽出するWebページ解析部と、
前記音声データのための音声認識パラメータを、抽出されたテキストに基づいて制御するパラメータ制御部と、
制御された音声認識パラメータに従って前記音声データに対して音声認識を行う音声認識部と
を具備する音声認識装置。 A content acquisition unit for acquiring content including audio data;
A web page acquisition unit for acquiring a web page providing the content;
A web page analysis unit that performs analysis based on a web page that provides the content and extracts text indicating characteristics of the audio data;
A parameter control unit for controlling speech recognition parameters for the speech data based on the extracted text;
A speech recognition apparatus comprising: a speech recognition unit that performs speech recognition on the speech data in accordance with a controlled speech recognition parameter.
前記Webページ解析部は、前記コンテンツを提供するWebページの識別子に対応する解析対象から前記コンテンツを提供するWebページの識別子に対応する抽出方法に従って前記テキストを抽出する、
請求項1記載の音声認識装置。 A storage unit that associates and stores the identifier of the Web page and the analysis target and extraction method for extracting the text;
The web page analysis unit extracts the text from an analysis target corresponding to an identifier of a web page providing the content according to an extraction method corresponding to the identifier of the web page providing the content.
The speech recognition apparatus according to claim 1.
前記Webページ解析部は、前記コンテンツを提供するWebページの識別子に対応する絞り込み条件が前記コンテンツを提供するWebページの識別子に対応する絞り込み条件の適用対象において充足されていないならば前記テキストの抽出を省略する、
請求項1記載の音声認識装置。 A storage unit that stores the identifier of the Web page, the narrowing condition, and the application target of the narrowing condition in association with each other;
The Web page analysis unit extracts the text if the narrowing condition corresponding to the identifier of the Web page providing the content is not satisfied in the application target of the narrowing condition corresponding to the identifier of the Web page providing the content. Is omitted,
The speech recognition apparatus according to claim 1.
前記制御部は、抽出されたテキストが前記コンテンツを提供するWebページの識別子に対応する処理方法に従って変換された制御パラメータに応じて前記音声認識パラメータを制御する、
請求項2記載の音声認識装置。 The storage unit further stores a processing method for converting the extracted text into a control parameter in association with the identifier of the Web page,
The control unit controls the speech recognition parameter according to a control parameter in which the extracted text is converted according to a processing method corresponding to an identifier of a Web page that provides the content.
The speech recognition apparatus according to claim 2.
前記音声データの音声認識結果、前記コンテンツから分離された映像データの画像認識結果及び前記コンテンツから分離されたテキストデータのうち少なくとも一方に基づいて前記コンテンツに関連するWebページを取得するWebページ取得部と、
前記コンテンツに関連するWebページに基づく解析を行って、前記音声データの特徴を示すテキストを抽出するWebページ解析部と、
前記音声データのための音声認識パラメータを、抽出されたテキストに基づいて制御するパラメータ制御部と、
制御された音声認識パラメータに従って前記音声データに対して音声認識を行う音声認識部と
を具備する音声認識装置。 A content acquisition unit for acquiring content including audio data;
A web page acquisition unit that acquires a web page related to the content based on at least one of a speech recognition result of the audio data, an image recognition result of video data separated from the content, and text data separated from the content When,
A web page analysis unit that performs analysis based on a web page related to the content and extracts text indicating characteristics of the audio data;
A parameter control unit for controlling speech recognition parameters for the speech data based on the extracted text;
A speech recognition apparatus comprising: a speech recognition unit that performs speech recognition on the speech data in accordance with a controlled speech recognition parameter.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010158219A JP2012022053A (en) | 2010-07-12 | 2010-07-12 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010158219A JP2012022053A (en) | 2010-07-12 | 2010-07-12 | Voice recognition device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012022053A true JP2012022053A (en) | 2012-02-02 |
Family
ID=45776398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010158219A Pending JP2012022053A (en) | 2010-07-12 | 2010-07-12 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012022053A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021015264A (en) * | 2019-07-11 | 2021-02-12 | サウンドハウンド,インコーポレイテッド | Visual support speech processing |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004023641A (en) * | 2002-06-19 | 2004-01-22 | Fujitsu Ltd | Homepage display device |
JP2007256342A (en) * | 2006-03-20 | 2007-10-04 | Fujitsu Ltd | Clustering system, clustering method, clustering program, and attribute estimation system using clustering system |
JP2008158511A (en) * | 2006-11-30 | 2008-07-10 | National Institute Of Advanced Industrial & Technology | WEB site system for voice data search |
JP2009294269A (en) * | 2008-06-03 | 2009-12-17 | Nec Corp | Speech recognition system |
-
2010
- 2010-07-12 JP JP2010158219A patent/JP2012022053A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004023641A (en) * | 2002-06-19 | 2004-01-22 | Fujitsu Ltd | Homepage display device |
JP2007256342A (en) * | 2006-03-20 | 2007-10-04 | Fujitsu Ltd | Clustering system, clustering method, clustering program, and attribute estimation system using clustering system |
JP2008158511A (en) * | 2006-11-30 | 2008-07-10 | National Institute Of Advanced Industrial & Technology | WEB site system for voice data search |
JP2009294269A (en) * | 2008-06-03 | 2009-12-17 | Nec Corp | Speech recognition system |
Non-Patent Citations (1)
Title |
---|
JPN6013064487; 緒方淳,後藤真孝: 'PodCastle: 集合知を活用した音響モデル学習による音声認識の性能向上' 日本音響学会2009年春季研究発表会講演論文集 講演要旨・講演論文CD-ROM 2-5-1, 20090310, pp.39-42, 社団法人日本音響学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021015264A (en) * | 2019-07-11 | 2021-02-12 | サウンドハウンド,インコーポレイテッド | Visual support speech processing |
JP7242520B2 (en) | 2019-07-11 | 2023-03-20 | サウンドハウンド,インコーポレイテッド | visually aided speech processing |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11197036B2 (en) | Multimedia stream analysis and retrieval | |
JP5178109B2 (en) | Search device, method and program | |
KR101644789B1 (en) | Apparatus and Method for providing information related to broadcasting program | |
KR100877301B1 (en) | Apparatus and method of program classification based on syntax of transcript information | |
JP5588561B2 (en) | Media content providing method and apparatus | |
KR101878488B1 (en) | Method and Appartus for Providing Contents about Conversation | |
CN104618807B (en) | Multi-medium play method, apparatus and system | |
CN113035199B (en) | Audio processing method, device, equipment and readable storage medium | |
JP2010262413A (en) | Voice information extraction device | |
JP2016126567A (en) | Content recommendation device and program | |
JP4100243B2 (en) | Voice recognition apparatus and method using video information | |
CN114996506B (en) | Corpus generation method, corpus generation device, electronic equipment and computer readable storage medium | |
JP2008022292A (en) | Performer information search system, performer information obtaining apparatus, performer information searcher, method thereof and program | |
JP2007199315A (en) | Content providing apparatus | |
JP6433045B2 (en) | Keyword extraction apparatus and program | |
CN105284121B (en) | Synchronization between media stream and social networks thread | |
JP2012022053A (en) | Voice recognition device | |
JP2005227545A (en) | Dictionary creation system, program guide system and dictionary creation method | |
JP2007257134A (en) | Speech search device, speech search method and speech search program | |
JP7202938B2 (en) | Program name search support device and program name search support method | |
JP2007293602A (en) | System and method for retrieving image and program | |
JP5284478B2 (en) | Content search apparatus, method and program | |
KR101606170B1 (en) | Internet Protocol Television Broadcasting System, Server and Apparatus for Generating Lexicon | |
JP2009239630A (en) | Epg data retrieval system and epg data retrieval method | |
JP2005038014A (en) | Information presentation device and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130402 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140312 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140408 |