JP2006243673A - データ検索装置および方法 - Google Patents
データ検索装置および方法 Download PDFInfo
- Publication number
- JP2006243673A JP2006243673A JP2005063149A JP2005063149A JP2006243673A JP 2006243673 A JP2006243673 A JP 2006243673A JP 2005063149 A JP2005063149 A JP 2005063149A JP 2005063149 A JP2005063149 A JP 2005063149A JP 2006243673 A JP2006243673 A JP 2006243673A
- Authority
- JP
- Japan
- Prior art keywords
- data
- subword
- recognition
- search
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 44
- 230000014509 gene expression Effects 0.000 claims abstract description 41
- 238000004364 calculation method Methods 0.000 claims description 42
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 238000003780 insertion Methods 0.000 claims description 8
- 230000037431 insertion Effects 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 abstract 3
- 238000012545 processing Methods 0.000 description 34
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 検索対象の各データに関連付けられた音声データに対し音声認識を行い、サブワード表現形式で認識結果を出力する(S302)。入力されたキーワードもサブワード表現形式に変換する(S305)。次に、上記音声認識結果とサブワード表現形式のキーワードとに基づき、当該キーワードと各データに関連付けられた音声データとの類似度を計算する(S306)。その後、その類似度に基づき選択されるデータについて、そのデータに関連付けられた音声データを入力とし、サブワード表現形式に変換されたキーワードを認識対象語とする音声認識を行う(S308)。そして、その認識スコアに基づいて検索スコアを計算し(S309)、その検索スコアに基づいて選択されるデータを検索結果としてユーザに提示する(S310)。
【選択図】 図3
Description
(2)任意のキーワード(あるいはフレーズ)を使用できるもの。
本実施形態では、データ検索装置の一例として、画像データに関連付けられた音声データを用いて画像データを検索する画像データ検索装置について説明する。なお、本発明に係る検索の対象は画像データに限定されるものではなく、文書、図形などその他の種類のデータにも適用が可能である。
サブワード類似度計算部206における類似度の計算では、クエリサブワードがサブワード認識結果212に対して部分一致する場合に類似度が大きくなるような計算方法を用いても良い。その一例を以下で説明する。
実施形態1では、サブワード認識結果212に記憶するサブワード音声認識結果として、402(図4)に示すような認識結果の音節列を記憶する場合について説明したが、本発明はこれに限るものではなく、ラティス構造やグラフ構造でサブワード認識結果を表現したものを記憶しても良い。その一例を図5に示す。図5は、ノードとリンクを用いたグラフ構造で表現した音節音声認識結果である。ノード501、ノード505はそれぞれ認識結果の開始、終了を意味し、音節認識結果を構成する各音節は、501、505の間のノードで表現されている。502のノードを例に説明すると、音節名「お」が503に、さらに音節「お」の区間で計算された音声認識スコアが504に記述されている。開始ノード501から終了ノード505に至る経路を辿ることで、音節認識結果とその認識スコアを求めることができる。認識スコアは辿った経路上の各ノードに記録されている、その区間の音声認識スコアの和によって求まる。図5に示した例では、
「ふぁ お ね や ま あ」、
「ふぁ お ね や ま」、
「ふぁ こ ね や ま あ」、
「ふぁ こ ね や ま」、
の4個の音節認識結果が表現されており、それぞれの認識スコアは、
「ふぁ お ね や ま あ」:50+41+40+50+30+22=233、
「ふぁ お ね や ま」:50+41+40+50+30=211、
「ふぁ こ ね や ま あ」:50+38+40+50+30+22=230、
「ふぁ こ ね や ま」:50+38+40+50+30=208、
となる。
上述の実施形態1乃至実施形態3では、画像データ検索装置を例として、ユーザがキーボードなどで検索用キーワードを入力する態様を説明したが、同様の構成で、キーワードを音声によって入力する装置も実現が可能である。
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
Claims (15)
- 検索対象のデータがそれぞれ音声データと関連付けられて記憶されたデータベースから、ユーザにより入力されたキーワードを基にデータを検索するデータ検索装置であって、
前記データベース内の各データに関連付けられた音声データに対し音声認識を行い、サブワード表現形式で認識結果を出力する第1の音声認識手段と、
前記キーワードをサブワード表現形式に変換する変換手段と、
前記第1の音声認識手段により得られたサブワード表現形式の前記認識結果と、前記変換手段によりサブワード表現形式に変換された前記キーワードとに基づいて、前記キーワードと前記データベース内の各データに関連付けられた音声データとの類似度を計算する類似度計算手段と、
前記類似度計算手段により計算された前記類似度に基づき選択される1または2以上のデータの各々について、そのデータに関連付けられた音声データを入力とし、前記サブワード表現形式に変換された前記キーワードを認識対象語とする音声認識を行う第2の音声認識手段と、
前記第2の音声認識手段の認識スコアに基づいて検索スコアを計算する検索スコア計算手段と、
前記検索スコア計算手段により計算された前記検索スコアに基づいて選択される前記データベース内のデータを検索結果としてユーザに提示する検索結果提示手段と、
を有することを特徴とするデータ検索装置。 - 前記第1の音声認識手段および前記変換手段は、前記キーワードが入力される前にあらかじめ実行されるものであり、前記類似度計算手段、前記第2の音声認識手段、前記検索スコア計算手段、および前記検索結果提示手段は、前記キーワードが入力されたことに応じて動作することを特徴とする請求項1に記載のデータ検索装置。
- 前記類似度計算手段は、前記類似度として、前記変換手段によりサブワード表現形式に変換された前記キーワードを正解とする前記第1の音声認識手段により得られたサブワード表現形式の前記認識結果のサブワード正解率またはサブワード正解精度を計算することを特徴とする請求項1または2に記載のデータ検索装置。
- 前記サブワード正解精度は、正解サブワード数から挿入誤りサブワード数、置換誤りサブワード数、および削除誤りサブワード数をそれぞれ引いて得たサブワード数と、前記正解サブワード数との比でもって表されるものであって、前記挿入誤りサブワード数に所定の重み係数が乗じられることを特徴とする請求項3に記載のデータ検索装置。
- 前記サブワードは、音素または音節であることを特徴とする請求項1から4までのいずれかに記載のデータ検索装置。
- 前記第2の音声認識手段により実行される音声認識は、前記キーワードを認識対象語とするキーワードスポッティングであることを特徴とする請求項1から5までのいずれかに記載のデータ検索装置。
- 前記検索スコア計算手段は、前記検索スコアとして、前記類似度計算手段により計算された類似度と前記第2の音声認識手段により得られた認識スコアとの重み付き和を計算することを特徴とする請求項1から6までのいずれかに記載のデータ検索装置。
- 前記第2の音声認識手段は、前記類似度が大きい順に所定個数のデータを選択し、当該選択されたデータの各々について前記音声認識を行うことを特徴とする請求項1から7までのいずれかに記載のデータ検索装置。
- 前記第2の音声認識手段は、前記類似度が所定の値よりも大きい1または2以上のデータを選択し、当該選択されたデータの各々について前記音声認識を行うことを特徴とする請求項1から7までのいずれかに記載のデータ検索装置。
- 前記検索結果提示手段は、前記検索スコアが大きい順に所定個数のデータを検索結果として表示することを特徴とする請求項1から9までのいずれかに記載のデータ検索装置。
- 前記検索結果提示手段は、前記検索スコアが所定の値よりも大きいデータを検索結果として表示することを特徴とする請求項1から9までのいずれかに記載のデータ検索装置。
- 検索対象のデータがそれぞれ音声データと関連付けられて記憶されたデータベースから、キーワードとしてユーザにより入力された音声を基にデータを検索するデータ検索装置であって、
前記データベース内の各データに関連付けられた音声データに対し音声認識を行い、サブワード表現形式で認識結果を出力する第1の音声認識手段と、
前記キーワードとして入力された前記音声に対し音声認識を行い、サブワード表現形式で認識結果を出力する第2の音声認識手段と、
前記第1の音声認識手段により得られたサブワード表現形式の前記認識結果と、前記第2の音声認識手段により得られたサブワード表現形式の前記認識結果とに基づいて、前記キーワードと前記データベース内の各データに関連付けられた音声データとの類似度を計算する類似度計算手段と、
前記類似度計算手段により計算された前記類似度に基づき選択される1または2以上のデータの各々について、そのデータに関連付けられた音声データを入力とし、前記サブワード表現形式に変換された前記キーワードを認識対象語とする音声認識を行う第3の音声認識手段と、
前記第3の音声認識手段の認識スコアに基づいて検索スコアを計算する検索スコア計算手段と、
前記検索スコア計算手段により計算された前記検索スコアに基づいて選択される前記データベース内のデータを検索結果としてユーザに提示する検索結果提示手段と、
を有することを特徴とするデータ検索装置。 - コンピュータを用いて、検索対象のデータがそれぞれ音声データと関連付けられて記憶されたデータベースから、ユーザにより入力されたキーワードを基にデータを検索するデータ検索方法であって、
前記データベース内の各データに関連付けられた音声データに対し音声認識を行い、サブワード表現形式で認識結果を出力する第1の音声認識ステップと、
前記キーワードをサブワード表現形式に変換する変換ステップと、
前記第1の音声認識ステップにより得られたサブワード表現形式の前記認識結果と、前記変換ステップによりサブワード表現形式に変換された前記キーワードとに基づいて、前記キーワードと前記データベース内の各データに関連付けられた音声データとの類似度を計算する類似度計算ステップと、
前記類似度計算ステップにより計算された前記類似度に基づき選択される1または2以上のデータの各々について、そのデータに関連付けられた音声データを入力とし、前記サブワード表現形式に変換された前記キーワードを認識対象語とする音声認識を行う第2の音声認識ステップと、
前記第2の音声認識ステップでの認識スコアに基づいて検索スコアを計算する検索スコア計算ステップと、
前記検索スコア計算ステップにより計算された前記検索スコアに基づいて選択される前記データベース内のデータを検索結果としてユーザに提示する検索結果提示ステップと、
を有することを特徴とするデータ検索方法。 - コンピュータを用いて、検索対象のデータがそれぞれ音声データと関連付けられて記憶されたデータベースから、キーワードとしてユーザにより入力された音声を基にデータを検索するデータ検索方法であって、
前記データベース内の各データに関連付けられた音声データに対し音声認識を行い、サブワード表現形式で認識結果を出力する第1の音声認識ステップと、
前記キーワードとして入力された前記音声に対し音声認識を行い、サブワード表現形式で認識結果を出力する第2の音声認識ステップと、
前記第1の音声認識ステップにより得られたサブワード表現形式の前記認識結果と、前記第2の音声認識ステップにより得られたサブワード表現形式の前記認識結果とに基づいて、前記キーワードと前記データベース内の各データに関連付けられた音声データとの類似度を計算する類似度計算ステップと、
前記類似度計算ステップにより計算された前記類似度に基づき選択される1または2以上のデータの各々について、そのデータに関連付けられた音声データを入力とし、前記サブワード表現形式に変換された前記キーワードを認識対象語とする音声認識を行う第3の音声認識ステップと、
前記第3の音声認識ステップでの認識スコアに基づいて検索スコアを計算する検索スコア計算ステップと、
前記検索スコア計算ステップにより計算された前記検索スコアに基づいて選択される前記データベース内のデータを検索結果としてユーザに提示する検索結果提示ステップと、
を有することを特徴とするデータ検索方法。 - 請求項13または14に記載のデータ検索方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005063149A JP4738847B2 (ja) | 2005-03-07 | 2005-03-07 | データ検索装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005063149A JP4738847B2 (ja) | 2005-03-07 | 2005-03-07 | データ検索装置および方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006243673A true JP2006243673A (ja) | 2006-09-14 |
JP2006243673A5 JP2006243673A5 (ja) | 2008-04-03 |
JP4738847B2 JP4738847B2 (ja) | 2011-08-03 |
Family
ID=37050105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005063149A Expired - Fee Related JP4738847B2 (ja) | 2005-03-07 | 2005-03-07 | データ検索装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4738847B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008164975A (ja) * | 2006-12-28 | 2008-07-17 | Nissan Motor Co Ltd | 音声認識装置、および音声認識方法 |
WO2009028647A1 (ja) * | 2007-08-31 | 2009-03-05 | National Institute Of Information And Communications Technology | 非対話型学習装置及び対話型学習装置 |
JP2010146532A (ja) * | 2008-12-16 | 2010-07-01 | Yahoo Japan Corp | 音声検索装置、音声検索方法及び音声検索プログラム |
JP2010267012A (ja) * | 2009-05-13 | 2010-11-25 | Hitachi Ltd | 音声データ検索システム及び音声データ検索方法 |
JP2011070192A (ja) * | 2009-09-22 | 2011-04-07 | Ricoh Co Ltd | 音声検索装置及び音声検索方法 |
JP2012118918A (ja) * | 2010-12-03 | 2012-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システム、情報検索方法、情報検索プログラム |
WO2013154010A1 (ja) * | 2012-04-09 | 2013-10-17 | クラリオン株式会社 | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
CN113468368A (zh) * | 2020-04-28 | 2021-10-01 | 海信集团有限公司 | 一种语音记事方法、装置、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63239499A (ja) * | 1987-03-27 | 1988-10-05 | 株式会社東芝 | 単語音声入力装置 |
JPH08211893A (ja) * | 1994-12-08 | 1996-08-20 | Toshiba Corp | 音声認識装置 |
JPH10173769A (ja) * | 1996-12-13 | 1998-06-26 | Matsushita Electric Ind Co Ltd | 音声メッセージ検索装置 |
JPH1185187A (ja) * | 1997-09-10 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音響モデル生成装置及び音声認識装置 |
JP2000259645A (ja) * | 1999-03-05 | 2000-09-22 | Fuji Xerox Co Ltd | 音声処理装置及び音声データ検索装置 |
JP2002278579A (ja) * | 2001-03-16 | 2002-09-27 | Ricoh Co Ltd | 音声データ検索装置 |
JP2003219327A (ja) * | 2001-09-28 | 2003-07-31 | Canon Inc | 画像管理装置、画像管理方法、制御プログラム、情報処理システム、画像データ管理方法、アダプタ、及びサーバ |
JP2004302175A (ja) * | 2003-03-31 | 2004-10-28 | Fuji Television Network Inc | 音声認識システム、音声認識方法及び音声認識プログラム |
JP2006040150A (ja) * | 2004-07-29 | 2006-02-09 | Mitsubishi Electric Corp | 音声データ検索装置 |
-
2005
- 2005-03-07 JP JP2005063149A patent/JP4738847B2/ja not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63239499A (ja) * | 1987-03-27 | 1988-10-05 | 株式会社東芝 | 単語音声入力装置 |
JPH08211893A (ja) * | 1994-12-08 | 1996-08-20 | Toshiba Corp | 音声認識装置 |
JPH10173769A (ja) * | 1996-12-13 | 1998-06-26 | Matsushita Electric Ind Co Ltd | 音声メッセージ検索装置 |
JPH1185187A (ja) * | 1997-09-10 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音響モデル生成装置及び音声認識装置 |
JP2000259645A (ja) * | 1999-03-05 | 2000-09-22 | Fuji Xerox Co Ltd | 音声処理装置及び音声データ検索装置 |
JP2002278579A (ja) * | 2001-03-16 | 2002-09-27 | Ricoh Co Ltd | 音声データ検索装置 |
JP2003219327A (ja) * | 2001-09-28 | 2003-07-31 | Canon Inc | 画像管理装置、画像管理方法、制御プログラム、情報処理システム、画像データ管理方法、アダプタ、及びサーバ |
JP2004302175A (ja) * | 2003-03-31 | 2004-10-28 | Fuji Television Network Inc | 音声認識システム、音声認識方法及び音声認識プログラム |
JP2006040150A (ja) * | 2004-07-29 | 2006-02-09 | Mitsubishi Electric Corp | 音声データ検索装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008164975A (ja) * | 2006-12-28 | 2008-07-17 | Nissan Motor Co Ltd | 音声認識装置、および音声認識方法 |
WO2009028647A1 (ja) * | 2007-08-31 | 2009-03-05 | National Institute Of Information And Communications Technology | 非対話型学習装置及び対話型学習装置 |
US8868410B2 (en) | 2007-08-31 | 2014-10-21 | National Institute Of Information And Communications Technology | Non-dialogue-based and dialogue-based learning apparatus by substituting for uttered words undefined in a dictionary with word-graphs comprising of words defined in the dictionary |
JP2010146532A (ja) * | 2008-12-16 | 2010-07-01 | Yahoo Japan Corp | 音声検索装置、音声検索方法及び音声検索プログラム |
JP2010267012A (ja) * | 2009-05-13 | 2010-11-25 | Hitachi Ltd | 音声データ検索システム及び音声データ検索方法 |
JP2011070192A (ja) * | 2009-09-22 | 2011-04-07 | Ricoh Co Ltd | 音声検索装置及び音声検索方法 |
JP2012118918A (ja) * | 2010-12-03 | 2012-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システム、情報検索方法、情報検索プログラム |
WO2013154010A1 (ja) * | 2012-04-09 | 2013-10-17 | クラリオン株式会社 | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
US9524718B2 (en) | 2012-04-09 | 2016-12-20 | Clarion Co., Ltd. | Speech recognition server integration device that is an intermediate module to relay between a terminal module and speech recognition server and speech recognition server integration method |
CN113468368A (zh) * | 2020-04-28 | 2021-10-01 | 海信集团有限公司 | 一种语音记事方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4738847B2 (ja) | 2011-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7177795B1 (en) | Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems | |
US8751235B2 (en) | Annotating phonemes and accents for text-to-speech system | |
US5949961A (en) | Word syllabification in speech synthesis system | |
JP5257071B2 (ja) | 類似度計算装置及び情報検索装置 | |
JP3848319B2 (ja) | 情報処理方法及び情報処理装置 | |
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
US7966173B2 (en) | System and method for diacritization of text | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
CN103123644A (zh) | 声音数据检索系统及用于该系统的程序 | |
JP4738847B2 (ja) | データ検索装置および方法 | |
JP6998017B2 (ja) | 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム | |
JP4587165B2 (ja) | 情報処理装置及びその制御方法 | |
JP2008186376A (ja) | 音声出力装置及び音声出力プログラム | |
JP2019159118A (ja) | 出力プログラム、情報処理装置及び出力制御方法 | |
JP2000259645A (ja) | 音声処理装置及び音声データ検索装置 | |
JPH10269204A (ja) | 中国語文書自動校正方法及びその装置 | |
JP2011007862A (ja) | 音声認識装置、音声認識プログラム、および音声認識方法 | |
JP2000172289A (ja) | 自然言語処理方法,自然言語処理用記録媒体および音声合成装置 | |
JP2011014021A (ja) | 文字情報提示制御装置及びプログラム | |
Tits | MUST&P-SRL: Multi-lingual and Unified Syllabification in Text and Phonetic Domains for Speech Representation Learning | |
JP2004294542A (ja) | 音声認識装置及びそのプログラム | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
JP3758241B2 (ja) | 音声情報検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080219 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100806 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100917 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110425 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110427 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |