JPH10173769A - 音声メッセージ検索装置 - Google Patents
音声メッセージ検索装置Info
- Publication number
- JPH10173769A JPH10173769A JP8333309A JP33330996A JPH10173769A JP H10173769 A JPH10173769 A JP H10173769A JP 8333309 A JP8333309 A JP 8333309A JP 33330996 A JP33330996 A JP 33330996A JP H10173769 A JPH10173769 A JP H10173769A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- keyword
- voice message
- search
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Telephonic Communication Services (AREA)
Abstract
(57)【要約】
【課題】 音声メール蓄積装置などにおいて、蓄積され
た未分類の音声メッセージは内容検索ができないため、
ユーザーは知りたい情報を得るためにそれらを順に全文
再生する必要があり、その作業に非常に時間を要してい
た。 【解決手段】 装置が受け取った音声メッセージは時系
列のラベルをつけて音声メッセージ記憶部3に蓄積し、
ユーザーが検索したいキーワードをキー入力部4で入力
すると、装置はそれを不特定話者の音声認識モデルに変
換し、音声認識処理部5に送り、音声認識処理部5では
蓄積された音声メッセージを対象に音声認識モデルを用
いてワードスポッティングの音声認識処理を行い、キー
ワードを含む音声メッセージとその該当部分を制御部1
に通知し、制御部1はキーワードとその前後数秒の部分
を再生し、さらにユーザーの指定により音声メッセージ
の全文を再生する音声メッセージ検索装置とする。
た未分類の音声メッセージは内容検索ができないため、
ユーザーは知りたい情報を得るためにそれらを順に全文
再生する必要があり、その作業に非常に時間を要してい
た。 【解決手段】 装置が受け取った音声メッセージは時系
列のラベルをつけて音声メッセージ記憶部3に蓄積し、
ユーザーが検索したいキーワードをキー入力部4で入力
すると、装置はそれを不特定話者の音声認識モデルに変
換し、音声認識処理部5に送り、音声認識処理部5では
蓄積された音声メッセージを対象に音声認識モデルを用
いてワードスポッティングの音声認識処理を行い、キー
ワードを含む音声メッセージとその該当部分を制御部1
に通知し、制御部1はキーワードとその前後数秒の部分
を再生し、さらにユーザーの指定により音声メッセージ
の全文を再生する音声メッセージ検索装置とする。
Description
【0001】
【発明の属する技術分野】本発明は、音声メールの蓄積
装置や、留守番電話機などにおいて、受信した音声メッ
セージを蓄積し、ユーザーの指定によりそれらを検索す
る機能を有する音声メッセージ検索装置に関する。
装置や、留守番電話機などにおいて、受信した音声メッ
セージを蓄積し、ユーザーの指定によりそれらを検索す
る機能を有する音声メッセージ検索装置に関する。
【0002】
【従来の技術】一般に音声メールの蓄積装置や留守番電
話機など、音声によるメッセージを蓄積・再生する装置
では、受け取ったメッセージを時間順に記憶し、ユーザ
ーの指示で順番に再生する機能を有している。また、ユ
ーザーはメッセージに手動でラベルを付加してキーワー
ド別に分類することにより、それらを検索することがで
きる。
話機など、音声によるメッセージを蓄積・再生する装置
では、受け取ったメッセージを時間順に記憶し、ユーザ
ーの指示で順番に再生する機能を有している。また、ユ
ーザーはメッセージに手動でラベルを付加してキーワー
ド別に分類することにより、それらを検索することがで
きる。
【0003】
【発明が解決しようとする課題】ところで、前記の音声
によるメッセージを蓄積・再生する装置では、装置に蓄
積された未分類の音声メッセージは内容検索ができない
ため、ユーザーは知りたい情報を得るためにそれらを順
に全文再生する必要があり、その作業はメッセージ件数
が多いほど非常に時間がかかっていた。また、特定のキ
ーワードを発声内容として含む音声メッセージが分類さ
れ、その内容を再生して確認する際、キーワードの周辺
を聞くだけで内容が分かる場合でもメッセージの全文が
再生されるため、時間が余分にかかっていた。
によるメッセージを蓄積・再生する装置では、装置に蓄
積された未分類の音声メッセージは内容検索ができない
ため、ユーザーは知りたい情報を得るためにそれらを順
に全文再生する必要があり、その作業はメッセージ件数
が多いほど非常に時間がかかっていた。また、特定のキ
ーワードを発声内容として含む音声メッセージが分類さ
れ、その内容を再生して確認する際、キーワードの周辺
を聞くだけで内容が分かる場合でもメッセージの全文が
再生されるため、時間が余分にかかっていた。
【0004】本発明は前記従来の問題に留意し、音声デ
ータの迅速な内容検索を可能とする音声メッセージ検索
装置を提供することを目的とする。
ータの迅速な内容検索を可能とする音声メッセージ検索
装置を提供することを目的とする。
【0005】
【課題を解決するための手段】前記目的を達成するた
め、本発明は、ユーザーが音声メッセージの検索キーワ
ードを入力するためのキー入力部と、キーワードの文字
列を不特定話者の音素パターンの連鎖に変換するために
参照する不特定話者の音素パターン記憶部と、音声メッ
セージに対してキーワードスポッティング音声認識を行
う音声認識処理部と、音声信号のA/D変換およびD/
A変換処理を行うA/D・D/A変換部と、検索結果を
音声として再生する音声出力部とを備えた音声メッセー
ジ検索装置としたものである。
め、本発明は、ユーザーが音声メッセージの検索キーワ
ードを入力するためのキー入力部と、キーワードの文字
列を不特定話者の音素パターンの連鎖に変換するために
参照する不特定話者の音素パターン記憶部と、音声メッ
セージに対してキーワードスポッティング音声認識を行
う音声認識処理部と、音声信号のA/D変換およびD/
A変換処理を行うA/D・D/A変換部と、検索結果を
音声として再生する音声出力部とを備えた音声メッセー
ジ検索装置としたものである。
【0006】本発明によれば、音声データの迅速な内容
検索を可能とする音声メッセージ検索装置とすることが
できる。
検索を可能とする音声メッセージ検索装置とすることが
できる。
【0007】
【発明の実施の形態】本発明の請求項1に記載の発明
は、音声によるメッセージを蓄積する手段と、検索手段
を有し、全体の処理を制御する制御部と、外部の電話回
線、構内回線と装置を接続する回線接続部と、ユーザー
が音声メッセージの検索キーワードを入力するためのキ
ー入力部と、キーワードの文字列を不特定話者の音素パ
ターンの連鎖に変換するために参照する不特定話者の音
素パターン記憶部と、音声メッセージに対してキーワー
ドスポッティング音声認識を行う音声認識処理部と、音
声信号のA/D変換およびD/A変換処理を行うA/D
・D/A変換部と、検索結果を音声として再生する音声
出力部とを備えた音声メッセージ検索装置であり、発声
内容にキーワードを含む音声メッセージを検索すること
を可能とし、また、メッセージの全文を聞かなくても内
容の確認を可能にし、確認に要する時間を短縮させると
いう作用を有する。
は、音声によるメッセージを蓄積する手段と、検索手段
を有し、全体の処理を制御する制御部と、外部の電話回
線、構内回線と装置を接続する回線接続部と、ユーザー
が音声メッセージの検索キーワードを入力するためのキ
ー入力部と、キーワードの文字列を不特定話者の音素パ
ターンの連鎖に変換するために参照する不特定話者の音
素パターン記憶部と、音声メッセージに対してキーワー
ドスポッティング音声認識を行う音声認識処理部と、音
声信号のA/D変換およびD/A変換処理を行うA/D
・D/A変換部と、検索結果を音声として再生する音声
出力部とを備えた音声メッセージ検索装置であり、発声
内容にキーワードを含む音声メッセージを検索すること
を可能とし、また、メッセージの全文を聞かなくても内
容の確認を可能にし、確認に要する時間を短縮させると
いう作用を有する。
【0008】なお、ここでワードスポッティングとは、
音声パターンに対して区間を限定せずに標準パターンと
の参照を行い、一致尤度が高い部分を探すことにより、
目的の単語を検出する認識方式である。
音声パターンに対して区間を限定せずに標準パターンと
の参照を行い、一致尤度が高い部分を探すことにより、
目的の単語を検出する認識方式である。
【0009】本発明の請求項2に記載の発明は、請求項
1記載の音声メッセージ検索装置に、ユーザーが検索キ
ーワードを音声で入力するための音声入力部と、発声さ
れたキーワードを特定話者の音素列に変換するために参
照される特定話者の音素パターン記憶部を加え備えた音
声メッセージ検索装置であり、キーワードをユーザーが
発声して音声メッセージを検索でき、特定話者の音素認
識により、検索キーワードを高い精度で音声入力するこ
とができるという作用を有する。
1記載の音声メッセージ検索装置に、ユーザーが検索キ
ーワードを音声で入力するための音声入力部と、発声さ
れたキーワードを特定話者の音素列に変換するために参
照される特定話者の音素パターン記憶部を加え備えた音
声メッセージ検索装置であり、キーワードをユーザーが
発声して音声メッセージを検索でき、特定話者の音素認
識により、検索キーワードを高い精度で音声入力するこ
とができるという作用を有する。
【0010】本発明の請求項3に記載の発明は、請求項
1記載の音声メッセージ検索装置に、検索キーワードの
音声を入力するための音声入力部と、不特定多数のユー
ザーに発声されたキーワードを単語認識処理により単語
標準パターンに変換するために参照される不特定話者の
単語標準パターン記憶部を加え備えた音声メッセージ検
索装置であり、検索キーワードの入力において、キーワ
ードを不特定多数のユーザーが発声し、それを不特定話
者の単語標準パターンを用いて認識することにより、特
定のユーザーに限らず音声検索機能を利用することを可
能とするという作用を有する。
1記載の音声メッセージ検索装置に、検索キーワードの
音声を入力するための音声入力部と、不特定多数のユー
ザーに発声されたキーワードを単語認識処理により単語
標準パターンに変換するために参照される不特定話者の
単語標準パターン記憶部を加え備えた音声メッセージ検
索装置であり、検索キーワードの入力において、キーワ
ードを不特定多数のユーザーが発声し、それを不特定話
者の単語標準パターンを用いて認識することにより、特
定のユーザーに限らず音声検索機能を利用することを可
能とするという作用を有する。
【0011】本発明の請求項4に記載の発明は、請求項
1記載の音声メッセージ検索装置に、検索キーワードの
音声を入力するための音声入力部と、不特定多数のユー
ザーが一音ずつ区切って発声したキーワードを単音節認
識処理するために参照される不特定話者の単音節標準パ
ターン記憶部を加え備えた音声メッセージ検索装置であ
り、検索キーワードの入力において、キーワードを不特
定多数のユーザーが発声し、それを不特定話者の単語標
準パターンを用いて認識するので、特定のユーザーに限
らず音声検索機能を利用することを可能とする作用を有
する。
1記載の音声メッセージ検索装置に、検索キーワードの
音声を入力するための音声入力部と、不特定多数のユー
ザーが一音ずつ区切って発声したキーワードを単音節認
識処理するために参照される不特定話者の単音節標準パ
ターン記憶部を加え備えた音声メッセージ検索装置であ
り、検索キーワードの入力において、キーワードを不特
定多数のユーザーが発声し、それを不特定話者の単語標
準パターンを用いて認識するので、特定のユーザーに限
らず音声検索機能を利用することを可能とする作用を有
する。
【0012】以下、本発明の音声メッセージ検索装置の
実施の形態を図面を参照して説明する。
実施の形態を図面を参照して説明する。
【0013】(実施の形態1)図1は本発明の実施の形
態1の音声メッセージ検索装置の構成を示すブロック
図、図2は同音声メッセージ検索装置における音声認識
装置の回路ブロック図、図3は同音声メッセージ検索装
置の動作を示すフローチャートである。
態1の音声メッセージ検索装置の構成を示すブロック
図、図2は同音声メッセージ検索装置における音声認識
装置の回路ブロック図、図3は同音声メッセージ検索装
置の動作を示すフローチャートである。
【0014】図1の音声メッセージ検索装置の構成ブロ
ック図において、構成要素として1は制御部、2は回線
接続部、3は音声メッセージ記憶部、4はキー入力部、
5は音声認識処理部、6は不特定話者の音素パターン記
憶部、7はA/D・D/A変換部、8は音声出力部であ
る。
ック図において、構成要素として1は制御部、2は回線
接続部、3は音声メッセージ記憶部、4はキー入力部、
5は音声認識処理部、6は不特定話者の音素パターン記
憶部、7はA/D・D/A変換部、8は音声出力部であ
る。
【0015】また、図2の音声認識装置の回路ブロック
図において、構成要素として21はキーボード、22は
スピーカー、23はマイク、24は中央処理装置(CP
U)、25は書き込み可能メモリ(RAM)、26は読
みだし専用メモリ(ROM)である。
図において、構成要素として21はキーボード、22は
スピーカー、23はマイク、24は中央処理装置(CP
U)、25は書き込み可能メモリ(RAM)、26は読
みだし専用メモリ(ROM)である。
【0016】前記構成要素において、キー入力部4はキ
ーボード21により、音声入力部9はマイク23によ
り、音声出力部8はスピーカー22により、音声メッセ
ージ記憶部3はRAM25により、不特定話者の音素パ
ターン記憶部6はROM26によりそれぞれ実行され、
また、制御部1と音声認識処理部5とA/D・D/A変
換部7はCPU24がROM26に書かれたプログラム
を実行し、RAM25にアクセスすることにより実行さ
れる。
ーボード21により、音声入力部9はマイク23によ
り、音声出力部8はスピーカー22により、音声メッセ
ージ記憶部3はRAM25により、不特定話者の音素パ
ターン記憶部6はROM26によりそれぞれ実行され、
また、制御部1と音声認識処理部5とA/D・D/A変
換部7はCPU24がROM26に書かれたプログラム
を実行し、RAM25にアクセスすることにより実行さ
れる。
【0017】上記の各構成要素よりなる音声メッセージ
検索装置について、その動作を図3のフローチャートに
従い説明する。なお、装置が受け取った音声メッセージ
は、時系列順にラベルをつけて音声メッセージ記憶部3
に格納されているものとする。
検索装置について、その動作を図3のフローチャートに
従い説明する。なお、装置が受け取った音声メッセージ
は、時系列順にラベルをつけて音声メッセージ記憶部3
に格納されているものとする。
【0018】step1では、ユーザーが検索したいキ
ーワードをキーボード21で入力する。入力は直接、あ
るいはネットワークを経由して行われる。
ーワードをキーボード21で入力する。入力は直接、あ
るいはネットワークを経由して行われる。
【0019】step2では、不特定話者の音素パター
ン記憶部6に格納されている不特定話者の音素パターン
を参照してキーワードの文字列を不特定話者の音声認識
パターンに規則合成する。
ン記憶部6に格納されている不特定話者の音素パターン
を参照してキーワードの文字列を不特定話者の音声認識
パターンに規則合成する。
【0020】step3では、音声認識処理部5は合成
された音声認識パターンを受け取り、蓄積されている音
声メッセージを音声メッセージ記憶部3からロードして
順にワードスポッティングの音声処理を行う。認識尤度
は結果判定部に送られ、メッセージ中でキーワードを抽
出したと判断された箇所がメモリーに記録される。
された音声認識パターンを受け取り、蓄積されている音
声メッセージを音声メッセージ記憶部3からロードして
順にワードスポッティングの音声処理を行う。認識尤度
は結果判定部に送られ、メッセージ中でキーワードを抽
出したと判断された箇所がメモリーに記録される。
【0021】step4では、メモリーを参照し、キー
ワードが検出されたメッセージの該当箇所がヒット順に
音声としてスピーカー22から再生される。または、ネ
ットワーク経由で音声データが送られ、ユーザーの端末
に接続されたスピーカーから再生される。再生範囲はキ
ーワードを含む前後数秒、または、音声パワーの計算に
より発声の区切りを疑似的に求めた文章単位とする。
ワードが検出されたメッセージの該当箇所がヒット順に
音声としてスピーカー22から再生される。または、ネ
ットワーク経由で音声データが送られ、ユーザーの端末
に接続されたスピーカーから再生される。再生範囲はキ
ーワードを含む前後数秒、または、音声パワーの計算に
より発声の区切りを疑似的に求めた文章単位とする。
【0022】step5では、ユーザーが再生された音
声を聞いてメッセージの全文を聞くか否かを判断する。
したがって、一部を聞くだけで内容が分かった場合は全
文を聞かずに済むことができる。また、キーワードを含
まないメッセージが誤認識によってヒットした場合も、
その部分を聞くことにより事前に判定できるので、目的
と異なるメッセージが全文再生されることを避けること
ができる。
声を聞いてメッセージの全文を聞くか否かを判断する。
したがって、一部を聞くだけで内容が分かった場合は全
文を聞かずに済むことができる。また、キーワードを含
まないメッセージが誤認識によってヒットした場合も、
その部分を聞くことにより事前に判定できるので、目的
と異なるメッセージが全文再生されることを避けること
ができる。
【0023】step6では、ユーザーが指定した場合
のみ、メッセージの全文を再生する。
のみ、メッセージの全文を再生する。
【0024】step7では、検索対象の全メッセージ
について、step3〜step6を繰り返す。
について、step3〜step6を繰り返す。
【0025】このように、この実施の形態1では、ユー
ザーが検索キーワードをキーボードより入力し、その文
字列を不特定話者の音素標準パターンの連鎖に変換し、
蓄積された音声メッセージに対して不特定話者のワード
スポッティングの音声認識処理を行うことにより、発声
内容にキーワードを含む音声メッセージを検索すること
を可能とし、また、メッセージ中でキーワードが検出さ
れた場合、その前後数秒、あるいは音声パワーにより求
めた文章単位のみを再生することにより、メッセージの
全文を聞かなくても内容の確認を可能にし、確認に要す
る時間を短縮させることができる。
ザーが検索キーワードをキーボードより入力し、その文
字列を不特定話者の音素標準パターンの連鎖に変換し、
蓄積された音声メッセージに対して不特定話者のワード
スポッティングの音声認識処理を行うことにより、発声
内容にキーワードを含む音声メッセージを検索すること
を可能とし、また、メッセージ中でキーワードが検出さ
れた場合、その前後数秒、あるいは音声パワーにより求
めた文章単位のみを再生することにより、メッセージの
全文を聞かなくても内容の確認を可能にし、確認に要す
る時間を短縮させることができる。
【0026】(実施の形態2)図4は本発明の実施の形
態2の音声メッセージ検索装置の構成を示すブロック
図、図5は同音声メッセージ検索装置の動作を示すフロ
ーチャートである。
態2の音声メッセージ検索装置の構成を示すブロック
図、図5は同音声メッセージ検索装置の動作を示すフロ
ーチャートである。
【0027】図4の音声メッセージ検索装置の構成ブロ
ック図において、符号1から8までの各構成要素は前述
の実施の形態1と同一であり、かつ、同様に構成されて
いる。
ック図において、符号1から8までの各構成要素は前述
の実施の形態1と同一であり、かつ、同様に構成されて
いる。
【0028】この実施の形態2の特徴は、前述の実施の
形態1の構成に、音声入力部9と、特定話者の音素パタ
ーン記憶部10を加え備えたことにある。
形態1の構成に、音声入力部9と、特定話者の音素パタ
ーン記憶部10を加え備えたことにある。
【0029】なお、前述の図2の音声メッセージ検索装
置における音声認識装置の回路ブロック図は説明に共用
するが、ここではROM26が特定話者の音素パターン
記憶部10を実行する。
置における音声認識装置の回路ブロック図は説明に共用
するが、ここではROM26が特定話者の音素パターン
記憶部10を実行する。
【0030】上記の各構成要素よりなる音声メッセージ
検索装置について、その動作を図5のフローチャートに
従い説明する。この実施の形態2の音声メッセージ検索
装置では、前述の実施の形態1のstep1の代わりに
次の処理を行う。
検索装置について、その動作を図5のフローチャートに
従い説明する。この実施の形態2の音声メッセージ検索
装置では、前述の実施の形態1のstep1の代わりに
次の処理を行う。
【0031】step1では、ユーザーが検索したいキ
ーワードを音声入力手段に発声する。発声は装置に直
接、あるいは外部から電話回線を通してなされる。音声
信号はA/D・D/A変換部7によりデジタル信号に変
換される。
ーワードを音声入力手段に発声する。発声は装置に直
接、あるいは外部から電話回線を通してなされる。音声
信号はA/D・D/A変換部7によりデジタル信号に変
換される。
【0032】step2では、音声信号を音声認識処理
部5に転送し、特定話者の音素パターン記憶部10を参
照して特定話者の音素認識処理を行う。音素パターンは
前処理としてユーザーの発声を音響的セグメンテーショ
ンすることにより得られる。
部5に転送し、特定話者の音素パターン記憶部10を参
照して特定話者の音素認識処理を行う。音素パターンは
前処理としてユーザーの発声を音響的セグメンテーショ
ンすることにより得られる。
【0033】音響的セグメンテーションの方法として
は、発声内容が既知の音声データに対して、次式で定義
されるフレーム時刻ij間のセグメント内距離D(i
j)の総和のフレーム平均が予め定められた歪みより小
さくなるようセグメント境界を求める。
は、発声内容が既知の音声データに対して、次式で定義
されるフレーム時刻ij間のセグメント内距離D(i
j)の総和のフレーム平均が予め定められた歪みより小
さくなるようセグメント境界を求める。
【0034】
【数1】
【0035】ここで、χm は特徴ベクトル、χ′m はフ
レーム時刻iからjの間の平均軌跡ベクトルである。求
められたセグメントの平均ベクトルと分散は発声内容の
音素配列と対応して記録される。対応関係が不明な場合
は過去に蓄積された音素データを用いてダイナミックプ
ログラミングにより推定し、補間していく。
レーム時刻iからjの間の平均軌跡ベクトルである。求
められたセグメントの平均ベクトルと分散は発声内容の
音素配列と対応して記録される。対応関係が不明な場合
は過去に蓄積された音素データを用いてダイナミックプ
ログラミングにより推定し、補間していく。
【0036】特定話者の音素パターンを得る別の方法と
しては、発声内容が既知の音声内容が既知の音声データ
に対して、不特定話者の音素パターンを用いてマッチン
グを行い、各音素に対応する区間の特徴ベクトルを教師
信号として適応化処理を行う方法がある。また、教師信
号を得なくても、対象話者の音声の認識とその認識結果
を教師とした話者適応を交互に繰り返すことにより、音
素パターンを徐々に話者に適応化させる方法も考えられ
る。
しては、発声内容が既知の音声内容が既知の音声データ
に対して、不特定話者の音素パターンを用いてマッチン
グを行い、各音素に対応する区間の特徴ベクトルを教師
信号として適応化処理を行う方法がある。また、教師信
号を得なくても、対象話者の音声の認識とその認識結果
を教師とした話者適応を交互に繰り返すことにより、音
素パターンを徐々に話者に適応化させる方法も考えられ
る。
【0037】step3では、認識結果の音素列を音声
信号に変換して再生し、認識結果が正しいことをユーザ
ーが確認した上でキーワードの文字列を制御部に渡す。
信号に変換して再生し、認識結果が正しいことをユーザ
ーが確認した上でキーワードの文字列を制御部に渡す。
【0038】このように実施の形態2では、検索キーワ
ードの入力において、キーワードをユーザーが発声し、
それを特定話者の音素パターンを用いて音声認識処理を
行い、さらに認識結果を不特定話者の音素標準パターン
の連鎖に変換し、それを用いて音声メッセージを検索す
る。特定話者の音素認識により、検索キーワードを高い
精度で音声入力することができる。また、任意のキーワ
ードを用いることができるという作用を有する。
ードの入力において、キーワードをユーザーが発声し、
それを特定話者の音素パターンを用いて音声認識処理を
行い、さらに認識結果を不特定話者の音素標準パターン
の連鎖に変換し、それを用いて音声メッセージを検索す
る。特定話者の音素認識により、検索キーワードを高い
精度で音声入力することができる。また、任意のキーワ
ードを用いることができるという作用を有する。
【0039】なお、特定話者の音素パターンは、ユーザ
ーが発声した音声をA/D変換し、自動セグメンテーシ
ョン(音素のラベル付け)して音素パターンを切り出す
か、不特定話者の音素パターンをユーザーの音声特徴に
適応化することにより作成しておく。
ーが発声した音声をA/D変換し、自動セグメンテーシ
ョン(音素のラベル付け)して音素パターンを切り出す
か、不特定話者の音素パターンをユーザーの音声特徴に
適応化することにより作成しておく。
【0040】(実施の形態3)図6は本発明の実施の形
態3の音声メッセージ検索装置の構成を示すブロック
図、図7は同音声メッセージ検索装置の動作を示すフロ
ーチャートである。
態3の音声メッセージ検索装置の構成を示すブロック
図、図7は同音声メッセージ検索装置の動作を示すフロ
ーチャートである。
【0041】図6の音声メッセージ検索装置の構成ブロ
ック図において、符号1から8までの各構成要素は前述
の実施の形態1と同一であり、かつ、同様に構成されて
いる。
ック図において、符号1から8までの各構成要素は前述
の実施の形態1と同一であり、かつ、同様に構成されて
いる。
【0042】この実施の形態3の特徴は、前述の実施の
形態1の構成に、音声入力部9と、不特定話者の単語音
声パターン記憶部11を加え備えたことにある。
形態1の構成に、音声入力部9と、不特定話者の単語音
声パターン記憶部11を加え備えたことにある。
【0043】なお、前述の図2の音声メッセージ検索装
置における音声認識装置の回路ブロック図は説明に共用
するが、ここではROM26が不特定話者の単語音声パ
ターン記憶部11を実行する。
置における音声認識装置の回路ブロック図は説明に共用
するが、ここではROM26が不特定話者の単語音声パ
ターン記憶部11を実行する。
【0044】上記の各構成要素よりなる音声メッセージ
検索装置について、その動作を図7のフローチャートに
従い説明する。この実施の形態3の音声メッセージ検索
装置では、前述の実施の形態1のstep1およびst
ep2の代わりに次の処理を行う。
検索装置について、その動作を図7のフローチャートに
従い説明する。この実施の形態3の音声メッセージ検索
装置では、前述の実施の形態1のstep1およびst
ep2の代わりに次の処理を行う。
【0045】step1では、ユーザーが検索したいキ
ーワードを音声入力手段に発声する。発声は装置に直
接、あるいは外部から電話回線を通してなされる。音声
信号はA/D・D/A変換部7によりデジタフル信号に
変換される。
ーワードを音声入力手段に発声する。発声は装置に直
接、あるいは外部から電話回線を通してなされる。音声
信号はA/D・D/A変換部7によりデジタフル信号に
変換される。
【0046】step1およびstep2では、音声信
号を音声認識処理部5に転送し、不特定話者の単語音声
パターン記憶部11を参照して不特定話者の単語認識処
理を行う。認識単位は単語、および単語の連結とする。
たとえば、「企画」と「会議」の単語音声パターンがあ
る場合、「企画会議」もキーワードとして認識できる。
号を音声認識処理部5に転送し、不特定話者の単語音声
パターン記憶部11を参照して不特定話者の単語認識処
理を行う。認識単位は単語、および単語の連結とする。
たとえば、「企画」と「会議」の単語音声パターンがあ
る場合、「企画会議」もキーワードとして認識できる。
【0047】step3では、認識結果を音声信号で再
生し、結果が正しいか否かをユーザーが確認する。
生し、結果が正しいか否かをユーザーが確認する。
【0048】step4では、キーワードとして認識さ
れた不特定話者の単語音声パターンをそのまま制御部1
に渡し、音声メッセージの検索に用いる。
れた不特定話者の単語音声パターンをそのまま制御部1
に渡し、音声メッセージの検索に用いる。
【0049】キーワード入力時の認識処理および音声メ
ッセージのワードスポッティング認識処理の精度を音素
パターンの場合よりも高くすることができる。
ッセージのワードスポッティング認識処理の精度を音素
パターンの場合よりも高くすることができる。
【0050】このように実施の形態3では、検索キーワ
ードの入力において、キーワードを不特定多数のユーザ
ーが発声し、それを不特定話者の単語標準パターンを用
いて認識することにより、特定のユーザーに限らず音声
検索機能を利用することを可能とする。単語標準パター
ンは単独、またはそれらの連鎖で用いることにより、認
識可能な語彙を増やす。認識されたキーワードの単語標
準パターンは、そのまま音声メッセージのワードスポッ
ティング認識処理に用いることができる。単語パターン
の使用により、キーワード入力時の認識処理および音声
メッセージのワードスポッティング認識処理の精度を音
素パターンの場合よりも高くすることができる。
ードの入力において、キーワードを不特定多数のユーザ
ーが発声し、それを不特定話者の単語標準パターンを用
いて認識することにより、特定のユーザーに限らず音声
検索機能を利用することを可能とする。単語標準パター
ンは単独、またはそれらの連鎖で用いることにより、認
識可能な語彙を増やす。認識されたキーワードの単語標
準パターンは、そのまま音声メッセージのワードスポッ
ティング認識処理に用いることができる。単語パターン
の使用により、キーワード入力時の認識処理および音声
メッセージのワードスポッティング認識処理の精度を音
素パターンの場合よりも高くすることができる。
【0051】(実施の形態4)図8は本発明の実施の形
態4の音声メッセージ検索装置の構成を示すブロック
図、図9は同音声メッセージ検索装置の動作を示すフロ
ーチャートである。
態4の音声メッセージ検索装置の構成を示すブロック
図、図9は同音声メッセージ検索装置の動作を示すフロ
ーチャートである。
【0052】図8の音声メッセージ検索装置の構成ブロ
ック図において、符号1から8までの各構成要素は前述
の実施の形態1と同一であり、かつ、同様に構成されて
いる。
ック図において、符号1から8までの各構成要素は前述
の実施の形態1と同一であり、かつ、同様に構成されて
いる。
【0053】この実施の形態4の特徴は、前述の実施の
形態1の構成に、音声入力部9と、不特定話者の単音節
標準パターン記憶部12を加え備えたことにある。
形態1の構成に、音声入力部9と、不特定話者の単音節
標準パターン記憶部12を加え備えたことにある。
【0054】なお、前述の図2の音声メッセージ検索装
置における音声認識装置の回路ブロック図は説明に共用
するが、ここではROM26が不特定話者の単音節標準
パターン記憶部12を実行する。
置における音声認識装置の回路ブロック図は説明に共用
するが、ここではROM26が不特定話者の単音節標準
パターン記憶部12を実行する。
【0055】上記の各構成要素よりなる音声メッセージ
検索装置について、その動作を図7のフローチャートに
従い説明する。この実施の形態4の音声メッセージ検索
装置では、前述の実施の形態1のstep1およびst
ep2の代わりに次の処理を行う。
検索装置について、その動作を図7のフローチャートに
従い説明する。この実施の形態4の音声メッセージ検索
装置では、前述の実施の形態1のstep1およびst
ep2の代わりに次の処理を行う。
【0056】step1では、ユーザーが検索したいキ
ーワードを音節ごとに区切って発声する。発声は装置に
直接、あるいは外部から電話回線を通してなされる。音
声信号はA/D・D/A変換部7によりデジタル信号に
変換される。
ーワードを音節ごとに区切って発声する。発声は装置に
直接、あるいは外部から電話回線を通してなされる。音
声信号はA/D・D/A変換部7によりデジタル信号に
変換される。
【0057】step2では、音声信号を音声認識処理
部5に転送し、不特定話者の単音節標準パターン記憶部
12を参照して単音節の認識処理を行う。
部5に転送し、不特定話者の単音節標準パターン記憶部
12を参照して単音節の認識処理を行う。
【0058】step3では、認識結果の単音節をその
都度、音声信号で再生し、結果が正しいか否かをユーザ
ーが確認する。
都度、音声信号で再生し、結果が正しいか否かをユーザ
ーが確認する。
【0059】step4では、キーワードとして認識さ
れた不特定話者の単音節パターンをそのまま連結して単
語標準パターンを作り、制御部1に渡し、音声メッセー
ジの検索に用いる。
れた不特定話者の単音節パターンをそのまま連結して単
語標準パターンを作り、制御部1に渡し、音声メッセー
ジの検索に用いる。
【0060】このように実施の形態4では、検索キーワ
ードの入力において、キーワードを不特定多数のユーザ
ーが発声し、それを不特定話者の単語標準パターンを用
いて認識することにより、特定のユーザーに限らず音声
検索機能を利用することを可能とする。認識されたキー
ワードの文字列は一定の規則により不特定話者の音素パ
ターンの連鎖に合成され、音声メッセージのワードスポ
ッティング認識処理に用いられる。不特定話者の単音節
標準パターンの使用により、特定のユーザーに限定され
ず、しかも任意の言葉を検索キーワードに指定すること
ができる。
ードの入力において、キーワードを不特定多数のユーザ
ーが発声し、それを不特定話者の単語標準パターンを用
いて認識することにより、特定のユーザーに限らず音声
検索機能を利用することを可能とする。認識されたキー
ワードの文字列は一定の規則により不特定話者の音素パ
ターンの連鎖に合成され、音声メッセージのワードスポ
ッティング認識処理に用いられる。不特定話者の単音節
標準パターンの使用により、特定のユーザーに限定され
ず、しかも任意の言葉を検索キーワードに指定すること
ができる。
【0061】
【発明の効果】前記の説明より明らかなように本発明
は、未分類の音声メッセージに対してキー入力によるキ
ーワードで検索を行い、検索結果を効率良く確認するこ
とができる。標準パターンとして音素の連鎖を用いるた
め、部分一致、完全一致などの条件を指定できる。ま
た、予めキーワードを指定し、メッセージ受信時に自動
的に分類保存することも可能である。
は、未分類の音声メッセージに対してキー入力によるキ
ーワードで検索を行い、検索結果を効率良く確認するこ
とができる。標準パターンとして音素の連鎖を用いるた
め、部分一致、完全一致などの条件を指定できる。ま
た、予めキーワードを指定し、メッセージ受信時に自動
的に分類保存することも可能である。
【0062】また、メッセージ中でキーワード付近のみ
を再生することにより、多くの場合は全文を聞かなくて
も内容が確認できるため、ヒットしたメッセージが多い
ときに再生時間を大幅に節約することができる。そし
て、誤認識でヒットした場合には、メッセージ全文を聞
く前にキャンセルすることができる。
を再生することにより、多くの場合は全文を聞かなくて
も内容が確認できるため、ヒットしたメッセージが多い
ときに再生時間を大幅に節約することができる。そし
て、誤認識でヒットした場合には、メッセージ全文を聞
く前にキャンセルすることができる。
【0063】また、検索キーワードの音声入力が可能に
なる。たとえば、ユーザーは外出先から電話をかけて音
声メッセージの検索を行うこともできる。また、キーワ
ードの認識に特定話者の音素パターンを用い、キーワー
ドの語彙に特定の制限がなく、かつ、認識精度の低下を
抑えることができる。
なる。たとえば、ユーザーは外出先から電話をかけて音
声メッセージの検索を行うこともできる。また、キーワ
ードの認識に特定話者の音素パターンを用い、キーワー
ドの語彙に特定の制限がなく、かつ、認識精度の低下を
抑えることができる。
【0064】また、キーワードの認識に、不特定話者の
単語単位の標準パターンあるいは単音節単位の標準パタ
ーンを使用することにより、特定のユーザーに限らず利
用することができる。
単語単位の標準パターンあるいは単音節単位の標準パタ
ーンを使用することにより、特定のユーザーに限らず利
用することができる。
【図1】本発明の実施の形態1の音声メッセージ検索装
置の構成を示すブロック図
置の構成を示すブロック図
【図2】同音声メッセージ検索装置における音声認識装
置の回路ブロック図
置の回路ブロック図
【図3】同音声メッセージ検索装置の動作を示すフロー
チャート
チャート
【図4】本発明の実施の形態2の音声メッセージ検索装
置の構成を示すブロック図
置の構成を示すブロック図
【図5】同音声メッセージ検索装置の動作を示すフロー
チャート
チャート
【図6】本発明の実施の形態3の音声メッセージ検索装
置の構成を示すブロック図
置の構成を示すブロック図
【図7】同音声メッセージ検索装置の動作を示すフロー
チャート
チャート
【図8】本発明の実施の形態4の音声メッセージ検索装
置の構成を示すブロック図
置の構成を示すブロック図
【図9】同音声メッセージ検索装置の動作を示すフロー
チャート
チャート
1 制御部 2 回線接続部 3 音声メッセージ記憶部 4 キー入力部 5 音声認識処理部 6 不特定話者の音素パターン記憶部 7 A/D・D/A変換部 8 音声出力部 9 音声入力部 10 特定話者の音素パターン記憶部 11 不特定話者の単語音声パターン記憶部 12 不特定話者の単音節標準パターン記憶部 21 キーボード 22 スピーカー 23 マイク 24 CPU 25 RAM 26 ROM
Claims (4)
- 【請求項1】音声によるメッセージを蓄積する手段と、
検索手段を有し、全体の処理を制御する制御部と、外部
の電話回線、構内回線と装置を接続する回線接続部と、
ユーザーが音声メッセージの検索キーワードを入力する
ためのキー入力部と、キーワードの文字列を不特定話者
の音素パターンの連鎖に変換するために参照する不特定
話者の音素パターン記憶部と、音声メッセージに対して
キーワードスポッティング音声認識を行う音声認識処理
部と、音声信号のA/D変換およびD/A変換処理を行
うA/D・D/A変換部と、検索結果を音声として再生
する音声出力部とを備えたことを特徴とする音声メッセ
ージ検索装置。 - 【請求項2】ユーザーが検索キーワードを音声で入力す
るための音声入力部と、発声されたキーワードを特定話
者の音素列に変換するために参照される特定話者の音素
パターン記憶部を加え備えた請求項1記載の音声メッセ
ージ検索装置。 - 【請求項3】検索キーワードの音声を入力するための音
声入力部と、不特定多数のユーザーに発声されたキーワ
ードを単語認識処理により単語標準パターンに変換する
ために参照される不特定話者の単語標準パターン記憶部
を加え備えた請求項1記載の音声メッセージ検索装置。 - 【請求項4】検索キーワードの音声を入力するための音
声入力部と、不特定多数のユーザーが一音ずつ区切って
発声したキーワードを単音節認識処理するために参照さ
れる不特定話者の単音節標準パターン記憶部を加え備え
た請求項1記載の音声メッセージ検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8333309A JPH10173769A (ja) | 1996-12-13 | 1996-12-13 | 音声メッセージ検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8333309A JPH10173769A (ja) | 1996-12-13 | 1996-12-13 | 音声メッセージ検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10173769A true JPH10173769A (ja) | 1998-06-26 |
Family
ID=18264668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8333309A Pending JPH10173769A (ja) | 1996-12-13 | 1996-12-13 | 音声メッセージ検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH10173769A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125583A (ja) * | 1999-10-27 | 2001-05-11 | Matsushita Electric Ind Co Ltd | 電子音楽データ検索試聴装置 |
JP2002175304A (ja) * | 1998-12-17 | 2002-06-21 | Matsushita Electric Ind Co Ltd | 映像検索装置及びその方法 |
JP2006507765A (ja) * | 2002-11-25 | 2006-03-02 | テレセクター リソーシーズ グループ インコーポレイテッド | 電話会議緩衝を行うための方法及び装置 |
JP2006243673A (ja) * | 2005-03-07 | 2006-09-14 | Canon Inc | データ検索装置および方法 |
JP2006267319A (ja) * | 2005-03-23 | 2006-10-05 | Nec Corp | 音声書き起こし支援装置及びその方法ならびに修正箇所決定装置 |
US8000963B2 (en) | 2004-12-17 | 2011-08-16 | Fujitsu Limited | Sound reproducing apparatus |
US8873730B2 (en) | 2001-02-27 | 2014-10-28 | Verizon Patent And Licensing Inc. | Method and apparatus for calendared communications flow control |
US9392120B2 (en) | 2002-02-27 | 2016-07-12 | Verizon Patent And Licensing Inc. | Methods and systems for call management with user intervention |
-
1996
- 1996-12-13 JP JP8333309A patent/JPH10173769A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002175304A (ja) * | 1998-12-17 | 2002-06-21 | Matsushita Electric Ind Co Ltd | 映像検索装置及びその方法 |
JP2001125583A (ja) * | 1999-10-27 | 2001-05-11 | Matsushita Electric Ind Co Ltd | 電子音楽データ検索試聴装置 |
US8873730B2 (en) | 2001-02-27 | 2014-10-28 | Verizon Patent And Licensing Inc. | Method and apparatus for calendared communications flow control |
US9392120B2 (en) | 2002-02-27 | 2016-07-12 | Verizon Patent And Licensing Inc. | Methods and systems for call management with user intervention |
JP2006507765A (ja) * | 2002-11-25 | 2006-03-02 | テレセクター リソーシーズ グループ インコーポレイテッド | 電話会議緩衝を行うための方法及び装置 |
US8000963B2 (en) | 2004-12-17 | 2011-08-16 | Fujitsu Limited | Sound reproducing apparatus |
JP2006243673A (ja) * | 2005-03-07 | 2006-09-14 | Canon Inc | データ検索装置および方法 |
JP2006267319A (ja) * | 2005-03-23 | 2006-10-05 | Nec Corp | 音声書き起こし支援装置及びその方法ならびに修正箇所決定装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12100396B2 (en) | Indicator for voice-based communications | |
US20230012984A1 (en) | Generation of automated message responses | |
US20230317074A1 (en) | Contextual voice user interface | |
US10074369B2 (en) | Voice-based communications | |
US10453449B2 (en) | Indicator for voice-based communications | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
US10917758B1 (en) | Voice-based messaging | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
JP4478939B2 (ja) | 音声処理装置およびそのためのコンピュータプログラム | |
US11798559B2 (en) | Voice-controlled communication requests and responses | |
JPWO2008114811A1 (ja) | 情報検索システム、情報検索方法及び情報検索用プログラム | |
JPH10507536A (ja) | 言語認識 | |
CN106710585B (zh) | 语音交互过程中的多音字播报方法及系统 | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
US8423354B2 (en) | Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method | |
EP3507796A1 (en) | Voice-based communications | |
JPH10173769A (ja) | 音声メッセージ検索装置 | |
CN109616116B (zh) | 通话系统及其通话方法 | |
CN111489742A (zh) | 声学模型训练方法、语音识别方法、装置及电子设备 | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
JP2008107641A (ja) | 音声データ検索装置 | |
JP2004272134A (ja) | 音声認識装置及びコンピュータプログラム | |
JPH11202890A (ja) | 音声検索装置 | |
JPH0792987A (ja) | 質問文内容構成方式 | |
JP2003108180A (ja) | 音声合成方法および音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20031212 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060221 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060620 |