JPH10173769A

JPH10173769A - 音声メッセージ検索装置

Info

Publication number: JPH10173769A
Application number: JP8333309A
Authority: JP
Inventors: Tadamichi Tokuda; 肇道徳田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1996-12-13
Filing date: 1996-12-13
Publication date: 1998-06-26

Abstract

(57)【要約】【課題】音声メール蓄積装置などにおいて、蓄積され
た未分類の音声メッセージは内容検索ができないため、
ユーザーは知りたい情報を得るためにそれらを順に全文
再生する必要があり、その作業に非常に時間を要してい
た。【解決手段】装置が受け取った音声メッセージは時系
列のラベルをつけて音声メッセージ記憶部３に蓄積し、
ユーザーが検索したいキーワードをキー入力部４で入力
すると、装置はそれを不特定話者の音声認識モデルに変
換し、音声認識処理部５に送り、音声認識処理部５では
蓄積された音声メッセージを対象に音声認識モデルを用
いてワードスポッティングの音声認識処理を行い、キー
ワードを含む音声メッセージとその該当部分を制御部１
に通知し、制御部１はキーワードとその前後数秒の部分
を再生し、さらにユーザーの指定により音声メッセージ
の全文を再生する音声メッセージ検索装置とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声メールの蓄積
装置や、留守番電話機などにおいて、受信した音声メッ
セージを蓄積し、ユーザーの指定によりそれらを検索す
る機能を有する音声メッセージ検索装置に関する。

【０００２】

【従来の技術】一般に音声メールの蓄積装置や留守番電
話機など、音声によるメッセージを蓄積・再生する装置
では、受け取ったメッセージを時間順に記憶し、ユーザ
ーの指示で順番に再生する機能を有している。また、ユ
ーザーはメッセージに手動でラベルを付加してキーワー
ド別に分類することにより、それらを検索することがで
きる。

【０００３】

【発明が解決しようとする課題】ところで、前記の音声
によるメッセージを蓄積・再生する装置では、装置に蓄
積された未分類の音声メッセージは内容検索ができない
ため、ユーザーは知りたい情報を得るためにそれらを順
に全文再生する必要があり、その作業はメッセージ件数
が多いほど非常に時間がかかっていた。また、特定のキ
ーワードを発声内容として含む音声メッセージが分類さ
れ、その内容を再生して確認する際、キーワードの周辺
を聞くだけで内容が分かる場合でもメッセージの全文が
再生されるため、時間が余分にかかっていた。

【０００４】本発明は前記従来の問題に留意し、音声デ
ータの迅速な内容検索を可能とする音声メッセージ検索
装置を提供することを目的とする。

【０００５】

【課題を解決するための手段】前記目的を達成するた
め、本発明は、ユーザーが音声メッセージの検索キーワ
ードを入力するためのキー入力部と、キーワードの文字
列を不特定話者の音素パターンの連鎖に変換するために
参照する不特定話者の音素パターン記憶部と、音声メッ
セージに対してキーワードスポッティング音声認識を行
う音声認識処理部と、音声信号のＡ／Ｄ変換およびＤ／
Ａ変換処理を行うＡ／Ｄ・Ｄ／Ａ変換部と、検索結果を
音声として再生する音声出力部とを備えた音声メッセー
ジ検索装置としたものである。

【０００６】本発明によれば、音声データの迅速な内容
検索を可能とする音声メッセージ検索装置とすることが
できる。

【０００７】

【発明の実施の形態】本発明の請求項１に記載の発明
は、音声によるメッセージを蓄積する手段と、検索手段
を有し、全体の処理を制御する制御部と、外部の電話回
線、構内回線と装置を接続する回線接続部と、ユーザー
が音声メッセージの検索キーワードを入力するためのキ
ー入力部と、キーワードの文字列を不特定話者の音素パ
ターンの連鎖に変換するために参照する不特定話者の音
素パターン記憶部と、音声メッセージに対してキーワー
ドスポッティング音声認識を行う音声認識処理部と、音
声信号のＡ／Ｄ変換およびＤ／Ａ変換処理を行うＡ／Ｄ
・Ｄ／Ａ変換部と、検索結果を音声として再生する音声
出力部とを備えた音声メッセージ検索装置であり、発声
内容にキーワードを含む音声メッセージを検索すること
を可能とし、また、メッセージの全文を聞かなくても内
容の確認を可能にし、確認に要する時間を短縮させると
いう作用を有する。

【０００８】なお、ここでワードスポッティングとは、
音声パターンに対して区間を限定せずに標準パターンと
の参照を行い、一致尤度が高い部分を探すことにより、
目的の単語を検出する認識方式である。

【０００９】本発明の請求項２に記載の発明は、請求項
１記載の音声メッセージ検索装置に、ユーザーが検索キ
ーワードを音声で入力するための音声入力部と、発声さ
れたキーワードを特定話者の音素列に変換するために参
照される特定話者の音素パターン記憶部を加え備えた音
声メッセージ検索装置であり、キーワードをユーザーが
発声して音声メッセージを検索でき、特定話者の音素認
識により、検索キーワードを高い精度で音声入力するこ
とができるという作用を有する。

【００１０】本発明の請求項３に記載の発明は、請求項
１記載の音声メッセージ検索装置に、検索キーワードの
音声を入力するための音声入力部と、不特定多数のユー
ザーに発声されたキーワードを単語認識処理により単語
標準パターンに変換するために参照される不特定話者の
単語標準パターン記憶部を加え備えた音声メッセージ検
索装置であり、検索キーワードの入力において、キーワ
ードを不特定多数のユーザーが発声し、それを不特定話
者の単語標準パターンを用いて認識することにより、特
定のユーザーに限らず音声検索機能を利用することを可
能とするという作用を有する。

【００１１】本発明の請求項４に記載の発明は、請求項
１記載の音声メッセージ検索装置に、検索キーワードの
音声を入力するための音声入力部と、不特定多数のユー
ザーが一音ずつ区切って発声したキーワードを単音節認
識処理するために参照される不特定話者の単音節標準パ
ターン記憶部を加え備えた音声メッセージ検索装置であ
り、検索キーワードの入力において、キーワードを不特
定多数のユーザーが発声し、それを不特定話者の単語標
準パターンを用いて認識するので、特定のユーザーに限
らず音声検索機能を利用することを可能とする作用を有
する。

【００１２】以下、本発明の音声メッセージ検索装置の
実施の形態を図面を参照して説明する。

【００１３】（実施の形態１）図１は本発明の実施の形
態１の音声メッセージ検索装置の構成を示すブロック
図、図２は同音声メッセージ検索装置における音声認識
装置の回路ブロック図、図３は同音声メッセージ検索装
置の動作を示すフローチャートである。

【００１４】図１の音声メッセージ検索装置の構成ブロ
ック図において、構成要素として１は制御部、２は回線
接続部、３は音声メッセージ記憶部、４はキー入力部、
５は音声認識処理部、６は不特定話者の音素パターン記
憶部、７はＡ／Ｄ・Ｄ／Ａ変換部、８は音声出力部であ
る。

【００１５】また、図２の音声認識装置の回路ブロック
図において、構成要素として２１はキーボード、２２は
スピーカー、２３はマイク、２４は中央処理装置（ＣＰ
Ｕ）、２５は書き込み可能メモリ（ＲＡＭ）、２６は読
みだし専用メモリ（ＲＯＭ）である。

【００１６】前記構成要素において、キー入力部４はキ
ーボード２１により、音声入力部９はマイク２３によ
り、音声出力部８はスピーカー２２により、音声メッセ
ージ記憶部３はＲＡＭ２５により、不特定話者の音素パ
ターン記憶部６はＲＯＭ２６によりそれぞれ実行され、
また、制御部１と音声認識処理部５とＡ／Ｄ・Ｄ／Ａ変
換部７はＣＰＵ２４がＲＯＭ２６に書かれたプログラム
を実行し、ＲＡＭ２５にアクセスすることにより実行さ
れる。

【００１７】上記の各構成要素よりなる音声メッセージ
検索装置について、その動作を図３のフローチャートに
従い説明する。なお、装置が受け取った音声メッセージ
は、時系列順にラベルをつけて音声メッセージ記憶部３
に格納されているものとする。

【００１８】ｓｔｅｐ１では、ユーザーが検索したいキ
ーワードをキーボード２１で入力する。入力は直接、あ
るいはネットワークを経由して行われる。

【００１９】ｓｔｅｐ２では、不特定話者の音素パター
ン記憶部６に格納されている不特定話者の音素パターン
を参照してキーワードの文字列を不特定話者の音声認識
パターンに規則合成する。

【００２０】ｓｔｅｐ３では、音声認識処理部５は合成
された音声認識パターンを受け取り、蓄積されている音
声メッセージを音声メッセージ記憶部３からロードして
順にワードスポッティングの音声処理を行う。認識尤度
は結果判定部に送られ、メッセージ中でキーワードを抽
出したと判断された箇所がメモリーに記録される。

【００２１】ｓｔｅｐ４では、メモリーを参照し、キー
ワードが検出されたメッセージの該当箇所がヒット順に
音声としてスピーカー２２から再生される。または、ネ
ットワーク経由で音声データが送られ、ユーザーの端末
に接続されたスピーカーから再生される。再生範囲はキ
ーワードを含む前後数秒、または、音声パワーの計算に
より発声の区切りを疑似的に求めた文章単位とする。

【００２２】ｓｔｅｐ５では、ユーザーが再生された音
声を聞いてメッセージの全文を聞くか否かを判断する。
したがって、一部を聞くだけで内容が分かった場合は全
文を聞かずに済むことができる。また、キーワードを含
まないメッセージが誤認識によってヒットした場合も、
その部分を聞くことにより事前に判定できるので、目的
と異なるメッセージが全文再生されることを避けること
ができる。

【００２３】ｓｔｅｐ６では、ユーザーが指定した場合
のみ、メッセージの全文を再生する。

【００２４】ｓｔｅｐ７では、検索対象の全メッセージ
について、ｓｔｅｐ３〜ｓｔｅｐ６を繰り返す。

【００２５】このように、この実施の形態１では、ユー
ザーが検索キーワードをキーボードより入力し、その文
字列を不特定話者の音素標準パターンの連鎖に変換し、
蓄積された音声メッセージに対して不特定話者のワード
スポッティングの音声認識処理を行うことにより、発声
内容にキーワードを含む音声メッセージを検索すること
を可能とし、また、メッセージ中でキーワードが検出さ
れた場合、その前後数秒、あるいは音声パワーにより求
めた文章単位のみを再生することにより、メッセージの
全文を聞かなくても内容の確認を可能にし、確認に要す
る時間を短縮させることができる。

【００２６】（実施の形態２）図４は本発明の実施の形
態２の音声メッセージ検索装置の構成を示すブロック
図、図５は同音声メッセージ検索装置の動作を示すフロ
ーチャートである。

【００２７】図４の音声メッセージ検索装置の構成ブロ
ック図において、符号１から８までの各構成要素は前述
の実施の形態１と同一であり、かつ、同様に構成されて
いる。

【００２８】この実施の形態２の特徴は、前述の実施の
形態１の構成に、音声入力部９と、特定話者の音素パタ
ーン記憶部１０を加え備えたことにある。

【００２９】なお、前述の図２の音声メッセージ検索装
置における音声認識装置の回路ブロック図は説明に共用
するが、ここではＲＯＭ２６が特定話者の音素パターン
記憶部１０を実行する。

【００３０】上記の各構成要素よりなる音声メッセージ
検索装置について、その動作を図５のフローチャートに
従い説明する。この実施の形態２の音声メッセージ検索
装置では、前述の実施の形態１のｓｔｅｐ１の代わりに
次の処理を行う。

【００３１】ｓｔｅｐ１では、ユーザーが検索したいキ
ーワードを音声入力手段に発声する。発声は装置に直
接、あるいは外部から電話回線を通してなされる。音声
信号はＡ／Ｄ・Ｄ／Ａ変換部７によりデジタル信号に変
換される。

【００３２】ｓｔｅｐ２では、音声信号を音声認識処理
部５に転送し、特定話者の音素パターン記憶部１０を参
照して特定話者の音素認識処理を行う。音素パターンは
前処理としてユーザーの発声を音響的セグメンテーショ
ンすることにより得られる。

【００３３】音響的セグメンテーションの方法として
は、発声内容が既知の音声データに対して、次式で定義
されるフレーム時刻ｉｊ間のセグメント内距離Ｄ（ｉ
ｊ）の総和のフレーム平均が予め定められた歪みより小
さくなるようセグメント境界を求める。

【００３４】

【数１】

【００３５】ここで、χm は特徴ベクトル、χ′m はフ
レーム時刻ｉからｊの間の平均軌跡ベクトルである。求
められたセグメントの平均ベクトルと分散は発声内容の
音素配列と対応して記録される。対応関係が不明な場合
は過去に蓄積された音素データを用いてダイナミックプ
ログラミングにより推定し、補間していく。

【００３６】特定話者の音素パターンを得る別の方法と
しては、発声内容が既知の音声内容が既知の音声データ
に対して、不特定話者の音素パターンを用いてマッチン
グを行い、各音素に対応する区間の特徴ベクトルを教師
信号として適応化処理を行う方法がある。また、教師信
号を得なくても、対象話者の音声の認識とその認識結果
を教師とした話者適応を交互に繰り返すことにより、音
素パターンを徐々に話者に適応化させる方法も考えられ
る。

【００３７】ｓｔｅｐ３では、認識結果の音素列を音声
信号に変換して再生し、認識結果が正しいことをユーザ
ーが確認した上でキーワードの文字列を制御部に渡す。

【００３８】このように実施の形態２では、検索キーワ
ードの入力において、キーワードをユーザーが発声し、
それを特定話者の音素パターンを用いて音声認識処理を
行い、さらに認識結果を不特定話者の音素標準パターン
の連鎖に変換し、それを用いて音声メッセージを検索す
る。特定話者の音素認識により、検索キーワードを高い
精度で音声入力することができる。また、任意のキーワ
ードを用いることができるという作用を有する。

【００３９】なお、特定話者の音素パターンは、ユーザ
ーが発声した音声をＡ／Ｄ変換し、自動セグメンテーシ
ョン（音素のラベル付け）して音素パターンを切り出す
か、不特定話者の音素パターンをユーザーの音声特徴に
適応化することにより作成しておく。

【００４０】（実施の形態３）図６は本発明の実施の形
態３の音声メッセージ検索装置の構成を示すブロック
図、図７は同音声メッセージ検索装置の動作を示すフロ
ーチャートである。

【００４１】図６の音声メッセージ検索装置の構成ブロ
ック図において、符号１から８までの各構成要素は前述
の実施の形態１と同一であり、かつ、同様に構成されて
いる。

【００４２】この実施の形態３の特徴は、前述の実施の
形態１の構成に、音声入力部９と、不特定話者の単語音
声パターン記憶部１１を加え備えたことにある。

【００４３】なお、前述の図２の音声メッセージ検索装
置における音声認識装置の回路ブロック図は説明に共用
するが、ここではＲＯＭ２６が不特定話者の単語音声パ
ターン記憶部１１を実行する。

【００４４】上記の各構成要素よりなる音声メッセージ
検索装置について、その動作を図７のフローチャートに
従い説明する。この実施の形態３の音声メッセージ検索
装置では、前述の実施の形態１のｓｔｅｐ１およびｓｔ
ｅｐ２の代わりに次の処理を行う。

【００４５】ｓｔｅｐ１では、ユーザーが検索したいキ
ーワードを音声入力手段に発声する。発声は装置に直
接、あるいは外部から電話回線を通してなされる。音声
信号はＡ／Ｄ・Ｄ／Ａ変換部７によりデジタフル信号に
変換される。

【００４６】ｓｔｅｐ１およびｓｔｅｐ２では、音声信
号を音声認識処理部５に転送し、不特定話者の単語音声
パターン記憶部１１を参照して不特定話者の単語認識処
理を行う。認識単位は単語、および単語の連結とする。
たとえば、「企画」と「会議」の単語音声パターンがあ
る場合、「企画会議」もキーワードとして認識できる。

【００４７】ｓｔｅｐ３では、認識結果を音声信号で再
生し、結果が正しいか否かをユーザーが確認する。

【００４８】ｓｔｅｐ４では、キーワードとして認識さ
れた不特定話者の単語音声パターンをそのまま制御部１
に渡し、音声メッセージの検索に用いる。

【００４９】キーワード入力時の認識処理および音声メ
ッセージのワードスポッティング認識処理の精度を音素
パターンの場合よりも高くすることができる。

【００５０】このように実施の形態３では、検索キーワ
ードの入力において、キーワードを不特定多数のユーザ
ーが発声し、それを不特定話者の単語標準パターンを用
いて認識することにより、特定のユーザーに限らず音声
検索機能を利用することを可能とする。単語標準パター
ンは単独、またはそれらの連鎖で用いることにより、認
識可能な語彙を増やす。認識されたキーワードの単語標
準パターンは、そのまま音声メッセージのワードスポッ
ティング認識処理に用いることができる。単語パターン
の使用により、キーワード入力時の認識処理および音声
メッセージのワードスポッティング認識処理の精度を音
素パターンの場合よりも高くすることができる。

【００５１】（実施の形態４）図８は本発明の実施の形
態４の音声メッセージ検索装置の構成を示すブロック
図、図９は同音声メッセージ検索装置の動作を示すフロ
ーチャートである。

【００５２】図８の音声メッセージ検索装置の構成ブロ
ック図において、符号１から８までの各構成要素は前述
の実施の形態１と同一であり、かつ、同様に構成されて
いる。

【００５３】この実施の形態４の特徴は、前述の実施の
形態１の構成に、音声入力部９と、不特定話者の単音節
標準パターン記憶部１２を加え備えたことにある。

【００５４】なお、前述の図２の音声メッセージ検索装
置における音声認識装置の回路ブロック図は説明に共用
するが、ここではＲＯＭ２６が不特定話者の単音節標準
パターン記憶部１２を実行する。

【００５５】上記の各構成要素よりなる音声メッセージ
検索装置について、その動作を図７のフローチャートに
従い説明する。この実施の形態４の音声メッセージ検索
装置では、前述の実施の形態１のｓｔｅｐ１およびｓｔ
ｅｐ２の代わりに次の処理を行う。

【００５６】ｓｔｅｐ１では、ユーザーが検索したいキ
ーワードを音節ごとに区切って発声する。発声は装置に
直接、あるいは外部から電話回線を通してなされる。音
声信号はＡ／Ｄ・Ｄ／Ａ変換部７によりデジタル信号に
変換される。

【００５７】ｓｔｅｐ２では、音声信号を音声認識処理
部５に転送し、不特定話者の単音節標準パターン記憶部
１２を参照して単音節の認識処理を行う。

【００５８】ｓｔｅｐ３では、認識結果の単音節をその
都度、音声信号で再生し、結果が正しいか否かをユーザ
ーが確認する。

【００５９】ｓｔｅｐ４では、キーワードとして認識さ
れた不特定話者の単音節パターンをそのまま連結して単
語標準パターンを作り、制御部１に渡し、音声メッセー
ジの検索に用いる。

【００６０】このように実施の形態４では、検索キーワ
ードの入力において、キーワードを不特定多数のユーザ
ーが発声し、それを不特定話者の単語標準パターンを用
いて認識することにより、特定のユーザーに限らず音声
検索機能を利用することを可能とする。認識されたキー
ワードの文字列は一定の規則により不特定話者の音素パ
ターンの連鎖に合成され、音声メッセージのワードスポ
ッティング認識処理に用いられる。不特定話者の単音節
標準パターンの使用により、特定のユーザーに限定され
ず、しかも任意の言葉を検索キーワードに指定すること
ができる。

【００６１】

【発明の効果】前記の説明より明らかなように本発明
は、未分類の音声メッセージに対してキー入力によるキ
ーワードで検索を行い、検索結果を効率良く確認するこ
とができる。標準パターンとして音素の連鎖を用いるた
め、部分一致、完全一致などの条件を指定できる。ま
た、予めキーワードを指定し、メッセージ受信時に自動
的に分類保存することも可能である。

【００６２】また、メッセージ中でキーワード付近のみ
を再生することにより、多くの場合は全文を聞かなくて
も内容が確認できるため、ヒットしたメッセージが多い
ときに再生時間を大幅に節約することができる。そし
て、誤認識でヒットした場合には、メッセージ全文を聞
く前にキャンセルすることができる。

【００６３】また、検索キーワードの音声入力が可能に
なる。たとえば、ユーザーは外出先から電話をかけて音
声メッセージの検索を行うこともできる。また、キーワ
ードの認識に特定話者の音素パターンを用い、キーワー
ドの語彙に特定の制限がなく、かつ、認識精度の低下を
抑えることができる。

【００６４】また、キーワードの認識に、不特定話者の
単語単位の標準パターンあるいは単音節単位の標準パタ
ーンを使用することにより、特定のユーザーに限らず利
用することができる。

【図面の簡単な説明】

【図１】本発明の実施の形態１の音声メッセージ検索装
置の構成を示すブロック図

【図２】同音声メッセージ検索装置における音声認識装
置の回路ブロック図

【図３】同音声メッセージ検索装置の動作を示すフロー
チャート

【図４】本発明の実施の形態２の音声メッセージ検索装
置の構成を示すブロック図

【図５】同音声メッセージ検索装置の動作を示すフロー
チャート

【図６】本発明の実施の形態３の音声メッセージ検索装
置の構成を示すブロック図

【図７】同音声メッセージ検索装置の動作を示すフロー
チャート

【図８】本発明の実施の形態４の音声メッセージ検索装
置の構成を示すブロック図

【図９】同音声メッセージ検索装置の動作を示すフロー
チャート

【符号の説明】

１制御部２回線接続部３音声メッセージ記憶部４キー入力部５音声認識処理部６不特定話者の音素パターン記憶部７Ａ／Ｄ・Ｄ／Ａ変換部８音声出力部９音声入力部１０特定話者の音素パターン記憶部１１不特定話者の単語音声パターン記憶部１２不特定話者の単音節標準パターン記憶部２１キーボード２２スピーカー２３マイク２４ＣＰＵ２５ＲＡＭ２６ＲＯＭ

Claims

【特許請求の範囲】

【請求項１】音声によるメッセージを蓄積する手段と、
検索手段を有し、全体の処理を制御する制御部と、外部
の電話回線、構内回線と装置を接続する回線接続部と、
ユーザーが音声メッセージの検索キーワードを入力する
ためのキー入力部と、キーワードの文字列を不特定話者
の音素パターンの連鎖に変換するために参照する不特定
話者の音素パターン記憶部と、音声メッセージに対して
キーワードスポッティング音声認識を行う音声認識処理
部と、音声信号のＡ／Ｄ変換およびＤ／Ａ変換処理を行
うＡ／Ｄ・Ｄ／Ａ変換部と、検索結果を音声として再生
する音声出力部とを備えたことを特徴とする音声メッセ
ージ検索装置。
【請求項２】ユーザーが検索キーワードを音声で入力す
るための音声入力部と、発声されたキーワードを特定話
者の音素列に変換するために参照される特定話者の音素
パターン記憶部を加え備えた請求項１記載の音声メッセ
ージ検索装置。
【請求項３】検索キーワードの音声を入力するための音
声入力部と、不特定多数のユーザーに発声されたキーワ
ードを単語認識処理により単語標準パターンに変換する
ために参照される不特定話者の単語標準パターン記憶部
を加え備えた請求項１記載の音声メッセージ検索装置。
【請求項４】検索キーワードの音声を入力するための音
声入力部と、不特定多数のユーザーが一音ずつ区切って
発声したキーワードを単音節認識処理するために参照さ
れる不特定話者の単音節標準パターン記憶部を加え備え
た請求項１記載の音声メッセージ検索装置。