JP6087542B2 - 話者認識装置、話者認識方法及び話者認識プログラム - Google Patents
話者認識装置、話者認識方法及び話者認識プログラム Download PDFInfo
- Publication number
- JP6087542B2 JP6087542B2 JP2012192394A JP2012192394A JP6087542B2 JP 6087542 B2 JP6087542 B2 JP 6087542B2 JP 2012192394 A JP2012192394 A JP 2012192394A JP 2012192394 A JP2012192394 A JP 2012192394A JP 6087542 B2 JP6087542 B2 JP 6087542B2
- Authority
- JP
- Japan
- Prior art keywords
- voice data
- registration
- speaker
- input
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000012545 processing Methods 0.000 claims description 53
- 238000004364 calculation method Methods 0.000 claims description 43
- 238000012544 monitoring process Methods 0.000 claims description 33
- 230000003595 spectral effect Effects 0.000 claims description 31
- 238000001228 spectrum Methods 0.000 claims description 24
- 238000005520 cutting process Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 description 21
- 238000012795 verification Methods 0.000 description 21
- 238000012806 monitoring device Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 14
- 238000003860 storage Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Alarm Systems (AREA)
Description
また、請求項8に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識方法であって、複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理ステップと、認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理ステップと、同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する前記部分入力音声データの距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出ステップと、前記類似度算出ステップにより算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識ステップとを含んだことを特徴とする。
また、請求項10に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理手順と、認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理手順と、同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出手順と、前記類似度算出手順により算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識手順とをコンピュータに実行させることを特徴とする。
12 窓監視装置
13 火災検知装置
20 マイクロホン
30 話者認識装置
31、131 話者認識部
32 テキスト判別部
33 監視制御部
34 監視部
41 AD変換部
42 音声区間抽出部
43 特徴パラメータ算出部
44 切替部
45 記憶部
46、51 最小距離探索部
47 認識処理部
47a 話者識別部
47b 話者照合部
52 登録処理部
53 クラスタ設定部
60 監視装置
Claims (10)
- 音声データに基づいて該音声データの話者を認識する話者認識装置であって、
登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された類似度に基づいて、前記入力音声データの話者を認識する認識手段と
を備え、
前記登録音声データは、複数の登録対象者の音声を含み、
前記部分登録音声データは、各登録対象者の音声を含むよう複数切り出され、
前記類似度算出手段は、複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出し、
前記認識手段は、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する
ことを特徴とする話者認識装置。 - 音声データに基づいて該音声データの話者を認識する話者認識装置であって、
登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された類似度に基づいて、前記入力音声データの話者を認識する認識手段と
を備え、
前記登録音声データは、複数の登録対象者の音声を含み、
前記類似度算出手段は、同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する前記部分入力音声データの距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、
前記認識手段は、前記登録音声データに対する前記部分入力音声データの距離を前記類似度として用いて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する
ことを特徴とする話者認識装置。 - 前記類似度算出手段は、複数の前記登録音声データについて前記入力音声データに対する類似度をそれぞれ算出し、
前記認識手段は、前記入力音声データの話者が、複数の前記登録音声データのうち前記入力音声データに対する類似度が最も高い前記登録音声データに含まれる複数の登録対象者のいずれかと一致すると推定することを特徴とする請求項1又は2に記載の話者認識装置。 - 前記認識手段は、前記入力音声データに対する前記登録音声データの類似度が類似度閾値以上である場合に、前記入力音声データの話者が前記登録音声データに含まれる複数の登録対象者のいずれかと一致すると判定することを特徴とする請求項1〜3のいずれか一つに記載の話者認識装置。
- 前記複数の登録対象者の音声を含む登録音声データから得られた複数の部分登録音声データのスペクトル包絡を、該スペクトル包絡を示す特徴パラメータの類似性に基づいて分類し、各分類について前記特徴パラメータの代表値を算出する分類手段をさらに備え、
前記類似度算出手段は、前記部分入力音声データのスペクトル包絡を示す特徴パラメータと前記各分類の代表値との距離を算出し、前記代表値との距離が最小となる前記分類に属する各部分登録音声データを前記類似度の算出に使用する
ことを特徴とする請求項1〜4のいずれか一つに記載の話者認識装置。 - 監視対象に対する監視動作を行なう監視手段と、
前記入力音声データに含まれる単語を判別する単語判別手段と、
前記認識手段による認識結果が所定の条件を満たした場合に、前記単語判別手段により判別された単語に基づいて前記監視手段の監視動作を制御する制御手段と
をさらに備えたことを特徴とする請求項1〜5のいずれか一つに記載の話者認識装置。 - 音声データに基づいて該音声データの話者を認識する話者認識方法であって、
複数の登録対象者の音声を含む登録音声データから各登録対象者の音声を含むよう部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理ステップと、
認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理ステップと、
複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出する類似度算出ステップと、
前記類似度算出ステップにより算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識ステップと
を含んだことを特徴とする話者認識方法。 - 音声データに基づいて該音声データの話者を認識する話者認識方法であって、
複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理ステップと、
認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理ステップと、
同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する前記部分入力音声データの距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出ステップと、
前記類似度算出ステップにより算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識ステップと
を含んだことを特徴とする話者認識方法。 - 音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、
複数の登録対象者の音声を含む登録音声データから各登録対象者の音声を含むよう部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理手順と、
認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理手順と、
複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出する類似度算出手順と、
前記類似度算出手順により算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識手順と
をコンピュータに実行させることを特徴とする話者認識プログラム。 - 音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、
複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理手順と、
認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理手順と、
同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出手順と、
前記類似度算出手順により算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識手順と
をコンピュータに実行させることを特徴とする話者認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012192394A JP6087542B2 (ja) | 2012-08-31 | 2012-08-31 | 話者認識装置、話者認識方法及び話者認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012192394A JP6087542B2 (ja) | 2012-08-31 | 2012-08-31 | 話者認識装置、話者認識方法及び話者認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014048534A JP2014048534A (ja) | 2014-03-17 |
JP6087542B2 true JP6087542B2 (ja) | 2017-03-01 |
Family
ID=50608255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012192394A Active JP6087542B2 (ja) | 2012-08-31 | 2012-08-31 | 話者認識装置、話者認識方法及び話者認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6087542B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11301512B2 (en) | 2017-10-24 | 2022-04-12 | Panasonic Intellectual Property Management Co., Ltd. | Content management device, content management system, and control method |
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别系统装置 |
CN109101801B (zh) | 2018-07-12 | 2021-04-27 | 北京百度网讯科技有限公司 | 用于身份认证的方法、装置、设备和计算机可读存储介质 |
CN109785846B (zh) * | 2019-01-07 | 2024-05-28 | 平安科技(深圳)有限公司 | 单声道的语音数据的角色识别方法及装置 |
CN115315746A (zh) * | 2020-03-27 | 2022-11-08 | 松下电器(美国)知识产权公司 | 说话人识别方法、识别装置、识别程序、性别识别模型生成方法以及说话人识别模型生成方法 |
JPWO2022113218A1 (ja) * | 2020-11-25 | 2022-06-02 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6086696A (ja) * | 1983-10-19 | 1985-05-16 | 日本電気株式会社 | 住宅警備システム |
JP3859884B2 (ja) * | 1998-10-19 | 2006-12-20 | 株式会社東芝 | 話者認識方法および話者認識装置 |
JP2003283659A (ja) * | 2002-03-22 | 2003-10-03 | Ntt Docomo Tokai Inc | 認証用音声データの登録方法 |
JP3980988B2 (ja) * | 2002-10-28 | 2007-09-26 | 日本電信電話株式会社 | 音声発生区間検索方法,音声発生区間検索装置,並びにそのプログラムおよびそのプログラムの記録媒体 |
JP2005301022A (ja) * | 2004-04-14 | 2005-10-27 | Toshiba Tec Corp | 音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法 |
JP4157077B2 (ja) * | 2004-05-28 | 2008-09-24 | 東芝テック株式会社 | 電話機 |
JP4254753B2 (ja) * | 2005-06-30 | 2009-04-15 | ヤマハ株式会社 | 話者認識方法 |
-
2012
- 2012-08-31 JP JP2012192394A patent/JP6087542B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014048534A (ja) | 2014-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6087542B2 (ja) | 話者認識装置、話者認識方法及び話者認識プログラム | |
US7620547B2 (en) | Spoken man-machine interface with speaker identification | |
KR102371697B1 (ko) | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 | |
US20190295540A1 (en) | Voice trigger validator | |
US9633652B2 (en) | Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon | |
CN112102850B (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
WO2018018906A1 (zh) | 一种语音门禁和安静环境监控方法及系统 | |
US20160266910A1 (en) | Methods And Apparatus For Unsupervised Wakeup With Time-Correlated Acoustic Events | |
JP2019533193A (ja) | 音声制御システム及びそのウェイクアップ方法、ウェイクアップ装置、並びに家電製品、コプロセッサ | |
US9530417B2 (en) | Methods, systems, and circuits for text independent speaker recognition with automatic learning features | |
CN107958669B (zh) | 一种声纹识别的方法及装置 | |
US9335966B2 (en) | Methods and apparatus for unsupervised wakeup | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
JPH10319988A (ja) | 話者識別方法および話者認識装置 | |
CN111656440A (zh) | 说话人辨识 | |
US11200903B2 (en) | Systems and methods for speaker verification using summarized extracted features | |
JP5549506B2 (ja) | 音声認識装置及び音声認識方法 | |
US12039970B1 (en) | System and method for source authentication in voice-controlled automation | |
KR101697651B1 (ko) | 음성 신호의 검출 방법 및 장치 | |
CN103811014B (zh) | 语音干扰的滤除方法和语音干扰的滤除系统 | |
JP6239826B2 (ja) | 話者認識装置、話者認識方法及び話者認識プログラム | |
JP2015055835A (ja) | 話者認識装置、話者認識方法及び話者認識プログラム | |
JP6616182B2 (ja) | 話者認識装置、判別値生成方法及びプログラム | |
US10950227B2 (en) | Sound processing apparatus, speech recognition apparatus, sound processing method, speech recognition method, storage medium | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150518 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160407 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160610 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6087542 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |