JP6556575B2 - 音声処理装置、音声処理方法及び音声処理プログラム - Google Patents
音声処理装置、音声処理方法及び音声処理プログラム Download PDFInfo
- Publication number
- JP6556575B2 JP6556575B2 JP2015182325A JP2015182325A JP6556575B2 JP 6556575 B2 JP6556575 B2 JP 6556575B2 JP 2015182325 A JP2015182325 A JP 2015182325A JP 2015182325 A JP2015182325 A JP 2015182325A JP 6556575 B2 JP6556575 B2 JP 6556575B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speech
- similarity
- unit
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、実施形態1に係る音声処理装置100のハードウェア構成例を示す図である。図1に示すように、音声処理装置100は、CPU(Central Processing Unit)12と、RAM(Random Access Memory)13と、ROM(Read Only Memory)14と、表示装置15と、音声入力装置16と、通信I/F17と、操作部18とを有する。各ハードウェアは、システムバス11により互いに接続される。例えば、音声処理装置100は、PC(Personal Computer)やタブレット端末、サーバ装置等の情報処理装置である。
図8は、実施形態2に係る音声処理装置200の機能構成例を示すブロック図である。実施形態2では、実施形態1に係る音声処理装置100の機能構成と同様の構成については同一の符号を付し、その詳細な説明を省略する場合がある。具体的には、以下に説明する統合部209以外の各部の機能は、実施形態1に係る各部の機能と同様である。なお、実施形態2に係る音声処理装置200のハードウェア構成は、実施形態1に係る音声処理装置100のハードウェア構成と同様である。
101 分割部
102 抽出部
103 分類部
104 類似度算出部
105 記憶部
106 特定部
107 生成部
108 出力制御部
Claims (11)
- 発話データから、音声特徴を抽出する抽出部と、
抽出された前記音声特徴をもとに、前記発話データを、話者毎の発話の集合に分類する分類部と、
前記集合に含まれる前記発話データの前記音声特徴と、複数の話者モデルそれぞれとの類似度を算出する類似度算出部と、
算出された前記類似度に基づいて、前記集合ごとに話者を特定する特定部と、を有し、
前記分類部は、音声特徴の距離がより近い発話データの対を1の集合とし、前記集合の発話データの音声特徴との距離がより近い残りの発話データを該集合に分類する処理を繰り返し実行する、
音声処理装置。 - 前記特定部は、前記類似度の重み付き和が第1の閾値以上である前記集合の話者を前記話者モデルに対応する話者として特定する請求項1に記載の音声処理装置。
- 前記類似度の重み付き和が前記第1の閾値よりも小さい第2の閾値未満である前記集合の話者を新たな話者として話者モデルを生成する生成部をさらに有する請求項2に記載の音声処理装置。
- 前記特定部は、前記類似度の重み付き和が所定の閾値以上である前記集合の話者を前記話者モデルに対応する話者として特定する請求項1に記載の音声処理装置。
- 前記類似度の重み付き和が前記所定の閾値未満である前記集合の話者を新たな話者として話者モデルを生成する生成部をさらに有する請求項4に記載の音声処理装置。
- 前記特定部は、より短い時間での発話に対し、前記類似度の重みをより小さくする請求項2〜5の何れか一つに記載の音声処理装置。
- 前記特定部は、分類の精度がより低い発話に対し、前記類似度の重みをより小さくする請求項2〜6の何れか一つに記載の音声処理装置。
- 特定された話者が同一である前記集合を統合する統合部をさらに有する請求項1〜7の何れか一つに記載の音声処理装置。
- 話者の特定結果の出力を制御する出力制御部をさらに有する請求項1〜8の何れか一つに記載の音声処理装置。
- 発話データから、音声特徴を抽出するステップと、
抽出された前記音声特徴をもとに、前記発話データを、話者毎の発話の集合に分類する分類ステップと、
前記集合に含まれる前記発話データの前記音声特徴と、複数の話者モデルそれぞれとの類似度を算出するステップと、
算出された前記類似度に基づいて、前記集合ごとに話者を特定するステップと、を含み、
前記分類ステップは、音声特徴の距離がより近い発話データの対を1の集合とし、前記集合の発話データの音声特徴との距離がより近い残りの発話データを該集合に分類する処理を繰り返し実行する、
音声処理方法。 - 音声処理装置に、
発話データから、音声特徴を抽出するステップと、
抽出された前記音声特徴をもとに、前記発話データを、話者毎の発話の集合に分類する分類ステップと、
前記集合に含まれる前記発話データの前記音声特徴と、複数の話者モデルそれぞれとの類似度を算出するステップと、
算出された前記類似度に基づいて、前記集合ごとに話者を特定するステップと、を実行させ、
前記分類ステップは、音声特徴の距離がより近い発話データの対を1の集合とし、前記集合の発話データの音声特徴との距離がより近い残りの発話データを該集合に分類する処理を繰り返し実行する、
音声処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015182325A JP6556575B2 (ja) | 2015-09-15 | 2015-09-15 | 音声処理装置、音声処理方法及び音声処理プログラム |
US15/253,982 US10832685B2 (en) | 2015-09-15 | 2016-09-01 | Speech processing device, speech processing method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015182325A JP6556575B2 (ja) | 2015-09-15 | 2015-09-15 | 音声処理装置、音声処理方法及び音声処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017058483A JP2017058483A (ja) | 2017-03-23 |
JP6556575B2 true JP6556575B2 (ja) | 2019-08-07 |
Family
ID=58237026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015182325A Active JP6556575B2 (ja) | 2015-09-15 | 2015-09-15 | 音声処理装置、音声処理方法及び音声処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10832685B2 (ja) |
JP (1) | JP6556575B2 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10311855B2 (en) * | 2016-03-29 | 2019-06-04 | Speech Morphing Systems, Inc. | Method and apparatus for designating a soundalike voice to a target voice from a database of voices |
US10347245B2 (en) * | 2016-12-23 | 2019-07-09 | Soundhound, Inc. | Natural language grammar enablement by speech characterization |
KR20180082033A (ko) * | 2017-01-09 | 2018-07-18 | 삼성전자주식회사 | 음성을 인식하는 전자 장치 |
US11227605B2 (en) * | 2017-09-11 | 2022-01-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice-controlled management of user profiles |
EP3682444A1 (en) | 2017-09-11 | 2020-07-22 | Telefonaktiebolaget LM Ericsson (PUBL) | Voice-controlled management of user profiles |
US11094316B2 (en) * | 2018-05-04 | 2021-08-17 | Qualcomm Incorporated | Audio analytics for natural language processing |
US10847153B2 (en) * | 2018-06-06 | 2020-11-24 | Amazon Technologies, Inc. | Temporary account association with voice-enabled devices |
US11222641B2 (en) * | 2018-10-05 | 2022-01-11 | Panasonic Intellectual Property Corporation Of America | Speaker recognition device, speaker recognition method, and recording medium |
US11004454B1 (en) * | 2018-11-06 | 2021-05-11 | Amazon Technologies, Inc. | Voice profile updating |
JP7176628B2 (ja) * | 2019-06-07 | 2022-11-22 | 日本電気株式会社 | 音声処理装置、音声処理方法、及び、音声処理プログラム |
KR20190118539A (ko) * | 2019-09-30 | 2019-10-18 | 엘지전자 주식회사 | 발화 스타일을 고려하여 음성을 인식하는 인공 지능 장치 및 그 방법 |
KR20210053722A (ko) * | 2019-11-04 | 2021-05-12 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
US11664044B2 (en) | 2019-11-25 | 2023-05-30 | Qualcomm Incorporated | Sound event detection learning |
CA3184478A1 (en) * | 2020-04-15 | 2021-10-21 | Pindrop Security, Inc. | Passive and continuous multi-speaker voice biometrics |
US12198057B2 (en) | 2020-11-24 | 2025-01-14 | Qualcomm Incorporated | Context-based model selection |
US11410677B2 (en) | 2020-11-24 | 2022-08-09 | Qualcomm Incorporated | Adaptive sound event classification |
JPWO2022113218A1 (ja) * | 2020-11-25 | 2022-06-02 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3631020B2 (ja) * | 1998-12-10 | 2005-03-23 | 沖電気工業株式会社 | 話者認識方法 |
US7620547B2 (en) | 2002-07-25 | 2009-11-17 | Sony Deutschland Gmbh | Spoken man-machine interface with speaker identification |
EP1387350A1 (en) | 2002-07-25 | 2004-02-04 | Sony International (Europe) GmbH | Spoken man-machine interface with speaker identification |
WO2005015547A1 (fr) | 2003-07-01 | 2005-02-17 | France Telecom | Procede et systeme d'analyse de signaux vocaux pour la representation compacte de locuteurs |
US20090106025A1 (en) | 2006-03-24 | 2009-04-23 | Pioneer Corporation | Speaker model registering apparatus and method, and computer program |
JP5196114B2 (ja) * | 2007-07-17 | 2013-05-15 | ヤマハ株式会社 | 音声認識装置およびプログラム |
JP5024154B2 (ja) * | 2008-03-27 | 2012-09-12 | 富士通株式会社 | 関連付け装置、関連付け方法及びコンピュータプログラム |
JP5052449B2 (ja) * | 2008-07-29 | 2012-10-17 | 日本電信電話株式会社 | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
JP4964204B2 (ja) | 2008-08-27 | 2012-06-27 | 日本電信電話株式会社 | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 |
JP5326892B2 (ja) * | 2008-12-26 | 2013-10-30 | 富士通株式会社 | 情報処理装置、プログラム、および音響モデルを生成する方法 |
JP5229124B2 (ja) | 2009-06-12 | 2013-07-03 | 日本電気株式会社 | 話者照合装置、話者照合方法およびプログラム |
JP2012118251A (ja) * | 2010-11-30 | 2012-06-21 | Canon Inc | 情報処理装置およびその動作方法 |
US8630860B1 (en) * | 2011-03-03 | 2014-01-14 | Nuance Communications, Inc. | Speaker and call characteristic sensitive open voice search |
JP6596924B2 (ja) * | 2014-05-29 | 2019-10-30 | 日本電気株式会社 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
-
2015
- 2015-09-15 JP JP2015182325A patent/JP6556575B2/ja active Active
-
2016
- 2016-09-01 US US15/253,982 patent/US10832685B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10832685B2 (en) | 2020-11-10 |
JP2017058483A (ja) | 2017-03-23 |
US20170076727A1 (en) | 2017-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
US9558741B2 (en) | Systems and methods for speech recognition | |
US8972260B2 (en) | Speech recognition using multiple language models | |
US8731926B2 (en) | Spoken term detection apparatus, method, program, and storage medium | |
US20140025382A1 (en) | Speech processing system | |
US9886947B2 (en) | Speech recognition device and method, and semiconductor integrated circuit device | |
JP5692493B2 (ja) | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 | |
JP2015206906A (ja) | 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
US11170763B2 (en) | Voice interaction system, its processing method, and program therefor | |
KR20190024148A (ko) | 음성 인식 장치 및 음성 인식 방법 | |
JP6632764B2 (ja) | 意図推定装置及び意図推定方法 | |
JP6556381B2 (ja) | モデル学習装置及びモデル学習方法 | |
US8751236B1 (en) | Devices and methods for speech unit reduction in text-to-speech synthesis systems | |
JPWO2010050414A1 (ja) | モデル適応装置、その方法及びそのプログラム | |
JP6577900B2 (ja) | 音素誤り獲得装置、音素誤り獲得方法、およびプログラム | |
JP2015084047A (ja) | 文集合作成装置、文集合作成方法および文集合作成プログラム | |
JP5980101B2 (ja) | 音響モデル学習用テキスト作成装置とその方法とプログラム | |
JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
KR102300303B1 (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP6625961B2 (ja) | 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム | |
KR20200091738A (ko) | 핵심어 검출 장치, 이를 이용한 핵심어 검출 방법 및 컴퓨터 프로그램 | |
JP6274015B2 (ja) | 音響モデル調整装置及びプログラム | |
US20250045509A1 (en) | Entity name audio-to-text translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180131 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181211 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190710 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6556575 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |