JP7376985B2 - 情報処理方法、情報処理装置、及び、プログラム - Google Patents
情報処理方法、情報処理装置、及び、プログラム Download PDFInfo
- Publication number
- JP7376985B2 JP7376985B2 JP2018200354A JP2018200354A JP7376985B2 JP 7376985 B2 JP7376985 B2 JP 7376985B2 JP 2018200354 A JP2018200354 A JP 2018200354A JP 2018200354 A JP2018200354 A JP 2018200354A JP 7376985 B2 JP7376985 B2 JP 7376985B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- speaker
- voice
- feature amount
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 109
- 238000003672 processing method Methods 0.000 title claims description 24
- 238000000034 method Methods 0.000 claims description 72
- 238000001514 detection method Methods 0.000 claims description 40
- 238000000605 extraction Methods 0.000 claims description 31
- 239000000284 extract Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 230000007423 decrease Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000009826 distribution Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
従来、例えば会議などにおいて、会話での話者識別を行うためには、事前に話者の登録を行うなどにより会議への参加者を明確にした上で話者認識を行っていた。しかし、話者識別は登録話者数が多ければ多いほど誤識別が多くなり、話者識別の精度が低下する傾向があった。つまり、識別対象の話者数が多いと、話者識別の精度が低下してしまう。
以下では、図面を参照しながら、実施の形態1における情報処理等の説明を行う。
図1は、実施の形態1に係る登録話者推定システム1の使用場面の一例を示す図である。図2は、実施の形態1に係る登録話者推定システム1の構成の一例を示すブロック図である。
音声入力部11は、例えばマイクロフォンからなり、話し手が発話した音声が入力される。音声入力部11は、入力された音声を音声信号に変換して情報処理装置10に出力する。
情報処理装置10は、例えば、プロセッサ(マイクロプロセッサ)、メモリ、通信インタフェース等を備えるコンピュータで実現される。情報処理装置10は、サーバに含まれて動作するとしてもよいし、情報処理装置10の一部構成がクラウドサーバに含まれ動作するとしてもよい。情報処理装置10は、識別対象の登録話者を取捨選択する処理を行う。
図3は、実施の形態1に係る検出部101が検出した音声区間の一例を示す図である。
特徴量抽出部102は、検出部101により検出された音声区間から、その音声の話者を特定できる第1特徴量を抽出する。より具体的には、特徴量抽出部102は、検出部101が検出した音声信号を取得することによって、その音声信号に示される発話を取得する。つまり、特徴量抽出部102は、発話を音声信号として取得する。そして、特徴量抽出部102は、取得した発話から、その発話の特徴量を抽出する。この特徴量は、例えば、特徴ベクトルであって、より具体的には、話者認識手法の一つとして用いられるi-Vectorである。なお、特徴量は、このような特徴ベクトルに限定されるものではない。
比較部103は、特徴量抽出部102により抽出された第1特徴量と、記憶部13に保存されている、話者識別の対象である登録話者の音声それぞれを特定できる第2特徴量とを比較する比較処理を行う。比較部103は、連続する複数の音声区間のそれぞれごとに比較処理を行う。
登録話者決定部104は、所定条件下において、記憶部13に保存されている第2特徴量のうち第1特徴量との類似度が閾値以下である1以上の第2特徴量を削除することで、1以上の第2特徴量から特定される登録話者を削除する。ここで、登録話者決定部104は、所定条件下として、連続した音声区間におけるm(mは2以上の整数)回の比較処理を通して、第1特徴量との類似度が閾値以下である1以上の第2特徴量があった場合、当該1以上の第2特徴量から特定される登録話者を削除してもよい。また、登録話者決定部104は、所定条件下として、所定時間に行われた比較処理を通して、第1特徴量との類似度が閾値以下である1以上の第2特徴量がある場合、当該1以上の第2特徴量から特定される登録話者を削除してもよい。つまり、登録話者決定部104は、比較部103の比較処理が繰り返され、識別対象となる登録話者のうち1以上の登録話者の第2特徴量が抽出される音声区間が一定回数以上または一定時間連続して現れない場合、記憶部13から当該1以上の登録者を削除してよい。
保存装置12は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成され、登録された登録話者を記憶する。本実施の形態では、保存装置12は、登録された登録話者として、登録話者それぞれに対応する話者モデルを記憶する。話者モデルは、対応する登録話者を識別(特定)するために用いられる、当該登録話者の発話の特徴量(第2特徴量)のモデルである。保存装置12には、記憶部13に一度以上登録された登録話者の話者モデルが保存されている。
記憶部13は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成される記憶媒体であり、予め第2特徴量が保存されている。本実施の形態では、記憶部13は、識別対象の登録話者を記憶する。より具体的には、記憶部13は、識別対象の登録話者として、登録話者それぞれに対応する話者モデルを記憶する。つまり、記憶部13には、識別対象とされる登録話者の話者モデルが記憶されている。
次に、以上のように構成された情報処理装置10の動作について説明する。
以上のように、本実施の形態の情報処理装置10等によれば、会話を一定の区間で区切って音声の特徴量を抽出し、比較を繰り返すことで、識別対象として不要な話者を減らすことができるので、話者識別の精度を向上できる。
実施の形態1では、登録話者を示す話者モデルの第2特徴量は、予め記憶部13に保存されているとして説明したが、これに限らない。情報処理装置10が識別対象の登録話者を取捨選択する処理を行う前に、情報処理装置10が登録話者を示す話者モデルの第2特徴量を記憶部13に保存するとしてもよい。以下、この場合を実施の形態2として説明する。なお、以下では、実施の形態1と異なる点を中心に説明する。
情報処理装置10Aも、例えば、プロセッサ(マイクロプロセッサ)、メモリ、通信インタフェース等を備えるコンピュータで実現され、識別対象の登録話者を取捨選択する処理を行う。本実施の形態では、情報処理装置10Aは、図8に示すように検出部101と、特徴量抽出部102と、比較部103と、登録話者決定部104と、登録部105を備える。ここでも、情報処理装置10Aは、記憶部13及び保存装置12をさらに備えてもよいが、必須の構成でない。
登録部105は、情報処理装置10の動作の最初に、登録話者を示す話者モデルの第2特徴量を記憶部13に保存する。より具体的には、登録部105は、登録話者決定部104が動作する前に、登録話者の対象者それぞれに第1音声を発せさせることで音声入力部11に第1音声を入力させる。続いて、登録部105は、入力させた第1音声の第1音声区間を検出し、検出した第1音声区間から、登録話者の対象者それぞれを特定できる特徴量を抽出し、抽出した特徴量を第2特徴量として記憶部13に保存する。なお、登録部105は、これらの処理を検出部101及び特徴量抽出部102を制御することで行ってもよい。すなわち、登録部105は、検出部101を制御して、音声入力部11に入力させた第1音声の第1音声区間を検出させてもよい。また、登録部105は、特徴量抽出部102を制御して、検出部101に検出させた第1音声区間から、登録話者の対象者それぞれを特定できる特徴量を抽出させてもよい。登録部105は、特徴量抽出部102が抽出した特徴量を第2特徴量として記憶部13に保存してもよいし、特徴量抽出部102を制御して、特徴量抽出部102が抽出した特徴量を第2特徴量として記憶部13に保存させてもよい。
次に、以上のように構成された情報処理装置10Aの動作について説明する。
以上のように、本実施の形態の情報処理装置10A等によれば、識別対象の登録話者を取捨選択させる処理を行わせる前に、登録話者を示す話者モデルの第2特徴量を記憶部13に保存させることができる。また、本実施の形態の情報処理装置10A等によれば、会話を一定の区間で区切って音声の特徴量を抽出し、比較を繰り返すことで、識別対象として不要な話者を減らすことができるので、話者識別の精度を向上できる。
10、10A 情報処理装置
11 音声入力部
12 保存装置
13 記憶部
101 検出部
102 特徴量抽出部
103 比較部
104 登録話者決定部
105 登録部
Claims (13)
- コンピュータが行う情報処理方法であって、
音声入力部に入力された音声の音声区間を検出する検出ステップと、
検出された前記音声区間から、前記音声の話者を特定できる第1特徴量を抽出する特徴量抽出ステップと、
抽出された前記第1特徴量と、記憶部に保存されている、話者識別の対象である登録話者の音声それぞれを特定できる第2特徴量とを比較する比較処理を行う比較ステップと、
連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第2特徴量のうち前記第1特徴量との類似度が閾値以下である1以上の第2特徴量を削除することで前記1以上の第2特徴量から特定される登録話者を削除する登録話者決定ステップとを含み、
前記登録話者決定ステップでは、
前記所定条件下として、連続した前記音声区間におけるm(mは2以上の整数)回の前記比較処理を通して、前記第1特徴量との類似度が閾値より以下である1以上の第2特徴量があった場合、前記1以上の第2特徴量から特定される登録話者を削除する、
情報処理方法。 - コンピュータが行う情報処理方法であって、
音声入力部に入力された音声の音声区間を検出する検出ステップと、
検出された前記音声区間から、前記音声の話者を特定できる第1特徴量を抽出する特徴量抽出ステップと、
抽出された前記第1特徴量と、記憶部に保存されている、話者識別の対象である登録話者の音声それぞれを特定できる第2特徴量とを比較する比較処理を行う比較ステップと、
連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第2特徴量のうち前記第1特徴量との類似度が閾値以下である1以上の第2特徴量を削除することで前記1以上の第2特徴量から特定される登録話者を削除する登録話者決定ステップとを含み、
前記登録話者決定ステップでは、前記記憶部に、前記第2特徴量として、話者識別の対象である2以上の登録話者それぞれを特定できる第2特徴量が保存されている場合に、前記1以上の第2特徴量から特定される登録話者を削除する処理を行う、
情報処理方法。 - 前記登録話者決定ステップでは、さらに、前記比較処理の結果、前記記憶部に保存されているすべての前記第2特徴量と前記第1特徴量との類似度が前記閾値以下であった場合、前記第1特徴量を、新たな登録話者の音声を特定できる特徴量として、前記記憶部に保存する、
請求項1または2に記載の情報処理方法。 - 前記登録話者決定ステップでは、さらに、前記記憶部に保存されている前記第2特徴量のうち、前記第1特徴量との類似度が前記閾値より高い第2特徴量があった場合、前記閾値より高い第2特徴量を、前記閾値より高い第2特徴量と前記第1特徴量とを合わせた特徴量に更新することで、前記記憶部に保存されている、前記閾値より高い第2特徴量から特定される登録話者を更新する、
請求項1~3のいずれか1項に記載の情報処理方法。 - 前記記憶部には、予め前記第2特徴量が保存されている、
請求項1~4のいずれか1項に記載の情報処理方法。 - さらに、前記登録話者決定ステップをコンピュータが行う前に、登録話者の対象者それぞれに第1音声を発せさせることで前記音声入力部に前記第1音声を入力させ、入力させた前記第1音声の第1音声区間を検出し、検出した前記第1音声区間から、前記登録話者の対象者それぞれを特定できる発話の特徴量を抽出し、抽出した特徴量を前記第2特徴量として前記記憶部に保存する登録話者登録ステップを含む、
請求項1~5のいずれか1項に記載の情報処理方法。 - 前記登録話者決定ステップでは、
前記所定条件下として、さらに、所定時間に行われた前記比較処理を通して、前記第1特徴量との類似度が閾値以下である1以上の第2特徴量がある場合、前記1以上の第2特徴量から特定される登録話者を削除する、
請求項1~5のいずれか1項に記載の情報処理方法。 - 前記検出ステップでは、前記音声入力部に入力された音声の音声区間を時系列に連続して検出する、
請求項1~7のいずれか1項に記載の情報処理方法。 - 前記検出ステップでは、前記音声入力部に入力された音声の音声区間を所定間隔で検出する、
請求項1~7のいずれか1項に記載の情報処理方法。 - 音声入力部に入力された音声の音声区間を検出する検出部と、
検出された前記音声区間から、前記音声の話者を特定できる第1特徴量を抽出する特徴量抽出部と、
抽出された前記第1特徴量と、記憶部に保存されている、話者識別の対象である登録話者それぞれを特定できる第2特徴量とを比較する比較処理を行う比較部と、
連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第2特徴量のうち前記第1特徴量との類似度が閾値以下の1以上の第2特徴量から特定される登録話者を削除する登録話者決定部とを備え、
前記登録話者決定部は、
前記所定条件下として、連続した前記音声区間におけるm(mは2以上の整数)回の前記比較処理を通して、前記第1特徴量との類似度が閾値より以下である1以上の第2特徴量があった場合、前記1以上の第2特徴量から特定される登録話者を削除する、
情報処理装置。 - 音声入力部に入力された音声の音声区間を検出する検出部と、
検出された前記音声区間から、前記音声の話者を特定できる第1特徴量を抽出する特徴量抽出部と、
抽出された前記第1特徴量と、記憶部に保存されている、話者識別の対象である登録話者それぞれを特定できる第2特徴量とを比較する比較処理を行う比較部と、
連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第2特徴量のうち前記第1特徴量との類似度が閾値以下の1以上の第2特徴量から特定される登録話者を削除する登録話者決定部とを備え、
前記登録話者決定部は、前記記憶部に、前記第2特徴量として、話者識別の対象である2以上の登録話者それぞれを特定できる第2特徴量が保存されている場合に、前記1以上の第2特徴量から特定される登録話者を削除する処理を行う、
情報処理装置。 - 音声入力部に入力された音声の音声区間を検出する検出ステップと、
検出された前記音声区間から、前記音声の話者を特定できる第1特徴量を抽出する特徴量抽出ステップと、
抽出された前記第1特徴量と、記憶部に保存されている、話者識別の対象である登録話者それぞれを特定できる第2特徴量とを比較する比較処理を行う比較ステップと、
連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第2特徴量のうち前記第1特徴量との類似度が閾値以下の1以上の第2特徴量から特定される登録話者を削除する登録話者決定ステップとを含み、
前記登録話者決定ステップでは、
前記所定条件下として、連続した前記音声区間におけるm(mは2以上の整数)回の前記比較処理を通して、前記第1特徴量との類似度が閾値より以下である1以上の第2特徴量があった場合、前記1以上の第2特徴量から特定される登録話者を削除する、情報処理方法をコンピュータに実行させる、
プログラム。 - 音声入力部に入力された音声の音声区間を検出する検出ステップと、
検出された前記音声区間から、前記音声の話者を特定できる第1特徴量を抽出する特徴量抽出ステップと、
抽出された前記第1特徴量と、記憶部に保存されている、話者識別の対象である登録話者それぞれを特定できる第2特徴量とを比較する比較処理を行う比較ステップと、
連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第2特徴量のうち前記第1特徴量との類似度が閾値以下の1以上の第2特徴量から特定される登録話者を削除する登録話者決定ステップとを含み、
前記登録話者決定ステップでは、前記記憶部に、前記第2特徴量として、話者識別の対象である2以上の登録話者それぞれを特定できる第2特徴量が保存されている場合に、前記1以上の第2特徴量から特定される登録話者を削除する処理を行う、情報処理方法をコンピュータに実行させる、
プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018200354A JP7376985B2 (ja) | 2018-10-24 | 2018-10-24 | 情報処理方法、情報処理装置、及び、プログラム |
US16/658,769 US11417344B2 (en) | 2018-10-24 | 2019-10-21 | Information processing method, information processing device, and recording medium for determining registered speakers as target speakers in speaker recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018200354A JP7376985B2 (ja) | 2018-10-24 | 2018-10-24 | 情報処理方法、情報処理装置、及び、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020067566A JP2020067566A (ja) | 2020-04-30 |
JP7376985B2 true JP7376985B2 (ja) | 2023-11-09 |
Family
ID=70327189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018200354A Active JP7376985B2 (ja) | 2018-10-24 | 2018-10-24 | 情報処理方法、情報処理装置、及び、プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11417344B2 (ja) |
JP (1) | JP7376985B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7376985B2 (ja) * | 2018-10-24 | 2023-11-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理装置、及び、プログラム |
KR102737990B1 (ko) * | 2020-01-23 | 2024-12-05 | 삼성전자주식회사 | 음성 데이터를 이용하여 챗봇과 관련된 인공지능 모델을 학습시키는 전자 장치 및 방법 |
US11468900B2 (en) | 2020-10-15 | 2022-10-11 | Google Llc | Speaker identification accuracy |
US11955127B2 (en) * | 2021-02-24 | 2024-04-09 | Kyndryl, Inc. | Cognitive correlation of group interactions |
CN115579000B (zh) * | 2022-12-07 | 2023-03-03 | 中诚华隆计算机技术有限公司 | 一种用于语音识别芯片的智能修正方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004287201A (ja) | 2003-03-24 | 2004-10-14 | Seiko Epson Corp | 議事録作成装置及び方法、ならびに、コンピュータプログラム |
JP2006025079A (ja) | 2004-07-07 | 2006-01-26 | Nec Tokin Corp | ヘッドセット及び無線通信システム |
JP2009109712A (ja) | 2007-10-30 | 2009-05-21 | National Institute Of Information & Communication Technology | オンライン話者逐次区別システム及びそのコンピュータプログラム |
JP2009145924A (ja) | 2006-03-27 | 2009-07-02 | Pioneer Electronic Corp | 話者認識システム及びコンピュータプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120239400A1 (en) * | 2009-11-25 | 2012-09-20 | Nrc Corporation | Speech data analysis device, speech data analysis method and speech data analysis program |
JP6464650B2 (ja) | 2014-10-03 | 2019-02-06 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
US11600269B2 (en) * | 2016-06-15 | 2023-03-07 | Cerence Operating Company | Techniques for wake-up word recognition and related systems and methods |
WO2018053537A1 (en) * | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Improvements of speaker recognition in the call center |
US9990926B1 (en) * | 2017-03-13 | 2018-06-05 | Intel Corporation | Passive enrollment method for speaker identification systems |
US11417343B2 (en) * | 2017-05-24 | 2022-08-16 | Zoominfo Converse Llc | Automatic speaker identification in calls using multiple speaker-identification parameters |
US11227605B2 (en) * | 2017-09-11 | 2022-01-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice-controlled management of user profiles |
GB2567503A (en) * | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
JP7376985B2 (ja) * | 2018-10-24 | 2023-11-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理装置、及び、プログラム |
US11315550B2 (en) * | 2018-11-19 | 2022-04-26 | Panasonic Intellectual Property Corporation Of America | Speaker recognition device, speaker recognition method, and recording medium |
JP7266448B2 (ja) * | 2019-04-12 | 2023-04-28 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 話者認識方法、話者認識装置、及び話者認識プログラム |
US11580989B2 (en) * | 2019-08-23 | 2023-02-14 | Panasonic Intellectual Property Corporation Of America | Training method of a speaker identification model based on a first language and a second language |
-
2018
- 2018-10-24 JP JP2018200354A patent/JP7376985B2/ja active Active
-
2019
- 2019-10-21 US US16/658,769 patent/US11417344B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004287201A (ja) | 2003-03-24 | 2004-10-14 | Seiko Epson Corp | 議事録作成装置及び方法、ならびに、コンピュータプログラム |
JP2006025079A (ja) | 2004-07-07 | 2006-01-26 | Nec Tokin Corp | ヘッドセット及び無線通信システム |
JP2009145924A (ja) | 2006-03-27 | 2009-07-02 | Pioneer Electronic Corp | 話者認識システム及びコンピュータプログラム |
JP2009109712A (ja) | 2007-10-30 | 2009-05-21 | National Institute Of Information & Communication Technology | オンライン話者逐次区別システム及びそのコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20200135211A1 (en) | 2020-04-30 |
US11417344B2 (en) | 2022-08-16 |
JP2020067566A (ja) | 2020-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7376985B2 (ja) | 情報処理方法、情報処理装置、及び、プログラム | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
CN105161093B (zh) | 一种判断说话人数目的方法及系统 | |
US11222641B2 (en) | Speaker recognition device, speaker recognition method, and recording medium | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP5172973B2 (ja) | 音声認識装置 | |
US9424839B2 (en) | Speech recognition system that selects a probable recognition resulting candidate | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
JP2010032792A (ja) | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 | |
JP7604460B2 (ja) | ヒト話者の埋め込みを会話合成に適合させるためのシステムおよび方法 | |
KR101618512B1 (ko) | 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법 | |
WO2020240682A1 (ja) | 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム | |
US11580989B2 (en) | Training method of a speaker identification model based on a first language and a second language | |
US20220383880A1 (en) | Speaker identification apparatus, speaker identification method, and recording medium | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
JP2020060757A (ja) | 話者認識装置、話者認識方法、及び、プログラム | |
KR101023211B1 (ko) | 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법 | |
JP2021001988A (ja) | 音声認識装置、音声認識方法及び記憶媒体 | |
JPWO2020049687A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
CN109559759B (zh) | 具备增量注册单元的电子设备及其方法 | |
US20250069602A1 (en) | Voice recognition device, voice recognition method, and computer program product | |
Feng et al. | The CMU-MIT REVERB challenge 2014 system: Description and results | |
JP2005173008A (ja) | 音声解析処理およびそれを用いた音声処理装置および媒体 | |
JP2012242590A (ja) | 話者分類装置、話者分類方法、プログラム | |
Martínez González et al. | Influence of transition cost in the segmentation stage of speaker diarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211013 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230418 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231027 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7376985 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |