JP4791857B2 - 発話区間検出装置及び発話区間検出プログラム - Google Patents
発話区間検出装置及び発話区間検出プログラム Download PDFInfo
- Publication number
- JP4791857B2 JP4791857B2 JP2006056234A JP2006056234A JP4791857B2 JP 4791857 B2 JP4791857 B2 JP 4791857B2 JP 2006056234 A JP2006056234 A JP 2006056234A JP 2006056234 A JP2006056234 A JP 2006056234A JP 4791857 B2 JP4791857 B2 JP 4791857B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- utterance
- subword
- acoustic
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 109
- 230000007704 transition Effects 0.000 claims description 36
- 230000001186 cumulative effect Effects 0.000 claims description 35
- 230000000694 effects Effects 0.000 claims description 9
- 230000010354 integration Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 description 44
- 238000012545 processing Methods 0.000 description 24
- 238000003860 storage Methods 0.000 description 10
- 101100394003 Butyrivibrio fibrisolvens end1 gene Proteins 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 241000408659 Darpa Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Description
P. Renevey,et al.,"Entropy Based Voice Activity Detection in Vary Noisy Conditions",Eurospeech−2001,pp.1887−1890,2001.
本発明は、様々な音響環境のもとで話された人間の声の発話区間を、音声中からオンラインで迅速に自動検出する発話区間検出手法に関するものである。具体的には、複数の話者クラスタのサブワード音響モデルとサブワード言語モデルとを統合してサブワード・ネットワークを構成し、入力音声に対するサブワード(例えば、音素、音節、トライフォン等)単位の連続音声認識の実行中に、スピーチと非スピーチに対応する各サブワードにおける累積尤度を入力音声に同期して算出及び比較することにより、少ない遅れ時間で高精度に発話始端と発話終端を検出する。
図1は、本発明における発話区間検出装置の一構成例を示す図である。図1に示す発話区間検出装置10は、サブワード・ネットワーク統合手段11と、音響分析手段12と、連続音声認識手段13と、発話区間検出装置14とを有するよう構成されている。
ここで、上述したサブワード・ネットワークについて、具体的に説明する。図2は、話者クラスタ数を2とした場合のサブワード・ネットワークの一例を示す図である。
次に、連続音声認識手段13におけるサブワードの列及びそれらの累積尤度26の認識手法について具体的に説明する。図3は、発話始端における音声認識の一例を示す図である。また、図4は、発話終端における音声認識の一例を示す図である。
次に、発話区間検出手段14について具体的に説明する。発話区間検出手段14は、発話始端では、最尤サブワード列の累積尤度の対数値L1と、始端の非スピーチ音響モデルの累積尤度の対数値L2の差が一定の閾値θstartを超えた時、すなわち(L1−L2)>θstartとなる時、これを発話始端検出条件として、図3に示すように最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、所定の時間長tstart遡った時刻を発話始端時刻27とする。
ここで、上述した発話区間検出装置10は、上述した専用の装置構成等を用いて本発明における発話区間検出処理を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、サーバ等にそのプログラムをインストールすることにより、本発明に係る発話区間検出処理を実現することができる。
ここで、本発明における発話区間検出処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図5は、本発明における発話区間検出処理が実現可能なハードウェア構成の一例を示す図である。
次に、本発明における実行プログラム(発話区間検出プログラム)を用いた発話区間検出処理手順についてフローチャートを用いて説明する。図6は、発話区間検出処理手順の一例を示すフローチャートである。なお、図6に示す発話区間検出処理手順では、検出対象が発話始端であるか又は発話終端であるかを明確にするために検出対象パラメータを設けている。また、以下の説明では、検出対象のパラメータには、“始端”又は“終端”の何れかがセットされているものとして説明するが、本発明においてはこれに限定されるものではない。
11 サブワード・ネットワーク統合手段
12 音響分析手段
13 連続音声認識手段
14 発話区間検出装置
21 サブワード音響モデル
22 サブワード言語モデル
23 サブワード・ネットワーク
24 入力音声
25 音響特徴量
26 サブワードの列及びそれらの累積尤度
27 発話始端時刻
28 発話終端時刻
29 発話区間音声
31 発話検出開始状態
32 発話始端に相当する話者クラスタAの非スピーチ音響モデル
33 話者クラスタAのスピーチ音響モデル
34 発話終端に相当する話者クラスタAの非スピーチ音響モデル
35 発話始端に相当する話者クラスタBの非スピーチ音響モデル
36 話者クラスタBのスピーチ音響モデル
37 発話終端に相当する話者クラスタBの非スピーチ音響モデル
38 発話検出終了状態
41 入力装置
42 出力装置
43 ドライブ装置
44 補助記憶装置
45 メモリ装置
46 CPU
47 ネットワーク接続装置
48 記録媒体
Claims (4)
- 入力音声から発話区間を検出する発話区間検出装置において、
前記入力音声を音響特徴量に変換する音響分析手段と、
前記音響分析手段により得られる音響特徴量と、予め設定された音響モデル及び言語モデルからなるサブワード・ネットワークとを用いて、前記入力音声に同期して、音素又は音節に基づく各サブワードにおける累積尤度を逐次算出する連続音声認識手段と、
前記各サブワードにおける累積尤度から前記入力音声における発話始端と発話終端とを逐次検出する発話区間検出手段と、
音声と音声以外の音との音響的な特徴を表現する1又は複数の話者クラスタを有するサブワード音響モデルと、サブワード音響モデル間の遷移を表現するサブワード言語モデルとを用いて、前記サブワード・ネットワークを統合化するサブワード・ネットワーク統合手段とを有し、
前記連続音声認識手段は、前記サブワード・ネットワークにおける発話区間検出開始状態から非スピーチあるいはスピーチに対応する音響モデルに遷移した後、一定の時間長にわたって発話始端検出条件が満たされなかった場合に、非スピーチ音響モデルから発話区間検出開始状態に戻ると同時に、全ての音響モデルにおける累積尤度等の音声認識の途中結果をクリアし、発話区間検出開始時刻を更新して再度サブワード単位の連続音声認識を開始し、
前記サブワード・ネットワーク統合手段は、
前記発話区間検出開始状態から全ての話者クラスタの非スピーチに対応する音響モデルへの遷移、前記非スピーチ音響モデルからそれぞれの話者クラスタのスピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、一定の時間長にわたって非スピーチを吸収するために非スピーチ音響モデルから前記発話区間検出開始状態へ戻る遷移、各話者クラスタのスピーチに対応する音響モデル間でサブワード言語モデルにしたがった遷移、各話者クラスタのスピーチに対応する音響モデルから異なる話者クラスタのスピーチに対応する音響モデルへのペナルティ付き遷移、各話者クラスタのスピーチに対応する音響モデルからそれぞれの非スピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、前記発話終端検出条件にしたがった発話区間検出終了状態への遷移、及び前記発話区間検出終了状態から前記発話区間検出開始状態への遷移のうち、少なくとも1つの遷移を可能とするサブワード・ネットワークを構成し、
前記発話区間検出手段は、
発話始端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルのうち、最大の累積尤度と、発話区間検出開始状態の後続の同じ話者クラスタの非スピーチに対応する音響モデルの累積尤度との比を入力音声に同期して逐次算出し、算出された比の値と予め設定された閾値とに基づいて、最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、一定の時間長遡った時刻を発話始端として検出することを特徴とする発話区間検出装置。 - 前記発話区間検出手段は、
発話終端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルに後続する非スピーチに対応する音響モデルのうち最大の累積尤度と、同じ話者クラスタのスピーチに対応する音響モデルの最大の累積尤度との比を入力音声に同期して逐次算出し、算出された比の値が一定の時間長以上にわたって予め設定された閾値を超えていた場合、前記現時刻から一定の時間長遡った時刻を発話終端として検出することを特徴とする請求項1に記載の発話区間検出装置。 - 前記発話区間検出手段は、
前記発話始端及び前記発話終端の時刻情報に基づいて前記入力音声から発話区間の音声を出力することを特徴とする請求項1又は2に記載の発話区間検出装置。 - コンピュータを、請求項1乃至3の何れか1項に記載の発話区間検出装置が有する各手段として機能させるための発話区間検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006056234A JP4791857B2 (ja) | 2006-03-02 | 2006-03-02 | 発話区間検出装置及び発話区間検出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006056234A JP4791857B2 (ja) | 2006-03-02 | 2006-03-02 | 発話区間検出装置及び発話区間検出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007233148A JP2007233148A (ja) | 2007-09-13 |
JP4791857B2 true JP4791857B2 (ja) | 2011-10-12 |
Family
ID=38553790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006056234A Active JP4791857B2 (ja) | 2006-03-02 | 2006-03-02 | 発話区間検出装置及び発話区間検出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4791857B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4282704B2 (ja) | 2006-09-27 | 2009-06-24 | 株式会社東芝 | 音声区間検出装置およびプログラム |
JP2009169139A (ja) * | 2008-01-17 | 2009-07-30 | Alpine Electronics Inc | 音声認識装置 |
JP4950930B2 (ja) | 2008-04-03 | 2012-06-13 | 株式会社東芝 | 音声/非音声を判定する装置、方法およびプログラム |
JP5385876B2 (ja) * | 2010-08-30 | 2014-01-08 | 日本電信電話株式会社 | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 |
JP5737808B2 (ja) * | 2011-08-31 | 2015-06-17 | 日本放送協会 | 音響処理装置およびそのプログラム |
KR102563817B1 (ko) * | 2018-07-13 | 2023-08-07 | 삼성전자주식회사 | 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치 |
CN114746939A (zh) * | 2019-12-13 | 2022-07-12 | 三菱电机株式会社 | 信息处理装置、检测方法和检测程序 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08202384A (ja) * | 1995-01-20 | 1996-08-09 | Fuji Xerox Co Ltd | 音声認識方法及び装置 |
JP3006496B2 (ja) * | 1996-03-21 | 2000-02-07 | 日本電気株式会社 | 音声認識装置 |
JP3105465B2 (ja) * | 1997-03-14 | 2000-10-30 | 日本電信電話株式会社 | 音声区間検出方法 |
JP3873418B2 (ja) * | 1997-12-26 | 2007-01-24 | 三菱電機株式会社 | 音声スポッティング装置 |
JP3721948B2 (ja) * | 2000-05-30 | 2005-11-30 | 株式会社国際電気通信基礎技術研究所 | 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
JP4219603B2 (ja) * | 2002-03-04 | 2009-02-04 | 三菱電機株式会社 | 音声認識装置 |
JP2004094077A (ja) * | 2002-09-03 | 2004-03-25 | Nec Corp | 音声認識装置及び制御方法並びにプログラム |
JP4587160B2 (ja) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | 信号処理装置および方法 |
-
2006
- 2006-03-02 JP JP2006056234A patent/JP4791857B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2007233148A (ja) | 2007-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5218052B2 (ja) | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム | |
US5865626A (en) | Multi-dialect speech recognition method and apparatus | |
KR101120716B1 (ko) | 음성 특성에 기초한 전화 호출자들의 자동 식별 | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
JP6812843B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
EP1936606A1 (en) | Multi-stage speech recognition | |
JP2003316386A (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
JP4791857B2 (ja) | 発話区間検出装置及び発話区間検出プログラム | |
JP2009210617A (ja) | 発話区間検出システム、方法及びプログラム | |
JP2007500367A (ja) | 音声認識方法およびコミュニケーション機器 | |
JP6699748B2 (ja) | 対話装置、対話方法及び対話用コンピュータプログラム | |
WO2007046267A1 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
US7181395B1 (en) | Methods and apparatus for automatic generation of multiple pronunciations from acoustic data | |
JP2004198831A (ja) | 音声認識装置および方法、プログラム、並びに記録媒体 | |
JP5385876B2 (ja) | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 | |
CN110689887B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
JP4758919B2 (ja) | 音声認識装置及び音声認識プログラム | |
KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
Këpuska | Wake-up-word speech recognition | |
JP2009003008A (ja) | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム | |
JP4700522B2 (ja) | 音声認識装置及び音声認識プログラム | |
Philippou-Hübner et al. | The performance of the speaking rate parameter in emotion recognition from speech | |
EP1675102A2 (en) | Method for extracting feature vectors for speech recognition | |
KR20210081166A (ko) | 다국어 음성 환경에서의 언어 식별 장치 및 방법 | |
JP6487650B2 (ja) | 音声認識装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101013 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110628 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110722 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140729 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4791857 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |