JP4809913B2 - 音素分割装置、方法及びプログラム - Google Patents
音素分割装置、方法及びプログラム Download PDFInfo
- Publication number
- JP4809913B2 JP4809913B2 JP2009159513A JP2009159513A JP4809913B2 JP 4809913 B2 JP4809913 B2 JP 4809913B2 JP 2009159513 A JP2009159513 A JP 2009159513A JP 2009159513 A JP2009159513 A JP 2009159513A JP 4809913 B2 JP4809913 B2 JP 4809913B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- phoneme boundary
- boundary time
- unit
- phonemes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
入力された音声は、音声特徴量抽出部1に入力される。音声特徴量抽出部1は、入力された音声を一定時間長のフレームに分割して、各フレームごとに音声特徴量を計算する(ステップS1)。各フレームの音声特徴量は、第一音素境界時刻推定部2に送られる。
音声特徴量記憶部6には、複数の音素の音声特徴量についての統計量が記憶されているとする。例えば、音素の統計的なスペクトルパターンが、音声認識等でよく用いられるHMM(隠れマルコフモデル)、ベクトル量子化、ニューラルネットワーク等の形態で記憶されているとする。
音素境界時刻推定結果信頼性判定部3は、第一音素境界時刻推定部2が推定した音素境界時刻が信頼できるかどうか判定する(ステップS3)。音素境界時刻が信頼できるかどうかの判定結果である信頼性判定結果は、第二音素境界時刻推定部4に送られる。
図2に、例1による音素境界時刻推定結果信頼性判定部3の機能ブロック図を示す。
図3に、例2による音素境界時刻推定結果信頼性判定部3の機能ブロック図を示す。図6に、例2による処理の流れ図を示す。
継続長分布記憶部7には、複数の音素の継続長の平均値及び分散が記憶されている。
=20+(0.003/(0.003+0.012+0.005))・(180−(20+95+45))
=20+(0.003/0.020)・20
=23
2 第一音素境界時刻推定部
3 音素境界時刻推定結果信頼性判定部
31 条件信頼性判定部
32 信頼性判定用条件記憶部
33 尤度変化度計算部
34 尤度信頼性判定部
4 第二音素境界時刻推定部
41 音素継続長最尤推定部
42 音素境界時刻決定部
5 詳細音素境界時刻推定部
6 音声特徴量記憶部
7 継続長分布記憶部
Claims (6)
- 入力された音声の各フレームの音声特徴量を抽出する音声特徴量抽出部と、
複数の音素の音声特徴量についての統計量が記憶された音声特徴量記憶部と、
上記音声特徴量及び上記音声特徴量記憶部から読み込んだ統計量を用いて、各上記フレームに最も尤もらしい音素を割り当てて、連続する2つのフレームで割り当てられた音素が異なる場合に、それらの2つのフレームに亘る時間範囲に含まれる時刻の何れかを音素境界時刻とすることにより音素境界時刻を推定する第一音素境界時刻推定部と、
上記音素境界時刻が信頼できるかどうか判定する音素境界時刻推定結果信頼性判定部と、
複数の音素の継続長の平均値及び分散が記憶された継続長分布記憶部と、
音素境界時刻が信頼できないと判定された音素境界を構成する各音素に、その各音素の上記継続長分布記憶部から読み込んだ継続長の、平均値が大きいほど長く、分散が大きいほど大きく伸縮した時間を割り当てることにより、その音素境界時刻が信頼できないと判定された音素境界の音素境界時刻を推定する第二音素境界時刻推定部と、
を含む音素分割装置。 - 請求項1に記載された音素分割装置において、
上記音素境界時刻推定結果信頼性判定部は、信頼することができない音素境界時刻に対応する連続する2つのフレームに割り当てられた音素についての条件が記憶された信頼性判定用条件記憶部と、上記音素境界時刻に対応する連続する2つのフレームに割り当てられた音素が上記信頼性判定用条件記憶部から読み出した条件を満たす場合には上記音素境界は信頼できないと判定する条件信頼性判定部と、を含む、
ことを特徴とする音素分割装置。 - 請求項1に記載された音素分割装置において、
上記第一音素境界時刻推定部は、各上記フレームに各音素を割り当てたときの尤もらしさである尤度を計算して、最も尤度が高い音素を各上記フレームに割り当てる、
ことを特徴とする音素分割装置。 - 請求項3に記載された音素分割装置において、
上記音素境界時刻推定結果信頼性判定部は、上記音素境界時刻のフレームを含む所定の数のフレームに割り当てられた音素の上記尤度の変化の大きさを示す指標である尤度変化度を求める尤度変化度計算部と、その尤度変化度が所定の閾値以下であれば、上記音素境界時刻は信頼できないと判定する尤度信頼性判定部と、を含む、
ことを特徴とする音素分割装置。 - 音声特徴量記憶部には、複数の音素の音声特徴量についての統計量が記憶されており、
継続長分布記憶部には、複数の音素の継続長の平均値及び分散が記憶されており、
音声特徴量抽出部が、入力された音声の各フレームの音声特徴量を抽出する音声特徴量抽出ステップと、
第一音素境界時刻推定部が、上記音声特徴量及び上記音声特徴量記憶部から読み込んだ統計量を用いて、各上記フレームに最も尤もらしい音素を割り当てて、連続する2つのフレームで割り当てられた音素が異なる場合に、それらの2つのフレームに亘る時間範囲に含まれる時刻の何れかを音素境界時刻とすることにより音素境界時刻を推定する第一音素境界時刻推定ステップと、
音素境界時刻推定結果信頼性判定が、上記音素境界時刻が信頼できるかどうか判定する音素境界時刻推定結果信頼性判定ステップと、
第二音素境界時刻推定部が、音素境界時刻が信頼できないと判定された音素境界を構成する各音素に、その各音素の上記継続長分布記憶部から読み込んだ継続長の、平均値が大きいほど長く、分散が大きいほど大きく伸縮した時間を割り当てることにより、その音素境界時刻が信頼できないと判定された音素境界の音素境界時刻を推定する第二音素境界時刻推定ステップと、
を含む音素分割方法。 - 請求項1から4の何れかに記載された音素分割装置の各部としてコンピュータを機能させるための音素分割プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009159513A JP4809913B2 (ja) | 2009-07-06 | 2009-07-06 | 音素分割装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009159513A JP4809913B2 (ja) | 2009-07-06 | 2009-07-06 | 音素分割装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011013594A JP2011013594A (ja) | 2011-01-20 |
JP4809913B2 true JP4809913B2 (ja) | 2011-11-09 |
Family
ID=43592513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009159513A Active JP4809913B2 (ja) | 2009-07-06 | 2009-07-06 | 音素分割装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4809913B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017015847A (ja) * | 2015-06-30 | 2017-01-19 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
WO2022113214A1 (ja) * | 2020-11-25 | 2022-06-02 | 日本電信電話株式会社 | ラベリング処理方法、ラベリング処理装置およびラベリング処理プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09244681A (ja) * | 1996-03-12 | 1997-09-19 | N T T Data Tsushin Kk | 音声セグメント方法及び装置 |
JP3171107B2 (ja) * | 1996-04-26 | 2001-05-28 | 日本電気株式会社 | 音声認識装置 |
JP3854713B2 (ja) * | 1998-03-10 | 2006-12-06 | キヤノン株式会社 | 音声合成方法および装置および記憶媒体 |
JP2001306087A (ja) * | 2000-04-26 | 2001-11-02 | Ricoh Co Ltd | 音声データベース作成装置および音声データベース作成方法および記録媒体 |
-
2009
- 2009-07-06 JP JP2009159513A patent/JP4809913B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011013594A (ja) | 2011-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3955246B1 (en) | Voiceprint recognition method and device based on memory bottleneck feature | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
US9536547B2 (en) | Speaker change detection device and speaker change detection method | |
KR101942521B1 (ko) | 음성 엔드포인팅 | |
CN105869624B (zh) | 数字语音识别中语音解码网络的构建方法及装置 | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
US9031841B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
US8990086B2 (en) | Recognition confidence measuring by lexical distance between candidates | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
Wang et al. | Shifted-delta MLP features for spoken language recognition | |
WO2015017060A1 (en) | Speech recognition using neural networks | |
US20190180758A1 (en) | Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program | |
EP4018439B1 (en) | Systems and methods for adapting human speaker embeddings in speech synthesis | |
WO2018051945A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
KR20120077527A (ko) | 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법 | |
JP4809913B2 (ja) | 音素分割装置、方法及びプログラム | |
JP6420198B2 (ja) | 閾値推定装置、音声合成装置、その方法及びプログラム | |
KR101023211B1 (ko) | 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법 | |
Ko et al. | A Fully Automated Derivation of State-Based Eigentriphones for Triphone Modeling with No Tied States Using Regularization. | |
KR101229108B1 (ko) | 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 | |
JP4864783B2 (ja) | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 | |
JPH11212588A (ja) | 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Oonishi et al. | A noise-robust speech recognition approach incorporating normalized speech/non-speech likelihood into hypothesis scores | |
JP7216348B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP4809918B2 (ja) | 音素分割装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110711 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110809 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110819 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140826 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4809913 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |