JP4809918B2 - 音素分割装置、方法及びプログラム - Google Patents
音素分割装置、方法及びプログラム Download PDFInfo
- Publication number
- JP4809918B2 JP4809918B2 JP2009201990A JP2009201990A JP4809918B2 JP 4809918 B2 JP4809918 B2 JP 4809918B2 JP 2009201990 A JP2009201990 A JP 2009201990A JP 2009201990 A JP2009201990 A JP 2009201990A JP 4809918 B2 JP4809918 B2 JP 4809918B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- boundary
- phoneme boundary
- frame
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 19
- 238000001228 spectrum Methods 0.000 claims description 71
- 230000003595 spectral effect Effects 0.000 claims description 10
- 239000006185 dispersion Substances 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000007423 decrease Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
Images
Description
入力された音声は、音声特徴量抽出部1に入力される。音声特徴量抽出部1は、入力された音声を一定時間長のフレームに分割して、各フレームごとに音声特徴量を計算する(ステップS1)。各フレームの音声特徴量は、マッチングスコア計算部3に送られる。
予め推定された初期音素境界についての情報が、探索範囲決定部2に入力される。探索範囲決定部2は、予め推定された初期音素境界から、探索範囲を決定する(ステップS2)。探索範囲は、初期音素境界を含むフレーム区間であり、後述するマッチングスコア計算部3はそのフレーム区間に含まれる各フレームについてのマッチングスコアを計算する。
スペクトルテンプレート記憶部4には、各音素境界を構成する各フレームの音声特徴量を示すスペクトルテンプレートが記憶されている。スペクトルテンプレートは、例えば図7に示すように、音素境界を含む予め定められたフレーム区間の各フレームの音声特徴量と、その音素境界を構成する前音素、後音素のそれぞれの音素の中心を含む予め定められたフレーム区間の各フレームの音声特徴量とを含む。スペクトルテンプレートの中心は、音素境界を含むフレームである。
音素境界候補計算部5は、マッチングスコアが大きいフレームを初期音素境界の音素境界候補として選択する(ステップS4)各初期音素境界の音素境界候補についての情報は、最適音素境界探索部6に送られる。
最適音素境界探索部6は、Rを2以上の整数として、連続するR個の音素を区切る音素境界候補の組が複数ある場合には、音素境界候補の組のそれぞれについて探索スコアを求めて、探索スコアを最大にする音素境界候補の組を構成する音素境界を最適な音素境界とする(ステップS5)。
上記の例では、予め推定された初期音素境界が探索範囲決定部2に入力されたが、図1に破線で示す初期音素境界推定部8を設けて、初期音素境界推定部8が入力された音声から初期音素境界を推定して、その推定された初期音素境界についての情報を探索範囲決定部2を送ってもよい。初期音素境界の推定は既存の音素境界技術を用いる。この発明では初期音素境界を基にしてより精度の高い音素境界の推定を行うため、初期音素境界の推定は大まかな推定でよい。
2 探索範囲決定部
3 マッチングスコア計算部
31 スペクトルテンプレート選択部
32 距離計算部
33 フレーム選択部
34 累積部
35 制御部
4 スペクトルテンプレート記憶部
5 音素境界候補計算部
6 最適音素境界探索部
61 継続長スコア計算部
62 探索スコア計算部
63 最適候補列探索部
64 制御部
7 継続長分布記憶部
8 初期音素境界推定部
Claims (5)
- 入力された音声の各フレームの音声特徴量を抽出する音声特徴量抽出部と、
各音素境界を構成する各フレームの音声特徴量を示すスペクトルテンプレートが記憶されたスペクトルテンプレート記憶部と、
フレームのマッチングスコアをそのフレームをスペクトルテンプレートの中心とした場合に上記入力された音声との距離が最も近くなるスペクトルテンプレートの数として、上記スペクトルテンプレート記憶部から予め推定された初期音素境界に対応する複数のスペクトルテンプレートを読み込み、上記初期音素境界を含む予め定められたフレーム区間に含まれる各フレームを上記読み込んだ各スペクトルテンプレートの中心として上記読み込んだ各スペクトルテンプレートと上記入力された音声との距離を上記音声特徴量を用いて計算し、上記フレーム区間に含まれるフレームの中で上記各読み込んだスペクトルテンプレートと上記入力された音声との距離が最も近くなるフレームを求めて、各フレームのマッチングスコアを計算するマッチングスコア計算部と、
マッチングスコアの極大値に対応するフレームを上記初期音素境界の音素境界候補として決定する音素境界候補決定部と、
探索スコア関数は、音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長との差の絶対値について広義単調減少し、音素境界候補の組により分割される各音素の継続長の分散について広義単調増加し、音素境界候補の組の各音素境界候補のマッチングスコアについて広義単調増加する関数として、Rを2以上の整数として、連続するR個の音素を区切る音素境界候補の組が複数ある場合には、それらの音素境界候補の組のそれぞれの探索スコアを、上記探索スコア関数にその音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長と、複数の音素の継続長の分散が記憶された継続長分布記憶部から読み込んだその音素境界候補の組により分割される各音素の継続長の分散と、その音素境界候補の組の各音素境界候補のマッチングスコアとの少なくともひとつを入力して計算し、その探索スコアを最大にする音素境界候補の組を構成する音素境界を最適な音素境界とする最適音素境界探索部と、
を含む音素分割装置。 - 請求項1に記載の音素分割装置において、
スペクトルテンプレートは、音素境界を含む予め定められたフレーム区間の各フレームの音声特徴量と、その音素境界を構成する前音素、後音素のそれぞれの音素の中心を含む予め定められたフレーム区間の各フレームの音声特徴量とを含み、音素境界を含むフレームをスペクトルテンプレートの中心として、複数の音素境界のスペクトルテンプレートが記憶されたスペクトルテンプレート記憶部と、
上記マッチングスコア計算部は、上記初期音素境界を含むフレームと上記初期音素境界の前音素の中心を含むフレームとの距離だけ、上記読み込んだ各スペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する前音素の中心を含むフレームとの距離を離し、上記初期音素境界を含むフレームと上記初期音素境界の後音素の中心を含むフレームとの距離だけ、上記読み込んだ各スペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する後音素の中心を含むフレームとの距離を離して、上記読み込んだ各スペクトルテンプレートと上記入力された音声との距離を計算する、
ことを特徴とする音素分割装置。 - スペクトルテンプレート記憶部には、各音素境界を構成する各フレームの音声特徴量を示すスペクトルテンプレートが記憶されており、
音声特徴量抽出部が、入力された音声の各フレームの音声特徴量を抽出する音声特徴量抽出ステップと、
マッチングスコア計算部が、フレームのマッチングスコアをそのフレームをスペクトルテンプレートの中心とした場合に上記入力された音声との距離が最も近くなるスペクトルテンプレートの数として、上記スペクトルテンプレート記憶部から予め推定された初期音素境界に対応する複数のスペクトルテンプレートを読み込み、上記初期音素境界を含む予め定められたフレーム区間に含まれる各フレームを上記読み込んだ各スペクトルテンプレートの中心として上記読み込んだ各スペクトルテンプレートと上記入力された音声との距離を上記音声特徴量を用いて計算し、上記フレーム区間に含まれるフレームの中で上記各読み込んだスペクトルテンプレートと上記入力された音声との距離が最も近くなるフレームを求めて、各フレームのマッチングスコアを計算するマッチングスコア計算ステップと、
音素境界候補決定部が、マッチングスコアの極大値に対応するフレームを上記初期音素境界の音素境界候補として決定する音素境界候補決定ステップと、
最適音素境界探索部が、探索スコア関数は、音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長との差の絶対値について広義単調減少し、音素境界候補の組により分割される各音素の継続長の分散について広義単調増加し、音素境界候補の組の各音素境界候補のマッチングスコアについて広義単調増加する関数として、Rを2以上の整数として、連続するR個の音素を区切る音素境界候補の組が複数ある場合には、それらの音素境界候補の組のそれぞれの探索スコアを、上記探索スコア関数にその音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長と、複数の音素の継続長の分散が記憶された継続長分布記憶部から読み込んだその音素境界候補の組により分割される各音素の継続長の分散と、その音素境界候補の組の各音素境界候補のマッチングスコアとの少なくともひとつを入力して計算し、その探索スコアを最大にする音素境界候補の組を構成する音素境界を最適な音素境界とする最適音素境界探索ステップと、
を含む音素分割方法。 - 請求項3に記載の音素分割方法において、
スペクトルテンプレートは、音素境界を含む予め定められたフレーム区間の各フレームの音声特徴量と、その音素境界を構成する前音素、後音素のそれぞれの音素の中心を含む予め定められたフレーム区間の各フレームの音声特徴量とを含み、音素境界を含むフレームをスペクトルテンプレートの中心とし、スペクトルテンプレート記憶部には、複数の音素境界のスペクトルテンプレートが記憶されており、
上記マッチングスコア計算ステップは、上記初期音素境界を含むフレームと上記初期音素境界の前音素の中心を含むフレームとの距離だけ、上記読み込んだ各スペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する前音素の中心を含むフレームとの距離を離し、上記初期音素境界を含むフレームと上記初期音素境界の後音素の中心を含むフレームとの距離だけ、上記読み込んだ各スペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する後音素の中心を含むフレームとの距離を離して、上記読み込んだ各スペクトルテンプレートと上記入力された音声との距離を計算する、
ことを特徴とする音素分割方法。 - 請求項1又は2に記載された音素分割装置の各部としてコンピュータを機能させるための音素分割プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009201990A JP4809918B2 (ja) | 2009-09-01 | 2009-09-01 | 音素分割装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009201990A JP4809918B2 (ja) | 2009-09-01 | 2009-09-01 | 音素分割装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011053425A JP2011053425A (ja) | 2011-03-17 |
JP4809918B2 true JP4809918B2 (ja) | 2011-11-09 |
Family
ID=43942490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009201990A Active JP4809918B2 (ja) | 2009-09-01 | 2009-09-01 | 音素分割装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4809918B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH067346B2 (ja) * | 1984-08-14 | 1994-01-26 | シャープ株式会社 | 音声認識装置 |
JP2924555B2 (ja) * | 1992-10-02 | 1999-07-26 | 三菱電機株式会社 | 音声認識の境界推定方法及び音声認識装置 |
JP3171107B2 (ja) * | 1996-04-26 | 2001-05-28 | 日本電気株式会社 | 音声認識装置 |
JP2996925B2 (ja) * | 1997-03-10 | 2000-01-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音素境界検出装置及び音声認識装置 |
-
2009
- 2009-09-01 JP JP2009201990A patent/JP4809918B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011053425A (ja) | 2011-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3955246B1 (en) | Voiceprint recognition method and device based on memory bottleneck feature | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
TWI471854B (zh) | 引導式語者調適語音合成的系統與方法及電腦程式產品 | |
US10497362B2 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
US8990086B2 (en) | Recognition confidence measuring by lexical distance between candidates | |
WO2014117547A1 (en) | Method and device for keyword detection | |
CN108630200B (zh) | 声音关键字检测装置以及声音关键字检测方法 | |
JP6011565B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
EP2879130A1 (en) | Methods and systems for splitting a digital signal | |
WO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
CN106847259A (zh) | 一种音频关键词模板的筛选和优化方法 | |
JP5229124B2 (ja) | 話者照合装置、話者照合方法およびプログラム | |
CN112750445A (zh) | 语音转换方法、装置和系统及存储介质 | |
JP6996570B2 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
AU2020205275A1 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
JP2016177045A (ja) | 音声認識装置および音声認識プログラム | |
JP4809918B2 (ja) | 音素分割装置、方法及びプログラム | |
US9355636B1 (en) | Selective speech recognition scoring using articulatory features | |
JP2017187642A (ja) | 登録発話分割装置、話者らしさ評価装置、話者識別装置、登録発話分割方法、話者らしさ評価方法、プログラム | |
JP4809913B2 (ja) | 音素分割装置、方法及びプログラム | |
JP6000326B2 (ja) | 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム | |
CN110419078A (zh) | 自动语音识别系统的用户记录关键字的质量反馈 | |
JP5749186B2 (ja) | 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム | |
JP2009058548A (ja) | 音声検索装置 | |
JP6274015B2 (ja) | 音響モデル調整装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110711 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110721 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110809 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110819 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140826 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4809918 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |