[go: up one dir, main page]

JP4809918B2 - 音素分割装置、方法及びプログラム - Google Patents

音素分割装置、方法及びプログラム Download PDF

Info

Publication number
JP4809918B2
JP4809918B2 JP2009201990A JP2009201990A JP4809918B2 JP 4809918 B2 JP4809918 B2 JP 4809918B2 JP 2009201990 A JP2009201990 A JP 2009201990A JP 2009201990 A JP2009201990 A JP 2009201990A JP 4809918 B2 JP4809918 B2 JP 4809918B2
Authority
JP
Japan
Prior art keywords
phoneme
boundary
phoneme boundary
frame
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009201990A
Other languages
English (en)
Other versions
JP2011053425A (ja
Inventor
孝 中村
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009201990A priority Critical patent/JP4809918B2/ja
Publication of JP2011053425A publication Critical patent/JP2011053425A/ja
Application granted granted Critical
Publication of JP4809918B2 publication Critical patent/JP4809918B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声から、音素の境界時刻を自動的に決定する技術に関する。
事前に決定された音素境界の前後に探索窓を設定し、音素境界付近のスペクトルパターンを学習したマルコフモデルを用いて、更に精度が高い音素境界を求める技術が知られている(例えば、非特許文献1参照)。
Lijuan Wang, Yong Zhao, Min Chu, Frank K. Soong, Jian-Lai Zhou and Zhigang Cao, "Context-Dependent Boundary Model for Refining Boundaries Segmentation of TTS Units," IEICE Transactions 89-D(3), pp.1082-1091, 2006
しかしながら、非特許文献1では、各音素境界を独立して推定しており、推定された音素境界が全体として最適になっていないという課題があった。
上記の課題を解決するために、スペクトルテンプレート記憶部には、各音素境界を構成する各フレームの音声特徴量を示すスペクトルテンプレート記憶されており、入力された音声の各フレームの音声特徴量を抽出する。フレームのマッチングスコアをそのフレームをスペクトルテンプレートの中心とした場合に上記入力された音声との距離が最も近くなるスペクトルテンプレートの数として、上記スペクトルテンプレート記憶部から予め推定された初期音素境界に対応する複数のスペクトルテンプレートを読み込み、上記初期音素境界を含む予め定められたフレーム区間に含まれる各フレームを上記読み込んだ各スペクトルテンプレートの中心として上記読み込んだ各スペクトルテンプレートと上記入力された音声との距離を上記音声特徴量を用いて計算し、上記フレーム区間に含まれるフレームの中で上記各読み込んだスペクトルテンプレートと上記入力された音声との距離が最も近くなるフレームを求めて、各フレームのマッチングスコアを計算する。マッチングスコアの極大値に対応するフレームを上記初期音素境界の音素境界候補として決定する。探索スコア関数は、音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長との差の絶対値について広義単調減少し、音素境界候補の組により分割される各音素の継続長の分散について広義単調増加し、音素境界候補の組の各音素境界候補のマッチングスコアについて広義単調増加する関数として、Rを2以上の整数として、連続するR個の音素を区切る音素境界候補の組が複数ある場合には、それらの音素境界候補の組のそれぞれの探索スコアを、上記探索スコア関数にその音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長と、複数の音素の継続長の分散記憶された継続長分布記憶部から読み込んだその音素境界候補の組により分割される各音素の継続長の分散と、その音素境界候補の組の各音素境界候補のマッチングスコアとの少なくともひとつを入力して計算し、その探索スコアを最大にする音素境界候補の組を構成する音素境界を最適な音素境界とする。
連続するR個の音素を区切る音素境界候補の組が複数ある場合には、それらの連続するR個の音素の全体を考慮して最適な音素境界候補の組を選択することにより、音素境界の推定の精度が従来よりも高くなる。
音素分割装置の例の機能ブロック図。 マッチングスコア計算部の例の機能ブロック図。 最適音素境界探索部の例の機能ブロック図。 音素分割方法の例の流れ図。 マッチングスコア計算部の処理の例の流れ図。 最適音素境界探索部の処理の例の流れ図。 スペクトルテンプレートを説明するための図。 音素境界候補計算部の処理を説明するための図。 最適音素境界探索部の処理を説明するための図。
以下、この発明の実施形態を詳細に説明する。
図1は、この発明による音素分割装置の例の機能ブロック図である。図4は、この発明による音素分割方法の例の流れ図である。
音素分割装置は、音声特徴量抽出部1、探索範囲決定部2、マッチングスコア計算部3、スペクトルテンプレート記憶部4、音素境界候補計算部5、最適音素境界探索部6、継続長分布記憶部7を例えば含む。
<ステップS1>
入力された音声は、音声特徴量抽出部1に入力される。音声特徴量抽出部1は、入力された音声を一定時間長のフレームに分割して、各フレームごとに音声特徴量を計算する(ステップS1)。各フレームの音声特徴量は、マッチングスコア計算部3に送られる。
音声特徴量としては、その音声特徴量を用いてフレームに音素を割り当てることができるものであればどのような音声特徴量を用いてもよい。例えば、音声特徴量として、音声認識等でよく用いられるMFCC、ケプストラム、メルケプストラム、フィルタバンク、メルフィルタバンク等を用いることができる。
<ステップS2>
予め推定された初期音素境界についての情報が、探索範囲決定部2に入力される。探索範囲決定部2は、予め推定された初期音素境界から、探索範囲を決定する(ステップS2)。探索範囲は、初期音素境界を含むフレーム区間であり、後述するマッチングスコア計算部3はそのフレーム区間に含まれる各フレームについてのマッチングスコアを計算する。
例えばnを0から1までの実数として、初期音素境界によって区切られるモーラ(ポーズ除く)の平均長のn倍を探索範囲とする。例えばnを0.5〜0.7とする。
<ステップS3>
スペクトルテンプレート記憶部4には、各音素境界を構成する各フレームの音声特徴量を示すスペクトルテンプレートが記憶されている。スペクトルテンプレートは、例えば図7に示すように、音素境界を含む予め定められたフレーム区間の各フレームの音声特徴量と、その音素境界を構成する前音素、後音素のそれぞれの音素の中心を含む予め定められたフレーム区間の各フレームの音声特徴量とを含む。スペクトルテンプレートの中心は、音素境界を含むフレームである。
音素境界を含む予め定められたフレーム区間の各フレームの音声特徴量のうち、音素境界を含むフレームを音素境界パタン、音素境界を含まないフレームの音声特徴量(音素境界を含むフレームの前後のフレームの音声特徴量)を音声境界近傍パタン、音素境界を構成する前音素、後音素のそれぞれの音素の中心を含む予め定められたフレーム区間の各フレームの音声特徴量を音素中心近傍パタンと呼ぶ。
マッチングスコア計算部3は、初期音素境界を含むフレーム区間(探索範囲)に含まれる各フレームについてのマッチングスコアを計算する(ステップS3)。各フレームのマッチングスコアは、音素境界候補計算部5に送られる。フレームのマッチングスコアは、そのフレームをスペクトルテンプレートの中心とした場合に上記入力された音声との距離が最も近くなるスペクトルテンプレートの数である。
以下、マッチングスコア計算部3の具体例について説明する。マッチングスコア計算部3は、図2に例示するように、スペクトルテンプレート選択部31、距離計算部32、フレーム選択部33、累積部34、制御部35を含む。マッチングスコア計算部3の処理の流れを図5に例示する。
スペクトルテンプレート選択部31は、スペクトルテンプレート記憶部4から予め推定された初期音素境界に対応する複数のスペクトルテンプレートを読み込む(ステップS31)。例えば、初期音素境界を構成する2つの音素が共通する音素境界のスペクトルテンプレート、すなわち初期音素境界が/A/−/W/である場合には、音素境界/A/−/W/のスペクトルテンプレートを読み込む。また、調音方法、調音位置、有声/無声の少なくともひとつが一致するスペクトルテンプレートを読み込んでもよい。スペクトルテンプレート選択部31が読み込んだ初期音素境界に対応する音素境界のスペクトルテンプレートの数をNとする。
距離計算部32は、初期音素境界を含む予め定められたフレーム区間に含まれる各フレームを上記読み込んだ各スペクトルテンプレートの中心として上記読み込んだ各スペクトルテンプレートと入力された音声との距離を音声特徴量を用いて計算する(ステップS32)。距離としては、コサイン距離、ユークリッド距離、マハラノビス距離の何れかを用いることができる。
例えば次式により、スペクトルテンプレートnの中心をフレームmとした場合の、スペクトルテンプレートnと入力された音声との距離d(m,n)を計算する。計算された距離d(m,n)は、フレーム選択部33に送られる。
Figure 0004809918
Vは音声特徴量の次元の数、αは音声境界近傍パタンのフレームの数、βは音素中心近傍パタンの中心フレームを除き中心フレームから左又は右にあるフレームの数、Cref(m,v)は入力された音声のフレームmの音声特徴量のv次元目の値、Ctem,Bound(n,v)はスペクトルテンプレートnの音素境界パタンの音声特徴量のv次元目の値、Ctem,Center,L(i,n,v)はスペクトルテンプレートnの前音素の音素中心近傍パタンの左からi番目のフレームの音声特徴量のv次元目の値、Ctem,Center,R(i,n,v)はスペクトルテンプレートnの後音素の音素中心近傍パタンの左からi番目のフレームの音声特徴量のv次元目の値、Ctem,Round,L(i,n,v)はスペクトルテンプレートnの左側の音素境界近傍パタンの左からi番目のフレームの音声特徴量のv次元目の値、Ctem,Round,R(i,n,v)はスペクトルテンプレートnの右側の音素境界近傍パタンの左からi番目のフレームの音声特徴量のv次元目の値、Lは初期音素境界が含まれるフレームと初期音素境界の前音素の中心を含むフレームとの距離、Lは初期音素境界が含まれるフレームと初期音素境界の後音素の中心を含むフレームとの距離である。L及びLの単位はフレームの数である。距離計算部32が、初期音素境界についての情報からL及びLを求める。
このように、初期音素境界を含むフレームと初期音素境界の前音素の中心を含むフレームとの距離だけスペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する前音素の中心を含むフレームとの距離を離し、初期音素境界を含むフレームと初期音素境界の後音素の中心を含むフレームとの距離だけスペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する後音素の中心を含むフレームとの距離を離して、スペクトルテンプレートと入力された音声との距離を計算することにより、入力された音声の発話速度に対応させた距離計算が可能となり、音素境界の推定精度が増す。
フレーム選択部33は、スペクトルテンプレートnについて、距離d(m,n)を最小にするフレームを、探索範囲のフレームRの中から選択する(ステップS33)。例えば、S(・)を以下に示すサブスコア関数として、S(d(m,n))を計算して、最小にするフレームを1としてカウントする。サブスコア関数値S(d(m,n))は、累積部34に送られる。
Figure 0004809918
制御部35がn=Nであるかどうかを判定し(ステップS34)、n=NであればステップS35に進み、n=Nでなければnを1インクリメントして(ステップS36)、ステップS31に戻る。これにより、各スペクトルテンプレートについてn(n=1,…,N)について、ステップS32からステップS33の処理を行う。Nは、スペクトルテンプレート選択部31が読み込んだ初期音素境界に対応する音素境界のスペクトルテンプレートの数である。
累積部34は、スペクトルテンプレートn(n=1,…,N)についてのS(d(m,n))を加算して、その加算値をフレームmについてのマッチングスコアMS(m)とする(ステップS35)。
Figure 0004809918
上記式では、スペクトルテンプレートnについてのS(d(m,n))について重みを考慮していないが、下記式のように重みを考慮してS(d(m,n))を加算してもよい。
Figure 0004809918
はスペクトルテンプレートnの重みであり、例えば0から1までの実数であり、求める仕様、性能に応じて適宜設定される。例えば、初期音素境界を構成する音素とスペクトルテンプレートnの音素境界を構成する音素とが一致していればそのスペクトルテンプレートnの重みw=1とし、調和方法が一致していれば重みw=0.8とし、調和位置が一致していれば重みw=0.6とする。すなわち、初期音素境界とスペクトルテンプレートの一致度が高いほど重みを大きくする。
<ステップS4>
音素境界候補計算部5は、マッチングスコアが大きいフレームを初期音素境界の音素境界候補として選択する(ステップS4)各初期音素境界の音素境界候補についての情報は、最適音素境界探索部6に送られる。
例えば、マッチングスコアの極大値に対応するフレームを初期音素境界の音素境界候補として選択する。例えばある初期音素境界を含む探索範囲のフレーム区間のマッチングスコアが図8に示すように与えられる場合には、2つの極大値に対応するフレームm、mがその初期音素境界に対応する音素境界候補として選択される。図8はイメージ図であるため、フレームとマッチングスコアの関係を表すグラフを連続関数として記載しているが、フレーム番号は離散値であるため実際にはフレームとマッチングスコアの関係を表すグラフは不連続関数となる。
<ステップS5>
最適音素境界探索部6は、Rを2以上の整数として、連続するR個の音素を区切る音素境界候補の組が複数ある場合には、音素境界候補の組のそれぞれについて探索スコアを求めて、探索スコアを最大にする音素境界候補の組を構成する音素境界を最適な音素境界とする(ステップS5)。
図9を用いてR=3の場合を例に挙げて、最適音素境界探索部6の処理のイメージを説明する。初期音素境界/A/−/W/の音素境界候補がA1、A2の2つあり、初期音素境界/W/−/A/の音素境界候補がB1、B2の2つある場合には、図9に示すように、音素境界候補の組は4(=2×2)個ある。すなわち、(A1,B1)の音素境界候補の組、(A1,B2)の音素境界候補の組、(A2,B1)の音素境界候補の組、(A2,B2)の音素境界候補の組がある。最適音素境界探索部6は、各音素境界候補の組についての探索スコアを求めて、探索スコアを最大にする音素境界候補の組を構成する音素境界を最適な音素境界とする。
探索スコアは、音素境界候補の組の確からしさを表す指標であり、探索スコア関数の値を計算することにより計算される。探索スコア関数は、例えば、音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長との差の絶対値について広義単調減少し、音素境界候補の組により分割される各音素の継続長の分散について広義単調増加し、音素境界候補の組の各音素境界候補のマッチングスコアについて広義単調増加する関数である。探索スコア関数を以下に例示する。
Figure 0004809918
prはr番目の音素のマッチングスコアである。r番目の音素とr−1番目の音素との音素境界のマッチングスコア、又は、r番目の音素とr+1番目の音素との音素境界のマッチングスコアをr番目の音素のマッチングスコアとする。w、wは重みであり、例えば0から1の範囲で0.1刻みで変えて行き、音素境界推定結果が最も良好になる重みを用いる。
drはr番目の音素の継続長スコアであり、dは音素境界候補の組により区切られるr番目の音素の継続長、m’は初期音素境界の組により区切られるr番目の音素の継続長、σ はr番目の音素の継続長の分散である。
最適音素境界探索部6は、図3に例示するように、継続長スコア計算部61、探索スコア計算部62、最適候補列探索部63、制御部64を含む。最適音素境界探索部6の処理の流れを図6に例示する。
制御部64はr=1とする(ステップS51)。
継続長スコア計算部61は、音素境界候補の組により区切られるr番目の音素の継続長dとr番目の音素に対応する初期音素境界の組により区切られるr番目の音素の継続長m’と、複数の音素の継続長の分散を記憶する継続長分布記憶部7から読み込んだそのr番目の音素の継続長の分散とを用いて、例えば(2)式により定義されるr番目の音素の継続長スコアを計算する(ステップS52)。計算された継続長スコアSdrは探索スコア計算部62に送られる。
制御部64がr=Rであるかどうかを判定し(ステップS53)、r=RであればステップS55に進み、r=Rでなければrを1インクリメントして(ステップS54)、ステップS52に戻る。これにより、r(r=1,…,R)番目の音素のそれぞれについての継続長スコアSdrを計算する。
探索スコア計算部62は、計算された継続長スコアSdrと、音素境界候補の組の各音素境界候補のマッチングスコアとを用いて、例えば(1)式により定義される探索スコアを計算する(ステップS55)。計算された探索スコアは、最適候補列探索部63に送られる。
制御部64は、音素境界候補の組の全てについて探索スコアを計算したかを判断して(ステップS56)、まだ探索スコアを計算していない音素境界候補の組がある場合には、そのまだ探索スコアを計算していない音素境界候補の組についてステップS51からステップS55の処理を行わせる。これにより、音素境界候補の組の全てについての探索スコアを計算する。
最適候補列探索部63は、探索スコアを最大にする音素境界候補の組を選択して、その音素境界候補の組を構成する音素境界を最適な音素境界とする(ステップS57)。
このように、連続するR個の音素を区切る音素境界候補の組が複数ある場合には、それらの連続するR個の音素の全体を考慮して最適な音素境界候補の組を選択することにより、音素境界の推定の精度が従来よりも高くなる。
[変形例]
上記の例では、予め推定された初期音素境界が探索範囲決定部2に入力されたが、図1に破線で示す初期音素境界推定部8を設けて、初期音素境界推定部8が入力された音声から初期音素境界を推定して、その推定された初期音素境界についての情報を探索範囲決定部2を送ってもよい。初期音素境界の推定は既存の音素境界技術を用いる。この発明では初期音素境界を基にしてより精度の高い音素境界の推定を行うため、初期音素境界の推定は大まかな推定でよい。
上記の例では、探索スコア関数は、上記探索スコア関数にその音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長と、複数の音素の継続長の分散を記憶する継続長分布記憶部から読み込んだその音素境界候補の組により分割される各音素の継続長の分散と、その音素境界候補の組の各音素境界候補のマッチングスコアとの全てを入力としたが、これらの少なくともひとつを入力することにより探索スコア関数の値を計算してもよい。
音素分割装置は、コンピュータによって実現することができる。この場合、この装置が有すべき各機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、これ装置における各処理機能が、コンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、これらの装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
1 音声特徴量抽出部
2 探索範囲決定部
3 マッチングスコア計算部
31 スペクトルテンプレート選択部
32 距離計算部
33 フレーム選択部
34 累積部
35 制御部
4 スペクトルテンプレート記憶部
5 音素境界候補計算部
6 最適音素境界探索部
61 継続長スコア計算部
62 探索スコア計算部
63 最適候補列探索部
64 制御部
7 継続長分布記憶部
8 初期音素境界推定部

Claims (5)

  1. 入力された音声の各フレームの音声特徴量を抽出する音声特徴量抽出部と、
    各音素境界を構成する各フレームの音声特徴量を示すスペクトルテンプレート記憶されたスペクトルテンプレート記憶部と、
    フレームのマッチングスコアをそのフレームをスペクトルテンプレートの中心とした場合に上記入力された音声との距離が最も近くなるスペクトルテンプレートの数として、上記スペクトルテンプレート記憶部から予め推定された初期音素境界に対応する複数のスペクトルテンプレートを読み込み、上記初期音素境界を含む予め定められたフレーム区間に含まれる各フレームを上記読み込んだ各スペクトルテンプレートの中心として上記読み込んだ各スペクトルテンプレートと上記入力された音声との距離を上記音声特徴量を用いて計算し、上記フレーム区間に含まれるフレームの中で上記各読み込んだスペクトルテンプレートと上記入力された音声との距離が最も近くなるフレームを求めて、各フレームのマッチングスコアを計算するマッチングスコア計算部と、
    マッチングスコアの極大値に対応するフレームを上記初期音素境界の音素境界候補として決定する音素境界候補決定部と、
    探索スコア関数は、音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長との差の絶対値について広義単調減少し、音素境界候補の組により分割される各音素の継続長の分散について広義単調増加し、音素境界候補の組の各音素境界候補のマッチングスコアについて広義単調増加する関数として、Rを2以上の整数として、連続するR個の音素を区切る音素境界候補の組が複数ある場合には、それらの音素境界候補の組のそれぞれの探索スコアを、上記探索スコア関数にその音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長と、複数の音素の継続長の分散記憶された継続長分布記憶部から読み込んだその音素境界候補の組により分割される各音素の継続長の分散と、その音素境界候補の組の各音素境界候補のマッチングスコアとの少なくともひとつを入力して計算し、その探索スコアを最大にする音素境界候補の組を構成する音素境界を最適な音素境界とする最適音素境界探索部と、
    を含む音素分割装置。
  2. 請求項1に記載の音素分割装置において、
    スペクトルテンプレートは、音素境界を含む予め定められたフレーム区間の各フレームの音声特徴量と、その音素境界を構成する前音素、後音素のそれぞれの音素の中心を含む予め定められたフレーム区間の各フレームの音声特徴量とを含み、音素境界を含むフレームをスペクトルテンプレートの中心として、複数の音素境界のスペクトルテンプレート記憶されたスペクトルテンプレート記憶部と、
    上記マッチングスコア計算部は、上記初期音素境界を含むフレームと上記初期音素境界の前音素の中心を含むフレームとの距離だけ、上記読み込んだ各スペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する前音素の中心を含むフレームとの距離を離し、上記初期音素境界を含むフレームと上記初期音素境界の後音素の中心を含むフレームとの距離だけ、上記読み込んだ各スペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する後音素の中心を含むフレームとの距離を離して、上記読み込んだ各スペクトルテンプレートと上記入力された音声との距離を計算する、
    ことを特徴とする音素分割装置。
  3. スペクトルテンプレート記憶部には、各音素境界を構成する各フレームの音声特徴量を示すスペクトルテンプレート記憶されており
    音声特徴量抽出部が、入力された音声の各フレームの音声特徴量を抽出する音声特徴量抽出ステップと、
    マッチングスコア計算部が、フレームのマッチングスコアをそのフレームをスペクトルテンプレートの中心とした場合に上記入力された音声との距離が最も近くなるスペクトルテンプレートの数として、上記スペクトルテンプレート記憶部から予め推定された初期音素境界に対応する複数のスペクトルテンプレートを読み込み、上記初期音素境界を含む予め定められたフレーム区間に含まれる各フレームを上記読み込んだ各スペクトルテンプレートの中心として上記読み込んだ各スペクトルテンプレートと上記入力された音声との距離を上記音声特徴量を用いて計算し、上記フレーム区間に含まれるフレームの中で上記各読み込んだスペクトルテンプレートと上記入力された音声との距離が最も近くなるフレームを求めて、各フレームのマッチングスコアを計算するマッチングスコア計算ステップと、
    音素境界候補決定部が、マッチングスコアの極大値に対応するフレームを上記初期音素境界の音素境界候補として決定する音素境界候補決定ステップと、
    最適音素境界探索部が、探索スコア関数は、音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長との差の絶対値について広義単調減少し、音素境界候補の組により分割される各音素の継続長の分散について広義単調増加し、音素境界候補の組の各音素境界候補のマッチングスコアについて広義単調増加する関数として、Rを2以上の整数として、連続するR個の音素を区切る音素境界候補の組が複数ある場合には、それらの音素境界候補の組のそれぞれの探索スコアを、上記探索スコア関数にその音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長と、複数の音素の継続長の分散記憶された継続長分布記憶部から読み込んだその音素境界候補の組により分割される各音素の継続長の分散と、その音素境界候補の組の各音素境界候補のマッチングスコアとの少なくともひとつを入力して計算し、その探索スコアを最大にする音素境界候補の組を構成する音素境界を最適な音素境界とする最適音素境界探索ステップと、
    を含む音素分割方法。
  4. 請求項3に記載の音素分割方法において、
    スペクトルテンプレートは、音素境界を含む予め定められたフレーム区間の各フレームの音声特徴量と、その音素境界を構成する前音素、後音素のそれぞれの音素の中心を含む予め定められたフレーム区間の各フレームの音声特徴量とを含み、音素境界を含むフレームをスペクトルテンプレートの中心とし、スペクトルテンプレート記憶部には、複数の音素境界のスペクトルテンプレート記憶されており
    上記マッチングスコア計算ステップは、上記初期音素境界を含むフレームと上記初期音素境界の前音素の中心を含むフレームとの距離だけ、上記読み込んだ各スペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する前音素の中心を含むフレームとの距離を離し、上記初期音素境界を含むフレームと上記初期音素境界の後音素の中心を含むフレームとの距離だけ、上記読み込んだ各スペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する後音素の中心を含むフレームとの距離を離して、上記読み込んだ各スペクトルテンプレートと上記入力された音声との距離を計算する、
    ことを特徴とする音素分割方法。
  5. 請求項1又は2に記載された音素分割装置の各部としてコンピュータを機能させるための音素分割プログラム。
JP2009201990A 2009-09-01 2009-09-01 音素分割装置、方法及びプログラム Active JP4809918B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009201990A JP4809918B2 (ja) 2009-09-01 2009-09-01 音素分割装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009201990A JP4809918B2 (ja) 2009-09-01 2009-09-01 音素分割装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011053425A JP2011053425A (ja) 2011-03-17
JP4809918B2 true JP4809918B2 (ja) 2011-11-09

Family

ID=43942490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009201990A Active JP4809918B2 (ja) 2009-09-01 2009-09-01 音素分割装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4809918B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH067346B2 (ja) * 1984-08-14 1994-01-26 シャープ株式会社 音声認識装置
JP2924555B2 (ja) * 1992-10-02 1999-07-26 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
JP3171107B2 (ja) * 1996-04-26 2001-05-28 日本電気株式会社 音声認識装置
JP2996925B2 (ja) * 1997-03-10 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素境界検出装置及び音声認識装置

Also Published As

Publication number Publication date
JP2011053425A (ja) 2011-03-17

Similar Documents

Publication Publication Date Title
EP3955246B1 (en) Voiceprint recognition method and device based on memory bottleneck feature
US9536525B2 (en) Speaker indexing device and speaker indexing method
TWI471854B (zh) 引導式語者調適語音合成的系統與方法及電腦程式產品
US10497362B2 (en) System and method for outlier identification to remove poor alignments in speech synthesis
US8990086B2 (en) Recognition confidence measuring by lexical distance between candidates
WO2014117547A1 (en) Method and device for keyword detection
CN108630200B (zh) 声音关键字检测装置以及声音关键字检测方法
JP6011565B2 (ja) 音声検索装置、音声検索方法及びプログラム
EP2879130A1 (en) Methods and systems for splitting a digital signal
WO2018163279A1 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
CN106847259A (zh) 一种音频关键词模板的筛选和优化方法
JP5229124B2 (ja) 話者照合装置、話者照合方法およびプログラム
CN112750445A (zh) 语音转换方法、装置和系统及存储介质
JP6996570B2 (ja) 緊急度推定装置、緊急度推定方法、プログラム
AU2020205275A1 (en) System and method for outlier identification to remove poor alignments in speech synthesis
JP2016177045A (ja) 音声認識装置および音声認識プログラム
JP4809918B2 (ja) 音素分割装置、方法及びプログラム
US9355636B1 (en) Selective speech recognition scoring using articulatory features
JP2017187642A (ja) 登録発話分割装置、話者らしさ評価装置、話者識別装置、登録発話分割方法、話者らしさ評価方法、プログラム
JP4809913B2 (ja) 音素分割装置、方法及びプログラム
JP6000326B2 (ja) 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム
CN110419078A (zh) 自动语音识别系统的用户记录关键字的质量反馈
JP5749186B2 (ja) 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム
JP2009058548A (ja) 音声検索装置
JP6274015B2 (ja) 音響モデル調整装置及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110711

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110809

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110819

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140826

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4809918

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350