JP4809913B2 - Phoneme division apparatus, method, and program - Google Patents
Phoneme division apparatus, method, and program Download PDFInfo
- Publication number
- JP4809913B2 JP4809913B2 JP2009159513A JP2009159513A JP4809913B2 JP 4809913 B2 JP4809913 B2 JP 4809913B2 JP 2009159513 A JP2009159513 A JP 2009159513A JP 2009159513 A JP2009159513 A JP 2009159513A JP 4809913 B2 JP4809913 B2 JP 4809913B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- phoneme boundary
- boundary time
- unit
- phonemes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
この発明は、音声から、音素の境界時刻を自動的に決定する技術に関する。 The present invention relates to a technique for automatically determining a phoneme boundary time from speech.
従来の自動音素セグメンテーション技術では、音素の統計的な平均スペクトルパターンを分布として用意し、与えられた音声のスペクトルパターンとの類似性(尤度)を計算して、各フレームに尤もらしい音素を割り当てることにより、音素境界時刻を求めていた。すなわち、前後で対応する音素が変わるフレームを音素境界時刻としていた(例えば、非特許文献1参照)。 In conventional automatic phoneme segmentation technology, a statistical average spectral pattern of phonemes is prepared as a distribution, similarity (likelihood) with a given speech spectral pattern is calculated, and a likely phoneme is assigned to each frame. Thus, the phoneme boundary time is obtained. That is, a frame in which corresponding phonemes change before and after is set as a phoneme boundary time (see, for example, Non-Patent Document 1).
しかしながら、音素の統計的な平均スペクトルパターンは平均処理の際に平滑化され、スペクトルパターンの詳細な特徴が失われることが多い。そのため、スペクトルパターンが連続的に滑らかに変化する場合では、音素境界時刻の前後でスペクトルパターンに大きな差がでないため、統計的な平均スペクトルパターンでは尤度の差が現れず、推定された音素境界時刻が正解と大きくずれるという課題があった。 However, the statistical average spectral pattern of phonemes is smoothed during the averaging process, and detailed features of the spectral pattern are often lost. Therefore, when the spectrum pattern changes continuously and smoothly, there is no large difference in the spectrum pattern before and after the phoneme boundary time, so there is no likelihood difference in the statistical average spectrum pattern, and the estimated phoneme boundary There was a problem that the time was significantly different from the correct answer.
上記の課題を解決するために、入力された音声の各フレームの音声特徴量を抽出する。複数の音素の音声特徴量についての統計量を用いて、各フレームに最も尤もらしい音素を割り当てて、連続する2つのフレームで割り当てられた音素が異なる場合に、それらの2つのフレームに亘る時間範囲に含まれる時刻の何れかを音素境界時刻とすることにより音素境界時刻を推定する。音素境界時刻が信頼できるかどうか判定する。音素境界時刻が信頼できないと判定された音素境界を構成する各音素に、その各音素の継続長の、平均値が大きいほど長く、分散が大きいほど大きく伸縮した時間を割り当てることにより、その音素境界時刻が信頼できないと判定された音素境界の音素境界時刻を推定する。 In order to solve the above-described problem, the speech feature amount of each frame of the input speech is extracted. When the most probable phoneme is assigned to each frame using a statistic about the speech feature quantity of a plurality of phonemes, and the phonemes assigned in two consecutive frames are different, the time range over those two frames The phoneme boundary time is estimated by using any of the times included in the phoneme as the phoneme boundary time. Determine whether phoneme boundary time is reliable. By assigning to each phoneme that constitutes a phoneme boundary that the phoneme boundary time is determined to be unreliable, the duration of each phoneme is longer as the average value is larger, and as the variance is larger, the phoneme boundary is expanded. A phoneme boundary time of a phoneme boundary that is determined to be unreliable is estimated.
信頼することができない音素境界時刻を、音素の継続長の平均値及び分散を用いて再度推定することにより、音素境界時刻の推定を従来よりも精度良く行なうことができる。 By re-estimating the phoneme boundary time that cannot be relied on using the average value and variance of the phoneme duration, the phoneme boundary time can be estimated more accurately than in the past.
以下、この発明の実施形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail.
図1は、この発明による音素分割装置の例の機能ブロック図である。図5は、この発明による音素分割方法の例の流れ図である。 FIG. 1 is a functional block diagram of an example of a phoneme dividing device according to the present invention. FIG. 5 is a flowchart of an example of a phoneme division method according to the present invention.
音素分割装置は、音声特徴量抽出部1、第一音素境界時刻推定部2、音素境界時刻推定結果信頼性判定部3、第二音素境界時刻推定部4、音声特徴量記憶部6、継続長分布記憶部7を例えば含む。
The phoneme dividing device includes a speech feature amount extraction unit 1, a first phoneme boundary
<ステップS1>
入力された音声は、音声特徴量抽出部1に入力される。音声特徴量抽出部1は、入力された音声を一定時間長のフレームに分割して、各フレームごとに音声特徴量を計算する(ステップS1)。各フレームの音声特徴量は、第一音素境界時刻推定部2に送られる。
<Step S1>
The input voice is input to the voice feature amount extraction unit 1. The voice feature amount extraction unit 1 divides the input voice into frames having a predetermined time length, and calculates a voice feature amount for each frame (step S1). The voice feature amount of each frame is sent to the first phoneme boundary
音声特徴量としては、その音声特徴量を用いてフレームに音素を割り当てることができるものであればどのような音声特徴量を用いてもよい。例えば、音声特徴量として、音声認識等でよく用いられるMFCC、ケプストラム、メルケプストラム、フィルタバンク、メルフィルタバンク等を用いることができる。 As the speech feature amount, any speech feature amount may be used as long as it can assign a phoneme to a frame using the speech feature amount. For example, MFCC, cepstrum, mel cepstrum, filter bank, mel filter bank, etc. that are often used in voice recognition or the like can be used as the voice feature amount.
<ステップS2>
音声特徴量記憶部6には、複数の音素の音声特徴量についての統計量が記憶されているとする。例えば、音素の統計的なスペクトルパターンが、音声認識等でよく用いられるHMM(隠れマルコフモデル)、ベクトル量子化、ニューラルネットワーク等の形態で記憶されているとする。
<Step S2>
Assume that the speech feature quantity storage unit 6 stores statistics about speech feature quantities of a plurality of phonemes. For example, it is assumed that a statistical spectrum pattern of phonemes is stored in the form of HMM (Hidden Markov Model), vector quantization, neural network, etc. that are often used in speech recognition and the like.
例えば、モノフォン、トライフォンの単位ごとに統計的な平均スペクトルが記憶されている。モノフォンは、当該音素の前後にどのような音素があるか考慮しない音素モデルである。トライフォンは、当該音素の前後にある音素を考慮する音素モデルであり、a−i+u(前に/a/、後ろに/u/がある/i/)と、o−i−e(前に/o/、後ろに/e/がある/i/)とを違うものとして考える。 For example, a statistical average spectrum is stored for each unit of monophone and triphone. A monophone is a phoneme model that does not consider what phonemes are present before and after the phoneme. A triphone is a phoneme model that takes into account the phonemes before and after the phoneme. / O /, / e / behind / i /) are considered different.
第一音素境界時刻推定部2は、音声特徴量及び音声特徴量記憶部6から読み込んだ統計量を用いて、各フレームに最も尤もらしい音素を割り当てて、連続する2つのフレームで割り当てられた音素が異なる場合に、それらの2つのフレームに亘る時間範囲に含まれる時刻の何れかを音素境界時刻とすることにより音素境界時刻を推定する(ステップS2)。音素境界時刻を含む音素境界時刻推定結果は、音素境界時刻推定結果信頼性判定部3に送られる。
The first phoneme boundary
第一音素境界時刻推定部2は、音声特徴量及び音声特徴量記憶部6から読み込んだ統計量を用いて、各フレームに各音素を割り当てたときの尤もらしさである尤度を計算して、最も尤度が高い音素をその各フレームに割り当てる。必要に応じて、各フレームに割り当てられた音素についての尤度が、音素境界時刻推定結果信頼性判定部3に送られる。
The first phoneme boundary
図8を用いて、2つのフレームに亘る時間範囲について説明する。フレームkに割り当てられた音素(この例では/a/)と、フレームk+1に割り当てられた音素(この例では/i/)とが異なるとき、図8に例示するように、フレームkの開始時刻からフレームk+1の終了時刻までの時間範囲に含まれる何れかの時刻を音素境界時刻とする。例えば、フレームk+1の中心時刻を音素境界時刻とする。 The time range over two frames will be described with reference to FIG. When the phoneme assigned to the frame k (in this example, / a /) is different from the phoneme assigned to the frame k + 1 (in this example, / i /), as illustrated in FIG. 8, the start time of the frame k Any time included in the time range from the end time of frame k + 1 to the end time of frame k + 1 is defined as a phoneme boundary time. For example, the center time of frame k + 1 is set as the phoneme boundary time.
第一音素境界時刻推定部2は、非特許文献1に記載された手法により音素境界時刻を推定してもよい。
The first phoneme boundary
<ステップS3>
音素境界時刻推定結果信頼性判定部3は、第一音素境界時刻推定部2が推定した音素境界時刻が信頼できるかどうか判定する(ステップS3)。音素境界時刻が信頼できるかどうかの判定結果である信頼性判定結果は、第二音素境界時刻推定部4に送られる。
<Step S3>
The phoneme boundary time estimation result
以下、音素境界時刻推定結果信頼性判定部3による判定処理の例を2つ紹介する。
Hereinafter, two examples of determination processing by the phoneme boundary time estimation result
≪例1≫
図2に、例1による音素境界時刻推定結果信頼性判定部3の機能ブロック図を示す。
<< Example 1 >>
FIG. 2 is a functional block diagram of the phoneme boundary time estimation result
信頼性判定用条件記憶部32には、信頼することができない音素境界時刻に対応する連続する2つのフレームに割り当てられた音素についての条件が記憶されている。図9に、この条件の例を示す。図9の例では、(1)音素境界が有声音と無声音の間にある場合にはその音素境界の時刻を信頼する、(2)音素境界を構成する音素の何れか一方が摩擦音である場合にはその音素境界の時刻を信頼する、(3)(2)ではなくかつ音素境界が有声音の間にある場合にはその音素境界の時刻を信頼しない、という3つの条件がある。 The reliability determination condition storage unit 32 stores conditions for phonemes assigned to two consecutive frames corresponding to phoneme boundary times that cannot be trusted. FIG. 9 shows an example of this condition. In the example of FIG. 9, (1) when the phoneme boundary is between voiced sound and unvoiced sound, the time of the phoneme boundary is trusted. (2) When one of the phonemes constituting the phoneme boundary is a friction sound There are three conditions: the time of the phoneme boundary is trusted, and the time of the phoneme boundary is not trusted when the phoneme boundary is between voiced sounds instead of (3) and (2).
条件信頼性判定部31には、音素境界時刻に対応する連続する2つのフレームに割り当てられた音素が入力される。図8の例では、音素/a/と音素/i/が入力される。条件信頼性判定部31は、入力された音素が信頼性判定用条件記憶部32に記憶された条件を満たすかどうかを判定することにより、その音素境界時刻が信頼することができるものであるか否かを判定する。
The conditional
「現実を」という音声が入力された場合を例に挙げて、条件信頼性判定部31の説明をする。「現実を」という音声に対して、図10に示すように、/g/、/e/、/n/、/j/、/i/、/ts/、/u/、/o/という音素が順に対応付けられたとする。
The conditional
音素境界/i/−/ts/、音素境界/ts/−/u/は、音素/ts/が無声音であり、音素/i/及び音素/u/が有声音なので、条件(1)により、これらの音素境界の音素境界時刻は信頼することができると判定される。 The phoneme boundary / i / − / ts / and the phoneme boundary / ts / − / u / are unvoiced sounds and the phonemes / i / and the phonemes / u / are voiced sounds. It is determined that the phoneme boundary times of these phoneme boundaries are reliable.
音素境界/n/−/j/、音素境界/j/−/i/は、音素/j/が摩擦音であり、音素/n/及び音素/i/が摩擦音でないので、条件(2)により、これらの音素境界の音素境界時刻は信頼することができると判定される。 The phoneme boundary / n / − / j / and the phoneme boundary / j / − / i / are phonetic / j / is a frictional sound and phoneme / n / and phoneme / i / are not a frictional sound. It is determined that the phoneme boundary times of these phoneme boundaries are reliable.
音素境界/g/−/e/、音素境界/e/−/n/、音素境界/u/−/o/は、条件(2)を満たさず、かつ、音素/g/、音素/e/及び音素/n/は有声音であるため、条件(3)により、これらの音素境界の音素境界時刻は信頼することができないと判定される。 Phoneme boundary / g / − / e /, phoneme boundary / e / − / n /, phoneme boundary / u / − / o / do not satisfy condition (2), and phoneme / g /, phoneme / e / And phoneme / n / are voiced sounds, it is determined by the condition (3) that the phoneme boundary times of these phoneme boundaries cannot be trusted.
≪例2≫
図3に、例2による音素境界時刻推定結果信頼性判定部3の機能ブロック図を示す。図6に、例2による処理の流れ図を示す。
<< Example 2 >>
FIG. 3 is a functional block diagram of the phoneme boundary time estimation result
この例では、第一音素境界時刻推定部2が計算した各フレームに割り当てられた音素についての尤度、及び、音素境界時刻推定結果が、音素境界時刻推定結果信頼性判定部3に入力される。
In this example, the likelihood of the phoneme assigned to each frame calculated by the first phoneme boundary
音素境界時刻推定結果信頼性判定部3の尤度変化度計算部33は、音素境界時刻のフレームを含む所定の数のフレームに割り当てられた音素の尤度の変化の大きさを示す指標である尤度変化度を求める(ステップS31)。計算された尤度変化度は、尤度信頼性判定部34に送られる。
The likelihood
尤度変化度として、下記式により定義されるDを用いることができる。下記式において、tは音素境界時刻のフレーム番号、Kは予め定められた正の整数、Liはフレームiに割り当てられた音素についての尤度、wkは尤度差|Lt−Lt−k|+|Lt−Lt+k|の重みであり予め定められた非負の実数でありkの増加に従って単調減少するのが望ましい。K、wkは、求める仕様や性能に応じて実験等に基づき適宜設定される。音素境界時刻のフレームとは、音素境界時刻を構成する2つのフレームの何れかのことである。図8の例では、フレームk又はフレームk+1のことである。 As the likelihood change degree, D defined by the following equation can be used. In the following equation, t is the frame number of the phoneme boundary time, K is a predetermined positive integer, L i is the likelihood for the phoneme assigned to frame i, and w k is the likelihood difference | L t −L t -k | + | L t -L t + k | of desirable monotonically decreases with increasing real number and k of a predetermined non-negative is the weight. K and w k are appropriately set based on experiments and the like according to the required specifications and performance. The frame at the phoneme boundary time is one of two frames constituting the phoneme boundary time. In the example of FIG. 8, this is frame k or frame k + 1.
尤度信頼性判定部34は、尤度変化度と所定の閾値θとを比較して、尤度変化度が所定の閾値以下であれば、音素境界時刻は信頼できないと判定する(ステップS32)。所定の閾値は、求める仕様や性能に応じて実験等に基づき適宜設定される。
The likelihood
例えば、D−θを計算して、D−θ>0であれば音素境界時刻は信頼することができ、D−θ≦0であれば音素境界時刻は信頼することができないと判定する。もちろん、尤度変化度Dと所定の閾値θとを直接比較して、その大小関係に基づいて信頼の可否を決定してもよい。 For example, when D−θ is calculated, it is determined that the phoneme boundary time can be trusted if D−θ> 0, and the phoneme boundary time cannot be trusted if D−θ ≦ 0. Of course, the likelihood change D and the predetermined threshold value θ may be directly compared, and the reliability may be determined based on the magnitude relationship.
<ステップS4>
継続長分布記憶部7には、複数の音素の継続長の平均値及び分散が記憶されている。
<Step S4>
The duration distribution storage unit 7 stores an average value and variance of durations of a plurality of phonemes.
第二音素境界時刻推定部4は、音素境界時刻が信頼できないと判定された音素境界を構成する各音素に、その各音素の継続長の、平均値が大きいほど長く、分散が大きいほど大きく伸縮した時間を割り当てることにより、その音素境界時刻が信頼できないと判定された音素境界の音素境界時刻を推定する(ステップS4)。各音素の継続長の平均値及び分散は、継続長分布記憶部7から読み込んだ値を用いる。
The second phoneme boundary
図4に、第二音素境界時刻推定部4の例の機能ブロック図を示す。図7に、第二音素境界時刻推定部4の処理の例の流れ図を示す。
FIG. 4 shows a functional block diagram of an example of the second phoneme boundary
例えば、第二音素境界時刻推定部4の音素継続長最尤推定部41は、下記式に基づいて、音素境界時刻が信頼できないと判定されたi番目の音素の音素継続長mi *を計算する(ステップS41)。Tは音素境界時刻が信頼できないと判定された連続するI(Iは正の整数)個の音素が構成する時間長であり、mi *は時間長Tの中のi番目の音素の推定音素継続長であり、miは継続長分布記憶部7から読み込んだi番目の音素の継続長の平均値であり、σi 2は継続長分布記憶部7から読み込んだi番目の音素の継続長の分散である。
For example, the phoneme duration
図10の例だと、音素境界/g/−/e/、音素境界/e/−/n/、音素境界/u/−/o/の音素境界時刻が信頼できないと判定されている。連続する3つ音素/g/、/e/、/n/が構成する時間長Tの1番目の音素である音素/g/の時間長は、上記式を用いて以下のように計算することができる。この例では、T=180ms、音素/g/の継続長の平均値m1=20ms、音素/g/の継続長の分散σ1 2=0.003、音素/e/の継続長の平均値m2=95ms、音素/e/の継続長の分散σ2 2=0.012、音素/n/の継続長の平均値m3=45ms、音素/n/の継続長の分散σ3 2=0.005であるとする。 In the example of FIG. 10, it is determined that the phoneme boundary times of the phoneme boundary / g / − / e /, the phoneme boundary / e / − / n /, and the phoneme boundary / u / − / o / are not reliable. The time length of phoneme / g /, which is the first phoneme of time length T formed by three consecutive phonemes / g /, / e /, / n /, is calculated as follows using the above formula. Can do. In this example, T = 180 ms, average value of duration of phoneme / g / m 1 = 20 ms, variance of duration of phoneme / g / σ 1 2 = 0.003, average value of duration of phoneme / e / m 2 = 95 ms, variance of duration of phoneme / e / σ 2 2 = 0.012, average duration of phoneme / n / m 3 = 45 ms, variance of duration of phoneme / n / σ 3 2 = Suppose that it is 0.005.
m1 *=m1+(σ1 2/Σi=1 Iσi 2)・(T−Σi=1 Imi)
=20+(0.003/(0.003+0.012+0.005))・(180−(20+95+45))
=20+(0.003/0.020)・20
=23
m 1 * = m 1 + ( σ 1 2 / Σ i = 1 I σ i 2) · (T-Σ i = 1 I m i)
= 20 + (0.003 / (0.003 + 0.012 + 0.005)). (180- (20 + 95 + 45))
= 20 + (0.003 / 0.020) .20
= 23
第二音素境界時刻推定部4の音素境界時刻決定部42は、音素に割り当てられた時間長と、信頼性判定結果の中の信頼することができる音素境界時刻とを用いて、最終的な音素境界時刻を決定し、その結果を出力する(ステップS4)。
The phoneme boundary
このように、音素境界時刻を仮推定し、推定精度が低いと判断される音素境界時刻を音素の継続長の平均値及び分散を用いて再度推定することにより音素境界時刻の推定を従来よりも精度良く行なうことができる。 In this way, the phoneme boundary time is temporarily estimated, and the phoneme boundary time that is estimated to be low in accuracy is estimated again by using the average value and variance of the phoneme duration, thereby estimating the phoneme boundary time. It can be performed with high accuracy.
なお、詳細音素境界時刻推定部5が、参考文献1に記載された手法を用いて、第二音素境界時刻推定部4が決定した音素境界時刻を修正して、更に精度が高い音素境界時刻を求めてもよい。参考文献1に記載された手法では、事前に決定された音素境界時刻の前後に探索窓を設定し、音素境界時刻付近のスペクトルパターンを学習したマルコフモデルを用いて、更に精度が高い音素境界時刻を求める。参考文献1に記載された手法を用いる際に探索窓を狭くすることにより、正解と同一コンテキストが現れるのを防ぐことができる。
The detailed phoneme boundary time estimation unit 5 corrects the phoneme boundary time determined by the second phoneme boundary
〔参考文献1〕Lijuan Wang, Yong Zhao, Min Chu, Frank K. Soong, Jian-Lai Zhou and Zhigang Cao, “Context-Dependent Boundary Model for Refining Boundaries Segmentation of TTS Units,” IEICE Transactions 89-D(3), pp.1082-1091, 2006 [Reference 1] Lijuan Wang, Yong Zhao, Min Chu, Frank K. Soong, Jian-Lai Zhou and Zhigang Cao, “Context-Dependent Boundary Model for Refining Boundaries Segmentation of TTS Units,” IEICE Transactions 89-D (3) , pp.1082-1091, 2006
音素分割装置は、コンピュータによって実現することができる。この場合、この装置が有すべき各機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、これ装置における各処理機能が、コンピュータ上で実現される。 The phoneme dividing device can be realized by a computer. In this case, the processing contents of each function that the apparatus should have are described by a program. Then, by executing this program on a computer, each processing function in this apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、これらの装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. In this embodiment, these apparatuses are configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
この発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。 The present invention is not limited to the above-described embodiment, and can be modified as appropriate without departing from the spirit of the present invention.
1 音声特徴量抽出部
2 第一音素境界時刻推定部
3 音素境界時刻推定結果信頼性判定部
31 条件信頼性判定部
32 信頼性判定用条件記憶部
33 尤度変化度計算部
34 尤度信頼性判定部
4 第二音素境界時刻推定部
41 音素継続長最尤推定部
42 音素境界時刻決定部
5 詳細音素境界時刻推定部
6 音声特徴量記憶部
7 継続長分布記憶部
DESCRIPTION OF SYMBOLS 1 Speech feature-
Claims (6)
複数の音素の音声特徴量についての統計量が記憶された音声特徴量記憶部と、
上記音声特徴量及び上記音声特徴量記憶部から読み込んだ統計量を用いて、各上記フレームに最も尤もらしい音素を割り当てて、連続する2つのフレームで割り当てられた音素が異なる場合に、それらの2つのフレームに亘る時間範囲に含まれる時刻の何れかを音素境界時刻とすることにより音素境界時刻を推定する第一音素境界時刻推定部と、
上記音素境界時刻が信頼できるかどうか判定する音素境界時刻推定結果信頼性判定部と、
複数の音素の継続長の平均値及び分散が記憶された継続長分布記憶部と、
音素境界時刻が信頼できないと判定された音素境界を構成する各音素に、その各音素の上記継続長分布記憶部から読み込んだ継続長の、平均値が大きいほど長く、分散が大きいほど大きく伸縮した時間を割り当てることにより、その音素境界時刻が信頼できないと判定された音素境界の音素境界時刻を推定する第二音素境界時刻推定部と、
を含む音素分割装置。 A voice feature amount extraction unit that extracts a voice feature amount of each frame of the input voice;
A speech feature memory unit statistics for audio feature amounts of a plurality of phonemes are stored,
When the most likely phoneme is assigned to each of the frames using the speech feature amount and the statistic read from the speech feature amount storage unit, and the phonemes assigned in two consecutive frames are different, those two A first phoneme boundary time estimation unit that estimates a phoneme boundary time by setting any of the times included in a time range over two frames as a phoneme boundary time;
A phoneme boundary time estimation result reliability determination unit that determines whether the phoneme boundary time is reliable;
A duration distribution storage unit in which average values and variances of durations of a plurality of phonemes are stored;
For each phoneme constituting the phoneme boundary determined to be unreliable, the duration read from the duration distribution storage unit of each phoneme is longer as the average value is larger, and is greatly expanded as the variance is larger. A second phoneme boundary time estimation unit that estimates a phoneme boundary time of a phoneme boundary that is determined to be unreliable by assigning time;
Phoneme splitting device.
上記音素境界時刻推定結果信頼性判定部は、信頼することができない音素境界時刻に対応する連続する2つのフレームに割り当てられた音素についての条件が記憶された信頼性判定用条件記憶部と、上記音素境界時刻に対応する連続する2つのフレームに割り当てられた音素が上記信頼性判定用条件記憶部から読み出した条件を満たす場合には上記音素境界は信頼できないと判定する条件信頼性判定部と、を含む、
ことを特徴とする音素分割装置。 The phoneme division device according to claim 1,
The phoneme boundary time estimation result reliability determination unit includes a reliability determination condition storage unit the condition is stored for allocated to two consecutive frames corresponding to the phoneme boundary time can not be trusted phonemes, the A condition reliability determination unit that determines that the phoneme boundary is unreliable when the phonemes assigned to two consecutive frames corresponding to the phoneme boundary time satisfy the conditions read from the reliability determination condition storage unit; including,
A phoneme segmentation device characterized by the above.
上記第一音素境界時刻推定部は、各上記フレームに各音素を割り当てたときの尤もらしさである尤度を計算して、最も尤度が高い音素を各上記フレームに割り当てる、
ことを特徴とする音素分割装置。 The phoneme division device according to claim 1,
The first phoneme boundary time estimation unit calculates a likelihood that is a likelihood when each phoneme is assigned to each of the frames, and assigns a phoneme having the highest likelihood to each of the frames.
A phoneme segmentation device characterized by the above.
上記音素境界時刻推定結果信頼性判定部は、上記音素境界時刻のフレームを含む所定の数のフレームに割り当てられた音素の上記尤度の変化の大きさを示す指標である尤度変化度を求める尤度変化度計算部と、その尤度変化度が所定の閾値以下であれば、上記音素境界時刻は信頼できないと判定する尤度信頼性判定部と、を含む、
ことを特徴とする音素分割装置。 The phoneme dividing device according to claim 3, wherein
The phoneme boundary time estimation result reliability determination unit obtains a likelihood change degree that is an index indicating a magnitude of the change in the likelihood of the phonemes assigned to a predetermined number of frames including the frame of the phoneme boundary time. A likelihood change calculation unit, and a likelihood reliability determination unit that determines that the phoneme boundary time is unreliable if the likelihood change is equal to or less than a predetermined threshold,
A phoneme segmentation device characterized by the above.
継続長分布記憶部には、複数の音素の継続長の平均値及び分散が記憶されており、
音声特徴量抽出部が、入力された音声の各フレームの音声特徴量を抽出する音声特徴量抽出ステップと、
第一音素境界時刻推定部が、上記音声特徴量及び上記音声特徴量記憶部から読み込んだ統計量を用いて、各上記フレームに最も尤もらしい音素を割り当てて、連続する2つのフレームで割り当てられた音素が異なる場合に、それらの2つのフレームに亘る時間範囲に含まれる時刻の何れかを音素境界時刻とすることにより音素境界時刻を推定する第一音素境界時刻推定ステップと、
音素境界時刻推定結果信頼性判定が、上記音素境界時刻が信頼できるかどうか判定する音素境界時刻推定結果信頼性判定ステップと、
第二音素境界時刻推定部が、音素境界時刻が信頼できないと判定された音素境界を構成する各音素に、その各音素の上記継続長分布記憶部から読み込んだ継続長の、平均値が大きいほど長く、分散が大きいほど大きく伸縮した時間を割り当てることにより、その音素境界時刻が信頼できないと判定された音素境界の音素境界時刻を推定する第二音素境界時刻推定ステップと、
を含む音素分割方法。 The audio feature amount storage unit, statistics about the audio feature amounts of a plurality of phonemes are stored,
The duration distribution storage unit, the average value of the duration of a plurality of phonemes and dispersion is stored,
A speech feature amount extraction unit that extracts a speech feature amount of each frame of the input speech;
The first phoneme boundary time estimator assigns the most likely phoneme to each of the frames using the speech feature and the statistics read from the speech feature storage, and is assigned in two consecutive frames. A first phoneme boundary time estimation step for estimating a phoneme boundary time by using any of the times included in the time range over the two frames as a phoneme boundary time when the phonemes are different;
Phoneme boundary time estimation result reliability determination, phoneme boundary time estimation result reliability determination step for determining whether the phoneme boundary time is reliable,
The larger the average value of the continuation length read from the continuation length distribution storage unit of each phoneme for each phoneme constituting the phoneme boundary determined by the second phoneme boundary time estimation unit to be unreliable. A second phoneme boundary time estimation step for estimating a phoneme boundary time of a phoneme boundary that is determined to be unreliable by assigning a longer and longer time to expand and contract as the variance increases;
Phoneme segmentation method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009159513A JP4809913B2 (en) | 2009-07-06 | 2009-07-06 | Phoneme division apparatus, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009159513A JP4809913B2 (en) | 2009-07-06 | 2009-07-06 | Phoneme division apparatus, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011013594A JP2011013594A (en) | 2011-01-20 |
JP4809913B2 true JP4809913B2 (en) | 2011-11-09 |
Family
ID=43592513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009159513A Active JP4809913B2 (en) | 2009-07-06 | 2009-07-06 | Phoneme division apparatus, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4809913B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017015847A (en) * | 2015-06-30 | 2017-01-19 | カシオ計算機株式会社 | Voice search device, voice search method, and program |
WO2022113214A1 (en) * | 2020-11-25 | 2022-06-02 | 日本電信電話株式会社 | Labeling processing method, labeling processing device and labeling processing program |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09244681A (en) * | 1996-03-12 | 1997-09-19 | N T T Data Tsushin Kk | Method and device for speech segmentation |
JP3171107B2 (en) * | 1996-04-26 | 2001-05-28 | 日本電気株式会社 | Voice recognition device |
JP3854713B2 (en) * | 1998-03-10 | 2006-12-06 | キヤノン株式会社 | Speech synthesis method and apparatus and storage medium |
JP2001306087A (en) * | 2000-04-26 | 2001-11-02 | Ricoh Co Ltd | Device, method, and recording medium for voice database generation |
-
2009
- 2009-07-06 JP JP2009159513A patent/JP4809913B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011013594A (en) | 2011-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3955246B1 (en) | Voiceprint recognition method and device based on memory bottleneck feature | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
US9536547B2 (en) | Speaker change detection device and speaker change detection method | |
KR101942521B1 (en) | Speech endpointing | |
CN105869624B (en) | The construction method and device of tone decoding network in spoken digit recognition | |
JP4568371B2 (en) | Computerized method and computer program for distinguishing between at least two event classes | |
US9031841B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
US8990086B2 (en) | Recognition confidence measuring by lexical distance between candidates | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
Wang et al. | Shifted-delta MLP features for spoken language recognition | |
WO2015017060A1 (en) | Speech recognition using neural networks | |
US20190180758A1 (en) | Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program | |
EP4018439B1 (en) | Systems and methods for adapting human speaker embeddings in speech synthesis | |
WO2018051945A1 (en) | Speech processing device, speech processing method, and recording medium | |
KR20120077527A (en) | Apparatus and method for feature compensation using weighted auto-regressive moving average filter and global cepstral mean and variance normalization | |
JP4809913B2 (en) | Phoneme division apparatus, method, and program | |
JP6420198B2 (en) | Threshold estimation device, speech synthesizer, method and program thereof | |
KR101023211B1 (en) | Microphone array based speech recognition system and target speech extraction method in the system | |
Ko et al. | A Fully Automated Derivation of State-Based Eigentriphones for Triphone Modeling with No Tied States Using Regularization. | |
KR101229108B1 (en) | Apparatus for utterance verification based on word specific confidence threshold | |
JP4864783B2 (en) | Pattern matching device, pattern matching program, and pattern matching method | |
JPH11212588A (en) | Audio processing device, audio processing method, and computer-readable recording medium recording audio processing program | |
Oonishi et al. | A noise-robust speech recognition approach incorporating normalized speech/non-speech likelihood into hypothesis scores | |
JP7216348B2 (en) | Speech processing device, speech processing method, and speech processing program | |
JP4809918B2 (en) | Phoneme division apparatus, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110711 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110809 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110819 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140826 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4809913 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |