[go: up one dir, main page]

JP2001188556A - 音声認識方法及び装置 - Google Patents

音声認識方法及び装置

Info

Publication number
JP2001188556A
JP2001188556A JP37140599A JP37140599A JP2001188556A JP 2001188556 A JP2001188556 A JP 2001188556A JP 37140599 A JP37140599 A JP 37140599A JP 37140599 A JP37140599 A JP 37140599A JP 2001188556 A JP2001188556 A JP 2001188556A
Authority
JP
Japan
Prior art keywords
language
speech
matching
model
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP37140599A
Other languages
English (en)
Other versions
JP3378547B2 (ja
Inventor
Takatoshi Sanehiro
貴敏 實廣
Takeshi Kawabata
豪 川端
Akihiro Imamura
明弘 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP37140599A priority Critical patent/JP3378547B2/ja
Publication of JP2001188556A publication Critical patent/JP2001188556A/ja
Application granted granted Critical
Publication of JP3378547B2 publication Critical patent/JP3378547B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 認識対象言語の母国語話者だけでなく、母国
語でない話者の音声も高精度に認識できるようにする。 【解決手段】 母国語話者による音声モデル16、2
1、母国語話者が他言語を発声したときの音声モデル2
3、認識対象言語の母国語話者による音声モデルを用い
た照合パターンと、他言語の母国語話者による認識対象
言語の音声モデルを用いた照合パターンと、他言語の母
国語話者による他言語音声モデルを用いて認識対象を識
別できるよう作成した照合パターンとにより、それぞれ
入力音声信号から抽出した音声特徴パラメータとの照合
スコアを計算する手段14、19、22、24、高いス
コアを示す照合パターンが表現する認識対象を出力する
手段17を設ける。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、言語的な各カテゴ
リの音声特徴量をモデル化しておき、入力音声特徴量系
列に対する各モデルの照合スコアを求めて入力音声の認
識を行う音声認識方法及び装置に関する。
【0002】
【従来の技術】確率、統計論に基づいた確率モデルによ
る認識方法は、音声、文字、図形などのパターン認識に
おいて有用な技術である。以下では、音声認識におい
て、現在主流になっている、隠れマルコフモデル(Hid
den Markov Model、以下HMMと記す)による従来技
術について説明する。隠れマルコフモデルについては、
例えば、中川聖一「確率モデルによる音声認識」電磁情
報通信学会編(1988)に詳述されている。
【0003】従来の音声認識装置において、音素ごとに
HMMを用いてモデル化しておく方法は、性能が高く、
現在の主流になっている。図4に、従来のこの種の音声
認識装置のブロック図を示す。音声信号入力端子11か
ら入力された音声をA/D変換部12においてデジタル
化し、そのデジタル音声信号を音声特徴パラメータ分析
部13において分析し、音声特徴パラメータを抽出す
る。この音声特徴パラメータを用いて、照合部14にお
いて、あらかじめ用意された単語リスト(単語等の表記
と読みのリスト)16と音声モデル16により生成され
る音声認識候補パターン(照合パターン)と入力音声と
の照合を行う。このときの各認識候補に対する照合スコ
アを候補選択部25において比較し、最も高いスコアを
示す認識候補を選択する。ここで選ばれた候補が認識結
果出力部26によって出力される。
【0004】
【発明が解決しようとする課題】これまでの音声認識技
術では、一般にある特定の言語に対し、音声モデルを用
意することで、その言語の音声認識を可能にしてきた。
複数の言語に対しては、それぞれの言語の音声モデルを
用意することで、各言語音声を認識できる。母国語でな
い話者に対しては、そういった話者の発声を集めること
で、母国語でない話者の音声モデルを構築できる。だ
が、それだけでは、母国語ではない話者の発声には対応
できない。発話者のその言語に対する習熟度により、発
話様式が大きく異なる。また、外国語に熟練した話者で
あっても、状況により、必ずしもその言語の発声ではな
く、母国語で外来語として扱っているような発声をする
場合もある。一方、複数言語の母国語話者による音声モ
デルを用いるだけの音声認識システムでは、発話者側で
は、母国語でない言語に対して、発声する度に、発声す
べき言語を意識する必要があり、大変不便で、また、認
識精度も高くなかった。
【0005】なお、例えば特開平10−254350号
公報には、母国語話者による音声モデルを、他言語の母
国語話者による発声との類似性によって入れ替えること
により、母国語でない話者の認識精度を向上させる技術
が記載されているが、発音の個人差により認識性能が変
化する等、汎用性の点で問題がある。
【0006】本発明の目的は、認識対象言語の母国語話
者だけでなく、認識対象言語の母国語でない話者の音声
も、高精度で認識することができ、かつ、発音の個人差
による影響の少ない汎用性の高い音声認識方法及び装置
を提供することにある。
【0007】
【課題を解決するための手段】本発明では、利用する話
者の母国語でない言語に対して、母国語による読みや発
音で表現される照合パターンを与え、認識対象言語の母
国語話者による音声モデルだけでなく、利用話者の母国
語に対する音声モデルを同時に入力音声の照合に使うこ
とで、母国語話者だけでなく、母国語でない話者の音声
を認識できるようにする。また、母国語でない話者によ
る認識対象言語の音声モデルも用いることで、より一
層、幅広い発話様式を覆うことができるようにする。
【0008】本発明によれば、認識対象言語の母国語で
ない話者による母国語話者に近い発音であっても、母国
語話者発声による音声モデル、または、母国語でない話
者で、母国語話者に近い発声による音声モデルにより認
識することができる。また、認識対象言語に対して母国
語でない話者の母国語で外来語的な発音をする場合に
は、母国語による発音、読みを与え、母国語音声モデル
をあてはめた照合パターンを用いて認識することができ
る。
【0009】
【発明の実施の形態】以下、本発明の一実施の形態につ
いて図面により詳述する。図1に、本発明を適用した音
声認識装置の一実施例の全体的構成図を示す。本実施例
は、言語1と言語2の2種類の言語を認識でき、さら
に、言語2の言語については、他言語の言語1の母国語
話者による音声も認識できる音声認識装置を示してい
る。A/D変換部12、音声特徴パラメータ分析部1
3、照合スコア比較候補選択部17、認識結果出力部1
8は、図4の従来の場合と同様である。ただし、照合ス
コア比較候補選択部17は、後述の照合部19、22、
24の各照合結果を入力して、それらの中から最も高い
スコアを示す認識候補を選択するように構成される。
【0010】図1において、言語1、言語2とも、母国
語話者による専用の音声モデル16、21を持ち、それ
ぞれの言語に応じた表記と読み発音を明記した単語リス
ト15、20を用意する。図2の(a)、(b)に単語
リスト15、20の一例を示す。言語1の言語に対し
て、その母国語話者による音声を認識する場合、単語リ
スト15と音声モデル16を用い、照合部14におい
て、言語1の音声認識候補パターン(照合パターン)と
入力音声との照合を行う。同様に言語2の言語に対し
て、その母国語話者による音声を認識する場合には、単
語リスト20と音声モデル21を用い、照合部19にお
いて、言語2の音声認識候補パターンと入力音声との照
合を行う。これは従来方法と同様である。図1では、別
々に照合部14、19を表現しているが、言語的な特性
は音声モデル、単語リストで吸収できるため、照合部自
体は共通のものが使える。照合部14や19で得られる
音声認識候補に対する照合スコアを候補選択部17で比
較し、スコアのよいものを最終的な候補とし、認識結果
として出力部18から出力する。これにより、複数の言
語音声(ここでは言語1と2の音声)に対し、同時に音
声認識を行うことができる。
【0011】ただし、各言語に対し、母国語話者による
音声モデルだけでは、母国語でない言語を認識する場合
には認識精度が低下する。例として、言語1を日本語、
言語2を英語とし、日本語を母国語とする日本人が発声
した英語を認識する場合を考える。日本人の場合、英語
を発声したつもりでも、実際には、アメリカ人などが話
すような英語とはかけ離れている場合が多い。日本語に
はないような音素[r]、[l]、[f]などの発声
は、多くの日本人が苦手としている。このような日本人
の英語を、英語を母国語とするイギリス人やアメリカ人
の発声により作成した音声モデルで認識するのはたいて
い困難である。
【0012】また、別の問題として、英語の上手な日本
人であっても、英語を必ず英語的な発音で発声するとは
限らず、状況によっては、日本語的な発声をする。例え
ば、「computer」という英単語を英語として発
声することもあるだろうし、「こんぴゅーた」と日本語
的に読むこともありえる。この同じ単語に対する2種類
の発声は、音声としては全く異なるものになる。したが
って、英単語であっても、日本人英語、母国語でない話
者の発声を、英語音声モデルだけで認識するのは困難で
ある。
【0013】本発明では、これら2つの問題に対する対
策を大きく2つ行う。一つは、母国語でない話者による
発声から音声モデルを作成すること、もう一つは、母国
語の音声モデルを用いて、他言語単語の発音を母国語で
の発音で置き換えたものを用意し、認識時に、母国語音
声モデルによる照合パターンとして用いる。
【0014】前者は、図1において、言語1母国語話者
による言語2用の音声モデル23と言語2用単語リスト
20を用い、言語2用(言語1母国語話者)照合部22
で照合を行う。これは、例で言うと、日本人英語の音声
を収集し、その音声モデルを作成して用いることにあた
る。単語リストは英語用のリストを使う。ここで得られ
れる認識候補の照合パターンは、日本人が英語らしく発
声した時の音声パターンに相当する。
【0015】後者は、図1において、言語1用の音声モ
デル16と言語1から言語2へ発音を対応させた単語リ
スト27を用い、言語1→言語2用の照合部24で照合
を行う。ここで、単語リスト27は、単語リスト生成部
25において、言語1から言語2へ発音を対応させるた
めの発音変換モデル(発音変換辞書、規則等)26を参
照して、言語2用単語リスト20から作成する。例で
は、英単語に片仮名で書くような日本語読みを与え、日
本語音声モデルで音声認識することにあたる。これは、
日本人が英語を片仮名読みした発声や、英語発声のつも
りであっても、日本語音声の特徴のほうが多く存在する
ような発声に対して対応できる。図2の(c)に、言語
1→2用単語リスト27の一例を示す。
【0016】以下に、単語リスト生成部25および発音
変換モデル26により、言語2用単語リスト20から言
語1→2用単語リスト27を作成するいくつかの実施例
を示す。
【0017】(1)発声変換モデル26として、あらか
じめ言語2の単語に対し、言語1の発音を明記した辞書
を作成して用意し、単語リスト生成部26において、辞
書引きで、言語2用単語リスト20の英単語等に日本語
読みをつけ、言語→2用単語リスト27とする。ここ
で、外来語として浸透しているものは、使われていそう
な読みをつける。そうでないものは、仮名に置き換える
とこうなるだろうと思われるものを読みとしてつける。
【0018】(2)発声変換モデル26として、あらか
じめ単語表記あるいは発音記号から読みへの変換規則に
よる変換部分的な表記や発音記号列から仮名への変換規
則を用意しておき、単語リスト生成部25において、言
語2用単語リスト20内の単語にそれをあてはめ、自動
で読みを生成し、言語−2用単語リスト27を得る。
【0019】(3) 統計的手法による単語表記あるい
は発音記号からの変換を利用する。発声変換モデル26
として、上記(1)で作成した辞書や、多くの人に多数
の単語について読みを付加してもらったものを用いて、
言語2用単語リスト20の英語の単語表記、あるいは発
音表記と日本語読みを対応づけるような確率モデルを作
成する。そのモデルを用いて、単語リスト生成部25に
おいて、言語2用単語リスト20の英単語に対し、日本
語読みを自動生成し、言語1−2用単語リスト27を得
る。
【0020】ここで、(1)〜(3)に示したような技
術には、機械翻訳技術の分野で使われている音訳技術が
ある。これは英単語を日本語の片仮名表記に翻訳する技
術であり、ここで適用しようとしている音声認識にも利
用できる。例えば、塚田・増田,「英単語に対する日本
語読み付与方法の検討」(情報処理学会、第53回全国
大会、2−359、平成8年後期)には、変換規則の生
成、その音声合成への適用が記載されており、(2)の
方法に利用できる。また、Knight and Graehl,「Ma
chine Transliteration」(Computational Linguisti
cs,Vol.24,NO.4,p.599,1998)に
は、機械翻訳において、統計的手法により英語の発音記
号から日本語の発音記号へ変換する技術が記載されてお
り、(3)の方法に利用できる。
【0021】さらに、(3)の手法には、本出願人の先
願にかかる特願平11−324892号で提案した英単
語の表記からカタカナ表記を生成する方法を利用するこ
ともできる。先願の方法は次のような内容のものであ
る。まず、基本単位となる英文字とカタカナとの対応を
設定しておく。「s/ス」「ta/テー」「tio/シ
ョ」「n/ン]などのように、子音と母音の組み合わせ
やアルファベット1文字に対する仮名を設定する。ま
た、英単語とカタカナ表記を単語単位で対応付けたリス
トを用意しておく。このリストを用いて、基本単位をも
とに、対応付けを動的計画法により行う。対応付けられ
たリストから、基本単位の連鎖統計(ngram)を取
っておく。この統計量を用いて、英単語表記からカタカ
ナ文字列が確率スコアとともに生成できる。
【0022】(4) 音節あるいは音素モデルの対応付
けによる変換を利用する。上記の方法では、日本語の音
節構造(子音+母音の構造など)が必ず含まれる。英語
では、日本語にない構造も取るため(子音連鎖、子音で
終わる、など)、上記の方法だけでは不十分である。そ
こで、発声変換モデル26に、あらかじめ音節あるいは
音素のレベルで、英語と日本語で近い、あるいは、置き
換わりやすいものを対応づけておき、単語リスト生成部
25において、この対応表にしたがって、言語2用単語
リスト20の単語等の発音を置き換えることで言語1→
2用単語リスト27を得る。
【数1】 この2つ目の例で、「すとり」と仮名で書くと、子音+
母音の構造が存在するため、子音[s]、[t]、
[r]の間に母音[u]、[o]、[i]が挿入され
る。この音素列がそのまま認識候補のパターンになるた
め、発声が英語的で、母音を含まない場合には、うまく
マッチングが取れないことになる。
【0023】音声認識装置を構築する場合、上記(1)
〜(4)の方法の一つあるいは二つ以上を組み合わせて
利用することができる。
【0024】次に、図1の実施例における認識処理の全
体的流れを図3により簡単に説明する。入力端子11か
ら入力された音声信号をA/D変換部12にてデジタル
信号に変換した後(ステップ101)、音声特徴パラメ
ータ分析部13において、ある長さの分析フレーム単位
で音声分析を行い、音声特徴パラメータを得る(ステッ
プ102)。実施例では、このフレーム単位で、以下の
処理を繰り返し行う。
【0025】単語リストに応じた音声認識候補が存在す
る場合(ステップ103でYES)、言語1用照合部1
4、言語2用照合部19、言語1母国語話者に対する言
語2用照合部22、言語1から言語2への発音変換によ
る照合部24のそれぞれへ、音声特徴パラメータを送る
(ステップ104〜107)。一方、音声終端を待た
ず、候補がない場合は(ステップ103でNO)、結果
を得ないまま、認識処理を終える。各照合部14、1
9、22、24では、それぞれ、対応の単語リストと音
声モデルとを用いて音声認識パターン(照合パターン)
を作成して入力音声特徴パラメータとの照合を行い(ス
テップ108〜111)、その照合スコアを元に、各認
識候補のスコアを計算する(ステップ112〜11
5)。即ち、照合部14では、言語1単語リスト15と
言語1用音声モデル16を用いて、言語1の母国語話者
に対する言語1用の照合パターンを得、入力音声特徴パ
ラメータとの照合計算を行う。照合部19では、言語2
用単語リスト20と言語2用音声モデル21を用いて、
言語2の母国語話者に対する言語2用の照合パターンを
得、入力音声特徴パラメータとの照合計算を行う。照合
部22では、言語2用単語リスト20と言語2用(言語
1母国語話者)音声モデル23を用いて、言語1の母国
語話者に対する言語2用の照合パターンを得、入力音声
パラメータとの照合を行う。照合部24では、言語1→
2用単語リスト27と言語1用音声モデル16を用い
て、言語2用として言語1の母国語話者の照合パターン
を得も入力音声パラメータとの照合を行う。照合スコア
比較候補選択部17では、各照合部14、19,22、
24からの照合スコアを用いて、照合スコア比較および
候補選択を行う(ステップ116)。
【0026】以下、現在のフレームが音声終端でなけれ
ば(ステップ117でNO)、次のフレームに対し、ス
テップ102からの処理を繰り返す。音声終端であれば
(ステップ117でYES)、照合処理を終了し、残っ
ている認識候補を結果として認識結果出力部18から出
力する。
【0027】このように、本実施例によれば母国語話者
の音声モデルによる候補、母国語でない話者の音声モデ
ルによる候補、母国語の音声モデルを用いて、他言語単
語の発音を母国語での発音で置き換えた候補、等を用意
することにより、複数言語の音声認識、さらに、母国
語、母国語でない話者の発声に対して、言語を選択する
ことなく、同時に音声認識が可能になる。
【0028】なお、図1では、2つの言語、言語1の母
国語話者についてのみの実施例を示したが、同様な手法
により、言語1から2への対応もでき、また、3つ以上
の言語への応用も可能である。
【0029】
【発明の効果】以上述べたように、本発明によれば、複
数の言語に対する音声モデル、単語リストだけでなく、
母国語でない話者の音声モデル、他言語単語に対する母
国語への発音変換等を用いることで、母国語以外の話者
による発音の個人差によらない、汎用性のある高い精度
の音声認識が可能になる。また、複数言語において、母
国語話者、および母国語でない話者の発声を、言語を選
択することなく、同時に音声認識を可能にすることがで
きる。
【図面の簡単な説明】
【図1】本発明の音声認識方法を適用した音声認識装置
の一実施例を示すブロック図である。
【図2】図1の単語リストの具体例を示す図である。
【図3】図1の実施例における音声認識処理手順の一例
を示す流れ図である。
【図4】従来の音声認識装置の機能構成を示すブロック
図である。
【符号の説明】
11 音声信号入力端子 12 A/D変換部 13 音声特徴パラメータ分析部 14 言語1用照合部 15 言語1用単語リスト 16 言語1用音声モデル 17 照合スコア比較候補選択部 18 認識結果出力部 19 言語2用照合部 20 言語2用単語リスト 21 言語2用音声モデル 22 言語2用(言語1母国語話者)照合部 23 言語2用音声モデル(言語1母国語話者) 24 言語1→2用照合部 25 単語リスト生成部 26 言語1→2に対する発音変換モデル 27 言語1→2用単語リスト
───────────────────────────────────────────────────── フロントページの続き (72)発明者 今村 明弘 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5D015 BB02 HH06 HH11 HH15

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号から音声特徴パラメータを
    抽出し、あらかじめ用意された言語的単位の各カテゴリ
    の特徴を表現した音声モデルによる音声認識候補パター
    ン(以下、照合パターンという)と前記入力音声信号か
    ら抽出した音声特徴パラメータとの照合スコアを計算
    し、高いスコアが示す照合パターンが表現する認識対象
    を出力する音声認識方法において、 母国語話者による音声モデル、母国語話者が他言語を発
    声したときの音声モデルを用意し、 認識対象言語の母国語話者による音声モデルを用いた照
    合パターンと、他言語の母国語話者による認識対象言語
    の音声モデルを用いた照合パターンとにより、それぞれ
    入力音声信号から抽出した音声特徴パラメータとの照合
    スコアを計算し、高いスコアが示す照合パターンが表現
    する認識対象を出力することを特徴とする音声認識方
    法。
  2. 【請求項2】 入力音声信号から音声特徴パラメータを
    抽出し、あらかじめ用意された言語的単位の各カテゴリ
    の特徴を表現した音声モデルによる照合パターンと前記
    入力音声信号から抽出した音声特徴パラメータとの照合
    スコアを計算し、高いスコアが示す照合パターンが表現
    する認識対象を出力する音声認識方法において、 複数言語に対し、それぞれ母国語話者による音声モデル
    を用意し、 認識対象言語の母国語話者による音声モデルを用いた照
    合パターンと、他言語の母国語話者による他言語音声モ
    デルを用いて認識対象を識別できるように作成した照合
    パターンとにより、それぞれ入力音声信号から抽出した
    音声特徴パラメータとの照合スコアを計算し、高いスコ
    アが示す照合パターンが表現する認識対象を出力するこ
    とを特徴とする音声認識方法。
  3. 【請求項3】 入力音声信号から音声特徴パラメータを
    抽出し、あらかじめ用意された言語的単位の各カテゴリ
    の特徴を表現した音声モデルによる照合パターンと前記
    入力音声から抽出した音声特徴パラメータとの照合スコ
    アを計算し、高いスコアを示す照合パターンが表現する
    認識対象を出力する音声認識方法において、 複数言語に対し、母国語話者による音声モデル、母国語
    話者が他言語を発声したときの音声モデルを用意し、 認識対象言語の母国語話者による音声モデルを用いた照
    合パターンと、他言語の母国語話者による認識対象言語
    の音声モデルを用いた照合パターンと、他言語の母国語
    話者による他言語音声モデルを用いて認識対象を識別で
    きるよう作成した照合パターンとにより、それぞれ入力
    音声信号から抽出した音声特徴パラメータとの照合スコ
    アを計算し、高いスコアを示す照合パターンが表現する
    認識対象を出力することを特徴とする音声認識方法。
  4. 【請求項4】 請求項2,3に記載の音声認識方法にお
    いて、認識対象とする言語と他言語の表記、あるいは発
    音記号から、部分的な記号連鎖を元に、認識対象とする
    言語と他言語との発音の対応をあらかじめ取っておき、
    他言語の母国語話者による他言語音声モデルを用いた照
    合パターンを生成することを特徴とする音声認識方法。
  5. 【請求項5】 請求項2,3に記載の音声認識方法にお
    いて、認識対象とする言語と他言語との間で、音節ある
    いは音素の単位で対応づけをし、その対応にしたがっ
    て、他言語の母国語話者による他言語音声モデルを用い
    た照合パターンを生成することを特徴とする音声認識方
    法。
  6. 【請求項6】 入力音声信号から音声特徴パラメータを
    抽出し、あらかじめ用意された言語的単位の各カテゴリ
    の特徴を表現した音声モデルによる照合パターンと前記
    入力音声信号から抽出した音声特徴パラメータとの照合
    スコアを計算し、高いスコアが示す照合パターンが表現
    する認識対象を出力する音声認識装置において、 母国語話者による音声モデルと、母国語話者が他言語を
    発声したときの音声モデルと、 認識対象言語の母国語話者による音声モデルを用いた照
    合パターンと入力音声信号から抽出した音声特徴パラメ
    ータとの照合スコアを計算する第1照合手段と、 他言語の母国語話者による認識対象言語の音声モデルを
    用いた照合パターンと入力音声信号から抽出した音声特
    徴パラメータとの照合スコアを計算する第2照合手段
    と、 前記第1および第2照合手段による照合スコアを比較
    し、高いスコアを示す照合パターンが表現する認識対象
    を出力する手段と、 を有することを特徴とする音声認識装置。
  7. 【請求項7】 入力音声信号から音声特徴パラメータを
    抽出し、あらかじめ用意された言語的単位の各カテゴリ
    の特徴を表現した音声モデルによる照合パターンと前記
    入力音声信号から抽出した音声特徴パラメータとの照合
    スコアを計算し、高いスコアが示す照合パターンが表現
    する認識対象を出力する音声認識装置において、 複数言語に対応したそれぞれの母国語話者による音声モ
    デルと、 認識対象言語の母国語話者による音声モデルを用いた照
    合パターンと入力音声信号から抽出した音声特徴パラメ
    ータとの照合スコアを計算する第1照合手段と、 他言語の母国語話者による他言語音声モデルを用いて認
    識対象を識別できるように作成した照合パターンと、入
    力音声信号から抽出した音声特徴パラメータとの照合ス
    コアを計算する第2照合手段と、 前記第1および第2照合手段による照合スコアを比較
    し、高いスコアを示す照合パターンが表現する認識対象
    を出力する手段と、 を有することを特徴とする音声認識装置。
  8. 【請求項8】 入力音声信号から音声特徴パラメータを
    抽出し、あらかじめ用意された言語的単位の各カテゴリ
    の特徴を表現した音声モデルによる照合パターンと前記
    入力音声信号から抽出した音声特徴パラメータとの照合
    スコアを計算し、高いスコアが示す照合パターンが表現
    する認識対象を出力する音声認識装置において、 複数言語に対し、母国語話者による音声モデルと、母国
    語話者が他言語を発声したときの音声モデルと、 認識対象言語の母国語話者による音声モデルを用いた照
    合パターンと入力音声信号から抽出した音声特徴パラメ
    ータとの照合スコアを計算する第1照合手段と、 他言語の母国語話者による認識対象言語の音声モデルを
    用いた照合パターンと入力音声信号から抽出した音声特
    徴パラメータとの照合スコアを計算する第2照合手段
    と、 他言語の母国語話者による他言語音声モデルを用いて認
    識対象を識別できるように作成した照合パターンと、入
    力音声信号から抽出した音声特徴パラメータとの照合ス
    コアを計算する第3照合手段と、 前記第1、第2および第3照合手段による照合スコアを
    比較し、高いスコアを示す照合パターンが表現する認識
    対象を出力する手段と、 を有することを特徴とする音声認識装置。
JP37140599A 1999-12-27 1999-12-27 音声認識方法及び装置 Expired - Fee Related JP3378547B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP37140599A JP3378547B2 (ja) 1999-12-27 1999-12-27 音声認識方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP37140599A JP3378547B2 (ja) 1999-12-27 1999-12-27 音声認識方法及び装置

Publications (2)

Publication Number Publication Date
JP2001188556A true JP2001188556A (ja) 2001-07-10
JP3378547B2 JP3378547B2 (ja) 2003-02-17

Family

ID=18498660

Family Applications (1)

Application Number Title Priority Date Filing Date
JP37140599A Expired - Fee Related JP3378547B2 (ja) 1999-12-27 1999-12-27 音声認識方法及び装置

Country Status (1)

Country Link
JP (1) JP3378547B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005195834A (ja) * 2004-01-07 2005-07-21 Sony Corp 音声認識装置および方法、並びに、プログラムおよび記録媒体
JP2011033874A (ja) * 2009-08-03 2011-02-17 Alpine Electronics Inc 多言語音声認識装置及び多言語音声認識辞書作成方法
WO2011089651A1 (ja) * 2010-01-22 2011-07-28 三菱電機株式会社 認識辞書作成装置、音声認識装置及び音声合成装置
JP6109451B2 (ja) * 2014-12-24 2017-04-05 三菱電機株式会社 音声認識装置及び音声認識方法
WO2021019775A1 (ja) * 2019-08-01 2021-02-04 三菱電機株式会社 多言語音声認識装置および多言語音声認識方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116093A (ja) * 1996-10-09 1998-05-06 Nec Corp 音声認識装置
JPH10133686A (ja) * 1996-10-31 1998-05-22 Nec Corp 非母国語音声認識装置
JPH10254350A (ja) * 1997-03-13 1998-09-25 Mitsubishi Electric Corp 音声認識装置
JPH11231888A (ja) * 1998-02-13 1999-08-27 Mitsubishi Electric Corp 音声モデル生成装置
JPH11250063A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 検索装置及び検索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116093A (ja) * 1996-10-09 1998-05-06 Nec Corp 音声認識装置
JPH10133686A (ja) * 1996-10-31 1998-05-22 Nec Corp 非母国語音声認識装置
JPH10254350A (ja) * 1997-03-13 1998-09-25 Mitsubishi Electric Corp 音声認識装置
JPH11231888A (ja) * 1998-02-13 1999-08-27 Mitsubishi Electric Corp 音声モデル生成装置
JPH11250063A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 検索装置及び検索方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005195834A (ja) * 2004-01-07 2005-07-21 Sony Corp 音声認識装置および方法、並びに、プログラムおよび記録媒体
JP4706893B2 (ja) * 2004-01-07 2011-06-22 ソニー株式会社 音声認識装置および方法、並びに、プログラムおよび記録媒体
JP2011033874A (ja) * 2009-08-03 2011-02-17 Alpine Electronics Inc 多言語音声認識装置及び多言語音声認識辞書作成方法
WO2011089651A1 (ja) * 2010-01-22 2011-07-28 三菱電機株式会社 認識辞書作成装置、音声認識装置及び音声合成装置
JP4942860B2 (ja) * 2010-01-22 2012-05-30 三菱電機株式会社 認識辞書作成装置、音声認識装置及び音声合成装置
CN102687197A (zh) * 2010-01-22 2012-09-19 三菱电机株式会社 识别词典制作装置、声音识别装置及声音合成装置
US9177545B2 (en) 2010-01-22 2015-11-03 Mitsubishi Electric Corporation Recognition dictionary creating device, voice recognition device, and voice synthesizer
JP6109451B2 (ja) * 2014-12-24 2017-04-05 三菱電機株式会社 音声認識装置及び音声認識方法
JPWO2016103358A1 (ja) * 2014-12-24 2017-05-25 三菱電機株式会社 音声認識装置及び音声認識方法
WO2021019775A1 (ja) * 2019-08-01 2021-02-04 三菱電機株式会社 多言語音声認識装置および多言語音声認識方法
JPWO2021019775A1 (ja) * 2019-08-01 2021-11-04 三菱電機株式会社 多言語音声認識装置および多言語音声認識方法
JP7038919B2 (ja) 2019-08-01 2022-03-18 三菱電機株式会社 多言語音声認識装置および多言語音声認識方法

Also Published As

Publication number Publication date
JP3378547B2 (ja) 2003-02-17

Similar Documents

Publication Publication Date Title
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US8498857B2 (en) System and method for rapid prototyping of existing speech recognition solutions in different languages
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US6510410B1 (en) Method and apparatus for recognizing tone languages using pitch information
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
JP5208352B2 (ja) 声調言語用分節声調モデリング
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2004258658A (ja) 単語間音素情報を利用した連続音声認識方法および装置
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP2002520664A (ja) 言語に依存しない音声認識
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
JP2019012095A (ja) 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
JP5257680B2 (ja) 音声認識装置
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
JP3378547B2 (ja) 音声認識方法及び装置
JP2004133003A (ja) 音声認識辞書作成方法及びその装置と音声認識装置
Abujar et al. A comprehensive text analysis for Bengali TTS using unicode
AbuZeina et al. Cross-word modeling for Arabic speech recognition
Nursetyo LatAksLate: Javanese script translator based on Indonesian speech recognition using sphinx-4 and google API
Greibus et al. The phoneme set influence for Lithuanian speech commands recognition accuracy
JP2003162524A (ja) 言語処理装置
EP3718107B1 (en) Speech signal processing and evaluation
Pranjol et al. Bengali speech recognition: An overview

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071206

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081206

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091206

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101206

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101206

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111206

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111206

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121206

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121206

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131206

Year of fee payment: 11

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees