JP7508409B2 - 音声認識装置、方法およびプログラム - Google Patents
音声認識装置、方法およびプログラム Download PDFInfo
- Publication number
- JP7508409B2 JP7508409B2 JP2021091236A JP2021091236A JP7508409B2 JP 7508409 B2 JP7508409 B2 JP 7508409B2 JP 2021091236 A JP2021091236 A JP 2021091236A JP 2021091236 A JP2021091236 A JP 2021091236A JP 7508409 B2 JP7508409 B2 JP 7508409B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- data
- unit
- speech
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Description
(要因2)話速が汎用音声データと著しく異なる場合。認識対象とする話し言葉が、著しく早口であったりゆっくりであったりした場合。
(要因3)話者の特徴が汎用音声データと著しく異なる場合。例えば、汎用音声データが大人の発話で構成されている一方、認識対象が子供の話し言葉の場合。
(要因4)入力する音声の振幅が汎用音声データと著しく異なる場合。例えば、話し言葉音声を収音するマイクロフォンのゲインを著しく小さく設定した場合。
図1は、第1の実施形態に係る音声認識装置100の構成を例示するブロック図である。音声認識装置100は、データ拡張部110と、統合処理部120と、探索部130と、音響モデル記憶部140と、発音辞書記憶部150と、言語モデル記憶部160とを備える。尚、音声認識装置100は、入力音声データを取得する取得部および入力音声データを記憶する入力音声データ記憶部を備えてもよい。また、音響モデル記憶部140と、発音辞書記憶部150と、言語モデル記憶部160とは、一つ以上の記憶部に統合されてもよいし、音声認識装置100の外部にそれぞれ、或いは統合されて設けられてもよい。
音声認識装置100は、集音デバイスから入力音声データを取得する。
入力音声データを取得した後、データ拡張部110は、入力音声データに基づいて複数の拡張音声データを生成する。
複数の拡張音声データを生成した後、統合処理部120は、複数の拡張音声データを用いて統合処理を実行することによって統合済ラティスを生成する。以降では、ステップST130の処理を「統合処理」と称する。統合処理の具体例について図4のフローチャートを用いて説明する。
複数の拡張音声データを生成した後、音響スコア計算部121は、複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する。
複数の音響スコアを生成した後、調整部122は、複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成する。以下、調整部122の処理について具体例を挙げて説明する。
複数の調整済音響スコアを生成した後、音響スコア統合部123は、複数の調整済音響スコアを統合することによって統合済音響スコアを生成する。以下、音響スコア統合部123の処理について具体例を挙げて説明する。
統合済音響スコアを生成した後、ラティス生成部124は、統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成する。ステップST134の処理の後、処理はステップST140へ遷移する。
統合済ラティスを生成した後、探索部130は、統合済ラティスから尤度の最も高い音声認識結果を探索する。
音声認識結果を探索した後、音声認識装置100は、音声認識結果を出力装置へと出力する。ステップST150の後、処理は終了する。
第1の実施形態に係る音声認識装置は、統合処理部において、複数の音響スコアを統合することによって統合済ラティスを生成していた。他方、第1の実施形態の変形例に係る音声認識装置は、複数の音響スコアからそれぞれ複数のラティスを生成し、この複数のラティスを統合することによって統合済ラティスを生成する。
複数の拡張音声データを生成した後、音響スコア計算部121Aは、複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する。
複数の音響スコアを生成した後、ラティス生成部122Aは、複数の音響スコアのそれぞれと発音辞書と言語モデルとに基づいて複数のラティスを生成する。
複数のラティスを生成した後、ラティス統合部123Aは、複数のラティスを統合することによって統合済ラティスを生成する。ステップST133Aの処理の後、処理はステップST140へと遷移する。
第1の実施形態に係る音声認識装置および第1の実施形態の変形例に係る音声認識装置は、データ拡張部において、予め設定された変換パラメータを用いて拡張音声データを生成していた。他方、第2の実施形態に係る音声認識装置は、入力音声データに基づいて変換パラメータをリアルタイムに決定し、リアルタイムに決定される変換パラメータを用いて拡張音声データを生成する。
音声認識装置100は、集音デバイスから入力音声データを取得する。尚、図11のフローチャートの処理が一巡した後、音声認識装置100は、後述するパラメータ自動推定処理で用いるために、出力される音声認識結果をさらに取得(或いは、保持)してもよい。
入力音声データを取得した後、パラメータ自動決定部210は、拡張音声データの生成に関する変換パラメータを推定する。換言すると、パラメータ自動決定部210は、入力音声データに基づいて変換処理に関する変換パラメータを自動決定する。以降では、ステップST220の処理を「パラメータ自動推定処理」と称する。パラメータ自動推定処理の具体例について図12のフローチャートを用いて説明する。
入力音声データを取得した後、振幅抽出部211は、入力音声データの振幅を抽出する。
振幅を抽出した後、音量変換パラメータ推定部213は、抽出した振幅と、汎用振幅データとに基づいて音量変換パラメータを推定する。以下、音量変換パラメータ推定部213の処理について具体例を挙げて説明する。
音量変換パラメータを推定した後、ピッチ抽出部214は、入力音声データのピッチを抽出する。
ピッチを抽出した後、声質変換パラメータ推定部216は、抽出したピッチと、汎用ピッチデータとに基づいて声質変換パラメータを推定する。以下、声質変換パラメータ推定部216の処理について具体例を挙げて説明する。
声質変換パラメータを推定した後、話速抽出部217は、入力音声データに基づく音声認識結果の話速を抽出する。
話速を抽出した後、話速変換パラメータ推定部219は、抽出した話速と、汎用話速データとに基づいて話速変換パラメータを推定する。以下、話速変換パラメータ推定部219の処理について具体例を挙げて説明する。
音量変換パラメータ、声質変換パラメータ、および話速変換パラメータを推定した後、パラメータ自動決定部210は、音量変換パラメータ、声質変換パラメータ、および話速変換パラメータを出力する。ステップST227の処理の後、処理はステップST230へと遷移する。
変換パラメータが推定された後、データ拡張部110は、入力音声データと変換パラメータとに基づいて複数の拡張音声データを生成する。
第1の実施形態に係る音声認識装置および第1の実施形態の変形例に係る音声認識装置は、入力音声データに対して音声認識処理を実行し音声認識結果を出力していた。他方、第3の実施形態に係る音声認識装置は、更に、入力音声データと、入力音声データに対応する音声認識結果とを音響モデルに適応させ適応済音響モデルを生成する。
第2の実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置(或いは、第1の実施形態の変形例に係る音声認識装置)に対してパラメータ自動決定部が追加されたものである。他方、第3の実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置(或いは、第1の実施形態の変形例に係る音声認識装置)に対して適応部および適応済音響モデル記憶部が追加されたものである。第4の実施形態に係る音声認識装置は、それら全てを包括するものである。
Claims (14)
- 入力音声データに基づいて複数の拡張音声データを生成するデータ拡張部と、
前記複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する音響スコア計算部と、
前記複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成する調整部と、
前記複数の調整済音響スコアを統合することによって統合済音響スコアを生成する音響スコア統合部と、
前記統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成するラティス生成部と、
前記統合済ラティスから尤度の最も高い音声認識結果を探索する探索部と
を具備する、音声認識装置。 - 前記調整部は、前記複数の音響スコアにそれぞれ対応付けられた時間フレーム数と、前記入力音声データの時間フレーム数とが一致するように、前記複数の音響スコアをそれぞれリサンプリングすることによって前記複数の調整済音響スコアを生成する、
請求項1に記載の音声認識装置。 - 前記音響スコア統合部は、前記複数の調整済音響スコアの平均値、中央値、および最大値のうちの少なくとも一つを算出することによって前記統合済音響スコアを生成する、
請求項1または請求項2に記載の音声認識装置。 - 前記統合済ラティスは、音声認識による候補単語をノードとし、前記候補単語の尤度をエッジとする単語ラティスである、
請求項1から請求項3までのいずれか一項に記載の音声認識装置。 - 前記データ拡張部は、前記入力音声データに対して、話速変換、音量変換、および声質変換のうちの少なくとも一つの変換処理を実行することによって前記複数の拡張音声データのうちの少なくとも一つを生成する、
請求項1から請求項4までのいずれか一項に記載の音声認識装置。 - 前記入力音声データに基づいて前記変換処理に関する変換パラメータを自動決定するパラメータ自動決定部
を更に具備する、請求項5に記載の音声認識装置。 - 前記パラメータ自動決定部は、前記入力音声データに対応する音声認識結果に基づいて前記話速変換に関する話速変換パラメータを推定し、
前記データ拡張部は、前記話速変換パラメータを用いて拡張音声データを生成する、
請求項6に記載の音声認識装置。 - 前記パラメータ自動決定部は、前記入力音声データに基づいて前記音量変換に関する音量変換パラメータを推定し、
前記データ拡張部は、前記音量変換パラメータを用いて拡張音声データを生成する、
請求項6または請求項7に記載の音声認識装置。 - 前記パラメータ自動決定部は、前記入力音声データに基づいて前記声質変換に関する声質変換パラメータを推定し、
前記データ拡張部は、前記声質変換パラメータを用いて拡張音声データを生成する、
請求項6から請求項8までのいずれか一項に記載の音声認識装置。 - 前記複数の拡張音声データは、前記入力音声データを含む、
請求項1から請求項9までのいずれか一項に記載の音声認識装置。 - 前記音響モデルは、音素、音節、文字、単語片、および単語のうちの少なくとも一つの単位ごとに、音声データを入力することによって音響スコアに対応する事後確率を出力するように学習された単一のモデルである、
請求項1から請求項10までのいずれか一項に記載の音声認識装置。 - 前記入力音声データと、前記入力音声データに対応する前記音声認識結果とに基づいて、前記音響モデルを前記入力音声データの話者に適応させた適応済音響モデルを生成する適応部
を更に具備する、請求項1から請求項11までのいずれか一項に記載の音声認識装置。 - 入力音声データに基づいて複数の拡張音声データを生成することと、
前記複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成することと、
前記複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成することと、
前記複数の調整済音響スコアを統合することによって統合済音響スコアを生成することと、
前記統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成することと、
前記統合済ラティスから尤度の最も高い音声認識結果を探索することと
を具備する、音声認識方法。 - コンピュータを、
入力音声データに基づいて複数の拡張音声データを生成する手段と、
前記複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する手段と、
前記複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成する手段と、
前記複数の調整済音響スコアを統合することによって統合済音響スコアを生成する手段と、
前記統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成する手段と、
前記統合済ラティスから尤度の最も高い音声認識結果を探索する手段
として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021091236A JP7508409B2 (ja) | 2021-05-31 | 2021-05-31 | 音声認識装置、方法およびプログラム |
CN202210188336.XA CN115482822A (zh) | 2021-05-31 | 2022-02-28 | 语音识别装置、方法以及程序 |
US17/652,823 US20220383860A1 (en) | 2021-05-31 | 2022-02-28 | Speech recognition apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021091236A JP7508409B2 (ja) | 2021-05-31 | 2021-05-31 | 音声認識装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022183758A JP2022183758A (ja) | 2022-12-13 |
JP7508409B2 true JP7508409B2 (ja) | 2024-07-01 |
Family
ID=84194236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021091236A Active JP7508409B2 (ja) | 2021-05-31 | 2021-05-31 | 音声認識装置、方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220383860A1 (ja) |
JP (1) | JP7508409B2 (ja) |
CN (1) | CN115482822A (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004139049A (ja) | 2002-09-24 | 2004-05-13 | Matsushita Electric Ind Co Ltd | 話者正規化方法及びそれを用いた音声認識装置 |
JP2005221678A (ja) | 2004-02-04 | 2005-08-18 | Advanced Telecommunication Research Institute International | 音声認識システム |
JP2007309979A (ja) | 2006-05-16 | 2007-11-29 | Advanced Telecommunication Research Institute International | 音声処理装置、およびプログラム |
WO2015075789A1 (ja) | 2013-11-20 | 2015-05-28 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
WO2017037830A1 (ja) | 2015-08-31 | 2017-03-09 | 三菱電機株式会社 | 音声認識装置および音声認識処理方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2126380C (en) * | 1993-07-22 | 1998-07-07 | Wu Chou | Minimum error rate training of combined string models |
EP1944753A3 (en) * | 1997-04-30 | 2012-08-15 | Nippon Hoso Kyokai | Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device |
US7058575B2 (en) * | 2001-06-27 | 2006-06-06 | Intel Corporation | Integrating keyword spotting with graph decoder to improve the robustness of speech recognition |
JP4675692B2 (ja) * | 2005-06-22 | 2011-04-27 | 富士通株式会社 | 話速変換装置 |
JP4542974B2 (ja) * | 2005-09-27 | 2010-09-15 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
KR100755677B1 (ko) * | 2005-11-02 | 2007-09-05 | 삼성전자주식회사 | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 |
US8275615B2 (en) * | 2007-07-13 | 2012-09-25 | International Business Machines Corporation | Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation |
JP5369079B2 (ja) * | 2010-12-03 | 2013-12-18 | 日本電信電話株式会社 | 音響モデル作成方法とその装置とプログラム |
JP5593244B2 (ja) * | 2011-01-28 | 2014-09-17 | 日本放送協会 | 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体 |
US9159317B2 (en) * | 2013-06-14 | 2015-10-13 | Mitsubishi Electric Research Laboratories, Inc. | System and method for recognizing speech |
KR102413692B1 (ko) * | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
KR102423302B1 (ko) * | 2015-10-06 | 2022-07-19 | 삼성전자주식회사 | 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 |
US9966066B1 (en) * | 2016-02-03 | 2018-05-08 | Nvoq Incorporated | System and methods for combining finite state transducer based speech recognizers |
US10115393B1 (en) * | 2016-10-31 | 2018-10-30 | Microsoft Technology Licensing, Llc | Reduced size computerized speech model speaker adaptation |
US20190385628A1 (en) * | 2017-02-28 | 2019-12-19 | The University Of Electro-Communications | Voice conversion / voice identity conversion device, voice conversion / voice identity conversion method and program |
US20180359580A1 (en) * | 2017-06-08 | 2018-12-13 | Acoustic Protocol Inc. | Conversion and distribution of public address system messages |
US10679621B1 (en) * | 2018-03-21 | 2020-06-09 | Amazon Technologies, Inc. | Speech processing optimizations based on microphone array |
JP6903611B2 (ja) * | 2018-08-27 | 2021-07-14 | 株式会社東芝 | 信号生成装置、信号生成システム、信号生成方法およびプログラム |
US11164592B1 (en) * | 2019-05-09 | 2021-11-02 | Amazon Technologies, Inc. | Responsive automatic gain control |
US20190318742A1 (en) * | 2019-06-26 | 2019-10-17 | Intel Corporation | Collaborative automatic speech recognition |
KR102508413B1 (ko) * | 2019-11-01 | 2023-03-10 | 가우디오랩 주식회사 | 주파수 스펙트럼 보정을 위한 오디오 신호 처리 방법 및 장치 |
JP7509233B2 (ja) * | 2020-11-25 | 2024-07-02 | 日本電信電話株式会社 | 生成方法、生成装置および生成プログラム |
-
2021
- 2021-05-31 JP JP2021091236A patent/JP7508409B2/ja active Active
-
2022
- 2022-02-28 CN CN202210188336.XA patent/CN115482822A/zh active Pending
- 2022-02-28 US US17/652,823 patent/US20220383860A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004139049A (ja) | 2002-09-24 | 2004-05-13 | Matsushita Electric Ind Co Ltd | 話者正規化方法及びそれを用いた音声認識装置 |
JP2005221678A (ja) | 2004-02-04 | 2005-08-18 | Advanced Telecommunication Research Institute International | 音声認識システム |
JP2007309979A (ja) | 2006-05-16 | 2007-11-29 | Advanced Telecommunication Research Institute International | 音声処理装置、およびプログラム |
WO2015075789A1 (ja) | 2013-11-20 | 2015-05-28 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
WO2017037830A1 (ja) | 2015-08-31 | 2017-03-09 | 三菱電機株式会社 | 音声認識装置および音声認識処理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2022183758A (ja) | 2022-12-13 |
CN115482822A (zh) | 2022-12-16 |
US20220383860A1 (en) | 2022-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
JP6293912B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US7996222B2 (en) | Prosody conversion | |
JP6496030B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
KR20230056741A (ko) | 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강 | |
JP5961950B2 (ja) | 音声処理装置 | |
JP5411845B2 (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
KR20210059581A (ko) | 말하기의 자동 유창성 평가 방법 및 그 장치 | |
JP2001117582A (ja) | 音声処理装置およびカラオケ装置 | |
JP2018084604A (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP4225128B2 (ja) | 規則音声合成装置及び規則音声合成方法 | |
JP7508409B2 (ja) | 音声認識装置、方法およびプログラム | |
JP2017167526A (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP5328703B2 (ja) | 韻律パターン生成装置 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
Galajit et al. | Thaispoof: A database for spoof detection in thai language | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP6234134B2 (ja) | 音声合成装置 | |
JP2001255887A (ja) | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 | |
JP5752488B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP4812010B2 (ja) | 音声処理装置、およびプログラム | |
CN116403562B (zh) | 一种基于语义信息自动预测停顿的语音合成方法、系统 | |
JP2012073280A (ja) | 音響モデル生成装置、音声翻訳装置、音響モデル生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20230105 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230315 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240619 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7508409 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |