JP6179509B2 - Language model generation apparatus, speech recognition apparatus, language model generation method, and program storage medium - Google Patents
Language model generation apparatus, speech recognition apparatus, language model generation method, and program storage medium Download PDFInfo
- Publication number
- JP6179509B2 JP6179509B2 JP2014515497A JP2014515497A JP6179509B2 JP 6179509 B2 JP6179509 B2 JP 6179509B2 JP 2014515497 A JP2014515497 A JP 2014515497A JP 2014515497 A JP2014515497 A JP 2014515497A JP 6179509 B2 JP6179509 B2 JP 6179509B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- word
- language model
- utterance
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Description
本発明は、音声認識処理に利用する言語モデルを生成する技術に関する。 The present invention relates to a technique for generating a language model used for speech recognition processing.
コンピュータが音声を認識する処理において、言語モデルを利用する。言語モデルとは、言語的な制約を規定するモデルである。この言語モデルを、認識対象に応じて最適化する技術がある。 A language model is used in the process in which the computer recognizes speech. A language model is a model that defines linguistic constraints. There is a technique for optimizing the language model according to the recognition target.
例えば、特許文献1では、音声認識装置は、会話に関する言語モデルとして、問いかけの語彙集合と、応答の語彙集合と、それらが結びつく確率とを関連付けたデータベースを用いている。特許文献2では、音声認識装置は、二者の会話を認識対象として、一方の話者が発した音声(発話)を認識した結果を用いて、他方の話者の発話に適した言語モデルを生成する。
For example, in
ところで、特許文献1に記載されている手法においては、言語モデルとしてのデータが膨大になる虞がある。つまり、コンタクトセンターにおける接客担当者と客との会話や、会議での対話では、問いかけとその応答が複数回繰り返されることがある。このような一連の会話(複数回の発話)を認識対象とする場合には、問いかけとその問いかけに対する応答とに含まれる語彙候補の組み合わせ(つまり、言語モデルとしてのデータ)が膨大になる。
By the way, in the method described in
特許文献2に記載されている手法では、言語モデルを生成する処理において、会話している話者達のうちの一方の話者から発せられた音声を認識した結果のみが用いられるから、その認識結果に含まれない単語に関わる言語モデルは生成されない。このため、特許文献2に記載されている音声認識装置は、他方の話者の発話に適した言語モデルを生成できない。 In the method described in Patent Document 2, only the result of recognizing the speech uttered from one of the talking speakers is used in the process of generating the language model. Language models for words not included in the results are not generated. For this reason, the speech recognition apparatus described in Patent Document 2 cannot generate a language model suitable for the speech of the other speaker.
本発明は上記課題を解決するためになされた。すなわち、本発明の主な目的は、会話している話者達のうちの一人の発話に含まれていない単語が、その発話に応答している他の話者の発話に含まれている場合においても、当該他の話者の発話を認識する音声認識処理の認識精度を高める技術を提供することである。 The present invention has been made to solve the above problems. That is, the main object of the present invention is when a word that is not included in the utterance of one of the talking speakers is included in the utterance of another speaker responding to the utterance. Is to provide a technique for improving the recognition accuracy of the speech recognition process for recognizing the speech of the other speaker.
上記目的を達成するために、本発明に係る言語モデル生成装置は、
第1の発話に含まれる単語あるいは単語列である第1データと、前記第1の発話に応答する第2の発話に含まれる単語あるいは単語列のうちの前記第1データに関連する関連語である第2データとが関連付いている関連語対を集めたデータ群における前記第1データに、認識対象の会話を交わしている第1話者と他の話者とのうちの前記第1話者の発話に含まれる単語あるいは単語列を照合し、当該単語あるいは単語列に該当する前記第1データに関連付けられている前記第2データを抽出する抽出手段と、
その抽出された前記第2データを利用して、前記他の話者の発話に応じた言語モデルを生成するモデル生成手段と
を備えている。In order to achieve the above object, a language model generation apparatus according to the present invention includes:
A first data that is a word or a word string included in the first utterance and a related word related to the first data of the word or the word string included in the second utterance responding to the first utterance. The first episode of the first speaker and other speakers who are exchanging a recognition target conversation with the first data in a group of related words associated with certain second data. Extracting means for collating a word or a word string included in the person's utterance and extracting the second data associated with the first data corresponding to the word or word string;
Model generation means for generating a language model according to the speech of the other speaker using the extracted second data.
また、本発明に係る音声認識装置は、
音声をテキストデータに変換する音声認識処理を実行する認識手段と、
前記音声認識処理に用いる言語モデルを生成する言語モデル生成装置と
を有し、
前記言語モデル生成装置は、本発明の言語モデル生成装置であり、認識対象の会話を交わしている第1話者と他の話者とのうちの前記第1話者の発話に含まれ前記認識手段によりテキストデータに変換された単語あるいは単語列に基づいて、前記他の話者に応じた言語モデルを生成する。The speech recognition apparatus according to the present invention is
Recognition means for executing speech recognition processing for converting speech into text data;
A language model generation device that generates a language model used for the speech recognition processing,
The language model generation device is the language model generation device of the present invention, and is included in the utterance of the first speaker among the first speaker and the other speaker who are exchanging the conversation to be recognized. Based on the word or word string converted into text data by the means, a language model corresponding to the other speaker is generated.
さらに、本発明に係る言語モデル生成方法は、
第1の発話に含まれる単語あるいは単語列である第1データと、前記第1の発話に応答する第2の発話に含まれる単語あるいは単語列のうちの前記第1データに関連する関連語である第2データとが関連付いている関連語対を集めたデータ群における前記第1データに、認識対象の会話を交わしている第1話者と他の話者とのうちの前記第1話者の発話に含まれる単語あるいは単語列を照合し、当該単語あるいは単語列に該当する前記第1データに関連付けられている前記第2データを抽出し、
その抽出された前記第2データを利用して、前記他の話者の発話に応じた言語モデルを生成する。Furthermore, the language model generation method according to the present invention includes:
A first data that is a word or a word string included in the first utterance and a related word related to the first data of the word or the word string included in the second utterance responding to the first utterance. The first episode of the first speaker and other speakers who are exchanging a recognition target conversation with the first data in a group of related words associated with certain second data. Collating a word or word string included in the person's utterance, and extracting the second data associated with the first data corresponding to the word or word string,
A language model corresponding to the speech of the other speaker is generated using the extracted second data.
さらに、本発明に係るプログラム記憶媒体は、
第1の発話に含まれる単語あるいは単語列である第1データと、前記第1の発話に応答する第2の発話に含まれる単語あるいは単語列のうちの前記第1データに関連する関連語である第2データとが関連付いている関連語対を集めたデータ群における前記第1データに、認識対象の会話を交わしている第1話者と他の話者とのうちの前記第1話者の発話に含まれる単語あるいは単語列を照合し、当該単語あるいは単語列に該当する前記第1データに関連付けられている前記第2データを抽出する処理と、
その抽出された前記第2データを利用して、前記他の話者の発話に応じた言語モデルを生成する処理と
をコンピュータに実行させるコンピュータプログラムが格納されている。Furthermore, the program storage medium according to the present invention is:
A first data that is a word or a word string included in the first utterance and a related word related to the first data of the word or the word string included in the second utterance responding to the first utterance. The first episode of the first speaker and other speakers who are exchanging a recognition target conversation with the first data in a group of related words associated with certain second data. A process of collating a word or a word string included in the person's utterance and extracting the second data associated with the first data corresponding to the word or the word string;
A computer program for causing a computer to execute processing for generating a language model according to the speech of the other speaker using the extracted second data is stored.
なお、本発明の前記主な目的は、本発明の言語モデル生成装置に対応する言語モデル生成方法によっても達成される。また、本発明の前記主な目的は、本発明の言語モデル生成装置、音声認識装置および本発明の言語モデル生成方法をコンピュータによって実現するコンピュータプログラム、およびそのコンピュータプログラムを記憶するプログラム記憶媒体によっても達成される。 The main object of the present invention is also achieved by a language model generation method corresponding to the language model generation apparatus of the present invention. The main object of the present invention is also achieved by a computer program for realizing the language model generation apparatus, the speech recognition apparatus and the language model generation method of the present invention by a computer, and a program storage medium for storing the computer program. Achieved.
本発明によれば、会話している話者達のうちの一人の発話に含まれていない単語が、その発話に応答している他の話者の発話に含まれている場合においても、当該他の話者の発話を認識する処理の認識精度を高めることができる。 According to the present invention, even when a word that is not included in the utterance of one of the talking speakers is included in the utterance of another speaker who is responding to the utterance, The recognition accuracy of the process for recognizing the utterances of other speakers can be increased.
以下に、本発明に係る実施形態を図面を参照しながら説明する。 Embodiments according to the present invention will be described below with reference to the drawings.
<第1実施形態>
図1は、本発明に係る第1実施形態の言語モデル生成装置を含む音声認識装置1のハードウェア構成を簡略化して表すブロック図である。音声認識装置1は、CPU(Central Processing Unit)10と、記憶装置であるメモリ11と、記憶装置であるHDD(Hard Disk Drive)12と、通信IF(InterFace)13と、入力装置14と、音声入力装置15とを備えている。入力装置14は、情報を音声認識装置1に入力する装置であり、当該入力装置14としては、例えば、キーボードや、マウス等のポインティングデバイスがある。音声入力装置15は、音声を電気信号(音声信号)に変換することによって、音声を音声認識装置1に取り込む装置であり、当該音声入力装置15としては、例えば、マイクロホンがある。音声認識装置1の前記構成要素10−15は、バス16を通して互いに接続されており、互いにデータの入出力を行う。<First Embodiment>
FIG. 1 is a block diagram showing a simplified hardware configuration of a
図2は、音声認識装置1に含まれている言語モデル生成装置18の構成例を実線により表すブロック図である。言語モデル生成装置18は、抽出部(抽出手段)100およびモデル生成部(モデル生成手段)101を備えている。この言語モデル生成装置18は、CPU10が、HDD12(あるいはメモリ11)に記憶されているコンピュータプログラム(以下、プログラムとも記す)19を実行することにより、実現する。換言すれば、この第1実施形態における言語モデル生成装置18は、コンピュータプログラム19あるいはそのコンピュータプログラムが格納されているコンピュータ読み取り可能な記憶媒体12(11)によって構成されるとも言える。なお、言語モデル生成装置18の全部又は一部の機能は、音声認識装置1に設けられたハードウェアにより実現されてもよい。
FIG. 2 is a block diagram illustrating a configuration example of the language
この第1実施形態では、記憶装置(HDD12)には、関連語対を集めたデータ群20が格納されている。図3は、関連語対を集めたデータ群20の一例をイメージで表す図である。関連語対とは、会話に関わるデータであり、第1の発話に基づいた第1データと、第1の発話に応答する第2の発話に基づいた第2データとが関連付いているデータである。第1データは、第1の発話に含まれている単語あるいは単語列である。第2データは、第1の発話に応答する第2の発話に含まれる単語あるいは単語列のうちの第1データに関連する関連語(単語あるいは単語列)である。具体的には、オペレータと顧客の二者による会話を例にすると、関連語対は、オペレータの発話(第1の発話)と、このオペレータの発話に応答する顧客の発話(第2の発話)において共起する単語あるいは単語列である関連語との組み合わせである。
In the first embodiment, the storage device (HDD 12) stores a
より具体的には、例えば、「お名前いただけますか」というオペレータの発話(問いかけ)に対して、「スズキです」あるいは「ヤマダです」というように顧客が応答したとする。このような会話に基づいて、オペレータの発話(第1の発話)に含まれる「お名前」という単語に対して、顧客の発話(第2の発話)に含まれる「スズキ」あるいは「ヤマダ」という関連語(単語)が共起する(発話される確率が高い)というデータを得ることができる。この場合には、第1データとしての「お名前」と、第2データとしての「スズキ」とが関連付けられた関連語対、あるいは、第1データとしての「お名前」と、第2データとしての「ヤマダ」とが関連付けられた関連語対が生成される。 More specifically, for example, it is assumed that the customer responds to the utterance (question) of the operator “Can you give me your name?” Such as “I am Suzuki” or “I am Yamada”. Based on such a conversation, “Suzuki” or “Yamada” included in the customer's utterance (second utterance) with respect to the word “name” included in the operator's utterance (first utterance). Data that related words (words) co-occur (high probability of being uttered) can be obtained. In this case, a related word pair in which “name” as the first data and “Suzuki” as the second data are associated, or “name” as the first data and the second data A related word pair associated with “Yamada” is generated.
また、オペレータと顧客との間で、次のような会話が交わされたとする。 Further, it is assumed that the following conversation is exchanged between the operator and the customer.
オペレータ:「Ctrl」
顧客:「Ctrl、はい」
オペレータ:「Alt」
顧客:「Alt、はい」
オペレータ:「Delete」
顧客:「Delete、はい」
オペレータ:「その3つのボタンを、同時に押して下さい」
顧客:「はい」
オペレータ:「そうすれば再起動できます」
顧客:「再起動ですね」
このような会話に基づいて、例えば、オペレータの発話(第1の発話)に含まれる「Ctrl,Alt,Delete」という単語列(単語の組み合わせ)に対して、顧客の発話(第2の発話)に含まれる「再起動する」という関連語が共起しているというデータを得ることができる。この場合には、第1データとしての「Ctrl,Alt,Delete」という単語列と、第2データとしての「再起動する」という関連語(単語)とが関連付けられた関連語対が生成される。また、上記会話に基づいて、第1データとしての「再起動する」という単語と、第2データとしての「再起動する」という関連語(単語)とが関連付けられた関連語対が生成される。さらに、上記会話に基づいて、第1データとしての「Ctrl,Alt,Delete」、「同時に」、「押す」という単語列と、第2データとしての「再起動する」という関連語(単語)とが関連付けられた関連語対が生成される。Operator: “Ctrl”
Customer: “Ctrl, yes”
Operator: “Alt”
Customer: “Alt, yes”
Operator: “Delete”
Customer: “Delete, yes”
Operator: “Press the three buttons simultaneously”
Customer: “Yes”
Operator: “You can then restart”
Customer: “Restart”
Based on such a conversation, for example, a customer's utterance (second utterance) for a word string (a combination of words) “Ctrl, Alt, Delete” included in the operator's utterance (first utterance) Can be obtained that the related word “restart” included in is co-occurring. In this case, a related word pair in which the word string “Ctrl, Alt, Delete” as the first data and the related word (word) “restart” as the second data are generated is generated. . Also, based on the conversation, a related word pair is generated in which the word “restart” as the first data and the related word (word) “restart” as the second data are associated. . Furthermore, based on the above conversation, a word string “Ctrl, Alt, Delete” as the first data, a word string “simultaneously” and “press”, and a related word (word) “restart” as the second data, A related word pair associated with is generated.
なお、この例では、オペレータの発話を第1の発話とし、顧客の発話を第2の発話とし、オペレータの発話に基づいた単語あるいは単語列を第1データとし、顧客の発話に基づいた単語あるいは単語列を第2データとしている。これに対し、顧客の発話を第1の発話とし、オペレータの発話を第2の発話とし、顧客の発話に基づいた単語あるいは単語列を第1データとし、オペレータの発話に基づいた単語あるいは単語列を第2データとしてもよい。 In this example, the operator's utterance is the first utterance, the customer's utterance is the second utterance, the word or word string based on the operator's utterance is the first data, and the word or The word string is the second data. In contrast, the customer utterance is the first utterance, the operator utterance is the second utterance, the word or word string based on the customer utterance is the first data, and the word or word string based on the operator utterance is used. May be the second data.
抽出部100は、認識対象の会話を交わしている第1話者と他の話者とのうちの第1話者の発話に含まれる単語あるいは単語列に基づいて、データ群20から第2データを抽出する機能を備えている。つまり、抽出部100は、第1話者の発話に含まれる単語あるいは単語列をデータ群20の第1データに照合し、当該単語あるいは単語列に該当する第1データがある場合には、その第1データに関連付けられている第2データを抽出する。なお、照合した単語あるいは単語列に該当する同じ第1データを含み、かつ、第2データが互いに異なる複数の関連語対がある場合には、抽出部100は、それら関連語対の第2データを抽出する。具体的には、「お名前」という単語を図3に示すデータ群20に照合する場合には、抽出部100は、「お名前」と「スズキ」との関連語対および「お名前」と「ヤマダ」との関連語対に基づいて、「スズキ」および「ヤマダ」を抽出する。
The
モデル生成部101は、抽出部100により抽出された第2データを利用して、前記他の話者の発話に応じた言語モデルを生成する機能を備えている。言語モデルには、例えば、Nグラム言語モデル、トリガー言語モデル、階層型ベイズ言語モデルというように、様々な言語モデルの種類がある。ここでは、モデル生成部101は、音声認識を実行する状況などを考慮して選択された言語モデルを生成する。なお、ここでは、その言語モデルの生成手法の説明は省略する。
The
次に、言語モデル生成装置18の動作例を図4のフローチャートを参照しながら説明する。なお、図4は、言語モデル生成装置18の動作例を示すフローチャートである。つまり、図4に表されているフローチャートは、言語モデル生成装置18が実行するプログラムに記載されている処理手順を表している。
Next, an operation example of the language
例えば、言語モデル生成装置18が第1話者の発話に含まれている単語あるいは単語列を受け付けると(図4のステップS101)、抽出部100が、その受け付けた単語あるいは単語列をデータ群20の第1データに照合する。そして、その単語あるいは単語列に該当する(対応する)第1データが有る場合には、抽出部100は、その第1データに関連付けられている第2データを抽出する(ステップS102)。
For example, when the language
その後、その抽出された第2データを利用して、モデル生成部101が、第1話者と会話している他の話者の発話に応じた言語モデルを生成する(ステップS103)。
After that, using the extracted second data, the
この第1実施形態では、上記のように、言語モデル生成装置18(音声認識装置1)は、第1話者の発話に基づいて、他の話者の発話に共起すると想定される単語あるいは単語列(つまり、第2データ)をデータ群20から抽出する。そして、言語モデル生成装置18(音声認識装置1)は、抽出された第2データに基づいて、他の話者の発話に応じた言語モデルを生成する。このため、第1実施形態の言語モデル生成装置18(音声認識装置1)は、例えば様々な状況を想定した問いかけとその問いかけに対する応答とに含まれる語彙候補に基づく場合よりも、他の話者の発話に応じた言語モデルに関わるデータ量を抑制できる。
In the first embodiment, as described above, the language model generation device 18 (speech recognition device 1) is based on the utterances of the first speaker, the words assumed to co-occur with the utterances of other speakers, or A word string (that is, second data) is extracted from the
その上、第1実施形態の言語モデル生成装置18(音声認識装置1)は、第1話者の発話に対して応答する他の話者の発話に、第1話者の発話に含まれる単語あるいは単語列が含まれていない場合においても、他の話者の発話の音声認識精度を高めることができる。特に、コンタクトセンターや会議において交わされる会話のように、問いかけと応答が複数回繰り返される一連の会話における音声認識精度を高めることができる。 In addition, the language model generation device 18 (voice recognition device 1) of the first exemplary embodiment includes words included in the utterance of the first speaker in the utterances of other speakers that respond to the utterance of the first speaker. Or even when the word string is not included, the voice recognition accuracy of the speech of another speaker can be improved. In particular, it is possible to improve voice recognition accuracy in a series of conversations in which questions and responses are repeated a plurality of times, such as conversations exchanged at a contact center or a conference.
<第2実施形態>
次に、本発明に係る第2実施形態を説明する。なお、第2実施形態の説明において、第1実施形態の音声認識装置を構成する構成部分と同一の名称部分には同一符号を付し、その共通部分の重複説明は省略する。Second Embodiment
Next, a second embodiment according to the present invention will be described. In the description of the second embodiment, the same reference numerals are given to the same name parts as the constituent parts constituting the speech recognition apparatus of the first embodiment, and the duplicate description of the common parts is omitted.
図6は、第2実施形態の音声認識装置の構成を簡略化して表すブロック図である。この第2実施形態の音声認識装置1は、音声認識部(認識手段)103を有している。この音声認識部103は、音声をテキストデータに変換する音声認識処理を実行する機能を備えている。すなわち、音声認識部103は、音声入力装置(マイクロホン)15から音声に応じた電気信号が入力すると、その電気信号(音声)をテキストデータに変換する。この第2実施形態では、認識対象の会話を交わしている話者達のうち、音声認識処理による認識精度が高くなると想定される話者を第1話者とし、その情報が音声認識装置1に与えられる。これにより、音声認識部103は、第1話者ではない他の話者の発話に対する音声認識処理を実行する場合には、モデル生成部101により生成され記憶装置(HDD)12に格納されている言語モデルを利用する。
FIG. 6 is a block diagram illustrating a simplified configuration of the speech recognition apparatus according to the second embodiment. The
また、音声認識部103は、音声認識処理により複数の変換候補(テキストデータ)を出力する場合がある。さらに、音声認識部103は、音声認識処理によるテキストデータに、変換の信頼度と単語の品詞と音響スコアと言語スコアとNグラムヒット率とのうちの少なくとも1つを確率情報として関連付ける。さらにまた、音声認識部103は、音声入力装置15から受け取った音声(電気信号)が第1話者の音声である場合には、音声認識処理によるテキストデータに、第1話者の発話であることを表す情報を関連付ける。
Further, the
抽出部100は、音声認識部103によるテキストデータが第1話者の発話に基づいたデータである場合に、そのテキストデータに含まれている単語あるいは単語列に基づき、第1実施形態と同様に、データ群20から第2データを抽出する。
When the text data from the
また、抽出部100は、音声認識部103が複数の変換候補(テキストデータ)を出力した場合には、そのテキストデータに関連付けられている確率情報を利用して、複数の変換候補の中の一つを選択する機能を備える。例えば、抽出部100は、確率情報に基づいて、最も変換が適切であると考えられる変換候補を選択する。そして、抽出部100は、選択した変換候補のテキストデータに含まれている単語あるいは単語列に基づき、第1実施形態と同様に、データ群20から第2データを抽出する。
In addition, when the
第2実施形態の音声認識装置1(言語モデル生成装置)における上記以外の構成は、第1実施形態と同様である。 Other configurations of the speech recognition device 1 (language model generation device) of the second embodiment are the same as those of the first embodiment.
次に、第2実施形態における音声認識装置1の動作例を図7のフローチャートに基づいて説明する。図7は第2実施形態における音声認識装置1の動作例を表すフローチャートである。すなわち、図7のフローチャートは、音声認識装置1のCPU10が実行するプログラムに記されている処理手順を表している。
Next, an operation example of the
音声認識装置1において、音声入力装置15から音声(電気信号)が音声認識部103に加えられると、音声認識部103は、その音声をテキストデータに変換する音声認識処理を実行する(図7のステップS201)。その変換元の音声が第1話者の発話による音声である場合には、抽出部100は、その音声認識処理によるテキストデータに含まれている単語あるいは単語列に基づいて、データ群20から第2データを抽出する(ステップS202)。モデル生成部101は、抽出された第2データを利用して、第1話者と会話している他の話者に応じた言語モデルを生成する(ステップS203)。この生成された言語モデルは、記憶装置(HDD12あるいはメモリ11)に格納される。
In the
その後、第1話者の発話に対して応答した他の話者の発話による音声(電気信号)が音声認識部103に加えられると、音声認識部103は、その音声をテキストデータに変換する音声認識処理を実行する(ステップS204)。この際には、音声認識部103は、モデル生成部101により生成され記憶装置12(11)に格納されている他の話者に応じた言語モデルを利用する。
Thereafter, when a voice (electrical signal) generated by another speaker who responds to the first speaker's utterance is added to the
この第2実施形態の音声認識装置1(言語モデル生成装置18)は、第1実施形態と同様の抽出部100およびモデル生成部101を備えているので、第1実施形態と同様の効果を得ることができる。
Since the speech recognition device 1 (language model generation device 18) of the second embodiment includes the
<第3実施形態>
次に、本発明に係る第3実施形態を説明する。なお、この第3実施形態の説明において、第1および第2の実施形態の音声認識装置を構成する構成部分と同一の名称部分には同一符号を付し、その共通部分の重複説明は省略する。<Third Embodiment>
Next, a third embodiment according to the present invention will be described. In the description of the third embodiment, the same reference numerals are given to the same name parts as the constituent parts constituting the speech recognition apparatuses of the first and second embodiments, and the duplicate description of the common parts is omitted. .
図8は、第3実施形態の音声認識装置1の構成例を簡略化して表すブロック図である。この第3実施形態の音声認識装置1を構成する言語モデル生成装置18は、第2実施形態の構成に加えて、データ生成部(データ生成手段)104を備えている。また、記憶装置(HDD12)には、会話コーパス22が格納されている。会話コーパス22とは、サンプルとしての会話のテキストデータと、その会話に関連する情報とを関連付けたデータを集めたデータ群である。具体的には、会話に関する情報は、会話をしている話者の音声から得られる音声特徴量、発話した話者の特徴、および発話した時間等の情報である。例えば、音声特徴量としては、発話音声の基本周波数あるいは音声認識に用いる特徴ベクトルがある。また、発話した話者の特徴としては、発話者の氏名あるいは役割がある。役割の例としては、会議における議長、コールセンタにおけるオペレータおよび顧客などがあげられる。また、発話した時間は、会話開始時間からその発話を開始するまでの絶対時間あるいは発話の時間長などがある。上記の情報以外にも、発話者が怒っているなどの感情、発話が質問文、陳述文であるといった発話のスタイルなどの情報が、会話に関する情報として、会話コーパス22に含まれていてもよい。
FIG. 8 is a simplified block diagram illustrating a configuration example of the
データ生成部104は、CPU10がプログラム19に従って動作することにより実現するCPU10の機能部の一つである。当該データ生成部104は、音声認識部103の音声認識処理によるテキストデータ(第1話者の発話)に含まれている単語あるいは単語列を第1データとする。さらに、データ生成部104は、その第1データに関連する単語あるいは単語列を会話コーパス22から第2データとして抽出する機能を備えている。さらにまた、データ生成部104は、それら第1データと第2データを関連付けた関連語対を生成し、データ群20に追加する機能を備えている。
The
具体的には、データ生成部104は、上記のように第1データとした単語あるいは単語列を含む会話のテキストデータを会話コーパス22から抽出する。そして、データ生成部104は、その抽出した会話のテキストデータを利用して、第1データに関連する単語あるいは単語列を第2データとして特定する。さらに、データ生成部104は、それら第1データと第2データを関連付けることにより、関連語対を生成し、データ群20に追加する。このようなデータ生成部104は、データ群20を予め生成する際に機能できるだけでなく、実際に会話の音声認識処理を実行しながらデータ群20を学習(機械学習)する機能を音声認識装置1に持たせることができる。
Specifically, the
次に、データ生成部104(CPU10)が関連語対を生成する動作例を図9のフローチャートを利用して説明する。なお、図9は、第3実施形態の音声認識装置1が関連語対を生成する動作例を表すフローチャートである。換言すれば、図9のフローチャートは、音声認識装置1が関連語対を生成する処理手順を表している。
Next, an operation example in which the data generation unit 104 (CPU 10) generates related word pairs will be described with reference to the flowchart of FIG. FIG. 9 is a flowchart illustrating an operation example in which the
データ生成部104は、音声認識部103の音声認識処理によるテキストデータ(第1話者の発話)に含まれている単語あるいは単語列を第1データとして設定すると(図9のステップS301)、その第1データを会話コーパス22に照合する。これにより、データ生成部104は、第1データを含む会話の情報を会話コーパス22から抽出する。そして、データ生成部104は、その抽出した会話の情報に基づいて、第1データを含む発話に応答する発話に含まれ、かつ、第1データに関連する単語あるいは単語列を第2データとして抽出する(ステップS302)。さらに、データ生成部104は、第1データと第2データを関連付けて関連語対を生成する(ステップS303)。そして、データ生成部104は、その関連語対を記憶装置12のデータ群20に追加する(ステップS304)。
When the
この第3実施形態においても、第1実施形態および第2実施形態と同様な言語モデル生成装置18を備えているので、第1実施形態および第2実施形態と同様な効果を得ることができる。また、この第3実施形態におけるデータ生成部104は、関連語対を生成する場合に、会話コーパスを利用する。これにより、データ生成部104は、会話に応じた関連語対を生成できる。
Also in the third embodiment, since the language
<その他の実施形態>
なお、本発明は、第1−第3の実施形態に限定されず、様々な実施の形態を採り得る。例えば、データ群20には、関連語対だけでなく、例えば、図5に表されるように、関連語対に関わる情報を付属情報として関連付けてもよい。付属情報としては、例えば、第1データあるいは第2データである単語あるいは単語列の表記、品詞、発話話者の役割、会話開始時から発話までの時間、発話数および単語数などがある。データ群20の関連語対には、そのような付属情報のうちの1つ以上が関連付けられていてもよい。<Other embodiments>
In addition, this invention is not limited to the 1st-3rd embodiment, Various embodiment can be taken. For example, not only the related word pair but also information related to the related word pair may be associated with the
このように関連語対に付属情報が関連付けられている場合には、抽出部100は、第1話者の発話に基づいた第1データだけでなく、付属情報に対応する情報を参考情報として受け付ける。例えば、抽出部100は、音声認識装置1に備えられている計時装置から会話に関わる時間情報を参考情報として受け付ける。また、抽出部100は、入力装置14により入力された話者の役割情報などを参考情報として受け付ける場合もある。
When the attached information is associated with the related word pair in this way, the
抽出部100は、第1データと、上記のような参考情報とに基づいて、データ群20から第2データを抽出する。
The
例えば、企業のコンタクトセンターにおける会話の場合、オペレータの「お名前いただけますか」という発話は、コンタクトセンターにおける会話の冒頭または終了直前で発話されることが多い。このような情報が付属情報としてデータ群20の関連語対に関連付けられているとする。この場合に、抽出部100は、「お名前いただけますか」という発話を第1データとして受け取った場合には、発話時間(会話を開始してから発話されるまでの時間)の情報(参考情報)に基づいて、その第1データに、より適切な第2データを抽出できる。
For example, in the case of a conversation in a company contact center, the operator's utterance "Can you name me" is often uttered just before the beginning or end of the conversation in the contact center? It is assumed that such information is associated with related word pairs in the
また、コンタクトセンターにおける会話において、オペレータは発話するが、顧客は発話しないという単語あるいは単語列がある。このような単語あるいは単語列が第1データとして抽出部100に加えられた場合には、例えば、抽出部100は、話者の役割の情報(参考情報)をも利用して、データ群20から第2データを抽出することにより、第1データに、より密接に関連している第2データを抽出できる。
Further, in a conversation at a contact center, there is a word or a word string that an operator speaks but a customer does not speak. When such a word or word string is added to the
また、第1−第3の実施形態では、抽出部100は、第1データに関連する第2データを抽出している。これに対し、抽出部100は、第2データだけでなく、第1データと第2データとが関連付いている関連語対を抽出してもよい。この場合には、モデル生成部101は、その抽出された関連語対を利用して、言語モデルを生成する。
In the first to third embodiments, the
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 While the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
なお、この出願は、2012年5月17日に出願された日本出願特願2012−113534を基礎とする優先権を主張し、その開示の全てをここに取り込む。 In addition, this application claims the priority on the basis of Japanese application Japanese Patent Application No. 2012-113534 for which it applied on May 17, 2012, and takes in those the indications of all here.
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
第1の話者の発話に含まれる単語列と、前記発話に対して応答する第2の話者の発話に含まれる関連語とを関連付ける関連語対に基づいて、会話データに含まれる前記単語列に関連付けられている関連語を抽出する関連語抽出部と、
前記関連語抽出部により抽出された関連語を用いて、前記第2の話者の言語モデルを生成する言語モデル生成部と
を備える言語モデル生成装置。
(付記2)
前記第1の話者の発話に対して音声認識を行う音声認識部をさらに備え、
前記関連語抽出部は、前記関連語対に基づいて、前記音声認識部により音声認識された結果に含まれる前記単語列に関連付けられている関連語を抽出する付記1に記載の言語モデル生成装置。
(付記3)
前記関連語抽出部は、会話に含まれる話者のうち、前記音声認識部によって他者より高い精度で音声認識された話者を、前記第1の話者として扱う付記2に記載の言語モデル生成装置。
(付記4)
前記第1の話者の音声認識結果に含まれる単語列と、特定の会話における発話音声に基づいてテキストデータに変換した情報、前記発話音声または前記特定の会話から得られる音声特徴量、および前記発話音声または前記特定の会話から得られる話者情報を関連づけた会話コーパスとに基づいて、前記第1の話者の音声認識結果と、前記第1の音声認識結果と関連が高い前記会話コーパス中に含まれるテキストとの組み合わせを、前記関連語対として生成する関連語対生成部をさらに備える付記2又は付記3に記載の言語モデル生成装置。
(付記5)
前記関連語抽出部は、前記第1の話者の発話に含まれる1以上の単語列と、その発話に対して応答する前記第2の話者の発話に含まれる1以上の単語列を関連語として抽出する付記1乃至付記4の何れか一つに記載の言語モデル生成装置。
(付記6)
前記関連語抽出部は、前記第1の話者の発話テキストに含まれる単語列の表記、品詞、発話者の役割、会話開始時刻から発声までの時間、発話数および単語数の少なくともいずれかを用いて、前記関連語対から関連語を抽出する付記1乃至付記5の何れか一つに記載の言語モデル生成装置。
(付記7)
前記関連語抽出部は、前記第1の話者の音声認識結果に含まれる信頼度、品詞、音響スコア、言語スコア、Nグラムヒット率のいずれか1つ以上を用いて、前記第1の話者の音声認識結果を選択する付記2乃至付記4の何れか一つに記載の言語モデル生成装置。
(付記8)
前記言語モデル生成部により生成された前記第2の話者の言語モデルに基づいて、前記第2の話者の発話に対して音声認識を行う音声認識部をさらに備える付記1に記載の言語モデル生成装置。
(付記9)
第1の話者の発話に含まれる単語列と、前記発話に対して応答する第2の話者の発話に含まれる関連語とを関連付ける関連語対に基づいて、会話データに含まれる前記単語列に関連付けられている関連語を抽出し、
抽出された関連語を用いて、前記第2の話者の言語モデルを生成する
言語モデル生成方法。
(付記10)
第1の話者の発話に含まれる単語列と、前記発話に対して応答する第2の話者の発話に含まれる関連語とを関連付ける関連語対に基づいて、会話データに含まれる前記単語列に関連付けられている関連語を抽出する処理と、
抽出された関連語を用いて、前記第2の話者の言語モデルを生成する処理とをコンピュータに実行させるコンピュータプログラム。A part or all of the above-described embodiment can be described as in the following supplementary notes, but is not limited thereto.
(Appendix 1)
The word included in the conversation data based on the related word pair that associates the word string included in the utterance of the first speaker and the related word included in the utterance of the second speaker responding to the utterance. A related term extractor for extracting related terms associated with the column;
A language model generation apparatus, comprising: a language model generation unit that generates a language model of the second speaker using the related words extracted by the related word extraction unit.
(Appendix 2)
A speech recognition unit for performing speech recognition on the speech of the first speaker;
The language model generation device according to
(Appendix 3)
The language model according to supplementary note 2, wherein the related word extraction unit treats, as a first speaker, a speaker whose speech is recognized by the speech recognition unit with higher accuracy than others among speakers included in a conversation. Generator.
(Appendix 4)
A word string included in the speech recognition result of the first speaker, information converted into text data based on speech in a specific conversation, speech features obtained from the speech or the specific conversation, and Based on a speech corpus or a speech corpus associated with speaker information obtained from the specific conversation, the speech recognition result of the first speaker and the conversation corpus highly related to the first speech recognition result The language model generation device according to Supplementary Note 2 or Supplementary Note 3, further comprising a related word pair generation unit that generates a combination with the text included in the text as the related word pair.
(Appendix 5)
The related word extraction unit associates one or more word strings included in the utterance of the first speaker with one or more word strings included in the utterance of the second speaker responding to the utterance. 5. The language model generation device according to any one of
(Appendix 6)
The related word extraction unit includes at least one of a notation of a word string included in the utterance text of the first speaker, a part of speech, a role of the speaker, a time from the conversation start time to the utterance, the number of utterances, and the number of words. The language model generation device according to any one of
(Appendix 7)
The related word extraction unit uses any one or more of the reliability, the part of speech, the acoustic score, the language score, and the N-gram hit rate included in the speech recognition result of the first speaker. The language model generation device according to any one of supplementary notes 2 to 4, which selects a person's speech recognition result.
(Appendix 8)
The language model according to
(Appendix 9)
The word included in the conversation data based on the related word pair that associates the word string included in the utterance of the first speaker and the related word included in the utterance of the second speaker responding to the utterance. Extract related terms associated with a column,
A language model generation method for generating a language model of the second speaker by using an extracted related word.
(Appendix 10)
The word included in the conversation data based on the related word pair that associates the word string included in the utterance of the first speaker and the related word included in the utterance of the second speaker responding to the utterance. Extracting related terms associated with the column;
A computer program that causes a computer to execute processing for generating a language model of the second speaker using the extracted related terms.
本発明は、会話中の音声を認識する処理に関する技術を用いる分野に有効である。 The present invention is effective in the field of using technology related to processing for recognizing speech during conversation.
1 音声認識装置
10 CPU
18 言語モデル生成装置
100 抽出部
101 モデル生成部
103 音声認識部
104 データ生成部1
18 language
Claims (10)
その抽出された前記第2データを利用して、前記他の話者の発話に応じた言語モデルを生成するモデル生成手段と
を備えている言語モデル生成装置。A first data that is a word or a word string included in the first utterance and a related word related to the first data of the word or the word string included in the second utterance responding to the first utterance. The first episode of the first speaker and other speakers who are exchanging a recognition target conversation with the first data in a group of related words associated with certain second data. Extracting means for collating a word or a word string included in the person's utterance and extracting the second data associated with the first data corresponding to the word or word string;
A language model generation device comprising model generation means for generating a language model according to the speech of the other speaker using the extracted second data.
前記抽出手段は、前記第1話者の発話に含まれる単語あるいは単語列だけでなく、前記付属情報に対応する参考情報をも受け、前記データ群から前記第2データを抽出する際に、前記参考情報をも利用して前記第2データを抽出する請求項1又は請求項2記載の言語モデル生成装置。The related word pair of the data group includes the first data notation, the part of speech of the first data, the role of the speaker that emits the first data, and the first data after the conversation is started. At least one of the time to issue and the number of words of the first data within a predetermined period is associated as attached information,
The extraction means receives not only a word or word string included in the utterance of the first speaker but also reference information corresponding to the attached information, and extracts the second data from the data group. The language model generation apparatus according to claim 1, wherein the second data is extracted also using reference information.
前記抽出手段は、前記第1話者の発話に対する前記音声認識処理による複数の前記変換候補を受けた場合には、前記各変換候補に関連付けられている確率情報を利用して、複数の前記変換候補の中の一つを選択し、当該選択した前記変換候補の前記単語あるいは単語列を前記データ群の第1データに照合することによって、前記第2データを抽出する請求項1又は請求項2又は請求項3記載の言語モデル生成装置。The extraction means receives a conversion candidate of a word or a word string by a speech recognition process for converting speech into text data, and the conversion candidate includes reliability, part of speech, acoustic score, language obtained by the speech recognition process At least one of the score and the N-gram hit rate is associated as probability information,
When the extraction means receives a plurality of the conversion candidates by the voice recognition processing for the utterance of the first speaker, the extraction means uses a plurality of the conversions by using probability information associated with the conversion candidates. 3. The second data is extracted by selecting one of candidates and comparing the selected word or word string of the selected conversion candidate with first data of the data group. Or the language model production | generation apparatus of Claim 3.
当該データ生成手段は、前記第1話者の発話から取り込み前記データ群における前記第1データとした単語あるいは単語列と、サンプルとしての会話を表すテキストデータを集めた会話コーパスに含まれる単語あるいは単語列のうちの前記第1データとした前記単語あるいは前記単語列との関連性が高く、かつ、前記データ群における前記第2データとして取り込んだ単語あるいは単語列とを関連付けることにより、前記関連語対のデータを生成する請求項1乃至請求項5の何れか一つに記載の言語モデル生成装置。Comprising data generation means for generating the data group;
The data generation means includes a word or word included in a conversation corpus in which words or word strings taken from the first speaker's utterance and used as the first data in the data group and text data representing conversation as a sample are collected. By associating the word or the word string taken as the second data in the data group with high relevance to the word or the word string as the first data in the sequence, the related word pair The language model generation device according to claim 1, wherein the language model generation device generates the data.
前記音声認識処理に用いる言語モデルを生成する言語モデル生成装置と
を有し、
前記言語モデル生成装置は、請求項1乃至請求項6の何れか一つに記載の言語モデル生成装置であり、認識対象の会話を交わしている第1話者と他の話者とのうちの前記第1話者の発話に含まれ前記認識手段によりテキストデータに変換された単語あるいは単語列に基づいて、前記他の話者に応じた言語モデルを生成する音声認識装置。Recognition means for executing speech recognition processing for converting speech into text data;
A language model generation device that generates a language model used for the speech recognition processing,
The language model generation device is the language model generation device according to any one of claims 1 to 6, wherein the language model generation device includes a first speaker and another speaker who are in a conversation to be recognized. A speech recognition apparatus for generating a language model corresponding to the other speaker based on a word or a word string included in the utterance of the first speaker and converted into text data by the recognition means.
その抽出された前記第2データを利用して、前記他の話者の発話に応じた言語モデルをjコンピュータが生成する言語モデル生成方法。A first data that is a word or a word string included in the first utterance and a related word related to the first data of the word or the word string included in the second utterance responding to the first utterance. The first episode of the first speaker and other speakers who are exchanging a recognition target conversation with the first data in a group of related words associated with certain second data. Collating a word or word string included in the person's utterance, and extracting the second data associated with the first data corresponding to the word or word string,
A language model generation method in which a j computer generates a language model corresponding to the utterance of the other speaker using the extracted second data.
その抽出された前記第2データを利用して、前記他の話者の発話に応じた言語モデルを生成する処理と
をコンピュータに実行させるコンピュータプログラムが格納されているプログラム記憶媒体。A first data that is a word or a word string included in the first utterance and a related word related to the first data of the word or the word string included in the second utterance responding to the first utterance. The first episode of the first speaker and other speakers who are exchanging a recognition target conversation with the first data in a group of related words associated with certain second data. A process of collating a word or a word string included in the person's utterance and extracting the second data associated with the first data corresponding to the word or the word string;
A program storage medium storing a computer program that causes a computer to execute a process of generating a language model according to the speech of the other speaker using the extracted second data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014515497A JP6179509B2 (en) | 2012-05-17 | 2013-05-13 | Language model generation apparatus, speech recognition apparatus, language model generation method, and program storage medium |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012113534 | 2012-05-17 | ||
JP2012113534 | 2012-05-17 | ||
JP2014515497A JP6179509B2 (en) | 2012-05-17 | 2013-05-13 | Language model generation apparatus, speech recognition apparatus, language model generation method, and program storage medium |
PCT/JP2013/003056 WO2013172014A1 (en) | 2012-05-17 | 2013-05-13 | Language model creation device, speech recognition device, language model creation method and program storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2013172014A1 JPWO2013172014A1 (en) | 2016-01-12 |
JP6179509B2 true JP6179509B2 (en) | 2017-08-16 |
Family
ID=49583443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014515497A Active JP6179509B2 (en) | 2012-05-17 | 2013-05-13 | Language model generation apparatus, speech recognition apparatus, language model generation method, and program storage medium |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6179509B2 (en) |
WO (1) | WO2013172014A1 (en) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250581A (en) * | 1999-02-25 | 2000-09-14 | Atr Interpreting Telecommunications Res Lab | Language model generating device and voice recognition device |
JP2004012713A (en) * | 2002-06-05 | 2004-01-15 | Toyota Motor Corp | Speech recognition device and method |
JP4270943B2 (en) * | 2003-05-29 | 2009-06-03 | 三菱電機株式会社 | Voice recognition device |
JP4528540B2 (en) * | 2004-03-03 | 2010-08-18 | 日本電信電話株式会社 | Voice recognition method and apparatus, voice recognition program, and storage medium storing voice recognition program |
JP2009139390A (en) * | 2007-12-03 | 2009-06-25 | Nec Corp | Information processing system, processing method and program |
JP5149737B2 (en) * | 2008-08-20 | 2013-02-20 | 株式会社ユニバーサルエンターテインメント | Automatic conversation system and conversation scenario editing device |
JP5235187B2 (en) * | 2009-11-16 | 2013-07-10 | 日本電信電話株式会社 | Speech recognition apparatus, speech recognition method, and speech recognition program |
-
2013
- 2013-05-13 JP JP2014515497A patent/JP6179509B2/en active Active
- 2013-05-13 WO PCT/JP2013/003056 patent/WO2013172014A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JPWO2013172014A1 (en) | 2016-01-12 |
WO2013172014A1 (en) | 2013-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180308487A1 (en) | Dialogue System Incorporating Unique Speech to Text Conversion Method for Meaningful Dialogue Response | |
JP4902617B2 (en) | Speech recognition system, speech recognition method, speech recognition client, and program | |
JP5706384B2 (en) | Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program | |
JP2018081298A (en) | Natural language processing method and device, and method and device of learning natural language processing model | |
WO2017061027A1 (en) | Language model generation device, language model generation method and program therefor, voice recognition device, and voice recognition method and program therefor | |
WO2006054724A1 (en) | Voice recognition device and method, and program | |
CN111339278B (en) | Method and device for generating training speech generating model and method and device for generating answer speech | |
Liu et al. | An investigation into back-end advancements for speaker recognition in multi-session and noisy enrollment scenarios | |
KR20230086737A (en) | Cascade Encoders for Simplified Streaming and Non-Streaming Speech Recognition | |
Kadyan et al. | Refinement of HMM model parameters for Punjabi automatic speech recognition (PASR) system | |
JP7335569B2 (en) | Speech recognition method, device and electronic equipment | |
CN111243599A (en) | Speech recognition model construction method, device, medium and electronic equipment | |
Jain et al. | Speech Recognition Systems–A comprehensive study of concepts and mechanism | |
US12100388B2 (en) | Method and apparatus for training speech recognition model, electronic device and storage medium | |
KR102699035B1 (en) | Multilingual re-scoring models for automatic speech recognition | |
JP2018197924A (en) | Information processing apparatus, dialogue processing method, and dialogue processing program | |
JP2012037790A (en) | Voice interaction device | |
KR20160061071A (en) | Voice recognition considering utterance variation | |
JP5158022B2 (en) | Dialog processing device, dialog processing method, and dialog processing program | |
JP6179509B2 (en) | Language model generation apparatus, speech recognition apparatus, language model generation method, and program storage medium | |
CN115346520A (en) | Method, apparatus, electronic device and medium for speech recognition | |
JP5381211B2 (en) | Spoken dialogue apparatus and program | |
JP3526549B2 (en) | Speech recognition device, method and recording medium | |
CN113515952B (en) | A joint modeling method, system and device for Mongolian dialogue model | |
Vanzo et al. | Benchmarking speech understanding in service robotics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160415 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170620 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170703 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6179509 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |