JP7541474B2 - Speech evaluation system - Google Patents
Speech evaluation system Download PDFInfo
- Publication number
- JP7541474B2 JP7541474B2 JP2020206677A JP2020206677A JP7541474B2 JP 7541474 B2 JP7541474 B2 JP 7541474B2 JP 2020206677 A JP2020206677 A JP 2020206677A JP 2020206677 A JP2020206677 A JP 2020206677A JP 7541474 B2 JP7541474 B2 JP 7541474B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- pronunciation
- speech
- expected
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、発話評価システムに関する。 The present invention relates to a speech evaluation system.
文献1には、人間によって話者の発話が聞き起こされた結果と、所定の音声認識部によって話者の発話が音声認識された結果とを比較することによって、音声認識された結果が正しいか否かを判定する音声認識結果評価装置が開示されている。このような装置によれば、音声認識された結果における認識の誤りを検出することができる。
ここで、発話の音声認識に関して、認識した発話の文意を正確に捉えるため、発話における発音の誤りを検出したいというユーザの要望がある。しかしながら、上述した従来の装置では、音声認識の対象である話者の発話そのものに発音の誤りがあった場合に、発音の誤りを適切に検出することはできない。例えば、発話が音声認識された結果から、発話における誤りが検出される場合、通常、話者による単語の誤用と、話者による発音の誤りとが区別されず、いずれも発話における誤りとして検出されてしまう。 Here, with regard to speech recognition of speech, there is a desire from users to detect pronunciation errors in speech in order to accurately grasp the meaning of the recognized utterance. However, the conventional devices described above are unable to properly detect pronunciation errors when there is a pronunciation error in the speech itself of the speaker who is the target of speech recognition. For example, when an error in speech is detected from the results of speech recognition of an utterance, typically there is no distinction between the speaker's misuse of words and the speaker's pronunciation error, and both are detected as errors in speech.
本発明は、上記実情に鑑みてなされたものであり、話者の発話における発音の誤りを適切に検出することができる発話評価システムを提供することを目的とする。 The present invention has been made in consideration of the above-mentioned circumstances, and aims to provide a speech evaluation system that can appropriately detect pronunciation errors in a speaker's speech.
本発明の一態様に係る発話評価システムは、話者の発話を音声認識した結果を取得し、該音声認識した結果を、発音を表す文字列に変換する変換部と、話者の発話に出現すると想定される単語の発音を表す文字列である想定文字列と、変換部によって変換された発音を表す文字列に含まれる一又は複数の発話文字列との編集距離を算出する算出部と、一又は複数の発話文字列のうち、編集距離が所定値以下であり、且つ、想定文字列と同一の文字列ではない発話文字列を、発音誤り文字列として検出する検出部と、発音誤り文字列を出力する出力部と、を備え、算出部は、想定文字列及び発話文字列に含まれる子音の発音分類を考慮して、編集距離を算出する。 The speech evaluation system according to one aspect of the present invention includes a conversion unit that acquires the result of speech recognition of a speaker's speech and converts the result of speech recognition into a character string representing a pronunciation; a calculation unit that calculates an edit distance between an expected character string, which is a character string representing the pronunciation of a word expected to appear in the speaker's speech, and one or more spoken character strings included in the character string representing the pronunciation converted by the conversion unit; a detection unit that detects, among the one or more spoken character strings, a spoken character string whose edit distance is equal to or less than a predetermined value and is not identical to the expected character string as a mispronunciation character string; and an output unit that outputs the mispronunciation character string. The calculation unit calculates the edit distance taking into account the pronunciation classification of consonants included in the expected character string and the spoken character string.
本発明の一態様に係る発話評価システムでは、発音を表す文字列に話者の発話が変換され、話者の発話に出現すると想定される単語の発音を表す文字列である想定文字列と、変換された発音を表す文字列に含まれる一又は複数の発話文字列との編集距離が算出され、一又は複数の発話文字列のうち、編集距離が所定値以下であり、且つ、想定文字列と同一の文字列ではない発話文字列が、発音誤り文字列として検出される。ここで、発話における誤り検出において、例えば、発話を音声認識した結果が文章に変換され、発話における誤りが検出される場合には、通常、話者による単語の誤用と、話者による発音誤りとが区別されず、いずれも発話における誤りとして検出されてしまう。このような検出処理では、話者の発話における発音誤りを適切に検出することができない。この点、本発明の一態様に係る発話評価システムでは、話者の発話が、発音を表す文字列に変換され、該文字列に含まれる発話文字列と、想定文字列との編集距離が導出されて、該編集距離が所定値以下である発話文字列が発話誤り文字列として検出されるため、「誤り度合いが小さく、単語の誤用というよりも単なる発音の誤りである可能性が高い」と推定される発話文字列について、適切に発音誤り文字列として検出することができる。さらに、本発明の一態様に係る発話評価システムでは、子音の発音分類が考慮されて、想定文字列と発話文字列との編集距離が算出される。このような構成によれば、例えば、想定文字列と発音が類似する発音文字列ほど想定文字列との編集距離が小さくなるように、編集距離が算出される。これにより、検出部は、想定文字列に発音が近い発話文字列(「単語の誤用というよりも単なる発音の誤りである可能性が高い」文字列)を発音誤り文字列として検出することができる。以上のように、本発明の一態様に係る発話評価システムによれば、話者の発話における発音の誤りを適切に検出することができる。 In a speech evaluation system according to one aspect of the present invention, a speaker's speech is converted into a character string representing a pronunciation, an edit distance between an expected character string, which is a character string representing the pronunciation of a word expected to appear in the speaker's speech, and one or more speech character strings included in the converted character string representing the pronunciation is calculated, and among the one or more speech character strings, a speech character string whose edit distance is equal to or less than a predetermined value and which is not identical to the expected character string is detected as a mispronunciation character string. Here, in detecting errors in speech, for example, when the result of speech recognition is converted into a sentence and an error in speech is detected, a speaker's misuse of a word and a speaker's mispronunciation are not usually distinguished from each other, and both are detected as errors in speech. In such a detection process, it is not possible to appropriately detect mispronunciations in the speaker's speech. In this regard, in the speech evaluation system according to one aspect of the present invention, the speaker's speech is converted into a character string representing the pronunciation, the edit distance between the speech string included in the character string and the expected character string is derived, and the speech string with the edit distance equal to or less than a predetermined value is detected as a speech error string. Therefore, a speech string estimated to have a small degree of error and a high probability of being a mere pronunciation error rather than a misuse of a word can be appropriately detected as a mispronounced string. Furthermore, in the speech evaluation system according to one aspect of the present invention, the edit distance between the expected character string and the speech string is calculated taking into account the pronunciation classification of the consonant. With this configuration, for example, the edit distance is calculated so that the edit distance between the expected character string and the speech string becomes smaller as the pronunciation of the pronunciation string becomes more similar to that of the expected character string. As a result, the detection unit can detect a speech string with a pronunciation close to that of the expected character string (a string that is "high probability of being a mere pronunciation error rather than a misuse of a word") as a mispronounced string. As described above, the speech evaluation system according to one aspect of the present invention can appropriately detect pronunciation errors in the speaker's speech.
本発明によれば、話者の発話における発音誤りを適切に検出することができる発話評価システムを提供することができる。 The present invention provides a speech evaluation system that can appropriately detect pronunciation errors in a speaker's speech.
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。 Embodiments of the present invention will now be described in detail with reference to the accompanying drawings. In the description of the drawings, the same or equivalent elements will be designated by the same reference numerals, and duplicate descriptions will be omitted.
図1及び図2に示される発話評価システム1は、話者Sの発話を音声認識し、音声認識結果を評価するシステムである。音声認識結果を評価するとは、例えば、音声認識結果である発話内容の文字列が適切であるか否かを評価することをいう。一例としては、発話評価システム1は、語学検定等に用いられるシステムであり、質問に対する話者Sの発話内容の文字列(音声認識結果)が、当該質問に対する回答を示す文字列として適切であるか否かを評価する。
The
発話評価システム1は、より詳細には、音声認識結果において発音誤りがあるか否かを判定し、発音誤りがある場合には、該発音誤りを訂正し、訂正後の音声認識結果について評価を行う。発話評価システム1は、音声認識結果について、発音を表す文字列に変換し、子音の発音類似性を考慮して音声認識結果から発音の誤りを検出し、訂正する。発話評価システム1は、例えば、質問に対する話者Sの発話に出現すると想定される単語の発音を表す文字列と、音声認識結果に係る発音を表す文字列との子音の発音類似度を導出し、両文字列が同一ではなく且つ両文字列に含まれる子音の発音類似度が所定値よりも高い場合には、話者Sの発話に発音の誤りが含まれていると判定(発音の誤りを検出)し、発音の誤りを訂正し、訂正後の音声認識結果について評価を行う。発話評価システム1は、話者Sの発話の集音を行う機能を有する通信端末10と、データの送受信及びデータ処理を行う発話評価サーバ30と、を備えている。最初に、発話評価システム1が行う処理の概要について説明する。
More specifically, the
発話評価システム1では、発話評価サーバ30が、話者Sの発話に出現すると想定される単語の発音を表す文字列(以下、想定文字列と表記する。)、及び、子音の発音分類(後述する)を予め記憶している。図1に示される例では、想定文字列が「gita-」とされている。
In the
通信端末10等において、例えば、アプリケーションが実行され、発話評価が行われる場合、通信端末10は、マイク等によって集音された話者Sの発話を、発話音声データとして発話評価サーバ30に送信する。発話評価サーバ30は、通信端末10から取得した発話音声データを用いて、話者Sの発話について音声認識を行う。発話評価サーバ30は、音声認識した結果を、発音を表す文字列に変換する。
For example, when an application is executed on a
図1に示される例では、「あなたの趣味はなんですか?」という問いに対する話者Sの「趣味はビターを弾くことです。」という発話の音声が通信端末10のマイクによって集音され、集音された音声は、発話音声データとして通信端末10によって発話評価サーバ30に送信される。次に、発話評価サーバ30によって、当該発話音声データが音声認識されることで、話者Sの発話が音声認識される。そして、発話評価サーバ30によって、音声認識した結果として「趣味はギターを弾くことです。」という文章が生成される。そして、発話評価サーバ30によって、生成された文章が、「syumihabita-wohikukotodesu。」という発音を表すローマ字文に変換される。
In the example shown in FIG. 1, the voice of speaker S responding to the question "What are your hobbies?" with "My hobby is playing the guitar" is collected by the microphone of the
発話評価サーバ30は、想定文字列を取得する。発話評価サーバ30は、音声認識した結果から変換された発音を表す文字列(以下、変換文字列と表記する。)から、想定文字列と同じ文字数の一又は複数の文字列(以下、発話文字列と表記する。)を生成する。発話評価サーバ30は、想定文字列と各発話文字列との編集距離を、子音の発音分類を考慮して(後述する)算出する。ここで、編集距離とは、1文字の置換を1手順として、ある文字列を他の文字列に変形するのに必要な手順の最小回数を指す。発話評価サーバ30は、算出した編集距離が所定値以下となる発話文字列の内、想定文字列と同一の文字列でないものを発音誤り文字列として検出する。
The
図1に示される例では、発話評価サーバ30によって、「syumihabita-wohikukotodesu。」というローマ字文から、想定文字列である「gita-」と同じ文字数である5文字単位のN-gramが生成され、それぞれ発話文字列として特定される。ここで、N-gramとは、変換文字列において、最初の文字を1文字ずつずらしながら重複を許して抜き出された所定の文字数の文字列である。そして、発話評価サーバ30によって、想定文字列「gita-」と各発話文字列との編集距離を文字数5で除算した値である誤り率が算出される。さらに、発話評価サーバ30によって、想定文字列「gita-」と比較された結果、誤り率が閾値を下回った発話文字列「bita-」は、発音誤り文字列として検出される。
In the example shown in FIG. 1, the
発話評価サーバ30は、発音誤り文字列を検出した場合、変換文字列において、発音誤り文字列を、該発音誤り文字列の検出に用いた想定文字列に訂正する。発話評価サーバ30は、訂正後の変換文字列(例えばローマ字文)を、話者Sの発話において用いられた言語の文章形式(日本語文)に変換する(以下、変換後の該文章を、評価文章と表記する)。そして、発話評価サーバ30は、発話誤り文字列を、話者Sの発話において用いられた言語に変換する(以下、変換後の該単語を、発音誤り単語と表記する)。発話評価サーバ30は、評価文章を採点し、評価文章、発音誤り単語、及び、採点結果を出力する。なお、発話評価サーバ30は、発音誤り文字列を検出しない場合、最初に音声認識した結果を、評価文章とする。
When the
図1に示される例では、発話評価サーバ30によって、ローマ字文「syumihabita-wohikukotodesu。」において、発音誤り文字列として検出された発話文字列「bita-」を、想定文字列「gita-」に訂正する。そして、発話評価サーバ30によって、発音誤り訂正後のローマ字文「syumihagita-wohikukotodesu。」は、発音誤り訂正後の日本語文「趣味はギターを弾くことです。」(評価文章)に変換される。さらに、評価文章「趣味はギターを弾くことです。」に単語の誤りがないことから、発話評価サーバ30によって、発音誤り訂正後の日本語文は「100点」であると採点される。
In the example shown in FIG. 1, the
次に、図2を参照して、通信端末10、及び、発話評価サーバ30の機能的な構成要素について説明する。
Next, referring to FIG. 2, the functional components of the
通信端末10は、例えば、サーバと通信可能に構成された端末である。通信端末10は、例えば、スマートフォン、タブレット型端末、PC等である。通信端末10は、例えばアプリケーションが実行されると、実装されたマイク等により話者Sの発話を集音し、集音した音声を発話音声データとして発話評価サーバ30に送信する。また、通信端末10は、発話評価サーバ30から受信した評価文章、発音誤り単語、及び、採点結果を、実装されたディスプレイ等の画面上に表示する。図1に示される例では、通信端末10は、「趣味はビターを弾くことです。」という発話内容を、発話音声データとして発話評価サーバ30に送信する。そして、通信端末10は、発話評価サーバ30から、評価文章「趣味はギターを弾くことです。」、発音誤り単語「ビター」、及び、採点結果「100点」を取得し、画面上に表示する。なお、通信端末10は、子音の発音分類(後述する)、話者Sの母語、及び、想定文字列の入力を受け付け、入力結果を発話評価サーバ30に送信してもよい。
The
発話評価サーバ30は、機能的な構成要素として、記憶部31と、音声認識部32と、変換部33と、算出部34と、検出部35と、訂正部36と、採点部37と、出力部38と、を有している。
The
記憶部31は、子音の発音分類、話者Sの母語、及び、想定文字列を記憶している。子音の発音分類とは、発音誤りが発生しやすいと推定される複数の子音の組み合わせである。図3に示される例では、子音の発音分類が設定されている。例えば、子音「r」及び子音「l」は、発音方法が類似する。ゆえに、子音「r」及び子音「l」は、誤って発音されやすいと推定される。例えば、話者が、「r」を発音しようとして、誤って「l」を発音してしまうこと、あるいはその逆があり得る。したがって、「r」及び「l」は同じ発音分類と設定される。また、子音の発音分類は、予め設定されてもよいし、通信端末10から取得されてもよい。
The
子音の発音分類は、話者の母語に応じて設定されてもよい。具体的には、発音誤りが発生しやすいと推定される複数の子音の組み合わせが、言語ごとに異なるため、話者の母語に応じて子音の発音分類を変更あるいは追加する。図3に示される例では、英語を母語とする話者が、子音「t」の発音を、子音「s」または子音「r」に誤りやすいことから、話者の母語が英語である場合、「t,s」及び「t,r」という分類が、子音の発音分類に追加される。一方で、話者の母語がアジア圏の言語である場合、アジア圏の言語を母語とする話者が、子音「z」を子音「j」に、子音「d」を子音「r」に、発音を誤りやすいことから、「z,j」及び「d,r」という分類が子音の発音分類に追加される。 The pronunciation classification of consonants may be set according to the native language of the speaker. Specifically, since the combination of multiple consonants that is estimated to be prone to mispronunciation differs for each language, the pronunciation classification of consonants is changed or added according to the native language of the speaker. In the example shown in FIG. 3, since a native English speaker is prone to mispronounce the consonant "t" as the consonant "s" or the consonant "r", if the native language of the speaker is English, the classifications "t, s" and "t, r" are added to the pronunciation classification of consonants. On the other hand, if the native language of the speaker is an Asian language, the classifications "z, j" and "d, r" are added to the pronunciation classification of consonants, since a native Asian speaker is prone to mispronounce the consonant "z" as the consonant "j" and the consonant "d" as the consonant "r".
記憶部31は、発話し得る話者全ての母語を、話者Sの母語として記憶している。そして、記憶部31は、予め決まっている質問の回答として想定される各文字列を、想定文字列として記憶している。具体的には、発話評価が行われる場合、話者Sとなり得る人間の母語(例えば、英語、中国語、ドイツ語等)が、予め設定されているか、あるいは、通信端末10等から取得される。また、発話評価における質問内容は予め決められているため、質問の回答として想定される文字列も、予め設定されているか、あるいは、通信端末10等から取得される。図1に示される例では、記憶部31は、予め決まっている質問「趣味はビターを弾くことです。」の回答として、「ギター」の発音を表すローマ字文「gita-」を想定文字列として記憶している。図1に示される例における、その他の想定文字列としては、例えば、「旅行」の発音を表すローマ字文「ryоkоu」、「野球」の発音を表すローマ字文「yakyu」等が考えられる。
The
音声認識部32は、発話音声データを通信端末10から取得する。音声認識部32は、受信した発話音声データを音声認識して、音声認識の結果である文章を変換部33及び採点部37に引き渡す。図1に示される例では、音声認識部32は、「趣味はビターを弾くことです。」という発話音声データを音声認識して、「趣味はビターを弾くことです。」という文章を生成する。
The
変換部33は、話者Sの発話を音声認識した結果を取得し、該音声認識した結果を、発音を表す文字列に変換する。具体的には、変換部33は、音声認識部32から、音声認識の結果である文章を取得し、発音を表すローマ字文に該文章を変換する。変換部33は、変換した発音を表すローマ字文(変換文字列)を、算出部34及び訂正部36に引き渡す。図1に示される例では、変換部33は、音声認識部32から、音声認識の結果である文章「趣味はビターを弾くことです。」を取得し、発音を表すローマ字文「syumihabita-wohikukotodesu。」に変換する。
The
算出部34は、話者Sの発話に出現すると想定される単語の発音を表す文字列である想定文字列と、変換部33によって変換された発音を表す文字列に含まれる一又は複数の発話文字列との編集距離を算出する。具体的には、算出部34は、想定文字列を記憶部31から取得する。算出部34は、想定文字列の文字数をNとして、変換部33によって変換された発音を表す文字列から一又は複数のN-gramを発話文字列として特定する。そして、算出部34は、想定文字列と特定した発話文字列との編集距離を文字数Nで除算した値である誤り率を算出する。算出部34は、全ての想定文字列について各発話文字列ごとに誤り率の算出を行い、全ての誤り率の値を検出部35に引き渡す。なお、算出部34が取得する想定文字列は、記憶部31が記憶する全ての想定文字列でもよいし、質問や発話に関する情報に基づいて想定文字列の候補を絞り込める場合は、記憶部31が記憶する一部の想定文字列でもよい。
The
図1に示される例では、算出部34は、変換部33から取得した「syumihabita-wohikukotodesu。」という27文字のローマ字文から、想定文字列「gita-」と同じ文字数の文字列を、最初の文字を1文字ずつずらしながら重複を許して抜き出すことによって、「syumi」、「yumih」、「umiha」、…、「bita-」、…「desu。」という23個のN-gramを生成し、発話文字列として特定する。算出部34は、子音の発音分類を考慮して想定文字列と各発話文字列との編集距離を算出し、算出した編集距離を文字数5で除算した値を誤り率とする。例えば、算出部34によって、想定文字列「gita-」と発話文字列「syumi」との編集距離「5」が算出され、算出された編集距離が文字数「5」で除算され、発話文字列「syumi」の誤り率「1」が算出される。また、算出部34によって、同様に、発話文字列「bita-」の誤り率「0.1」が、子音の発音分類を考慮して(後述する)算出される。
1, the
また、算出部34は、想定文字列及び発話文字列に含まれる子音の発音分類を考慮して、編集距離を算出する。具体的には、算出部34は、編集距離の算出において、同じ発音分類に含まれる子音同士が置換される場合、1文字の置換を0.5手順として編集距離を算出する。ここで、1手順とは、通常、ある文字列を他の文字列に変形する場合に、1文字の置換が1回行われたことを意味する。図4に示される例では、算出部34が、想定文字列「gita-」と発話文字列「mita-」との編集距離、及び、想定文字列「gita-」と発話文字列「bita-」との編集距離をそれぞれ算出している。想定文字列「gita-」を発話文字列「mita-」に変形するには、1文字目のみを子音「g」から子音「m」に置換する必要がある。よって、算出部34は、想定文字列「gita-」と、発話文字列「mita-」との編集距離を「1」と算出する。一方で、想定文字列「gita-」を発話文字列「bita-」に変形するには、1文字目のみを「g」から「b」に置換する必要がある。ここで、図3に示されるように、子音「g」及び「b」は、子音の発音分類において同じ分類であるため、算出部34は、想定文字列「gita-」と発話文字列「bita-」との編集距離を「0.5」と算出する。なお、編集距離の算出において、同じ発音分類に含まれる子音同士の置換が行われる場合、1文字置換される際の手順数は、他の場合より小さければよい。例えば、同じ発音分類に含まれる子音同士の置換が行われる場合、1文字の置換を、0.3手順などとして編集距離を算出してもよい。
The
検出部35は、一又は複数の発話文字列のうち、編集距離が所定値以下であり、且つ、想定文字列と同一の文字列ではない発話文字列を、発音誤り文字列として検出する。具体的には、検出部35は、特定の想定文字列との誤り率が算出された発話文字列の中で、誤り率が最も小さく、且つ、誤り率が0よりも大きい発話文字列について、該誤り率が、発音誤りと判定する閾値以下であったとき、該発話文字列を発音誤り文字列として検出する。検出部35は、検出した発音誤り文字列を訂正部36に引き渡す。また、検出部35は、発音誤り文字列を、発音誤り単語に変換し、出力部38に引き渡す。図1に示される例では、想定文字列「gita-」との誤り率が算出された複数の発話文字列の中で、誤り率が最も小さい発話文字列「bita-」の誤り率「0.1」が、発音誤りと判定する閾値「0.3」以下であったことから、検出部35は、発話文字列「bita-」を発音誤り文字列として検出する。
The
訂正部36は、変換された発音を表す文字列において、検出部にて検出された発音誤り文字列を、該発音誤り文字列の検出に用いられた編集距離の算出に用いられた想定文字列に訂正し、変換された発音を表す文字列を、発話において用いられた言語の文章に変換する。具体的には、訂正部36は、変換部33から変換文字列を取得する。訂正部36は、取得した変換文字列において、発音誤り文字列を、該発音誤り文字列の検出に用いられた誤り率の算出に用いられた想定文字列に訂正する。訂正部36は、訂正後の変換文字列を、話者Sの発話において用いられた言語の文章(評価文章)に変換する。訂正部36は、評価文章を、採点部37及び出力部38に引き渡す。
The
図1に示される例では、訂正部36は、変換文字列「syumihabita-wohikukotodesu。」において、発音誤り文字列「bita-」を、該発音誤り文字列の検出に用いられた編集距離の算出に用いられた想定文字列「gita-」に訂正する。訂正部36は、訂正後の変換文字列「syumihagita-wohikukotodesu。」を、話者Sの発話において用いられた言語である日本語の文章「趣味はギターを弾くことです。」(評価文章)に変換する。
In the example shown in FIG. 1, the
採点部37は、検出部35によって発音誤り文字列が検出された場合、訂正部36において変換された文章を採点し、検出部35によって発音誤り文字列が検出されない場合、音声認識した結果を採点する。具体的には、採点部37は、検出部35が発音誤り文字列を検出した場合、訂正部36から評価文章を取得する。また、採点部37は、検出部35が発音誤り文字列を検出しない場合、音声認識部32から音声認識の結果である文章を取得し、評価文章とする。そして、両方の場合において、採点部37は、評価文章を採点する。採点部37は、採点結果及び評価文章を出力部38に引き渡す。
When the
図1に示される例では、検出部35が発音誤り文字列を検出した場合が示されており、採点部37は、訂正部36から訂正後の文章「趣味はギターを弾くことです。」を取得する。訂正後の文章「趣味はギターを弾くことです。」に単語等の間違いがないため、採点部37は、「100点」という採点結果を得る。
In the example shown in FIG. 1, the
出力部38は、検出部35から、発音誤り単語を取得する。出力部38は、採点部37から、採点結果及び評価文章を取得する。出力部38は、評価文章、発音誤り単語及び採点結果を、通信端末10などの外部機器に出力する。図1に示される例では、出力部38は、発音誤り単語「ビター」、採点結果「100点」及び評価文章「趣味はギターを弾くことです。」を出力する。
The
次に、本実施形態に係る発話評価システム1が行う処理、具体的には、通信端末10が取得した話者Sの発話における発音誤りを訂正し、発話の採点を行う処理について、図5を参照して説明する。図5は、発話評価システム1が行う処理を示すフローチャートである。
Next, the process performed by the
図5に示されるように、発話評価システム1では、音声認識部32によって、発話音声データが取得される。そして、音声認識部32によって、発話音声データは音声認識され、音声認識結果である文章が生成される(ステップS101)。続いて、変換部33によって、音声認識結果が取得され、発音を表す文字列に変換される(ステップS102)。具体的には、変換部33によって、音声認識の結果である文章が取得され、発音を表すローマ字文(変換文字列)に変換される。
As shown in FIG. 5, in the
続いて、算出部34によって、発音を表す文字列から発話文字列が生成される(ステップS103)。具体的には、算出部34によって、想定文字列が記憶部31から取得される。そして、算出部34によって、想定文字列の文字数をNとして、一又は複数のN-gramが、変換文字列から、発話文字列として特定される。続いて、算出部34によって、発話文字列と想定文字列との編集距離が導出される(ステップS104)。具体的には、算出部34によって、想定文字列及び発話文字列に含まれる子音の発音分類を考慮して、想定文字列と各発話文字列との編集距離が、想定文字列の文字数Nで除算され、複数の誤り率が算出される。
Then, the
続いて、検出部35によって、複数の発話文字列において、発音誤り文字列が存在するか否かが判定される(ステップS105)。具体的には、検出部35によって、特定の想定文字列との誤り率が算出された発話文字列の中で、誤り率が最も小さく、且つ、誤り率が0よりも大きい発話文字列について、誤り率が、発音誤りと判定する閾値以下であったとき、該発話文字列が発音誤り文字列として検出される。
Then, the
検出部35によって、発音誤り文字列が検出された場合(ステップS105:YES)、訂正部36によって、変換文字列において、発音誤り文字列が、該発音誤り文字列の検出に用いられた誤り率の算出に用いられた想定文字列に訂正される(ステップS106)。続いて、訂正部36によって、訂正後の変換文字列が、話者Sの発話において用いられた言語の文章(評価文章)に変換される(ステップS107)。一方、検出部35によって、発音誤り文字列が検出されない場合(ステップS105:No)、採点部37によって、音声認識部32から音声認識の結果である文章が取得され、評価文章とされる(ステップS108)。
If the
続いて、採点部37によって、評価文章が採点される(ステップS109)。続いて、出力部38によって、評価文章、発音誤り単語及び採点結果が出力される(ステップS110)。
Then, the
次に、本実施形態に係る発話評価システムの作用効果について説明する。 Next, we will explain the effects of the speech evaluation system according to this embodiment.
本実施形態に係る発話評価システム1は、話者Sの発話を音声認識した結果を取得し、該音声認識した結果を、発音を表す文字列に変換する変換部33と、話者の発話に出現すると想定される単語の発音を表す文字列である想定文字列と、変換部によって変換された発音を表す文字列に含まれる一又は複数の発話文字列との編集距離を算出し、該編集距離を誤り率で除算する算出部34と、一又は複数の発話文字列のうち、誤り率が所定値以下であり、且つ、想定文字列と同一の文字列ではない発話文字列を、発音誤り文字列として検出する検出部35と、発音誤り文字列を出力する出力部38と、を備え、算出部は、想定文字列及び発話文字列に含まれる子音の発音分類を考慮して、編集距離を算出する。
The
本実施形態に係る発話評価システム1では、発音を表す文字列に話者Sの発話が変換され、話者Sの発話に出現すると想定される単語の発音を表す文字列である想定文字列と変換された発音を表す文字列に含まれる一又は複数の発話文字列との編集距離が算出され、該編集距離から誤り率が算出され、一又は複数の発話文字列のうち、誤り率が所定値以下であり、且つ、想定文字列と同一の文字列ではない発話文字列が、発音誤り文字列として検出される。ここで、発話における誤り検出において、例えば、発話を音声認識した結果が文章に変換され、発話における誤りが検出される場合には、通常、話者による単語の誤用と、話者による発音誤りとが区別されず、共に発話における誤りとして検出されてしまう。このような検出処理では、話者の発話における発音誤りのみを適切に検出することができない。この点、本実施形態に係る発話評価システム1では、話者Sの発話が、発音を表す文字列に変換され、該文字列に含まれる発話文字列と、想定文字列との編集距離が算出され、該編集距離から誤り率が算出され、該誤り率が所定値以下である発話文字列が発話誤り文字列として検出されるため、「誤り度合いが小さく、単語の誤用というよりも単なる発音の誤りである可能性が高い」と推定される発話文字列について、適切に発音誤り文字列として検出することができる。さらに、本実施形態に係る発話評価システム1では、子音の発音分類が考慮されて、想定文字列と発話文字列との編集距離が算出される。このような構成によれば、例えば、想定文字列と発音が類似する発音文字列ほど想定文字列との編集距離が小さくなるように、編集距離が算出されるため、想定文字列と発音が類似する発音文字列ほど想定文字列との誤り率が小さくなる。これにより、検出部は、想定文字列に発音が近い発話文字列(「単語の誤用というよりも単なる発音の誤りである可能性が高い」文字列)を発音誤り文字列として検出することができる。以上のように、本実施形態に係る発話評価システム1によれば、話者の発話における発音の誤りを適切に検出することができる。
In the
図6に示される例では、「ギター」という想定単語と、「モター」、「ミター」及び「ビター」という発話単語との編集距離の算出について、従来技術、及び、本実施形態に係る技術が表されている。想定単語は、発話に出現すると想定される単語であり、発話単語は、話者Sによって発話された単語である。従来技術が用いられる場合、想定単語と各発話単語との編集距離は、全て「1」となる。ここで、想定単語が想定文字列に、発話単語が発話文字列に変換され、各発話文字列について、想定文字列「gita-」との編集距離が算出される場合、該編集距離は、発話文字列「mоta-」では「2」、発話文字列「mita-」及び「bita-」では「1」となる。このように、各単語の発音が考慮されることにより、想定文字列に発音が類似する発音文字列ほど想定文字列との編集距離が小さくなる。さらに、本実施形態に係る技術を用いて、子音の発音分類が考慮されつつ、各発話文字列について、想定文字列「gita-」との編集距離が算出される場合、該編集距離は、発話文字列「mоta-」では「2」、発話文字列「mita-」では「1」、及び発話文字列「bita-」では「0.5」となる。このように、各単語の発音における子音の発音類似性が考慮されることにより、想定文字列と子音の発音がより類似する発音文字列ほど想定文字列との編集距離がさらに小さくなる。以上のように、本実施形態に係る技術を用いると、想定文字列と発音が類似する発音文字列ほど想定文字列との編集距離が小さくなるように、編集距離が算出される。これにより、想定文字列と発音が類似する発音文字列ほど想定文字列との誤り率が小さくなるため、話者の発話における発音の誤りを適切に検出することができる。 In the example shown in FIG. 6, the conventional technology and the technology according to the present embodiment are shown for calculating the edit distance between the expected word "guitar" and the spoken words "motah," "mitah," and "bitter." The expected word is a word that is expected to appear in an utterance, and the spoken word is a word that is spoken by speaker S. When the conventional technology is used, the edit distance between the expected word and each spoken word is all "1." Here, when the expected word is converted into an expected character string, and the spoken word is converted into a spoken character string, and the edit distance between each spoken character string and the expected character string "gita-" is calculated, the edit distance is "2" for the spoken character string "mоta-" and "1" for the spoken character strings "mita-" and "bita-." In this way, by taking into account the pronunciation of each word, the edit distance between the expected character string and the pronunciation character string that is more similar in pronunciation to the expected character string is smaller. Furthermore, when the technology according to the present embodiment is used to calculate the edit distance between each spoken string and the expected string "gita-" while taking into account the pronunciation classification of the consonants, the edit distance is "2" for the spoken string "mоta-", "1" for the spoken string "mita-", and "0.5" for the spoken string "bita-". In this way, by taking into account the pronunciation similarity of the consonants in the pronunciation of each word, the edit distance between the expected string and the expected string becomes smaller as the pronunciation string is more similar to the expected string in the pronunciation. As described above, when the technology according to the present embodiment is used, the edit distance is calculated such that the edit distance between the expected string and the pronunciation string is smaller as the pronunciation is more similar to the expected string. As a result, the error rate between the expected string and the pronunciation string is smaller as the pronunciation is more similar to the expected string, so that pronunciation errors in the speaker's speech can be appropriately detected.
算出部34は、話者Sの母語に応じて設定される子音の発音分類を考慮して、編集距離を算出し、該編集距離から誤り率を算出する。ここで、子音の発音類似性は、話者Sの母語によって異なる。ゆえに、このような構成によれば、例えば、話者Sの母語に応じた子音の発音類似性が考慮されて、想定文字列と発音が類似する発音文字列ほど想定文字列との誤り率が小さくなるように、誤り率が算出される。例えば、話者Sの母語が英語であるとき、英語を母語とする話者Sにとって発音が類似する子音「r」及び子音「t」が、追加の発音分類として、子音の発音分類に付け加えられ、編集距離及び誤り率が算出される。これにより、話者の母語を考慮して、想定文字列に発音が近い発話文字列(「単語の誤用というよりも単なる発音の誤りである可能性が高い」文字列)を発音誤り文字列として検出することができる。
The
算出部34は、想定文字列の文字数をNとして、変換部によって変換された発音を表す文字列から一又は複数のN-gramを発話文字列として特定する。ここで、発音の誤りの検出に関して、例えば、変換された発音を表す文字列が、所定の文字数の複数の文字列に切り分けられて、発話文字列とされた場合には、発音の誤りが複数の文字列に跨っているような場合に、発音の誤りが適切に検出されないことがある。この点、本実施形態に係る構成では、変換された発音を表す文字列から一又は複数のN-gramが発話文字列として特定される。これにより、N-gramは、変換された発音を表す文字列において、最初の文字を1文字ずつずらしながら重複を許して抜き出された所定の文字数の文字列であるため、話者の発話における発音誤りを漏れなく検出することができる。
The
変換された発音を表す文字列において、検出部35にて検出された発音誤り文字列が、該発音誤り文字列の検出に用いられた編集距離の算出に用いられた想定文字列に置換され、変換された発音を表す文字列が、発話において用いられた言語の文章に変換される。検出部35によって、発音誤り文字列が検出された場合、採点部37によって、訂正部36において変換された文章が採点され、検出部35によって、発音誤り文字列が検出されない場合は、採点部37によって、音声認識部32において音声認識された結果が採点される。このような構成では、変換された発音文字列において、「単語の誤用というよりも単なる発音の誤りである可能性が高い」とされた文字列が、「発音を誤らなかった場合に発話されたと推定される文字列」である想定文字列に訂正され、発音誤りのみが訂正された文章が採点される。これにより、発話において、話者Sが単語を誤用してしまった場合と、話者が単語を正しく用いているにも関わらず、発音を誤ってしまった場合と、を区別して採点することができる。
In the character string representing the converted pronunciation, the mispronunciation character string detected by the
図7に示される例では、従来技術及び本実施形態に係る技術における、発話内容の訂正結果と採点結果が示されている。まず、従来技術では、「ビター」及び「モター」は、共に誤りとして検出され、訂正される。一方で、本実施形態に係る技術では、「ビター」のみが、「ギター」の発音誤りであると推定され、訂正される。したがって、本実施形態に係る技術では、従来技術と比較して、発音誤りが単語の誤用であると誤認されないため、話者Sの発話がより正確に採点される。 The example shown in FIG. 7 shows the correction results and scoring results of the speech content in the conventional technology and the technology according to this embodiment. First, in the conventional technology, both "bitter" and "mottar" are detected as errors and are corrected. On the other hand, in the technology according to this embodiment, only "bitter" is estimated to be a mispronunciation of "guitar" and is corrected. Therefore, compared to the conventional technology, in the technology according to this embodiment, the speech of speaker S is scored more accurately because the mispronunciation is not mistaken for a misuse of the word.
本発明は、上記実施形態に限定されない。具体的には、発話評価システム1が評価する言語は、母音及び子音で構成された言語であればよく、日本語に限定されない。そして、変換部33における変換後の文字列は、発音を表す文字列であればよく、例えば、発音記号やアルファベットで表されてもよい。
The present invention is not limited to the above embodiment. Specifically, the language evaluated by the
次に、発話評価システム1に含まれた通信端末10、及び、発話評価サーバ30のハードウェア構成について、図8を参照して説明する。上述の通信端末10、及び、発話評価サーバ30は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
Next, the hardware configuration of the
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。通信端末10、及び、発話評価サーバ30のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
In the following description, the term "apparatus" may be interpreted as a circuit, device, unit, etc. The hardware configuration of the
通信端末10、及び、発話評価サーバ30における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
The functions of the
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、発話評価サーバ30の音声認識部32等の制御機能はプロセッサ1001で実現されてもよい。
The
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。
The
例えば、発話評価サーバ30の音声認識部32等の制御機能は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
For example, the control functions of the
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
The
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CDROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
The
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
The
また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
In addition, each device, such as the
また、通信端末10、及び、発話評価サーバ30は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
The
以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。 Although the present embodiment has been described in detail above, it is clear to those skilled in the art that the present embodiment is not limited to the embodiment described in this specification. The present embodiment can be implemented in modified and altered forms without departing from the spirit and scope of the present invention as defined by the claims. Therefore, the description in this specification is intended as an illustrative example and does not have any restrictive meaning with respect to the present embodiment.
例えば、発話評価システム1は、通信端末10、及び、発話評価サーバ30を含んで構成されているとして説明したが、これに限定されず、発話評価システム1の各機能が、発話評価サーバ30のみによって実現されてもよい。
For example, the
本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broad-band)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-Wide Band)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。 Each aspect/embodiment described herein may be applied to systems utilizing LTE (Long Term Evolution), LTE-Advanced (LTE-A), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), W-CDMA (registered trademark), GSM (registered trademark), CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802.20, UWB (Ultra-Wide Band), Bluetooth (registered trademark), or other suitable systems and/or next generation systems based on and enhanced thereon.
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。 The steps, sequences, flow charts, etc. of each aspect/embodiment described herein may be reordered unless inconsistent. For example, the methods described herein present elements of various steps in an example order and are not limited to the particular order presented.
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。 The input and output information may be stored in a specific location (e.g., memory) or may be managed in a management table. The input and output information may be overwritten, updated, or added to. The output information may be deleted. The input information may be sent to another device.
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。 The determination may be based on a value represented by one bit (0 or 1), a Boolean (true or false) value, or a numerical comparison (e.g., with a predetermined value).
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、該所定の情報の通知を行わない)ことによって行われてもよい。 Each aspect/embodiment described in this specification may be used alone, in combination, or switched depending on the execution. In addition, notification of specific information (e.g., notification that "X is the case") is not limited to being done explicitly, but may be done implicitly (e.g., not notifying the specific information).
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。 Software shall be construed broadly to mean instructions, instruction sets, code, code segments, program code, programs, subprograms, software modules, applications, software applications, software packages, routines, subroutines, objects, executable files, threads of execution, procedures, functions, etc., whether referred to as software, firmware, middleware, microcode, hardware description language, or otherwise.
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。 Software, instructions, etc. may also be transmitted and received over a transmission medium. For example, if the software is transmitted from a website, server, or other remote source using wired technologies, such as coaxial cable, fiber optic cable, twisted pair, and digital subscriber line (DSL), and/or wireless technologies, such as infrared, radio, and microwave, these wired and/or wireless technologies are included within the definition of a transmission medium.
本明細書で説明した情報、信号などは、様々な異なる技術のいずれか1項を使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。 The information, signals, etc. described herein may be represented using any one of a variety of different technologies. For example, data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description may be represented by voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, optical fields or photons, or any combination thereof.
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。 Note that terms explained in this specification and/or terms necessary for understanding this specification may be replaced with terms having the same or similar meanings.
また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。 In addition, the information, parameters, etc. described in this specification may be expressed as absolute values, as relative values from a predetermined value, or as corresponding other information.
通信端末は、当業者によって、移動通信端末、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、またはいくつかの他の適切な用語で呼ばれる場合もある。 A communications terminal may also be referred to by those skilled in the art as a mobile communications terminal, subscriber station, mobile unit, subscriber unit, wireless unit, remote unit, mobile device, wireless device, wireless communications device, remote device, mobile subscriber station, access terminal, mobile terminal, wireless terminal, remote terminal, handset, user agent, mobile client, client, or some other suitable terminology.
本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 As used herein, the phrase "based on" does not mean "based only on," unless expressly stated otherwise. In other words, the phrase "based on" means both "based only on" and "based at least on."
本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。 When designations such as "first," "second," and the like are used herein, any reference to that element is not intended to generally limit the quantity or order of those elements. These designations may be used herein as a convenient way to distinguish between two or more elements. Thus, a reference to a first and a second element does not imply that only two elements may be employed therein or that the first element must precede the second element in some way.
「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。 To the extent that the terms "include," "including," and variations thereof are used herein in the specification or claims, these terms are intended to be inclusive, similar to the term "comprising." Further, the term "or" as used herein is not intended to be an exclusive or.
本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。 In this specification, multiple devices are included unless the context or technical basis clearly indicates that only one device exists.
本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。 Throughout this disclosure, the plural is intended to be included unless the context clearly indicates the singular.
S…話者、1…発話評価システム、10…通信端末、30…発話評価サーバ、31…記憶部、32…音声認識部、33…変換部、34…算出部、35…検出部、36…訂正部、37…採点部、38…出力部。
S...speaker, 1...speech evaluation system, 10...communication terminal, 30...speech evaluation server, 31...storage unit, 32...speech recognition unit, 33...conversion unit, 34...calculation unit, 35...detection unit, 36...correction unit, 37...scoring unit, 38...output unit.
Claims (5)
前記話者の発話に出現すると想定される単語の発音を表す文字列である想定文字列と、前記変換部によって変換された発音を表す文字列に含まれる一又は複数の発話文字列との編集距離を算出する算出部と、
前記一又は複数の発話文字列のうち、前記編集距離が所定値以下であり、且つ、前記想定文字列と同一の文字列ではない前記発話文字列を、発音誤り文字列として検出する検出部と、
前記発音誤り文字列を出力する出力部と、を備え、
前記算出部は、前記想定文字列の文字数をNとして、前記変換部によって変換された発音を表す文字列から一又は複数のN-gramを前記発話文字列として特定し、
前記算出部は、前記想定文字列及び前記発話文字列に含まれる子音の発音分類を考慮して、前記編集距離を算出する、発話評価システム。 a conversion unit that acquires a result of speech recognition of a speaker's speech and converts the result of speech recognition into a character string representing a pronunciation;
a calculation unit that calculates an edit distance between an expected character string that is a character string representing the pronunciation of a word that is expected to appear in the speech of the speaker and one or more spoken character strings included in a character string representing the pronunciation converted by the conversion unit;
a detection unit that detects, from among the one or more spoken character strings, a spoken character string whose edit distance is equal to or smaller than a predetermined value and which is not identical to the expected character string, as a mispronounced character string;
an output unit that outputs the mispronounced character string,
The calculation unit specifies, as the spoken character string, one or more N-grams from a character string representing the pronunciation converted by the conversion unit, where N is the number of characters in the expected character string ;
The calculation unit calculates the edit distance in consideration of pronunciation classifications of consonants included in the expected character string and the spoken character string.
請求項1に記載の発話評価システム。 the calculation unit calculates the edit distance in consideration of a pronunciation classification of the consonants that is set according to the native language of the speaker.
The speech evaluation system according to claim 1 .
前記出力部は、前記文章を出力する、
請求項1または2に記載の発話評価システム。 a correction unit that corrects the mispronounced character string detected by the detection unit in the character string representing the converted pronunciation to the expected character string used in calculating the edit distance used to detect the mispronounced character string, and converts the character string representing the converted pronunciation into a sentence in a language used in the utterance,
The output unit outputs the sentence.
The speech evaluation system according to claim 1 or 2 .
前記出力部は、前記採点部における採点結果をさらに出力する、
請求項3に記載の発話評価システム。 a scoring unit that, when the detection unit detects the mispronounced character string, scores the sentence converted by the correction unit, and, when the detection unit does not detect the mispronounced character string, scores a result of the speech recognition,
The output unit further outputs the scoring result in the scoring unit.
The speech evaluation system according to claim 3 .
前記話者の発話に出現すると想定される単語の発音を表す文字列である想定文字列と、前記変換部によって変換された発音を表す文字列に含まれる一又は複数の発話文字列との編集距離を算出する算出部と、
前記一又は複数の発話文字列のうち、前記編集距離が所定値以下であり、且つ、前記想定文字列と同一の文字列ではない前記発話文字列を、発音誤り文字列として検出する検出部と、
前記変換された発音を表す文字列において、前記検出部にて検出された前記発音誤り文字列を、該発音誤り文字列の検出に用いられた前記編集距離の算出に用いられた前記想定文字列に訂正し、前記変換された発音を表す文字列を、前記発話において用いられた言語の文章に変換する訂正部と、
前記文章を出力する出力部と、を備え、
前記算出部は、前記想定文字列及び前記発話文字列に含まれる子音の発音分類を考慮して、前記編集距離を算出する、発話評価システム。 a conversion unit that acquires a result of speech recognition of a speaker's speech and converts the result of speech recognition into a character string representing a pronunciation;
a calculation unit that calculates an edit distance between an expected character string that is a character string representing the pronunciation of a word that is expected to appear in the speech of the speaker and one or more spoken character strings included in a character string representing the pronunciation converted by the conversion unit;
a detection unit that detects, from among the one or more spoken character strings, a spoken character string whose edit distance is equal to or smaller than a predetermined value and which is not identical to the expected character string, as a mispronounced character string;
a correction unit that corrects the mispronounced character string detected by the detection unit in the character string representing the converted pronunciation to the assumed character string used in calculating the edit distance used to detect the mispronounced character string, and converts the character string representing the converted pronunciation into a sentence in the language used in the utterance ;
an output unit that outputs the sentence ,
The calculation unit calculates the edit distance in consideration of pronunciation classifications of consonants included in the expected character string and the spoken character string.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020206677A JP7541474B2 (en) | 2020-12-14 | 2020-12-14 | Speech evaluation system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020206677A JP7541474B2 (en) | 2020-12-14 | 2020-12-14 | Speech evaluation system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022093939A JP2022093939A (en) | 2022-06-24 |
JP7541474B2 true JP7541474B2 (en) | 2024-08-28 |
Family
ID=82081370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020206677A Active JP7541474B2 (en) | 2020-12-14 | 2020-12-14 | Speech evaluation system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7541474B2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080306738A1 (en) | 2007-06-11 | 2008-12-11 | National Taiwan University | Voice processing methods and systems |
JP2010123005A (en) | 2008-11-20 | 2010-06-03 | Kddi Corp | Document data retrieval device |
JP2012242421A (en) | 2011-05-16 | 2012-12-10 | Nippon Telegr & Teleph Corp <Ntt> | Word additional device, word addition method, and program thereof |
WO2014203328A1 (en) | 2013-06-18 | 2014-12-24 | 株式会社日立製作所 | Voice data search system, voice data search method, and computer-readable storage medium |
JP2016051179A (en) | 2014-08-29 | 2016-04-11 | 株式会社リコー | Speech recognition method, speech evaluation method, speech recognition system, and speech evaluation system |
-
2020
- 2020-12-14 JP JP2020206677A patent/JP7541474B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080306738A1 (en) | 2007-06-11 | 2008-12-11 | National Taiwan University | Voice processing methods and systems |
JP2010123005A (en) | 2008-11-20 | 2010-06-03 | Kddi Corp | Document data retrieval device |
JP2012242421A (en) | 2011-05-16 | 2012-12-10 | Nippon Telegr & Teleph Corp <Ntt> | Word additional device, word addition method, and program thereof |
WO2014203328A1 (en) | 2013-06-18 | 2014-12-24 | 株式会社日立製作所 | Voice data search system, voice data search method, and computer-readable storage medium |
JP2016051179A (en) | 2014-08-29 | 2016-04-11 | 株式会社リコー | Speech recognition method, speech evaluation method, speech recognition system, and speech evaluation system |
Also Published As
Publication number | Publication date |
---|---|
JP2022093939A (en) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11495228B2 (en) | Display apparatus and method for registration of user command | |
KR102596446B1 (en) | Modality learning on mobile devices | |
US9471568B2 (en) | Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof | |
US9368108B2 (en) | Speech recognition method and device | |
CN107729313B (en) | Deep neural network-based polyphone pronunciation distinguishing method and device | |
AU2010346493B2 (en) | Speech correction for typed input | |
CN111341326B (en) | Voice processing method and related product | |
CN107679032A (en) | Voice changes error correction method and device | |
US11984126B2 (en) | Device for recognizing speech input of user and operating method thereof | |
US20160267902A1 (en) | Speech recognition using a foreign word grammar | |
KR20200097993A (en) | Electronic device and Method for controlling the electronic device thereof | |
JP7222082B2 (en) | Recognition error correction device and correction model | |
CN113436614B (en) | Speech recognition method, device, equipment, system and storage medium | |
US11501762B2 (en) | Compounding corrective actions and learning in mixed mode dictation | |
CN113641328B (en) | Computer control method, device, equipment and storage medium based on voice recognition | |
JP7541474B2 (en) | Speech evaluation system | |
JP7526942B2 (en) | Translation device | |
US11217266B2 (en) | Information processing device and information processing method | |
JP7348818B2 (en) | dialogue device | |
JP7019462B2 (en) | Dialogue system | |
JP7512288B2 (en) | Word Weight Calculation System | |
US11862167B2 (en) | Voice dialogue system, model generation device, barge-in speech determination model, and voice dialogue program | |
JP4347716B2 (en) | Speech recognition server, speech input system, and speech input method | |
JP2018195248A (en) | Translation display device, computer terminal, and translation display method | |
WO2024203390A1 (en) | Voice recognition error correction device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230815 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240604 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240618 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240816 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7541474 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |