JP2013068665A - Speech recognition device - Google Patents
Speech recognition device Download PDFInfo
- Publication number
- JP2013068665A JP2013068665A JP2011205165A JP2011205165A JP2013068665A JP 2013068665 A JP2013068665 A JP 2013068665A JP 2011205165 A JP2011205165 A JP 2011205165A JP 2011205165 A JP2011205165 A JP 2011205165A JP 2013068665 A JP2013068665 A JP 2013068665A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- unit
- data
- speech
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】同じシナリオであっても使用したい音声認識部を使い分けることが出来る音声認識装置を提供すること。
【解決手段】本発明の音声認識装置は、一又は複数の接続機器と接続されて音声認識を行う音声認識装置であって、音声を取り込むマイクと、前記一又は複数の接続機器と接続するための接続部と、前記一又は複数の接続機器より取得した音声認識対象の文字データを記憶する記憶部と、前記記憶部の音声認識対象の文字データから音声認識処理用の音素への変換を行う変換部と、前記変換部が変換した音素を含み音声認識に利用される音声認識辞書と、前記音声認識辞書と前記マイクより取り込んだ音声を利用して音声認識を実施する音声認識部と、前記一又は複数の接続機器から前記音声認識対象の文字データを取得しているか否かを判断し、その判断結果に基づいて前記マイクより取り込んだ音声を前記音声認識部で認識させるか否かを制御する制御部とを備える。
【選択図】図1To provide a voice recognition device capable of properly using a voice recognition unit to be used even in the same scenario.
A speech recognition apparatus according to the present invention is a speech recognition apparatus that performs speech recognition by being connected to one or a plurality of connected devices, and is connected to a microphone that captures sound and the one or more connected devices. A connection unit, a storage unit for storing character data for speech recognition obtained from the one or more connected devices, and conversion from the character data for speech recognition in the storage unit to phonemes for speech recognition processing A conversion unit; a speech recognition dictionary that includes phonemes converted by the conversion unit and is used for speech recognition; a speech recognition unit that performs speech recognition using speech captured from the speech recognition dictionary and the microphone; It is determined whether or not the voice recognition target character data is acquired from one or a plurality of connected devices, and whether or not the voice captured from the microphone is recognized by the voice recognition unit based on the determination result And a control unit for controlling.
[Selection] Figure 1
Description
本発明は、音声で装置を制御する音声認識技術を利用した音声認識装置に関するものである。 The present invention relates to a voice recognition device using a voice recognition technology for controlling a device by voice.
装置を操作する方法として、人間が発話した音声を認識してコマンド等に変換することで操作を実現する装置が一般に普及している。特に車載環境においては、ドライバーが運転しながら車載端末を操作する方法として有効である。 As a method of operating a device, a device that realizes an operation by recognizing a voice spoken by a human and converting it into a command or the like is generally popular. Particularly in an in-vehicle environment, it is effective as a method for operating an in-vehicle terminal while a driver is driving.
一方、車載端末のような組込みソフトウェアの環境においては、メモリおよびCPUパワー等の資源が制約される傾向がある。そのため、あらかじめ音声で認識させる対象の“コマンド”および認識対象の候補を、任意の文字列ではなく、ある特定のパターンまたは集合に限定しておくことが行われる。こうすることでメモリおよびCPUパワー等の資源を抑制して装置を安価に実現することが可能となる。 On the other hand, in an embedded software environment such as an in-vehicle terminal, resources such as memory and CPU power tend to be restricted. Therefore, the “command” to be recognized in speech and the recognition target candidates are limited to a specific pattern or set, not an arbitrary character string. By doing so, it is possible to realize resources at low cost by suppressing resources such as memory and CPU power.
また音声認識の対話型システムにおいては、認識結果を早く提示すること、すなわちレスポンスを早くすることも重要である。限られた資源でレスポンスを向上する為には、認識対象の候補を限定することは非常に有効である。 In a speech recognition interactive system, it is also important to present the recognition result early, that is, to speed up the response. In order to improve the response with limited resources, it is very effective to limit the candidates for recognition.
従来の音声認識装置として、音声対話シナリオに記述された選択子に従い、「端末(自分自身)の音声認識部」又は「センター(通信回線を介して接続された遠隔装置)の音声認識部」のいずれかを選択する音声対話制御部を備え、音声認識の処理の難易度に応じて音声認識部を使い分けることが可能な音声対話システムが開示されている(例えば特許文献1参照)。 As a conventional voice recognition device, according to the selector described in the voice dialogue scenario, the “voice recognition unit of the terminal (self)” or the “voice recognition unit of the center (remote device connected via a communication line)” There has been disclosed a voice dialogue system that includes a voice dialogue control unit that selects one of them, and that can properly use the voice recognition unit according to the difficulty level of voice recognition processing (see, for example, Patent Document 1).
しかしながら、従来の音声対話システムにおいては、例えば同じシナリオ“再生する楽曲の選択”の場合に、使用する音声認識部を使い分けることが出来ない場合がある。シナリオに使用する音声認識部がどれかを記述する方式では、各々のシナリオに対して音声認識部を記述するため、1つのシナリオに対して、複数の音声認識部を柔軟に選択することが出来ない。例えば楽曲名には自装置の認識部を使用、地名にはセンターの認識部を使用、とシナリオに記載してある場合、楽曲名は常に自装置の認識部を使用することになる。 However, in the conventional voice dialogue system, for example, in the case of the same scenario “selection of music to be played back”, there are cases where the voice recognition unit to be used cannot be properly used. In the method of describing which voice recognition unit is used for a scenario, since the voice recognition unit is described for each scenario, a plurality of voice recognition units can be flexibly selected for one scenario. Absent. For example, in the scenario where the recognition unit of the own device is used for the song name and the recognition unit of the center is used for the place name, the recognition unit of the own device is always used for the song name.
本発明の目的は、同じ使用用途(例.再生する楽曲の選択)でも、音声認識対象の候補の文字列の配置に従い、使用したい音声認識部を使い分けることが出来る音声認識装置を提供することである。 An object of the present invention is to provide a voice recognition device that can use different voice recognition units according to the arrangement of candidate character strings for voice recognition even in the same usage (eg, selection of music to be played). is there.
本発明の一態様として、音声認識装置は、一又は複数の接続機器と接続されて音声認識を行う音声認識装置であって、音声を取り込むマイクと、前記一又は複数の接続機器と接続するための接続部と、前記一又は複数の接続機器より取得した音声認識対象の文字データを記憶する記憶部と、前記記憶部の音声認識対象の文字データから音声認識処理用の音素への変換を行う変換部と、前記変換部が変換した音素を含み音声認識に利用される音声認識辞書と、前記音声認識辞書と前記マイクより取り込んだ音声を利用して音声認識を実施する音声認識部と、前記一又は複数の接続機器から前記音声認識対象の文字データを取得しているか否かを判断し、その判断結果に基づいて前記マイクより取り込んだ音声を前記音声認識部で認識させるか否かを制御する制御部とを備える。 As one aspect of the present invention, a speech recognition apparatus is a speech recognition apparatus that performs speech recognition by being connected to one or a plurality of connection devices, and is connected to a microphone that captures sound and the one or more connection devices. A connection unit, a storage unit for storing character data for speech recognition obtained from the one or more connected devices, and conversion from the character data for speech recognition in the storage unit to phonemes for speech recognition processing A conversion unit; a speech recognition dictionary that includes phonemes converted by the conversion unit and is used for speech recognition; a speech recognition unit that performs speech recognition using speech captured from the speech recognition dictionary and the microphone; Whether or not the voice recognition target character data is acquired from one or more connected devices, and whether or not the voice recognition unit recognizes the voice captured from the microphone based on the determination result And a control unit for controlling.
本発明によれば、同じ使用用途(例.再生する楽曲の選択)でも、音声認識対象の候補の文字列の配置に従い、使用したい音声認識部を使い分けることが出来る。 According to the present invention, even in the same usage (for example, selection of music to be played back), it is possible to use a different voice recognition unit to be used according to the arrangement of candidate character strings to be recognized.
本発明の実施の形態に係る音声認識装置は、音声認識対象の候補の文字列、つまり「データベース(楽曲名や人名など)」が、どの装置に配置されているかを判断し、その判断結果に従い、どの装置の音声認識手段を使用するかを選択することができる。 The speech recognition apparatus according to the embodiment of the present invention determines to which apparatus a character string of a candidate for speech recognition, that is, “database (music name, person name, etc.)” is arranged, and according to the determination result. , It is possible to select which device voice recognition means is used.
以下、本発明の実施の形態における音声認識装置について図面を参照しながら説明する。図1は本発明の実施の形態における音声認識装置10のブロック図である。図1に示す音声認識装置10は音声認識部101と、接続部102と、制御部103と、記憶部104と、G2P変換部105と、音声認識辞書106と、マイク107とを備える。図1に示す接続機器20は音声認識部201と、接続部202と、記憶部204とを備える。
Hereinafter, a speech recognition apparatus according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram of a
音声認識装置10の具体例としては、車載端末、ナビゲーションシステム、車載オーディオが挙げられる。接続機器20の具体例としては、車内に持ち込んだスマートフォン、ポータブルオーディオ機器、電話機、等が挙げられる。音声認識装置10は接続機器20と有線接続又は無線通信のインターフェースにより接続される。有線接続のインターフェースには、たとえばUSB(Universal Serial Bus)がある。無線通信のインターフェースには、たとえばWiFi(Wireless Fidelity)(登録商標)、およびBluetooth(登録商標)がある。
Specific examples of the
以下、本実施の形態では、音声認識装置10は車載オーディオ、接続機器20はポータブルオーディオ機器の場合を具体例として説明する。
Hereinafter, in the present embodiment, a case where the
接続機器20は、音声認識部201と、接続部202と、記憶部204とを備える。記憶部204には、図2のように“楽曲データ(音楽ファイル)”およびこの楽曲データに付随する“楽曲情報データ”が蓄えられている。
The connected
図2に示す楽曲情報データは、この楽曲データに付随するメタデータである。楽曲情報データは、楽曲データの曲名の他に、例えばこの楽曲データが含まれるアルバム名、楽曲データを所有するアーティスト名、楽曲データのジャンル名を含んでも良い。 The music information data shown in FIG. 2 is metadata accompanying the music data. The music information data may include, for example, the name of the album in which the music data is included, the name of the artist who owns the music data, and the genre name of the music data in addition to the music data.
接続部202は、音声認識装置10の接続部102に接続され、記憶部204が保持するデータを音声認識装置10に送信し、音声認識装置10の制御部103からの指示を受信する。接続部202は、音声認識装置10の制御部103からの指示を音声認識部201へ出力する。音声認識部201は、内蔵する音声認識辞書を用いて音声認識装置10の制御部103からの指示に基づき音声認識処理を行うことが可能である。
The
接続機器20は接続部202を介して、“楽曲情報データ”を音声認識装置10に提供可能な機器と、提供不可能な機器が存在する。その理由として、(1)接続機器20の仕様による制限、(2)音声認識装置10と接続機器20間の接続のインターフェース仕様による制限が挙げられる。
There are devices that can provide “music information data” to the
以下、本実施の形態では、接続機器20の“楽曲情報データ”を音声認識装置10が取得している場合<ケース1>と、接続機器20の“楽曲情報データ”を音声認識装置10が取得していない場合<ケース2>のそれぞれのケースについて、音声認識装置10の動作を説明する。
Hereinafter, in the present embodiment, when the
<ケース1>
ケース1として、接続機器20の“楽曲情報データ”を音声認識装置10が取得している場合の音声認識装置10の各部の動作について説明する。
<
As
接続部102は接続機器20と接続して情報(“楽曲情報データ”等)を送受信する。
The
記憶部104は接続機器20より取得した「音声認識対象の文字データ」を記憶する。ここで、「音声認識対象の文字データ」の具体例としては、接続機器20に蓄えられた“楽曲情報データ”が挙げられる。この“楽曲情報データ”には、楽曲名、アルバム名、アーティスト名、およびジャンル名などが含まれる。なお、制御部103は、音声認識装置10が接続機器20から“楽曲情報データ”を取得した際に、“楽曲情報データ”とこの“楽曲情報データ”の取得先である接続機器20とを関連付けて記憶部104に保持する。
The
図3に、音声認識装置10の記憶部104に蓄えられた“楽曲情報データ”の一例を示す。図3に示すように、記憶部104は、“楽曲データ(音楽ファイル)”以外に、楽曲情報データとして、曲名リスト(“曲名1”、“曲名2”、…“曲名N”)を含む。図3に示すように、本実施の形態では、音声認識装置10の記憶部104に蓄えられた“楽曲情報データ”は、この“楽曲情報データ”の取得先である接続機器20に関連付けられている。
FIG. 3 shows an example of “music information data” stored in the
G2P変換部105は、記憶部104に記憶された「音声認識対象の文字データ」から音声認識処理用の音素への変換を行う。これは一般に「Grapheme:文字もしくは書記素」から「Phoneme:音素」へ変換する処理であり、G2P(Grapheme To Phoneme)変換と呼ばれる。
The
音声認識辞書106は、音声認識処理における辞書や文法を記述したものであり、基本的にはこの辞書に記載されている内容が認識可能な語彙を決定する。また、音声認識辞書106は、音声認識装置10が動作中に動的に変更することも可能である。これはG2P変換する元となる文字列群が得られれば、その文字列群をG2P変換して音声認識辞書106を動的に変更して認識対象の語彙を変更することで実現できる。
The
例えば“楽曲情報データ”を取得してG2P変換済の場合には、音声認識辞書106は、図4に示すように固定コマンドの一例として“Play Music”、“Stop”、“Pause”という語彙を保持する。また、音声認識辞書106は、これら固定コマンドに加えて、可変コマンド、つまり接続機器20から取得した情報に基づく文字データである曲名リストの“曲名1”、“曲名2”、…“曲名N”という語彙を含んで良い。ここでNは数字であり、昨今のポータブルオーディオ機器であれば数千から数万になる場合もある。
For example, when “music information data” is acquired and converted to G2P, the
音声認識部101は、音声認識辞書106に記述された辞書や文法に基づき、音声認識処理を行う。つまり、音声認識部101は、音声認識辞書106に記述された語彙のうち、マイク107より取り込んだ音声と良くマッチする語彙をユーザが発話した音声だと判定すると、この語彙が発話されたと見做して音声認識処理を行う。例えば、音声認識部101は、音声認識辞書106に“Play Music”、“Stop”、“Pause”という語彙に相当する内容が登録されている場合には、ユーザが発話した音声とこれらの登録内容とのマッチング処理により、良くマッチする語彙を選出する。そして、音声認識部101は、選出した語彙が発話されたと見做して音声認識処理を行う。
The
制御部103は、接続機器20に記憶された“楽曲情報データ”が接続部102を介して記憶部104に転送され蓄積されているか否かを判断する。制御部103は、音声認識装置10が接続機器20から“楽曲情報データ”を取得していると判断した場合には、マイク107より取り込んだ音声を音声認識部101にルーティングもしくは転送する。制御部103は、この転送又はルーティングされた音声に基づき音声認識処理を実施するように音声認識部101に指示する。なお、制御部103は、音声認識装置10が接続機器20から“楽曲情報データ”を取得した際に、“楽曲情報データ”とこの“楽曲情報データ”の取得先である接続機器20とを関連付けて記憶部104に保持する。
The
なお、ケース1において、接続機器20に記憶された“楽曲情報データ”が記憶部104に転送され蓄積されているか否かの判断の代わりに、制御部103は、音声認識辞書106に接続機器20の“楽曲情報データ”相当の語彙が追加されているか否かで判断しても良い。
In
<ケース2>
ケース2として、接続機器20の“楽曲情報データ”を音声認識装置10が取得していない場合の音声認識装置10の各部の動作について説明する。この場合、音声認識装置10は、接続部102が接続機器20と接続しているものの、接続機器20から楽曲情報データ”を取得できないものとする。つまり、接続機器20は、接続部202を介して、“楽曲情報データ”を音声認識装置10に提供不可能な機器であるとする。
<Case 2>
As Case 2, the operation of each part of the
図5は、ケース2における記憶部104の概念図である。上述のように音声認識装置10は、接続機器20から楽曲情報データ”を取得できない。そのため、記憶部104は、図5に示すように、楽曲データに曲名リストが無い状態となる。
FIG. 5 is a conceptual diagram of the
G2P変換部105は、記憶部104に記憶された「音声認識対象の文字データ」から音声認識処理用の音素への変換を行う。つまり、G2P変換部105は、記憶部104に記憶した文字データを変換するが、元となる文字データ(“楽曲情報データ”)が記憶部104に無い(空集合)ために、その結果作成される音素も無い(空集合)ものとなる。
The
音声認識辞書106は、その結果、例えば図6に示すように、固定コマンドの一例として“Play Music”、“Stop”、“Pause”という語彙を保持するが、動的に変更される可変コマンドの一例として“楽曲情報データ”に基づく語彙(例えば、曲名リスト)を保持しない。
As a result, as shown in FIG. 6, for example, the
制御部103は、接続機器20に記憶された“楽曲情報データ”が接続部102を介して記憶部104に転送され蓄積されているか否かを判断する。制御部103は、音声認識装置10が接続機器20から“楽曲情報データ”を未取得と判断した場合には、制御部103は、マイク107より取り込んだ音声を、自装置の音声認識部101ではなく、接続機器20の音声認識部201へとルーティングもしくは転送し、接続機器20の音声認識部201で音声認識処理を実施するように制御する。
The
ここで、接続機器20の音声認識部201の動作について説明する。音声認識部201は、制御部103の制御に基づき、音声認識装置10のマイク107から転送又はルーティングされた音声について、音声認識処理を行う。つまり、音声認識部201は、内蔵する音声認識辞書に記述された語彙のうち、音声認識装置10のマイク107から取り込んだ音声と良くマッチする語彙をユーザが発話した音声だと判定すると、この語彙が発話されたと見做して音声認識処理を行う。例えば、音声認識部201は、内蔵する音声認識辞書に“Play Music”、“Stop”、“Pause”という語彙に相当する内容が登録されている場合には、ユーザが発話した音声とこれらの登録内容とのマッチング処理により、良くマッチする語彙を選出する。そして、音声認識部201は、選出した語彙が発話されたと見做して音声認識処理を行う。
Here, the operation of the
なお、ケース2においても、接続機器20に記憶された“楽曲情報データ”が記憶部104に転送され蓄積されているか否かの判断の代わりに、制御部103は、音声認識辞書106に接続機器20の“楽曲情報データ”相当の語彙が追加されているか否かで判断することができる。
In case 2 as well, instead of determining whether or not the “music information data” stored in the connected
以上のように、本実施の形態に係る音声認識装置10によれば、接続機器20から文字データを取得しているか否かを判断し、その判断結果に基いてマイク107より取り込んだ音声を音声認識部101で認識させるか否かを制御する制御部103を備える。この構成により、本実施の形態に係る音声認識装置10は、同じ使用用途(例えば、再生する楽曲の選択)であったとしても、音声認識対象の候補の文字列の配置に従い、使用したい音声認識部を使い分けることができる。したがって、本実施の形態に係る音声認識装置10は、どの装置の音声認識部を使用するかを選択することができる。
As described above, according to the
なお、本実施の形態においては「音声認識対象の文字データ」の一例として“楽曲情報データ”として“曲名”を具体例にして説明したが曲名に限定されるものではない。例えばアルバム名、アーティスト名、ジャンル名、等でも良い。 In the present embodiment, “song name” is described as a specific example of “music information data” as an example of “text data to be recognized by speech”, but the present invention is not limited to the name of a song. For example, an album name, an artist name, a genre name, etc. may be used.
なお、本実施の形態においては「音声認識対象の文字データ」の一例として“楽曲情報データ”を取り上げたが、文字データ楽曲情報データに限定されるものではないことは明らかである。例えば「音声認識対象の文字データ」を“電話帳データ”とすることにより、接続機器20が電話機やスマートフォンの場合に、“人名”や“電話番号”を対象とした音声認識を実施する際に容易に適用できる。さらに例えば「音声認識対象の文字データ」を“地名データ”とすることにより、接続機器20が地名データを含む機器である場合などでも応用可能である。
In the present embodiment, “music information data” is taken as an example of “character data for speech recognition”, but it is obvious that the present invention is not limited to character data music information data. For example, when “character data for voice recognition” is set to “phonebook data”, when the
電話帳データは、“名称(名前)”のデータと、この“名称(名前)のデータ”に付随する少なくとも1つ以上の電話番号情報データを含んで良い。電話番号情報データは、この名称(名前)に紐付けられた少なくとも1つ以上の電話番号の属性情報(携帯/仕事/家庭/その他)などの情報を含んで良い。なお、電話帳データに含まれる“名称”のデータとは、人名、会社名、ニックネーム等の文字列のデータである。また、「音声認識対象の文字データ」としては、この“名称”のデータが用いられるのが通常である。 The phone book data may include “name (name)” data and at least one or more telephone number information data attached to the “name (name) data”. The telephone number information data may include information such as attribute information (mobile / work / home / other) of at least one or more telephone numbers associated with this name (name). The “name” data included in the phone book data is character string data such as a person name, a company name, and a nickname. In addition, the “name” data is usually used as the “character data for speech recognition”.
なお、本実施の形態においては、音声認識辞書106として、固定コマンドを元からある部分、可変コマンドを接続機器20から取得した情報に基づく部分として説明したが、これに限られるものではない。図7に音声認識辞書106の構成を示す他の例を示す。図7に示すように、例えば音声認識装置10自身が音楽データを保有している場合は、音声認識辞書106は、固定コマンドとして、“Play Music”、“Stop”、“Pause”という語彙以外に、可変コマンドとして、接続機器20の楽曲情報データに基づく曲名リスト(曲名1、曲名2、…、曲名N)および音声認識装置10自身が保持する楽曲情報データに基づく、曲名リスト(曲名A、曲名B、…、曲名Z)により構成することも可能である。
In the present embodiment, the
なお、本実施の形態において、音声認識装置10と接続機器20間の接続のインターフェースは、特に限定されるものではなく、また、複数のインターフェースを複数種類混在させることも可能である。さらに情報の種類も混在させることが可能である。以下、図8を参照して、複数の接続機器20と本実施の形態に係る音声認識装置10とが接続された場合を例に説明する。
In the present embodiment, the interface for connection between the
なお、本実施の形態において、音声認識装置10は、音声を外部から取り込む手段として、マイク107を備えるが、これにかぎらない。音声認識装置10は、音声を外部から取得するデバイスであればマイク107の代わりに用いることができる。
In the present embodiment, the
(変形例)
図8は、本実施の形態における変形例を示すブロック図である。以下、図8に示す複数の接続機器20を、それぞれ接続機器20A、接続機器20B、接続機器20Cと称し、互いに区別するが、これら接続機器20A,20B,20Cの構成は、記憶部204A,204B,204C以外、図1に示す接続機器20と同じである。
(Modification)
FIG. 8 is a block diagram showing a modification of the present embodiment. Hereinafter, the plurality of
図8に示すように、接続機器20Aは、音声認識部201と、接続部202と、記憶部204Aとを備える。同様に、接続機器20Bは、音声認識部201と、接続部202と、記憶部204Bとを備え、接続機器20Cは、音声認識部201と、接続部202と、記憶部204Cとを備える。これら接続機器20A,20B,20Cの音声認識部201、接続部202の動作は、上述した接続機器20の音声認識部201、接続部202と同じであるため、詳細な説明を省略する。
As shown in FIG. 8, the connected device 20A includes a
図9を参照して、各接続機器20A,20B,20Cの記憶部の構成を説明する。図9は各接続機器20A,20B,20Cの記憶部の構成を説明するための図である。図9では、説明のため、接続機器20A,20B,20Cの構成を一部省略し、記憶部204A,204B,204Cの構成のみを示している。
With reference to FIG. 9, the structure of the memory | storage part of each connection apparatus 20A, 20B, 20C is demonstrated. FIG. 9 is a diagram for explaining the configuration of the storage unit of each of the connected devices 20A, 20B, and 20C. In FIG. 9, for the sake of explanation, some of the configurations of the connected devices 20A, 20B, and 20C are omitted, and only the configurations of the
接続機器20Aの記憶部204Aは、楽曲データに加え、「音声認識対象の文字データ」となる情報である“楽曲情報データA”を保持する。この“楽曲情報データA”には、この楽曲情報データAに基づく曲名リスト(曲名1、曲名2、…、曲名N)が含まれる。
The
接続機器20Bの記憶部204Bは、楽曲データに加え、「音声認識対象の文字データ」となる情報である“楽曲情報データB”を保持する。この“楽曲情報データB”には、この楽曲情報データBに基づく曲名リスト(曲名A、曲名B、…、曲名Z)が含まれる。
In addition to the music data, the
接続機器20Cの記憶部204Cは、電話番号のデータに加え、「音声認識対象の文字データ」となる情報である“電話帳データC”を保持する。この“電話帳データC”には、この電話帳データCに基づく人名リスト(人名α、人名β、…、人名ω)が含まれる。
The
接続部102は、各接続機器20A,20B,20Cから「音声認識対象の文字データ」となる情報(“楽曲情報データA”、“電話帳データC”)を受信し、制御部103からの指示を各接続機器20A,20B,20Cに送信する。
The
以下、音声認識装置10は、接続機器20Aから“楽曲情報データA”を取得済であり、接続機器20Cから“電話帳データC”を取得済みであるとする。さらに、音声認識装置10は、接続機器20Bからは“楽曲情報データB”を未取得であるとする。そのため、音声認識装置10の記憶部104は、“楽曲情報データA”および“電話帳データC”を保持する(図9参照)。言い換えると、上述した<ケース1>の接続機器20に対応するのが接続機器20A,20Cであり、上述した<ケース2>の接続機器20に対応するのが接続機器20Bである。なお、記憶部104には、“楽曲情報データA”とこの“楽曲情報データA”の取得先である接続機器20Aとを関連付けて保持されている。同様に、記憶部104には、“電話帳データC”とこの“電話帳データC”の取得先である接続機器20Cとを関連付けて保持されている。
Hereinafter, it is assumed that the
G2P変換部105は、記憶部104に記憶された「音声認識対象の文字データ」から音声認識処理用の音素への変換を行う。
The
音声認識辞書106は、固定コマンドとして、“Play Music”、“Stop”、“Pause”という語彙以外に、電話機能に関する“call”という語彙を保持する。さらに、音声認識装置10の音声認識辞書106は、可変コマンドとして、接続機器20Aの楽曲情報データAに基づく曲名リスト(曲名1、曲名2、…、曲名N)および接続機器20Cの電話帳データCに基づく人名リスト(人名α、人名β、…、人名ω)を保持する。
The
音声認識部101は、後述する制御部103の指示に基づき、音声認識辞書106に記述された語彙のうち、マイク107より取り込んだ音声と良くマッチする語彙をユーザが発話した音声だと判定すると、この語彙が発話されたと見做して音声認識処理を行う。
When the
制御部103は、各接続機器20A,20B,20Cに保持された“楽曲情報データ”又は“電話帳データ”が接続部102を介して記憶部104に転送されているか否かを判断する。制御部103は、音声認識装置10が各接続機器20A,20B,20Cのいずれかの接続機器から“楽曲情報データ”又は“電話帳データ”を取得していると判断した場合には、マイク107より取り込んだ音声を音声認識部101にルーティングもしくは転送する。制御部103は、この転送又はルーティングされた音声に基づき音声認識処理を実施するように音声認識部101に指示する。
なお、制御部103は、音声認識装置10が接続機器20Aから“楽曲情報データA”を取得した際に、“楽曲情報データA”とこの“楽曲情報データA”の取得先である接続機器20Aとを関連付けて記憶部104に保持する。同様に、制御部103は、音声認識装置10が接続機器20Cから“電話帳データC”を取得した際に、“電話帳データC”とこの“電話帳データC”の取得先である接続機器20Cとを関連付けて記憶部104に保持する。
The
When the
この変形例では、記憶部104は、“楽曲情報データA”に関する「音声認識対象の文字データ」、つまり曲名リスト(曲名1,曲名2,…,曲名N)を保持している(図9参照)。したがって、制御部103は、音声認識装置10が接続機器20Aから“楽曲情報データ”を取得していると判断し、マイク107より取り込んだ音声を音声認識部101にルーティングもしくは転送する。そして、制御部103は、この転送又はルーティングされた音声に基づき音声認識処理を実施するように音声認識部101に指示する。
In this modification, the
また、この変形例では、記憶部104は、“電話帳データC”に関する「音声認識対象の文字データ」、つまり人名リスト(人名α,人名β,…,人名ω)を保持している(図9参照)。したがって、制御部103は、音声認識装置10が接続機器20Cから“電話帳データC”を取得していると判断し、マイク107より取り込んだ音声を音声認識部101にルーティングもしくは転送する。そして、制御部103は、この転送又はルーティングされた音声に基づき音声認識処理を実施するように音声認識部101に指示する。
Further, in this modification, the
この変形例では、記憶部104は、“楽曲情報データB”に関する「音声認識対象の文字データ」、つまり曲名リスト(曲名A,曲名B,…,曲名Z)を保持していない(図9参照)。したがって、制御部103は、接続機器20Bに記憶された“楽曲情報データB”が接続部102を介して記憶部104に転送され蓄積されているか否かを判断する。制御部103は、音声認識装置10が接続機器20Bから“楽曲情報データB”を未取得と判断し、制御部103は、マイク107より取り込んだ音声を、接続機器20Bの音声認識部201へとルーティングもしくは転送し、接続機器20Bの音声認識部201で音声認識処理を実施するように制御する。
In this modification, the
なお、上記実施の形態およびその変形例において、マイク107より取り込んだ音声を接続機器20へとルーティングもしくは転送する場合には、実際には接続機器20からさらにサーバなどへの遠隔装置で音声認識を実施する形態も考えられるが、いずれも本発明の基本的な発想の範囲内であることは言うまでもない。
In the above-described embodiment and its modification, when the voice captured from the
本発明の音声認識装置は、同じ使用用途(例.再生する楽曲の選択)であったとしても、音声認識対象の候補の文字列の配置に従い、使用したい音声認識部を使い分けることが出来るという効果を有し、ナビゲーション装置や車載用オーディオ装置などの車載端末等として有用である。 The speech recognition apparatus of the present invention has an effect that even if it is used for the same purpose (for example, selection of music to be played back), it is possible to properly use a speech recognition unit to be used according to the arrangement of candidate character strings for speech recognition. It is useful as an in-vehicle terminal such as a navigation device or an in-vehicle audio device.
10 音声認識装置
101 音声認識部
102 接続部
103 制御部
104 記憶部
105 G2P変換部
106 音声認識辞書
107 マイク
20 接続機器
201 音声認識部
202 接続部
204 記憶部
20A,20B,20C 接続機器
DESCRIPTION OF
Claims (4)
音声を取り込むマイクと、
前記一又は複数の接続機器と接続するための接続部と、
前記一又は複数の接続機器より取得した音声認識対象の文字データを記憶する記憶部と、
前記記憶部の音声認識対象の文字データから音声認識処理用の音素への変換を行う変換部と、
前記変換部が変換した音素を含み音声認識に利用される音声認識辞書と、
前記音声認識辞書と前記マイクより取り込んだ音声を利用して音声認識を実施する音声認識部と、
前記一又は複数の接続機器から前記音声認識対象の文字データを取得しているか否かを判断し、その判断結果に基づいて前記マイクより取り込んだ音声を前記音声認識部で認識させるか否かを制御する制御部とを備える、
音声認識装置。 A speech recognition device that performs speech recognition connected to one or more connected devices,
A microphone that captures audio,
A connection part for connecting to the one or more connection devices;
A storage unit for storing voice recognition target character data acquired from the one or more connected devices;
A conversion unit that performs conversion from character data to be recognized in the storage unit into phonemes for speech recognition processing;
A speech recognition dictionary used for speech recognition including the phonemes converted by the conversion unit;
A speech recognition unit that performs speech recognition using speech captured from the speech recognition dictionary and the microphone;
It is determined whether or not the character data subject to speech recognition is acquired from the one or more connected devices, and whether or not the speech recognition unit recognizes the speech captured from the microphone based on the determination result. A control unit for controlling,
Voice recognition device.
前記一又は複数の接続機器から前記音声認識対象の文字データを取得している場合には、前記マイクより取り込んだ音声を自装置の音声認識部で認識させ、
前記一又は複数の接続機器から前記音声認識対象の文字データを取得していない場合には、前記マイクより取り込んだ音声を前記接続部を介して当該前記一又は複数の接続機器に送信し、音声認識を実施させる、
請求項1に記載の音声認識装置。 The controller is
When the character data for speech recognition is acquired from the one or more connected devices, the speech recognition unit of its own device recognizes the speech captured from the microphone,
When the character data for speech recognition is not acquired from the one or more connected devices, the voice captured from the microphone is transmitted to the one or more connected devices via the connection unit, Make recognition
The speech recognition apparatus according to claim 1.
請求項1又は2に記載の音声認識装置。 The character data for speech recognition is music information data attached to music data and including at least the music title of the music,
The speech recognition apparatus according to claim 1 or 2.
請求項1又は2に記載の音声認識装置。 The speech recognition target character data is telephone number information data attached to name data and including attribute information of at least one telephone number associated with the name data.
The speech recognition apparatus according to claim 1 or 2.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011205165A JP2013068665A (en) | 2011-09-20 | 2011-09-20 | Speech recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011205165A JP2013068665A (en) | 2011-09-20 | 2011-09-20 | Speech recognition device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013068665A true JP2013068665A (en) | 2013-04-18 |
Family
ID=48474461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011205165A Withdrawn JP2013068665A (en) | 2011-09-20 | 2011-09-20 | Speech recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013068665A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015151494A1 (en) * | 2014-04-04 | 2015-10-08 | 株式会社デンソー | Speech recognition system and speech recognition program product |
CN109195073A (en) * | 2018-08-03 | 2019-01-11 | 努比亚技术有限公司 | A kind of microphone, audio-frequency processing method, terminal and computer readable storage medium |
US11042705B2 (en) | 2018-09-20 | 2021-06-22 | Dynabook Inc. | Electronic device, recognition method, and non-transitory computer-readable storage medium |
-
2011
- 2011-09-20 JP JP2011205165A patent/JP2013068665A/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015151494A1 (en) * | 2014-04-04 | 2015-10-08 | 株式会社デンソー | Speech recognition system and speech recognition program product |
CN109195073A (en) * | 2018-08-03 | 2019-01-11 | 努比亚技术有限公司 | A kind of microphone, audio-frequency processing method, terminal and computer readable storage medium |
US11042705B2 (en) | 2018-09-20 | 2021-06-22 | Dynabook Inc. | Electronic device, recognition method, and non-transitory computer-readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6513749B2 (en) | Voice assist system, server device, voice assist method thereof, and program for execution by computer | |
JP6570651B2 (en) | Voice dialogue apparatus and voice dialogue method | |
US8463608B2 (en) | Interactive speech recognition model | |
CN111095400A (en) | Selection system and method | |
CN110827826B (en) | Method for converting words by voice and electronic equipment | |
JP6725006B2 (en) | Control device and equipment control system | |
JP6155592B2 (en) | Speech recognition system | |
JP2014106523A (en) | Voice input corresponding device and voice input corresponding program | |
WO2016002251A1 (en) | Information processing system, and vehicle-mounted device | |
JPWO2008114708A1 (en) | Speech recognition system, speech recognition method, and speech recognition processing program | |
KR20220037819A (en) | Artificial intelligence apparatus and method for recognizing plurality of wake-up word | |
JP2013088477A (en) | Speech recognition system | |
JP2017138536A (en) | Voice processing device | |
JP2013068665A (en) | Speech recognition device | |
CN102611794A (en) | Method and equipment for controlling audio playing | |
JP2015028566A (en) | Response control system, on-vehicle device and center | |
JP6167605B2 (en) | Speech recognition system | |
US20210233516A1 (en) | Agent system, agent server, and computer readable recording medium | |
JP2019001428A (en) | On-vehicle device, voice operation system, and voice operation method | |
CN113160824B (en) | Information processing system | |
KR101945190B1 (en) | Voice recognition operating system and method | |
JP5464102B2 (en) | Handwriting input system | |
JP6468069B2 (en) | Electronic device control system, server, and terminal device | |
JP5500647B2 (en) | Method and apparatus for generating dynamic speech recognition dictionary | |
JP2014202800A (en) | Voice recognition control device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131225 |
|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20141202 |