JP7178983B2 - Agent device, agent method and program - Google Patents
Agent device, agent method and program Download PDFInfo
- Publication number
- JP7178983B2 JP7178983B2 JP2019219255A JP2019219255A JP7178983B2 JP 7178983 B2 JP7178983 B2 JP 7178983B2 JP 2019219255 A JP2019219255 A JP 2019219255A JP 2019219255 A JP2019219255 A JP 2019219255A JP 7178983 B2 JP7178983 B2 JP 7178983B2
- Authority
- JP
- Japan
- Prior art keywords
- instructions
- unit
- priority
- instruction
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 21
- 230000004044 response Effects 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 description 124
- 238000004891 communication Methods 0.000 description 35
- 238000010586 diagram Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000002485 combustion reaction Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000021189 garnishes Nutrition 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
- H04L67/61—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources taking into account QoS or priority requirements
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Description
本発明は、エージェント装置、エージェント方法、及びプログラムに関する。 The present invention relates to agent devices, agent methods, and programs.
近年、操作者が手操作により操作対象の機器に対する指示等を入力することに代えて、操作者が発話し、発話に含まれる指示等を音声認識させることにより、音声により簡便に入力操作をできるようにする技術が知られている(例えば、特許文献1参照)。 In recent years, instead of manually inputting instructions to the device to be operated by the operator, the operator speaks and recognizes the instructions included in the speech, making it possible to easily perform input operations by voice. A technique for doing so is known (see, for example, Patent Document 1).
ここで、操作者は、発話によって複数の指示を行う場合がある。しかしながら、従来の技術では、発話によって複数の指示が行われた場合、どの指示を優先的に実行するかを決定することが困難であった。 Here, the operator may give a plurality of instructions by speaking. However, with the conventional technology, it is difficult to determine which instruction should be executed with priority when a plurality of instructions are given by utterance.
本発明の態様は、このような事情を考慮してなされたものであり、発話によってされた複数の指示を適切な順序によって実行することができるエージェント装置、エージェント方法、及びプログラムを提供することを目的の一つとする。 Aspects of the present invention have been made in consideration of such circumstances, and aim to provide an agent device, an agent method, and a program capable of executing a plurality of uttered instructions in an appropriate order. one of the purposes.
この発明に係るエージェント装置、エージェント方法、及びプログラムは、以下の構成を採用した。
(1)この発明の一態様のエージェント装置は、利用者が発話した音声を示すデータを取得する取得部と、前記取得部により取得された前記データに基づいて、前記利用者の発話内容を認識する音声認識部と、前記発話内容に含まれる指示を特定する特定部と、前記特定部により特定された指示に応答する情報を、表示部を含む情報出力装置に出力させる出力制御部と、前記特定部により複数の前記指示が特定された場合、前記特定された複数の前記指示が同時に実行することが可能であるか否かを判定する判定部と、前記判定部により複数の前記指示が同時に実行することが不可能であると判定された場合、前記発話内容に含まれる複数の前記指示に対して、前記表示部により表示されている内容との関連性に基づいて優先度を付加する優先度付加部と、を備え、前記出力制御部は、前記特定部により複数の前記指示が特定された場合、前記優先度付加部に付加された前記優先度の高い前記指示から順に、前記指示に応じた情報を前記情報出力装置に出力させるものである。
The agent device, agent method, and program according to the present invention employ the following configurations.
(1) An agent device according to one aspect of the present invention includes an acquisition unit that acquires data representing voice uttered by a user, and recognizes the content of the user's utterance based on the data acquired by the acquisition unit. a speech recognition unit for specifying an instruction included in the utterance content; an output control unit for outputting information responding to the instruction specified by the specifying unit to an information output device including a display unit; a determining unit that determines whether or not the specified multiple instructions can be executed simultaneously when the multiple instructions are specified by the specifying unit; priority for adding a priority to the plurality of instructions included in the utterance content based on relevance to the content displayed by the display unit when it is determined that execution is impossible and a priority addition unit, wherein, when the identification unit identifies a plurality of the instructions, the output control unit adds the instructions to the instructions in descending order of the priority added to the priority addition unit. The corresponding information is output to the information output device.
(2)の態様は、上記(1)の態様に係るエージェント装置において、前記判定部は、同時に実行することが不可能な指示のリスト情報を参照して、前記特定された複数の前記指示が同時に実行することが可能であるか否かを判定するものである。 Aspect (2) is the agent device according to aspect (1) above, wherein the determination unit refers to list information of instructions that cannot be executed simultaneously, and determines whether the specified plurality of instructions are It determines whether or not they can be executed simultaneously.
(3)の態様は、上記(1)または(2)の態様に係るエージェント装置において、前記出力制御部は、前記判定部により複数の前記指示が同時に実行することが可能であると判定された場合、複数の前記指示に応答する情報を、前記情報出力装置に出力させるものである。 Aspect (3) is the agent device according to aspect (1) or (2) above, wherein the output control unit is determined by the determination unit to be capable of simultaneously executing a plurality of instructions. In this case, the information output device is caused to output information responding to a plurality of the instructions.
(4)この発明の他の態様のエージェント装置は、利用者が発話した音声を示すデータを取得する取得部と、前記取得部により取得された前記データに基づいて、前記利用者の発話内容を認識する音声認識部と、前記発話内容に含まれる指示を特定する特定部と、前記特定部により特定された指示に応答する情報を、表示部を含む情報出力装置に出力させる出力制御部と、前記発話内容に含まれる複数の前記指示に対して、前記表示部により表示されている内容との関連性に基づいて優先度を付加する優先度付加部と、を備え、前記出力制御部は、前記特定部により複数の前記指示が特定された場合、前記優先度付加部に付加された前記優先度の高い前記指示から順に、前記指示に応じた情報を前記情報出力装置に出力させるものである。 (4) An agent device according to another aspect of the present invention includes an acquisition unit that acquires data representing a voice uttered by a user, and acquires content of the user's utterance based on the data acquired by the acquisition unit. a speech recognition unit for recognition, an identification unit for identifying an instruction included in the utterance content, an output control unit for outputting information responding to the instruction identified by the identification unit to an information output device including a display unit; a priority adding unit that adds priority to the plurality of instructions included in the utterance content based on relevance to the content displayed by the display unit, wherein the output control unit comprises: When a plurality of the instructions are specified by the specifying unit, the information output device is caused to output information corresponding to the instructions in order of the high priority added to the priority adding unit. .
(5)の態様は、上記(1)から(4)のいずれかの態様に係るエージェント装置において、前記優先度付加部は、前記発話内容に含まれる複数の前記指示が、いずれも前記表示部により表示されている内容に関連しない場合、又はいずれも前記表示部により表示されている内容に関連する場合、複数の前記指示が発話された順序に基づいて、前記優先度を付加するものである。 Aspect (5) is the agent device according to any one of aspects (1) to (4) above, wherein the priority adding unit is configured to display the plurality of instructions included in the utterance content on the display unit. or if both are related to the content displayed by the display unit, the priority is added based on the order in which the plurality of instructions are spoken. .
(6)の態様は、上記(1)から(5)のいずれかの態様に係るエージェント装置において、前記優先度付加部は、前記発話内容に含まれる複数の前記指示が、いずれも前記表示部により表示されている内容に関連しない場合、又はいずれも前記表示部により表示されている内容に関連する場合、複数の前記指示を接続する接続詞に基づいて、前記優先度を付加するものである。 Aspect (6) is the agent device according to any one of aspects (1) to (5) above, wherein the priority adding unit is configured to display the plurality of instructions included in the utterance content on the display unit. If it is not related to the content displayed by the display unit, or if both are related to the content displayed by the display unit, the priority is added based on the conjunction connecting the multiple instructions.
(7)の態様は、上記(1)から(6)のいずれかの態様に係るエージェント装置において、前記優先度付加部は、前記発話内容に含まれる複数の前記指示が、いずれも前記表示部により表示されている内容に関連しない場合、又はいずれも前記表示部により表示されている内容に関連する場合、前記発話内容に含まれる前記指示の順序を示す語句に基づいて、前記優先度を付加するものである。 Aspect (7) is the agent device according to any one of aspects (1) to (6) above, wherein the priority adding unit is configured to display the plurality of instructions included in the utterance content on the display unit. If it is not related to the content displayed by the display unit, or if both are related to the content displayed by the display unit, the priority is added based on the words and phrases that indicate the order of the instructions included in the utterance content. It is something to do.
(8)の態様は、上記(1)から(7)のいずれかの態様に係るエージェント装置において、前記優先度付加部は、前記発話内容に含まれる複数の前記指示が、いずれも前記表示部により表示されている内容に関連しない場合、又はいずれも前記表示部により表示されている内容に関連する場合、前記発話内容に含まれる前記指示のタイミングを示す語句に基づいて、前記優先度を付加するものである。 An aspect of (8) is the agent device according to any one of aspects (1) to (7) above, wherein the priority adding unit is configured to display the plurality of instructions included in the utterance content on the display unit. If it is not related to the content displayed by the display unit, or if both are related to the content displayed by the display unit, the priority is added based on the phrase indicating the timing of the instruction included in the utterance content. It is something to do.
(9)この発明の他の態様のエージェント方法は、コンピュータが、利用者が発話した音声を示すデータを取得し、取得された前記データに基づいて、前記利用者の発話内容を認識し、前記発話内容に含まれる指示を特定し、特定された指示に応答する情報を、表示部を含む情報出力装置に出力させ、複数の前記指示が特定された場合、前記特定された複数の前記指示が同時に実行することが可能であるか否かを判定し、複数の前記指示が同時に実行することが不可能であると判定された場合、前記発話内容に含まれる複数の前記指示に対して、前記表示部により表示されている内容との関連性に基づいて優先度を付加し、複数の前記指示が特定された場合、付加された前記優先度の高い前記指示から順に、前記指示に応じた情報を情報出力装置に出力するものである。 (9) An agent method according to another aspect of the present invention is such that a computer acquires data indicating a voice uttered by a user, recognizes the content of the user's utterance based on the acquired data, specifying instructions included in the utterance content, causing an information output device including a display unit to output information responding to the specified instructions, and when a plurality of the instructions are specified, the specified instructions It is determined whether or not a plurality of instructions can be executed simultaneously, and if it is determined that a plurality of instructions cannot be executed simultaneously, the plurality of instructions included in the utterance content are A priority is added based on the relevance to the content displayed by the display unit, and when a plurality of the instructions are specified, the information corresponding to the instruction is displayed in order from the instruction with the highest priority added. is output to the information output device.
(10)この発明の他の態様のプログラムは、コンピュータに、利用者が発話した音声を示すデータを取得させ、取得された前記データに基づいて、前記利用者の発話内容を認識させ、前記発話内容に含まれる指示を特定させ、特定された指示に応答する情報を、表示部を含む情報出力装置に出力させ、複数の前記指示が特定された場合、前記特定された複数の前記指示が同時に実行することが可能であるか否かを判定させ、複数の前記指示が同時に実行することが不可能であると判定された場合、前記発話内容に含まれる複数の前記指示に対して、前記表示部により表示されている内容との関連性に基づいて優先度を付加させ、複数の前記指示が特定された場合、付加された前記優先度の高い前記指示から順に、前記指示に応じた情報を情報出力装置に出力させるものである。 (10) A program according to another aspect of the present invention causes a computer to acquire data indicating a voice uttered by a user, recognizes the contents of the user's utterance based on the acquired data, specifying an instruction included in the content, outputting information responding to the specified instruction to an information output device including a display unit, and when a plurality of the specified instructions are specified, the specified instructions are simultaneously output. If it is determined that a plurality of instructions cannot be executed at the same time, the display is performed for the plurality of instructions included in the utterance content. Priorities are added based on the relevance to the content displayed by the unit, and when a plurality of the instructions are specified, the information corresponding to the instructions is displayed in order from the instructions with the highest priority added. This is to be output to an information output device.
(1)~(10)の態様によれば、発話によってされた複数の指示を適切な順序によって実行することができる。 According to aspects (1) to (10), a plurality of uttered instructions can be executed in an appropriate order.
(2)の態様によれば、より適切な順序によって指示を実行することができる。 According to aspect (2), instructions can be executed in a more appropriate order.
(5)~(8)の態様によれば、より精度良く実行する指示の順序を決定することができる。 According to aspects (5) to (8), the order of instructions to be executed can be determined with higher accuracy.
以下、図面を参照し、本発明のエージェント装置、エージェント方法、及びプログラムの実施形態について説明する。 Embodiments of an agent device, an agent method, and a program according to the present invention will be described below with reference to the drawings.
<実施形態>
[システム構成]
図1は、実施形態に係るエージェントシステム1の構成の一例を示す図である。実施形態に係るエージェントシステム1は、例えば、車両Mに搭載されるエージェント装置100と、車両M外に存在するサーバ装置200とを備える。車両Mは、例えば、二輪や三輪、四輪等の車両である。これらの車両の駆動源は、ディーゼルエンジンやガソリンエンジン等の内燃機関、電動機、或いはこれらの組み合わせであってよい。電動機は、内燃機関に連結された発電機による発電電力、或いは二次電池や燃料電池の放電電力を使用して動作する。
<Embodiment>
[System configuration]
FIG. 1 is a diagram showing an example of the configuration of an
エージェント装置100とサーバ装置200とは、ネットワークNWを介して通信可能に接続される。ネットワークNWは、LAN(Local Area Network)やWAN(Wide Area Network)等が含まれる。ネットワークNWには、例えば、Wi-FiやBluetooth(登録商標、以下省略)等無線通信を利用したネットワークが含まれてよい。
エージェントシステム1は、複数のエージェント装置100および複数のサーバ装置200により構成されてもよい。以降は、エージェントシステム1が一つのエージェント装置100と、一つのサーバ装置200とを備える場合について説明する。
The
エージェント装置100は、エージェント機能を用いて車両Mの乗員からの音声を取得し、取得した音声をサーバ装置200に送信する。また、エージェント装置100は、サーバ装置から得られるデータ(以下、エージェントデータ)等に基づいて、乗員と対話したり、画像や映像等の情報を提供したり、車両Mに搭載される車載機器VEや他の装置を制御したりする。
The
サーバ装置200は、車両Mに搭載されたエージェント装置100と通信し、エージェント装置100から各種データを取得する。サーバ装置200は、取得したデータに基づいて車両Mの乗員に対する応答として適したエージェントデータを生成し、生成したエージェントデータをエージェント装置100に提供する。
The
[エージェント装置の構成]
図2は、実施形態に係るエージェント装置100の構成の一例を示す図である。実施形態に係るエージェント装置100は、例えば、通信部102と、マイク(マイクロフォン)106と、スピーカ108と、表示部110と、制御部120と、記憶部150とを備える。これらの装置や機器は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続されてよい。なお、図2に示すエージェント装置100の構成はあくまでも一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。
[Agent device configuration]
FIG. 2 is a diagram showing an example of the configuration of the
通信部102は、NIC(Network Interface controller)等の通信インターフェースを含む。通信部102は、ネットワークNWを介してサーバ装置200等と通信する。
The
マイク106は、車室内の音声を電気信号化し収音する音声入力装置である。マイク106は、収音した音声のデータ(以下、音声データ)を制御部120に出力する。例えば、マイク106は、乗員が車室内のシートに着座したときの前方付近に設置される。例えば、マイク106は、マットランプ、ステアリングホイール、インストルメントパネル、またはシートの付近に設置される。マイク106は、車室内に複数設置されていてもよい。
A
スピーカ108は、例えば、車室内のシート付近または表示部110付近に設置される。スピーカ108は、制御部120により出力される情報に基づいて音声を出力する。
The
表示部110は、LCD(Liquid Crystal Display)や有機EL(Electroluminescence)ディスプレイ等の表示装置を含む。表示部110は、制御部120により出力される情報に基づいて画像を表示する。スピーカ108と、表示部110とを組み合わせたものは、「情報出力装置」の一例である。
図3は、運転席から見た車室内の一例を示す図である。図示の例の車室内には、マイク106A~106Cと、スピーカ108A~108Cと、表示部110A~110Cとが設置される。マイク106Aは、例えば、ステアリングホイールに設けられ、主に運転者が発話した音声を収音する。マイク106Bは、例えば、助手席正面のインストルメントパネル(ダッシュボードまたはガーニッシュ)IPに設けられ、主に助手席の乗員が発話した音声を収音する。マイク106Cは、例えば、インストルメントパネルの中央(運転席と助手席との間)付近に設置される。
FIG. 3 is a diagram showing an example of the interior of the vehicle viewed from the driver's seat.
スピーカ108Aは、例えば、運転席側のドアの下部に設置され、スピーカ108Bは、例えば、助手席側のドアの下部に設置され、スピーカ108Cは、例えば、表示部110Cの付近、つまり、インストルメントパネルIPの中央付近に設置される。
The
表示部110Aは、例えば運転者が車外を視認する際の視線の先に虚像を表示させるHUD(Head-Up Display)装置である。HUD装置は、例えば、車両Mのフロントウインドシールド、或いはコンバイナーと呼ばれる光の透過性を有する透明な部材に光を投光することで、乗員に虚像を視認させる装置である。乗員は、主に運転者であるが、運転者以外の乗員であってもよい。
The
表示部110Bは、運転席(ステアリングホイールに最も近い座席)の正面付近のインストルメントパネルIPに設けられ、乗員がステアリングホイールの間隙から、或いはステアリングホイール越しに視認可能な位置に設置される。表示部110Bは、例えば、LCDや有機EL表示装置等である。表示部110Bには、例えば、車両Mの速度、エンジン回転数、燃料残量、ラジエータ水温、走行距離、その他の情報の画像が表示される。
The
表示部110Cは、インストルメントパネルIPの中央付近に設置される。表示部110Cは、例えば、表示部110Bと同様に、LCDや有機EL表示装置等である。表示部110Cは、テレビ番組や映画等のコンテンツを表示する。
The
なお、車両Mには、更に、後部座席付近にマイクとスピーカが設けられてよい。図4は、車両Mを上から見た車室内の一例を示す図である。車室内には、図3で例示したマイクスピーカに加えて、更に、マイク106D、106Eと、スピーカ108D、108Eとが設置されてよい。
The vehicle M may be further provided with a microphone and a speaker near the rear seats. FIG. 4 is a diagram showing an example of the interior of the vehicle M viewed from above. In addition to the microphone speakers illustrated in FIG. 3,
マイク106Dは、例えば、助手席ST2の後方に設置された後部座席ST3の付近(例えば、助手席ST2の後面)に設けられ、主に、後部座席ST3に着座する乗員が発話した音声を収音する。マイク106Eは、例えば、運転席ST1の後方に設置された後部座席ST4の付近(例えば、運転席ST1の後面)に設けられ、主に、後部座席ST4に着座する乗員が発話した音声を収音する。
The
スピーカ108Dは、例えば、後部座席ST3側のドアの下部に設置され、スピーカ108Eは、例えば、後部座席ST4側のドアの下部に設置される。
The
なお、図1に例示した車両Mは、図3または図4に例示するように、乗員である運転手が操作可能なステアリングホイールを備える車両であるものとして説明したがこれに限られない。例えば、車両Mは、ルーフがない、すなわち車室がない(またはその明確な区分けがない)車両であってもよい。 Although the vehicle M illustrated in FIG. 1 has been described as a vehicle having a steering wheel that can be operated by a driver who is a passenger, as illustrated in FIG. 3 or 4, the vehicle M is not limited to this. For example, the vehicle M may be a vehicle without a roof, ie without a passenger compartment (or without a clear division thereof).
また、図3または図4の例では、車両Mを運転操作する運転手が座る運転席と、その他の運転操作をしない乗員が座る助手席や後部座席とが一つの室内にあるものとして説明しているがこれに限られない。例えば、車両Mは、ステアリングホイールに代えて、ステアリングハンドルを備えた鞍乗り型自動二輪車両であってもよい。 Further, in the example of FIG. 3 or FIG. 4, it is assumed that the driver's seat where the driver who operates the vehicle M sits, and the passenger's seat and the rear seats where the other passengers who do not operate the vehicle M sit are in one room. but not limited to this. For example, the vehicle M may be a saddle type motorcycle having a steering handle instead of the steering wheel.
また、図3または図4の例では、車両Mが、ステアリングホイールを備える車両であるものとして説明しているがこれに限られない。例えば、車両Mは、ステアリングホイールのような運転操作機器が設けられていない自動運転車両であってもよい。自動運転車両とは、例えば、乗員の操作に依らずに車両の操舵または加減速のうち一方または双方を制御して運転制御を実行することである。 Further, in the example of FIG. 3 or 4, the vehicle M is described as being a vehicle having a steering wheel, but the vehicle M is not limited to this. For example, the vehicle M may be an automatically driven vehicle that is not provided with a driving operation device such as a steering wheel. An autonomously driven vehicle is, for example, one that controls one or both of steering and acceleration/deceleration of the vehicle to execute driving control without depending on the operation of the occupant.
図2の説明に戻り、制御部120は、例えば、取得部121と、音声合成部122と、通信制御部123と、特定部124と、判定部125と、優先度付加部126と、出力制御部127とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部150(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROM等の着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることで記憶部150にインストールされてもよい。
Returning to the description of FIG. 2, the
記憶部150は、HDD、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、またはRAM(Random Access Memory)等により実現される。記憶部150には、例えば、プロセッサによって参照されるプログラム等と、車載機器情報152と、リスト情報154とが格納される。車載機器情報152は、車両Mに搭載されている車載機器VEの一覧を示す情報である。
The
図5は、リスト情報154の内容の一例を示す図である。リスト情報154は、例えば、同時に実行することが不可能な指示を示す情報である。この指示とは、例えば、乗員が発話した音声に含まれる指示であって、車載機器VEの動作に係る指示である。図5に示すリスト情報154には、同時に実行することが不可能な指示として、「同一の制御対象に対する指示」と、「目的地を2つ指定する指示」と、「同時に制御できない車載機器VE1と、車載機器VE2とに対する指示」と、「同時に制御できない車載機器VE3と、車載機器VE4に対する指示」とが含まれる。
FIG. 5 is a diagram showing an example of the contents of the
図2の説明に戻り、取得部121は、マイク106から音声データや、他の情報を取得する。
Returning to the description of FIG. 2 , the
音声合成部122は、通信部102がサーバ装置200から受信したエージェントデータに音声制御内容が含まれる場合に、音声制御として発話によって音声指示された音声データに対応する、人工的な合成音声を生成する。以下、音声合成部122が生成する人工的な合成音声を、エージェント音声とも記載する。
When the agent data received by the
通信制御部123は、取得部121によって取得された音声データを通信部102によってサーバ装置200に送信させる。通信制御部123は、サーバ装置200から送信されたエージェントデータを通信部102によって受信させる。
The
特定部124は、エージェントデータに含まれる車載機器VEに対する指示を特定する。特定部124は、例えば、エージェントデータに含まれる車載機器VEを特定するため、車載機器情報152に含まれる車載機器VEのそれぞれを検索キーとして、エージェントデータを検索する。特定部124は、検索の結果、エージェントデータに含まれることを特定した一つ又は複数の車載機器VEを、指示対象の車載機器VEとして特定する。エージェントデータは、例えば、「発話内容」の一例である。
The identifying
判定部125は、特定部124によって特定された指示対象の車載機器VEが複数である場合、リスト情報154に基づいて、これらの複数の指示が、同時に実行することが可能であるか否かを判定する。
When there are a plurality of vehicle-mounted devices VE to be instructed identified by the identifying
なお、判定部125は、明らかに同時に実行できない指示については、リスト情報154を用いずに複数の指示が同時に実行することが可能であるか否かを判定してもよい。明らかに同時に実行できない指示とは、例えば、同一の指示対象に対する相反する指示等である。具体的には、「オーディオの音量を上げて(指示A)、音量を下げて(指示B)」等や、「車両Mを停止させて(指示A)、車両Mの速度を上げて(指示B)」等の指示である。
Note that the
優先度付加部126は、判定部125によってエージェントデータに含まれる複数の指示を同時に実行することが不可能であると判定された場合、エージェントデータに含まれる複数の指示に対して、優先度を付加する。優先度付加部126が優先度を付加する処理の詳細については、後述する。
If the
出力制御部127は、エージェントデータに含まれる指示に応じて、音声合成部122によってエージェント音声が生成されると、そのエージェント音声をスピーカ108に出力させる。また、出力制御部127は、エージェントデータに含まれる指示に応じて、画像データを表示部110に表示させる。また、出力制御部127は、音声データの認識結果(フレーズ等のテキストデータ)の画像を表示部110に表示させてもよい。
The
ここで、出力制御部127は、優先度付加部126によって複数の指示のそれぞれに優先度が付加されている場合、複数の指示のうち、付加された優先度の高い指示から順に、指示に応じたエージェント音声をスピーカ108に出力させたり、指示された画像データを表示部110に表示させたりする。
Here, when a priority is added to each of the plurality of instructions by the
[サーバ装置の構成]
図6は、実施形態に係るサーバ装置200の構成の一例を示す図である。実施形態に係るサーバ装置200は、例えば、通信部202と、制御部210と、記憶部230とを備える。
[Configuration of server device]
FIG. 6 is a diagram showing an example of the configuration of the
通信部202は、NIC等の通信インターフェースを含む。通信部202は、ネットワークNWを介して各車両Mに搭載されたエージェント装置100等と通信する。
The
制御部210は、例えば、取得部211と、発話区間抽出部212と、音声認識部213と、エージェントデータ生成部214と、通信制御部215とを備える。これらの構成要素は、例えば、CPUやGPU等のプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSIやASIC、FPGA等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部230(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROM等の着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることで記憶部230にインストールされてもよい。
The
記憶部230は、HDD、フラッシュメモリ、EEPROM、ROM、またはRAM等により実現される。記憶部230には、例えば、プロセッサによって参照されるプログラムのほかに、回答情報232等が格納される。
図7は、回答情報232の内容の一例を示す図である。回答情報232には、例えば、意味情報に、制御部120に実行させる制御内容が対応付けられている。意味情報とは、例えば、音声認識部213により発話内容全体から認識される意味である。制御内容には、例えば、車載機器VEに対する指示(制御)に関する車載機器制御や、エージェント音声を出力する音声制御、表示部110に表示させる画像制御等が含まれる。例えば、回答情報232では、「エアコンの起動」という意味情報に対して、「エアコンを起動させる」車載機器制御と、「エアコンを起動しました」という音声制御と、車室内温度及び設定温度を表示する表示制御とが対応付けられている。
FIG. 7 is a diagram showing an example of the content of the
図6に戻り、取得部211は、通信部202によってエージェント装置100から送信された、音声データを取得する。
Returning to FIG. 6 , the
発話区間抽出部212は、取得部121によって取得された音声データから、乗員が発話している期間(以下、発話区間と称する)を抽出する。例えば、発話区間抽出部212は、零交差法を利用して、音声データに含まれる音声信号の振幅に基づいて発話区間を抽出してよい。また、発話区間抽出部212は、混合ガウス分布モデル(GMM;Gaussian mixture model)に基づいて、音声データから発話区間を抽出してもよいし、発話区間特有の音声信号をテンプレート化したデータベースとテンプレートマッチング処理を行うことで、音声データから発話区間を抽出してもよい。
The speech
音声認識部213は、発話区間抽出部212によって抽出された発話区間ごとに音声データを認識し、認識した音声データをテキスト化することで、発話内容を含むテキストデータを生成する。例えば、音声認識部213は、発話区間の音声信号を、低周波数や高周波数等の複数の周波数帯に分離し、分類した各音声信号をフーリエ変換することで、スペクトログラムを生成する。音声認識部213は、生成したスペクトログラムを、再帰的ニューラルネットワークに入力することで、スペクトログラムから文字列を得る。再帰的ニューラルネットワークは、例えば、学習用の音声から生成したスペクトログラムに対して、その学習用の音声に対応した既知の文字列が教師ラベルとして対応付けられた教師データを利用することで、予め学習されていてよい。そして、音声認識部213は、再帰的ニューラルネットワークから得た文字列のデータを、テキストデータとして出力する。
The
また、音声認識部213は、自然言語のテキストデータの構文解析を行って、テキストデータを形態素に分け、各形態素からテキストデータに含まれる文言の意味を認識する。
The
エージェントデータ生成部214は、音声認識部213により認識された発話内容の意味に基づいて、回答情報232の意味情報を参照し、合致する意味情報に対応付けられた制御内容を取得する。なお、認識結果として、「エアコンをつけて」、「エアコンの電源を入れてください」等の意味が認識された場合、エージェントデータ生成部214は、上述の意味を標準文字情報「エアコンの起動」等に置き換える。これにより、指示の発話内容に発話の揺らぎがあった場合にも指示にあった制御内容を取得し易くすることができる。
The agent
また、エージェントデータ生成部214は、取得した制御内容(例えば、車載機器制御、音声制御、または表示制御のうち少なくとも一つ)に対応する処理を実行させるためのエージェントデータを生成する。
In addition, the agent
通信制御部215は、エージェントデータ生成部214により生成されたエージェントデータを、通信部202によってエージェント装置100に送信させる。これにより、エージェント装置100は、制御部120によって、エージェントデータに対応する制御が実行することができる。
The
[優先度を付加する処理について]
以下、図8と図9とを用いて、優先度付加部126の優先度を付加する処理の詳細について説明する。図8は、指示に優先度を付加する場面の一例を示す図である。図9は、付加された優先度に基づいて、情報出力装置に情報を出力させる場面の一例を示す図である。
[Regarding the process of adding priority]
Details of the priority adding process of the
図8において、乗員は、目的地を設定することを指示する発話SP1として、「動物園に行って」と発話している。出力制御部127は、発話SP1に応じて生成されたエージェントデータに基づいて、ナビゲーション装置に「動物園」までの移動経路を特定させ、ナビゲーション装置により特定させた移動経路を示す画像IM1を表示部110に表示させる。更に、乗員は、目的地を設定することを指示する発話SP2として、「コンビニエンスストアに行って」と発話している。
In FIG. 8, the passenger utters "go to the zoo" as the utterance SP1 instructing to set the destination. Based on the agent data generated in response to the utterance SP1, the
この場合、特定部124は、発話SP1と、発話SP2とには、車載機器VEであるナビゲーション装置に対する指示であって、目的地を設定する複数の指示が含まれていると認識する。この場合、判定部125は、特定部124によって特定された車載機器VEに対する指示が複数であるため、リスト情報154に基づいてこれらの複数の指示が、同時に実行することが可能であるか否かを判定する。上述したように、リスト情報154には、同時に実行することが不可能な指示として、「同一の制御対象に対する指示」が含まれている。このため、判定部125は、特定部124によって特定された車載機器VEに対する複数の指示が、同時に実行することが不可能であると判定する。判定部125によって車載機器VEに対する複数の指示が、同時に実行することが不可能であると判定された場合、優先度付加部126は、複数の指示のそれぞれに優先度を付加する。
In this case, the specifying
[(1)表示部に表示される内容に基づく優先度の付加]
優先度付加部126は、例えば、乗員の発話(発話SP1~SP2)がされた場面において、表示部110に表示されている内容との関連性に基づいて、優先度を付加する。上述したように、発話SP1が発話された場面において、表示部110には、「動物園」までの移動経路を示す画像IM1が表示されている。このため、発話SP1が示す指示と、発話SP2が示す指示とでは、発話SP1が示す指示の方が、表示部110の内容(この場合、「動物園」までの経路)との関連性が高い。したがって、優先度付加部126は、発話SP1に含まれる指示に高い優先度を付加し、発話SP2に含まれる指示には、発話SP1に含まれる指示よりも低い優先度を付加する。
[(1) Addition of priority based on content displayed on display]
The
優先度付加部126は、例えば、発話SP1に係るエージェントデータと発話SP2に係るエージェントデータとに基づいて、発話SP1に係るエージェントデータに含まれる指示と、発話SP2に係るエージェントデータに含まれる指示とをそれぞれ特定する。優先度付加部126は、出力制御部127の制御履歴を示す情報、或いは車載機器VE(この場合、ナビゲーション装置)の制御状態に係る情報を取得し、表示部110に表示されている内容を特定する。そして、優先度付加部126は、特定した各種情報に基づいて、発話SP1に係る指示と、発話SP2に係る指示とのうち、表示部110に表示されている内容との関連性の高い指示を特定し、優先度を付加する。
For example, based on the agent data related to the utterance SP1 and the agent data related to the utterance SP2, the
出力制御部127は、優先度付加部126によって付加された優先度に基づいて、優先度の高い指示から順に、指示に応じた制御を実行する。また、出力制御部127は、優先度付加部126によって付加された優先度に基づいて、優先度の高い指示から順に、指示に応じた情報を情報出力装置に出力させる。
Based on the priorities added by the
図9において、出力制御部127は、ナビゲーション装置に、発話SP1に応じて生成されたエージェントデータに基づいて、「動物園」までの移動経路を特定させつつ、発話SP2に応じて生成されたエージェントデータに基づいて、「動物園」までの移動経路の途中に存在する「コンビニエンスストア」を経由地点として特定させる。そして、出力制御部127は、「動物園」までの移動経路を示しつつ、「動物園」までの移動経路の途中に存在する「コンビニエンスストア」を経由地点として示す画像IM2を表示部110に表示さる。出力制御部127は、音声合成部122により生成された「動物園」までの移動経路に関するエージェント音声SD1をスピーカ108に出力させた後、音声合成部122により生成された「コンビニエンスストア」に関するエージェント音声SD2をスピーカ108に出力させる。エージェント音声SD1は、例えば、「目的地を動物園に設定しました。経路をご案内します。」等の音声であり、エージェント音声SD2は、例えば、「動物園までの経路上のコンビニエンスストアを経由地点に追加しました。」等の音声である。
In FIG. 9, the
ここで、画像IM1~IM2が示すように、車両Mの近傍には、動物園までの経路の途中に存在するコンビニエンスストアCS1と、動物園までの経路からは外れるものの、車両Mの現在位置から最も近いコンビニエンスストアCS2とが存在する。優先度付加部126による優先度の付加が行われない場合、出力制御部127は、発話SPに応じた指示を順次処理する。このため、出力制御部127は、発話SP1が示す指示に基づき、ナビゲーション装置に動物園までの移動経路を特定させた後、発話SP2が示す指示に基づき、ナビゲーション装置に動物園までの移動経路をキャンセルさせ、最寄りのコンビニエンスストアCS2までの移動経路を特定させる。この場合、車両Mは、動物園までの移動経路から外れたコンビニエンスストアCS2に立ち寄ってから動物園に向かうこととなり、動物園までの道のりが遠回りとなる。
Here, as shown by the images IM1 and IM2, near the vehicle M, there is a convenience store CS1 located on the way to the zoo, and a convenience store CS1 which is the closest to the current position of the vehicle M, although it is off the route to the zoo. There is a convenience store CS2. When priority addition by the
一方、優先度付加部126による優先度の付加が行われる場合、出力制御部127は、優先度の高い指示から順に処理する。この場合、車両Mは、動物園に向かいつつ、動物園までの経路上に存在するコンビニエンスストアCS1に立ち寄るため、動物園まで効率的に移動することができる。したがって、本実施形態のエージェント装置100によれば、発話によってされた複数の指示を車両Mの乗員にとって適切な順序によって実行することができる。
On the other hand, when priority is added by the
[(2)発話の順序に基づく優先度の付加]
なお、上述では、優先度付加部126は、例えば、表示部110に表示されている内容との関連性に基づいて、優先度を付加する場合について説明したが、これに限られない。優先度付加部126は、例えば、発話SPに含まれる複数の指示が、いずれも表示部110に表示されている内容に関連にしない場合や、いずれも表示部110に表示されている内容に関連する場合には、発話SPの順序に基づいて、優先度を付加してもよい。この場合、優先度付加部126は、先に発話された発話SP1に含まれる指示に高い優先度を付加し、発話SP1よりも後に発話された発話SP2に含まれる指示には、発話SP1に含まれる指示よりも低い優先度を付加する。
[(2) Addition of priority based on the order of utterances]
In the above description, the
[(3)接続詞に基づく優先度の付加]
また、優先度付加部126は、例えば、発話SPに含まれる複数の指示が、いずれも表示部110に表示されている内容に関連にしない場合や、いずれも表示部110に表示されている内容に関連する場合には、指示を示す語句を接続する接続詞に基づいて、優先度を付加してもよい。例えば、「(指示A)をして“それから”(指示B)をして。」(例1)や、「(指示A)して“同じように”(指示B)をして。」(例2)等の乗員の発話SPには、「それから」や、「同じように」等の、指示の実行順序を示す接続詞が含まれる。この場合、記憶部150には、接続詞を示す情報と、接続詞の前の語句と接続詞の後の語句との順序(又は、優先度)を示す情報とが互いに対応付けられた接続詞情報(不図示)が記憶されており、優先度付加部126は、接続詞情報に基づいて、複数の指示のそれぞれに優先度を付加する。
[(3) Addition of priority based on conjunction]
In addition, the
優先度付加部126は、(例1)や(例2)のように、指示Aの方が、指示Bよりも先に実行することを示す接続詞が含まれる場合、指示Aに高い優先度を付加し、指示Bには、指示Aよりも低い優先度を付加する。
If the instruction A contains a conjunction indicating that the instruction A is to be executed before the instruction B, as in (Example 1) or (Example 2), the
[(4)順序を示す語句に基づく優先度の付加]
また、優先度付加部126は、例えば、発話SPに含まれる複数の指示が、いずれも表示部110に表示されている内容に関連にしない場合や、いずれも表示部110に表示されている内容に関連する場合には、指示の順序を示す語句に基づいて、優先度を付加してもよい。例えば、「(指示A)を“した後に”(指示B)をして。」(例3)や、「(指示A)を“する前に”(指示B)をして。」(例4)等の乗員の発話SPには、「した後に」や、「する前に」等の、指示の実行順序を示す接続詞が含まれる。この場合、記憶部150には、順序を示す語句を示す情報と、順序を示す語句の前の語句と順序を示す語句の後の語句との順序を示す情報とが互いに対応付けられた順序語句情報(不図示)が記憶されており、優先度付加部126は、順序語句情報に基づいて、複数の指示のそれぞれに優先度を付加する。
[(4) Addition of priority based on words indicating order]
In addition, the
優先度付加部126は、(例3)のように、指示Aの方が、指示Bよりも先に実行することを示す語句が含まれる場合、指示Aに高い優先度を付加し、指示Bには、指示Aよりも低い優先度を付加する。また、優先度付加部126は、(例4)のように、指示Bの方が、指示Aよりも先に実行することを示す語句が含まれる場合、指示Bに高い優先度を付加し、指示Aには、指示Bよりも低い優先度を付加する。
As in (Example 3), if the instruction A contains a phrase indicating that the instruction A should be executed before the instruction B, the
[(5)タイミングを示す語句に基づく優先度の付加]
また、優先度付加部126は、例えば、発話SPに含まれる複数の指示が、いずれも表示部110に表示されている内容に関連にしない場合や、いずれも表示部110に表示されている内容に関連する場合には、指示のタイミングを示す語句に基づいて、優先度を付加してもよい。例えば、「“17時”に小学校に到着して(指示A)“18時”にスイミングスクールに到着して(指示B)」(例5)等の乗員の発話SPには、指示を行うタイミングを示す語句が含まれる。この場合、優先度付加部126は、各指示のタイミングを示す語句に基づいてタイミングが早い指示の方が、優先度が高くなるように、複数の指示のそれぞれに優先度を付加する。
[(5) Addition of priority based on words indicating timing]
In addition, the
優先度付加部126は、(例5)のように、指示Aの方が、指示Bよりも先に実行することを示す語句が含まれる場合、指示Aに高い優先度を付加し、指示Bには、指示Aよりも低い優先度を付加する。
If the instruction A contains a phrase indicating that the instruction A is to be executed before the instruction B, as in (Example 5), the
[処理フロー]
次に、実施形態に係るエージェントシステム1の処理の流れについてフローチャートを用いて説明する。なお、以下では、エージェント装置100の処理と、サーバ装置200との処理を分けて説明するものとする。また、以下に示す処理の流れは、所定のタイミングで繰り返し実行されてよい。所定のタイミングとは、例えば、音声データからエージェント装置を起動させる特定ワード(例えば、ウェイクアップワード)が抽出されたタイミングや、車両Mに搭載される各種スイッチのうち、エージェント装置100を起動させるスイッチの選択を受け付けたタイミング等である。
[Processing flow]
Next, the flow of processing of the
図10は、実施形態に係るエージェント装置100の一連の処理の流れを示すフローチャートである。まず、取得部121は、ウェイクアップワードが認識された後に、マイク106によって乗員の音声データが収集されたか(つまり、乗員の発話があったか)否かを判定する(ステップS100)。取得部121は、乗員の音声データが収集されるまでの間、待機する。次に、通信制御部123は、サーバ装置200に対して音声データを通信部102に送信させる(ステップS102)。次に、通信制御部123は、通信部102にエージェントデータをサーバ装置200から受信させる(ステップS104)。
FIG. 10 is a flow chart showing a series of processes of the
特定部124は、受信したエージェントデータに含まれる車載機器VEに対する指示を特定する(ステップS106)。判定部125は、車載機器VEに対する指示が特定部124によって特定されたか否か(つまり、発話内容に車載機器VEに対する指示が含まれるか否か)を判定する(ステップS108)。判定部125は、特定部124によって車載機器VEに対する指示が特定されなかった場合、処理を終了する。
The
判定部125は、車載機器VEに対する指示が含まれると判定した場合、車載機器VEに対する複数の指示がエージェントデータに含まれるか否かを判定する(ステップS110)。判定部125は、エージェントデータには車載機器VEに対する指示が含まれるが、複数の指示ではない(一つの指示である)と判定した場合、処理をステップS114に進める。判定部125は、車載機器VEに対する複数の指示がエージェントデータに含まれると判定した場合、リスト情報154に基づいてこれらの複数の指示が、同時に実行することが可能であるか否かを判定する(ステップS112)。判定部125は、車載機器VEに対する複数の指示が、同時に実行することが可能であると判定した場合、処理をステップS114に進める。
When determining that an instruction to the vehicle-mounted device VE is included, the
出力制御部127は、特定部124によって特定された車載機器VEに対する一つ、又は複数の指示に応じた情報を同時に情報出力装置に出力させる(ステップS114)。
出力制御部127は、例えば、エージェントデータに含まれる指示に応じて、車載機器VEを制御する。また、出力制御部127は、例えば、エージェントデータに含まれる指示に応じて、音声合成部122によってエージェント音声が生成されると、そのエージェント音声をスピーカ108に出力させる。また、出力制御部127は、エージェントデータに含まれる指示に応じて、指示された画像データを表示部110に表示させる。
The
The
出力制御部127が複数の指示に応じた情報を同時に情報出力装置に出力させるとは、例えば、各指示のエージェントデータに係るエージェント音声を、スピーカ108A~108Cのうち、いずれかのスピーカ108に同時に出力させたり、各指示のエージェントデータに係る画像を、表示部110A~110Cのうち、いずれかの表示部110に表示させたりすることである。なお、出力制御部127は、各指示のエージェントデータに係るエージェント音声を、優先度に関わらず、スピーカ108A~108Cのうち、いずれか(例えば、一つ)のスピーカ108に順次出力させたり、各指示のエージェントデータに係る画像を、優先度に関わらず、表示部110A~110Cのうち、いずれか(例えば、一つ)の表示部110に順次表示させたりするものであってもよい。
The fact that the
優先度付加部126は、判定部125によって車載機器VEに対する複数の指示が、同時に実行することが不可能であると判定された場合、複数の指示のそれぞれに対して優先度を付加する(ステップS116)。優先度付加部126は、例えば、複数の指示のそれぞれに、表示部110に表示されている内容との関連性に基づいて優先度を付加してもよく、発話SPの順序に基づいて優先度を付加してもよく、指示を示す語句を接続する接続詞に基づいて優先度を付加してもよく、指示の順序を示す語句に基づいて優先度を付加してもよく、指示のタイミングを示す語句に基づいて優先度を付加してもよい。
When the
出力制御部127は、特定部124によって特定された車載機器VEに対す複数の指示に応じた情報を、優先度が高い指示に応じた情報から順に情報出力装置に出力させる(ステップS118)。
The
図11は、実施形態に係るサーバ装置200の一例の処理の流れを示すフローチャートである。まず、通信部202は、エージェント装置100から音声データを取得する(ステップS200)。次に、発話区間抽出部212は、音声データに含まれる発話区間を抽出する(ステップS202)。次に、音声認識部213は、抽出された発話区間における音声データから、発話内容を認識する。具体的には、音声認識部213は、音声データをテキストデータにして、最終的にはテキストデータに含まれる文言を認識する(ステップS204)。エージェントデータ生成部214は、発話内容全体の意味に基づくエージェントデータを生成する(ステップS206)。次に、通信制御部215は、通信部202を介して、エージェントデータをエージェント装置100に送信する(ステップS208)。
FIG. 11 is a flow chart showing an example of the processing flow of the
[実施形態のまとめ]
以上説明したように、本実施形態のエージェントシステム1は、利用者(この一例では、乗員)が発話した音声を示す音声データを取得する取得部121と、取得部121により取得された音声データに基づいて、乗員の発話内容を認識する音声認識部213と、発話内容に含まれる指示を特定する特定部124と、特定部124によって特定された指示に応答する情報を、表示部110を含む情報出力装置に出力させる出力制御部127と、特定部124によって複数の指示が特定された場合、特定された複数の指示が同時に実行することが可能であるか否かを判定する判定部125と、判定部125により複数の指示が同時に実行することが不可能であると判定された場合、発話内容に含まれる複数の指示に対して、表示部110により表示されている内容との関連性に基づいて優先度を付加する優先度付加部126と、を備え、出力制御部127は、特定部124により複数の指示が特定された場合、優先度付加部126に付加された優先度の高い指示から順に、指示に応じた情報を情報出力装置に出力させる。これにより、本実施形態のエージェントシステム1は、発話によってされた複数の指示を車両Mの乗員にとって適切な順序によって実行することができる。
[Summary of embodiment]
As described above, the
<変形例>
上述した実施形態では、車両Mに搭載されたエージェント装置100と、サーバ装置200とが互いに異なる装置であるものとして説明したがこれに限定されるものではない。例えば、エージェント機能に係るサーバ装置200の構成要素は、エージェント装置100の構成要素に含まれてもよい。この場合、サーバ装置200は、エージェント装置100の制御部120によって仮想的に実現される仮想マシンとして機能させてもよい。以下、サーバ装置200の構成要素を含むエージェント装置100Aを変形例として説明する。なお、変形例において、上述した実施形態と同様の構成要素については、同様の符号を付するものとし、ここでの具体的な説明は省略する。
<Modification>
In the above-described embodiment, the
図12は、変形例に係るエージェント装置100Aの一例を示す図である。エージェント装置100Aは、例えば、通信部102と、マイク106と、スピーカ108と、表示部110と、制御部120aと、記憶部150aとを備える。制御部120aは、例えば、取得部121と、音声合成部122と、通信制御部123と、特定部124と、判定部125と、優先度付加部126と、出力制御部127と、発話区間抽出部212と、音声認識部213と、エージェントデータ生成部214とを備える。
FIG. 12 is a diagram showing an example of an
また、記憶部150aは、例えば、プロセッサによって参照されるプログラムのほかに、車載機器情報152、リスト情報154、及び回答情報232が含まれる。回答情報232は、サーバ装置200から取得した最新の情報によって更新されてもよい。
Further, the
エージェント装置100Aの処理は、例えば、図10に示すフローチャートのステップS100の処理の後に、図11に示すフローチャートのステップS202~ステップS206の処理を実行し、その後、図10に示すフローチャートのステップS106以降の処理を実行する処理である。
The processing of the
以上説明した変形例のエージェント装置100Aによれば、第1実施形態と同様の効果を奏する他、乗員からの音声を取得するたびに、ネットワークNWを介してサーバ装置200との通信を行う必要がないため、より迅速に発話内容を認識することができる。また、車両Mがサーバ装置200と通信できない状態であっても、エージェントデータを生成して、乗員に情報を提供することができる。
According to the
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 As described above, the mode for carrying out the present invention has been described using the embodiments, but the present invention is not limited to such embodiments at all, and various modifications and replacements can be made without departing from the scope of the present invention. can be added.
1…エージェントシステム、100、100A…エージェント装置、102、202…通信部、106、106、106A、106B、106C、106D、106E…マイク、108、108A、108B、108C、108D、108E…スピーカ、110、110A、110B、110C…表示部、120、120a、210…制御部、121…取得部、211…取得部、122…音声合成部、123…通信制御部、215…通信制御部、124…特定部、125…判定部、126…優先度付加部、127…出力制御部、150、150a、230…記憶部、152…車載機器情報、154…リスト情報、200…サーバ装置、212…発話区間抽出部、213…音声認識部、214…エージェントデータ生成部、232…回答情報、M…車両、SD1、SD2…エージェント音声、SP、SP1、SP2…発話、VE、VE1、VE2、VE3、VE4…車載機器
Claims (10)
前記取得部により取得された前記データに基づいて、前記利用者の発話内容を認識する音声認識部と、
前記発話内容に含まれる指示を特定する特定部と、
前記特定部により特定された指示に応答する情報を、表示部を含む情報出力装置に出力させる出力制御部と、
前記特定部により複数の前記指示が特定された場合、前記特定された複数の前記指示が同時に実行することが可能であるか否かを判定する判定部と、
前記判定部により複数の前記指示が同時に実行することが不可能であると判定された場合、前記発話内容に含まれる複数の前記指示に対して、前記表示部により表示されている内容との関連性に基づいて優先度を付加する優先度付加部と、を備え、
前記出力制御部は、前記特定部により複数の前記指示が特定された場合、前記優先度付加部に付加された前記優先度の高い前記指示から順に、前記指示に応じた情報を前記情報出力装置に出力させる、
エージェント装置。 an acquisition unit that acquires data indicating a voice uttered by a user;
a speech recognition unit that recognizes utterance content of the user based on the data acquired by the acquisition unit;
an identification unit that identifies an instruction included in the utterance content;
an output control unit that causes an information output device including a display unit to output information responding to the instruction specified by the specifying unit;
a determining unit that, when the specifying unit specifies a plurality of the instructions, determines whether the specified plurality of the instructions can be executed at the same time;
If the determination unit determines that the plurality of instructions cannot be executed at the same time, the relationship between the plurality of instructions included in the utterance content and the content displayed by the display unit a priority adding unit that adds priority based on the nature of the
When the specifying unit specifies a plurality of instructions, the output control unit outputs information corresponding to the instructions to the information output device in order of priority added to the priority adding unit. to output to
agent device.
請求項1に記載のエージェント装置。 The determination unit refers to list information of instructions that cannot be executed simultaneously, and determines whether or not the specified plurality of instructions can be executed simultaneously.
The agent device according to claim 1.
請求項1または2に記載のエージェント装置。 The output control unit causes the information output device to output information in response to the plurality of instructions when the determination unit determines that the plurality of instructions can be executed at the same time.
3. The agent device according to claim 1 or 2.
前記取得部により取得された前記データに基づいて、前記利用者の発話内容を認識する音声認識部と、
前記発話内容に含まれる指示を特定する特定部と、
前記特定部により特定された指示に応答する情報を、表示部を含む情報出力装置に出力させる出力制御部と、
前記発話内容に含まれる複数の前記指示に対して、前記表示部により表示されている内容との関連性に基づいて優先度を付加する優先度付加部と、を備え、
前記出力制御部は、前記特定部により複数の前記指示が特定された場合、前記優先度付加部に付加された前記優先度の高い前記指示から順に、前記指示に応じた情報を前記情報出力装置に出力させる、
エージェント装置。 an acquisition unit that acquires data indicating a voice uttered by a user;
a speech recognition unit that recognizes utterance content of the user based on the data acquired by the acquisition unit;
an identification unit that identifies an instruction included in the utterance content;
an output control unit that causes an information output device including a display unit to output information responding to the instruction specified by the specifying unit;
a priority adding unit that adds priority to the plurality of instructions included in the utterance content based on relevance to the content displayed by the display unit;
When the specifying unit specifies a plurality of instructions, the output control unit outputs information corresponding to the instructions to the information output device in order of priority added to the priority adding unit. to output to
agent device.
請求項1から4のうちいずれか一項に記載のエージェント装置。 If none of the plurality of instructions included in the speech content are related to the content displayed by the display unit, or all of the instructions are related to the content displayed by the display unit If so, adding the priority based on the order in which the multiple instructions were spoken;
An agent device according to any one of claims 1 to 4.
請求項1から5のうちいずれか一項に記載のエージェント装置。 If none of the plurality of instructions included in the speech content are related to the content displayed by the display unit, or all of the instructions are related to the content displayed by the display unit if so, adding said priority based on a conjunction connecting multiple said instructions;
An agent device according to any one of claims 1 to 5.
請求項1から6のうちいずれか一項に記載のエージェント装置。 If none of the plurality of instructions included in the speech content are related to the content displayed by the display unit, or all of the instructions are related to the content displayed by the display unit in the case, adding the priority based on a phrase indicating the order of the instructions included in the utterance content;
Agent device according to any one of claims 1 to 6.
請求項1から7のうちいずれか一項に記載のエージェント装置。 If none of the plurality of instructions included in the speech content are related to the content displayed by the display unit, or all of the instructions are related to the content displayed by the display unit in the case, adding the priority based on a phrase indicating the timing of the instruction included in the utterance content;
Agent device according to any one of claims 1 to 7.
利用者が発話した音声を示すデータを取得し、
取得された前記データに基づいて、前記利用者の発話内容を認識し、
前記発話内容に含まれる指示を特定し、
特定された指示に応答する情報を、表示部を含む情報出力装置に出力させ、
複数の前記指示が特定された場合、前記特定された複数の前記指示が同時に実行することが可能であるか否かを判定し、
複数の前記指示が同時に実行することが不可能であると判定された場合、前記発話内容に含まれる複数の前記指示に対して、前記表示部により表示されている内容との関連性に基づいて優先度を付加し、
複数の前記指示が特定された場合、付加された前記優先度の高い前記指示から順に、前記指示に応じた情報を情報出力装置に出力する、
エージェント方法。 the computer
Acquire data indicating the voice uttered by the user,
recognizing the utterance content of the user based on the acquired data;
identifying an instruction included in the utterance content;
causing an information output device including a display to output information responding to the specified instruction;
if multiple instructions are identified, determining whether the identified instructions can be executed simultaneously;
when it is determined that the plurality of instructions cannot be executed simultaneously, based on the relevance of the plurality of instructions included in the utterance content to the content displayed by the display unit add priority,
when a plurality of the instructions are specified, outputting information corresponding to the instructions to an information output device in order from the added instructions with the highest priority;
agent method.
利用者が発話した音声を示すデータを取得させ、
取得された前記データに基づいて、前記利用者の発話内容を認識させ、
前記発話内容に含まれる指示を特定させ、
特定された指示に応答する情報を、表示部を含む情報出力装置に出力させ、
複数の前記指示が特定された場合、前記特定された複数の前記指示が同時に実行することが可能であるか否かを判定させ、
複数の前記指示が同時に実行することが不可能であると判定された場合、前記発話内容に含まれる複数の前記指示に対して、前記表示部により表示されている内容との関連性に基づいて優先度を付加させ、
複数の前記指示が特定された場合、付加された前記優先度の高い前記指示から順に、前記指示に応じた情報を情報出力装置に出力させる、
プログラム。 to the computer,
Acquire data indicating the voice uttered by the user,
Recognizing the utterance content of the user based on the acquired data,
identify instructions included in the utterance content;
causing an information output device including a display to output information responding to the specified instruction;
if a plurality of said instructions are identified, determining whether said plurality of said identified instructions can be executed simultaneously;
when it is determined that the plurality of instructions cannot be executed at the same time, based on the relevance of the plurality of instructions included in the utterance content to the content displayed by the display unit add priority,
When a plurality of said instructions are specified, causing an information output device to output information corresponding to said instructions in order from said added instructions with higher priority;
program.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019219255A JP7178983B2 (en) | 2019-12-04 | 2019-12-04 | Agent device, agent method and program |
CN202011384683.7A CN112908320B (en) | 2019-12-04 | 2020-12-01 | Agent device, agent method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019219255A JP7178983B2 (en) | 2019-12-04 | 2019-12-04 | Agent device, agent method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021089360A JP2021089360A (en) | 2021-06-10 |
JP7178983B2 true JP7178983B2 (en) | 2022-11-28 |
Family
ID=76111345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019219255A Active JP7178983B2 (en) | 2019-12-04 | 2019-12-04 | Agent device, agent method and program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7178983B2 (en) |
CN (1) | CN112908320B (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117950727A (en) * | 2022-10-31 | 2024-04-30 | 华为技术有限公司 | Multi-instruction execution method, electronic equipment, device and carrier |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008268340A (en) | 2007-04-17 | 2008-11-06 | Honda Motor Co Ltd | Voice recognition device, voice recognition method, and program for voice recognition |
WO2016120904A1 (en) | 2015-01-28 | 2016-08-04 | 三菱電機株式会社 | Intent deduction device and intent deduction method |
JP2018048924A (en) | 2016-09-23 | 2018-03-29 | アルパイン株式会社 | Navigation device |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4259054B2 (en) * | 2002-07-10 | 2009-04-30 | 株式会社エクォス・リサーチ | In-vehicle device |
US9361084B1 (en) * | 2013-11-14 | 2016-06-07 | Google Inc. | Methods and systems for installing and executing applications |
JP6483680B2 (en) * | 2014-06-30 | 2019-03-13 | クラリオン株式会社 | Information processing system and in-vehicle device |
US10503468B2 (en) * | 2017-12-08 | 2019-12-10 | Amazon Technologies, Inc. | Voice enabling applications |
-
2019
- 2019-12-04 JP JP2019219255A patent/JP7178983B2/en active Active
-
2020
- 2020-12-01 CN CN202011384683.7A patent/CN112908320B/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008268340A (en) | 2007-04-17 | 2008-11-06 | Honda Motor Co Ltd | Voice recognition device, voice recognition method, and program for voice recognition |
WO2016120904A1 (en) | 2015-01-28 | 2016-08-04 | 三菱電機株式会社 | Intent deduction device and intent deduction method |
JP2018048924A (en) | 2016-09-23 | 2018-03-29 | アルパイン株式会社 | Navigation device |
Also Published As
Publication number | Publication date |
---|---|
CN112908320A (en) | 2021-06-04 |
CN112908320B (en) | 2023-08-25 |
JP2021089360A (en) | 2021-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10242663B2 (en) | Voice control system with dialect recognition | |
EP3172729B1 (en) | Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection | |
US11508368B2 (en) | Agent system, and, information processing method | |
JP7133029B2 (en) | Agent device, agent control method, and program | |
WO2015059764A1 (en) | Server for navigation, navigation system, and navigation method | |
US9437191B1 (en) | Voice control system with dialect recognition | |
CN111007968A (en) | Agent device, agent presentation method, and storage medium | |
JP7178983B2 (en) | Agent device, agent method and program | |
JP7261626B2 (en) | VEHICLE EQUIPMENT CONTROL SYSTEM, VEHICLE EQUIPMENT CONTROL DEVICE, VEHICLE EQUIPMENT CONTROL METHOD, AND PROGRAM | |
US20200320997A1 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
JP2020144285A (en) | Agent system, information processing device, control method for mobile body mounted apparatus, and program | |
US11518398B2 (en) | Agent system, agent server, method of controlling agent server, and storage medium | |
JP2020060861A (en) | Agent system, agent method, and program | |
JP7239359B2 (en) | AGENT DEVICE, CONTROL METHOD OF AGENT DEVICE, AND PROGRAM | |
JP7288781B2 (en) | INFORMATION PROVIDING DEVICE, INFORMATION PROVIDING METHOD AND PROGRAM | |
JP7266418B2 (en) | AGENT DEVICE, CONTROL METHOD OF AGENT DEVICE, AND PROGRAM | |
JP7254689B2 (en) | Agent system, agent method and program | |
US11437035B2 (en) | Agent device, method for controlling agent device, and storage medium | |
CN110843790A (en) | Method, device and equipment for cooperative control of hardware in vehicle | |
JP2020142721A (en) | Agent system, on-vehicle equipment control method, and program | |
JP2020060623A (en) | Agent system, agent method, and program | |
JP7217209B2 (en) | VOICE DIALOGUE DEVICE, VOICE DIALOGUE METHOD, AND PROGRAM | |
JP7274376B2 (en) | AGENT DEVICE, CONTROL METHOD OF AGENT DEVICE, AND PROGRAM | |
JP2020079865A (en) | Information processing device, agent system, information processing method, and program | |
JP2020166075A (en) | Voice interface system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221025 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7178983 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |