JP2002269530A - Robot, behavior control method of the robot, program and storage medium - Google Patents
Robot, behavior control method of the robot, program and storage mediumInfo
- Publication number
- JP2002269530A JP2002269530A JP2001071053A JP2001071053A JP2002269530A JP 2002269530 A JP2002269530 A JP 2002269530A JP 2001071053 A JP2001071053 A JP 2001071053A JP 2001071053 A JP2001071053 A JP 2001071053A JP 2002269530 A JP2002269530 A JP 2002269530A
- Authority
- JP
- Japan
- Prior art keywords
- action
- behavior
- input signal
- learning
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 18
- 230000006399 behavior Effects 0.000 claims abstract description 109
- 238000011156 evaluation Methods 0.000 claims abstract description 71
- 238000001514 detection method Methods 0.000 claims abstract description 30
- 230000009471 action Effects 0.000 claims description 145
- 230000000875 corresponding effect Effects 0.000 description 31
- 230000008451 emotion Effects 0.000 description 31
- 238000012545 processing Methods 0.000 description 25
- 230000007704 transition Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 230000001276 controlling effect Effects 0.000 description 11
- 210000002569 neuron Anatomy 0.000 description 9
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000036528 appetite Effects 0.000 description 1
- 235000019789 appetite Nutrition 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- Manipulator (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、自律的に行動する
ロボット装置及びそのようなロボット装置の行動制御方
法、そのようなロボット装置の行動を制御するためのプ
ログラム、及びそのようなプログラムが記録された記録
媒体に関する。The present invention relates to a robot apparatus that behaves autonomously, a method for controlling the action of such a robot apparatus, a program for controlling the action of such a robot apparatus, and a program for recording such a program. The recorded recording medium.
【0002】[0002]
【従来の技術】自律型のエンターテイメントロボット装
置は、予め持っているデータ(具体的には、行動パター
ンデータ)を、感情や本能の内的状態に応じて自動的に
再生することにより、多様な行動を出現させている。2. Description of the Related Art An autonomous entertainment robot apparatus automatically reproduces data (specifically, action pattern data) stored in advance in accordance with emotions and internal states of instinct, thereby realizing various entertainment robot apparatuses. The action is appearing.
【0003】一方で、予め決定されている行動パターン
データを再生するのではなく、周囲の環境や状況に応じ
た行動をするロボット装置も提案されている。すなわ
ち、行動パターンデータを保持し、その行動パターンデ
ータを利用して行動をするのではなく、外部環境等に応
じてその場限りの行動を出現させるロボット装置といっ
たものがある。On the other hand, there has been proposed a robot apparatus which does not reproduce predetermined action pattern data but performs an action in accordance with the surrounding environment or situation. That is, there is a robot device that holds action pattern data and does not act using the action pattern data, but causes an ad-hoc action to appear according to an external environment or the like.
【0004】具体的には、特開2000-122992号公報に
は、報酬(reward、リワード)を行動意欲の基準とする
ことで、外部環境等に応じて行動範囲を選ぶように自律
的に行動するロボット装置の技術が提案されている。[0004] Specifically, Japanese Patent Application Laid-Open No. 2000-122992 discloses that by using a reward as a criterion for action motivation, an autonomous action such as selecting an action range according to an external environment or the like is disclosed. There has been proposed a technology of a robot device that performs the following.
【0005】また、特開平11-126198号公報には、リカ
レント型ニューラルネットワーク(以下、RNNとい
う。)を用いて行動の学習を行う技術が提案されてい
る。この技術では、RNNを利用した行動の学習によ
り、一連の行動を分節化して獲得することが可能とされ
ており、更に一連の分節化された行動のシーケンスを分
節化したような上位の構造、さらにそのまた上位の構造
を階層的に獲得することが可能とされている。この技術
によれば、ロボット装置は、個々の学習状況に応じて、
例えば、「出口に向かい直進する」、「部屋から出
る」、「廊下を右に曲がる」或いは「廊下を直進する」
等の種々の動作を分節化し、それらの動作を組み合わせ
て行動するようになされている。Japanese Patent Application Laid-Open No. H11-126198 proposes a technique for learning behavior using a recurrent neural network (hereinafter, referred to as RNN). In this technology, a series of actions can be segmented and acquired by learning actions using an RNN, and a higher-level structure such as a segmented sequence of a series of segmented actions, In addition, it is possible to hierarchically acquire a higher-order structure. According to this technology, the robot device is adapted to each learning situation,
For example, "go straight to the exit", "get out of the room", "turn right in the corridor" or "go straight in the corridor"
And the like are segmented, and these actions are combined to act.
【0006】このように分節化して行動を学習すること
が可能とされたロボット装置は、使用者に応じて様々な
行動を学習により獲得することができるようになる。す
なわち、ロボット装置が学習する動作は、学習環境が異
なるので、動作環境に応じて様々な動作を獲得すること
ができるのである。つまり、使用者(例えば、飼い主)
によりロボット装置に教示する環境が異なるので、その
ような環境に応じて、ロボット装置は、様々な動作を獲
得することができる。[0006] The robot apparatus capable of learning the behavior by segmentation as described above can acquire various behaviors by learning according to the user. That is, since the learning operation of the robot apparatus has a different learning environment, various operations can be obtained according to the operating environment. That is, the user (eg, owner)
Therefore, the environment in which the robot apparatus is taught is different, and the robot apparatus can acquire various operations according to such an environment.
【0007】このようなロボット装置は、上述のように
行動パターンデータを再生することでしか行動できない
ロボット装置と比較して、自己の環境に則した行動を行
うようになるので、使用者から見て、さらに自然に自律
的な行動をするものとして鑑賞することができる。[0007] Such a robot device behaves in accordance with its own environment as compared with a robot device that can only act by reproducing the behavior pattern data as described above. Therefore, it can be appreciated as a more autonomous behavior.
【0008】[0008]
【発明が解決しようとする課題】ところで、ロボット装
置が、好ましくない行動を学習してしまう場合がある。
例えば、「花瓶にぶつかる」や「窓から出る」等の行動
は好ましくない行動である。このような好ましくない行
動については、抑制する必要がある。しかしその一方
で、ロボット装置が好ましい行動を学習した場合には、
その行動を再び行うようにしたいものでもある。However, there is a case where the robot device learns an undesired action.
For example, actions such as "colliding with a vase" and "going out of a window" are undesirable actions. It is necessary to suppress such undesirable behavior. However, on the other hand, if the robot device learns a favorable behavior,
We also want to do that again.
【0009】そこで、本発明は、上述の実情に鑑みてな
されたものであり、学習した行動の出現確率を制御する
ことを可能とするロボット装置、ロボット装置の行動制
御方法、プログラム及び記録媒体の提供を目的とする。SUMMARY OF THE INVENTION The present invention has been made in view of the above-described circumstances, and has been made in consideration of the above-mentioned circumstances, and is intended to provide a robot apparatus capable of controlling the appearance probability of a learned action, a robot apparatus action control method, a program, and a recording medium. For the purpose of providing.
【0010】[0010]
【課題を解決するための手段】本発明に係るロボット装
置は、上述の課題を解決するために、外部からの外部入
力信号を検出する入力信号検出手段と、入力信号検出手
段により検出された外部入力信号を評価する評価手段
と、評価手段による評価結果を行動内容情報に対応付け
する対応付け手段と、対応付け手段により対応付けされ
た評価に基づいて、行動内容情報に基づいて行動の制御
を行う行動制御手段とを備える。In order to solve the above-mentioned problems, a robot apparatus according to the present invention has an input signal detecting means for detecting an external input signal, and an external signal detected by the input signal detecting means. Evaluating means for evaluating the input signal; associating means for associating the evaluation result by the evaluating means with the action content information; and controlling the action based on the action content information based on the evaluation associated by the associating means. Action control means for performing the action.
【0011】このような構成を備えるロボット装置は、
入力信号検出手段により検出された外部入力信号を評価
手段により評価し、評価手段による評価結果を行動内容
情報に対応付け手段による対応付けをし、対応付け手段
により対応付けされた評価に基づいて、行動内容情報に
基づいて行動制御手段により行動の制御をする。これに
より、ロボット装置は、学習した行動を評価して、その
評価に基づいて行動を出現させるようになる。[0011] The robot device having such a configuration is as follows.
The external input signal detected by the input signal detection unit is evaluated by the evaluation unit, the evaluation result by the evaluation unit is associated with the action content information by the association unit, and based on the evaluation associated by the association unit, The action is controlled by the action control means based on the action content information. Thereby, the robot device evaluates the learned behavior and causes the behavior to appear based on the evaluation.
【0012】また、本発明に係るロボット装置の行動制
御方法は、上述の課題を解決するために、外部からの外
部入力信号をロボット装置が検出する入力信号検出工程
と、入力信号検出工程にて検出された外部入力信号をロ
ボット装置が評価する評価工程と、ロボット装置にて評
価工程にて得た評価結果を行動内容情報に対応付けする
対応付け工程と、対応付け工程にて対応付けされた評価
に基づいて、行動内容情報に基づいてロボット装置が行
動の制御を行う行動制御工程とを有する。このようなロ
ボット装置の行動制御方法により、ロボット装置は、学
習した行動を評価して、その評価に基づいて行動を出現
させるようになる。Further, in order to solve the above-mentioned problems, a behavior control method for a robot apparatus according to the present invention includes an input signal detection step in which the robot apparatus detects an external input signal from outside, and an input signal detection step. An evaluation step in which the robot apparatus evaluates the detected external input signal, an associating step in which the evaluation result obtained in the evaluation step in the robot apparatus is associated with the action content information, and an associating step. A behavior control step in which the robot device controls the behavior based on the behavior content information based on the evaluation. According to such a behavior control method for a robot device, the robot device evaluates the learned behavior and causes the behavior to appear based on the evaluation.
【0013】また、本発明に係るプログラムは、上述の
課題を解決するために、外部からの外部入力信号を検出
する入力信号検出工程と、入力信号検出工程にて検出さ
れた外部入力信号を評価する評価工程と、評価工程にて
得た評価結果を行動内容情報に対応付けする対応付け工
程と、対応付け工程にて対応付けされた評価に基づい
て、行動内容情報に基づいて行動の制御を行う行動制御
工程とをロボット装置に実行させるものである。このよ
うなプログラムにより行動の制御が実行されるロボット
装置は、学習した行動を評価して、その評価に基づいて
行動を出現させるようになる。In order to solve the above-mentioned problems, a program according to the present invention includes an input signal detecting step of detecting an external input signal, and an external input signal detected in the input signal detecting step. An evaluation step to perform, an associating step of associating the evaluation result obtained in the evaluating step with the action content information, and controlling the action based on the action content information based on the evaluation associated in the associating step. And a behavior control step to be performed by the robot apparatus. The robot device in which the control of the action is executed by such a program evaluates the learned action and causes the action to appear based on the evaluation.
【0014】また、本発明に係る記録媒体は、上述の課
題を解決するために、外部からの外部入力信号を検出す
る入力信号検出工程と、入力信号検出工程にて検出され
た外部入力信号を評価する評価工程と、評価工程にて得
た評価結果を行動内容情報に対応付けする対応付け工程
と、対応付け工程にて対応付けされた評価に基づいて、
行動内容情報に基づいて行動の制御を行う行動制御工程
とをロボット装置に実行させるプログラムが記録されて
いる。このような記録媒体に記録されているプログラム
により行動の制御が実行されるロボット装置は、学習し
た行動を評価して、その評価に基づいて行動を出現させ
るようになる。According to another aspect of the present invention, there is provided a recording medium comprising: an input signal detecting step for detecting an external input signal from the outside; and an external input signal detected in the input signal detecting step. Based on the evaluation step to evaluate, the associating step of associating the evaluation result obtained in the evaluating step with the action content information,
A program for causing the robot apparatus to execute a behavior control step of controlling behavior based on behavior content information is recorded. The robot device in which the control of the behavior is executed by the program recorded in such a recording medium evaluates the learned behavior, and causes the behavior to appear based on the evaluation.
【0015】[0015]
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を用いて説明する。この実施の形態は、本発明
を、自律的に行動するロボット装置に適用したものであ
る。Embodiments of the present invention will be described below with reference to the drawings. In this embodiment, the present invention is applied to a robot device that acts autonomously.
【0016】本発明が適用されるロボット装置は、周囲
の環境や内部の状態に応じて自律的に行動をする自律型
のロボット装置である。そして、ロボット装置は、本発
明が適用されることにより、新たな行動を学習するとと
もに、学習した行動にその評価とされる例えば重み付け
をし、さらにその重みに基づいて行動するようになされ
ている。The robot device to which the present invention is applied is an autonomous robot device that behaves autonomously according to the surrounding environment and internal state. By applying the present invention, the robot device learns a new behavior, weights the learned behavior, for example, as an evaluation thereof, and acts based on the weight. .
【0017】実施の形態の説明では、本発明の適用され
て実現されるロボット装置による行動の学習について先
ず説明して、その後、ロボット装置の具体的な構成につ
いて説明する。In the description of the embodiment, learning of behavior by a robot device realized by applying the present invention will be described first, and then a specific configuration of the robot device will be described.
【0018】(1)行動の学習及び学習した行動の重み
付け ロボット装置は、図1に示すように、学習部1、検出部
2、評価部3及び対応付け部4を備えることにより本発
明を実現している。ここで、学習部1は、新たな行動の
学習をする学習手段として機能し、検出部2は、外部か
らの外部入力信号を検出する入力信号検出手段として機
能し、評価部3は、検出部2により検出された外部入力
信号を評価する評価手段として機能し、そして、対応付
け部4は、学習部1により学習した行動に対して、評価
部3による評価とされる重み付けをする対応付け手段と
して機能する。例えば、学習部1、検出部2、評価部3
及び対応付け部4は、ロボット装置において、ソフトウ
ェアプログラムによって構成されるオブジェクトやモジ
ュールとして構成されている。(1) Learning of Behavior and Weighting of Learned Behavior As shown in FIG. 1, the robot apparatus implements the present invention by including a learning unit 1, a detection unit 2, an evaluation unit 3, and a correspondence unit 4. are doing. Here, the learning unit 1 functions as a learning unit that learns a new action, the detection unit 2 functions as an input signal detection unit that detects an external input signal from outside, and the evaluation unit 3 includes a detection unit. 2. The associating unit 4 functions as an evaluation unit that evaluates the external input signal detected by the learning unit 2. The associating unit 4 weights the behavior learned by the learning unit 1 to be evaluated by the evaluating unit 3. Function as For example, learning unit 1, detection unit 2, evaluation unit 3
The associating unit 4 is configured as an object or module configured by a software program in the robot device.
【0019】学習部1は、例えば、リカレント型ニュー
ラルネットワーク(以下、RNNという。)といった学
習モデルによって構成されている。ここで、RNNは、
学習対象とされる行動の情報が、入力層、中間層及び出
力層に向かって入力されるニューラルネットワークとさ
れている。このRNNにおける行動学習の際の処理につ
いては後で詳しく説明する。The learning unit 1 is configured by a learning model such as a recurrent neural network (hereinafter, RNN). Here, RNN is
The information of the action to be learned is a neural network that is input toward the input layer, the intermediate layer, and the output layer. The processing at the time of action learning in the RNN will be described later in detail.
【0020】学習部1は、入力がなされることにより、
対応する出力をし、入力を学習対象として学習する。そ
して、入力は、時系列データとしてなされるものであ
る。例えば、行動を学習する際の入力としては、ロボッ
ト装置が行動することによって得られるセンサ入力やモ
ータ出力等が挙げられ、具体的には、センサ入力として
は撮像信号が挙げられる。また、学習部1に学習対象と
して入力される情報についてはこれに限定されるものは
なく、例えば行動に対応して内部的に生成される行動情
報であってもよい。The learning unit 1 receives the input,
Output the corresponding output and learn with the input as the learning target. The input is made as time-series data. For example, examples of the input when learning an action include a sensor input and a motor output obtained by the action of the robot apparatus. Specifically, the sensor input includes an image signal. The information input as a learning target to the learning unit 1 is not limited to this, and may be, for example, behavior information generated internally corresponding to a behavior.
【0021】このような学習部1は、学習対象とされる
入力に対して、出力をするようになされている。ここ
で、学習部1の出力は、行動の内容を示す行動内容情報
であり、いわゆる教示信号として把握されるものであ
る。この出力は、学習後では、同一の行動を出現してい
る限りにおいて、同様な値を示すようになる。The learning section 1 outputs an input to be learned. Here, the output of the learning unit 1 is action content information indicating the content of the action, and is grasped as a so-called teaching signal. This output shows the same value after learning as long as the same action appears.
【0022】一方、検出部2は、外部入力信号を検出す
る。例えば、検出部2は、センサである。具体的には、
後述するように、ロボット装置の頭頂部に配置されるタ
ッチセンサである。ロボット装置は、タッチセンサによ
り、使用者との間のインターフェースとして、使用者に
より「撫でられたこと」や「叩かれたこと」を検出して
いる。On the other hand, the detector 2 detects an external input signal. For example, the detection unit 2 is a sensor. In particular,
As will be described later, it is a touch sensor arranged at the top of the robot device. The robot device detects “stroke” or “hit” by the user as an interface with the user by using the touch sensor.
【0023】評価部3は、検出部2により検出された信
号に基づいて評価を行う。すなわち例えば、「撫でられ
たこと」や「褒められたこと」等の使用者によりなされ
た行為を検出して、評価値としての重みを発生させる。
また、評価部3による評価については、例えば、評価対
象とされる信号パターンを予め用意しておき、検出部2
によって検出された信号パターンと予め用意している信
号パターンとを比較することにより、使用者によりなさ
れた行為の評価を行う。The evaluation unit 3 performs an evaluation based on the signal detected by the detection unit 2. That is, for example, an action performed by the user such as “stroke” or “praise” is detected, and a weight as an evaluation value is generated.
For the evaluation by the evaluation unit 3, for example, a signal pattern to be evaluated is prepared in advance and the detection unit 2
By comparing the detected signal pattern with a previously prepared signal pattern, the action performed by the user is evaluated.
【0024】また、上述の検出部2については、タッチ
センサに限定されるものではなく、使用者によりなされ
た行為を評価できるものであれば良い。例えば、検出部
2はマイクであっても良い。この場合、評価部3は、マ
イクにより入力された使用者の声から、例えば、声のト
ーンから、使用者によりなされた評価を判別することも
できる。すなわち例えば、評価部3は、「ダメ」や「よ
し」等といって、使用者が発した音声を識別して、評価
する。The detection section 2 is not limited to a touch sensor, but may be any as long as it can evaluate an action performed by a user. For example, the detection unit 2 may be a microphone. In this case, the evaluation unit 3 can also determine the evaluation made by the user from the voice of the user input by the microphone, for example, from the tone of the voice. That is, for example, the evaluation unit 3 identifies and evaluates a voice uttered by the user, such as “no good” or “good”.
【0025】このような評価部3により得た重みを、対
応付け部4は、学習部1からの出力に対応付けする。対
応付け部4は、例えば、記憶手段であって、学習部1か
らの出力と重みとを対して記憶することにより、対応付
けを実現している。The association unit 4 associates the weight obtained by the evaluation unit 3 with the output from the learning unit 1. The association unit 4 is, for example, a storage unit, and implements association by storing the output from the learning unit 1 and the weight in association with each other.
【0026】また、対応付けについては、検出部2によ
り検出された外部入力信号と同時に或いは前後して学習
分1により学習された行動(出力)に対応付けするよう
にする。これは、ペット等の場合には通常、使用者は、
教示する行動と同時に、或いは前後して、評価とされる
「撫でる」、「叩く」等をするからであり、このような
行為に対応するものである。しかし、このような対応付
けのタイミングに限定されないことはいうまでもない。The association is made with the action (output) learned by the learning unit 1 simultaneously with or before or after the external input signal detected by the detection unit 2. This is usually the case for pets, etc.
This is because "stroke", "hit", or the like, which is evaluated simultaneously with or before or after the action to be taught, corresponds to such an action. However, it is needless to say that the timing of such association is not limited.
【0027】ロボット装置は、以上のような図1に示し
た構成を備えることにより、新たな行動を学習すること
ができるようになり、さらに、学習した行動に重み付け
をすることができるようになる。これにより、ロボット
装置は、重み付けに応じて、学習した行動の制御をする
ことができるようになる。具体的には、ある行動を学習
した際に頭を撫でることにより、その行動を好ましい行
動として教示でき、その結果、ロボット装置は、頻繁に
その行動を出現させるようになり、一方、ある行動を学
習した際に頭を叩くことにより、その行動を好ましくな
い行動として教示でき、その結果、ロボット装置がその
行動をほとんど出現しなくなるようにすることもでき
る。すなわち、ロボット装置の行動に対して使用者(飼
い主)による「しつけ」をすることができるようにな
る。The robot apparatus having the configuration shown in FIG. 1 as described above can learn a new action, and can weight the learned action. . Thereby, the robot device can control the learned behavior according to the weighting. Specifically, by stroking the head when learning a certain action, the action can be taught as a preferable action, and as a result, the robot apparatus comes to appear the action frequently, while By hitting the head when learning, the behavior can be taught as an unfavorable behavior, and as a result, the robot device can hardly appear the behavior. That is, the user (owner) can “train” the behavior of the robot device.
【0028】このような行動の制御については、具体的
には、ロボット装置の行動を制御する図示しない行動制
御部が、重み付けを参照して、行動の出現確率を決定す
ることにより実現することができる。例えば、重みが大
きい場合には、行動の出現確率を高くして、重みが小さ
い場合には、行動の出現確率を低くするようにする。More specifically, such behavior control can be realized by a behavior control unit (not shown) for controlling the behavior of the robot apparatus, which determines the appearance probability of the behavior by referring to the weights. it can. For example, when the weight is large, the probability of appearance of the action is increased, and when the weight is small, the probability of appearance of the action is reduced.
【0029】なお、このような行動に対する重み付けに
ついては、完結される行動全体に対して行うこともで
き、また、一連の動作として完結される行動の当該各動
作それぞれについてすることもできる。後者の例は、後
で詳述する具体例となる。The weighting of such an action can be performed for the entire action to be completed, or for each of the actions to be completed as a series of actions. The latter example is a specific example described in detail later.
【0030】以上のように、ロボット装置は、行動を学
習し、その行動の出現確率を決定することにより、ペッ
トに対してなされるような「しつけ」がなされ、より生
物的な表現が実現されたものとなる。As described above, the robot device learns the behavior and determines the appearance probability of the behavior, so that "discipline" is performed on the pet, and a more biological expression is realized. It will be.
【0031】(2)行動を学習するための具体的な構成 以上のように、重み付けをして行動を学習することがで
きる。行動を学習する技術としては、例えば、特開平11
-126198号公報に開示されている技術が挙げられる。本
発明が適用されたロボット装置は、例えば、この技術を
採用して行動を学習している。ここでは、その行動を学
習する技術の概略について説明する。(2) Specific Configuration for Learning Behavior As described above, behavior can be learned with weighting. Techniques for learning behavior include, for example,
-126198. The robot device to which the present invention is applied learns an action, for example, by adopting this technology. Here, an outline of a technique for learning the behavior will be described.
【0032】図2は、データ処理部の構成例を示してい
る。この図2に示す構成は、図1に示す学習部1の具体
的な構成になる。ロボット装置は、後で詳述するよう
に、障害物を検出するセンサと、ロボットを移動させる
ために駆動されるモータが備えており、それらの情報
が、このデータ処理部に学習対象として入力される。FIG. 2 shows a configuration example of the data processing unit. The configuration shown in FIG. 2 is a specific configuration of the learning unit 1 shown in FIG. As will be described in detail later, the robot device includes a sensor that detects an obstacle and a motor that is driven to move the robot.The information is input to the data processing unit as a learning target. You.
【0033】n個のRNN1−1〜1−nには、センサ
とモータの状態に対応する入力xtが入力されている。
RNN1−1は、図3に示すように構成されている。な
お、図示は省略するが、他のRNN1−2〜1−nも、
この図3に示すRNN1−1と同様に構成されている。[0033] n-number of RNN1-1~1-n are input x t corresponding to the state of the sensor and the motor is input.
The RNN 1-1 is configured as shown in FIG. Although not shown, the other RNNs 1-2 to 1-n also
The configuration is the same as that of the RNN 1-1 shown in FIG.
【0034】この図3に示すように、RNN1−1は、
所定の数の入力層のニューロン31を有し、このニュー
ロン31に、センサの状態に対応する入力stと、モー
タの状態に対応する入力mtが入力されている。ニュー
ロン31の出力は、中間層のニューロン32を介して、
出力層のニューロン33に供給されるようになされてい
る。そして、出力層のニューロン33からは、RNN1
−1のセンサの状態に対応する出力st+1と、モータ
の状態に対応する出力mt+1が出力されるようになさ
れている。また、出力の一部は、コンテキスト(contex
t)Ctとして、入力層のニューロン31にフィードバ
ックされるようになされている。As shown in FIG. 3, RNN 1-1 is
Has a neuronal 31 of a predetermined number of the input layer, the neuron 31, an input s t corresponding to the state of the sensor, the input m t corresponding to the state of the motor is input. The output of the neuron 31 is output through the neuron 32 in the hidden layer.
The signal is supplied to the neuron 33 in the output layer. From the neuron 33 in the output layer, RNN1
An output st + 1 corresponding to the state of the sensor of −1 and an output mt + 1 corresponding to the state of the motor are output. Also, part of the output is context (contex
As t) C t, it is adapted to be fed back to the neuron 31 in the input layer.
【0035】RNN1−1〜1−nの出力は、対応する
ゲート2−1〜2−nを介して合成回路3に入力され、
ここで合成され、予測出力yt+1が出力されるように
なされている。Outputs of the RNNs 1-1 to 1-n are input to the synthesizing circuit 3 via the corresponding gates 2-1 to 2-n.
Here, they are synthesized and the predicted output yt + 1 is output.
【0036】学習時においては、教師信号としての目標
値y* t+1と、各RNN1−1〜1−nの出力の誤
差が、対応するゲート2−1〜2−nの状態を制御する
ようになされている。At the time of learning, the error between the target value y * t + 1 as the teacher signal and the output of each of the RNNs 1-1 to 1 -n controls the state of the corresponding gate 2-1 to 2-n. It has been done.
【0037】以上の下位のRNN1−1〜1−n、ゲー
ト2−1〜2−n、及び合成回路3と同様の構成が、よ
り上位の階層にも形成されている。すなわち、上位の階
層には、RNN11−1〜11−n、ゲート12−1〜
12−n、及び合成回路13が設けられている。そし
て、RNN11−1〜11−nには、下位の階層のゲー
ト2−1〜2−nの導通状態(開閉度)に対応するシー
ケンス(ゲートシーケンス)Gtが入力されるようにな
されている。そして、各RNN11−1〜11−nから
は、出力G1 T+1乃至Gn T+1が出力され、合成
回路13からは、予測出力GT+1が出力されるように
なされている。また、学習時においては、教師信号とし
て、目標値G* T+1が入力されている。なお、図2
には、2つの階層だけが示されているが、必要に応じ
て、さらに、より上位の階層を設けることも可能であ
る。The same configuration as the above-described lower RNNs 1-1 to 1-n, gates 2-1 to 2-n, and synthesizing circuit 3 is also formed in a higher hierarchy. That is, RNNs 11-1 to 11-n and gates 12-1 to 12-1 are located at higher levels.
12-n and a combining circuit 13 are provided. Then, the RNN11-1~11-n, are adapted sequence corresponding to the conduction state of the gate 2-1 to 2-n of the lower layer (closed degree) (gating sequence) G t is input . Then, outputs G 1 T + 1 to G n T + 1 are output from the RNNs 11-1 to 11 -n, and a prediction output G T + 1 is output from the combining circuit 13. At the time of learning, a target value G * T + 1 is input as a teacher signal. Note that FIG.
Shows only two hierarchies, but higher hierarchies can be provided if necessary.
【0038】図4は、上位の階層を構成する第1のRN
N11−1の構成を示している。なお、他のRNN11
−2〜11−nも、この図4に示すRNN11−1と同
様の構成とされている。FIG. 4 is a diagram showing a first RN constituting a higher hierarchy.
The configuration of N11-1 is shown. Note that other RNNs 11
-2 to 11-n have the same configuration as the RNN 11-1 shown in FIG.
【0039】図4に示すように、上位の階層のRNN1
1−1は、基本的に、図3に示した下位の階層のRNN
1−1と同様に構成されており、入力層には複数のニュ
ーロン41が、中間層には複数のニューロン42が、そ
して出力層には複数のニューロン43が配置されてい
る。入力層には、ゲート2−1〜2−nの導通状態に対
応する信号g1 T乃至gn Tが入力されるとともに、
ゲートの導通(開放)している周期(時間)ITが入力
される。出力層からは、これらの入力に対応して、出力
g1 T+1乃至gn T+1と、IT+1が出力され
る。また、出力層の出力の一部は、コンテキストCTと
して入力層にフィードバックされている。As shown in FIG. 4, the upper layer RNN1
1-1 is basically the RNN of the lower hierarchy shown in FIG.
1-1, a plurality of neurons 41 are arranged in an input layer, a plurality of neurons 42 are arranged in an intermediate layer, and a plurality of neurons 43 are arranged in an output layer. Signals g 1 T to g n T corresponding to the conduction states of the gates 2-1 to 2-n are input to the input layer,
Period that the gate conduction (opening) (Time) I T is input. From the output layer, outputs g 1 T + 1 to g n T + 1 and IT + 1 are output corresponding to these inputs. Also, part of the output of the output layer is fed back to the input layer as a context C T.
【0040】ここで、RNN1−1〜1−nのアルゴリ
ズムについて説明する。ゲートの導通状態は、ソフトマ
ックス(soft-max)のアクティベーションファンクショ
ンを用いて、(1)式で示すように表される。Here, the algorithm of the RNNs 1-1 to 1-n will be described. The conduction state of the gate is expressed as shown in equation (1) using a soft-max activation function.
【0041】[0041]
【数1】 (Equation 1)
【0042】ここで、giは、i番目のゲートの導通状
態に対応するゲート係数を表し、s iは、i番目のゲー
トの導通状態の内部状態に対応する値を表している。従
って、合成回路3の出力yt+1は、(2)式で表され
る。Where giIs the conduction state of the i-th gate
Represents the gate coefficient corresponding to the state, s iIs the i-th game
The value corresponding to the internal state of the conduction state of the switch. Obedience
Thus, the output y of the synthesis circuit 3t + 1Is given by equation (2)
You.
【0043】[0043]
【数2】 (Equation 2)
【0044】ここで、予測学習時に最大の値となる
(3)式で示す尤度関数を定義する。Here, a likelihood function represented by the equation (3), which becomes the maximum value during prediction learning, is defined.
【0045】[0045]
【数3】 (Equation 3)
【0046】なお、ここで、σは、スケーリングパラメ
ータを表している。Here, σ represents a scaling parameter.
【0047】学習時、RNN1−1乃至1−nの重み係
数とゲート係数gは、尤度関数が最大となるように同時
に更新される。認識時においては、ゲート係数だけが更
新される。At the time of learning, the weight coefficients and gate coefficients g of RNNs 1-1 to 1-n are simultaneously updated so that the likelihood function is maximized. At the time of recognition, only the gate coefficient is updated.
【0048】これらの重み係数とゲート係数を更新する
ルールを確立するために、尤度関数の指数関数の内部変
数Siに関する傾きと、i番目のRNNの出力yiに関
する傾きを(4)式及び(5)のように求める。[0048] In order to establish a rule to update these weighting coefficients and gate coefficient, and the tilt about the internal variable S i of the exponential function of the likelihood function, the tilt related to the output y i of the i-th RNN (4) equation And (5).
【0049】[0049]
【数4】 (Equation 4)
【0050】[0050]
【数5】 (Equation 5)
【0051】ここで、g(i|xt,y* t+1)
は、i番目のRNNが入力xtのとき、目標出力y*
t+1を発生する事象後確率を意味し、(6)式で表さ
れる。Here, g (i | x t , y * t + 1 )
When the i-th RNN is an input x t, the target output y *
It means the post-event probability of generating t + 1 and is expressed by equation (6).
【0052】[0052]
【数6】 (Equation 6)
【0053】ここで、||y* t+1−yj t+1||2
は、現在の予測の自乗誤差を表している。[0053] In this case, || y * t + 1 -y j t + 1 || 2
Represents the square error of the current prediction.
【0054】上記(4)式は、siを更新する方向を表
している。また、(5)式に示されるように、尤度関数
の指数関数のyi t+1に関する傾きは、誤差条件y
* t +1−yi t+1の誤差項を含んでいる。この誤
差項は、i番目のRNNの事象後確率により重み付けさ
れている。[0054] Equation (4) represents a direction to update the s i. Also, (5) as shown in the formula, the tilt related to y i t + 1 of the exponential function of the likelihood function, the error condition y
* T +1 contains the error term of -y i t + 1. This error term is weighted by the i-th RNN post-event probability.
【0055】このように、RNN1−1〜1−nの重み
係数は、事象後確率にのみ比例して、i番目のRNNの
出力と目標値の誤差を補正するように調整される。これ
によりn個のRNNのうち、1つのエキスパートRNN
だけが、与えられたトレーニングパターン(学習パター
ン)を排他的に学習するようになされる。各RNNの誤
差は、(7)式で表される。As described above, the weight coefficients of the RNNs 1-1 to 1-n are adjusted so as to correct the error between the output of the i-th RNN and the target value in proportion to only the post-event probability. Thereby, one expert RNN out of n RNNs
Only the given training pattern (learning pattern) is exclusively learned. The error of each RNN is expressed by equation (7).
【0056】[0056]
【数7】 (Equation 7)
【0057】RNN1−1〜1−nの実際の学習は、上
記式で得られた誤差に基づいてバックプロパゲーション
法により実行される。The actual learning of the RNNs 1-1 to 1-n is executed by the back propagation method based on the error obtained by the above equation.
【0058】これにより、RNN1−1乃至1−nは、
入力xtのうち、それぞれ他と異なる所定の時系列パタ
ーンを識別することができるエキスパートとなるよう
に、学習が行われる。Thus, RNNs 1-1 to 1-n are:
Of the input x t, so that each the experts can identify predetermined time series pattern which is different from the others, learning is performed.
【0059】以上のことは、上位の階層におけるRNN
11−1〜11−nにおいても同様である。ただし、こ
の場合における入力は、ゲートシーケンスGTであり、
その出力は、Gi T+1となる。The above is based on the fact that the RNN in the higher hierarchy
The same applies to 11-1 to 11-n. However, the input in this case is a gate sequence G T,
The output is G i T + 1 .
【0060】このような構成により、個別の動作をRN
N1−1〜1−nが個別に学習することができる。そし
て、RNN1−1〜1−nが学習し各動作の発現は、ゲ
ート2−1〜2−nで管理されており、このゲートの様
々な動作シーケンス(つまり様々な動作の順序の組み合
わせ)をRNN11−1〜11−nが学習している。す
なわち、このような情報の学習手法により、行動を文節
化して学習することができるようになる。With such a configuration, individual operations can be performed by RN
N1-1 to 1-n can learn individually. The RNNs 1-1 to 1-n learn and the manifestation of each operation is managed by the gates 2-1 to 2-n, and various operation sequences of the gates (that is, combinations of various operation orders) are determined. RNNs 11-1 to 11-n are learning. That is, by using such an information learning method, the behavior can be segmented and learned.
【0061】このような複数のRNNによって構成され
た学習部1を有することで、ロボット装置は、図5に示
すような通路を構成する部屋を移動し、その移動の際に
行動を学習することができる。例えば、距離センサに基
づいた行動を学習をする。具体的には、ロボット装置
は、部屋を移動し、その間に学習部を構成する層を自己
組織化することにより、行動の学習をするのである。By having such a learning unit 1 composed of a plurality of RNNs, the robot device can move in a room forming a passage as shown in FIG. 5 and learn an action during the movement. Can be. For example, the action based on the distance sensor is learned. Specifically, the robot device learns the behavior by moving in the room and self-organizing the layers constituting the learning unit during the movement.
【0062】なお、この特開平11-126198号公報には、
上述したRNNを利用することにより、実際に行動をし
なくても、行動を連想することができることが開示され
ており、例えば、図6に示すような構成を、データ処理
部が有することにより、それは可能とされている。Incidentally, Japanese Patent Application Laid-Open No. 11-126198 discloses that
It is disclosed that by using the above-described RNN, it is possible to associate an action without actually performing an action. For example, when the data processing unit has a configuration as illustrated in FIG. It is possible.
【0063】以上のように概略を説明した学習手法の技
術が特開平11-126198号公報に開示されており、本発明
に係る実施の形態のロボット装置の学習部1は、このよ
うな学習手法を取り入れて構築することができる。The technique of the learning method outlined above is disclosed in Japanese Patent Application Laid-Open No. H11-126198, and the learning unit 1 of the robot apparatus according to the embodiment of the present invention employs such a learning technique. Can be built.
【0064】このような構成として学習部1が構成した
場合、行動に対する重み付けを次のように行う。When the learning section 1 has such a configuration, the behavior is weighted as follows.
【0065】ロボット装置のセンサ等による検出部2の
検出結果として、「撫でられた」、「叩かれた」等の入
力が発生した場合には、現在実行中の行動をゲート2−
1〜2−nの状況により決定し、下記の表に示すよう
に、対応する動作にスコアを対応付けて記憶する。すな
わち、学習した個々の動作に対してスコアを付ける。When an input such as “stroke” or “hit” is detected as a detection result of the detection unit 2 by a sensor or the like of the robot device, the action currently being executed is detected by the gate 2.
It is determined according to the situation of 1-2-n, and as shown in the following table, the corresponding action is associated with a score and stored. That is, a score is assigned to each learned motion.
【0066】[0066]
【表1】 [Table 1]
【0067】例えば、出現させる確率を高くする行為、
例えば「撫でられた」の行為がなされた場合には、スコ
アを+1として、一方、出現させる確率を低くする行
為、例えば「叩かれた」の行為がなされた場合には、ス
コアを−1とする。For example, an act of increasing the probability of appearance,
For example, when the act of “stroke” is performed, the score is set to +1. On the other hand, when the act of lowering the appearance probability, for example, the act of “struck” is performed, the score is set to −1. I do.
【0068】そして、ロボット装置が次回において学習
した動作を決定する際に、上述の行動の連想を可能とす
る図6に示すようなデータ処理部により、行動の予行演
習(リハーサル)を行う。そして、その中で現れる一連
の動作とされる行動に対して、スコアの和を求める。ロ
ボット装置は、そのようなしてリハーサルによって得た
スコアの和に基づいて、実際に出現させる行動(一連の
動作の結合)を決定するようにする。すなわち例えば、
スコアの和ができるだけ大きくなるように決定すればロ
ボット装置は、従順に行動するようになり、一方、スコ
アの和ができるだけ小さくなるように決定すればロボッ
ト装置は、反抗的に行動するようになる。When the robot device determines the next learned operation, the data processing unit as shown in FIG. 6 that enables the association of the above-mentioned behavior is performed, and a rehearsal of the behavior is performed. Then, a sum of scores is obtained for actions that are a series of actions appearing therein. The robot apparatus determines an action to actually appear (combination of a series of actions) based on the sum of the scores obtained in such a rehearsal. That is, for example,
If the sum of the scores is determined to be as large as possible, the robot device will act obediently, while if the sum of the scores is determined as small as possible, the robot device will act rebelliously. .
【0069】この例では、低いレベルの動作に対して重
み付けをして、その動作を制御することについて説明し
たが、上述の特開平11-126198号公報に開示されている
RNNシステムのように多段層の階層構造を採用するこ
ともできるので、さらに上位の階層(一連の行動、行動
ポリシー)等に対する制御もできることはいうまでもな
い。In this example, a description has been given of weighting a low-level operation and controlling the operation. However, as in the RNN system disclosed in Japanese Patent Laid-Open No. Since a hierarchical structure of layers can be adopted, it goes without saying that control can be performed on higher layers (a series of actions and action policies).
【0070】(3)本実施の形態によるロボット装置の
構成 次に、上述したような行動の学習をするロボット装置の
具体的な構成について説明する。(3) Configuration of Robot Apparatus According to the Present Embodiment Next, a specific configuration of the robot apparatus that learns the above-described behavior will be described.
【0071】図7に示すように、「犬」を模した形状の
いわゆるペットロボットとされ、胴体部ユニット102
の前後左右にそれぞれ脚部ユニット103A,103
B,103C,103Dが連結されると共に、胴体部ユ
ニット102の前端部及び後端部にそれぞれ頭部ユニッ
ト104及び尻尾部ユニット105が連結されて構成さ
れている。As shown in FIG. 7, a so-called pet robot imitating a “dog” is formed.
Leg units 103A, 103
B, 103C, and 103D are connected, and a head unit 104 and a tail unit 105 are connected to the front end and the rear end of the body unit 102, respectively.
【0072】胴体部ユニット102には、図8に示すよ
うに、CPU(Central ProcessingUnit)110、DR
AM(Dynamic Random Access Memory)111、フラッ
シュROM(Read 0nly Memory)112、PC(Perso
nal Computer)カードインターフェース回路113及び
信号処理回路114が内部バス115を介して相互に接
続されることにより形成されたコントロール部116
と、このロボット装置100の動力源としてのバッテリ
117とが収納されている。また、胴体部ユニット10
2には、ロボット装置100の向きや動きの加速度を検
出するための角速度センサ118及び加速度センサ11
9なども収納されている。As shown in FIG. 8, a CPU (Central Processing Unit) 110 and a DR
AM (Dynamic Random Access Memory) 111, Flash ROM (Read 0nly Memory) 112, PC (Perso
control unit 116 formed by connecting a card interface circuit 113 and a signal processing circuit 114 to each other via an internal bus 115.
And a battery 117 as a power source of the robot device 100 are stored. The body unit 10
2 includes an angular velocity sensor 118 and an acceleration sensor 11 for detecting the acceleration of the direction and movement of the robot apparatus 100.
9 etc. are also stored.
【0073】また、頭部ユニット104には、外部の状
況を撮像するためのCCD(ChargeCoupled Device)カ
メラ120と、使用者からの「撫でる」や「叩く」とい
った物理的な働きかけにより受けた圧力を検出するため
のタッチセンサ121と、前方に位置する物体までの距
離を測定するための距離センサ122と、外部音を集音
するためのマイクロホン123と、鳴き声等の音声を出
力するためのスピーカ124と、ロボット装置100の
「目」に相当するLED(Light Emitting Diode)(図
示せず)となどがそれぞれ所定位置に配置されている。The head unit 104 receives a charge coupled device (CCD) camera 120 for capturing an image of an external situation, and receives a pressure applied by a physical action such as “stroke” or “hit” from the user. A touch sensor 121 for detection, a distance sensor 122 for measuring a distance to an object located ahead, a microphone 123 for collecting external sounds, and a speaker 124 for outputting a sound such as a squeal And an LED (Light Emitting Diode) (not shown) corresponding to the “eye” of the robot device 100 are arranged at predetermined positions.
【0074】さらに、各脚部ユニット103A〜103
Dの関節部分や各脚部ユニット103A〜103D及び
胴体部ユニット102の各連結部分、頭部ユニット10
4及び胴体部ユニット102の連結部分、並びに尻尾部
ユニット105の尻尾105Aの連結部分などにはそれ
ぞれ自由度数分のアクチュエータ1251〜125n及
びポテンショメータ1261〜126nが配設されてい
る。例えば、アクチュエータ1251〜125nはサー
ボモータを構成として有している。サーボモータの駆動
により、脚部ユニット103A〜103Dが制御され
て、目標の姿勢或いは動作に遷移する。Further, each leg unit 103A-103
D, joint portions of the leg units 103A to 103D and the trunk unit 102, the head unit 10
Actuators 125 1 to 125 n and potentiometers 126 1 to 126 n are provided for the number of degrees of freedom, respectively, at a connection portion between the body unit 4 and the body unit 102 and a connection portion at the tail 105 A of the tail unit 105. For example, each of the actuators 125 1 to 125 n has a servomotor. By driving the servo motor, the leg units 103A to 103D are controlled, and the state shifts to the target posture or operation.
【0075】そして、これら角速度センサ118、加速
度センサ119、タッチセンサ121、距離センサ12
2、マイクロホン123、スピーカ124及び各ポテン
ショメータ1261〜126nなどの各種センサ並びに
LED及び各アクチュエータ1251 〜125nは、
それぞれ対応するハブ1271〜127nを介してコン
トロール部116の信号処理回路114と接続され、C
CDカメラ120及びバッテリ117は、それぞれ信号
処理回路114と直接接続されている。The angular velocity sensor 118, the acceleration sensor 119, the touch sensor 121, and the distance sensor 12
2. Various sensors such as a microphone 123, a speaker 124, and each of the potentiometers 126 1 to 126 n , an LED, and each of the actuators 125 1 to 125 n are:
The hubs 127 1 to 127 n are connected to the signal processing circuit 114 of the control unit 116 via the corresponding hubs 127 1 to 127 n , respectively.
The CD camera 120 and the battery 117 are directly connected to the signal processing circuit 114, respectively.
【0076】信号処理回路1l4は、上述の各センサか
ら供給されるセンサデータや画像データ及び音声データ
を順次取り込み、これらをそれぞれ内部バス115を介
してDRAM111内の所定位置に順次格納する。また
信号処理回路114は、これと共にバッテリ117から
供給されるバッテリ残量を表すバッテリ残量データを順
次取り込み、これをDRAM111内の所定位置に格納
する。The signal processing circuit 114 sequentially takes in the sensor data, image data, and audio data supplied from each of the above-mentioned sensors, and sequentially stores them at predetermined positions in the DRAM 111 via the internal bus 115. In addition, the signal processing circuit 114 sequentially takes in remaining battery power data indicating the remaining battery power supplied from the battery 117 and stores the data in a predetermined position in the DRAM 111.
【0077】このようにしてDRAM111に格納され
た各センサデータ、画像データ、音声データ及びバッテ
リ残量データは、この後CPU110がこのロボット装
置100の動作制御を行う際に利用される。The sensor data, image data, voice data, and remaining battery data stored in the DRAM 111 in this manner are used when the CPU 110 subsequently controls the operation of the robot apparatus 100.
【0078】実際上CPU110は、ロボット装置10
0の電源が投入された初期時、胴体部ユニット102の
図示しないPCカードスロットに装填されたメモリカー
ド128又はフラッシュROM112に格納された制御
プログラムをPCカードインターフェース回路113を
介して又は直接読み出し、これをDRAM111に格納
する。In practice, the CPU 110 controls the robot device 10
At the initial time when the power supply of the main unit 102 is turned on, the control program stored in the memory card 128 or the flash ROM 112 inserted in the PC card slot (not shown) of the body unit 102 is read out directly or directly through the PC card interface circuit 113. Is stored in the DRAM 111.
【0079】また、CPU110は、この後上述のよう
に信号処理回路114よりDRAM111に順次格納さ
れる各センサデータ、画像データ、音声データ及びバッ
テリ残量データに基づいて自己及び周囲の状況や、使用
者からの指示及び働きかけの有無などを判断する。The CPU 110 then determines the status of itself and its surroundings and the usage based on the sensor data, image data, audio data, and remaining battery data sequentially stored in the DRAM 111 from the signal processing circuit 114 as described above. Judge the instruction from the person and the presence or absence of the action.
【0080】さらに、CPU110は、この判断結果及
びDRAM111に格納しだ制御プログラムに基づいて
続く行動を決定すると共に、当該決定結果に基づいて必
要なアクチュエータ1251〜125nを駆動させるこ
とにより、頭部ユニット104を上下左右に振らせた
り、尻尾部ユニット105の尻尾105Aを動かせた
り、各脚部ユニット103A〜103Dを駆動させて歩
行させるなどの行動を行わせる。[0080] Furthermore, CPU 110 is configured to determine a subsequent action based on the control program that is stored in the determination result and DRAM 111, by driving the actuator 125 1 to 125 n as required based on the determination result, the head Actions such as swinging the unit 104 up and down, left and right, moving the tail 105A of the tail unit 105, and driving and walking each leg unit 103A to 103D are performed.
【0081】また、この際CPU110は、必要に応じ
て音声データを生成し、これを信号処理回路114を介
して音声信号としてスピーカ124に与えることにより
当該音声信号に基づく音声を外部に出力させたり、上述
のLEDを点灯、消灯又は点滅させる。At this time, the CPU 110 generates audio data as necessary and supplies the generated audio data to the speaker 124 as an audio signal via the signal processing circuit 114, thereby outputting an audio based on the audio signal to the outside. The above-mentioned LED is turned on, turned off or blinked.
【0082】このようにしてこのロボット装置100に
おいては、自己及び周囲の状況や、使用者からの指示及
び働きかけに応じて自律的に行動し得るようになされて
いる。In this way, the robot device 100 is capable of acting autonomously in accordance with the situation of itself and the surroundings, and instructions and actions from the user.
【0083】(2)制御プログラムのソフトウェア構成 ここで、ロボット装置100における上述の制御プログ
ラムのソフトウェア構成は、図9に示すようになる。こ
の図9において、デバイス・ドライバ・レイヤ30は、
この制御プログラムの最下位層に位置し、複数のデバイ
ス・ドライバからなるデバイス・ドライバ・セット13
1から構成されている。この場合、各デバイス・ドライ
バは、CCDカメラ120(図8)やタイマ等の通常の
コンピュータで用いられるハードウェアに直接アクセス
するごとを許されたオブジェクトであり、対応するハー
ドウェアからの割り込みを受けて処理を行う。(2) Software Configuration of Control Program Here, the software configuration of the above-described control program in the robot device 100 is as shown in FIG. In FIG. 9, the device driver layer 30 includes:
A device driver set 13 located at the lowest layer of the control program and including a plurality of device drivers
1 is comprised. In this case, each device driver is an object permitted to directly access hardware used in a normal computer, such as a CCD camera 120 (FIG. 8) and a timer, and receives an interrupt from the corresponding hardware. Perform processing.
【0084】また、ロボティック・サーバ・オブジェク
ト132は、デバイス・ドライバ・レイヤ130の最下
位層に位置し、例えば上述の各種センサやアクチュエー
タ1251〜125n等のハードウェアにアクセスする
ためのインターフェースを提供するソフトウェア群でな
るバーチャル・ロボット133と、電源の切換えなどを
管理するソフトウェア群でなるパワーマネージャ134
と、他の種々のデバイス・ドライバを管理するソフトウ
ェア群でなるデバイス・ドライバ・マネージャ135
と、ロボット装置100の機構を管理するソフトウェア
群でなるデザインド・ロボット136とから構成されて
いる。The robotic server object 132 is located at the lowest layer of the device driver layer 130, and is an interface for accessing hardware such as the various sensors and actuators 125 1 to 125 n described above. Virtual robot 133, which is a software group that provides power, and a power manager 134, which is a software group that manages switching of power supply and the like.
And a device driver manager 135 which is a software group for managing various other device drivers.
And a designed robot 136 which is a software group for managing the mechanism of the robot apparatus 100.
【0085】マネージャ・オブジェクト137は、オブ
ジェクト・マネージャ138及びサービス・マネージャ
139から構成されている。オブジェクト・マネージャ
138は、ロボティック・サーバ・オブジェクト13
2、ミドル・ウェア・レイヤ140、及びアプリケーシ
ョン・レイヤ141に含まれる各ソフトウェア群の起動
や終了を管理するソフトウェア群であり、サービス・マ
ネージャ139は、メモリカード128(図8)に格納
されたコネクションファイルに記述されている各オブジ
ェクト間の接続情報に基づいて各オブジェクトの接続を
管理するソフトウェア群である。The manager object 137 is composed of an object manager 138 and a service manager 139. The object manager 138 manages the robotic server object 13
2. A software group that manages activation and termination of each software group included in the middleware layer 140 and the application layer 141. The service manager 139 is a software group that stores the connection stored in the memory card 128 (FIG. 8). A group of software that manages the connection of each object based on the connection information between the objects described in the file.
【0086】ミドル・ウェア・レイヤ140は、ロボテ
ィック・サーバ・オブジェクト132の上位層に位置
し、画像処理や音声処理などのこのロボット装置100
の基本的な機能を提供するソフトウェア群から構成され
ている。また、アプリケーション・レイヤ141は、ミ
ドル・ウェア・レイヤ140の上位層に位置し、当該ミ
ドル・ウェア・レイヤ140を構成する各ソフトウェア
群によって処理された処理結果に基づいてロボット装置
100の行動を決定するためのソフトウェア群から構成
されている。The middleware layer 140 is located on the upper layer of the robotic server object 132.
It consists of a software group that provides the basic functions of. The application layer 141 is located above the middleware layer 140, and determines the behavior of the robot device 100 based on the processing result processed by each software group constituting the middleware layer 140. It consists of a group of software for performing
【0087】なお、ミドル・ウェア・レイヤ140及び
アプリケーション・レイヤ141の具体なソフトウェア
構成をそれぞれ図10に示す。FIG. 10 shows specific software configurations of the middleware layer 140 and the application layer 141, respectively.
【0088】ミドル・ウェア・レイヤ140は、図10
に示すように、騒音検出用、温度検出用、明るさ検出
用、音階認識用、距離検出用、姿勢検出用、タッチセン
サ用、動き検出用及び色認識用の各信号処理モジュール
150〜158並びに入力セマンティクスコンバータモ
ジュール159などを有する認識系160と、出力セマ
ンティクスコンバータモジュール168並びに姿勢管理
用、トラッキング用、モーション再生用、歩行用、転倒
復帰用、LED点灯用及び音再生用の各信号処理モジュ
ール161〜167などを有する出力系69とから構成
されている。The middleware layer 140 corresponds to FIG.
As shown in, each of the signal processing modules 150 to 158 for noise detection, temperature detection, brightness detection, scale recognition, distance detection, attitude detection, touch sensor, motion detection, and color recognition; A recognition system 160 having an input semantics converter module 159 and the like; an output semantics converter module 168; and signal processing modules 161 for posture management, tracking, motion reproduction, walking, falling back, LED lighting and sound reproduction. And an output system 69 having 167.
【0089】認識系160の各信号処理モジュール15
0〜158は、ロボティック・サーバ・オブジェクト1
32のバーチャル・ロボット133によりDRAM11
1(図8)から読み出される各センサデータや画像デー
タ及び音声データのうちの対応するデータを取り込み、
当該データに基づいて所定の処理を施して、処理結果を
入力セマンティクスコンバータモジュール159に与え
る。ここで、例えば、バーチャル・ロボット133は、
所定の通信規約によって、信号の授受或いは変換をする
部分として構成されている。Each signal processing module 15 of the recognition system 160
0 to 158 are robotic server objects 1
DRAM 11 by 32 virtual robots 133
1 (FIG. 8), the corresponding data among the sensor data, image data, and audio data read from
A predetermined process is performed based on the data, and a processing result is provided to the input semantics converter module 159. Here, for example, the virtual robot 133
It is configured as a part that exchanges or converts signals according to a predetermined communication protocol.
【0090】入力セマンティクスコンバータモジュール
159は、これら各信号処理モジュール150〜158
から与えられる処理結果に基づいて、「うるさい」、
「暑い」、「明るい」、「ボールを検出した」、「転倒
を検出した」、「撫でられた」、「叩かれた」、「ドミ
ソの音階が聞こえた」、「動く物体を検出した」又は
「障害物を検出した」などの自己及び周囲の状況や、使
用者からの指令及び働きかけを認識し、認識結果をアプ
リケーション・レイヤ141(図8)に出力する。The input semantics converter module 159 is composed of these signal processing modules 150 to 158.
"Noisy" based on the processing result given by
"Hot", "Bright", "Detected ball", "Detected fall", "Stroked", "Slapped", "Heared Domiso scale", "Detected moving object" Alternatively, it recognizes the situation of itself and surroundings such as “detected an obstacle”, and commands and actions from the user, and outputs the recognition result to the application layer 141 (FIG. 8).
【0091】アプリケーション・レイヤ14lは、図1
1に示すように、行動モデルライブラリ170、行動切
換えモジュール171、学習モジュール172、感情モ
デル173及び本能モデル174の5つのモジュールか
ら構成されている。The application layer 141 is the one shown in FIG.
As shown in FIG. 1, it is composed of five modules: a behavior model library 170, a behavior switching module 171, a learning module 172, an emotion model 173, and an instinct model 174.
【0092】行動モデルライブラリ170には、図12
に示すように、「バッテリ残量が少なくなった場合」、
「転倒復帰する」、「障害物を回避する場合」、「感情
を表現する場合」、「ボールを検出した場合」などの予
め選択されたいくつかの条件項目にそれぞれ対応させ
て、それぞれ独立した行動モデル1701〜170nが
設けられている。The behavior model library 170 has the contents shown in FIG.
As shown in, "When the battery level is low"
Independently corresponding to several pre-selected condition items such as "return to fall", "when avoiding obstacles", "when expressing emotion", "when ball is detected", etc. Behavior models 170 1 to 170 n are provided.
【0093】そして、これら行動モデル1701〜17
0nは、それぞれ入力セマンティクスコンバータモジュ
ール159から認識結果が与えられたときや、最後の認
識結果が与えられてから一定時間が経過したときなど
に、必要に応じて後述のように感情モデル173に保持
されている対応する情動のパラメータ値や、本能モデル
174に保持されている対応する欲求のパラメータ値を
参照しながら続く行動をそれぞれ決定し、決定結果を行
動切換えモジュール171に出力する。The behavior models 170 1 to 170 1
0 n are sent to the emotion model 173 as described later, as necessary, when a recognition result is given from the input semantics converter module 159 or when a certain period of time has passed since the last recognition result was given. The subsequent actions are determined with reference to the parameter values of the corresponding emotions held and the parameter values of the corresponding desires held in the instinct model 174, and the determination result is output to the action switching module 171.
【0094】なお、この実施の形態の場合、各行動モデ
ル1701〜170nは、次の行動を決定する手法とし
て、図13に示すような1つのノード(状態)NODE
0〜NODEnから他のどのノードNODE0〜NOD
Enに遷移するかを各ノードNODE0〜NODEnに
間を接続するアークARC1〜ARCn1に対してそれ
ぞれ設定された遷移確率P1〜Pnに基づいて確率的に
決定する有限確率オートマトンと呼ばれるアルゴリズム
を用いる。In this embodiment, each of the behavior models 170 1 to 170 n uses one node (state) NODE as shown in FIG.
0 to NODE n to any other node NODE 0 to NOD
Finite probability automaton for determining probabilistically based on the transition probability P 1 to P n which is set respectively arc ARC 1 ~ARC n1 connecting between whether a transition to E n each node NODE 0 ~NODE n An algorithm called is used.
【0095】具体的に、各行動モデル1701〜170
nは、それぞれ自己の行動モデル1701〜170nを
形成するノードNODE0〜NODEnにそれぞれ対応
させて、これらノードNODE0〜NODEnごとに図
14に示すような状態遷移表180を有している。More specifically, each of the behavior models 170 1 to 170 1
n has a state transition table 180 as shown in FIG. 14 for each of the nodes NODE 0 to NODE n corresponding to the nodes NODE 0 to NODE n forming their own behavior models 170 1 to 170 n , respectively. ing.
【0096】この状態遷移表180では、そのノードN
ODE0〜NODEnにおいて遷移条件とする入力イベ
ント(認識結果)が「入力イベント名」の行に優先順に
列記され、その遷移条件についてのさらなる条件が「デ
ータ名」及び「データ範囲」の行における対応する列に
記述されている。In this state transition table 180, the node N
Input events (recognition results) as transition conditions in ODE 0 to NODE n are listed in order of priority in the row of “input event name”, and further conditions for the transition conditions are described in the rows of “data name” and “data range”. It is described in the corresponding column.
【0097】したがって、図14の状態遷移表80で表
されるノードNODE100では、「ボールを検出(B
ALL)」という認識結果が与えられた場合に、当該認
識結果と共に与えられるそのボールの「大きさ(SIZ
E)」が「0から1000」の範囲であることや、「障害物
を検出(OBSTACLE)」という認識結果が与えら
れた場合に、当該認識結果と共に与えられるその障害物
までの「距離(DISTANCE)」が「0から100」の
範囲であることが他のノードに遷移するための条件とな
っている。Therefore, the node NODE 100 represented by the state transition table 80 in FIG.
ALL) ", the size of the ball (SIZ) given together with the recognition result is given.
E) is in the range of “0 to 1000”, or when a recognition result of “obstacle detected (OBSTABLE)” is given, the “distance (DISTANCE)” to the obstacle given together with the recognition result is given. )) Is in the range of “0 to 100”, which is a condition for transitioning to another node.
【0098】また、このノードNODE100では、認
識結果の入力がない場合においても、行動モデル170
1〜170nが周期的に参照する感情モデル173及び
本能モデル74にそれぞれ保持された各情動及び各欲求
のパラメータ値のうち、感情モデル73に保持された
「喜び(JOY)」、「驚き(SURPRISE)」若
しくは「悲しみ(SUDNESS)」のいずれかのパラ
メータ値が「50から100」の範囲であるときには他のノ
ードに遷移することができるようになっている。In the node NODE 100 , even when the recognition result is not input, the behavior model 170
1 to 170 n is out of the parameter values of the emotions and the desire held respectively in the emotion model 173 and the instinct model 74 refers periodically, held in the emotion model 73 "joy (JOY)", "surprise ( When the parameter value of either “SURPRISE” or “Sadness” is in the range of “50 to 100”, transition to another node can be made.
【0099】また、状態遷移表180では、「他のノー
ドヘの遷移確率」の欄における「遷移先ノード」の列に
そのノードNODE0〜 NODEnから遷移できるノ
ード名が列記されていると共に、「入力イベント名」、
「データ値」及び「データの範囲」の行に記述された全
ての条件が揃ったときに遷移できる他の各ノードNOD
E0〜NODEnへの遷移確率が「他のノードヘの遷移
確率」の欄内の対応する箇所にそれぞれ記述され、その
ノードNODE0〜NODEnに遷移する際に出力すべ
き行動が「他のノードヘの遷移確率」の欄における「出
力行動」の行に記述されている。なお、「他のノードヘ
の遷移確率」の欄における各行の確率の和は100
[%]となっている。In the state transition table 180, the names of nodes that can transition from the nodes NODE 0 to NODE n are listed in the column of “transition destination node” in the column of “transition probability to another node”. Input event name ",
Other nodes NOD that can transition when all the conditions described in the rows of “data value” and “data range” are met
The transition probabilities from E 0 to NODE n are respectively described in corresponding portions in the column of “transition probability to another node”, and the action to be output when transitioning to the node NODE 0 to NODE n is “other It is described in the row of “output action” in the column of “transition probability to node”. Note that the sum of the probabilities of each row in the column of “transition probability to another node” is 100
[%].
【0100】したがって、図14の状態遷移表180で
表されるノードNODE100では、例えば「ボールを
検出(BALL)」し、そのボールの「SIZE(大き
さ)」が「0から1000」の範囲であるという認識結果が
与えられた場合には、「30[%]」の確率で「ノードN
ODE120(node 120)」に遷移でき、そのとき「A
CTION1」の行動が出力されることとなる。Therefore, in the node NODE 100 represented by the state transition table 180 in FIG. 14, for example, “ball is detected (BALL)”, and the “SIZE” of the ball is in the range of “0 to 1000”. Is given, the probability of “30 [%]” and “node N
ODE 120 (node 120) "and then" A
The action of “CTION1” is output.
【0101】各行動モデル1701〜170nは、それ
ぞれこのような状態遷移表180として記述されたノー
ドNODE0〜 NODEnがいくつも繋がるようにし
て構成されており、入力セマンティクスコンバータモジ
ュール159から認識結果が与えられたときなどに、対
応するノードNODE0〜NODEnの状態遷移表を利
用して確率的に次の行動を決定し、決定結果を行動切換
えモジュール171に出力するようになされている。Each of the behavior models 170 1 to 170 n is formed by connecting a number of nodes NODE 0 to NODE n described as such a state transition table 180, and is recognized from the input semantics converter module 159. When a result is given, the next action is determined stochastically using the state transition table of the corresponding nodes NODE 0 to NODE n , and the determined result is output to the action switching module 171. .
【0102】図11に示す行動切換えモジュール171
は、行動モデルライブラリ170の各行動モデル170
1〜170nからそれぞれ出力される行動のうち、予め
定められた優先順位の高い行動モデル1701〜170
nから出力された行動を選択し、当該行動を実行すべき
旨のコマンド(以下、これを行動コマンドという。)を
ミドル・ウェア・レイヤ140の出力セマンティクスコ
ンバータモジュール168に送出する。なお、この実施
の形態においては、図12において下側に表記された行
動モデル1701〜170nほど優先順位が高く設定さ
れている。The action switching module 171 shown in FIG.
Is the behavior model 170 of the behavior model library 170
Among the behaviors output from 1 to 170 n, behavior models 170 1 to 170 having a predetermined high priority
n, and outputs a command to execute the action (hereinafter referred to as an action command) to the output semantics converter module 168 of the middleware layer 140. In this embodiment, the priority order is set higher for the behavior models 170 1 to 170 n shown on the lower side in FIG.
【0103】また、学習した行動を再現する際には、行
動切換えモジュール171は、指示された所望の行動を
選択して、その行動を実行すべきコマンドを、出力セマ
ンティクスコンバータモジュール168に送出する。こ
の行動切換えモジュール171からのコマンドにより、
ロボット装置100は、学習した行動を出力することが
できるようになる。When reproducing the learned behavior, the behavior switching module 171 selects the specified desired behavior and sends a command to execute the behavior to the output semantics converter module 168. By the command from the action switching module 171,
The robot device 100 can output the learned behavior.
【0104】さらに、行動切換えモジュール171は、
行動完了後に出力セマンティクスコンバータモジュール
168から与えられる行動完了情報に基づいて、その行
動が完了したことを学習モジュール172、感情モデル
173及び本能モデル174に通知する。Furthermore, the action switching module 171
After the action is completed, the learning module 172, the emotion model 173, and the instinct model 174 are notified of the completion of the action based on the action completion information provided from the output semantics converter module 168.
【0105】一方、学習モジュール172は、入力セマ
ンティクスコンバータモジュール159から与えられる
認識結果のうち、「叩かれた」や「撫でられた」など、
使用者からの働きかけとして受けた教示の認識結果を入
力する。On the other hand, the learning module 172 determines whether the recognition result given by the input semantics converter module 159 is “strapped” or “stroked”.
The recognition result of the instruction received as an action from the user is input.
【0106】そして、学習モジュール172は、この認
識結果及び行動切換えモジュール171からの通知に基
づいて、「叩かれた(叱られた)」ときにはその行動の
発現確率を低下させ、「撫でられた(誉められた)」と
きにはその行動の発現確率を上昇させるように、行動モ
デルライブラリ170における対応する行動モデル17
01〜170nの対応する遷移確率を変更する。Then, based on the recognition result and the notification from the action switching module 171, the learning module 172 lowers the probability of occurrence of the action when “beaten (scorched)” and “strokes ( In some cases, the corresponding behavior model 17 in the behavior model library 170 is increased so as to increase the probability of occurrence of the behavior.
Changing the 0 1 to 170 n corresponding transition probability.
【0107】例えば、上述したような学習部1は、実際
のロボット装置1においては、このような学習モジュー
ル172において構成され、実現されるものである。For example, the learning section 1 as described above is configured and realized by such a learning module 172 in the actual robot apparatus 1.
【0108】他方、感情モデル173は、「喜び(jo
y)」、「悲しみ(sadness)」、「怒り(anger)」、
「驚き(surprise)」、「嫌悪(disgust)」及び「恐
れ(fear)」の合計6つの情動について、各情動ごとに
その情動の強さを表すパラメータを保持している。そし
て、感情モデル173は、これら各情動のパラメータ値
を、それぞれ入力セマンティクスコンバータモジュール
159から与えられる「叩かれた」及び「撫でられた」
などの特定の認識結果と、経過時間及び行動切換えモジ
ュール171からの通知となどに基づいて周期的に更新
する。On the other hand, the emotion model 173 indicates “joy (jo
y) "," sadness "," anger ",
For a total of six emotions, “surprise”, “disgust” and “fear”, a parameter indicating the intensity of the emotion is stored for each emotion. Then, the emotion model 173 converts the parameter values of each of these emotions into “strapped” and “stroke” given from the input semantics converter module 159, respectively.
The update is periodically performed based on a specific recognition result such as, for example, an elapsed time and a notification from the action switching module 171.
【0109】具体的には、感情モデル173は、入力セ
マンティクスコンバータモジュール159から与えられ
る認識結果と、そのときのロボット装置100の行動
と、前回更新してからの経過時間となどに基づいて所定
の演算式により算出されるそのときのその情動の変動量
を△E[t]、現在のその情動のパラメータ値をE
[t]、その情動の感度を表す係数をkeとして、
(8)式によって次の周期におけるその情動のパラメー
タ値E[t+1]を算出し、これを現在のその情動のパ
ラメータ値E[t]と置き換えるようにしてその情動の
パラメータ値を更新する。また、感情モデル173は、
これと同様にして全ての情動のパラメータ値を更新す
る。Specifically, emotion model 173 is based on a recognition result given from input semantics converter module 159, the behavior of robot device 100 at that time, the elapsed time since the last update, and the like. The variation amount of the emotion at that time calculated by the arithmetic expression is ΔE [t], and the current parameter value of the emotion is E
[T], the coefficient representing the sensitivity of the emotion as k e,
The parameter value E [t + 1] of the emotion in the next cycle is calculated by the equation (8), and the parameter value of the emotion is updated by replacing the parameter value E [t] with the parameter value E [t] of the emotion. The emotion model 173 is
Similarly, the parameter values of all emotions are updated.
【0110】[0110]
【数8】 (Equation 8)
【0111】なお、各認識結果や出力セマンティクスコ
ンバータモジュール168からの通知が各情動のパラメ
ータ値の変動量△E[t]にどの程度の影響を与えるか
は予め決められており、例えば「叩かれた」といった認
識結果は「怒り」の情動のパラメータ値の変動量△E
[t]に大きな影響を与え、「撫でられた」といった認
識結果は「喜び」の情動のパラメータ値の変動量△E
[t]に大きな影響を与えるようになっている。It is determined in advance how much each recognition result and the notification from the output semantics converter module 168 affect the variation ΔE [t] of the parameter value of each emotion. Is the amount of change in the parameter value of the emotion of “anger” △ E
[T] is greatly affected, and the recognition result such as “stroke” is the variation amount of the parameter value of the emotion of “joy” 喜 び E
[T] is greatly affected.
【0112】ここで、出力セマンティクスコンバータモ
ジュール168からの通知とは、いわゆる行動のフィー
ドバック情報(行動完了情報)であり、行動の出現結果
の情報であり、感情モデル173は、このような情報に
よっても感情を変化させる。これは、例えば、「吠え
る」といった行動により怒りの感情レベルが下がるとい
ったようなことである。なお、出力セマンティクスコン
バータモジュール168からの通知は、上述した学習モ
ジュール172にも入力されており、学習モジュール1
72は、その通知に基づいて行動モデル1701〜17
0nの対応する遷移確率を変更する。Here, the notification from the output semantics converter module 168 is so-called action feedback information (action completion information), information on the appearance result of the action, and the emotion model 173 also uses such information. Change emotions. This is, for example, a behavior such as "barking" that lowers the emotional level of anger. Note that the notification from the output semantics converter module 168 is also input to the learning module 172 described above, and the learning module 1
72 is an action model 170 1 to 17 based on the notification.
Change the corresponding transition probabilities of 0 n .
【0113】一方、本能モデル174は、「運動欲(ex
ercise)」、「愛情欲(affection)」、「食欲(appet
ite)」及び「好奇心(curiosity)」の互いに独立した
4つの欲求について、これら欲求ごとにその欲求の強さ
を表すパラメータを保持している。そして、本能モデル
174は、これらの欲求のパラメータ値を、それぞれ入
力セマンティクスコンバータモジュール159から与え
られる認識結果や、経過時間及び行動切換えモジュール
171からの通知などに基づいて周期的に更新する。On the other hand, the instinct model 174 indicates that “the desire to exercise (ex
ercise), “affection”, “appet”
ite) "and" curiosity ", each of which has a parameter indicating the strength of the desire for each of the four independent desires. Then, the instinct model 174 periodically updates these parameter values of the desire based on the recognition result given from the input semantics converter module 159, the elapsed time, the notification from the action switching module 171 and the like.
【0114】具体的には、本能モデル174は、「運動
欲」、「愛情欲」及び「好奇心」については、認識結
果、経過時間及び出力セマンティクスコンバータモジュ
ール168からの通知などに基づいて所定の演算式によ
り算出されるそのときのその欲求の変動量をΔI
[k]、現在のその欲求のパラメータ値をI[k]、そ
の欲求の感度を表す係数kiとして、所定周期で(9)
式を用いて次の周期におけるその欲求のパラメータ値I
[k+1]を算出し、この演算結果を現在のその欲求の
パラメータ値I[k]と置き換えるようにしてその欲求
のパラメータ値を更新する。また、本能モデル174
は、これと同様にして「食欲」を除く各欲求のパラメー
タ値を更新する。More specifically, the instinct model 174 determines, based on the recognition result, the elapsed time, the notification from the output semantics converter module 168, and the like, for “exercise desire”, “affection desire”, and “curiosity”. The change amount of the desire at that time calculated by the arithmetic expression is ΔI
[K], the current parameter value of the desire I [k], as the coefficient k i which represents the sensitivity of the desire, in a predetermined cycle (9)
Using the equation, the parameter value I of the desire in the next cycle
[K + 1] is calculated, and the calculation result is replaced with the current parameter value I [k] of the desire to update the parameter value of the desire. Instinct model 174
Updates the parameter values of each desire except “appetite” in the same manner.
【0115】[0115]
【数9】 (Equation 9)
【0116】なお、認識結果及び出力セマンティクスコ
ンバータモジュール168からの通知などが各欲求のパ
ラメータ値の変動量△I[k]にどの程度の影響を与え
るかは予め決められており、例えば出力セマンティクス
コンバータモジュール168からの通知は、「疲れ」の
パラメータ値の変動量△I[k]に大きな影響を与える
ようになっている。Note that the degree to which the recognition result and the notification from the output semantics converter module 168 affect the variation ΔI [k] of the parameter value of each desire is determined in advance. For example, the output semantics converter The notification from the module 168 has a large influence on the variation ΔI [k] of the parameter value of “fatigue”.
【0117】なお、本実施の形態においては、各情動及
び各欲求(本能)のパラメータ値がそれぞれ0から100ま
での範囲で変動するように規制されており、また係数k
e、kiの値も各情動及び各欲求ごとに個別に設定され
ている。In the present embodiment, the parameter values of each emotion and each desire (instinct) are regulated to fluctuate in the range of 0 to 100, and the coefficient k
e, the value of k i is also set individually for each emotion and each desire.
【0118】一方、ミドル・ウェア・レイヤ40の出力
セマンティクスコンバータモジュール168は、図10
に示すように、上述のようにしてアプリケーション・レ
イヤ141の行動切換えモジュール171から与えられ
る「前進」、「喜ぶ」、「鳴く」又は「トラッキング
(ボールを追いかける)」といった抽象的な行動コマン
ドを出力系169の対応する信号処理モジュール161
〜167に与える。On the other hand, the output semantics converter module 168 of the middleware layer 40
As shown in the above, an abstract action command such as "forward", "pleasure", "scream" or "tracking (chasing the ball)" provided from the action switching module 171 of the application layer 141 is output as described above. Corresponding signal processing module 161 of system 169
~ 167.
【0119】そしてこれら信号処理モジュール161〜
167は、行動コマンドが与えられると当該行動コマン
ドに基づいて、その行動を行うために対応するアクチュ
エータ1251〜125n(図8)に与えるべきサーボ
指令値や、スピーカ124(図8)から出力する音の音
声データ及び又は「目」のLEDに与える駆動データを
生成し、これらのデータをロボティック・サーバ・オブ
ジェクト132のバーチャル・ロボット133及び信号
処理回路114(図8)を順次介して対応するアクチュ
エータ1251〜125n又はスピーカ124又はLE
Dに順次送出する。The signal processing modules 161 to 161
167, given the behavior command based on the action command, and servo command value to be supplied to the actuator 125 1 to 125 n (FIG. 8) corresponding to perform that action, the output from the speaker 124 (FIG. 8) The audio data of the sound to be played and / or the driving data to be given to the LED of the "eye" are generated, and these data are sequentially processed through the virtual robot 133 of the robotic server object 132 and the signal processing circuit 114 (FIG. 8). Actuator 125 1 to 125 n or speaker 124 or LE
D.
【0120】このようにしてロボット装置100におい
ては、制御プログラムに基づいて、自己(内部)及び周
囲(外部)の状況や、使用者からの指示及び働きかけに
応じた自律的な行動を行うことができるようになされて
いる。In this way, the robot apparatus 100 can perform autonomous actions according to its own (internal) and surrounding (external) conditions and instructions and actions from the user based on the control program. It has been made possible.
【0121】以上のようなロボット装置100は、新た
な行動を学習することができるようになり、さらに、学
習した行動に重み付けをすることができるようになる。
これにより、ロボット装置100は、重み付けに応じ
て、学習した行動の制御をすることができるようにな
る。The robot apparatus 100 as described above can learn a new action, and can weight the learned action.
Thereby, the robot device 100 can control the learned behavior according to the weighting.
【0122】なお、上述の実施の形態では、行動の学習
を、RNNによる学習、或いはRNNを用いた文節化に
よる行動の学習等について説明した。しかし、これに限
定されるものではなく、他の学習手段により行動を学習
することができることはいうまでもない。この場合、図
1に示すような検出部2、評価部3及び対応付け部4を
学習手段に応じて構成するようにする。In the above-described embodiment, the learning of the behavior has been described as the learning by the RNN, the learning of the behavior by the segmentation using the RNN, and the like. However, the present invention is not limited to this, and it goes without saying that the behavior can be learned by other learning means. In this case, the detecting unit 2, the evaluating unit 3, and the associating unit 4 as shown in FIG. 1 are configured according to the learning means.
【0123】[0123]
【発明の効果】本発明に係るロボット装置は、外部から
の外部入力信号を検出する入力信号検出手段と、入力信
号検出手段により検出された外部入力信号を評価する評
価手段と、評価手段による評価結果を行動内容情報に対
応付けする対応付け手段と、対応付け手段により対応付
けされた評価に基づいて、行動内容情報に基づいて行動
の制御を行う行動制御手段とを備えることにより、入力
信号検出手段により検出された外部入力信号を評価手段
により評価し、評価手段による評価結果を行動内容情報
に対応付け手段により対応付けをし、対応付け手段によ
り対応付けされた評価に基づいて、行動内容情報に基づ
いて行動制御手段により行動の制御をすることができ
る。これにより、ロボット装置は、学習した行動を評価
して、その評価に基づいて行動を出現させることができ
る。The robot apparatus according to the present invention has an input signal detecting means for detecting an external input signal from the outside, an evaluation means for evaluating the external input signal detected by the input signal detecting means, and an evaluation by the evaluation means. An input signal detection unit that includes an association unit that associates the result with the activity content information; and an activity control unit that controls the activity based on the activity content information based on the evaluation associated with the association device. The external input signal detected by the means is evaluated by the evaluation means, the evaluation result by the evaluation means is associated with the action content information by the association means, and the action content information is determined based on the evaluation associated by the association means. The behavior can be controlled by the behavior control means based on the. Accordingly, the robot device can evaluate the learned behavior and cause the behavior to appear based on the evaluation.
【0124】また、本発明に係るロボット装置の行動制
御方法は、外部からの外部入力信号をロボット装置が検
出する入力信号検出工程と、入力信号検出工程にて検出
された外部入力信号をロボット装置が評価する評価工程
と、評価工程にて得た評価結果を行動内容情報に応付け
する対応付け工程と、対応付け工程にて対応付けされた
評価に基づいて、行動内容情報に基づいてロボット装置
が行動の制御を行う行動制御工程とを有することによ
り、このようなロボット装置の行動制御方法により行動
の制御がなされるロボット装置は、学習した行動を評価
して、その評価に基づいて行動を出現させることができ
る。Further, in the behavior control method for a robot device according to the present invention, the robot device detects an external input signal from the outside, and outputs the external input signal detected in the input signal detection process to the robot device. A robot apparatus based on the action content information based on the evaluation step evaluated by the user, the associating step of assigning the evaluation result obtained in the evaluation step to the action content information, and the evaluation associated in the associating step. Having a behavior control step of controlling the behavior, the robot device whose behavior is controlled by such a behavior control method of the robot device evaluates the learned behavior, and performs the behavior based on the evaluation. Can appear.
【0125】また、本発明に係るプログラムは、外部か
らの外部入力信号を検出する入力信号検出工程と、入力
信号検出工程にて検出された外部入力信号を評価する評
価工程と、評価工程にて得た評価結果を行動内容情報に
対応付けする対応付け工程と、対応付け工程にて対応付
けされた評価に基づいて、行動内容情報に基づいて行動
の制御を行う行動制御工程とをロボット装置に実行させ
ることにより、このようなプログラムにより行動の制御
が実行されるロボット装置は、学習した行動を評価し
て、その評価に基づいて行動を出現させることができ
る。The program according to the present invention includes an input signal detecting step for detecting an external input signal from the outside, an evaluating step for evaluating the external input signal detected in the input signal detecting step, and an evaluating step. An associating step of associating the obtained evaluation result with the action content information, and an action control step of controlling an action based on the action content information based on the evaluation associated in the associating step, to the robot apparatus. By executing the program, the robot apparatus in which the control of the action is executed by such a program can evaluate the learned action and cause the action to appear based on the evaluation.
【0126】また、本発明に係る記録媒体は、外部から
の外部入力信号を検出する入力信号検出工程と、入力信
号検出工程にて検出された外部入力信号を評価する評価
工程と、評価工程にて得た評価結果を行動内容情報に対
応付けする対応付け工程と、対応付け工程にて対応付け
された評価に基づいて、行動内容情報に基づいて行動の
制御を行う行動制御工程とをロボット装置に実行させる
プログラムが記録されており、このような記録媒体に記
録されているプログラムにより行動の制御が実行される
ロボット装置は、学習した行動を評価して、その評価に
基づいて行動を出現させることができる。Further, the recording medium according to the present invention includes an input signal detecting step for detecting an external input signal from the outside, an evaluation step for evaluating the external input signal detected in the input signal detecting step, and an evaluation step. Robot apparatus comprising: an associating step of associating the evaluation result obtained with the action content information; and an action control step of controlling an action based on the action content information based on the evaluation associated in the associating step. The robot device in which the program to be executed is recorded, and the control of the behavior is executed by the program recorded in such a recording medium, evaluates the learned behavior and causes the behavior to appear based on the evaluation. be able to.
【図1】実施の形態のロボット装置における発明を実現
する要部を示すブロック図である。FIG. 1 is a block diagram showing a main part for realizing the invention in a robot device according to an embodiment.
【図2】上述の学習部の具体的な構成であって、複数の
RNNによって階層的に構成されているものを示す図で
ある。FIG. 2 is a diagram showing a specific configuration of the above-described learning unit, which is hierarchically configured by a plurality of RNNs.
【図3】上述の階層構造として構成されている学習部の
下位層のRNNの構成を示す図である。FIG. 3 is a diagram illustrating a configuration of an RNN in a lower layer of a learning unit configured as the above-described hierarchical structure.
【図4】上述の階層構造として構成されている学習部の
上位層のRNNの構成を示す図である。FIG. 4 is a diagram illustrating a configuration of an RNN in an upper layer of a learning unit configured as the above-described hierarchical structure.
【図5】上述の学習部による行動学習を説明するために
使用した図である。FIG. 5 is a diagram used to explain behavior learning by the learning unit described above.
【図6】動作にリハーサルを実現するデータ処理部にお
ける構成を示す図である。FIG. 6 is a diagram illustrating a configuration of a data processing unit that implements rehearsal for operation.
【図7】実施の形態のロボット装置の外観構成を示す斜
視図である。FIG. 7 is a perspective view illustrating an external configuration of the robot device according to the embodiment.
【図8】上述のロボット装置の回路構成を示すブロック
図である。FIG. 8 is a block diagram showing a circuit configuration of the robot device described above.
【図9】上述のロボット装置のソフトウェア構成を示す
ブロック図である。FIG. 9 is a block diagram showing a software configuration of the robot device described above.
【図10】上述のロボット装置のソフトウェア構成にお
けるミドル・ウェア・レイヤの構成を示すブロック図で
ある。FIG. 10 is a block diagram showing a configuration of a middleware layer in a software configuration of the robot device described above.
【図11】上述のロボット装置のソフトウェア構成にお
けるアプリケーション・レイヤの構成を示すブロック図
である。FIG. 11 is a block diagram showing a configuration of an application layer in the software configuration of the robot device described above.
【図12】上述のアプリケーション・レイヤの行動モデ
ルライブラリの構成を示すブロック図である。FIG. 12 is a block diagram showing a configuration of an action model library of the application layer.
【図13】ロボット装置の行動決定のための情報となる
有限確率オートマトンを説明するために使用した図であ
る。FIG. 13 is a diagram used to explain a finite probability automaton that is information for determining an action of a robot device.
【図14】有限確率オートマトンの各ノードに用意され
た状態遷移表を示す図である。FIG. 14 is a diagram showing a state transition table prepared for each node of the finite probability automaton.
1 学習部、2検出部、3 評価部、4 対応付け部、
100 ロボット装置1 learning unit, 2 detection unit, 3 evaluation unit, 4 association unit,
100 robot device
Claims (9)
信号検出手段と、 上記入力信号検出手段により検出された外部入力信号を
評価する評価手段と、 上記評価手段による評価結果を行動内容情報に対応付け
する対応付け手段と、 上記対応付け手段により対応付けされた評価に基づい
て、上記行動内容情報に基づいて行動の制御を行う行動
制御手段とを備えることを特徴とするロボット装置。1. An input signal detecting means for detecting an external input signal from outside, an evaluating means for evaluating an external input signal detected by the input signal detecting means, and an evaluation result by the evaluating means as action content information. A robot device comprising: a matching unit for making a correspondence; and an action control unit that controls a behavior based on the behavior content information based on the evaluation associated with the correspondence unit.
おり、 上記学習手段は、学習により新たな行動と上記行動内容
情報とを対応させることを特徴とする請求項1記載のロ
ボット装置。2. The robot apparatus according to claim 1, further comprising learning means for learning a new action, wherein the learning means makes the new action correspond to the action content information by learning.
おり、 上記学習手段は、学習対象の行動とされる時系列データ
を、分節化して学習することを特徴とする請求項1記載
のロボット装置。3. The method according to claim 1, further comprising learning means for learning a new action, wherein the learning means segments and learns the time-series data to be the action to be learned. Robotic device.
又は重みであることを特徴とする請求項1記載のロボッ
ト装置。4. The robot apparatus according to claim 1, wherein the evaluation result is a probability or a weight for causing an action to appear.
と上記評価結果とが対とされて記憶される記憶手段であ
ることを特徴とする請求項1記載のロボット装置。5. The robot apparatus according to claim 1, wherein the association unit is a storage unit that stores the action content information and the evaluation result as a pair.
内的状態に基づいて行動をすることを特徴とする請求項
1記載のロボット装置。6. An internal state is changed according to input information,
The robot device according to claim 1, wherein the robot device acts based on an internal state.
が検出する入力信号検出工程と、 上記入力信号検出工程にて検出された外部入力信号を上
記ロボット装置が評価する評価工程と、 上記ロボット装置にて上記評価工程にて得た評価結果を
行動内容情報に対応付けする対応付け工程と、 上記対応付け工程にて対応付けされた評価に基づいて、
上記行動内容情報に基づいて上記ロボット装置が行動の
制御を行う行動制御工程とを有することを特徴とするロ
ボット装置の行動制御方法。7. An input signal detecting step in which the robot apparatus detects an external input signal from the outside; an evaluation step in which the robot apparatus evaluates the external input signal detected in the input signal detecting step; In the associating step of associating the evaluation result obtained in the above evaluating step with the action content information, based on the evaluation associated in the associating step,
A behavior control step of controlling the behavior of the robot apparatus based on the behavior content information.
信号検出工程と、 上記入力信号検出工程にて検出された外部入力信号を評
価する評価工程と、 上記評価工程にて得た評価結果を行動内容情報に対応付
けする対応付け工程と、 上記対応付け工程にて対応付けされた評価に基づいて、
上記行動内容情報に基づいて行動の制御を行う行動制御
工程とをロボット装置に実行させることを特徴とするプ
ログラム。8. An input signal detection step of detecting an external input signal from the outside, an evaluation step of evaluating the external input signal detected in the input signal detection step, and an evaluation result obtained in the evaluation step. Based on the associating step of associating with the action content information,
A program for causing a robot apparatus to execute a behavior control step of controlling behavior based on the behavior content information.
信号検出工程と、 上記入力信号検出工程にて検出された外部入力信号を評
価する評価工程と、 上記評価工程にて得た評価結果を行動内容情報に対応付
けする対応付け工程と、 上記対応付け工程にて対応付けされた評価に基づいて、
上記行動内容情報に基づいて行動の制御を行う行動制御
工程とをロボット装置に実行させるプログラムが記録さ
れることを特徴とする記録媒体。9. An input signal detecting step of detecting an external input signal from outside, an evaluating step of evaluating the external input signal detected in the input signal detecting step, and an evaluation result obtained in the evaluating step. Based on the associating step of associating with the action content information and the evaluation associated in the associating step,
A recording medium on which a program for causing a robot apparatus to execute an action control step of controlling an action based on the action content information is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001071053A JP2002269530A (en) | 2001-03-13 | 2001-03-13 | Robot, behavior control method of the robot, program and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001071053A JP2002269530A (en) | 2001-03-13 | 2001-03-13 | Robot, behavior control method of the robot, program and storage medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002269530A true JP2002269530A (en) | 2002-09-20 |
Family
ID=18928828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001071053A Withdrawn JP2002269530A (en) | 2001-03-13 | 2001-03-13 | Robot, behavior control method of the robot, program and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002269530A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017134735A1 (en) * | 2016-02-02 | 2017-08-10 | 株式会社日立製作所 | Robot system, robot optimization system, and robot operation plan learning method |
JP2019046375A (en) * | 2017-09-06 | 2019-03-22 | 株式会社半導体エネルギー研究所 | Semiconductor device, electronic component, and electronic device |
JP2021014010A (en) * | 2017-06-27 | 2021-02-12 | 正好 石井 | Manipulator control device and manipulator control system |
-
2001
- 2001-03-13 JP JP2001071053A patent/JP2002269530A/en not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017134735A1 (en) * | 2016-02-02 | 2017-08-10 | 株式会社日立製作所 | Robot system, robot optimization system, and robot operation plan learning method |
JP2021014010A (en) * | 2017-06-27 | 2021-02-12 | 正好 石井 | Manipulator control device and manipulator control system |
JP7197753B2 (en) | 2017-06-27 | 2022-12-28 | 正好 石井 | Manipulator control device and manipulator control system |
JP2019046375A (en) * | 2017-09-06 | 2019-03-22 | 株式会社半導体エネルギー研究所 | Semiconductor device, electronic component, and electronic device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6539283B2 (en) | Robot and action deciding method for robot | |
CN100423911C (en) | Robotic device and its behavior control method | |
US6697711B2 (en) | Operational control method, program, and recording media for robot device, and robot device | |
US7117190B2 (en) | Robot apparatus, control method thereof, and method for judging character of robot apparatus | |
US6889117B2 (en) | Robot apparatus and method and system for controlling the action of the robot apparatus | |
US8145492B2 (en) | Robot behavior control system and method, and robot apparatus | |
JP2003039363A (en) | Robot device, action learning method therefor, action learning program thereof, and program recording medium | |
US20030088336A1 (en) | Robot and control method for controlling the robot's motions | |
JP4296736B2 (en) | Robot device | |
JP2004298975A (en) | Robot device and obstacle searching method | |
JP2002239952A (en) | Robot device, action control method for robot device, program, and recording medium | |
KR20020067694A (en) | Robot apparatus and robot apparatus motion control method | |
JP2003136456A (en) | Robot device, brightness detection method of robot device, brightness detection program and recording medium | |
JP2002205289A (en) | Action control method for robot device, program, recording medium and robot device | |
JP2002269530A (en) | Robot, behavior control method of the robot, program and storage medium | |
JP2002264057A (en) | Robot device, action control method for robot device, program and recording medium | |
JP2001157980A (en) | Robot device, and control method thereof | |
JP2001154707A (en) | Robot device and its controlling method | |
JP2001157979A (en) | Robot device, and control method thereof | |
JP2001157981A (en) | Robot device and control method thereof | |
JP2001157982A (en) | Robot device and control method thereof | |
JP2001157983A (en) | Robot device and character determining method of robot device | |
JP2005078377A (en) | Traveling object detecting device and method, and robot device | |
JP2002120171A (en) | Movement expressing device and toy | |
JP2001191282A (en) | Robot device and its controlling method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080513 |