[go: up one dir, main page]

JP3703821B2 - Parallel learning device, parallel learning method, and parallel learning program - Google Patents

Parallel learning device, parallel learning method, and parallel learning program Download PDF

Info

Publication number
JP3703821B2
JP3703821B2 JP2003310383A JP2003310383A JP3703821B2 JP 3703821 B2 JP3703821 B2 JP 3703821B2 JP 2003310383 A JP2003310383 A JP 2003310383A JP 2003310383 A JP2003310383 A JP 2003310383A JP 3703821 B2 JP3703821 B2 JP 3703821B2
Authority
JP
Japan
Prior art keywords
learning
action
action policy
state
policy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003310383A
Other languages
Japanese (ja)
Other versions
JP2005078516A (en
Inventor
英治 内部
賢治 銅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2003310383A priority Critical patent/JP3703821B2/en
Publication of JP2005078516A publication Critical patent/JP2005078516A/en
Application granted granted Critical
Publication of JP3703821B2 publication Critical patent/JP3703821B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Description

本発明は、与えられたタスクを達成するための行動方策を学習する並列学習装置、並列学習方法及び並列学習プログラムに関するものである。   The present invention relates to a parallel learning device, a parallel learning method, and a parallel learning program for learning an action policy for achieving a given task.

ミンスキーは、人間社会と同様に人間の心も、様々なエージェントが協調したり競合したりして動かしており、知能を単純なエージェントの集まりとして捉え、エージェント間の相互作用の結果、全体としての振る舞いを生成していると提唱している。この考え方は計算論的神経科学の分野でも注目を集めており、運動手続きの学習の研究でも、複数の学習モジュールがそれぞれ同時に並行して異なる座標系で学習し、それぞれ系列の学習に貢献していることが示唆されている。   Minsky, as well as human society, moves the human mind as various agents collaborate and compete with each other, see intelligence as a collection of simple agents, and as a result of the interaction between agents, It is advocated that it generates behavior. This idea is also attracting attention in the field of computational neuroscience, and even in the study of motor procedure learning, multiple learning modules can simultaneously learn in different coordinate systems and contribute to learning of each series. It is suggested that

また、強化学習を使って、複雑な行動を学習する課題に対しても、複数の学習器を準備し、それを切り替える方法が既にいくつか提案されている。例えば、複数の学習器をTD 誤差に応じて切り替える方法(非特許文献1参照)や、制御対象の予測モデルと強化学習器とを組にしたモジュールを並列に用い、それらを予測モデルの予測誤差に基づいて切り替えて組み合わせる方法(非特許文献2参照)が提案されている。
エス ピー シン(S. P. Singh)、「エレメンタルシーケンシャルタスクの解法の組み立てによる学習転送」(Transfer of learning by composing solutions of elemental sequential tasks)、マシンラーニング(Machine Learning)、1992年、vol.3、p.9−p.44 ケイ ドウヤ(K. Doya)他、「複数モデルに基づく強化学習」(Multiple Model-Based Reinforcement Learning)、ニューラルコンピューテーション(Neural Computation)、2002年、vol.14、p.1347−p.1369
Also, several methods for preparing a plurality of learning devices and switching them have already been proposed for a task of learning complex behavior using reinforcement learning. For example, a method of switching a plurality of learners according to a TD error (see Non-Patent Document 1) or a module in which a prediction model to be controlled and a reinforcement learner are paired is used in parallel, and the prediction error of the prediction model is used. A method of switching and combining based on (see Non-Patent Document 2) has been proposed.
SP Singh, “Transfer of learning by composing solutions of elemental sequential tasks”, Machine Learning, 1992, vol. 3, p. 9-p. 44 K. Doya et al., “Multiple Model-Based Reinforcement Learning”, Neural Computation, 2002, vol. 14, p. 1347-p. 1369

しかしながら、上記の従来手法では、各学習器が同じ構造を有し、同じ学習法を使用しているため、学習器全体の学習効率は1個の学習器により学習する場合と何ら変わらず、複数の学習器を効率的に学習させることはできない。   However, in the above conventional method, since each learning device has the same structure and uses the same learning method, the learning efficiency of the entire learning device is not different from the case of learning with one learning device, and there are a plurality of learning devices. It is not possible to train the learners efficiently.

本発明の目的は、複数の学習手段を効率的に学習させることにより、タスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる並列学習装置、並列学習方法及び並列学習プログラムを提供することである。   An object of the present invention is to provide a parallel learning apparatus, a parallel learning method, and a parallel learning program capable of significantly reducing a learning time until a structure suitable for a task is acquired by efficiently learning a plurality of learning means. Is to provide.

本発明に係る並列学習装置は、与えられたタスクを達成するための行動方策を学習する並列学習装置であって、外界の状態を取得する取得手段と、取得手段により取得された外界の状態に基づいて学習し、学習した結果から行動方策を決定する複数の学習手段と、複数の学習手段が決定した複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択手段とを備え、選択手段が、複数の学習手段の中から各学習手段の学習性能に基づいて一の学習手段を選択し、取得手段が、外界の状態を取得し、複数の学習手段の各々が、取得手段により取得された外界の状態に基づいて他の学習手段と同時に学習し、学習した結果から行動方策を決定し、選択手段が、選択した一の学習手段により決定された行動方策を出力し、複数の学習手段の各々が、重点サンプリング法を用いて、当該学習手段が決定した行動方策と選択手段により選択された一の学習手段の行動方策との類似度に応じて学習に用いるパラメータに重み付けを行うことにより、学習に用いるパラメータを補正する処理を繰り返すものである。 A parallel learning device according to the present invention is a parallel learning device that learns an action policy for achieving a given task, and includes an acquisition unit that acquires an external state, and an external state acquired by the acquisition unit. select a plurality of learning means, one of the action policy based on the learning performance of each learning means from among a plurality of action policy in which a plurality of learning means has determined that learns to determine the action policy from a result of learning based Selecting means for selecting one learning means based on the learning performance of each learning means from among the plurality of learning means, the acquiring means acquiring the state of the outside world, and the plurality of learning means Each learning at the same time as other learning means based on the state of the external world acquired by the acquisition means, determining an action policy from the learning result, and the action determined by the selection learning means selected by the selection means Output the strategy, Each of the learning means weights the parameters used for learning according to the similarity between the action policy determined by the learning means and the action policy of one learning means selected by the selection means, using the importance sampling method By repeating the above, the process of correcting the parameters used for learning is repeated .

本発明に係る並列学習装置では、外界の状態が取得され、取得された外界の状態に基づいて複数の学習手段が同時に学習し、学習した結果から行動方策が決定され、決定された複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策が選択され、選択された行動方策に従う行動が実行される。   In the parallel learning device according to the present invention, the state of the outside world is acquired, a plurality of learning means learn simultaneously based on the acquired state of the outside world, the action policy is determined from the learning result, and the plurality of determined actions One action policy is selected from the policies based on the learning performance of each learning means, and an action according to the selected action policy is executed.

上記の処理が繰り返されることにより、選択された学習手段が決定した行動方策により得られた経験から、選択されていない他の学習手段も学習し、タスクを達成するための行動方策を複数の学習手段が同時に学習することができるので、複数の学習器を効率的に学習させることができ、タスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる。   By repeating the above process, other learning means that have not been selected are also learned from the experience obtained by the action policy determined by the selected learning means, and multiple action strategies for achieving the task are learned. Since the means can learn at the same time, a plurality of learners can be efficiently learned, and the learning time until a structure suitable for a task is acquired can be greatly shortened.

選択手段は、複数の学習手段の中から、学習性能が最も高い学習手段が一つある場合はこの学習手段を選択し、学習性能が高い学習手段が複数あり且つこれらの学習手段の学習性能が所定範囲内にある場合はこれらの学習手段から一の学習手段を等確率になるように選択することが好ましい。この場合、学習性能が所定範囲内にある学習手段の中から一の学習手段を確率的に選択することができるので、複数の学習手段を効率的に学習させることができる。 When there is one learning means with the highest learning performance among the plurality of learning means, the selection means selects this learning means, and there are a plurality of learning means with high learning performance, and the learning performance of these learning means is When it is within the predetermined range, it is preferable to select one learning means from these learning means with equal probability . In this case, since one learning means can be selected probabilistically from learning means whose learning performance is within the predetermined range, a plurality of learning means can be efficiently learned.

複数の学習手段の各々は、状態表現及び学習方法の少なくとも一方が他の学習手段と異なることが好ましい。この場合、学習特性の異なる複数の学習手段を用いて学習することができるので、例えば、単純な構成の学習手段が迅速に収集したデータを複雑な構成の学習手段に利用することができるので、学習速度を向上することができるとともに、学習性能を向上することができる。   Each of the plurality of learning means is preferably different from other learning means in at least one of state expression and learning method. In this case, since learning can be performed using a plurality of learning means having different learning characteristics, for example, the data quickly collected by the learning means having a simple configuration can be used for the learning means having a complicated configuration. The learning speed can be improved and the learning performance can be improved.

複数の学習手段の各々は、取得手段により取得された外界の状態に基づいて、所定のパラメータを用いて学習性能を評価するための価値関数を算出する算出手段と、取得手段により取得された外界の状態及び算出手段により算出された価値関数に基づいて行動方策を決定する決定手段と、取得手段により取得された外界の状態、決定手段により決定された行動方策及び選択手段により選択された行動方策に基づいて算出手段のパラメータを補正する補正手段とを備えることが好ましい。   Each of the plurality of learning means includes a calculation means for calculating a value function for evaluating learning performance using a predetermined parameter based on a state of the external world acquired by the acquisition means, and an external environment acquired by the acquisition means Determining means for determining an action policy based on the status function and the value function calculated by the calculating means; an external state acquired by the acquiring means; an action policy determined by the determining means; and an action policy selected by the selecting means It is preferable to include a correction unit that corrects the parameter of the calculation unit based on the above.

この場合、取得された外界の状態と、外界の状態及び価値関数に基づいて決定された行動方策と、選択された行動方策とに基づいて、価値関数を算出するために使用するパラメータを補正しているので、選択された学習手段が決定した行動方策により得られた経験から、選択されていない他の学習手段も学習することができる。   In this case, the parameters used for calculating the value function are corrected based on the acquired external state, the action policy determined based on the external state and the value function, and the selected action policy. Therefore, other learning means that are not selected can be learned from the experience obtained by the action policy determined by the selected learning means.

複数の学習手段のうちの少なくとも一の学習手段は、決定手段により決定された行動方策を記憶する記憶手段をさらに備えることが好ましい。この場合、学習手段が記憶手段を備えているので、部分観測マルコフ決定問題を取り扱うことができる。   Preferably, at least one learning means of the plurality of learning means further includes a storage means for storing the action policy determined by the determination means. In this case, since the learning means includes the storage means, it is possible to handle the partial observation Markov decision problem.

本発明に係る並列学習方法は、取得手段、複数の学習手段及び選択手段を備える並列学習装置を用いて、与えられたタスクを達成するための行動方策を学習する並列学習方法であって、選択手段が、複数の学習手段の中から各学習手段の学習性能に基づいて一の学習手段を選択する選択ステップと、取得手段が、外界の状態を取得する取得ステップと、複数の学習手段の各々が、取得ステップにおいて取得された外界の状態に基づいて他の学習手段と同時に学習し、学習した結果から行動方策を決定する学習ステップと、選択手段が、選択ステップにおいて選択した一の学習手段により決定された行動方策を出力するステップと、複数の学習手段の各々が、重点サンプリング法を用いて、当該学習手段が決定した行動方策と選択ステップにおいて選択された一の学習手段の行動方策との類似度に応じて学習に用いるパラメータに重み付けを行うことにより、学習に用いるパラメータを補正するステップとを繰り返すものである。 Parallel learning method according to the present invention, the acquisition means, a parallel learning method using a parallel learning device comprising a plurality of learning means and selection means learns the action policy for accomplishing a given task, selecting Each of the selection step in which the means selects one learning means from the plurality of learning means based on the learning performance of each learning means, the acquisition step in which the acquisition means acquires the state of the outside world, and each of the plurality of learning means However, the learning step of learning simultaneously with other learning means based on the state of the external world acquired in the acquisition step, and determining the action policy from the learning result, and the selection means by one learning means selected in the selection step The step of outputting the determined action policy, and each of the plurality of learning means uses the importance sampling method to the action policy and selection step determined by the learning means. By performing weighting parameters used for learning in accordance with the degree of similarity between the action policy of one learning means selected Te, but repeating the step of correcting the parameters used for learning.

本発明に係る並列学習プログラムは、与えられたタスクを達成するための行動方策を学習するための並列学習プログラムであって、外界の状態を取得する取得手段と、取得手段
により取得された外界の状態に基づいて学習し、学習した結果から行動方策を決定する複数の学習手段と、複数の学習手段が決定した複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択手段としてコンピュータを機能させ、選択手段が、複数の学習手段の中から各学習手段の学習性能に基づいて一の学習手段を選択し、取得手段が、外界の状態を取得し、複数の学習手段の各々が、取得手段により取得された外界の状態に基づいて他の学習手段と同時に学習し、学習した結果から行動方策を決定し、選択手段が、選択した一の学習手段により決定された行動方策を出力し、複数の学習手段の各々が、重点サンプリング法を用いて、当該学習手段が決定した行動方策と選択手段により選択された一の学習手段の行動方策との類似度に応じて学習に用いるパラメータに重み付けを行うことにより、学習に用いるパラメータを補正する処理を繰り返すものである。
A parallel learning program according to the present invention is a parallel learning program for learning an action policy for achieving a given task, and includes an acquisition unit that acquires an external state, and an external environment acquired by the acquisition unit. learns based on the state, a plurality of learning means for determining the action policy from a result of learning, one action policy based from among a plurality of action policy in which a plurality of learning means has determined the learning performance of each learning means The selection unit selects one learning unit based on the learning performance of each learning unit from the plurality of learning units, the acquisition unit acquires the external state, Each of the plurality of learning means learns simultaneously with other learning means based on the state of the external world acquired by the acquisition means, determines an action policy from the learning result, and the selection means selects one learning The action policy determined by the step is output, and each of the plurality of learning means uses the importance sampling method to determine the action policy determined by the learning means and the action policy of the one learning means selected by the selection means. The process of correcting the parameters used for learning is repeated by weighting the parameters used for learning according to the degree of similarity .

本発明によれば、選択された学習手段が決定した行動方策により得られた経験から、選択されていない他の学習手段も学習し、タスクを達成するための行動方策を複数の学習手段が同時に学習することができるので、複数の学習器を効率的に学習させることができ、タスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる。   According to the present invention, other learning means that are not selected are also learned from the experience obtained by the action policy determined by the selected learning means, and the plurality of learning means simultaneously execute the action policy for achieving the task. Since learning can be performed, a plurality of learners can be efficiently learned, and the learning time until a structure suitable for a task is acquired can be greatly shortened.

以下、本発明の一実施の形態による並列学習装置について図面を参照しながら説明する。図1は、本発明の一実施の形態による並列学習装置を用いた学習システムの構成を示すブロック図である。   Hereinafter, a parallel learning apparatus according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a learning system using a parallel learning device according to an embodiment of the present invention.

図1に示す学習システムは、センサ部1、並列学習装置2及びアクチュエータ部3を備える。並列学習装置2は、ROM(リードオンリメモリ)、CPU(中央演算処理装置)、RAM(ランダムアクセスメモリ)等を備える通常のマイクロコンピュータ、A/D(アナログ/デジタル)変換器、D/A(デジタル/アナログ)変換器等から構成され、ROMに記憶された並列学習プログラムをCPUにおいて実行することにより、状態取得部11、確率的選択器12、切り替え器13及びn個の学習器21〜2nとして機能し、与えられたタスクを達成するための行動方策を学習する。   The learning system shown in FIG. 1 includes a sensor unit 1, a parallel learning device 2, and an actuator unit 3. The parallel learning device 2 includes a normal microcomputer including a ROM (read only memory), a CPU (central processing unit), a RAM (random access memory), an A / D (analog / digital) converter, a D / A ( The state acquisition unit 11, the probabilistic selector 12, the switch 13, and the n learning devices 21 to 2n are configured by a CPU and a parallel learning program that is configured by a digital / analog) converter and stored in the ROM. Learn how to act and act to achieve a given task.

センサ部1は、外界の状態を検出する種々のセンサ等から構成され、アクチュエータ部3は、与えられたタスクを達成するための行動方策に従う所定の行動を実行する種々のアクチュエータ等から構成される。例えば、学習システムが自律走行ロボットとして構成された場合、センサ部1として、外界の画像を撮影するカメラ、移動距離を検出する距離センサ、車輪の回転量を積算して初期位置からの移動量を計算するオドメトリ等を用いることができ、アクチュエータ部3として、任意の方向に移動するための車輪及びモータ等を用いることができる。   The sensor unit 1 is composed of various sensors that detect the state of the outside world, and the actuator unit 3 is composed of various actuators that execute a predetermined action according to an action policy for achieving a given task. . For example, when the learning system is configured as an autonomous traveling robot, the sensor unit 1 can be a camera that captures an image of the outside world, a distance sensor that detects a moving distance, a wheel rotation amount, and an amount of movement from an initial position. Odometry to be calculated can be used, and as the actuator unit 3, wheels and motors for moving in an arbitrary direction can be used.

センサ部1は、外界の状態を検出して状態取得部11へ出力する。状態取得部11は、センサ部1により検出された外界の状態を取得してn個の学習器21〜2nへ出力する。各学習器21〜2nは、補正器31、価値関数部32及び制御器33を備える。但し、価値関数部32及び制御器33の具体的構成は互いに異なり、状態表現及び学習方法の少なくとも一方が他の学習器と異なる。各学習器21〜2nは、取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定して切り替え器13へ出力する。   The sensor unit 1 detects the state of the outside world and outputs it to the state acquisition unit 11. The state acquisition unit 11 acquires the state of the outside world detected by the sensor unit 1 and outputs it to the n learning devices 21 to 2n. Each of the learning devices 21 to 2n includes a corrector 31, a value function unit 32, and a controller 33. However, the specific structures of the value function unit 32 and the controller 33 are different from each other, and at least one of the state expression and the learning method is different from other learning devices. Each of the learning devices 21 to 2n learns simultaneously based on the acquired state of the outside world, determines an action policy from the learned result, and outputs the action policy to the switching device 13.

また、各学習器21〜2nは、自身が決定した行動方策と切り替え器13から出力される行動方策との類似度に応じて重み付けを行い、学習に用いるパラメータを補正する。ここで、各学習器21〜2nは、後述する重点サンプリング(importance sampling)法を用いて重み付けを行うことが好ましい。   Each of the learning devices 21 to 2n performs weighting according to the degree of similarity between the action policy determined by itself and the action policy output from the switcher 13, and corrects the parameters used for learning. Here, each of the learning devices 21 to 2n is preferably weighted using an importance sampling method described later.

価値関数部32は、状態取得部11からの外界の状態に基づいて学習性能を評価するための価値関数を所定のパラメータを用いて算出し、算出した価値関数を制御器33及び確率的選択器12へ出力する。制御器33は、状態取得部11からの外界の状態及び価値関数部32により算出された価値関数に基づいて行動方策を決定し、決定した行動方策を切り替え器13へ出力する。補正器31は、価値関数部32から現在設定されているパラメータを読み出し、状態取得部11からの外界の状態、制御器33により決定された行動方策並びに確率的選択器12及び切り替え器13により選択された学習器の行動方策に基づいて価値関数部32のパラメータを補正してパラメータを更新する。   The value function unit 32 calculates a value function for evaluating the learning performance based on the state of the external world from the state acquisition unit 11 using predetermined parameters, and the calculated value function is calculated by the controller 33 and the stochastic selector. 12 is output. The controller 33 determines an action policy based on the state of the outside world from the state acquisition unit 11 and the value function calculated by the value function unit 32, and outputs the determined action policy to the switcher 13. The corrector 31 reads the currently set parameters from the value function unit 32, selects the external state from the state acquisition unit 11, the action policy determined by the controller 33, and the stochastic selector 12 and the switch 13. The parameters of the value function unit 32 are corrected based on the learned learning device action policy, and the parameters are updated.

確率的選択器12は、各学習器21〜2nの価値関数部32から価値関数を取得し、取得した価値関数を基に複数の学習器21〜2nの中から最適な行動方策を決定した一の学習器を選択するように切り替え器13の動作を制御する。例えば、確率的選択器12は、学習性能が最も高い学習器が一つある場合はこの学習器の行動方策を選択し、学習性能が高い学習器が複数あり且つこれらの学習器の学習性能が所定範囲内にある場合はこれらの学習器の行動方策の中から一の行動方策を略等確率で選択するように切り替え器13の動作を制御する。   The probabilistic selector 12 acquires the value function from the value function unit 32 of each of the learners 21 to 2n, and determines the optimum action policy from the plurality of learners 21 to 2n based on the acquired value function. The operation of the switcher 13 is controlled so as to select the learning device. For example, if there is one learner with the highest learning performance, the stochastic selector 12 selects an action policy of this learner, and there are a plurality of learners with high learning performance, and the learning performance of these learners is When it is within the predetermined range, the operation of the switcher 13 is controlled so that one action policy is selected from the action policies of these learning devices with a substantially equal probability.

切り替え器13は、複数の行動方策の中から確率的選択器12に指示された学習器の行動方策を選択し、選択した行動方策を各学習器21〜2nへ出力するとともに、選択した行動方策に従う行動をアクチュエータ部3に実行させる。アクチュエータ部3は、選択した行動方策に従う行動を実行する。この行動により外界の状態が変化し、この変化をセンサ部1によって検出して上記の処理を繰り返すことにより、複数の学習器21〜2nが同時に学習することとなる。   The switcher 13 selects the action policy of the learning device instructed by the probabilistic selector 12 from the plurality of action policies, outputs the selected action policy to each of the learners 21 to 2n, and selects the selected action policy. The actuator unit 3 is caused to execute an action according to the above. The actuator unit 3 executes an action according to the selected action policy. By this action, the state of the outside world changes. By detecting this change by the sensor unit 1 and repeating the above processing, the plurality of learning devices 21 to 2n learn simultaneously.

例えば、複数の学習器M(i=1,…,n)は、価値関数法又は方策勾配法を用いて与えられたタスクを達成するための制御方策πを学習し、各学習器Mの状態価値関数をVとすると、並列学習装置2は、各エピソードごとに初期観測xを基に、下記の確率に従って学習器Mを選択する。 For example, a plurality of learners M i (i = 1,..., N) learn a control policy π i for achieving a given task using a value function method or a policy gradient method, and each learner M When the state value function of i is V i , the parallel learning device 2 selects the learning device M i according to the following probability based on the initial observation x 0 for each episode.

ここで、TSelは、選択確率のランダムさを制御するパラメータであり、大きければランダムに学習器を選択する傾向がある。選ばれた学習器の行動方策を挙動方策(behavior policy)といい、πBehと表記する。並列学習装置2は、πBehを用いて得られたエピソードで個々の学習器Mの目的方策(target policy)を評価する。 Here, T Sel is a parameter for controlling the randomness of the selection probability, and if it is large, there is a tendency to select a learning device at random. The action policy of the selected learning device is referred to as a behavior policy and is denoted as π Beh . The parallel learning device 2 evaluates the target policy of each learner M i using episodes obtained using π Beh .

なお、学習器の構成は、上記の例に特に限定されず、種々の変更が可能であり、例えば、下記の外部メモリを付加してもよい。この場合、部分観測マルコフ決定問題(POMDP:Partially Observable Markov Decision Process)を取り扱うことができる。   The configuration of the learning device is not particularly limited to the above example, and various modifications are possible. For example, the following external memory may be added. In this case, a partially observable Markov decision process (POMDP: Partially Observable Markov Decision Process) can be handled.

図2は、学習器の他の構成を示すブロック図である。図2に示す学習器21aと図1に示す学習器21〜2nとで異なる点は、外部メモリ34が付加され、補正器31、価値関数部32及び制御器33が補正器31a、価値関数部32a及び制御器33aに変更された点であり、以下異なる点について詳細に説明する。   FIG. 2 is a block diagram showing another configuration of the learning device. The learning device 21a shown in FIG. 2 differs from the learning devices 21 to 2n shown in FIG. 1 in that an external memory 34 is added, and the corrector 31, the value function unit 32, and the controller 33 are the corrector 31a and the value function unit. The points that have been changed to 32a and the controller 33a will be described in detail below.

外部メモリ34は、lビットの記憶容量を有し、制御器33aが決定した行動方策を記憶し、記憶している行動方策を補正器31a、価値関数部32a及び制御器33aへ出力する。また、外部メモリ34には状態取得部11からの外界の状態が入力され、外界の状態を記録することもできる。価値関数部32aは、状態取得部11からの外界の状態及び外部メモリ34からの行動方策に基づいて学習性能を評価するための価値関数を所定のパラメータを用いて算出し、算出した価値関数を制御器33a及び確率的選択器12へ出力する。制御器33aは、状態取得部11からの外界の状態、外部メモリ34からの行動方策及び価値関数部32aにより算出された価値関数に基づいて行動方策を決定し、決定した行動方策を切り替え器13へ出力する。補正器31aは、価値関数部32aから現在設定されているパラメータを読み出し、状態取得部11からの外界の状態、外部メモリ34からの行動方策、制御器33aにより決定された行動方策及び切り替え器13から出力される学習器の行動方策に基づいて価値関数部32aのパラメータを補正してパラメータを更新する。   The external memory 34 has a storage capacity of 1 bit, stores the action policy determined by the controller 33a, and outputs the stored action policy to the corrector 31a, the value function unit 32a, and the controller 33a. In addition, the external memory 34 receives the external state from the state acquisition unit 11 and can record the external state. The value function unit 32a calculates a value function for evaluating learning performance based on the state of the external world from the state acquisition unit 11 and the action policy from the external memory 34 using predetermined parameters, and calculates the calculated value function. It outputs to the controller 33a and the stochastic selector 12. The controller 33a determines the action policy based on the external state from the state acquisition unit 11, the action policy from the external memory 34, and the value function calculated by the value function unit 32a, and the determined action policy is switched to the switch 13. Output to. The corrector 31a reads the currently set parameters from the value function unit 32a, the state of the external world from the state acquisition unit 11, the action policy from the external memory 34, the action policy determined by the controller 33a, and the switcher 13. The parameters of the value function unit 32a are corrected by updating the parameters of the value function unit 32a based on the action policy of the learning device that is output from.

上記の構成により、学習器21aは、時刻tにおいてセンサ部1によって得られる環境の状態o以外に、外部メモリ34の情報mを利用でき、制御器33aの行動方策aは、実際に状態遷移を引き起こすアクチュエータ部3による環境への行動出力a と、メモリビットを操作する行動方策a から構成される。 With the above configuration, the learning unit 21a, in addition to the state o t of the resulting environmental by the sensor unit 1 at time t, can use the information m t of the external memory 34, action policy a t the controller 33a is actually and action output a e t to the environment by the actuator unit 3 to cause a state transition, and a action policy a m t to manipulate the memory bit.

この場合、学習器21aで利用される観測量xは、環境の状態oと外部メモリ34の情報mとの組み合わせで表現され、x=(o,m)となる。外部メモリ34の各ビットは1又は0をとるため、情報mは全部で2個となる。また、行動方策a は外部メモリ34の各ビットを1にする行動と0にする行動とを有するため、全部で2l個となる。なお、a とa との組み合わせで学習器21aの行動方策a とすることもできるが、複雑さを抑えるためにa をa と同様のプリミティブな行動の一つとして付加するようにしてもよい。 In this case, the observed amount x t to be used in the learning unit 21a is expressed in combination with information m t of the state of the environment o t and the external memory 34, x t = (o t, m t) becomes. Since each bit of the external memory 34 takes 1 or 0, the information m t is 2 l in total. Further, since the action policy a m t has an action of setting each bit of the external memory 34 to 1 and an action of setting it to 0, the total number of actions is 2l. Incidentally, one of the combinations can also be a behavioral measures a t learners 21a, similar primitives and the a m t a e t in order to suppress the complexity behavior of a e t and a m t You may make it add as.

本実施の形態では、状態取得部11が取得手段の一例に相当し、学習器21〜2n,21aが学習手段の一例に相当し、確率的選択器12及び切り替え器13が選択手段の一例に相当し、価値関数部32,32aが算出手段の一例に相当し、制御器33,33aが決定手段の一例に相当し、補正器31,31aが補正手段の一例に相当する。また、外部メモリ34が記憶手段の一例に相当する。   In the present embodiment, the state acquisition unit 11 corresponds to an example of an acquisition unit, the learning devices 21 to 2n and 21a correspond to an example of a learning unit, and the probabilistic selector 12 and the switch 13 are an example of a selection unit. The value function units 32 and 32a correspond to an example of a calculation unit, the controllers 33 and 33a correspond to an example of a determination unit, and the correctors 31 and 31a correspond to an example of a correction unit. The external memory 34 corresponds to an example of a storage unit.

次に、上記のように構成された学習システムの並列学習処理について説明する。図3は、図1に示す並列学習装置の並列学習処理を説明するためのフローチャートである。   Next, the parallel learning process of the learning system configured as described above will be described. FIG. 3 is a flowchart for explaining parallel learning processing of the parallel learning apparatus shown in FIG.

まず、ステップS1において、確率的選択器12は、各学習器21〜2nの学習性能を基に一の学習器を確率的に選択する。具体的には、確率的選択器12は、学習性能が最も高い学習器が一つある場合はこの学習器を選択し、学習性能が高い学習器が複数あり且つこれらの学習器の学習性能が所定範囲内にある場合はこれらの学習器から一の学習器を等確率になるように選択する。 First, in step S1, the stochastic selector 12 probabilistically selects one learner based on the learning performance of each of the learners 21 to 2n. Specifically, the stochastic selector 12 selects this learning device when there is one learning device with the highest learning performance, and there are a plurality of learning devices with high learning performance, and the learning performance of these learning devices is If it is within the predetermined range, one learner is selected from these learners with equal probability.

学習器が選択された後、ステップS2において、状態取得部11は、センサ部1が検出した外界の状態を取得し、各学習器21〜2nの価値関数部32に与える。   After the learning device is selected, in step S2, the state acquisition unit 11 acquires the state of the outside world detected by the sensor unit 1, and gives it to the value function unit 32 of each learning device 21 to 2n.

次に、ステップS3において、各学習器21〜2nの価値関数部32は、状態取得部11からの外界の状態に基づいて価値関数を算出し、算出した価値関数を制御器33へ出力し、制御器33は、状態取得部11からの外界の状態及び価値関数部32により算出された価値関数に基づいて行動方策を決定し、決定した行動方策を切り替え器13へ出力する。このとき、確率的選択器12は、ステップS1で選択した学習器の行動方策をアクチュエータ部3へ出力するように切り替え器13を制御して行動方策を決定する。   Next, in step S3, the value function unit 32 of each of the learning devices 21 to 2n calculates a value function based on the state of the external world from the state acquisition unit 11, and outputs the calculated value function to the controller 33. The controller 33 determines an action policy based on the state of the outside world from the state acquisition unit 11 and the value function calculated by the value function unit 32, and outputs the determined action policy to the switcher 13. At this time, the stochastic selector 12 determines the action policy by controlling the switch 13 so that the action policy of the learning device selected in step S1 is output to the actuator unit 3.

次に、ステップS4において、切り替え器13は、アクチュエータ部3を駆動し、確率的選択器12により選択されている学習器の行動方策に従う行動をアクチュエータ部3に実行させ、アクチュエータ部3は、選択した行動方策に従う行動を実行する。   Next, in step S4, the switching unit 13 drives the actuator unit 3 to cause the actuator unit 3 to execute an action in accordance with the behavior policy of the learning device selected by the stochastic selector 12, and the actuator unit 3 selects Execute the action according to the action policy.

次に、ステップS5において、各学習器21〜2nの補正器31は、価値関数部32から現在の各パラメータを読み出し、状態取得部11からの外界の状態、制御器33により決定された行動方策及び切り替え器13により選択された学習器の行動方策に基づいて各パラメータを補正して価値関数部32の各パラメータを更新し、重点サンプリング法による分配処理を実行する。   Next, in step S <b> 5, the corrector 31 of each of the learning devices 21 to 2 n reads the current parameters from the value function unit 32, the external state from the state acquisition unit 11, and the action policy determined by the controller 33. And each parameter is correct | amended based on the action policy of the learning device selected by the switch 13, the parameter of the value function part 32 is updated, and the distribution process by an important sampling method is performed.

ここで、上記の重点サンプリング法による分配処理について詳細に説明する。なお、以下の説明では、学習器21〜2nとして図2に示す外部メモリ34を有する学習器21aを用いた場合を例に説明する。   Here, the distribution processing by the above-described importance sampling method will be described in detail. In the following description, a case where the learning device 21a having the external memory 34 shown in FIG. 2 is used as the learning devices 21 to 2n will be described as an example.

時刻t における環境の状態がsのとき、並列学習装置2はセンサ部1によってその一部をoとして受け取り、そのときの外部メモリ34の情報をmとすると、各学習器21〜2nが取得する観測量xは、x=(o,m)となる。このとき、行動方策πに従ってアクチュエータ部3により行動aを出力すると、結果として環境はst+1に状態遷移し、その評価値であるスカラーの報酬rを得る。行動方策πの下での状態sの価値Vπ(s)は、下式で与えられる。 When the state of the environment at time t is s t, the parallel learning apparatus 2 receives a part of the sensor unit 1 as o t, the information of the external memory 34 at that time and m t, the learner 21~2n The observation amount x t acquired by x becomes x t = (o t , m t ). At this time, when outputting the action a t the actuator unit 3 according to action policy [pi, resulting environment is state transition s t + 1, to obtain a scalar reward r t is the evaluation value. The value V π (s) of the state s under the action policy π is given by the following equation.

ここで、R(s) は状態sから観測される収益であり、γは減衰率(0≦γ≦1)であり、Eπ{}は並列学習装置2が行動方策πに従うとしたときの期待値を表す。同様に行動方策πの下で状態sにおいて行動aを実行することの価値は、下式で与えられる。   Here, R (s) is the revenue observed from the state s, γ is the attenuation rate (0 ≦ γ ≦ 1), and Eπ {} is the expectation when the parallel learning device 2 follows the action policy π. Represents a value. Similarly, the value of executing action a in state s under action policy π is given by:

上記のVπを状態価値関数といい、Qπを行動価値関数といい、両者をまとめて価値関数という。Vπ及びQπを推定するために、本来の行動方策πとは異なる別の行動方策π’を用いる場合を考え、ここで、重点サンプリング法を用いることにより、目的方策πと挙動方策π’の違いに対処する。いま、挙動方策π’によって得られたm番目のエピソードをhとし、Tをエピソードhが終了するまでの時間ステップとし、Prπ(h)とPrπ’(h)とを方策πとπ’とに従ったときにエピソードhが発生する確率とする。 The above V π is referred to as a state value function, Q π is referred to as an action value function, and both are collectively referred to as a value function. In order to estimate V π and Q π , consider a case in which another action policy π ′ different from the original action policy π is used. To deal with the difference. Now, let m m the episode obtained by the behavior policy π ′ be h m , T m be the time step until the end of episode h m , and let Pr π (h m ) and Pr π ′ (h m ) and the probability that the episode h m occurs when, according to the policy π and π '.

このとき,M個の収益を観測した後で要求されるモンテカルロ推定は、下式で与えられる。   At this time, the Monte Carlo estimation required after observing M profits is given by the following equation.

ここで、Rは実際に得られた収益R(s)=rtm(s)+γrtm(s)+1+…+γTm-tm(s)−1Tm−1であり、t(s)はm番目のエピソードhではじめて状態sが得られたときの時間ステップである。エピソードhが発生する確率は、下式で与えられる。 Here, R m is actually obtained profit R m (s) = r tm (s) + γr tm (s) +1 +... + Γ Tm−tm (s) −1 r Tm−1 and t m ( s) is a time step when the state s is obtained for the first time in the mth episode hm. The probability that the episode h m occurs is given by the following equation.

ここで、ρは行動方策の違いを補正する係数であり、Prπ(h)/Prπ’(h)を計算するために環境のダイナミクスに関する知識は必要とせず、行動方策の比率だけが必要とされる。なお、π(s,a)>0ならばπ’(s,a)>0であることが要求される。 Here, ρ t is a coefficient for correcting the difference in action policy, and knowledge of the dynamics of the environment is not required for calculating Pr π (h m ) / Pr π ′ (h m ), and the ratio of action policies Only needed. If π (s, a)> 0, it is required that π ′ (s, a)> 0.

次に、学習器21〜2nが強化学習に価値関数法を用いている場合において、上記の重点サンプリング法を価値関数法に適用する方法について具体的に説明する。価値関数法は、状態と行動の組に対して定義される価値QVFを、Bellman方程式を用いて推定する方法であり、代表的な方法としてQ学習やSARSAがある。SARSAは方策オン型の強化学習であり、Q 学習は方策オフ型の強化学習であり、挙動方策と推定方策を個別に持つことができる。 Next, when the learning devices 21 to 2n use the value function method for reinforcement learning, a method for applying the above-described importance sampling method to the value function method will be specifically described. The value function method is a method of estimating a value Q VF defined for a set of state and action using the Bellman equation, and representative methods include Q learning and SARSA. SARSA is policy-on type reinforcement learning, and Q-learning is policy-off type reinforcement learning, which can have a behavior policy and an estimation policy separately.

まず、観測値を状態とみなして定式化すると、観測値xで行動aを実行し、報酬rと次の観測値xt+1を受け取ったとき、Q学習及びSARSAでは、TD誤差がそれぞれ下式で与えられる。 First, when formulated regarded as state observations, perform an action a t the observation value x t, upon receipt of a reward r t and the next observation value x t + 1, the Q-learning and Sarsa, TD error respectively It is given by the following formula.

ここで、Q及びQSARSAは、Q学習及びSARSAを使用したときの行動価値関数である。 Here, Q Q and Q SARSA are action value functions when Q learning and SARSA are used.

価値関数法に重点サンプリング法を利用する方法としては、公知の手法を用いることができ、本実施の形態では、価値関数をルックアップテーブル形式すなわちw=Q(x,a)のように重みを割り当てており、重点サンプリングを用いた場合の行動価値関数は下式で与えられる。 As a method of using the importance sampling method for the value function method, a known method can be used. In this embodiment, the value function is weighted in the form of a lookup table, that is, w k = Q (x, a). Is assigned, and the action value function in the case of using importance sampling is given by the following equation.

ここで、SARSAと同様に環境のマルコフ性を利用すると、更新式は下式で与えられる。   Here, when the Markov property of the environment is used as in SARSA, the update formula is given by the following formula.

ここで、tはm 回目のエピソードで最初に(x,a)=(x,a)となった時刻であり、TVFは適合度トレースであり、λ は適合度の減衰率であり、αVFは学習率である。なお、挙動方策と目標方策とが一致する場合、ρ=1となり、通常のSARSAの更新式となる。 Here, t m is the time when (x t , a t ) = (x, a) first in the m-th episode, T VF is a fitness trace, and λ is the fitness decay rate. Yes, α VF is the learning rate. If the behavior policy and the target policy match, ρ t = 1, which is a normal SARSA update formula.

また、確率的行動方策は、例えば、ボルツマン分布を用いて下式で表される。   Further, the stochastic action policy is expressed by the following equation using, for example, a Boltzmann distribution.

ここで、TVFは温度パラメータであり、学習の初期段階では大きな値をとるが、学習が進むにつれて小さな値をとるように制御される。価値関数法は、環境がマルコフ決定過程(MDP:Markov Decision Process)である場合、すなわちx=s の場合には最適方策への収束性が示されている。また、POMDPな環境でも、内部変数を持たない範囲ではλを適切に設定することにより最適な確率的方策を獲得することができる。 Here, TVF is a temperature parameter, and takes a large value in the initial stage of learning, but is controlled so as to take a small value as the learning proceeds. Value function method, environment Markov Decision Process: If a (MDP Markov Decision Process), i.e. in the case of x t = s t are shown convergence to the optimal policy. Even in a POMDP environment, an optimal probabilistic policy can be obtained by appropriately setting λ within a range that does not have internal variables.

次に、学習器21〜2nが強化学習に方策勾配法を用いている場合において、上記の重点サンプリング法を方策勾配法に適用する方法について具体的に説明する。従来、報酬に遅れのある問題において報酬の期待値の勾配方向へパラメータを更新する手法が提案されており、これをきっかけとして、種々の方策勾配法が提案されている。   Next, when the learning devices 21 to 2n use the policy gradient method for reinforcement learning, a method for applying the above-described importance sampling method to the policy gradient method will be specifically described. Conventionally, there has been proposed a method for updating parameters in a gradient direction of an expected value of a reward in a problem with a delay in reward, and various policy gradient methods have been proposed as a trigger.

まず、パラメータwにより表現された行動方策πPGをxで期待値をとった価値関数VPGの勾配を利用して下式により改善する。 First, the action policy π PG expressed by the parameter w k is improved by the following equation using the gradient of the value function V PG in which the expected value is taken as x.

ここで、αPGはステップサイズパラメータであり、wはwをまとめたパラメータベクトルである。このとき、重点サンプリング法を用いると、状態価値関数は下式で与えられる。 Here, α PG is a step size parameter, and w is a parameter vector in which w k are collected. At this time, when the importance sampling method is used, the state value function is given by the following equation.

ここで、Pr(h|w)はベクトルwでパラメータ化された行動方策を用いてエピソードhを得る確率であり、下式で表される。 Here, Pr (h m | w) is the probability of obtaining an episode h m with action policy parameterized by the vector w, it is represented by the following expression.

ここで、φ(h)及びΨ(w,h)は下式で与えられる。 Here, φ (h m ) and ψ (w, h m ) are given by the following equations.

上記のφ(h)は環境からサンプリングしなければならないが、Ψ(w,h)は並列学習装置2の行動方策から計算できるので、一つのエピソードが得られたとき、行動方策を改善する方向はV(w)をwで微分して下式のようになる。 The above φ (h m ) must be sampled from the environment, but Ψ (w, h m ) can be calculated from the action policy of the parallel learning device 2, so when one episode is obtained, the action policy is improved the direction is as shown in the following equation by differentiating V the (w) at w k.

上記のPr(h|w)=Pr(h|w’)は制御方策の比率の掛け算により計算でき、方策勾配法を用いる場合の更新式は下式で与えられる。   The above Pr (h | w) = Pr (h | w ') can be calculated by multiplying the ratio of the control policy, and the update formula when the policy gradient method is used is given by the following formula.

ここで、T(k)は方策勾配法の場合の適合度トレースであり、挙動方策と目標方策とが一致する場合、ρ=1となる。 Here, T t (k) is a goodness-of-fit trace in the case of the policy gradient method, and ρ t = 1 when the behavior policy matches the target policy.

次に、方策勾配法では行動方策をパラメータ表現する必要があるが、w=P(x,a)のように状態及び行動の組に対して重みを割り当て、式(13)のようにボルツマン分布を用いて下式で表される。 Next, in the policy gradient method, it is necessary to express the action policy as a parameter. However, weights are assigned to a set of states and actions as w k = P (x, a), and Boltzmann as shown in Expression (13). It is expressed by the following formula using the distribution.

ここで、PPG(x,a)は行動価値ではなく、TPGは温度パラメータであるが、式(13)と異なり、一定の値をとる。このとき、式(23)の微分は下式で与えられる。 Here, P PG (x t , a t ) is not an action value, and T PG is a temperature parameter, but takes a constant value unlike the equation (13). At this time, the derivative of the equation (23) is given by the following equation.

上記の方策勾配法では、価値関数を明示的には推定せず、オンラインで方策を更新するが、本発明ではエピソードの最初に学習器を選択するために価値関数を用いる必要があり、式(4)によって価値VPGをエピソードごとに更新する。 In the above policy gradient method, the value function is not explicitly estimated, and the policy is updated online. However, in the present invention, the value function needs to be used to select the learner at the beginning of the episode, and the formula ( The value V PG is updated for each episode according to 4).

再び、図3を参照して、上記の重点サンプリング法による分配処理が実行された後に、ステップS6において、各学習器21〜2nは、現在実行しているタスクが終了したか否かを判断し、タスクが終了していない場合はステップS2以降の処理を繰り返し、タスクが終了した場合にステップS7へ処理を移行する。   Referring to FIG. 3 again, after the distribution processing by the above-described importance sampling method is performed, in step S6, each of the learning devices 21 to 2n determines whether or not the task currently being executed has ended. If the task has not ended, the processes in and after step S2 are repeated. If the task has ended, the process proceeds to step S7.

タスクが終了した場合にステップS7において、確率的選択器12は、与えられたタスクに対して学習が終了したか否か、すなわち、与えられたタスクに対して必要とされる学習性能を獲得できたか否かを判断し、学習が終了していない場合はステップS1以降の処理を繰り返し、学習が終了した場合に処理を終了する。   When the task is finished, in step S7, the stochastic selector 12 can acquire whether or not the learning is finished for the given task, that is, the learning performance required for the given task. If the learning has not been completed, the process from step S1 is repeated, and the process is terminated when the learning is completed.

上記の処理により、本実施の形態では、状態取得部11により外界の状態が取得され、取得された外界の状態に基づいて各学習器21〜2nが同時に学習し、学習した結果から行動方策を決定し、決定された複数の行動方策の中から確率的選択器12及び切り替え器13により各学習器21〜2nの学習性能に基づいて一の行動方策が選択され、選択された行動方策に従う行動がアクチュエータ部3により実行され、これらの処理が繰り返される。この結果、選択された学習器が決定した行動方策により得られた経験から、選択されていない他の学習器も学習し、複数の学習器21〜2nが与えられたタスクを達成するための行動方策を同時に学習することができるので、複数の学習器21〜2nを効率的に学習させることができ、学習器21〜2nがタスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる。   According to the above processing, in the present embodiment, the state acquisition unit 11 acquires the state of the outside world, and the learning devices 21 to 2n simultaneously learn based on the acquired state of the outside world, and the action policy is determined from the learning result. One action policy is selected based on the learning performance of each of the learners 21 to 2n by the probabilistic selector 12 and the switch 13 from among the plurality of determined action policies, and the action according to the selected action policy Is executed by the actuator unit 3, and these processes are repeated. As a result, other learners that have not been selected are also learned from the experience obtained by the action policy determined by the selected learner, and a plurality of learners 21 to 2n are actions for achieving a given task. Since the strategies can be learned at the same time, the plurality of learners 21 to 2n can be efficiently learned, and the learning time until the learners 21 to 2n acquire a structure suitable for the task is greatly reduced. be able to.

次に、上記の並列学習装置の学習効果について具体例を挙げて説明する。図4は、図1に示す並列学習装置を倒立振子の制御に使用した場合の学習性能を表す特性図である。図4に示す例は、台車の上に設けられたポールが直立するように台車を移動制御するものであり、状態変数の一部である台車の位置x及びポールの角度θのみが観測可能なPOMDPの場合の例である。ここで、図4の縦軸は学習性能を表すエピソード単位の総報酬を示し、横軸はエピソード数を示している。   Next, the learning effect of the parallel learning apparatus will be described with a specific example. FIG. 4 is a characteristic diagram showing learning performance when the parallel learning device shown in FIG. 1 is used for controlling an inverted pendulum. The example shown in FIG. 4 controls the movement of the carriage so that the pole provided on the carriage stands upright, and only the position x of the carriage and the angle θ of the pole, which are part of the state variables, can be observed. This is an example in the case of POMDP. Here, the vertical axis in FIG. 4 indicates the total reward for each episode representing learning performance, and the horizontal axis indicates the number of episodes.

図4に示す曲線Aは、図1に示す並列学習装置を用いた場合の学習性能を表し、学習器21〜2nとして、価値関数法を用い且つ外部メモリ34を持たない学習器、価値関数法を用い且つ外部メモリ34を有する学習器、方策勾配法を用い且つ外部メモリ34を持たない学習器、及び方策勾配法を用い且つ外部メモリ34を有する学習器を用い、重点サンプリング法を用いて4個の学習器を同時に学習させた場合の学習性能を表している。   A curve A shown in FIG. 4 represents learning performance when the parallel learning device shown in FIG. 1 is used. As the learning devices 21 to 2n, a learning device using the value function method and not having the external memory 34, the value function method. And a learning device that uses the policy gradient method and does not have the external memory 34, and a learning device that uses the policy gradient method and has the external memory 34, and uses the importance sampling method. The learning performance is shown when learning is performed simultaneously for each learning device.

一方、曲線B〜Fは比較例であり、曲線Bは、価値関数法を用い且つ外部メモリ34を持たない学習器のみを用いた場合の学習性能を表し、曲線Cは、価値関数法を用い且つ外部メモリ34を有する学習器のみを用いた場合の学習性能を表し、曲線Dは、方策勾配法を用い且つ外部メモリ34を持たない学習器のみを用いた場合の学習性能を表し、曲線Eは、方策勾配法を用い且つ外部メモリ34を有する学習器のみを用いた場合の学習性能を表し、曲線Fは、重点サンプリング法を用いることなく4個の学習器を同時に学習させた場合の学習性能を表している。   On the other hand, the curves B to F are comparative examples, the curve B represents the learning performance when only the learning device using the value function method and not having the external memory 34 is used, and the curve C uses the value function method. The curve D represents the learning performance when only the learning device having the external memory 34 is used, and the curve D represents the learning performance when only the learning device using the policy gradient method and not having the external memory 34 is used. Represents learning performance when only the learning device using the policy gradient method and having the external memory 34 is used, and the curve F represents learning when four learning devices are simultaneously learned without using the importance sampling method. Represents performance.

図4から、環境がPOMDPの場合でも、図1に示す並列学習装置を用いた場合(曲線A)、他の学習方法(曲線B〜F)に比較して学習効率が最も高く、学習時間を最も短縮することができるとともに、到達可能な学習性能が最も高いことがわかった。   From FIG. 4, even when the environment is POMDP, when the parallel learning device shown in FIG. 1 is used (curve A), the learning efficiency is the highest compared to other learning methods (curves BF), and the learning time is reduced. It was found that the learning performance can be shortened most and the reachable learning performance is the highest.

図5は、図1に示す並列学習装置を自律走行ロボットの走行制御に使用した場合の学習性能を表す特性図である。図5に示す例は、自律走行ロボットが障害物を避けながら目的位置に到達するものであり、図5の縦軸は学習性能を表す平均報酬を示し、横軸はエピソード数を示している。   FIG. 5 is a characteristic diagram showing learning performance when the parallel learning device shown in FIG. 1 is used for traveling control of an autonomous traveling robot. In the example shown in FIG. 5, the autonomous mobile robot reaches the target position while avoiding an obstacle. The vertical axis in FIG. 5 indicates the average reward indicating the learning performance, and the horizontal axis indicates the number of episodes.

図5に示す曲線Aは、図1に示す並列学習装置を用いた場合の学習性能を表し、学習器21〜2nとして、価値関数法を用いて粗い移動制御を行う学習器、価値関数法を用いて精密な移動制御を行う学習器、方策勾配法を用いて粗い移動制御を行う学習器、及び方策勾配法を用いて精密な移動制御を行う学習器を用い、重点サンプリング法を用いて4個の学習器を同時に学習させた場合の学習性能を表している。   A curve A shown in FIG. 5 represents learning performance when the parallel learning apparatus shown in FIG. 1 is used. As learning devices 21 to 2n, a learning device that performs coarse movement control using the value function method, a value function method is shown. Using a learning device that performs precise movement control using a learning device, a learning device that performs coarse movement control using a policy gradient method, and a learning device that performs precise movement control using a policy gradient method, and using an importance sampling method, 4 The learning performance is shown when learning is performed simultaneously for each learning device.

一方、曲線B,Cは比較例であり、曲線Bは、価値関数法を用いて粗い移動制御を行う学習器のみを用いた場合の学習性能を表し、曲線Cは、価値関数法を用いて精密な移動制御を行う学習器のみを用いた場合の学習性能を表している。   On the other hand, curves B and C are comparative examples, and curve B represents learning performance when only a learning device that performs coarse movement control using the value function method is used, and curve C uses value function method. The learning performance when only a learning device that performs precise movement control is used is shown.

図5から、図1に示す並列学習装置を自律走行ロボットに用いた場合(曲線A)、他の学習方法(曲線B,C)に比較して、エピソード数の増加に伴い学習効率が急激に向上し、学習時間を最も短縮することができるとともに、到達可能な学習性能が最も高いことがわかった。   From FIG. 5, when the parallel learning apparatus shown in FIG. 1 is used for an autonomous traveling robot (curve A), the learning efficiency increases sharply as the number of episodes increases compared to other learning methods (curves B and C). It has been found that the learning performance can be shortened most and the learning performance that can be reached is the highest.

上記の実施形態では、自律走行ロボット等を対象に説明したが、本発明の適用対象は上記の例に特に限定されず、種々のものに適用可能である。例えば、ペットロボット等に本発明の並列学習装置を適用し、複数の学習器の一つとして人間の教示を導入するようにしてもよい。この場合、人間が教示した通りにペットロボットが行動しつつ、ペットロボット自体の学習も同時に実現することができ、例えば、飼い主がペットロボットに芸を教えつつ、自律学習によってより知的な行動を獲得させることができる。   In the above-described embodiment, the autonomous traveling robot or the like has been described. However, the application target of the present invention is not particularly limited to the above example, and can be applied to various types. For example, the parallel learning device of the present invention may be applied to a pet robot or the like, and a human teaching may be introduced as one of a plurality of learning devices. In this case, the pet robot can act as taught by a human and learning of the pet robot itself can be realized at the same time.For example, the owner teaches the pet robot a trick and performs more intelligent behavior by autonomous learning. Can be earned.

また、本発明の並列学習装置を最適制御分野等に適用して従来型の制御と機械学習とを融合し、工場等においてマニピュレータの制御等に利用されてきたものを学習器の制御器として利用するようにしてもよい。この場合、これまでに使用してきたものをそのまま利用できるので、従来と同じ性能を保証しながら、他の学習器が獲得したより良い性能を自動的に利用することができる。   In addition, the parallel learning device of the present invention is applied to the optimal control field, etc. to combine conventional control and machine learning, and what has been used for manipulator control etc. in factories etc. is used as the controller of the learning device You may make it do. In this case, since what has been used so far can be used as it is, it is possible to automatically use better performance acquired by other learning devices while guaranteeing the same performance as before.

さらに、本発明の並列学習装置を進化ロボティクス等の多数の学習器を評価する部分に適用してもよい。この分野では、複数の制御器を順番に一つずつ評価していたため、膨大な時間を必要としていたが、本発明の並列学習装置を用いることにより、複数の学習器を並列に評価することができるため、評価時間を大幅に短縮できる。   Furthermore, the parallel learning device of the present invention may be applied to a portion that evaluates a large number of learning devices such as evolution robotics. In this field, since a plurality of controllers were evaluated one by one in order, enormous time was required. However, by using the parallel learning device of the present invention, it is possible to evaluate a plurality of learners in parallel. This can greatly reduce the evaluation time.

本発明の一実施の形態による並列学習装置を用いた学習システムの構成を示すブロック図である。It is a block diagram which shows the structure of the learning system using the parallel learning apparatus by one embodiment of this invention. 学習器の他の構成を示すブロック図である。It is a block diagram which shows the other structure of a learning device. 図1に示す並列学習装置の並列学習処理を説明するためのフローチャートである。It is a flowchart for demonstrating the parallel learning process of the parallel learning apparatus shown in FIG. 図1に示す並列学習装置を倒立振子の制御に使用した場合の学習性能を表す特性図である。It is a characteristic view showing learning performance at the time of using the parallel learning device shown in Drawing 1 for control of an inverted pendulum. 図1に示す並列学習装置を自律走行ロボットの走行制御に使用した場合の学習性能を表す特性図である。It is a characteristic view showing learning performance at the time of using the parallel learning device shown in Drawing 1 for run control of an autonomous running robot.

符号の説明Explanation of symbols

1 センサ部
2 並列学習装置
3 アクチュエータ部
11 状態取得部
12 確率的選択器
13 切り替え器
21〜2n,21a学習器
31,31a 補正器
32,32a 価値関数部
33,33a 制御器
34 外部メモリ
DESCRIPTION OF SYMBOLS 1 Sensor part 2 Parallel learning apparatus 3 Actuator part 11 State acquisition part 12 Probabilistic selector 13 Switch 21-21n, 21a Learner 31, 31a Corrector 32, 32a Value function part 33, 33a Controller 34 External memory

Claims (6)

与えられたタスクを達成するための行動方策を学習する並列学習装置であって、
外界の状態を取得する取得手段と、
前記取得手段により取得された外界の状態に基づいて学習し、学習した結果から行動方策を決定する複数の学習手段と、
前記複数の学習手段が決定した複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択手段とを備え
前記選択手段が、前記複数の学習手段の中から各学習手段の学習性能に基づいて一の学習手段を選択し、前記取得手段が、外界の状態を取得し、前記複数の学習手段の各々が、前記取得手段により取得された外界の状態に基づいて他の学習手段と同時に学習し、学習した結果から行動方策を決定し、前記選択手段が、前記選択した一の学習手段により決定された行動方策を出力し、前記複数の学習手段の各々が、重点サンプリング法を用いて、当該学習手段が決定した行動方策と前記選択手段により選択された一の学習手段の行動方策との類似度に応じて学習に用いるパラメータに重み付けを行うことにより、学習に用いるパラメータを補正する処理を繰り返すことを特徴とする並列学習装置。
A parallel learning device that learns action strategies to achieve a given task,
Acquisition means for acquiring the state of the outside world;
A plurality of learning means learns, determines the action policy from a result of learning based on the state of the outside world acquired by the acquisition means,
Selecting means for selecting one action policy based on the learning performance of each learning means from a plurality of action policies determined by the plurality of learning means ,
The selection unit selects one learning unit from the plurality of learning units based on the learning performance of each learning unit, the acquisition unit acquires an external state, and each of the plurality of learning units , Learning simultaneously with other learning means based on the state of the outside world acquired by the acquisition means, determining an action policy from the learning result, and the action determined by the selection learning means selected by the selection means A policy is output, and each of the plurality of learning means uses an importance sampling method according to the similarity between the action policy determined by the learning means and the action policy of one learning means selected by the selection means A parallel learning apparatus that repeats the process of correcting parameters used for learning by weighting parameters used for learning.
前記選択手段は、前記複数の学習手段の中から、学習性能が最も高い学習手段が一つある場合はこの学習手段を選択し、学習性能が高い学習手段が複数あり且つこれらの学習手段の学習性能が所定範囲内にある場合はこれらの学習手段から一の学習手段を等確率になるように選択することを特徴とする請求項1記載の並列学習装置。The selection means selects the learning means when there is one learning means with the highest learning performance from the plurality of learning means, and there are a plurality of learning means with high learning performance and learning of these learning means. 2. The parallel learning apparatus according to claim 1, wherein when the performance is within a predetermined range, one learning means is selected from these learning means with equal probability. 前記複数の学習手段の各々は、Each of the plurality of learning means includes
前記取得手段により取得された外界の状態に基づいて、所定のパラメータを用いて学習性能を評価するための価値関数を算出する算出手段と、Calculation means for calculating a value function for evaluating learning performance using a predetermined parameter based on the state of the external world acquired by the acquisition means;
前記取得手段により取得された外界の状態及び前記算出手段により算出された価値関数に基づいて行動方策を決定する決定手段と、Determining means for determining an action policy based on the state of the outside world acquired by the acquiring means and the value function calculated by the calculating means;
前記取得手段により取得された外界の状態、前記決定手段により決定された行動方策及び前記選択手段により選択された行動方策に基づいて前記算出手段のパラメータを補正する補正手段とを備えることを特徴とする請求項1又は2記載の並列学習装置。A correction unit that corrects the parameter of the calculation unit based on the state of the outside world acquired by the acquisition unit, the action policy determined by the determination unit, and the action policy selected by the selection unit; The parallel learning apparatus according to claim 1 or 2.
前記複数の学習手段のうちの少なくとも一の学習手段は、前記決定手段により決定された行動方策を記憶する記憶手段をさらに備えることを特徴とする請求項3記載の並列学習装置。4. The parallel learning apparatus according to claim 3, wherein at least one learning means of the plurality of learning means further includes a storage means for storing the action policy determined by the determination means. 取得手段、複数の学習手段及び選択手段を備える並列学習装置を用いて、与えられたタスクを達成するための行動方策を学習する並列学習方法であって、A parallel learning method for learning an action policy for achieving a given task using a parallel learning device comprising an acquisition means, a plurality of learning means and a selection means,
前記選択手段が、前記複数の学習手段の中から各学習手段の学習性能に基づいて一の学習手段を選択する選択ステップと、A selection step in which the selection means selects one learning means based on the learning performance of each learning means from the plurality of learning means;
前記取得手段が、外界の状態を取得する取得ステップと、The obtaining means for obtaining an external state; and
前記複数の学習手段の各々が、前記取得ステップにおいて取得された外界の状態に基づいて他の学習手段と同時に学習し、学習した結果から行動方策を決定する学習ステップと、A learning step in which each of the plurality of learning means learns simultaneously with other learning means based on the state of the outside world acquired in the acquisition step, and determines an action policy from the learning result;
前記選択手段が、前記選択ステップにおいて選択した一の学習手段により決定された行動方策を出力するステップと、The selection means outputting the action policy determined by the learning means selected in the selection step;
前記複数の学習手段の各々が、重点サンプリング法を用いて、当該学習手段が決定した行動方策と前記選択ステップにおいて選択された一の学習手段の行動方策との類似度に応じて学習に用いるパラメータに重み付けを行うことにより、学習に用いるパラメータを補正するステップとを繰り返すことを特徴とする並列学習方法。Parameters used for learning by each of the plurality of learning means according to the degree of similarity between the action policy determined by the learning means and the action policy of one learning means selected in the selection step by using an importance sampling method A parallel learning method characterized by repeating the step of correcting parameters used for learning by weighting.
与えられたタスクを達成するための行動方策を学習するための並列学習プログラムであって、A parallel learning program for learning action strategies to accomplish a given task,
外界の状態を取得する取得手段と、An acquisition means for acquiring the state of the outside world;
前記取得手段により取得された外界の状態に基づいて学習し、学習した結果から行動方策を決定する複数の学習手段と、Learning based on the state of the outside world acquired by the acquisition means, a plurality of learning means for determining an action policy from the learning results;
前記複数の学習手段が決定した複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択手段としてコンピュータを機能させ、Causing the computer to function as a selection means for selecting one action policy based on the learning performance of each learning means from the plurality of action policies determined by the plurality of learning means;
前記選択手段が、前記複数の学習手段の中から各学習手段の学習性能に基づいて一の学習手段を選択し、前記取得手段が、外界の状態を取得し、前記複数の学習手段の各々が、前記取得手段により取得された外界の状態に基づいて他の学習手段と同時に学習し、学習した結果から行動方策を決定し、前記選択手段が、前記選択した一の学習手段により決定された行動方策を出力し、前記複数の学習手段の各々が、重点サンプリング法を用いて、当該学習手段が決定した行動方策と前記選択手段により選択された一の学習手段の行動方策との類似度に応じて学習に用いるパラメータに重み付けを行うことにより、学習に用いるパラメータを補正する処理を繰り返すことを特徴とする並列学習プログラム。The selection unit selects one learning unit from the plurality of learning units based on the learning performance of each learning unit, the acquisition unit acquires an external state, and each of the plurality of learning units , Learning simultaneously with other learning means based on the state of the outside world acquired by the acquisition means, determining an action policy from the learning result, and the action determined by the selection learning means selected by the selection means A policy is output, and each of the plurality of learning means uses an importance sampling method according to the similarity between the action policy determined by the learning means and the action policy of one learning means selected by the selection means A parallel learning program characterized by repeating processing for correcting parameters used for learning by weighting parameters used for learning.
JP2003310383A 2003-09-02 2003-09-02 Parallel learning device, parallel learning method, and parallel learning program Expired - Fee Related JP3703821B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003310383A JP3703821B2 (en) 2003-09-02 2003-09-02 Parallel learning device, parallel learning method, and parallel learning program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003310383A JP3703821B2 (en) 2003-09-02 2003-09-02 Parallel learning device, parallel learning method, and parallel learning program

Publications (2)

Publication Number Publication Date
JP2005078516A JP2005078516A (en) 2005-03-24
JP3703821B2 true JP3703821B2 (en) 2005-10-05

Family

ID=34412270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003310383A Expired - Fee Related JP3703821B2 (en) 2003-09-02 2003-09-02 Parallel learning device, parallel learning method, and parallel learning program

Country Status (1)

Country Link
JP (1) JP3703821B2 (en)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1870211B1 (en) * 2006-06-22 2019-02-27 Honda Research Institute Europe GmbH Method for controlling a robot by assessing the fitness of a plurality of simulated behaviours
GB0613955D0 (en) * 2006-07-13 2007-01-10 Bae Systems Plc Controller
JP4989421B2 (en) * 2007-10-30 2012-08-01 株式会社日立製作所 Plant control device and thermal power plant control device
JP5330138B2 (en) 2008-11-04 2013-10-30 本田技研工業株式会社 Reinforcement learning system
JP5346701B2 (en) * 2009-06-12 2013-11-20 本田技研工業株式会社 Learning control system and learning control method
JP5547913B2 (en) * 2009-06-26 2014-07-16 富士重工業株式会社 Online risk learning system
JP6031995B2 (en) * 2012-12-21 2016-11-24 富士通株式会社 Simulation method, program, and information processing system
JP2017030088A (en) * 2015-07-31 2017-02-09 ファナック株式会社 Machine learning device, screw fastening system and control device therefor
JP6616170B2 (en) * 2015-12-07 2019-12-04 ファナック株式会社 Machine learning device, laminated core manufacturing apparatus, laminated core manufacturing system, and machine learning method for learning stacking operation of core sheet
JP6506219B2 (en) 2016-07-21 2019-04-24 ファナック株式会社 Machine learning device, motor control device and machine learning method for learning current command of motor
JP6744208B2 (en) * 2016-12-27 2020-08-19 株式会社日立製作所 Control device and control method
KR102099265B1 (en) * 2017-11-27 2020-05-15 고려대학교 산학협력단 System and method for pedestrian-vehicle collision warning based on pedestrian state

Also Published As

Publication number Publication date
JP2005078516A (en) 2005-03-24

Similar Documents

Publication Publication Date Title
Zhelo et al. Curiosity-driven exploration for mapless navigation with deep reinforcement learning
JP3703821B2 (en) Parallel learning device, parallel learning method, and parallel learning program
Xu et al. Kernel-based least squares policy iteration for reinforcement learning
CN113826051A (en) Generating digital twins of interactions between solid system parts
JP6744208B2 (en) Control device and control method
JP2023504220A (en) Systems and Methods for Robust Optimization of Reinforcement Learning Based on Trajectory-Centered Models
CN115917564A (en) System and method for learning reusable options to transfer knowledge between tasks
JP7458741B2 (en) Robot control device and its control method and program
JP7493554B2 (en) Demonstration-Conditional Reinforcement Learning for Few-Shot Imitation
CN114518751B (en) Path planning decision optimization method based on least square truncated time domain difference learning
CN109693239A (en) A kind of robot grasping means based on deeply study
Kartoun et al. A human-robot collaborative reinforcement learning algorithm
CN116494247A (en) Robotic arm path planning method and system based on deep deterministic policy gradient
JP2021192141A (en) Learning equipment, learning methods, and learning programs
Pan et al. Additional planning with multiple objectives for reinforcement learning
Hu et al. Incremental learning framework for autonomous robots based on q-learning and the adaptive kernel linear model
CN113614743A (en) Method and apparatus for operating a robot
CN115081612A (en) Apparatus and method to improve robot strategy learning
Caarls et al. Parallel online temporal difference learning for motor control
Wu et al. Uncertainty-aware model-based reinforcement learning with application to autonomous driving
Ding et al. Learning to ground objects for robot task and motion planning
CN118891136A (en) System and method for flexible robotic manipulation via fast online load estimation
JP2010092247A (en) Controller, control method and control program
CN118578396B (en) A robotic arm grasping strategy optimization method based on continuous reinforcement learning of sequential tasks
Gromniak et al. Deep reinforcement learning for mobile robot navigation

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050412

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050720

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090729

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090729

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100729

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100729

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110729

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees