JPH11175493A

JPH11175493A - 行動選択ネットワークを用いた経験強化型強化学習方法および経験強化型強化学習プログラムを記録した記録媒体

Info

Publication number: JPH11175493A
Application number: JP9346743A
Authority: JP
Inventors: Satoshi Kurihara; 聡栗原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1997-12-16
Filing date: 1997-12-16
Publication date: 1999-07-02

Abstract

(57)【要約】【課題】従来のprofit-sharingに比較して動的な環境
の変化に対しロバスト性を有し、環境の個々の状況に効
率的に適応できる行動選択ネットワークを用いた経験強
化型強化学習方法および経験強化型強化学習プログラム
を記録した記録媒体を提供する。【解決手段】エピソードを構成する各状態にそれぞれ
記憶エージェントを割り付け、内部状態が移動する際に
視野に入ったエピソード以外の状態にも記憶エージェン
トを割り当て、隣接記憶エージェントからの強化値が伝
播されると隣接記憶エージェントに向い強化値を伝播
し、全体として減衰を行った後に、エピソードを減衰し
た経験の有無で強化値の減衰率を変え、強化値が所定の
閾値以下になった場合に活性伝播を終了することにより
活性伝播が記憶エージェント群の協調動作として実現さ
れる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複雑で動的に変化
する環境の下で動作する自律行動主体が変化に対して効
果的に適応できるための行動計画法として考案された行
動選択ネットワークの枠組を従来の経験強化型強化学習
法であるprofit-sharingに適応した行動選択ネットワー
クを用いた新規な経験強化型強化学習方法に関し、具体
的には実世界において人とインタラクションを行う自律
移動ロボットや、インターネットとユーザとの自律的な
インタラクションを行うインタフェースエージェント等
のような自律行動主体が従来の行動計画モジュールに従
って行動するだけでなく、環境内の個々の状況に対して
効率的に適応できるための学習を行う行動選択ネットワ
ークを用いた経験強化型強化学習方法および経験強化型
強化学習プログラムを記録した記録媒体に関する。

【０００２】

【従来の技術】行動選択ネットワーク（P.Maes：The Ag
ent Network Architecture(ANA),SIGART Bulletin,Vol.
2,No.4,pp.115-120,1991参照）は、比較的単機能なモジ
ュールの集合が互いに活性値を伝播し合うことで協調
し、モジュール全体として合目的な行動を計画する枠組
である。集中制御が不要で各モジュールがそれぞれ自律
的に振舞うことから、特にロバスト性と拡張性を特徴と
し、動的な環境の変化に柔軟に即応しつつ適切な行動計
画を行うことができる。従って、実世界やインターネッ
トなどの環境において動作する自律移動ロボットや、ユ
ーザとインターネットとの仲介を行うソフトウェアエー
ジェント（電子秘書）などのための行動計画モジュール
を構築する際に有効な手段である。

【０００３】しかし、自律行動主体がより環境に適応す
るためには、環境内で遭遇する種々の状況に個別に対応
できるための「学習機能」が必要不可欠である。そこで
行動選択ネットワークの特徴を損なうことなく、行動選
択ネットワークの枠組に学習機能を組み込むアプローチ
が望まれるわけであるが、現状では学習機能を組み込ん
だ枠組は提案されていない。

【０００４】profit-sharing（J.J.Grefenstette：Cred
it Assignment in Rule DiscoverySystems Based on Ge
neric Algorithms,Machine Learning,Vol.3,pp.225-245
(1988) 参照）は、経験強化型強化学習方法であり、報
酬を得た時にそれまでの行動系列を一括して強化する。
この時の行動系列を「エピソード」と称する。このprof
it-sharingは、学習に要する試行回数が少ないこと、ま
たＱ−learning（C.J.C.Watkins and P.Dayan ：Techni
cal Note：Ｑ−Learning,Machine Learning,Vol.8,pp.5
5-68(1992)参照）等に比較して動的な環境の変化に対し
てロバスト性があるという特徴を有する。

【０００５】強化学習法としては近年Ｑ−learningが注
目されている。Ｑ−learningは環境同定型の強化学習法
であり、Ｑ値を求めるための環境の状態が正確に同定さ
れれば最適な学習効果が得られることが証明されてい
る。しかしながら、profit-sharingに比べて非常に多く
の試行回数を要することや、環境が動的に変化してしま
うとそれまで得られた学習結果全体に影響が及んでしま
うなどの問題点が指摘されている。

【０００６】従って、行動主体の環境全体の詳細な知識
を獲得できるような状況においてはＱ−learningは適し
ているものの、今回我々が対象とする自律行動主体のよ
うに、動的に変化する環境内で動作し、その結果常に不
完全な環境の知識しか持つことのできない状況において
は、profit-sharingのような学習法の方が適している。
しかしながらprofit-sharingにおいても、変化の影響を
受けてしまった部分の学習は無効とするしかなく、学習
効果が動的な環境の変化の規模に大きく依存するという
限界がある。

【０００７】

【発明が解決しようとする課題】自律行動主体が学習す
るためには環境の情報を収集する必要があるが、実世界
やインターネットのすべての情報を予め詳細に得ること
は不可能である。従って、これら行動主体はセンサ等を
用いてローカルな情報を収集しつつ環境のモデルを構築
することになる。しかし、環境が動的に変化するため得
られたモデルは常に不完全である。このような状況にお
いては、特に動的な環境の変化にロバストな経験強化型
の強化学習法を考える必要がある。

【０００８】本発明は、上記に鑑みてなされたもので、
その目的とするところは、従来のprofit-sharingに比較
して動的な環境の変化に対しロバスト性を有し、環境の
個々の状況に効率的に適応できる行動選択ネットワーク
を用いた経験強化型強化学習方法および経験強化型強化
学習プログラムを記録した記録媒体を提供することにあ
る。

【０００９】

【課題を解決するための手段】上記目的を達成するた
め、請求項１記載の本発明は、複雑で動的に変化する環
境の下で動作する自律行動主体が変化に対して効果的に
適応できるための行動選択ネットワークの枠組をprofit
-sharingに適応した経験強化型強化学習方法であって、
状態要素の遷移系列であるエピソードを構成する各状態
にそれぞれ自律主体である記憶エージェントを割り付
け、内部状態が移動する際に視野に入ったエピソード以
外の状態にも記憶エージェントを割り当て、隣接記憶エ
ージェントからの強化値が伝播されると自発的に隣接記
憶エージェントに向い強化値を伝播し、全体として減衰
を行った後に、エピソードを減衰した経験の有無で強化
値の減衰率を変え、強化値が所定の閾値以下になった場
合に活性伝播を終了するというように活性伝播が記憶エ
ージェント群の協調動作として実現されることを要旨と
する。

【００１０】請求項１記載の本発明にあっては、エピソ
ードに直接関係しないが隣接するような記憶エージェン
トに対しても活性伝播を行うことにより柔軟性を持った
学習を行うことができるとともに、また最短経路で効率
の良い学習を行うことができる。

【００１１】また、請求項２記載の本発明は、複雑で動
的に変化する環境の下で動作する自律行動主体が変化に
対して効果的に適応できるための行動選択ネットワーク
の枠組をprofit-sharingに適応した経験強化型強化学習
プログラムを記録した記録媒体であって、状態要素の遷
移系列であるエピソードを構成する各状態にそれぞれ自
律主体である記憶エージェントを割り付け、内部状態が
移動する際に視野に入ったエピソード以外の状態にも記
憶エージェントを割り当て、隣接記憶エージェントから
の強化値が伝播されると自発的に隣接記憶エージェント
に向い強化値を伝播し、全体として減衰を行った際に、
エピソードを減衰した経験の有無で強化値の減衰率を変
え、強化値が所定の閾値以下になった場合に活性伝播を
終了するというように活性伝播が記憶エージェント群の
協調動作として実現されることを要旨とする。

【００１２】請求項２記載の本発明にあっては、エピソ
ードを構成する各状態にそれぞれ記憶エージェントを割
り付けるとともに、内部状態が移動する際に視野に入っ
たエピソード以外の状態にも記憶エージェントを割り当
て、隣接記憶エージェントからの強化値が伝播されると
隣接記憶エージェントに向い強化値を伝播し、全体とし
て減衰を行った後に、エピソードを減衰した経験の有無
で強化値の減衰率を変え、強化値が所定の閾値以下にな
った場合に活性伝播を終了する経験強化型強化学習プロ
グラムを記録媒体として記録しているため、該記録媒体
を用いて、その流通性を高めることができる。

【００１３】

【発明の実施の形態】まず、本発明の経験強化型強化学
習方法Ｌ−ＡＮＡを説明するために、図１に示すような
格子状の状態空間Ｓ内を移動する自律行動主体Ａを考え
る。状態空間Ｓを構成する個々の状態は、それぞれＳ1
a，・・・，Ｓ7fのように表記される。自律行動主体Ａ
は状態空間Ｓ内を上下左右に１ブロックずつ移動するこ
とができ、移動に際して行動主体Ａに搭載された仮想バ
ッテリを使用する。バッテリは移動することにより減少
するが、充電ポイントＢにて補給することが可能であ
る。充電ポイントＢは状態空間Ｓ内に数箇所存在し、ま
た補給できるエネルギ量もそれぞれ異なっている。ま
た、状態空間Ｓ内には障害物も存在し、行動主体Ａは障
害物を通過することはできない。充電ポイントＢの位置
と数は変化しないが、障害物の位置と数は動的に変化す
るものとする。なお、報酬は補給エネルギ量に比例した
値が与えられる。

【００１４】行動主体Ａは初期状態では状態空間Ｓが格
子状の環境で自分が上下左右に移動できること以外、充
電ポイントＢや障害物の位置に関しての情報は一切持っ
ていない。ただし、行動主体Ａには仮想センサが搭載さ
れており、図１の斜線を施した範囲に関する環境の状況
を得ることができる。

【００１５】行動主体Ａは状態空間Ｓに依存して変化す
る内部状態空間Ａ_Sを有し、この例題ではＡ_S＝
｛Ａ_s1：充電が必要、Ａ_s2：充電は必要ない｝という２
種類の内部状態を考えることができる。

【００１６】行動主体Ａに要求される学習とは、より多
くのエネルギを補給できる充電ポイントＢと、その充電
ポイントＢへの移動経路を学習することである。また、
補給エネルギ量は少ないものの、近くの充電ポイントＢ
で補給したほうが効率がよいということも学習できるこ
とが望まれる。そして障害物が動的に消滅／出現するの
で、これを察知した時に柔軟に対応でき、学習の効率を
低下させないことが何より重要である。

【００１７】Ｌ−ＡＮＡはprofit-sharingと同様に経験
強化型の強化学習を行う。profit-sharingでは、エピソ
ードに相当する状態遷移系列を単位として学習を行い、
エピソードとエピソードに割り振られた学習値を記憶す
る。例えば図２（ａ）に示すように行動主体Ａがｐの状
態遷移系列により偶然充電ポイントＢにたどり着けたと
すると、まず充電ポイントＢの存在する状態に対して報
酬１００が与えられ、さらにエピソードｐを構成する各
状態に対して強化関数に基づいた強化値が順次割り振ら
れる。このように１つのエピソードを記憶することがpr
ofit-sharingにおける１回の学習である。

【００１８】Ｌ−ＡＮＡでは、報酬を得たことにより変
化する内部状態Ａ_siが学習の対象となり、この時のエピ
ソードは初期状態またはこの内部状態Ａ_siが成立した時
から内部状態Ａ_siが不成立となるまでの状態要素の遷移
系列である。例えば、内部状態Ａ_siが成立している状態
で充電を行うことができたとすると、内部状態Ａ_s1は不
成立となり、代わりに内部状態Ａ_s2が成立する。この場
合、内部状態Ａ_s1についての強化学習が行われる。

【００１９】これに対し、Ｌ−ＡＮＡでは図２（ｂ）に
示すようにエピソードを構成する各状態に対して１つず
つ記憶モジュールを割り付けていく。報酬を得た時に行
われる強化学習はprofit-sharingと同様で、報酬を得た
状態に割り当てられた記憶エージェントをｓ_ijとする
と、「ｓ_ij（ｔ＋１）＝ｓ_ij（ｔ）−ｂｓ_ij（ｔ）＋ｂ
ｐ（ｔ）、ｂ：学習率、ｐ：報酬」に従って強化値の更
新を行う。profit-sharingはエピソードに対して、報酬
からそれだけ過去であるかを引数として強化値を返す強
化関数に基づいた強化値を割り当てる。上述したよう
に、profit-sharingではエピソードを構成する状態系列
にのみ強化値を割り振るわけだが、これは経験以外の不
確定要素を排除し経験しか信用できない状況において有
効な手段である。しかしながら、行動主体が視野を持ち
ローカルな情報収集が可能である状況を考えると、行動
主体から見える範囲においてはエピソードに割り振る強
化値よりも小さい割合で強化値を割り振ることは学習に
柔軟性とロバスト性を与えられる可能性がある。Ｌ−Ａ
ＮＡは、profit-sharingと同様に経験を強化することが
基本方式であるので、直接経験していないエピソード以
外の状態に対して差をつける必要がある。

【００２０】そこで、Ｌ−ＡＮＡでは行動主体Ａが移動
する際に視野に入ったエピソード以外の状態に対しても
記憶モジュールを割り当てていく。例えば、図２（ｂ）
のようなエピソードが得られたとすると、行動主体Ａが
割り当てることができる記憶モジュールは図２（ｃ）の
部分となる。各記憶モジュールは割り当てられる時に、
自分がどの記憶エージェントと隣接関係にあるのか、ま
た自分がエピソードを構成しているかどうかを記憶す
る。割り付けられた時にはエピソードを構成していなく
ても、その後の試行でエピソードの一部分となる場合も
ある。なお、隣接関係にあるのは上下左右に位置する記
憶エージェントである。

【００２１】なお、学習された強化値の利用の仕方はpr
ofit-sharingと同様に、より強化値の大きい状態に移動
するという方針である。

【００２２】記憶モジュールは隣接する記憶モジュール
から強化値が伝播されると自発的に自分が隣接する他の
記憶モジュールに向かって強化値を伝播する。伝播の仕
方は図３に示すように、全体としてある減衰を行った
後、エピソードを構成した経験がある記憶モジュールと
それ以外で異なる減衰率による強化値Ｒを伝播する。伝
播する強化値がある閾値以下になった時点で活性伝播を
終了する。Ｌ−ＡＮＡにおける学習とは、各記憶モジュ
ールが自分がどの隣接する記憶モジュールに対し、どれ
くらいの強化値を伝播するのかを記憶することである。

【００２３】活性伝播は、１．活性伝播を行う際に用い
る強化値の大きさと、２．伝播する時に用いる減衰率の
２つのパラメータによりその特性を容易に操作すること
ができ、この２つのパラメータの設定の仕方により、以
下のように２つの学習の特性を使い分けることができ
る。

【００２４】（１）行動主体Ａが報酬を得られる状態の
近傍に来た時のみ、学習効果が発揮されるような学習を
行いたい場合には、強化値を大きく減衰率を高くする。
つまり報酬を得た状態を頂点とする強化値の山を考える
と、その高度は高くしかも急勾配となる。例えば、状態
空間Ｓ内に行動主体Ａに対する捕食者を考えてみると、
捕食者から逃げるのは捕食者が行動主体Ａの近傍に迫っ
た時のみでよい。このような学習を行うには（１）の設
定が有効である。

【００２５】（２）逆に、行動主体Ａが報酬を得る状態
から離れている状態でも学習効果が発揮されるようにす
るには、強化値を小さく減衰率を低くする。つまり報酬
を得た状態を頂点とする強化値の山を考えた時、その高
度は低くしかも勾配もなだらかとなる。例えば、今回の
ようにエネルギを充電するようなことを学習することを
考えた時には（２）のように学習効果が広く行き渡って
いた方がよい。なお、強化値を（１）に比べて小さく設
定しなければならない理由は、（１）が（２）の強化値
の分布に完全に含まれないようにするためである。
（２）の学習結果に従って充電ポイントＢまで移動中で
あっても、捕食者が接近してきた時には（１）の学習効
果が発揮されなくてはならないからである。

【００２６】エピソード以外の記憶モジュールに対して
も活性伝播を行うことで、より柔軟性とロバスト性を兼
ね備えた学習を行うことができる。例えば、図４（ａ）
のようにprofit-sharingではどちらかのエピソードに出
会うまではランダムに移動するしかないが、図４（ｂ）
に示すようにＬ−ＡＮＡでは行動主体Ａが既に活性伝播
された状態に位置していれば、近隣のエピソードに最短
経路で引き込まれるので効率良く充電ポイントＢまで移
動することができる。

【００２７】各記憶モジュールはそれぞれ独立して機能
していることから、仮にある記憶モジュールの機能が損
なわれたとしても、その記憶モジュールを欠いた状態で
活性伝播が行われ、機能が損なわれた部分を迂回するよ
うな経路が自動的に選択される。profit-sharingではエ
ピソードを構成する状態の１つが欠けてしまうと、その
エピソード全体が影響を受けてしまう。このことからも
Ｌ−ＡＮＡはよりロバスト性を有し、実世界などの動的
な環境内で動作する自律行動主体のための学習法として
適している。

【００２８】profit-sharingでは強化値割り当ての際無
効ルールを抑制することが問題となるが、Ｌ−ＡＮＡで
は無効ルールも報酬を得る状態に至る経路として積極的
に再利用される。

【００２９】学習はＡ_si単位で行われ、Ａ_si単位で独自
の活性伝播図形が学習さることになる。従って、例えば
あるＡ_s1とＡ_s2が共に成立するような状況では、両方の
強化値分布を重ねた分布図を用いて行動主体Ａは行動選
択を行えばよい。

【００３０】また、行動主体Ａが複数存在し、行動主体
Ａ同士で協調する枠組を考えると、異なる行動主体の学
習した強化値分布を共有することで互いの学習結果を利
用し合うことも容易に実現できる。

【００３１】これまではすべて正の強化学習について述
べてきたが、Ｌ−ＡＮＡでは活性値を吸収する逆の活性
伝播を行うことで、負の強化学習も容易に実現すること
ができる。行動主体Ａは常に強化値の大きい状態に移動
する方法で学習結果を用いるわけだが、ここで状態空間
Ｓ内に落し穴の設定を加えてみる。この場合落し穴に近
付かないようにするためには、落し穴を中心として活性
値を吸収する活性伝播を行えばよい。そしてエネルギを
充電するための正の強化学習のための強化値分布と重ね
ることで両方の学習効果を容易に統合することができ、
落し穴を避けつつ最適に充電ポイントに至る経路を選択
することができる。

【００３２】図５および図６は、実際に状態空間Ｓを用
いてprofit-sharingとＬ−ＡＮＡの比較評価を行った結
果を示す図である。

【００３３】図５（ａ），（ｂ）は、それぞれある環境
ｓを用いた時のprofit-sharingとＬ−ＡＮＡにおいて学
習された移動経路の精度を示したものである。具体的に
は、自律行動主体Ａがどれだけ最短経路で充電ポイント
Ｂまで移動できたか、すなわち自律行動主体Ａが移動し
た経路と、計算した最短経路との比を示している。例え
ば１０倍とは学習された経路面が最短経路の１０倍であ
ったことを示している。図５（ａ）に示すprofit-shari
ngと図５（ｂ）に示すＬ−ＡＮＡとを比較すればわかる
ように、Ｌ−ＡＮＡは常に最短経路に近い経路で移動で
きているが、profit-sharingではかなりのばらつきが見
られ、Ｌ−ＡＮＡの方がより最短経路を学習しているこ
とを確認することができる。

【００３４】更に、図５（ａ），（ｂ）において、２５
０ステップ目に環境に動的な変化を起こすと、すなわち
具体的には動的に障害物を出現させると、profit-shari
ngでは一時的に性能が劣化するが、Ｌ−ＡＮＡでは性能
が劣化することがないことを確認することができる。従
って、Ｌ−ＡＮＡの方がprofit-sharingに比較して、よ
り環境の動的な変化にロバストであることを確認するこ
とができた。

【００３５】図６（ａ），（ｂ）は、それぞれprofit-s
haringおよびＬ−ＡＮＡについて環境内の各状態がどこ
の充電ポイントへの経路として学習されたかを示した図
である。図６（ａ）に示すprofit-sharingでは、充電ポ
イントＢ1 の近くであるにも関わらず、充電ポイントＢ
3 へ向かう経路が学習されているような状況が起こり、
効率が悪いが、図６（ｂ）に示すＬ−ＡＮＡでは、充電
ポイントＢ1 の近くでは充電ポイントＢ1 に向かう経路
が学習されており、充電ポイントＢ1 までの移動距離と
充電されたエネルギ補給量を考慮した経路が学習されて
いることを確認することができる。

【００３６】次に、図７および図８に示すフローチャー
トを参照して、本発明の一実施形態に係る行動選択ネッ
トワークを用いた経験強化型強化学習方法の作用を説明
する。図７はＬ−ＡＮＡの全体的流れ、具体的には内部
条件Ａ_siに関する学習の流れを示すフローチャートであ
り、図８は図７のステップＳ２１における活性伝播につ
いてのアルゴリズムを示すフローチャートである。

【００３７】図７を参照して、Ｌ−ＡＮＡの全体的流れ
について説明する。同図に示す処理は内部条件Ａ_siに関
する強化学習を例としているものであり、まず内部条件
Ａ_siが成立しているか否かがチェックされる（ステップ
Ｓ１１）。成立していない場合には、強化学習を行う必
要がないので、移動可能な状態にランダムに移動し、最
初のステップに戻る（ステップＳ１３）。

【００３８】内部条件Ａ_siが成立している場合には、よ
り大きな強化値を有する状態に移動し、候補が複数存在
する場合には、ランダムに選択する（ステップＳ１
５）。なお、強化値は初期値としてすべての状態に対し
て０を与えておく。移動した状態をエピソード登録用テ
ーブルに登録する（ステップＳ１７）。そして、報酬を
貰えたか否かをチェックし（ステップＳ１９）、貰えな
い場合には、ステップＳ１５に戻って、より大きな強化
値を有する状態に移動し、同じ処理を繰り返すが、報酬
を貰えた場合には、活性伝播を行う（ステップＳ２
１）。なお、この活性伝播について図８に示すフローチ
ャートで詳細に説明する。

【００３９】活性伝播を行うと、エピソード登録用テー
ブルを初期化し（ステップＳ２３）、内部条件Ａ_siを不
成立にし、最初のステップに戻る（ステップＳ２５）。

【００４０】次に、図８に示す活性伝播について説明す
る。図８において、活性伝播がスタートすると、まず報
酬を得た状態Ａ_siに対して強化値Ｒを与え、活性伝播用
基準強化値ｓに強化値Ｒを代入する（ステップＳ３３，
Ｓ３５）。それから、状態Ａ_siに隣接する状態Ａ_sjの１
つずつに対して以下の処理を行う（ステップＳ３７）。

【００４１】まず、状態Ａ_sjはエピソード登録用テーブ
ルに登録されているか否かをチェックする（ステップＳ
３９）。登録されている場合には、該状態Ａ_sjの強化値
が前記基準強化値ｓと減衰率α（エピソードを構成する
状態に活性伝播する際の減衰率であり、０＜α＜１）と
の積である強化値よりも小さいか否かをチェックする
（ステップＳ４１）。Ａ_sjの強化値が小さくない場合に
は、ステップＳ３７に戻り、同じ処理を繰り返すが、強
化値が小さい場合には、すなわち、強化値を伝播しよう
とする状態に既に活性値が伝播されており、その値が今
回伝播しようとする強化値よりも小さい時のみ、再び強
化値の伝播を行うので、強化値が小さい場合には、減衰
率αと基準強化値ｓとの積である強化値が、最小強化値
（ｍｉｎ）よりも小さいか否かが成立するか否かをチェ
ックする（ステップＳ４３）。すなわち、伝播する最小
強化値をｍｉｎとする。

【００４２】伝播しようとする強化値が予め設定した最
小値（ｍｉｎ）より小さくなった場合には、この部分の
活性伝播を終了し、ステップＳ３７に戻り、別の状態の
活性伝播を行う。強化値が最小値（ｍｉｎ）よりも小さ
くない場合には、状態Ａ_sjに対して強化値αｓを与える
（ステップＳ４５）。

【００４３】それから、状態Ａ_sjが活性伝播テーブルに
登録されているか否かをチェックし（ステップＳ４
７）、登録されていない場合には、登録し（ステップＳ
４９）、登録されている場合には、状態Ａ_sjがすでに活
性伝播を行ったというチェックが付いていたら、これを
解除する（ステップＳ５１）。

【００４４】次に、状態Ａ_siに隣接するすべての状態Ａ
_sjについて終了したか否かをチェックする（ステップＳ
５３）。すなわち、活性伝播テーブルに登録されている
すべての記憶モジュールについて活性伝播が終了して状
態Ａ_siに関する一連の活性伝播を終了する。すべての状
態について終了していない場合には、ステップＳ３７に
戻り、別の状態について活性伝播を繰り返し行うが、す
べての状態について終了している場合には、状態Ａ_sjは
活性伝播を終了したとしてチェックを付ける（ステップ
Ｓ５５）。活性伝播テーブルに登録されている状態の中
でチェックされていないものが残っているか否かをチェ
ックし、残っていない場合には、本処理を終了するが、
残っている場合には、活性伝播テーブルに登録されてい
る状態の中でチェックされていないものの中で最も古く
に登録されている状態を新しい状態Ａ_siとして見立てて
以下の処理を繰り返す（ステップＳ５９）。すなわち、
活性伝播用基準強化値ｓに自分の強化値を代入し、ステ
ップＳ３７に戻り、同じ処理を繰り返し行う（ステップ
Ｓ６１）。

【００４５】一方、ステップＳ３９のチェックにおい
て、状態Ａ_sjがエピソード登録用テーブルに登録されて
いない場合には、状態Ａ_sjの強化値が基準強化値ｓと減
衰率β（エピソードを構成する状態に活性伝播する際の
減衰率であり、０＜β＜１）との積である強化値よりも
小さいか否かをチェックする（ステップＳ６３）。Ａ_sj
の強化値が小さくない場合には、ステップＳ３７に戻
り、同じ処理を繰り返すが、強化値が小さい場合には、
減衰率βと基準強化値ｓとの積である強化値が最小強化
値（ｍｉｎ）よりも小さいか否かが成立するか否かをチ
ェックする（ステップＳ６５）。伝播しようとする強化
値が予め設定した最小強化値（ｍｉｎ）より小さくなっ
た場合には、この部分の活性伝播を終了し、ステップＳ
３７に戻り、別の状態の活性伝播を行う。強化値が最小
値（ｍｉｎ）よりも小さくない場合には、状態Ａ_sjに対
して強化値βｓを与え（ステップＳ６７）、ステップＳ
４７に進み、上述した処理を行う。

【００４６】

【発明の効果】以上説明したように、本発明によれば、
エピソードに直接関係しないが隣接する記憶エージェン
トに対しても活性伝播を行い、柔軟性を持った学習が可
能であり、また最短経路で効率の良い学習を行うことが
できる上に、従来のprofit-sharingに比較してロバスト
性を有し、実世界やインターネット等の複雑で動的に変
化する環境で動作する自律移動ロボットやソフトウェア
エージェント等の自律行動主体に最適であり、活性伝播
の特性を制御することにより学習の特性を容易に操作で
き、従来の実時間リアクティブプランニング等と組み合
わせることも容易となる。

【図面の簡単な説明】

【図１】本発明の行動選択ネットワークを用いた経験強
化型強化学習方法Ｌ−ＡＮＡを説明するための一例（グ
リッドワールド）を構成する格子状の状態空間内を移動
する自律行動主体を示す説明図である。

【図２】エピソードと記憶モジュールの関係を示す説明
図である。

【図３】活性伝播の仕方を示す説明図である。

【図４】活性伝播の効果を従来のprofit-sharingと本発
明のＬ−ＡＮＡについて示す説明図である。

【図５】ある環境ｓを用いた時の従来のprofit-sharing
と本発明のＬ−ＡＮＡにおいて学習された移動経路の精
度を示す図である。

【図６】従来のprofit-sharingおよび本発明のＬ−ＡＮ
Ａについて環境内の各状態がどこの充電ポイントへの経
路として学習されたかを示した図である。

【図７】本発明の一実施形態に係るＬ−ＡＮＡの全体的
流れを示すフローチャートである。

【図８】図７のステップＳ２１における活性伝播につい
てアルゴリズムを示すフローチャートである。

【符号の説明】

Ａ自律行動主体Ｂ充電ポイントｐエピソードＲ強化値Ｓ状態空間

Claims

【特許請求の範囲】

【請求項１】複雑で動的に変化する環境の下で動作す
る自律行動主体が変化に対して効果的に適応できるため
の行動選択ネットワークの枠組をprofit-sharingに適応
した経験強化型強化学習方法であって、状態要素の遷移系列であるエピソードを構成する各状態
にそれぞれ自律主体である記憶エージェントを割り付
け、内部状態が移動する際に視野に入ったエピソード以外の
状態にも記憶エージェントを割り当て、隣接記憶エージェントからの強化値が伝播されると自発
的に隣接記憶エージェントに向い強化値を伝播し、全体として減衰を行った後に、エピソードを減衰した経
験の有無で強化値の減衰率を変え、強化値が所定の閾値以下になった場合に活性伝播を終了
するというように活性伝播が記憶エージェント群の協調
動作として実現されることを特徴とする行動選択ネット
ワークを用いた経験強化型強化学習方法。
【請求項２】複雑で動的に変化する環境の下で動作す
る自律行動主体が変化に対して効果的に適応できるため
の行動選択ネットワークの枠組をprofit-sharingに適応
した経験強化型強化学習プログラムを記録した記録媒体
であって、状態要素の遷移系列であるエピソードを構成する各状態
にそれぞれ自律主体である記憶エージェントを割り付
け、内部状態が移動する際に視野に入ったエピソード以外の
状態にも記憶エージェントを割り当て、隣接記憶エージェントからの強化値が伝播されると自発
的に隣接記憶エージェントに向い強化値を伝播し、全体として減衰を行った際に、エピソードを減衰した経
験の有無で強化値の減衰率を変え、強化値が所定の閾値以下になった場合に活性伝播を終了
するというように活性伝播が記憶エージェント群の協調
動作として実現されることを特徴とする行動選択ネット
ワークを用いた経験強化型強化学習プログラムを記録し
た記録媒体。