JPH11175493A - 行動選択ネットワークを用いた経験強化型強化学習方法および経験強化型強化学習プログラムを記録した記録媒体 - Google Patents
行動選択ネットワークを用いた経験強化型強化学習方法および経験強化型強化学習プログラムを記録した記録媒体Info
- Publication number
- JPH11175493A JPH11175493A JP9346743A JP34674397A JPH11175493A JP H11175493 A JPH11175493 A JP H11175493A JP 9346743 A JP9346743 A JP 9346743A JP 34674397 A JP34674397 A JP 34674397A JP H11175493 A JPH11175493 A JP H11175493A
- Authority
- JP
- Japan
- Prior art keywords
- value
- reinforcement
- episode
- state
- experience
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
(57)【要約】
【課題】 従来のprofit-sharingに比較して動的な環境
の変化に対しロバスト性を有し、環境の個々の状況に効
率的に適応できる行動選択ネットワークを用いた経験強
化型強化学習方法および経験強化型強化学習プログラム
を記録した記録媒体を提供する。 【解決手段】 エピソードを構成する各状態にそれぞれ
記憶エージェントを割り付け、内部状態が移動する際に
視野に入ったエピソード以外の状態にも記憶エージェン
トを割り当て、隣接記憶エージェントからの強化値が伝
播されると隣接記憶エージェントに向い強化値を伝播
し、全体として減衰を行った後に、エピソードを減衰し
た経験の有無で強化値の減衰率を変え、強化値が所定の
閾値以下になった場合に活性伝播を終了することにより
活性伝播が記憶エージェント群の協調動作として実現さ
れる。
の変化に対しロバスト性を有し、環境の個々の状況に効
率的に適応できる行動選択ネットワークを用いた経験強
化型強化学習方法および経験強化型強化学習プログラム
を記録した記録媒体を提供する。 【解決手段】 エピソードを構成する各状態にそれぞれ
記憶エージェントを割り付け、内部状態が移動する際に
視野に入ったエピソード以外の状態にも記憶エージェン
トを割り当て、隣接記憶エージェントからの強化値が伝
播されると隣接記憶エージェントに向い強化値を伝播
し、全体として減衰を行った後に、エピソードを減衰し
た経験の有無で強化値の減衰率を変え、強化値が所定の
閾値以下になった場合に活性伝播を終了することにより
活性伝播が記憶エージェント群の協調動作として実現さ
れる。
Description
【0001】
【発明の属する技術分野】本発明は、複雑で動的に変化
する環境の下で動作する自律行動主体が変化に対して効
果的に適応できるための行動計画法として考案された行
動選択ネットワークの枠組を従来の経験強化型強化学習
法であるprofit-sharingに適応した行動選択ネットワー
クを用いた新規な経験強化型強化学習方法に関し、具体
的には実世界において人とインタラクションを行う自律
移動ロボットや、インターネットとユーザとの自律的な
インタラクションを行うインタフェースエージェント等
のような自律行動主体が従来の行動計画モジュールに従
って行動するだけでなく、環境内の個々の状況に対して
効率的に適応できるための学習を行う行動選択ネットワ
ークを用いた経験強化型強化学習方法および経験強化型
強化学習プログラムを記録した記録媒体に関する。
する環境の下で動作する自律行動主体が変化に対して効
果的に適応できるための行動計画法として考案された行
動選択ネットワークの枠組を従来の経験強化型強化学習
法であるprofit-sharingに適応した行動選択ネットワー
クを用いた新規な経験強化型強化学習方法に関し、具体
的には実世界において人とインタラクションを行う自律
移動ロボットや、インターネットとユーザとの自律的な
インタラクションを行うインタフェースエージェント等
のような自律行動主体が従来の行動計画モジュールに従
って行動するだけでなく、環境内の個々の状況に対して
効率的に適応できるための学習を行う行動選択ネットワ
ークを用いた経験強化型強化学習方法および経験強化型
強化学習プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】行動選択ネットワーク(P.Maes:The Ag
ent Network Architecture(ANA),SIGART Bulletin,Vol.
2,No.4,pp.115-120,1991参照)は、比較的単機能なモジ
ュールの集合が互いに活性値を伝播し合うことで協調
し、モジュール全体として合目的な行動を計画する枠組
である。集中制御が不要で各モジュールがそれぞれ自律
的に振舞うことから、特にロバスト性と拡張性を特徴と
し、動的な環境の変化に柔軟に即応しつつ適切な行動計
画を行うことができる。従って、実世界やインターネッ
トなどの環境において動作する自律移動ロボットや、ユ
ーザとインターネットとの仲介を行うソフトウェアエー
ジェント(電子秘書)などのための行動計画モジュール
を構築する際に有効な手段である。
ent Network Architecture(ANA),SIGART Bulletin,Vol.
2,No.4,pp.115-120,1991参照)は、比較的単機能なモジ
ュールの集合が互いに活性値を伝播し合うことで協調
し、モジュール全体として合目的な行動を計画する枠組
である。集中制御が不要で各モジュールがそれぞれ自律
的に振舞うことから、特にロバスト性と拡張性を特徴と
し、動的な環境の変化に柔軟に即応しつつ適切な行動計
画を行うことができる。従って、実世界やインターネッ
トなどの環境において動作する自律移動ロボットや、ユ
ーザとインターネットとの仲介を行うソフトウェアエー
ジェント(電子秘書)などのための行動計画モジュール
を構築する際に有効な手段である。
【0003】しかし、自律行動主体がより環境に適応す
るためには、環境内で遭遇する種々の状況に個別に対応
できるための「学習機能」が必要不可欠である。そこで
行動選択ネットワークの特徴を損なうことなく、行動選
択ネットワークの枠組に学習機能を組み込むアプローチ
が望まれるわけであるが、現状では学習機能を組み込ん
だ枠組は提案されていない。
るためには、環境内で遭遇する種々の状況に個別に対応
できるための「学習機能」が必要不可欠である。そこで
行動選択ネットワークの特徴を損なうことなく、行動選
択ネットワークの枠組に学習機能を組み込むアプローチ
が望まれるわけであるが、現状では学習機能を組み込ん
だ枠組は提案されていない。
【0004】profit-sharing(J.J.Grefenstette:Cred
it Assignment in Rule DiscoverySystems Based on Ge
neric Algorithms,Machine Learning,Vol.3,pp.225-245
(1988) 参照)は、経験強化型強化学習方法であり、報
酬を得た時にそれまでの行動系列を一括して強化する。
この時の行動系列を「エピソード」と称する。このprof
it-sharingは、学習に要する試行回数が少ないこと、ま
たQ−learning(C.J.C.Watkins and P.Dayan :Techni
cal Note:Q−Learning,Machine Learning,Vol.8,pp.5
5-68(1992)参照)等に比較して動的な環境の変化に対し
てロバスト性があるという特徴を有する。
it Assignment in Rule DiscoverySystems Based on Ge
neric Algorithms,Machine Learning,Vol.3,pp.225-245
(1988) 参照)は、経験強化型強化学習方法であり、報
酬を得た時にそれまでの行動系列を一括して強化する。
この時の行動系列を「エピソード」と称する。このprof
it-sharingは、学習に要する試行回数が少ないこと、ま
たQ−learning(C.J.C.Watkins and P.Dayan :Techni
cal Note:Q−Learning,Machine Learning,Vol.8,pp.5
5-68(1992)参照)等に比較して動的な環境の変化に対し
てロバスト性があるという特徴を有する。
【0005】強化学習法としては近年Q−learningが注
目されている。Q−learningは環境同定型の強化学習法
であり、Q値を求めるための環境の状態が正確に同定さ
れれば最適な学習効果が得られることが証明されてい
る。しかしながら、profit-sharingに比べて非常に多く
の試行回数を要することや、環境が動的に変化してしま
うとそれまで得られた学習結果全体に影響が及んでしま
うなどの問題点が指摘されている。
目されている。Q−learningは環境同定型の強化学習法
であり、Q値を求めるための環境の状態が正確に同定さ
れれば最適な学習効果が得られることが証明されてい
る。しかしながら、profit-sharingに比べて非常に多く
の試行回数を要することや、環境が動的に変化してしま
うとそれまで得られた学習結果全体に影響が及んでしま
うなどの問題点が指摘されている。
【0006】従って、行動主体の環境全体の詳細な知識
を獲得できるような状況においてはQ−learningは適し
ているものの、今回我々が対象とする自律行動主体のよ
うに、動的に変化する環境内で動作し、その結果常に不
完全な環境の知識しか持つことのできない状況において
は、profit-sharingのような学習法の方が適している。
しかしながらprofit-sharingにおいても、変化の影響を
受けてしまった部分の学習は無効とするしかなく、学習
効果が動的な環境の変化の規模に大きく依存するという
限界がある。
を獲得できるような状況においてはQ−learningは適し
ているものの、今回我々が対象とする自律行動主体のよ
うに、動的に変化する環境内で動作し、その結果常に不
完全な環境の知識しか持つことのできない状況において
は、profit-sharingのような学習法の方が適している。
しかしながらprofit-sharingにおいても、変化の影響を
受けてしまった部分の学習は無効とするしかなく、学習
効果が動的な環境の変化の規模に大きく依存するという
限界がある。
【0007】
【発明が解決しようとする課題】自律行動主体が学習す
るためには環境の情報を収集する必要があるが、実世界
やインターネットのすべての情報を予め詳細に得ること
は不可能である。従って、これら行動主体はセンサ等を
用いてローカルな情報を収集しつつ環境のモデルを構築
することになる。しかし、環境が動的に変化するため得
られたモデルは常に不完全である。このような状況にお
いては、特に動的な環境の変化にロバストな経験強化型
の強化学習法を考える必要がある。
るためには環境の情報を収集する必要があるが、実世界
やインターネットのすべての情報を予め詳細に得ること
は不可能である。従って、これら行動主体はセンサ等を
用いてローカルな情報を収集しつつ環境のモデルを構築
することになる。しかし、環境が動的に変化するため得
られたモデルは常に不完全である。このような状況にお
いては、特に動的な環境の変化にロバストな経験強化型
の強化学習法を考える必要がある。
【0008】本発明は、上記に鑑みてなされたもので、
その目的とするところは、従来のprofit-sharingに比較
して動的な環境の変化に対しロバスト性を有し、環境の
個々の状況に効率的に適応できる行動選択ネットワーク
を用いた経験強化型強化学習方法および経験強化型強化
学習プログラムを記録した記録媒体を提供することにあ
る。
その目的とするところは、従来のprofit-sharingに比較
して動的な環境の変化に対しロバスト性を有し、環境の
個々の状況に効率的に適応できる行動選択ネットワーク
を用いた経験強化型強化学習方法および経験強化型強化
学習プログラムを記録した記録媒体を提供することにあ
る。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、複雑で動的に変化する環
境の下で動作する自律行動主体が変化に対して効果的に
適応できるための行動選択ネットワークの枠組をprofit
-sharingに適応した経験強化型強化学習方法であって、
状態要素の遷移系列であるエピソードを構成する各状態
にそれぞれ自律主体である記憶エージェントを割り付
け、内部状態が移動する際に視野に入ったエピソード以
外の状態にも記憶エージェントを割り当て、隣接記憶エ
ージェントからの強化値が伝播されると自発的に隣接記
憶エージェントに向い強化値を伝播し、全体として減衰
を行った後に、エピソードを減衰した経験の有無で強化
値の減衰率を変え、強化値が所定の閾値以下になった場
合に活性伝播を終了するというように活性伝播が記憶エ
ージェント群の協調動作として実現されることを要旨と
する。
め、請求項1記載の本発明は、複雑で動的に変化する環
境の下で動作する自律行動主体が変化に対して効果的に
適応できるための行動選択ネットワークの枠組をprofit
-sharingに適応した経験強化型強化学習方法であって、
状態要素の遷移系列であるエピソードを構成する各状態
にそれぞれ自律主体である記憶エージェントを割り付
け、内部状態が移動する際に視野に入ったエピソード以
外の状態にも記憶エージェントを割り当て、隣接記憶エ
ージェントからの強化値が伝播されると自発的に隣接記
憶エージェントに向い強化値を伝播し、全体として減衰
を行った後に、エピソードを減衰した経験の有無で強化
値の減衰率を変え、強化値が所定の閾値以下になった場
合に活性伝播を終了するというように活性伝播が記憶エ
ージェント群の協調動作として実現されることを要旨と
する。
【0010】請求項1記載の本発明にあっては、エピソ
ードに直接関係しないが隣接するような記憶エージェン
トに対しても活性伝播を行うことにより柔軟性を持った
学習を行うことができるとともに、また最短経路で効率
の良い学習を行うことができる。
ードに直接関係しないが隣接するような記憶エージェン
トに対しても活性伝播を行うことにより柔軟性を持った
学習を行うことができるとともに、また最短経路で効率
の良い学習を行うことができる。
【0011】また、請求項2記載の本発明は、複雑で動
的に変化する環境の下で動作する自律行動主体が変化に
対して効果的に適応できるための行動選択ネットワーク
の枠組をprofit-sharingに適応した経験強化型強化学習
プログラムを記録した記録媒体であって、状態要素の遷
移系列であるエピソードを構成する各状態にそれぞれ自
律主体である記憶エージェントを割り付け、内部状態が
移動する際に視野に入ったエピソード以外の状態にも記
憶エージェントを割り当て、隣接記憶エージェントから
の強化値が伝播されると自発的に隣接記憶エージェント
に向い強化値を伝播し、全体として減衰を行った際に、
エピソードを減衰した経験の有無で強化値の減衰率を変
え、強化値が所定の閾値以下になった場合に活性伝播を
終了するというように活性伝播が記憶エージェント群の
協調動作として実現されることを要旨とする。
的に変化する環境の下で動作する自律行動主体が変化に
対して効果的に適応できるための行動選択ネットワーク
の枠組をprofit-sharingに適応した経験強化型強化学習
プログラムを記録した記録媒体であって、状態要素の遷
移系列であるエピソードを構成する各状態にそれぞれ自
律主体である記憶エージェントを割り付け、内部状態が
移動する際に視野に入ったエピソード以外の状態にも記
憶エージェントを割り当て、隣接記憶エージェントから
の強化値が伝播されると自発的に隣接記憶エージェント
に向い強化値を伝播し、全体として減衰を行った際に、
エピソードを減衰した経験の有無で強化値の減衰率を変
え、強化値が所定の閾値以下になった場合に活性伝播を
終了するというように活性伝播が記憶エージェント群の
協調動作として実現されることを要旨とする。
【0012】請求項2記載の本発明にあっては、エピソ
ードを構成する各状態にそれぞれ記憶エージェントを割
り付けるとともに、内部状態が移動する際に視野に入っ
たエピソード以外の状態にも記憶エージェントを割り当
て、隣接記憶エージェントからの強化値が伝播されると
隣接記憶エージェントに向い強化値を伝播し、全体とし
て減衰を行った後に、エピソードを減衰した経験の有無
で強化値の減衰率を変え、強化値が所定の閾値以下にな
った場合に活性伝播を終了する経験強化型強化学習プロ
グラムを記録媒体として記録しているため、該記録媒体
を用いて、その流通性を高めることができる。
ードを構成する各状態にそれぞれ記憶エージェントを割
り付けるとともに、内部状態が移動する際に視野に入っ
たエピソード以外の状態にも記憶エージェントを割り当
て、隣接記憶エージェントからの強化値が伝播されると
隣接記憶エージェントに向い強化値を伝播し、全体とし
て減衰を行った後に、エピソードを減衰した経験の有無
で強化値の減衰率を変え、強化値が所定の閾値以下にな
った場合に活性伝播を終了する経験強化型強化学習プロ
グラムを記録媒体として記録しているため、該記録媒体
を用いて、その流通性を高めることができる。
【0013】
【発明の実施の形態】まず、本発明の経験強化型強化学
習方法L−ANAを説明するために、図1に示すような
格子状の状態空間S内を移動する自律行動主体Aを考え
る。状態空間Sを構成する個々の状態は、それぞれS1
a,・・・,S7fのように表記される。自律行動主体A
は状態空間S内を上下左右に1ブロックずつ移動するこ
とができ、移動に際して行動主体Aに搭載された仮想バ
ッテリを使用する。バッテリは移動することにより減少
するが、充電ポイントBにて補給することが可能であ
る。充電ポイントBは状態空間S内に数箇所存在し、ま
た補給できるエネルギ量もそれぞれ異なっている。ま
た、状態空間S内には障害物も存在し、行動主体Aは障
害物を通過することはできない。充電ポイントBの位置
と数は変化しないが、障害物の位置と数は動的に変化す
るものとする。なお、報酬は補給エネルギ量に比例した
値が与えられる。
習方法L−ANAを説明するために、図1に示すような
格子状の状態空間S内を移動する自律行動主体Aを考え
る。状態空間Sを構成する個々の状態は、それぞれS1
a,・・・,S7fのように表記される。自律行動主体A
は状態空間S内を上下左右に1ブロックずつ移動するこ
とができ、移動に際して行動主体Aに搭載された仮想バ
ッテリを使用する。バッテリは移動することにより減少
するが、充電ポイントBにて補給することが可能であ
る。充電ポイントBは状態空間S内に数箇所存在し、ま
た補給できるエネルギ量もそれぞれ異なっている。ま
た、状態空間S内には障害物も存在し、行動主体Aは障
害物を通過することはできない。充電ポイントBの位置
と数は変化しないが、障害物の位置と数は動的に変化す
るものとする。なお、報酬は補給エネルギ量に比例した
値が与えられる。
【0014】行動主体Aは初期状態では状態空間Sが格
子状の環境で自分が上下左右に移動できること以外、充
電ポイントBや障害物の位置に関しての情報は一切持っ
ていない。ただし、行動主体Aには仮想センサが搭載さ
れており、図1の斜線を施した範囲に関する環境の状況
を得ることができる。
子状の環境で自分が上下左右に移動できること以外、充
電ポイントBや障害物の位置に関しての情報は一切持っ
ていない。ただし、行動主体Aには仮想センサが搭載さ
れており、図1の斜線を施した範囲に関する環境の状況
を得ることができる。
【0015】行動主体Aは状態空間Sに依存して変化す
る内部状態空間AS を有し、この例題ではAS =
{As1:充電が必要、As2:充電は必要ない}という2
種類の内部状態を考えることができる。
る内部状態空間AS を有し、この例題ではAS =
{As1:充電が必要、As2:充電は必要ない}という2
種類の内部状態を考えることができる。
【0016】行動主体Aに要求される学習とは、より多
くのエネルギを補給できる充電ポイントBと、その充電
ポイントBへの移動経路を学習することである。また、
補給エネルギ量は少ないものの、近くの充電ポイントB
で補給したほうが効率がよいということも学習できるこ
とが望まれる。そして障害物が動的に消滅/出現するの
で、これを察知した時に柔軟に対応でき、学習の効率を
低下させないことが何より重要である。
くのエネルギを補給できる充電ポイントBと、その充電
ポイントBへの移動経路を学習することである。また、
補給エネルギ量は少ないものの、近くの充電ポイントB
で補給したほうが効率がよいということも学習できるこ
とが望まれる。そして障害物が動的に消滅/出現するの
で、これを察知した時に柔軟に対応でき、学習の効率を
低下させないことが何より重要である。
【0017】L−ANAはprofit-sharingと同様に経験
強化型の強化学習を行う。profit-sharingでは、エピソ
ードに相当する状態遷移系列を単位として学習を行い、
エピソードとエピソードに割り振られた学習値を記憶す
る。例えば図2(a)に示すように行動主体Aがpの状
態遷移系列により偶然充電ポイントBにたどり着けたと
すると、まず充電ポイントBの存在する状態に対して報
酬100が与えられ、さらにエピソードpを構成する各
状態に対して強化関数に基づいた強化値が順次割り振ら
れる。このように1つのエピソードを記憶することがpr
ofit-sharingにおける1回の学習である。
強化型の強化学習を行う。profit-sharingでは、エピソ
ードに相当する状態遷移系列を単位として学習を行い、
エピソードとエピソードに割り振られた学習値を記憶す
る。例えば図2(a)に示すように行動主体Aがpの状
態遷移系列により偶然充電ポイントBにたどり着けたと
すると、まず充電ポイントBの存在する状態に対して報
酬100が与えられ、さらにエピソードpを構成する各
状態に対して強化関数に基づいた強化値が順次割り振ら
れる。このように1つのエピソードを記憶することがpr
ofit-sharingにおける1回の学習である。
【0018】L−ANAでは、報酬を得たことにより変
化する内部状態Asiが学習の対象となり、この時のエピ
ソードは初期状態またはこの内部状態Asiが成立した時
から内部状態Asiが不成立となるまでの状態要素の遷移
系列である。例えば、内部状態Asiが成立している状態
で充電を行うことができたとすると、内部状態As1は不
成立となり、代わりに内部状態As2が成立する。この場
合、内部状態As1についての強化学習が行われる。
化する内部状態Asiが学習の対象となり、この時のエピ
ソードは初期状態またはこの内部状態Asiが成立した時
から内部状態Asiが不成立となるまでの状態要素の遷移
系列である。例えば、内部状態Asiが成立している状態
で充電を行うことができたとすると、内部状態As1は不
成立となり、代わりに内部状態As2が成立する。この場
合、内部状態As1についての強化学習が行われる。
【0019】これに対し、L−ANAでは図2(b)に
示すようにエピソードを構成する各状態に対して1つず
つ記憶モジュールを割り付けていく。報酬を得た時に行
われる強化学習はprofit-sharingと同様で、報酬を得た
状態に割り当てられた記憶エージェントをsijとする
と、「sij(t+1)=sij(t)−bsij(t)+b
p(t)、b:学習率、p:報酬」に従って強化値の更
新を行う。profit-sharingはエピソードに対して、報酬
からそれだけ過去であるかを引数として強化値を返す強
化関数に基づいた強化値を割り当てる。上述したよう
に、profit-sharingではエピソードを構成する状態系列
にのみ強化値を割り振るわけだが、これは経験以外の不
確定要素を排除し経験しか信用できない状況において有
効な手段である。しかしながら、行動主体が視野を持ち
ローカルな情報収集が可能である状況を考えると、行動
主体から見える範囲においてはエピソードに割り振る強
化値よりも小さい割合で強化値を割り振ることは学習に
柔軟性とロバスト性を与えられる可能性がある。L−A
NAは、profit-sharingと同様に経験を強化することが
基本方式であるので、直接経験していないエピソード以
外の状態に対して差をつける必要がある。
示すようにエピソードを構成する各状態に対して1つず
つ記憶モジュールを割り付けていく。報酬を得た時に行
われる強化学習はprofit-sharingと同様で、報酬を得た
状態に割り当てられた記憶エージェントをsijとする
と、「sij(t+1)=sij(t)−bsij(t)+b
p(t)、b:学習率、p:報酬」に従って強化値の更
新を行う。profit-sharingはエピソードに対して、報酬
からそれだけ過去であるかを引数として強化値を返す強
化関数に基づいた強化値を割り当てる。上述したよう
に、profit-sharingではエピソードを構成する状態系列
にのみ強化値を割り振るわけだが、これは経験以外の不
確定要素を排除し経験しか信用できない状況において有
効な手段である。しかしながら、行動主体が視野を持ち
ローカルな情報収集が可能である状況を考えると、行動
主体から見える範囲においてはエピソードに割り振る強
化値よりも小さい割合で強化値を割り振ることは学習に
柔軟性とロバスト性を与えられる可能性がある。L−A
NAは、profit-sharingと同様に経験を強化することが
基本方式であるので、直接経験していないエピソード以
外の状態に対して差をつける必要がある。
【0020】そこで、L−ANAでは行動主体Aが移動
する際に視野に入ったエピソード以外の状態に対しても
記憶モジュールを割り当てていく。例えば、図2(b)
のようなエピソードが得られたとすると、行動主体Aが
割り当てることができる記憶モジュールは図2(c)の
部分となる。各記憶モジュールは割り当てられる時に、
自分がどの記憶エージェントと隣接関係にあるのか、ま
た自分がエピソードを構成しているかどうかを記憶す
る。割り付けられた時にはエピソードを構成していなく
ても、その後の試行でエピソードの一部分となる場合も
ある。なお、隣接関係にあるのは上下左右に位置する記
憶エージェントである。
する際に視野に入ったエピソード以外の状態に対しても
記憶モジュールを割り当てていく。例えば、図2(b)
のようなエピソードが得られたとすると、行動主体Aが
割り当てることができる記憶モジュールは図2(c)の
部分となる。各記憶モジュールは割り当てられる時に、
自分がどの記憶エージェントと隣接関係にあるのか、ま
た自分がエピソードを構成しているかどうかを記憶す
る。割り付けられた時にはエピソードを構成していなく
ても、その後の試行でエピソードの一部分となる場合も
ある。なお、隣接関係にあるのは上下左右に位置する記
憶エージェントである。
【0021】なお、学習された強化値の利用の仕方はpr
ofit-sharingと同様に、より強化値の大きい状態に移動
するという方針である。
ofit-sharingと同様に、より強化値の大きい状態に移動
するという方針である。
【0022】記憶モジュールは隣接する記憶モジュール
から強化値が伝播されると自発的に自分が隣接する他の
記憶モジュールに向かって強化値を伝播する。伝播の仕
方は図3に示すように、全体としてある減衰を行った
後、エピソードを構成した経験がある記憶モジュールと
それ以外で異なる減衰率による強化値Rを伝播する。伝
播する強化値がある閾値以下になった時点で活性伝播を
終了する。L−ANAにおける学習とは、各記憶モジュ
ールが自分がどの隣接する記憶モジュールに対し、どれ
くらいの強化値を伝播するのかを記憶することである。
から強化値が伝播されると自発的に自分が隣接する他の
記憶モジュールに向かって強化値を伝播する。伝播の仕
方は図3に示すように、全体としてある減衰を行った
後、エピソードを構成した経験がある記憶モジュールと
それ以外で異なる減衰率による強化値Rを伝播する。伝
播する強化値がある閾値以下になった時点で活性伝播を
終了する。L−ANAにおける学習とは、各記憶モジュ
ールが自分がどの隣接する記憶モジュールに対し、どれ
くらいの強化値を伝播するのかを記憶することである。
【0023】活性伝播は、1.活性伝播を行う際に用い
る強化値の大きさと、2.伝播する時に用いる減衰率の
2つのパラメータによりその特性を容易に操作すること
ができ、この2つのパラメータの設定の仕方により、以
下のように2つの学習の特性を使い分けることができ
る。
る強化値の大きさと、2.伝播する時に用いる減衰率の
2つのパラメータによりその特性を容易に操作すること
ができ、この2つのパラメータの設定の仕方により、以
下のように2つの学習の特性を使い分けることができ
る。
【0024】(1)行動主体Aが報酬を得られる状態の
近傍に来た時のみ、学習効果が発揮されるような学習を
行いたい場合には、強化値を大きく減衰率を高くする。
つまり報酬を得た状態を頂点とする強化値の山を考える
と、その高度は高くしかも急勾配となる。例えば、状態
空間S内に行動主体Aに対する捕食者を考えてみると、
捕食者から逃げるのは捕食者が行動主体Aの近傍に迫っ
た時のみでよい。このような学習を行うには(1)の設
定が有効である。
近傍に来た時のみ、学習効果が発揮されるような学習を
行いたい場合には、強化値を大きく減衰率を高くする。
つまり報酬を得た状態を頂点とする強化値の山を考える
と、その高度は高くしかも急勾配となる。例えば、状態
空間S内に行動主体Aに対する捕食者を考えてみると、
捕食者から逃げるのは捕食者が行動主体Aの近傍に迫っ
た時のみでよい。このような学習を行うには(1)の設
定が有効である。
【0025】(2)逆に、行動主体Aが報酬を得る状態
から離れている状態でも学習効果が発揮されるようにす
るには、強化値を小さく減衰率を低くする。つまり報酬
を得た状態を頂点とする強化値の山を考えた時、その高
度は低くしかも勾配もなだらかとなる。例えば、今回の
ようにエネルギを充電するようなことを学習することを
考えた時には(2)のように学習効果が広く行き渡って
いた方がよい。なお、強化値を(1)に比べて小さく設
定しなければならない理由は、(1)が(2)の強化値
の分布に完全に含まれないようにするためである。
(2)の学習結果に従って充電ポイントBまで移動中で
あっても、捕食者が接近してきた時には(1)の学習効
果が発揮されなくてはならないからである。
から離れている状態でも学習効果が発揮されるようにす
るには、強化値を小さく減衰率を低くする。つまり報酬
を得た状態を頂点とする強化値の山を考えた時、その高
度は低くしかも勾配もなだらかとなる。例えば、今回の
ようにエネルギを充電するようなことを学習することを
考えた時には(2)のように学習効果が広く行き渡って
いた方がよい。なお、強化値を(1)に比べて小さく設
定しなければならない理由は、(1)が(2)の強化値
の分布に完全に含まれないようにするためである。
(2)の学習結果に従って充電ポイントBまで移動中で
あっても、捕食者が接近してきた時には(1)の学習効
果が発揮されなくてはならないからである。
【0026】エピソード以外の記憶モジュールに対して
も活性伝播を行うことで、より柔軟性とロバスト性を兼
ね備えた学習を行うことができる。例えば、図4(a)
のようにprofit-sharingではどちらかのエピソードに出
会うまではランダムに移動するしかないが、図4(b)
に示すようにL−ANAでは行動主体Aが既に活性伝播
された状態に位置していれば、近隣のエピソードに最短
経路で引き込まれるので効率良く充電ポイントBまで移
動することができる。
も活性伝播を行うことで、より柔軟性とロバスト性を兼
ね備えた学習を行うことができる。例えば、図4(a)
のようにprofit-sharingではどちらかのエピソードに出
会うまではランダムに移動するしかないが、図4(b)
に示すようにL−ANAでは行動主体Aが既に活性伝播
された状態に位置していれば、近隣のエピソードに最短
経路で引き込まれるので効率良く充電ポイントBまで移
動することができる。
【0027】各記憶モジュールはそれぞれ独立して機能
していることから、仮にある記憶モジュールの機能が損
なわれたとしても、その記憶モジュールを欠いた状態で
活性伝播が行われ、機能が損なわれた部分を迂回するよ
うな経路が自動的に選択される。profit-sharingではエ
ピソードを構成する状態の1つが欠けてしまうと、その
エピソード全体が影響を受けてしまう。このことからも
L−ANAはよりロバスト性を有し、実世界などの動的
な環境内で動作する自律行動主体のための学習法として
適している。
していることから、仮にある記憶モジュールの機能が損
なわれたとしても、その記憶モジュールを欠いた状態で
活性伝播が行われ、機能が損なわれた部分を迂回するよ
うな経路が自動的に選択される。profit-sharingではエ
ピソードを構成する状態の1つが欠けてしまうと、その
エピソード全体が影響を受けてしまう。このことからも
L−ANAはよりロバスト性を有し、実世界などの動的
な環境内で動作する自律行動主体のための学習法として
適している。
【0028】profit-sharingでは強化値割り当ての際無
効ルールを抑制することが問題となるが、L−ANAで
は無効ルールも報酬を得る状態に至る経路として積極的
に再利用される。
効ルールを抑制することが問題となるが、L−ANAで
は無効ルールも報酬を得る状態に至る経路として積極的
に再利用される。
【0029】学習はAsi単位で行われ、Asi単位で独自
の活性伝播図形が学習さることになる。従って、例えば
あるAs1とAs2が共に成立するような状況では、両方の
強化値分布を重ねた分布図を用いて行動主体Aは行動選
択を行えばよい。
の活性伝播図形が学習さることになる。従って、例えば
あるAs1とAs2が共に成立するような状況では、両方の
強化値分布を重ねた分布図を用いて行動主体Aは行動選
択を行えばよい。
【0030】また、行動主体Aが複数存在し、行動主体
A同士で協調する枠組を考えると、異なる行動主体の学
習した強化値分布を共有することで互いの学習結果を利
用し合うことも容易に実現できる。
A同士で協調する枠組を考えると、異なる行動主体の学
習した強化値分布を共有することで互いの学習結果を利
用し合うことも容易に実現できる。
【0031】これまではすべて正の強化学習について述
べてきたが、L−ANAでは活性値を吸収する逆の活性
伝播を行うことで、負の強化学習も容易に実現すること
ができる。行動主体Aは常に強化値の大きい状態に移動
する方法で学習結果を用いるわけだが、ここで状態空間
S内に落し穴の設定を加えてみる。この場合落し穴に近
付かないようにするためには、落し穴を中心として活性
値を吸収する活性伝播を行えばよい。そしてエネルギを
充電するための正の強化学習のための強化値分布と重ね
ることで両方の学習効果を容易に統合することができ、
落し穴を避けつつ最適に充電ポイントに至る経路を選択
することができる。
べてきたが、L−ANAでは活性値を吸収する逆の活性
伝播を行うことで、負の強化学習も容易に実現すること
ができる。行動主体Aは常に強化値の大きい状態に移動
する方法で学習結果を用いるわけだが、ここで状態空間
S内に落し穴の設定を加えてみる。この場合落し穴に近
付かないようにするためには、落し穴を中心として活性
値を吸収する活性伝播を行えばよい。そしてエネルギを
充電するための正の強化学習のための強化値分布と重ね
ることで両方の学習効果を容易に統合することができ、
落し穴を避けつつ最適に充電ポイントに至る経路を選択
することができる。
【0032】図5および図6は、実際に状態空間Sを用
いてprofit-sharingとL−ANAの比較評価を行った結
果を示す図である。
いてprofit-sharingとL−ANAの比較評価を行った結
果を示す図である。
【0033】図5(a),(b)は、それぞれある環境
sを用いた時のprofit-sharingとL−ANAにおいて学
習された移動経路の精度を示したものである。具体的に
は、自律行動主体Aがどれだけ最短経路で充電ポイント
Bまで移動できたか、すなわち自律行動主体Aが移動し
た経路と、計算した最短経路との比を示している。例え
ば10倍とは学習された経路面が最短経路の10倍であ
ったことを示している。図5(a)に示すprofit-shari
ngと図5(b)に示すL−ANAとを比較すればわかる
ように、L−ANAは常に最短経路に近い経路で移動で
きているが、profit-sharingではかなりのばらつきが見
られ、L−ANAの方がより最短経路を学習しているこ
とを確認することができる。
sを用いた時のprofit-sharingとL−ANAにおいて学
習された移動経路の精度を示したものである。具体的に
は、自律行動主体Aがどれだけ最短経路で充電ポイント
Bまで移動できたか、すなわち自律行動主体Aが移動し
た経路と、計算した最短経路との比を示している。例え
ば10倍とは学習された経路面が最短経路の10倍であ
ったことを示している。図5(a)に示すprofit-shari
ngと図5(b)に示すL−ANAとを比較すればわかる
ように、L−ANAは常に最短経路に近い経路で移動で
きているが、profit-sharingではかなりのばらつきが見
られ、L−ANAの方がより最短経路を学習しているこ
とを確認することができる。
【0034】更に、図5(a),(b)において、25
0ステップ目に環境に動的な変化を起こすと、すなわち
具体的には動的に障害物を出現させると、profit-shari
ngでは一時的に性能が劣化するが、L−ANAでは性能
が劣化することがないことを確認することができる。従
って、L−ANAの方がprofit-sharingに比較して、よ
り環境の動的な変化にロバストであることを確認するこ
とができた。
0ステップ目に環境に動的な変化を起こすと、すなわち
具体的には動的に障害物を出現させると、profit-shari
ngでは一時的に性能が劣化するが、L−ANAでは性能
が劣化することがないことを確認することができる。従
って、L−ANAの方がprofit-sharingに比較して、よ
り環境の動的な変化にロバストであることを確認するこ
とができた。
【0035】図6(a),(b)は、それぞれprofit-s
haringおよびL−ANAについて環境内の各状態がどこ
の充電ポイントへの経路として学習されたかを示した図
である。図6(a)に示すprofit-sharingでは、充電ポ
イントB1 の近くであるにも関わらず、充電ポイントB
3 へ向かう経路が学習されているような状況が起こり、
効率が悪いが、図6(b)に示すL−ANAでは、充電
ポイントB1 の近くでは充電ポイントB1 に向かう経路
が学習されており、充電ポイントB1 までの移動距離と
充電されたエネルギ補給量を考慮した経路が学習されて
いることを確認することができる。
haringおよびL−ANAについて環境内の各状態がどこ
の充電ポイントへの経路として学習されたかを示した図
である。図6(a)に示すprofit-sharingでは、充電ポ
イントB1 の近くであるにも関わらず、充電ポイントB
3 へ向かう経路が学習されているような状況が起こり、
効率が悪いが、図6(b)に示すL−ANAでは、充電
ポイントB1 の近くでは充電ポイントB1 に向かう経路
が学習されており、充電ポイントB1 までの移動距離と
充電されたエネルギ補給量を考慮した経路が学習されて
いることを確認することができる。
【0036】次に、図7および図8に示すフローチャー
トを参照して、本発明の一実施形態に係る行動選択ネッ
トワークを用いた経験強化型強化学習方法の作用を説明
する。図7はL−ANAの全体的流れ、具体的には内部
条件Asiに関する学習の流れを示すフローチャートであ
り、図8は図7のステップS21における活性伝播につ
いてのアルゴリズムを示すフローチャートである。
トを参照して、本発明の一実施形態に係る行動選択ネッ
トワークを用いた経験強化型強化学習方法の作用を説明
する。図7はL−ANAの全体的流れ、具体的には内部
条件Asiに関する学習の流れを示すフローチャートであ
り、図8は図7のステップS21における活性伝播につ
いてのアルゴリズムを示すフローチャートである。
【0037】図7を参照して、L−ANAの全体的流れ
について説明する。同図に示す処理は内部条件Asiに関
する強化学習を例としているものであり、まず内部条件
Asiが成立しているか否かがチェックされる(ステップ
S11)。成立していない場合には、強化学習を行う必
要がないので、移動可能な状態にランダムに移動し、最
初のステップに戻る(ステップS13)。
について説明する。同図に示す処理は内部条件Asiに関
する強化学習を例としているものであり、まず内部条件
Asiが成立しているか否かがチェックされる(ステップ
S11)。成立していない場合には、強化学習を行う必
要がないので、移動可能な状態にランダムに移動し、最
初のステップに戻る(ステップS13)。
【0038】内部条件Asiが成立している場合には、よ
り大きな強化値を有する状態に移動し、候補が複数存在
する場合には、ランダムに選択する(ステップS1
5)。なお、強化値は初期値としてすべての状態に対し
て0を与えておく。移動した状態をエピソード登録用テ
ーブルに登録する(ステップS17)。そして、報酬を
貰えたか否かをチェックし(ステップS19)、貰えな
い場合には、ステップS15に戻って、より大きな強化
値を有する状態に移動し、同じ処理を繰り返すが、報酬
を貰えた場合には、活性伝播を行う(ステップS2
1)。なお、この活性伝播について図8に示すフローチ
ャートで詳細に説明する。
り大きな強化値を有する状態に移動し、候補が複数存在
する場合には、ランダムに選択する(ステップS1
5)。なお、強化値は初期値としてすべての状態に対し
て0を与えておく。移動した状態をエピソード登録用テ
ーブルに登録する(ステップS17)。そして、報酬を
貰えたか否かをチェックし(ステップS19)、貰えな
い場合には、ステップS15に戻って、より大きな強化
値を有する状態に移動し、同じ処理を繰り返すが、報酬
を貰えた場合には、活性伝播を行う(ステップS2
1)。なお、この活性伝播について図8に示すフローチ
ャートで詳細に説明する。
【0039】活性伝播を行うと、エピソード登録用テー
ブルを初期化し(ステップS23)、内部条件Asiを不
成立にし、最初のステップに戻る(ステップS25)。
ブルを初期化し(ステップS23)、内部条件Asiを不
成立にし、最初のステップに戻る(ステップS25)。
【0040】次に、図8に示す活性伝播について説明す
る。図8において、活性伝播がスタートすると、まず報
酬を得た状態Asiに対して強化値Rを与え、活性伝播用
基準強化値sに強化値Rを代入する(ステップS33,
S35)。それから、状態Asiに隣接する状態Asjの1
つずつに対して以下の処理を行う(ステップS37)。
る。図8において、活性伝播がスタートすると、まず報
酬を得た状態Asiに対して強化値Rを与え、活性伝播用
基準強化値sに強化値Rを代入する(ステップS33,
S35)。それから、状態Asiに隣接する状態Asjの1
つずつに対して以下の処理を行う(ステップS37)。
【0041】まず、状態Asjはエピソード登録用テーブ
ルに登録されているか否かをチェックする(ステップS
39)。登録されている場合には、該状態Asjの強化値
が前記基準強化値sと減衰率α(エピソードを構成する
状態に活性伝播する際の減衰率であり、0<α<1)と
の積である強化値よりも小さいか否かをチェックする
(ステップS41)。Asjの強化値が小さくない場合に
は、ステップS37に戻り、同じ処理を繰り返すが、強
化値が小さい場合には、すなわち、強化値を伝播しよう
とする状態に既に活性値が伝播されており、その値が今
回伝播しようとする強化値よりも小さい時のみ、再び強
化値の伝播を行うので、強化値が小さい場合には、減衰
率αと基準強化値sとの積である強化値が、最小強化値
(min)よりも小さいか否かが成立するか否かをチェ
ックする(ステップS43)。すなわち、伝播する最小
強化値をminとする。
ルに登録されているか否かをチェックする(ステップS
39)。登録されている場合には、該状態Asjの強化値
が前記基準強化値sと減衰率α(エピソードを構成する
状態に活性伝播する際の減衰率であり、0<α<1)と
の積である強化値よりも小さいか否かをチェックする
(ステップS41)。Asjの強化値が小さくない場合に
は、ステップS37に戻り、同じ処理を繰り返すが、強
化値が小さい場合には、すなわち、強化値を伝播しよう
とする状態に既に活性値が伝播されており、その値が今
回伝播しようとする強化値よりも小さい時のみ、再び強
化値の伝播を行うので、強化値が小さい場合には、減衰
率αと基準強化値sとの積である強化値が、最小強化値
(min)よりも小さいか否かが成立するか否かをチェ
ックする(ステップS43)。すなわち、伝播する最小
強化値をminとする。
【0042】伝播しようとする強化値が予め設定した最
小値(min)より小さくなった場合には、この部分の
活性伝播を終了し、ステップS37に戻り、別の状態の
活性伝播を行う。強化値が最小値(min)よりも小さ
くない場合には、状態Asjに対して強化値αsを与える
(ステップS45)。
小値(min)より小さくなった場合には、この部分の
活性伝播を終了し、ステップS37に戻り、別の状態の
活性伝播を行う。強化値が最小値(min)よりも小さ
くない場合には、状態Asjに対して強化値αsを与える
(ステップS45)。
【0043】それから、状態Asjが活性伝播テーブルに
登録されているか否かをチェックし(ステップS4
7)、登録されていない場合には、登録し(ステップS
49)、登録されている場合には、状態Asjがすでに活
性伝播を行ったというチェックが付いていたら、これを
解除する(ステップS51)。
登録されているか否かをチェックし(ステップS4
7)、登録されていない場合には、登録し(ステップS
49)、登録されている場合には、状態Asjがすでに活
性伝播を行ったというチェックが付いていたら、これを
解除する(ステップS51)。
【0044】次に、状態Asiに隣接するすべての状態A
sjについて終了したか否かをチェックする(ステップS
53)。すなわち、活性伝播テーブルに登録されている
すべての記憶モジュールについて活性伝播が終了して状
態Asiに関する一連の活性伝播を終了する。すべての状
態について終了していない場合には、ステップS37に
戻り、別の状態について活性伝播を繰り返し行うが、す
べての状態について終了している場合には、状態Asjは
活性伝播を終了したとしてチェックを付ける(ステップ
S55)。活性伝播テーブルに登録されている状態の中
でチェックされていないものが残っているか否かをチェ
ックし、残っていない場合には、本処理を終了するが、
残っている場合には、活性伝播テーブルに登録されてい
る状態の中でチェックされていないものの中で最も古く
に登録されている状態を新しい状態Asiとして見立てて
以下の処理を繰り返す(ステップS59)。すなわち、
活性伝播用基準強化値sに自分の強化値を代入し、ステ
ップS37に戻り、同じ処理を繰り返し行う(ステップ
S61)。
sjについて終了したか否かをチェックする(ステップS
53)。すなわち、活性伝播テーブルに登録されている
すべての記憶モジュールについて活性伝播が終了して状
態Asiに関する一連の活性伝播を終了する。すべての状
態について終了していない場合には、ステップS37に
戻り、別の状態について活性伝播を繰り返し行うが、す
べての状態について終了している場合には、状態Asjは
活性伝播を終了したとしてチェックを付ける(ステップ
S55)。活性伝播テーブルに登録されている状態の中
でチェックされていないものが残っているか否かをチェ
ックし、残っていない場合には、本処理を終了するが、
残っている場合には、活性伝播テーブルに登録されてい
る状態の中でチェックされていないものの中で最も古く
に登録されている状態を新しい状態Asiとして見立てて
以下の処理を繰り返す(ステップS59)。すなわち、
活性伝播用基準強化値sに自分の強化値を代入し、ステ
ップS37に戻り、同じ処理を繰り返し行う(ステップ
S61)。
【0045】一方、ステップS39のチェックにおい
て、状態Asjがエピソード登録用テーブルに登録されて
いない場合には、状態Asjの強化値が基準強化値sと減
衰率β(エピソードを構成する状態に活性伝播する際の
減衰率であり、0<β<1)との積である強化値よりも
小さいか否かをチェックする(ステップS63)。Asj
の強化値が小さくない場合には、ステップS37に戻
り、同じ処理を繰り返すが、強化値が小さい場合には、
減衰率βと基準強化値sとの積である強化値が最小強化
値(min)よりも小さいか否かが成立するか否かをチ
ェックする(ステップS65)。伝播しようとする強化
値が予め設定した最小強化値(min)より小さくなっ
た場合には、この部分の活性伝播を終了し、ステップS
37に戻り、別の状態の活性伝播を行う。強化値が最小
値(min)よりも小さくない場合には、状態Asjに対
して強化値βsを与え(ステップS67)、ステップS
47に進み、上述した処理を行う。
て、状態Asjがエピソード登録用テーブルに登録されて
いない場合には、状態Asjの強化値が基準強化値sと減
衰率β(エピソードを構成する状態に活性伝播する際の
減衰率であり、0<β<1)との積である強化値よりも
小さいか否かをチェックする(ステップS63)。Asj
の強化値が小さくない場合には、ステップS37に戻
り、同じ処理を繰り返すが、強化値が小さい場合には、
減衰率βと基準強化値sとの積である強化値が最小強化
値(min)よりも小さいか否かが成立するか否かをチ
ェックする(ステップS65)。伝播しようとする強化
値が予め設定した最小強化値(min)より小さくなっ
た場合には、この部分の活性伝播を終了し、ステップS
37に戻り、別の状態の活性伝播を行う。強化値が最小
値(min)よりも小さくない場合には、状態Asjに対
して強化値βsを与え(ステップS67)、ステップS
47に進み、上述した処理を行う。
【0046】
【発明の効果】以上説明したように、本発明によれば、
エピソードに直接関係しないが隣接する記憶エージェン
トに対しても活性伝播を行い、柔軟性を持った学習が可
能であり、また最短経路で効率の良い学習を行うことが
できる上に、従来のprofit-sharingに比較してロバスト
性を有し、実世界やインターネット等の複雑で動的に変
化する環境で動作する自律移動ロボットやソフトウェア
エージェント等の自律行動主体に最適であり、活性伝播
の特性を制御することにより学習の特性を容易に操作で
き、従来の実時間リアクティブプランニング等と組み合
わせることも容易となる。
エピソードに直接関係しないが隣接する記憶エージェン
トに対しても活性伝播を行い、柔軟性を持った学習が可
能であり、また最短経路で効率の良い学習を行うことが
できる上に、従来のprofit-sharingに比較してロバスト
性を有し、実世界やインターネット等の複雑で動的に変
化する環境で動作する自律移動ロボットやソフトウェア
エージェント等の自律行動主体に最適であり、活性伝播
の特性を制御することにより学習の特性を容易に操作で
き、従来の実時間リアクティブプランニング等と組み合
わせることも容易となる。
【図1】本発明の行動選択ネットワークを用いた経験強
化型強化学習方法L−ANAを説明するための一例(グ
リッドワールド)を構成する格子状の状態空間内を移動
する自律行動主体を示す説明図である。
化型強化学習方法L−ANAを説明するための一例(グ
リッドワールド)を構成する格子状の状態空間内を移動
する自律行動主体を示す説明図である。
【図2】エピソードと記憶モジュールの関係を示す説明
図である。
図である。
【図3】活性伝播の仕方を示す説明図である。
【図4】活性伝播の効果を従来のprofit-sharingと本発
明のL−ANAについて示す説明図である。
明のL−ANAについて示す説明図である。
【図5】ある環境sを用いた時の従来のprofit-sharing
と本発明のL−ANAにおいて学習された移動経路の精
度を示す図である。
と本発明のL−ANAにおいて学習された移動経路の精
度を示す図である。
【図6】従来のprofit-sharingおよび本発明のL−AN
Aについて環境内の各状態がどこの充電ポイントへの経
路として学習されたかを示した図である。
Aについて環境内の各状態がどこの充電ポイントへの経
路として学習されたかを示した図である。
【図7】本発明の一実施形態に係るL−ANAの全体的
流れを示すフローチャートである。
流れを示すフローチャートである。
【図8】図7のステップS21における活性伝播につい
てアルゴリズムを示すフローチャートである。
てアルゴリズムを示すフローチャートである。
A 自律行動主体 B 充電ポイント p エピソード R 強化値 S 状態空間
Claims (2)
- 【請求項1】 複雑で動的に変化する環境の下で動作す
る自律行動主体が変化に対して効果的に適応できるため
の行動選択ネットワークの枠組をprofit-sharingに適応
した経験強化型強化学習方法であって、 状態要素の遷移系列であるエピソードを構成する各状態
にそれぞれ自律主体である記憶エージェントを割り付
け、 内部状態が移動する際に視野に入ったエピソード以外の
状態にも記憶エージェントを割り当て、 隣接記憶エージェントからの強化値が伝播されると自発
的に隣接記憶エージェントに向い強化値を伝播し、 全体として減衰を行った後に、エピソードを減衰した経
験の有無で強化値の減衰率を変え、 強化値が所定の閾値以下になった場合に活性伝播を終了
するというように活性伝播が記憶エージェント群の協調
動作として実現されることを特徴とする行動選択ネット
ワークを用いた経験強化型強化学習方法。 - 【請求項2】 複雑で動的に変化する環境の下で動作す
る自律行動主体が変化に対して効果的に適応できるため
の行動選択ネットワークの枠組をprofit-sharingに適応
した経験強化型強化学習プログラムを記録した記録媒体
であって、 状態要素の遷移系列であるエピソードを構成する各状態
にそれぞれ自律主体である記憶エージェントを割り付
け、 内部状態が移動する際に視野に入ったエピソード以外の
状態にも記憶エージェントを割り当て、 隣接記憶エージェントからの強化値が伝播されると自発
的に隣接記憶エージェントに向い強化値を伝播し、 全体として減衰を行った際に、エピソードを減衰した経
験の有無で強化値の減衰率を変え、 強化値が所定の閾値以下になった場合に活性伝播を終了
するというように活性伝播が記憶エージェント群の協調
動作として実現されることを特徴とする行動選択ネット
ワークを用いた経験強化型強化学習プログラムを記録し
た記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9346743A JPH11175493A (ja) | 1997-12-16 | 1997-12-16 | 行動選択ネットワークを用いた経験強化型強化学習方法および経験強化型強化学習プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9346743A JPH11175493A (ja) | 1997-12-16 | 1997-12-16 | 行動選択ネットワークを用いた経験強化型強化学習方法および経験強化型強化学習プログラムを記録した記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11175493A true JPH11175493A (ja) | 1999-07-02 |
Family
ID=18385520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9346743A Pending JPH11175493A (ja) | 1997-12-16 | 1997-12-16 | 行動選択ネットワークを用いた経験強化型強化学習方法および経験強化型強化学習プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH11175493A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002032629A1 (en) * | 2000-10-13 | 2002-04-25 | Sony Corporation | Robot device and behavior control method for robot device |
CN108820157A (zh) * | 2018-04-25 | 2018-11-16 | 武汉理工大学 | 一种基于强化学习的船舶智能避碰方法 |
-
1997
- 1997-12-16 JP JP9346743A patent/JPH11175493A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002032629A1 (en) * | 2000-10-13 | 2002-04-25 | Sony Corporation | Robot device and behavior control method for robot device |
US6718232B2 (en) | 2000-10-13 | 2004-04-06 | Sony Corporation | Robot device and behavior control method for robot device |
CN100411828C (zh) * | 2000-10-13 | 2008-08-20 | 索尼公司 | 机器人装置及其行为控制方法 |
CN100423911C (zh) * | 2000-10-13 | 2008-10-08 | 索尼公司 | 机器人装置及其行为控制方法 |
CN100445046C (zh) * | 2000-10-13 | 2008-12-24 | 索尼公司 | 机器人装置及其行为控制方法 |
CN108820157A (zh) * | 2018-04-25 | 2018-11-16 | 武汉理工大学 | 一种基于强化学习的船舶智能避碰方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ghavamzadeh et al. | Hierarchical multi-agent reinforcement learning | |
Russell et al. | Q-decomposition for reinforcement learning agents | |
Kok et al. | Multi-robot decision making using coordination graphs | |
Wurm et al. | Coordinating heterogeneous teams of robots using temporal symbolic planning | |
Schillinger et al. | Multi-objective search for optimal multi-robot planning with finite LTL specifications and resource constraints | |
CN116307464A (zh) | 一种基于多智能体深度强化学习的agv任务分配方法 | |
CN112183288B (zh) | 一种基于模型的多智能体强化学习方法 | |
Ryan et al. | RL-TOPS: An Architecture for Modularity and Re-Use in Reinforcement Learning. | |
CN115934344A (zh) | 异构分布式强化学习计算方法、系统及存储介质 | |
CN116185035A (zh) | 基于改进仿生狼群的无人集群动态任务分配方法及系统 | |
CN118394090A (zh) | 一种基于深度强化学习的无人车决策与规划方法及系统 | |
Steegmans et al. | A design process for adaptive behavior of situated agents | |
Tang et al. | Himap: Learning heuristics-informed policies for large-scale multi-agent pathfinding | |
Tavakoli et al. | A cellular automata based algorithm for path planning in multi-agent systems with a common goal | |
JPH11175493A (ja) | 行動選択ネットワークを用いた経験強化型強化学習方法および経験強化型強化学習プログラムを記録した記録媒体 | |
Occello et al. | Designing organized agents for cooperation with real time constraints | |
Kok et al. | An approach to noncommunicative multiagent coordination in continuous domains | |
EP1087311A2 (en) | Visiting plan generation method and system | |
CN115617034B (zh) | 多智能体的环境探索方法、装置、电子设备及存储介质 | |
Hengst | Generating hierarchical structure in reinforcement learning from state variables | |
JP2000020494A (ja) | マルチエージェントモデルを用いて経験強化型強化学習法と環境同定型強化学習法を統合する分散強化学習法 | |
Takadama et al. | Robustness in organizational-learning oriented classifier system | |
Kloetzer et al. | An assembly problem with mobile robots | |
Gatti | Reason Logically, Move Continuously | |
Beynier et al. | Decentralized Markov decision processes for handling temporal and resource constraints in a multiple robot system |