WO2022102213A1

WO2022102213A1 - 制御装置及び制御方法

Info

Publication number: WO2022102213A1
Application number: PCT/JP2021/031806
Authority: WO
Inventors: 孝朗関合; 勇也徳田; 卓弥吉田
Original assignee: 株式会社日立製作所
Priority date: 2020-11-16
Filing date: 2021-08-30
Publication date: 2022-05-19
Also published as: US20230400821A1; CN116490834A; JP7441775B2; JP2022079264A

Abstract

制御装置１０は、制御対象２０を模擬するモデルを構築するモデル構築部１１と、モデル構築部１１により構築されたモデルを細分化する問題細分化部１２と、問題細分化部１２により細分化されたモデルを用いて制御対象２０の将来状態を予測し、予測した将来状態に基づいて制御対象２０の制御方策を計算する制御方策計算部１３と、制御方策計算部１３により計算された制御方策に基づいて、制御対象２０への操作指令を生成する操作指令生成部１４と、を備えている。

Description

制御装置及び制御方法

　本発明は、制御装置及び制御方法に関する。
　本願は、２０２０年１１月１６日に出願された日本国特願２０２０－１９０３５４号に基づき優先権を主張し、その内容をここに援用する。

　発電や産業プラントの分野では、プラントの運転状態を最適化した運転とすべく、機械学習を取り入れた制御装置が採用されている。その一例として、特許文献１には、事前に定義した有限の状態の空間内において、無限時間または無限ステップ先における制御対象とその周辺環境の状態を確率密度分布の形式で高速に予測できる将来状態予測装置からなる制御装置が開示されている。将来状態予測装置は、制御対象とその周辺環境の将来状態を確率密度分布の形式で模擬するモデルを用いて、級数と等価な計算を行う将来状態予測演算部と、将来状態予測演算部で予測した無限時間または無限ステップ先における制御対象とその周辺環境の状態の結果を用いて、制御対象の操作量を計算する制御則演算部とを備えている。

特開２０１９－１５９８７６号公報

　特許文献１に開示された制御装置をプラントなどの制御対象に適用する際に、将来状態予測演算部による将来状態を予測するための計算が必要である。しかし、制御対象とその周辺環境の状態が既に確率密度分布の形式で定義されており、制御対象とその周辺環境の状態を更に詳細に定義されると、将来状態を予測するための計算に多くのメモリが必要となる。その結果、制御装置のメモリが不足し、将来状態を予測できない問題が生じる可能性がある。

　そこで、本発明の目的は、将来状態の予測に使用するメモリを削減できる制御装置及び制御方法を提供することにある。

　本発明に係る制御装置は、制御対象を模擬するモデルを構築するモデル構築部と、前記モデル構築部により構築されたモデルを細分化する細分化部と、前記細分化部により細分化されたモデルを用いて前記制御対象の将来状態を予測し、予測した将来状態に基づいて前記制御対象の制御方策を計算する制御方策計算部と、前記制御方策計算部により計算された制御方策に基づいて、前記制御対象への操作指令を生成する操作指令生成部と、を備えることを特徴としている。

　本発明に係る制御装置では、モデル構築部により構築されたモデルを細分化する細分化部を備えるため、モデルを細分化した上で制御対象の将来状態を予測することにより、将来状態の予測に使用するメモリを削減することができる。

　本発明によれば、将来状態の予測に使用するメモリを削減できる。

実施形態に係る制御装置及びそれに関連する関連装置を示す概略構成図である。制御装置の制御方法を説明するフローチャート図である。測定信号データベースに保存されたデータの態様を説明する図である。測定信号データベースに保存されたデータの態様を説明する図である。モデル構築部及び問題細分化部の動作を説明する図である。モデル構築部及び問題細分化部の動作を説明する図である。モデル構築部及び問題細分化部の動作を説明する図である。状態遷移確率行列を説明する図である。状態遷移確率行列を説明する図である。状態遷移確率行列を説明する図である。状態遷移確率行列を説明する図である。制御方策計算部の動作を説明する図である。制御方策計算部の動作を説明する図である。制御方策計算部の動作を説明する図である。制御方策計算部の動作を説明する図である。表示装置に表示されるメモリ使用状況の一例である。

　以下、図面を参照して本発明に係る制御装置及び制御方法の実施形態について説明する。

　図１は実施形態に係る制御装置及びそれに関連する関連装置を示す概略構成図である。本実施形態の制御装置１０は、制御対象２０の特性全体を模擬するモデルを用いて、無限時間または無限ステップ先の将来状態に基づいて制御対象２０の制御方策を計算し、計算した制御方策に従って制御対象２０への操作指令を生成する装置である。図１に示すように、制御装置１０は、制御対象２０及び外部装置３０とそれぞれ接続されている。この制御対象２０及び外部装置３０は、上述の関連装置に該当するものである。

　制御対象２０は、例えば発電プラントなどを構成する機器２１と、機器２１のコントロールを行う機器制御部２２とで構成されている。図示しないが、機器２１には、機器２１の運転データ及び画像データを取得するセンサ類が備えられている。センサ類で取得した運転データ及び画像データは、機器制御部２２に出力されている。機器制御部２２は、これらの運転データ及び画像データに基づいて各操作指令を生成し、生成した操作指令を機器２１に出力して機器２１の各制御を行う。

　外部装置３０は、例えば計算機装置（コンピュータ）であって、キーボード３１１及びマウス３１２を有する外部入力装置３１と、画像やデータを表示できるモニタを有する表示装置３２とを備えている。外部装置３０は、コンピュータのほか、タブレット、スマートフォン、ノートＰＣなどの携帯端末であっても良い。

　本実施形態では、制御装置１０と制御対象２０、制御装置１０と外部装置３０は、それぞれネットワークを介して通信可能と構成されている。具体的には、外部装置３０は、外部入力装置３１を介して入力された指示を外部入力信号１として、制御装置１０に送信する。制御対象２０は、機器２１の運転データ及び画像データ並びに機器制御部２２で生成した操作指令を測定信号２として、制御装置１０に送信する。そして、制御装置１０は、送信された外部入力信号１と測定信号２とに基づいて各処理を行い、更に操作指令６を生成し、生成した操作指令６を制御対象２０の機器制御部２２と外部装置３０の表示装置３２とにそれぞれ送信する。

　制御装置１０は、例えば、計算を実行するＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）と、計算のためのプログラムを保存する二次記憶装置としてのＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）と、演算経過の保存や一時的な制御変数を保存する一時記憶装置としてのＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）とを組み合わせてなるマイクロコンピュータにより構成されており、保存されたプログラムの実行によって計算や判定などの各処理を行う。なお、ここでのプログラムは、ネットワーク経由で制御装置１０に送信されるようにしても良い。

　制御装置１０は、主に、モデル構築部１１、問題細分化部１２、制御方策計算部１３、操作指令生成部１４、測定信号データベース１５、及び処理結果データベース１６を備えている。図１において、データベースはＤＢで示す。また、制御装置１０は、外部と接続するインターフェイスとして、外部入力インターフェイス１７及び外部出力インターフェイス１８を備えている。制御装置１０は、これらのインターフェイスを介して制御対象２０及び外部装置３０との間で送受信を行っている。

　モデル構築部１１は、制御対象２０を模擬するモデルを構築する。より具体的には、モデル構築部１１は、制御対象２０の特性全体を模擬するモデルデータを生成することにより、制御対象２０の模擬モデルを構築する。また、モデル構築部１１は、生成したモデルデータを問題細分化部１２に出力するとともに、処理結果データベース１６に保存させる。

　問題細分化部１２は、特許請求の範囲に記載の「細分化部」に相当するものであり、モデル構築部１１により構築されたモデルを細分化する。より具体的には、問題細分化部１２は、モデル構築部１１によって生成されたモデルデータを細分化し、細分化したモデルデータを制御方策計算部１３に出力するとともに、処理結果データベース１６に保存させる。

　制御方策計算部１３は、問題細分化部１２により細分化されたモデルを用いて制御対象２０の将来状態を予測し、予測した将来状態に基づいて制御対象２０の制御方策を計算する。より具体的には、制御方策計算部１３は、問題細分化部１２によって細分化されたモデルデータと、外部入力インターフェイス１７を介して受信した外部入力信号１とに基づいて、無限時間または無限ステップ先のあらゆる将来状態を予測し、予測した将来状態から制御対象２０の制御方策を計算する。更に、制御方策計算部１３は、計算した制御方策を処理結果データベース１６に保存させる。なお、詳細については後述するが、ここでの制御方策とは、制御対象２０への操作指令を生成する処理を意味する。

　操作指令生成部１４は、制御方策計算部１３により計算された制御方策に基づいて制御対象２０への操作指令を生成する。より具体的には、操作指令生成部１４は、制御方策計算部１３により計算されて処理結果データベース１６に保存された制御方策を取得し、取得した制御方策に従って制御対象２０への操作指令を生成する。更に、操作指令生成部１４は、生成した操作指令を外部出力インターフェイス１８を介して制御対象２０の機器制御部２２と、外部装置３０の表示装置３２とにそれぞれ送信する。

　測定信号データベース１５は、外部入力インターフェイス１７を介して制御対象２０から送信された測定信号２を受信し、保存する。測定信号２には、制御対象２０の運転データ及び画像データなどが含まれている。これに対応して、測定信号データベース１５は、制御対象２０の運転データを保存する運転データベース１５１と、制御対象２０の画像データを保存する画像データベース１５２などを有する。なお、測定信号２に含まれたデータは、運転データ及び画像データに限定されない。

　運転データベース１５１及び画像データベース１５２には、電子化された情報が保存されており、通常電子ファイル（電子データ）と呼ばれる形態で情報が保存されている。また、これらのデータベースは、制御装置１０の外部に設けられ、ネットワークを介して制御装置１０と接続可能な構成であっても良い。

　以下、図２～図６Ｄを参照して制御装置１０の制御方法（すなわち、制御装置１０の動作）を説明する。以下の説明において、まず図２を基に制御装置１０の動作の全体流れを説明し、その後に図３Ａ～図６Ｄを基に細部を詳細に説明する。

　図２は制御装置の制御方法を説明するフローチャート図である。図２に示すように、まず、ステップＳ１００では、制御装置１０は、外部入力インターフェイス１７を介して制御対象２０から送信された測定信号２を受信し、受信した測定信号２を測定信号データベース１５に保存させる。測定信号２には、制御対象２０の機器２１に関する時系列の運転データ及び画像データなどが含まれている。これによって、制御装置１０は機器２１に関する時系列の運転データ及び画像データを取得する。そして、運転データは運転データベース１５１、画像データは画像データベース１５２にそれぞれ保存される。

　図３Ａと図３Ｂは測定信号データベースに保存されたデータの態様を説明する図である。図３Ａは運転データベース１５１に保存される運転データを示す一例であり、図３Ｂは画像データベース１５２に保存される画像データを示す一例である。図３Ａに示すように、運転データベース１５１には、例えばデータ項目毎（項目Ａ、項目Ｂ、項目Ｃ…）の時系列データがサンプリング周期毎に保存されている。項目Ａは例えば温度、項目Ｂは流量、項目Ｃは圧力である。また、図３Ｂに示すように、画像データベース１５２には、例えば機器２１のある断面で計測した温度の分布がサンプリング周期毎に保存されている。なお、制御対象２０の運転データ及び画像データは、表示装置３２に表示可能となっている。

　また、ステップＳ１００において、制御装置１０は、外部入力インターフェイス１７を介して外部装置３０から送信された外部入力信号１も受信し、受信した外部入力信号１に含まれたデータを取得する。外部入力インターフェイス１７を介して受信した外部入力信号１は、制御方策計算部１３に出力される。

　ステップＳ１００に続くステップＳ１０１では、制御装置１０は、あらかじめ定められた条件に基づき、制御方策を更新するか否かを判定する。制御方策を更新すると判定された場合、処理はステップＳ１０２に進む。一方、制御方策を更新しないと判定された場合、処理はステップＳ１０５に進む。ここで、あらかじめ定められた条件として、例えば一定期間（例えば１週間）分の測定データが新たに蓄積された時、モデル構築部１１で作成したモデルの特性と制御対象２０の特性とが一致するか否かが考えられる。一致する場合は制御方策を更新しないと判定され、一致しない場合は制御方策を更新すると判定される。なお、あらかじめ定められた条件は、この内容に限定されずに、任意に設定されても良い。

　ステップＳ１０２では、モデル構築部１１は、測定信号データベース１５に保存された測定信号２を取得し、取得した測定信号２に基づいてモデルデータ３を生成する。生成されたモデルデータ３は、問題細分化部１２に出力されるとともに、処理結果データベース１６に保存される。

　ステップＳ１０２に続くステップＳ１０３では、問題細分化部１２は、モデル構築部１１により生成されたモデルデータ３を細分化し、細分化モデルデータ４を生成する。生成された細分化モデルデータ４は、制御方策計算部１３に出力されるとともに、処理結果データベース１６に保存される。なお、モデル構築に関するステップＳ１０２及び問題細分化に関するステップＳ１０３の詳細については、図４Ａ～図５Ｄを用いて後述する。

　ステップＳ１０３に続くステップＳ１０４では、制御方策計算部１３は、外部入力インターフェイス１７を介して受信した外部入力信号１に含まれる報酬関数と、問題細分化部１２により生成された細分化モデルデータ４とに基づいて制御方策の計算を行うことで、制御方策信号５を生成する。生成された制御方策信号５は、処理結果データベース１６に保存される。制御方策計算に関するステップＳ１０４の詳細は図６Ａ～図６Ｄを用いて後述する。

　ステップＳ１０５では、モデル構築部１１は、現時刻における測定信号２に基づいて状態ＩＤ７を生成する。生成された状態ＩＤ７は、操作指令生成部１４に出力される。

　ステップＳ１０５に続くステップＳ１０６では、操作指令生成部１４は、処理結果データベース１６に保存された制御方策信号５を取得し、取得した制御方策信号５と、モデル構築部１１により生成された状態ＩＤ７とを用いて、制御対象２０への操作指令６を生成する。生成された操作指令６は、外部出力インターフェイス１８を介して制御対象２０の機器制御部２２と外部装置３０の表示装置３２とにそれぞれ送信される。なお、制御方策信号と状態ＩＤに基づいて操作指令を生成する方法については、既に周知された技術を用いても良く、その詳細は省略する。

　制御対象２０では、機器制御部２２は、送信された操作指令６に従って機器２１を制御する。このように制御装置１０を用いることで、機器２１の温度、流量及び圧力などの計測値、温度の分布を最適な状態に制御することができる。一方、外部装置３０では、表示装置３２は、送信された操作指令６の内容、及びトレンドグラフなどの画像をモニタに表示する。運転員がモニタに表示された内容を見ることで、操作指令６の内容を確認することができる。

　ステップＳ１０６に続くステップＳ１０７では、制御装置１０は、制御を終了するか否かを判定する。制御を終了しないと判定された場合（言い換えれば、制御を継続する場合）、処理はステップＳ１００に戻る。一方、制御を終了すると判定された場合、一連の処理は終了する。

　次に、図４Ａ～図５Ｄを用いてモデル構築に関するステップＳ１０２及び問題細分化に関するステップＳ１０３を詳細に説明する。

　本実施形態では、モデル構築部１１が機器２１と機器制御部２２とを有する制御対象２０に対してモデルを構築する例を挙げるが、制御対象２０の例として、機械や生物の挙動、自然や物理現象、化学反応、金銭や物価の変動、消費者の需要の変化などであれば良く、ここで述べた例に限定されない。

　また、本実施形態において、モデルの入力は、模擬対象（すなわち、制御対象）の状態と時間経過、操作、外乱などの影響因子であり、モデルの出力は影響因子の影響を受けた後の模擬対象の状態である。モデル構築部１１で構築するモデルの形式として、ニューラルネットワーク、動径基底関数ネットワーク、若しくはニューラルネットワークと動径基底関数ネットワークの重みが表わされている行列、又は状態遷移確率行列が考えられているが、これらの行列に限定されない。

　状態遷移確率行列を用いる場合のモデルの構築方法については、例えば上述の特許文献１に開示された内容を用いることができる。すなわち、模擬対象の測定データ（本実施形態では、制御対象２０の測定信号２に含まれたデータ）から状態ＩＤを定義するテーブルを参照してデータを離散化しているが、ベクトル量子化、適応共鳴理論などのデータクラスタリング手法を用いてデータを離散化しても良い。このようにすることで、制御対象の状況に応じてこれらの手法を使い分けることにより、制御対象２０の模擬モデルを好適に構築できる。なお、このとき、モデル構築部１１は、測定信号２に含まれた運転データ及び画像データの少なくとも一つを、テーブル参照、適応共鳴理論、又はベクトル量子化手法を用いて離散化することにより、状態遷移行列の状態を定義すれば良い。また、ここでデータを離散化する際、１つ状態ＩＤの中に入る報酬のばらつきが小さい方が良い。

　以下、モデル構築部１１が状態遷移確率モデルを構築する場合（ステップＳ１０２）について説明する。図４Ａにおいて、ｓ１～ｓ８は状態遷移確率モデルの状態を示し、Δｔの時間で遷移することが可能な状態同士が線で結合されている。例えば、状態ｓ１からは状態ｓ１、ｓ２、ｓ３、ｓ４のいずれかに遷移することが可能である。従って、モデル構築部１１は、測定信号データベース１５から取得した情報（ここでは、測定信号２）に基づいて、状態遷移行列の状態を定義するとともに、Δｔの時間で遷移可能な状態同士の関係を把握してモデル化する。

　図４Ｂ及び図４Ｃは問題細分化部１２がモデルを細分化する（ステップＳ１０３）イメージを説明する図である。ここでは、問題細分化部１２は、複数の状態を１つの統合クラスタにまとめることで、モデル全体を複数のモデルに分割する。本発明では、モデルを分割することを、問題を細分化すると同じ意味で使用する。なお、問題細分化部１２は、統合クラスタの中に入る状態数が所定の範囲内となるように問題を細分化することができるし、または運転員によって任意に問題を細分化することもできる。

　図４Ｂの例では、問題細分化部１２は、状態ｓ１～ｓ４、ｓ５～ｓ８を統合することで２つの問題（図４Ｂ中の２つの円参照）に細分化している。図４Ｃの例では、問題細分化部１２は、状態ｓ１～ｓ６、ｓ７～ｓ８を統合することで２つの問題（図４Ｃ中の２つの円参照）に細分化している。いずれの例でも統合クラスタを２つ、すなわち問題全体を２つの問題に分割して、学習するようにしている。

　ここで、問題細分化部１２は、統合クラスタ間を結合するジョイント数ができるだけ少なくなるようにモデルを細分化することが好ましい。例えば、図４Ｂに示す例ではジョイント数が１、図４Ｃに示す例ではジョイント数が３であり、図４Ｃと比べて図４Ｂのジョイント数が少ないので、図４Ｂのように問題を細分化する方が良い。これは、ジョイント数が少ないほど、状態遷移行列の要素が少なくなるので、問題細分化部１２により細分化されたモデルを記憶するメモリを少なくできるからである。このようにすることで、将来状態の予測に使用するメモリを削減できる。

　なお、問題細分化部１２による細分化の手法について、モデル全体を複数に分割できるものであれば、上述の内容に限定されない。

　図５Ａ～図５Ｄは状態遷移確率行列を説明する図である。状態遷移確率行列は一般的に制御対象の運動特性や物理現象を模擬するモデルの一種であり、すべての状態間の遷移確率を保存する関数(または行列)である。図５Ａ～図５Ｄにおいて、表の行が遷移元の状態ｓｉ（ｉ＝１、２・・・ｎ（ここではｎ＝８））、表の列が遷移先の状態ｓｊ（ｊ＝１、２・・・ｎ（ここではｎ＝８））、要素Ｔｉｊは事前に設定した刻み時間Δｔ（またはステップ）が経過した際に、状態ｓｉから状態ｓｊに遷移する状態遷移確率Ｐ（ｓｊ｜ｓｉ）である。なお、状態遷移確率Ｐ（ｓｊ｜ｓｉ）が時間に依存しない場合は、影響因子が模擬対象に干渉した量や回数を示すステップを時間の代わりに用いても良い。

　図５Ａは、制御対象の特性全体を模擬したモデルを示すものであって、図４Ａに対応する状態遷移確率行列である。図５Ａにおいて、遷移元の状態ｓ１～ｓ８から遷移先の状態ｓ１～ｓ８に遷移する確率をＴｉｊで示している。図５Ｂ～図５Ｄは、問題細分化されたモデル（細分化モデル）を示すものであって、図４Ｂに示すようにモデルを細分化した後の状態遷移確率行列である。すなわち、図５Ｂ～図５Ｄは、図４Ｂに示すように各統合クラスタ、及び統合クラスタ間の関係を示す行列である。

　そして、図５Ａの状態遷移確率行列では、８×８＝６４の要素があるのに対して、図５Ｂ～図５Ｄは合計で４×４＋４×４＋２×２＝３６の要素を使用している。このように、モデルを細分化して状態遷移確率行列を定義することにより行列の要素数を削減できるので、行列を記憶するために要するメモリを削減することができる。従って、問題細分化部１２により細分化されたモデルを記憶するメモリを少なくすることができ、将来状態の予測に使用するメモリを削減できる。

　なお、図４Ａ～図５Ｄでは状態数が８の事例で説明したが、状態の数に対する制約はない。状態の数が多くなるほど、行列を記憶するために要するメモリを削減する効果がより顕著になり、制御装置１０を制御対象２０に適用し易くなる。

　次に、図６Ａ～図６Ｄを用いて制御方策計算に関するステップＳ１０４を詳細に説明する。上述したように、制御方策計算部１３は、細分化モデルデータ４を用いて無限時間または無限ステップ先のあらゆる将来状態を予測し、予測した将来状態に基づいて制御対象２０の制御方策信号５を計算する。

　具体的には、まず、制御方策計算部１３は、問題細分化部１２により細分化された状態遷移確率のモデルを用いて減衰型状態遷移行列を計算することで、将来状態の予測を行う。減衰型状態遷移行列を計算する方法は、例えば下記の式（１）を用いることができる。式（１）において、モデルの保存形式を状態遷移確率行列Ｔと仮定する。

　式（１）において、Ｄは減衰型状態遷移行列、γは減衰率であって０以上１未満の定数である。また、Ｔ^ｋはΔｔ×ｋの時間が経過した際の、すべての状態間の遷移確率を保存する関数（または行列）である。このように、減衰型状態遷移行列Ｄは、Δｔ時間経過後の状態遷移確率行列ＴからΔｔ×∞時間経過後の状態遷移確率行列Ｔ^∞までの和であり、すべての状態間の統計的な近さを保存する行列でもある。また、遠い将来に遷移する状態ほど重みを下げるため、経過時間に応じて減衰率γを掛けている。なお、ここでのｋは離散化した正の整数である。

　状態遷移確率行列Ｔから状態遷移確率行列Ｔ^∞までの計算を必要とする式（１）は、実時間以内の計算が困難である。そこで、式（１）は下記の式（２）に変換される。

　式（２）において、Ｅは単位行列である。式（２）は式（１）と等価の計算式である。式（１）の状態遷移確率行列Ｔから状態遷移確率行列Ｔ^∞までの和の計算を、式（２）では(Ｅ-γＴ)の逆行列に変換することによって、有限時間以内に式（１）と同じ計算結果が得られる。ここで、状態遷移確率行列Ｔが線形独立でない場合は、擬似逆行列を用いても良い。また、減衰型状態遷移行列Ｄの代わりに、減衰型状態遷移行列を各行で正規化した行列を用いても良い。

　このように、模擬対象の挙動を模擬するモデルを状態遷移モデルとすることで、Ｔ^ｋの計算でΔｔ×ｋ時間後の状態遷移確率を計算する。また、Δｔ時間経過後の状態遷移確率行列ＴからΔｔ×∞時間経過後の状態遷移確率行列Ｔ^∞までの和をとり、経過時間によって減衰率γによる重み付けによって、Δｔ×∞時間経過後を考慮した状態遷移確率を、有限時間以内に計算する。

　次に、制御方策計算部１３は、外部入力信号１に含まれている報酬関数に基づいて制御方策を計算する。ここで報酬関数は、目標位置や目標速度などの制御目標を関数、表、ベクトル、行列などの形式で表現される関数である。

　報酬関数がベクトル形式の場合の一例を図６Ａに示す。図６Ａでは、遷移元の状態ＩＤごとに報酬関数Ｒを数値で表しており、状態ｓは全体を範囲に区切ってｎ（ここではｎ＝８）分割した離散空間として扱っており、初期の状態から状態ｓ３へ遷移することを目標とした。目標とするベクトルの要素値は、状態ｓ３を１、その他の状態を０とした。なお、本発明では、ベクトルの要素値や、報酬関数Ｒの値を報酬と呼ぶこととする。

　制御方策計算部１３は、報酬関数Ｒと上記算出した減衰型状態遷移行列Ｄとに基づいて最適な制御則（すなわち、最適な操作量）を計算することで、制御対象２０の制御方策の計算を行う。制御則の一例を図６Ｂに示す。図６Ｂでは、遷移元の状態ＩＤごとに操作量ＩＤを数値で表しており、状態ｓは全体を範囲に区切ってｎ（ここではｎ＝８）分割した離散空間として扱っており、各状態の範囲に対して最適な操作量ａｃ（ｃ＝１、２・・・ｍ）が保存されている。最適な操作量ａｃの計算方法については後述する。

　最適な制御則を計算する方法の一例を以下に示す。ここでは、制御方策計算部１３は最適な制御則を求めるために以下の３段階で計算する。

　段階１：まず、各状態ｓと報酬関数Ｒで目標とする状態ｓ_ｇｏａｌとの近さ（または遷移し易さを示す統計的な指標）を保存する関数が計算される。この関数を本発明では状態価値関数Ｖと呼ぶこととする。また、状態価値関数Ｖは関数以外にも表、ベクトル、行列など形式で保存しても良く、本発明において保存形式は限定しない。状態価値関数Ｖの計算方法の一例を下記式（３）に示す。

　式（３）に示すように、状態価値関数Ｖは減衰型状態遷移行列Ｄと報酬関数Ｒの転置行列であるＲ^ｔｒの積である。例えば、状態価値関数Ｖは図６Ｃに示すようなｎ次元（ここではｎ＝８）のベクトルとなる。状態価値関数Ｖの要素値は目標とする状態ｓ_ｇｏａｌへ遷移し易い状態ほど高い。本発明ではこの要素値を価値と呼ぶこととする。また、本発明の状態価値関数Ｖは、強化学習法での状態価値関数の定義と値が等価となる。

　段階２：次に、状態価値関数Ｖを用いて、遷移元の状態ｓｉから遷移できる遷移先の状態ｓｊの中で、最も目標とする状態ｓ_ｇｏａｌへ遷移し易い状態ｓｊ＊が、遷移元の各状態ｓｉについて計算される。状態ｓｊ＊の計算方法の一例を下記式（４）に示す。

　ここでＴ（ｓｉ，ｓｊ）とは、状態遷移確率行列Ｔにおけるｓｉ行、ｓｊ列の要素値である。式（４）の計算結果の一例を図６Ｄに示す。図６Ｄでは、遷移元の状態ＩＤごとに遷移先の状態ＩＤを表している。

　段階３：最後の段階では、遷移元の各状態ｓｉから、段階２で得られた状態ｓｊ＊へ遷移するために必要な操作量ａが計算される。操作量ａの計算は、逆モデル（遷移元の状態ｓｉと状態ｓｊ＊を入力として、対応する操作量ａを出力するモデル）を求めることで計算できる。段階３の計算結果は、例えば図６Ｂに示したような制御則が得られる。

　このように上記式（３）で価値を計算することによって、各状態におけるｓ_ｇｏａｌへの遷移し易さが評価を可能とし、上記（４）式によってΔｔ時間経過によって遷移できる状態のうち最もｓ_ｇｏａｌへ遷移し易い状態ｓｊ＊の特定を行い、逆モデルによって状態ｓｊ＊へ遷移するための操作量ａを特定する。

　本実施形態の制御装置１０によれば、モデル構築部１１により構築されたモデルを細分化する問題細分化部１２を備えるため、モデルを細分化した上で将来状態を予測することにより、将来状態の予測に使用するメモリを削減することができる。より具体的には、モデル構築に使用するメモリ（例えば、モデル構築部１１により構築されたモデルを記憶するメモリ、及び、問題細分化部１２により細分化されたモデルを記憶するメモリ）について、従来の状態遷移確率モデルを構築する場合と比較して、問題細分化部１２の細分化によって削減することができる。その結果、制御装置１０で使用するメモリを削減する効果を期待できる。

　上記メモリ削減効果を確認し易くするため、本実施形態において、表示装置３２はメモリ使用状況を更に表示することが好ましい。

　図７は表示装置に表示されるメモリ使用状況の一例である。図７に示すように、表示装置３２では、「使用可能メモリ」（すなわち、制御装置１０で使用可能なメモリ）、「状態遷移確率モデル構築に使用するメモリ」、「問題細分化後のモデル構築に使用するメモリ」といった項目が表示されている。具体的な表示結果としては、例えば各メモリの使用容量であっても良く、全体容量に対する比率であっても良い。

　このようにすれば、表示装置３２を通して各メモリの使用状況を簡単に把握でき、メモリの削減効果を容易に確認することができる。なお、ここでの「状態遷移確率モデル構築に使用するメモリ」は、モデル構築部１１により構築されたモデルを記憶するメモリであり、「問題細分化後のモデル構築に使用するメモリは、問題細分化部１２により細分化されたモデルを記憶するメモリである。

　また、表示装置３２には、情報圧縮手段の動作結果、クラスタ数、統合クラスタ数、圧縮効率、ジョイント数、メモリ削減幅など、本実施形態の制御装置１０を動作させて得られる結果が任意に表示されても良い。

　以上、本発明の実施形態について詳述したが、本発明は、上述の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の精神を逸脱しない範囲で、種々の設計変更を行うことができるものである。

　例えば、制御装置１０には表示部が更に設けられても良い。該表示部に、上述の「使用可能メモリ」、「状態遷移確率モデル構築に使用するメモリ」、及び「問題細分化後のモデル構築に使用するメモリ」の使用状況、並びに制御装置１０の動作によって得られる中間結果及び最終結果等を表示させることで、制御装置１０側でもこれらの内容を容易に確認できる。

　更に、制御装置１０の制御方法に、上述の「使用可能メモリ」、「状態遷移確率モデル構築に使用するメモリ」、及び「問題細分化後のモデル構築に使用するメモリ」の使用状況、並びに制御装置１０の動作によって得られる中間結果及び最終結果等を表示する表示ステップを更に追加しても良い。例えば、操作指令生成に関するステップＳ１０６と制御終了判定に関するステップＳ１０７との間に該表示ステップを追加する。このようにすれば、各メモリの使用状況や、制御装置１０の動作結果等を容易に把握することができる。

１　　外部入力信号
２　　測定信号
５　　制御方策信号
６　　操作指令
１０　　制御装置
１１　　モデル構築部
１２　　問題細分化部
１３　　制御方策計算部
１４　　操作指令生成部
１５　　測定信号データベース
１６　　処理結果データベース
１７　　外部入力インターフェイス
１８　　外部出力インターフェイス
２０　　制御対象
２１　　機器
２２　　機器制御部
３０　　外部装置
３１　　外部入力装置
３２　　表示装置
１５１　　運転データベース
１５２　　画像データベース
３１１　　キーボード
３１２　　マウス

Claims

　制御対象を模擬するモデルを構築するモデル構築部と、
　前記モデル構築部により構築されたモデルを細分化する細分化部と、
　前記細分化部により細分化されたモデルを用いて前記制御対象の将来状態を予測し、予測した将来状態に基づいて前記制御対象の制御方策を計算する制御方策計算部と、
　前記制御方策計算部により計算された制御方策に基づいて、前記制御対象への操作指令を生成する操作指令生成部と、
を備えることを特徴とする制御装置。
　前記モデル構築部は、前記制御対象の特性全体を状態遷移行列としてモデルを構築し、
　前記細分化部は、前記状態遷移行列を細分化する請求項１に記載の制御装置。
　前記モデル構築部は、前記制御対象の運転データ及び画像データの少なくとも一つを、テーブル参照、適応共鳴理論、又はベクトル量子化手法を用いて離散化することにより、前記状態遷移行列の状態を定義する請求項２に記載の制御装置。
　前記細分化部は、複数の状態を１つの統合クラスタにまとめることで、前記モデル構築部により構築されたモデルを複数に分割し、さらに統合クラスタ間を結合するジョイントの数が少なくなるように該モデルを細分化する請求項１～３のいずれか一項に記載の制御装置。
　少なくとも、前記モデル構築部により構築されたモデルを記憶するメモリと前記細分化部により細分化されたモデルを記憶するメモリとを表示する表示部を、更に備える請求項１～４のいずれか一項に記載の制御装置。
　制御対象を模擬するモデルを構築するモデル構築ステップと、
　前記モデル構築ステップで構築したモデルを細分化する細分化ステップと、
　前記細分化ステップで細分化したモデルを用いて前記制御対象の将来状態を予測し、予測した将来状態に基づいて前記制御対象の制御方策を計算する制御方策計算ステップと、
　前記制御方策計算ステップで計算した制御方策に基づいて、前記制御対象への操作指令を生成する操作指令生成ステップと、
を備えることを特徴とする制御方法。
　前記モデル構築ステップにおいて、前記制御対象の特性全体を状態遷移行列としてモデルを構築し、
　前記細分化ステップにおいて、前記状態遷移行列を細分化する請求項６に記載の制御方法。
　前記モデル構築ステップにおいて、前記制御対象の運転データ及び画像データの少なくとも一つを、テーブル参照、適応共鳴理論、又はベクトル量子化手法を用いて離散化することにより、前記状態遷移行列の状態を定義する請求項７に記載の制御方法。
　前記細分化ステップにおいて、複数の状態を１つの統合クラスタにまとめることで、前記モデル構築ステップで構築したモデルを複数に分割し、さらに統合クラスタ間を結合するジョイントの数が少なくなるように該モデルを細分化する請求項６～８のいずれか一項に記載の制御方法。
　少なくとも、前記モデル構築ステップで構築したモデルを記憶するメモリと前記細分化ステップで細分化したモデルを記憶するメモリとを表示する表示ステップを、更に備える請求項６～９のいずれか一項に記載の制御方法。