[go: up one dir, main page]

WO2022102213A1 - 制御装置及び制御方法 - Google Patents

制御装置及び制御方法 Download PDF

Info

Publication number
WO2022102213A1
WO2022102213A1 PCT/JP2021/031806 JP2021031806W WO2022102213A1 WO 2022102213 A1 WO2022102213 A1 WO 2022102213A1 JP 2021031806 W JP2021031806 W JP 2021031806W WO 2022102213 A1 WO2022102213 A1 WO 2022102213A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
control
unit
state
subdivision
Prior art date
Application number
PCT/JP2021/031806
Other languages
English (en)
French (fr)
Inventor
孝朗 関合
勇也 徳田
卓弥 吉田
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to US18/035,771 priority Critical patent/US20230400821A1/en
Priority to CN202180073239.XA priority patent/CN116490834A/zh
Publication of WO2022102213A1 publication Critical patent/WO2022102213A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/048Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B17/00Systems involving the use of models or simulators of said systems
    • G05B17/02Systems involving the use of models or simulators of said systems electric
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring

Definitions

  • the present invention relates to a control device and a control method.
  • This application claims priority based on Japanese Patent Application No. 2020-190354 filed on November 16, 2020, the contents of which are incorporated herein by reference.
  • Patent Document 1 describes a future state in which the state of a controlled object and its surrounding environment at an infinite time or an infinite step ahead can be predicted at high speed in the form of a probability density distribution in a space of a finite state defined in advance.
  • a control device including a prediction device is disclosed.
  • the future state prediction device uses a model that simulates the future state of the controlled object and its surrounding environment in the form of a probability density distribution, and predicts with the future state prediction calculation unit and the future state prediction calculation unit that perform calculations equivalent to the series. It is equipped with a control law calculation unit that calculates the manipulated variable of the controlled object by using the result of the state of the controlled object and its surrounding environment at the infinite time or infinite step destination.
  • an object of the present invention is to provide a control device and a control method capable of reducing the memory used for predicting the future state.
  • the control device has a model construction unit that constructs a model that simulates a controlled object, a subdivision unit that subdivides the model constructed by the model construction unit, and a model that is subdivided by the subdivision unit.
  • the control policy calculation unit that predicts the future state of the control target using the above and calculates the control policy of the control target based on the predicted future state, and the control policy calculated by the control policy calculation unit. It is characterized by including an operation command generation unit that generates an operation command to the controlled object.
  • control device includes a subdivision unit that subdivides the model constructed by the model construction unit, the future state of the controlled object can be predicted by subdividing the model and then predicting the future state of the controlled object.
  • the memory used can be reduced.
  • the memory used for predicting the future state can be reduced.
  • control policy calculation unit It is a figure explaining the operation of the control policy calculation unit. It is a figure explaining the operation of the control policy calculation unit. It is a figure explaining the operation of the control policy calculation unit. It is a figure explaining the operation of the control policy calculation unit. It is a figure explaining the operation of the control policy calculation unit. This is an example of the memory usage status displayed on the display device.
  • FIG. 1 is a schematic configuration diagram showing a control device according to an embodiment and related devices.
  • the control device 10 of the present embodiment calculates the control policy of the control target 20 based on the future state of the infinite time or the infinite step ahead by using the model simulating the entire characteristics of the control target 20, and according to the calculated control policy. It is a device that generates an operation command to the control target 20.
  • the control device 10 is connected to the controlled object 20 and the external device 30, respectively.
  • the controlled object 20 and the external device 30 correspond to the above-mentioned related devices.
  • the control target 20 is composed of, for example, a device 21 that constitutes a power plant or the like, and a device control unit 22 that controls the device 21.
  • the device 21 is provided with sensors for acquiring operation data and image data of the device 21.
  • the operation data and image data acquired by the sensors are output to the device control unit 22.
  • the device control unit 22 generates each operation command based on these operation data and image data, outputs the generated operation command to the device 21, and controls each device 21.
  • the external device 30 is, for example, a computer device, and includes an external input device 31 having a keyboard 311 and a mouse 312, and a display device 32 having a monitor capable of displaying images and data.
  • the external device 30 may be a mobile terminal such as a tablet, a smartphone, or a notebook PC.
  • the control device 10 and the control target 20, the control device 10 and the external device 30 are configured to be able to communicate with each other via a network.
  • the external device 30 transmits the instruction input via the external input device 31 to the control device 10 as the external input signal 1.
  • the control target 20 transmits the operation data and image data of the device 21 and the operation command generated by the device control unit 22 to the control device 10 as the measurement signal 2.
  • the control device 10 performs each process based on the transmitted external input signal 1 and the measurement signal 2, further generates an operation command 6, and uses the generated operation command 6 with the device control unit 22 of the control target 20. It is transmitted to the display device 32 of the external device 30, respectively.
  • the control device 10 includes, for example, a CPU (Central Processing Unit) that executes calculations, a ROM (Read Only Memory) as a secondary storage device that stores programs for calculations, and storage and temporary control of the progress of calculations. It is composed of a microcomputer combined with a RAM (Random Access Memory) as a temporary storage device for storing variables, and performs various processes such as calculation and judgment by executing the stored program.
  • the program here may be transmitted to the control device 10 via the network.
  • the control device 10 mainly includes a model construction unit 11, a problem subdivision unit 12, a control policy calculation unit 13, an operation command generation unit 14, a measurement signal database 15, and a processing result database 16.
  • the database is shown as a DB.
  • the control device 10 includes an external input interface 17 and an external output interface 18 as an interface to be connected to the outside. The control device 10 transmits and receives to and from the controlled object 20 and the external device 30 via these interfaces.
  • the model building unit 11 builds a model that simulates the controlled object 20. More specifically, the model building unit 11 constructs a simulated model of the controlled object 20 by generating model data that simulates the entire characteristics of the controlled object 20. Further, the model construction unit 11 outputs the generated model data to the problem subdivision unit 12 and stores it in the processing result database 16.
  • the problem subdivision unit 12 corresponds to the "subdivision unit" described in the claims, and subdivides the model constructed by the model construction unit 11. More specifically, the problem subdivision unit 12 subdivides the model data generated by the model construction unit 11, outputs the subdivided model data to the control policy calculation unit 13, and stores the subdivided model data in the processing result database 16. ..
  • the control policy calculation unit 13 predicts the future state of the control target 20 using the model subdivided by the problem subdivision unit 12, and calculates the control policy of the control target 20 based on the predicted future state. More specifically, the control policy calculation unit 13 may perform infinite time or infinite steps based on the model data subdivided by the problem subdivision unit 12 and the external input signal 1 received via the external input interface 17. All the future states are predicted, and the control policy of the controlled object 20 is calculated from the predicted future states. Further, the control policy calculation unit 13 stores the calculated control policy in the processing result database 16. The details will be described later, but the control measure here means a process of generating an operation command to the controlled object 20.
  • the operation command generation unit 14 generates an operation command to the control target 20 based on the control policy calculated by the control policy calculation unit 13. More specifically, the operation command generation unit 14 acquires a control policy calculated by the control policy calculation unit 13 and stored in the processing result database 16, and generates an operation command to the control target 20 according to the acquired control policy. do. Further, the operation command generation unit 14 transmits the generated operation command to the device control unit 22 of the control target 20 and the display device 32 of the external device 30 via the external output interface 18, respectively.
  • the measurement signal database 15 receives and stores the measurement signal 2 transmitted from the control target 20 via the external input interface 17.
  • the measurement signal 2 includes operation data, image data, and the like of the control target 20.
  • the measurement signal database 15 has an operation database 151 for storing the operation data of the control target 20, an image database 152 for storing the image data of the control target 20, and the like.
  • the data included in the measurement signal 2 is not limited to the operation data and the image data.
  • the operation database 151 and the image database 152 store digitized information, and the information is usually stored in a form called an electronic file (electronic data). Further, these databases may be provided outside the control device 10 and may be configured to be connectable to the control device 10 via a network.
  • control method of the control device 10 (that is, the operation of the control device 10) will be described with reference to FIGS. 2 to 6D.
  • the control method of the control device 10 that is, the operation of the control device 10.
  • FIG. 2 is a flowchart illustrating a control method of the control device.
  • the control device 10 receives the measurement signal 2 transmitted from the control target 20 via the external input interface 17, and the received measurement signal 2 is stored in the measurement signal database 15. Save it.
  • the measurement signal 2 includes time-series operation data, image data, and the like related to the device 21 of the controlled object 20.
  • the control device 10 acquires time-series operation data and image data regarding the device 21.
  • the operation data is stored in the operation database 151, and the image data is stored in the image database 152.
  • FIGS. 3A and 3B are diagrams illustrating aspects of data stored in the measurement signal database.
  • FIG. 3A is an example showing operation data stored in the operation database 151
  • FIG. 3B is an example showing image data stored in the image database 152.
  • the operation database 151 stores, for example, time-series data for each data item (item A, item B, item C ...) for each sampling cycle.
  • Item A is, for example, temperature
  • item B is flow rate
  • item C is pressure.
  • the image database 152 stores, for example, the temperature distribution measured in a certain cross section of the device 21 for each sampling cycle.
  • the operation data and image data of the control target 20 can be displayed on the display device 32.
  • control device 10 also receives the external input signal 1 transmitted from the external device 30 via the external input interface 17, and acquires the data included in the received external input signal 1.
  • the external input signal 1 received via the external input interface 17 is output to the control policy calculation unit 13.
  • step S101 the control device 10 determines whether or not to update the control policy based on a predetermined condition. If it is determined that the control policy is to be updated, the process proceeds to step S102. On the other hand, if it is determined not to update the control policy, the process proceeds to step S105.
  • a predetermined condition for example, when measurement data for a certain period (for example, one week) is newly accumulated, the characteristics of the model created by the model building unit 11 and the characteristics of the controlled object 20 match. Whether or not it is possible. If they match, it is determined that the control policy is not updated, and if they do not match, it is determined that the control policy is updated.
  • the predetermined conditions are not limited to this content, and may be set arbitrarily.
  • step S102 the model building unit 11 acquires the measurement signal 2 stored in the measurement signal database 15 and generates model data 3 based on the acquired measurement signal 2.
  • the generated model data 3 is output to the problem subdivision unit 12 and stored in the processing result database 16.
  • step S103 the problem subdivision unit 12 subdivides the model data 3 generated by the model construction unit 11 and generates subdivision model data 4.
  • the generated subdivision model data 4 is output to the control policy calculation unit 13 and stored in the processing result database 16.
  • step S104 the control policy calculation unit 13 includes the reward function included in the external input signal 1 received via the external input interface 17, and the subdivision model data 4 generated by the problem subdivision unit 12.
  • the control policy signal 5 is generated by calculating the control policy based on the above.
  • the generated control measure signal 5 is stored in the processing result database 16. The details of step S104 relating to the control policy calculation will be described later with reference to FIGS. 6A to 6D.
  • step S105 the model building unit 11 generates the state ID 7 based on the measurement signal 2 at the current time.
  • the generated state ID 7 is output to the operation command generation unit 14.
  • step S106 the operation command generation unit 14 acquires the control policy signal 5 stored in the processing result database 16, the acquired control policy signal 5, and the state ID 7 generated by the model construction unit 11. Is used to generate an operation command 6 for the controlled object 20.
  • the generated operation command 6 is transmitted to the device control unit 22 of the control target 20 and the display device 32 of the external device 30 via the external output interface 18, respectively.
  • a well-known technique may be used, and the details thereof will be omitted.
  • the device control unit 22 controls the device 21 according to the transmitted operation command 6.
  • the control device 10 By using the control device 10 in this way, it is possible to control the measured values such as the temperature, flow rate and pressure of the device 21 and the temperature distribution to the optimum state.
  • the display device 32 displays the content of the transmitted operation command 6 and an image such as a trend graph on the monitor. The operator can confirm the content of the operation command 6 by looking at the content displayed on the monitor.
  • step S107 the control device 10 determines whether or not to end the control.
  • the process returns to step S100.
  • the series of processes is terminated.
  • step S102 regarding model construction and step S103 regarding problem subdivision will be described in detail with reference to FIGS. 4A to 5D.
  • model building unit 11 constructs a model for the controlled object 20 having the device 21 and the device control unit 22
  • Physical phenomena, chemical reactions, fluctuations in money and prices, changes in consumer demand, etc. are all right, and are not limited to the examples described here.
  • the input of the model is an influence factor such as the state and time passage, operation, and disturbance of the simulated object (that is, the controlled object), and the output of the model is simulated after being influenced by the influence factor. It is the state of the target.
  • an influence factor such as the state and time passage, operation, and disturbance of the simulated object (that is, the controlled object)
  • the output of the model is simulated after being influenced by the influence factor. It is the state of the target.
  • a neural network, a radial basis function network, a matrix representing the weights of the neural network and the radial basis function network, or a state transition probability matrix is considered. However, it is not limited to these matrices.
  • the data is discreteized by referring to the table that defines the state ID from the measurement data of the simulated target (in this embodiment, the data included in the measurement signal 2 of the control target 20), but vector quantization and adaptation.
  • Data may be discretized using a data clustering technique such as resonance theory. By doing so, it is possible to suitably construct a simulated model of the controlled object 20 by properly using these methods according to the situation of the controlled object.
  • the model building unit 11 discretizes at least one of the operation data and the image data included in the measurement signal 2 by using a table reference, an adaptive resonance theory, or a vector quantization method.
  • the state of the state transition matrix may be defined. Further, when the data is discretized here, it is better that the variation of the reward included in one state ID is small.
  • the model construction unit 11 constructs the state transition probability model (step S102)
  • s1 to s8 show the states of the state transition probability model, and the states capable of transitioning at the time of ⁇ t are connected by a line.
  • the model building unit 11 defines the state of the state transition matrix based on the information acquired from the measurement signal database 15 (here, the measurement signal 2), and determines the relationship between the states that can be changed in the time of ⁇ t. Grasp and model.
  • FIGS. 4B and 4C are diagrams illustrating an image in which the problem subdivision unit 12 subdivides the model (step S103).
  • the problem subdivision unit 12 divides the entire model into a plurality of models by grouping a plurality of states into one integrated cluster.
  • dividing the model is used interchangeably with subdividing the problem.
  • the problem subdivision unit 12 can subdivide the problem so that the number of states in the integrated cluster is within a predetermined range, or the problem can be arbitrarily subdivided by the operator. ..
  • the problem subdivision unit 12 is subdivided into two problems (see the two circles in FIG. 4B) by integrating the states s1 to s4 and s5 to s8.
  • the problem subdivision unit 12 is subdivided into two problems (see the two circles in FIG. 4C) by integrating the states s1 to s6 and s7 to s8.
  • the integrated cluster is divided into two, that is, the entire problem is divided into two problems for learning.
  • the problem subdivision unit 12 subdivides the model so that the number of joints connecting the integrated clusters is as small as possible.
  • the number of joints is 1, and in the example shown in FIG. 4C, the number of joints is 3, and the number of joints in FIG. 4B is smaller than that in FIG. 4C.
  • the number of joints decreases, the number of elements of the state transition matrix decreases, so that the memory for storing the model subdivided by the problem subdivision unit 12 can be reduced. By doing so, the memory used for predicting the future state can be reduced.
  • the method of subdivision by the problem subdivision unit 12 is not limited to the above contents as long as the entire model can be divided into a plurality of parts.
  • FIGS. 5A to 5D are diagrams for explaining the state transition probability matrix.
  • the state transition probability matrix is generally a kind of model that simulates the motion characteristics and physical phenomena of the controlled object, and is a function (or matrix) that stores the transition probabilities between all states.
  • a step indicating the amount or number of times the influencing factor interferes with the simulated object may be used instead of time.
  • FIG. 5A shows a model simulating the entire characteristic of the controlled object, and is a state transition probability matrix corresponding to FIG. 4A.
  • the probability of transition from the transition source states s1 to s8 to the transition destination states s1 to s8 is shown by Tij.
  • 5B to 5D show a problem-divided model (subdivision model), and are state transition probability matrices after the model is subdivided as shown in FIG. 4B. That is, FIGS. 5B to 5D are matrices showing the relationships between the integrated clusters and the integrated clusters as shown in FIG. 4B.
  • the number of elements of the matrix can be reduced by subdividing the model and defining the state transition probability matrix, so that the memory required to store the matrix can be reduced. Therefore, the memory for storing the model subdivided by the problem subdivision unit 12 can be reduced, and the memory used for predicting the future state can be reduced.
  • step S104 relating to the control policy calculation will be described in detail with reference to FIGS. 6A to 6D.
  • the control policy calculation unit 13 predicts any future state of infinite time or infinite step ahead using the subdivided model data 4, and sets the control policy signal 5 of the control target 20 based on the predicted future state. calculate.
  • the control policy calculation unit 13 predicts the future state by calculating the attenuation type state transition matrix using the model of the state transition probability subdivided by the problem subdivision unit 12.
  • the model of the state transition probability subdivided by the problem subdivision unit 12. As a method for calculating the decay type state transition matrix, for example, the following equation (1) can be used.
  • the storage format of the model is assumed to be the state transition probability matrix T.
  • D is an attenuation type state transition matrix
  • is an attenuation factor, which is a constant of 0 or more and less than 1.
  • T k is a function (or matrix) that stores the transition probabilities between all the states when the time of ⁇ t ⁇ k elapses.
  • the decay type state transition matrix D is the sum of the state transition probability matrix T after the lapse of ⁇ t time to the state transition probability matrix T ⁇ after the lapse of ⁇ t ⁇ ⁇ time, and is statistically statistical among all the states. It is also a matrix that preserves closeness.
  • the attenuation factor ⁇ is multiplied according to the elapsed time. Note that k here is a discretized positive integer.
  • Equation (1) which requires calculation from the state transition probability matrix T to the state transition probability matrix T ⁇ , is difficult to calculate within real time. Therefore, the equation (1) is converted into the following equation (2).
  • Equation (2) is a calculation equation equivalent to equation (1).
  • the equation (1) is within a finite time.
  • a pseudo inverse matrix may be used.
  • a matrix obtained by normalizing the attenuation type state transition matrix in each row may be used.
  • the state transition probability after ⁇ t ⁇ k hours is calculated by calculating Tk. Further, the sum from the state transition probability matrix T after the lapse of ⁇ t time to the state transition probability matrix T ⁇ after the lapse of ⁇ t ⁇ ⁇ time is taken, and the weighting by the attenuation rate ⁇ according to the elapsed time is taken into consideration after the lapse of ⁇ t ⁇ ⁇ time.
  • the state transition probability is calculated within a finite time.
  • the control policy calculation unit 13 calculates the control policy based on the reward function included in the external input signal 1.
  • the reward function is a function that expresses a control target such as a target position or a target speed in the form of a function, a table, a vector, a matrix, or the like.
  • Figure 6A shows an example of the case where the reward function is in vector format.
  • the goal was to transition from to state s3.
  • the state s3 is 1 and the other states are 0.
  • the element value of the vector and the value of the reward function R are referred to as rewards.
  • the control policy calculation unit 13 calculates the control policy of the control target 20 by calculating the optimum control rule (that is, the optimum operation amount) based on the reward function R and the attenuation type state transition matrix D calculated above. I do.
  • An example of the control rule is shown in FIG. 6B.
  • control policy calculation unit 13 calculates in the following three steps in order to obtain the optimum control rule.
  • Step 1 First, a function is calculated that stores the closeness (or statistical index indicating the ease of transition) between each state s and the target state s goal in the reward function R.
  • this function is referred to as a state value function V.
  • the state value function V may be stored in a format such as a table, a vector, or a matrix in addition to the function, and the storage format is not limited in the present invention.
  • An example of the calculation method of the state value function V is shown in the following equation (3).
  • the state value function V is the product of the decaying state transition matrix D and the transposed matrix R tr of the reward function R.
  • the element value of the state value function V is higher as the state is easier to transition to the target state s goal . In the present invention, this element value is referred to as a value.
  • the state value function V of the present invention has a value equivalent to the definition of the state value function in the reinforcement learning method.
  • Step 2 Next, among the transition destination states sj that can be transitioned from the transition source state si using the state value function V, the state sj * that is most likely to transition to the target state s goal is the transition source. Calculated for each state si. An example of the calculation method of the state sj * is shown in the following equation (4).
  • T (si, sj) is an element value of the si row and sj column in the state transition probability matrix T.
  • FIG. 6D An example of the calculation result of the formula (4) is shown in FIG. 6D.
  • the state ID of the transition destination is represented for each state ID of the transition source.
  • Stage 3 In the final stage, the operation amount a required for transitioning from each state si of the transition source to the state sj * obtained in stage 2 is calculated.
  • the operation amount a can be calculated by obtaining an inverse model (a model that inputs the state si and the state sj * of the transition source and outputs the corresponding operation amount a).
  • the control rule as shown in FIG. 6B can be obtained.
  • the problem subdivision unit 12 that subdivides the model constructed by the model construction unit 11 since the problem subdivision unit 12 that subdivides the model constructed by the model construction unit 11 is provided, the future state is predicted by subdividing the model. It is possible to reduce the memory used for the prediction of. More specifically, the memory used for model construction (for example, the memory for storing the model constructed by the model construction unit 11 and the memory for storing the model subdivided by the problem subdivision unit 12) has been conventionally used. Compared with the case of constructing the state transition probability model of, it can be reduced by the subdivision of the problem subdivision unit 12. As a result, the effect of reducing the memory used in the control device 10 can be expected.
  • the memory used for model construction for example, the memory for storing the model constructed by the model construction unit 11 and the memory for storing the model subdivided by the problem subdivision unit 12
  • the display device 32 further displays the memory usage status in the present embodiment.
  • FIG. 7 is an example of the memory usage status displayed on the display device.
  • the “usable memory” that is, the memory that can be used by the control device 10
  • the “memory used for constructing the state transition probability model” and the “model construction after problem subdivision”. Items such as "Memory used for” are displayed. As a specific display result, for example, it may be the used capacity of each memory, or may be a ratio to the total capacity.
  • the "memory used for building the state transition probability model” here is a memory for storing the model built by the model building unit 11, and the "memory used for building the model after problem subdivision is problem subdivision.” It is a memory for storing a model subdivided by the conversion unit 12.
  • the display device 32 can arbitrarily obtain results obtained by operating the control device 10 of the present embodiment, such as the operation result of the information compression means, the number of clusters, the number of integrated clusters, the compression efficiency, the number of joints, and the memory reduction width. It may be displayed.
  • control device 10 may be further provided with a display unit.
  • a display unit Depending on the usage status of the above-mentioned "usable memory”, “memory used for building the state transition probability model”, and “memory used for building the model after problem subdivision”, and the operation of the control device 10 on the display unit. By displaying the obtained intermediate results, final results, and the like, these contents can be easily confirmed even on the control device 10 side.
  • control method of the control device 10 includes the usage status of the above-mentioned "usable memory”, “memory used for building the state transition probability model”, and “memory used for building the model after problem subdivision", and control.
  • a display step for displaying the intermediate result, the final result, etc. obtained by the operation of the device 10 may be further added.
  • the display step is added between step S106 related to operation command generation and step S107 related to control end determination. By doing so, it is possible to easily grasp the usage status of each memory, the operation result of the control device 10, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

制御装置10は、制御対象20を模擬するモデルを構築するモデル構築部11と、モデル構築部11により構築されたモデルを細分化する問題細分化部12と、問題細分化部12により細分化されたモデルを用いて制御対象20の将来状態を予測し、予測した将来状態に基づいて制御対象20の制御方策を計算する制御方策計算部13と、制御方策計算部13により計算された制御方策に基づいて、制御対象20への操作指令を生成する操作指令生成部14と、を備えている。

Description

制御装置及び制御方法
 本発明は、制御装置及び制御方法に関する。
 本願は、2020年11月16日に出願された日本国特願2020-190354号に基づき優先権を主張し、その内容をここに援用する。
 発電や産業プラントの分野では、プラントの運転状態を最適化した運転とすべく、機械学習を取り入れた制御装置が採用されている。その一例として、特許文献1には、事前に定義した有限の状態の空間内において、無限時間または無限ステップ先における制御対象とその周辺環境の状態を確率密度分布の形式で高速に予測できる将来状態予測装置からなる制御装置が開示されている。将来状態予測装置は、制御対象とその周辺環境の将来状態を確率密度分布の形式で模擬するモデルを用いて、級数と等価な計算を行う将来状態予測演算部と、将来状態予測演算部で予測した無限時間または無限ステップ先における制御対象とその周辺環境の状態の結果を用いて、制御対象の操作量を計算する制御則演算部とを備えている。
特開2019-159876号公報
 特許文献1に開示された制御装置をプラントなどの制御対象に適用する際に、将来状態予測演算部による将来状態を予測するための計算が必要である。しかし、制御対象とその周辺環境の状態が既に確率密度分布の形式で定義されており、制御対象とその周辺環境の状態を更に詳細に定義されると、将来状態を予測するための計算に多くのメモリが必要となる。その結果、制御装置のメモリが不足し、将来状態を予測できない問題が生じる可能性がある。
 そこで、本発明の目的は、将来状態の予測に使用するメモリを削減できる制御装置及び制御方法を提供することにある。
 本発明に係る制御装置は、制御対象を模擬するモデルを構築するモデル構築部と、前記モデル構築部により構築されたモデルを細分化する細分化部と、前記細分化部により細分化されたモデルを用いて前記制御対象の将来状態を予測し、予測した将来状態に基づいて前記制御対象の制御方策を計算する制御方策計算部と、前記制御方策計算部により計算された制御方策に基づいて、前記制御対象への操作指令を生成する操作指令生成部と、を備えることを特徴としている。
 本発明に係る制御装置では、モデル構築部により構築されたモデルを細分化する細分化部を備えるため、モデルを細分化した上で制御対象の将来状態を予測することにより、将来状態の予測に使用するメモリを削減することができる。
 本発明によれば、将来状態の予測に使用するメモリを削減できる。
実施形態に係る制御装置及びそれに関連する関連装置を示す概略構成図である。 制御装置の制御方法を説明するフローチャート図である。 測定信号データベースに保存されたデータの態様を説明する図である。 測定信号データベースに保存されたデータの態様を説明する図である。 モデル構築部及び問題細分化部の動作を説明する図である。 モデル構築部及び問題細分化部の動作を説明する図である。 モデル構築部及び問題細分化部の動作を説明する図である。 状態遷移確率行列を説明する図である。 状態遷移確率行列を説明する図である。 状態遷移確率行列を説明する図である。 状態遷移確率行列を説明する図である。 制御方策計算部の動作を説明する図である。 制御方策計算部の動作を説明する図である。 制御方策計算部の動作を説明する図である。 制御方策計算部の動作を説明する図である。 表示装置に表示されるメモリ使用状況の一例である。
 以下、図面を参照して本発明に係る制御装置及び制御方法の実施形態について説明する。
 図1は実施形態に係る制御装置及びそれに関連する関連装置を示す概略構成図である。本実施形態の制御装置10は、制御対象20の特性全体を模擬するモデルを用いて、無限時間または無限ステップ先の将来状態に基づいて制御対象20の制御方策を計算し、計算した制御方策に従って制御対象20への操作指令を生成する装置である。図1に示すように、制御装置10は、制御対象20及び外部装置30とそれぞれ接続されている。この制御対象20及び外部装置30は、上述の関連装置に該当するものである。
 制御対象20は、例えば発電プラントなどを構成する機器21と、機器21のコントロールを行う機器制御部22とで構成されている。図示しないが、機器21には、機器21の運転データ及び画像データを取得するセンサ類が備えられている。センサ類で取得した運転データ及び画像データは、機器制御部22に出力されている。機器制御部22は、これらの運転データ及び画像データに基づいて各操作指令を生成し、生成した操作指令を機器21に出力して機器21の各制御を行う。
 外部装置30は、例えば計算機装置(コンピュータ)であって、キーボード311及びマウス312を有する外部入力装置31と、画像やデータを表示できるモニタを有する表示装置32とを備えている。外部装置30は、コンピュータのほか、タブレット、スマートフォン、ノートPCなどの携帯端末であっても良い。
 本実施形態では、制御装置10と制御対象20、制御装置10と外部装置30は、それぞれネットワークを介して通信可能と構成されている。具体的には、外部装置30は、外部入力装置31を介して入力された指示を外部入力信号1として、制御装置10に送信する。制御対象20は、機器21の運転データ及び画像データ並びに機器制御部22で生成した操作指令を測定信号2として、制御装置10に送信する。そして、制御装置10は、送信された外部入力信号1と測定信号2とに基づいて各処理を行い、更に操作指令6を生成し、生成した操作指令6を制御対象20の機器制御部22と外部装置30の表示装置32とにそれぞれ送信する。
 制御装置10は、例えば、計算を実行するCPU(Central Processing Unit)と、計算のためのプログラムを保存する二次記憶装置としてのROM(Read Only Memory)と、演算経過の保存や一時的な制御変数を保存する一時記憶装置としてのRAM(Random Access Memory)とを組み合わせてなるマイクロコンピュータにより構成されており、保存されたプログラムの実行によって計算や判定などの各処理を行う。なお、ここでのプログラムは、ネットワーク経由で制御装置10に送信されるようにしても良い。
 制御装置10は、主に、モデル構築部11、問題細分化部12、制御方策計算部13、操作指令生成部14、測定信号データベース15、及び処理結果データベース16を備えている。図1において、データベースはDBで示す。また、制御装置10は、外部と接続するインターフェイスとして、外部入力インターフェイス17及び外部出力インターフェイス18を備えている。制御装置10は、これらのインターフェイスを介して制御対象20及び外部装置30との間で送受信を行っている。
 モデル構築部11は、制御対象20を模擬するモデルを構築する。より具体的には、モデル構築部11は、制御対象20の特性全体を模擬するモデルデータを生成することにより、制御対象20の模擬モデルを構築する。また、モデル構築部11は、生成したモデルデータを問題細分化部12に出力するとともに、処理結果データベース16に保存させる。
 問題細分化部12は、特許請求の範囲に記載の「細分化部」に相当するものであり、モデル構築部11により構築されたモデルを細分化する。より具体的には、問題細分化部12は、モデル構築部11によって生成されたモデルデータを細分化し、細分化したモデルデータを制御方策計算部13に出力するとともに、処理結果データベース16に保存させる。
 制御方策計算部13は、問題細分化部12により細分化されたモデルを用いて制御対象20の将来状態を予測し、予測した将来状態に基づいて制御対象20の制御方策を計算する。より具体的には、制御方策計算部13は、問題細分化部12によって細分化されたモデルデータと、外部入力インターフェイス17を介して受信した外部入力信号1とに基づいて、無限時間または無限ステップ先のあらゆる将来状態を予測し、予測した将来状態から制御対象20の制御方策を計算する。更に、制御方策計算部13は、計算した制御方策を処理結果データベース16に保存させる。なお、詳細については後述するが、ここでの制御方策とは、制御対象20への操作指令を生成する処理を意味する。
 操作指令生成部14は、制御方策計算部13により計算された制御方策に基づいて制御対象20への操作指令を生成する。より具体的には、操作指令生成部14は、制御方策計算部13により計算されて処理結果データベース16に保存された制御方策を取得し、取得した制御方策に従って制御対象20への操作指令を生成する。更に、操作指令生成部14は、生成した操作指令を外部出力インターフェイス18を介して制御対象20の機器制御部22と、外部装置30の表示装置32とにそれぞれ送信する。
 測定信号データベース15は、外部入力インターフェイス17を介して制御対象20から送信された測定信号2を受信し、保存する。測定信号2には、制御対象20の運転データ及び画像データなどが含まれている。これに対応して、測定信号データベース15は、制御対象20の運転データを保存する運転データベース151と、制御対象20の画像データを保存する画像データベース152などを有する。なお、測定信号2に含まれたデータは、運転データ及び画像データに限定されない。
 運転データベース151及び画像データベース152には、電子化された情報が保存されており、通常電子ファイル(電子データ)と呼ばれる形態で情報が保存されている。また、これらのデータベースは、制御装置10の外部に設けられ、ネットワークを介して制御装置10と接続可能な構成であっても良い。
 以下、図2~図6Dを参照して制御装置10の制御方法(すなわち、制御装置10の動作)を説明する。以下の説明において、まず図2を基に制御装置10の動作の全体流れを説明し、その後に図3A~図6Dを基に細部を詳細に説明する。
 図2は制御装置の制御方法を説明するフローチャート図である。図2に示すように、まず、ステップS100では、制御装置10は、外部入力インターフェイス17を介して制御対象20から送信された測定信号2を受信し、受信した測定信号2を測定信号データベース15に保存させる。測定信号2には、制御対象20の機器21に関する時系列の運転データ及び画像データなどが含まれている。これによって、制御装置10は機器21に関する時系列の運転データ及び画像データを取得する。そして、運転データは運転データベース151、画像データは画像データベース152にそれぞれ保存される。
 図3Aと図3Bは測定信号データベースに保存されたデータの態様を説明する図である。図3Aは運転データベース151に保存される運転データを示す一例であり、図3Bは画像データベース152に保存される画像データを示す一例である。図3Aに示すように、運転データベース151には、例えばデータ項目毎(項目A、項目B、項目C…)の時系列データがサンプリング周期毎に保存されている。項目Aは例えば温度、項目Bは流量、項目Cは圧力である。また、図3Bに示すように、画像データベース152には、例えば機器21のある断面で計測した温度の分布がサンプリング周期毎に保存されている。なお、制御対象20の運転データ及び画像データは、表示装置32に表示可能となっている。
 また、ステップS100において、制御装置10は、外部入力インターフェイス17を介して外部装置30から送信された外部入力信号1も受信し、受信した外部入力信号1に含まれたデータを取得する。外部入力インターフェイス17を介して受信した外部入力信号1は、制御方策計算部13に出力される。
 ステップS100に続くステップS101では、制御装置10は、あらかじめ定められた条件に基づき、制御方策を更新するか否かを判定する。制御方策を更新すると判定された場合、処理はステップS102に進む。一方、制御方策を更新しないと判定された場合、処理はステップS105に進む。ここで、あらかじめ定められた条件として、例えば一定期間(例えば1週間)分の測定データが新たに蓄積された時、モデル構築部11で作成したモデルの特性と制御対象20の特性とが一致するか否かが考えられる。一致する場合は制御方策を更新しないと判定され、一致しない場合は制御方策を更新すると判定される。なお、あらかじめ定められた条件は、この内容に限定されずに、任意に設定されても良い。
 ステップS102では、モデル構築部11は、測定信号データベース15に保存された測定信号2を取得し、取得した測定信号2に基づいてモデルデータ3を生成する。生成されたモデルデータ3は、問題細分化部12に出力されるとともに、処理結果データベース16に保存される。
 ステップS102に続くステップS103では、問題細分化部12は、モデル構築部11により生成されたモデルデータ3を細分化し、細分化モデルデータ4を生成する。生成された細分化モデルデータ4は、制御方策計算部13に出力されるとともに、処理結果データベース16に保存される。なお、モデル構築に関するステップS102及び問題細分化に関するステップS103の詳細については、図4A~図5Dを用いて後述する。
 ステップS103に続くステップS104では、制御方策計算部13は、外部入力インターフェイス17を介して受信した外部入力信号1に含まれる報酬関数と、問題細分化部12により生成された細分化モデルデータ4とに基づいて制御方策の計算を行うことで、制御方策信号5を生成する。生成された制御方策信号5は、処理結果データベース16に保存される。制御方策計算に関するステップS104の詳細は図6A~図6Dを用いて後述する。
 ステップS105では、モデル構築部11は、現時刻における測定信号2に基づいて状態ID7を生成する。生成された状態ID7は、操作指令生成部14に出力される。
 ステップS105に続くステップS106では、操作指令生成部14は、処理結果データベース16に保存された制御方策信号5を取得し、取得した制御方策信号5と、モデル構築部11により生成された状態ID7とを用いて、制御対象20への操作指令6を生成する。生成された操作指令6は、外部出力インターフェイス18を介して制御対象20の機器制御部22と外部装置30の表示装置32とにそれぞれ送信される。なお、制御方策信号と状態IDに基づいて操作指令を生成する方法については、既に周知された技術を用いても良く、その詳細は省略する。
 制御対象20では、機器制御部22は、送信された操作指令6に従って機器21を制御する。このように制御装置10を用いることで、機器21の温度、流量及び圧力などの計測値、温度の分布を最適な状態に制御することができる。一方、外部装置30では、表示装置32は、送信された操作指令6の内容、及びトレンドグラフなどの画像をモニタに表示する。運転員がモニタに表示された内容を見ることで、操作指令6の内容を確認することができる。
 ステップS106に続くステップS107では、制御装置10は、制御を終了するか否かを判定する。制御を終了しないと判定された場合(言い換えれば、制御を継続する場合)、処理はステップS100に戻る。一方、制御を終了すると判定された場合、一連の処理は終了する。
 次に、図4A~図5Dを用いてモデル構築に関するステップS102及び問題細分化に関するステップS103を詳細に説明する。
 本実施形態では、モデル構築部11が機器21と機器制御部22とを有する制御対象20に対してモデルを構築する例を挙げるが、制御対象20の例として、機械や生物の挙動、自然や物理現象、化学反応、金銭や物価の変動、消費者の需要の変化などであれば良く、ここで述べた例に限定されない。
 また、本実施形態において、モデルの入力は、模擬対象(すなわち、制御対象)の状態と時間経過、操作、外乱などの影響因子であり、モデルの出力は影響因子の影響を受けた後の模擬対象の状態である。モデル構築部11で構築するモデルの形式として、ニューラルネットワーク、動径基底関数ネットワーク、若しくはニューラルネットワークと動径基底関数ネットワークの重みが表わされている行列、又は状態遷移確率行列が考えられているが、これらの行列に限定されない。
 状態遷移確率行列を用いる場合のモデルの構築方法については、例えば上述の特許文献1に開示された内容を用いることができる。すなわち、模擬対象の測定データ(本実施形態では、制御対象20の測定信号2に含まれたデータ)から状態IDを定義するテーブルを参照してデータを離散化しているが、ベクトル量子化、適応共鳴理論などのデータクラスタリング手法を用いてデータを離散化しても良い。このようにすることで、制御対象の状況に応じてこれらの手法を使い分けることにより、制御対象20の模擬モデルを好適に構築できる。なお、このとき、モデル構築部11は、測定信号2に含まれた運転データ及び画像データの少なくとも一つを、テーブル参照、適応共鳴理論、又はベクトル量子化手法を用いて離散化することにより、状態遷移行列の状態を定義すれば良い。また、ここでデータを離散化する際、1つ状態IDの中に入る報酬のばらつきが小さい方が良い。
 以下、モデル構築部11が状態遷移確率モデルを構築する場合(ステップS102)について説明する。図4Aにおいて、s1~s8は状態遷移確率モデルの状態を示し、Δtの時間で遷移することが可能な状態同士が線で結合されている。例えば、状態s1からは状態s1、s2、s3、s4のいずれかに遷移することが可能である。従って、モデル構築部11は、測定信号データベース15から取得した情報(ここでは、測定信号2)に基づいて、状態遷移行列の状態を定義するとともに、Δtの時間で遷移可能な状態同士の関係を把握してモデル化する。
 図4B及び図4Cは問題細分化部12がモデルを細分化する(ステップS103)イメージを説明する図である。ここでは、問題細分化部12は、複数の状態を1つの統合クラスタにまとめることで、モデル全体を複数のモデルに分割する。本発明では、モデルを分割することを、問題を細分化すると同じ意味で使用する。なお、問題細分化部12は、統合クラスタの中に入る状態数が所定の範囲内となるように問題を細分化することができるし、または運転員によって任意に問題を細分化することもできる。
 図4Bの例では、問題細分化部12は、状態s1~s4、s5~s8を統合することで2つの問題(図4B中の2つの円参照)に細分化している。図4Cの例では、問題細分化部12は、状態s1~s6、s7~s8を統合することで2つの問題(図4C中の2つの円参照)に細分化している。いずれの例でも統合クラスタを2つ、すなわち問題全体を2つの問題に分割して、学習するようにしている。
 ここで、問題細分化部12は、統合クラスタ間を結合するジョイント数ができるだけ少なくなるようにモデルを細分化することが好ましい。例えば、図4Bに示す例ではジョイント数が1、図4Cに示す例ではジョイント数が3であり、図4Cと比べて図4Bのジョイント数が少ないので、図4Bのように問題を細分化する方が良い。これは、ジョイント数が少ないほど、状態遷移行列の要素が少なくなるので、問題細分化部12により細分化されたモデルを記憶するメモリを少なくできるからである。このようにすることで、将来状態の予測に使用するメモリを削減できる。
 なお、問題細分化部12による細分化の手法について、モデル全体を複数に分割できるものであれば、上述の内容に限定されない。
 図5A~図5Dは状態遷移確率行列を説明する図である。状態遷移確率行列は一般的に制御対象の運動特性や物理現象を模擬するモデルの一種であり、すべての状態間の遷移確率を保存する関数(または行列)である。図5A~図5Dにおいて、表の行が遷移元の状態si(i=1、2・・・n(ここではn=8))、表の列が遷移先の状態sj(j=1、2・・・n(ここではn=8))、要素Tijは事前に設定した刻み時間Δt(またはステップ)が経過した際に、状態siから状態sjに遷移する状態遷移確率P(sj|si)である。なお、状態遷移確率P(sj|si)が時間に依存しない場合は、影響因子が模擬対象に干渉した量や回数を示すステップを時間の代わりに用いても良い。
 図5Aは、制御対象の特性全体を模擬したモデルを示すものであって、図4Aに対応する状態遷移確率行列である。図5Aにおいて、遷移元の状態s1~s8から遷移先の状態s1~s8に遷移する確率をTijで示している。図5B~図5Dは、問題細分化されたモデル(細分化モデル)を示すものであって、図4Bに示すようにモデルを細分化した後の状態遷移確率行列である。すなわち、図5B~図5Dは、図4Bに示すように各統合クラスタ、及び統合クラスタ間の関係を示す行列である。
 そして、図5Aの状態遷移確率行列では、8×8=64の要素があるのに対して、図5B~図5Dは合計で4×4+4×4+2×2=36の要素を使用している。このように、モデルを細分化して状態遷移確率行列を定義することにより行列の要素数を削減できるので、行列を記憶するために要するメモリを削減することができる。従って、問題細分化部12により細分化されたモデルを記憶するメモリを少なくすることができ、将来状態の予測に使用するメモリを削減できる。
 なお、図4A~図5Dでは状態数が8の事例で説明したが、状態の数に対する制約はない。状態の数が多くなるほど、行列を記憶するために要するメモリを削減する効果がより顕著になり、制御装置10を制御対象20に適用し易くなる。
 次に、図6A~図6Dを用いて制御方策計算に関するステップS104を詳細に説明する。上述したように、制御方策計算部13は、細分化モデルデータ4を用いて無限時間または無限ステップ先のあらゆる将来状態を予測し、予測した将来状態に基づいて制御対象20の制御方策信号5を計算する。
 具体的には、まず、制御方策計算部13は、問題細分化部12により細分化された状態遷移確率のモデルを用いて減衰型状態遷移行列を計算することで、将来状態の予測を行う。減衰型状態遷移行列を計算する方法は、例えば下記の式(1)を用いることができる。式(1)において、モデルの保存形式を状態遷移確率行列Tと仮定する。
Figure JPOXMLDOC01-appb-M000001
 式(1)において、Dは減衰型状態遷移行列、γは減衰率であって0以上1未満の定数である。また、TはΔt×kの時間が経過した際の、すべての状態間の遷移確率を保存する関数(または行列)である。このように、減衰型状態遷移行列Dは、Δt時間経過後の状態遷移確率行列TからΔt×∞時間経過後の状態遷移確率行列Tまでの和であり、すべての状態間の統計的な近さを保存する行列でもある。また、遠い将来に遷移する状態ほど重みを下げるため、経過時間に応じて減衰率γを掛けている。なお、ここでのkは離散化した正の整数である。
 状態遷移確率行列Tから状態遷移確率行列Tまでの計算を必要とする式(1)は、実時間以内の計算が困難である。そこで、式(1)は下記の式(2)に変換される。
Figure JPOXMLDOC01-appb-M000002
 式(2)において、Eは単位行列である。式(2)は式(1)と等価の計算式である。式(1)の状態遷移確率行列Tから状態遷移確率行列Tまでの和の計算を、式(2)では(E-γT)の逆行列に変換することによって、有限時間以内に式(1)と同じ計算結果が得られる。ここで、状態遷移確率行列Tが線形独立でない場合は、擬似逆行列を用いても良い。また、減衰型状態遷移行列Dの代わりに、減衰型状態遷移行列を各行で正規化した行列を用いても良い。
 このように、模擬対象の挙動を模擬するモデルを状態遷移モデルとすることで、Tの計算でΔt×k時間後の状態遷移確率を計算する。また、Δt時間経過後の状態遷移確率行列TからΔt×∞時間経過後の状態遷移確率行列Tまでの和をとり、経過時間によって減衰率γによる重み付けによって、Δt×∞時間経過後を考慮した状態遷移確率を、有限時間以内に計算する。
 次に、制御方策計算部13は、外部入力信号1に含まれている報酬関数に基づいて制御方策を計算する。ここで報酬関数は、目標位置や目標速度などの制御目標を関数、表、ベクトル、行列などの形式で表現される関数である。
 報酬関数がベクトル形式の場合の一例を図6Aに示す。図6Aでは、遷移元の状態IDごとに報酬関数Rを数値で表しており、状態sは全体を範囲に区切ってn(ここではn=8)分割した離散空間として扱っており、初期の状態から状態s3へ遷移することを目標とした。目標とするベクトルの要素値は、状態s3を1、その他の状態を0とした。なお、本発明では、ベクトルの要素値や、報酬関数Rの値を報酬と呼ぶこととする。
 制御方策計算部13は、報酬関数Rと上記算出した減衰型状態遷移行列Dとに基づいて最適な制御則(すなわち、最適な操作量)を計算することで、制御対象20の制御方策の計算を行う。制御則の一例を図6Bに示す。図6Bでは、遷移元の状態IDごとに操作量IDを数値で表しており、状態sは全体を範囲に区切ってn(ここではn=8)分割した離散空間として扱っており、各状態の範囲に対して最適な操作量ac(c=1、2・・・m)が保存されている。最適な操作量acの計算方法については後述する。
 最適な制御則を計算する方法の一例を以下に示す。ここでは、制御方策計算部13は最適な制御則を求めるために以下の3段階で計算する。
 段階1:まず、各状態sと報酬関数Rで目標とする状態sgoalとの近さ(または遷移し易さを示す統計的な指標)を保存する関数が計算される。この関数を本発明では状態価値関数Vと呼ぶこととする。また、状態価値関数Vは関数以外にも表、ベクトル、行列など形式で保存しても良く、本発明において保存形式は限定しない。状態価値関数Vの計算方法の一例を下記式(3)に示す。
Figure JPOXMLDOC01-appb-M000003
 式(3)に示すように、状態価値関数Vは減衰型状態遷移行列Dと報酬関数Rの転置行列であるRtrの積である。例えば、状態価値関数Vは図6Cに示すようなn次元(ここではn=8)のベクトルとなる。状態価値関数Vの要素値は目標とする状態sgoalへ遷移し易い状態ほど高い。本発明ではこの要素値を価値と呼ぶこととする。また、本発明の状態価値関数Vは、強化学習法での状態価値関数の定義と値が等価となる。
 段階2:次に、状態価値関数Vを用いて、遷移元の状態siから遷移できる遷移先の状態sjの中で、最も目標とする状態sgoalへ遷移し易い状態sj*が、遷移元の各状態siについて計算される。状態sj*の計算方法の一例を下記式(4)に示す。
Figure JPOXMLDOC01-appb-M000004
 ここでT(si,sj)とは、状態遷移確率行列Tにおけるsi行、sj列の要素値である。式(4)の計算結果の一例を図6Dに示す。図6Dでは、遷移元の状態IDごとに遷移先の状態IDを表している。
 段階3:最後の段階では、遷移元の各状態siから、段階2で得られた状態sj*へ遷移するために必要な操作量aが計算される。操作量aの計算は、逆モデル(遷移元の状態siと状態sj*を入力として、対応する操作量aを出力するモデル)を求めることで計算できる。段階3の計算結果は、例えば図6Bに示したような制御則が得られる。
 このように上記式(3)で価値を計算することによって、各状態におけるsgoalへの遷移し易さが評価を可能とし、上記(4)式によってΔt時間経過によって遷移できる状態のうち最もsgoalへ遷移し易い状態sj*の特定を行い、逆モデルによって状態sj*へ遷移するための操作量aを特定する。
 本実施形態の制御装置10によれば、モデル構築部11により構築されたモデルを細分化する問題細分化部12を備えるため、モデルを細分化した上で将来状態を予測することにより、将来状態の予測に使用するメモリを削減することができる。より具体的には、モデル構築に使用するメモリ(例えば、モデル構築部11により構築されたモデルを記憶するメモリ、及び、問題細分化部12により細分化されたモデルを記憶するメモリ)について、従来の状態遷移確率モデルを構築する場合と比較して、問題細分化部12の細分化によって削減することができる。その結果、制御装置10で使用するメモリを削減する効果を期待できる。
 上記メモリ削減効果を確認し易くするため、本実施形態において、表示装置32はメモリ使用状況を更に表示することが好ましい。
 図7は表示装置に表示されるメモリ使用状況の一例である。図7に示すように、表示装置32では、「使用可能メモリ」(すなわち、制御装置10で使用可能なメモリ)、「状態遷移確率モデル構築に使用するメモリ」、「問題細分化後のモデル構築に使用するメモリ」といった項目が表示されている。具体的な表示結果としては、例えば各メモリの使用容量であっても良く、全体容量に対する比率であっても良い。
 このようにすれば、表示装置32を通して各メモリの使用状況を簡単に把握でき、メモリの削減効果を容易に確認することができる。なお、ここでの「状態遷移確率モデル構築に使用するメモリ」は、モデル構築部11により構築されたモデルを記憶するメモリであり、「問題細分化後のモデル構築に使用するメモリは、問題細分化部12により細分化されたモデルを記憶するメモリである。
 また、表示装置32には、情報圧縮手段の動作結果、クラスタ数、統合クラスタ数、圧縮効率、ジョイント数、メモリ削減幅など、本実施形態の制御装置10を動作させて得られる結果が任意に表示されても良い。
 以上、本発明の実施形態について詳述したが、本発明は、上述の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の精神を逸脱しない範囲で、種々の設計変更を行うことができるものである。
 例えば、制御装置10には表示部が更に設けられても良い。該表示部に、上述の「使用可能メモリ」、「状態遷移確率モデル構築に使用するメモリ」、及び「問題細分化後のモデル構築に使用するメモリ」の使用状況、並びに制御装置10の動作によって得られる中間結果及び最終結果等を表示させることで、制御装置10側でもこれらの内容を容易に確認できる。
 更に、制御装置10の制御方法に、上述の「使用可能メモリ」、「状態遷移確率モデル構築に使用するメモリ」、及び「問題細分化後のモデル構築に使用するメモリ」の使用状況、並びに制御装置10の動作によって得られる中間結果及び最終結果等を表示する表示ステップを更に追加しても良い。例えば、操作指令生成に関するステップS106と制御終了判定に関するステップS107との間に該表示ステップを追加する。このようにすれば、各メモリの使用状況や、制御装置10の動作結果等を容易に把握することができる。
1  外部入力信号
2  測定信号
5  制御方策信号
6  操作指令
10  制御装置
11  モデル構築部
12  問題細分化部
13  制御方策計算部
14  操作指令生成部
15  測定信号データベース
16  処理結果データベース
17  外部入力インターフェイス
18  外部出力インターフェイス
20  制御対象
21  機器
22  機器制御部
30  外部装置
31  外部入力装置
32  表示装置
151  運転データベース
152  画像データベース
311  キーボード
312  マウス

Claims (10)

  1.  制御対象を模擬するモデルを構築するモデル構築部と、
     前記モデル構築部により構築されたモデルを細分化する細分化部と、
     前記細分化部により細分化されたモデルを用いて前記制御対象の将来状態を予測し、予測した将来状態に基づいて前記制御対象の制御方策を計算する制御方策計算部と、
     前記制御方策計算部により計算された制御方策に基づいて、前記制御対象への操作指令を生成する操作指令生成部と、
    を備えることを特徴とする制御装置。
  2.  前記モデル構築部は、前記制御対象の特性全体を状態遷移行列としてモデルを構築し、
     前記細分化部は、前記状態遷移行列を細分化する請求項1に記載の制御装置。
  3.  前記モデル構築部は、前記制御対象の運転データ及び画像データの少なくとも一つを、テーブル参照、適応共鳴理論、又はベクトル量子化手法を用いて離散化することにより、前記状態遷移行列の状態を定義する請求項2に記載の制御装置。
  4.  前記細分化部は、複数の状態を1つの統合クラスタにまとめることで、前記モデル構築部により構築されたモデルを複数に分割し、さらに統合クラスタ間を結合するジョイントの数が少なくなるように該モデルを細分化する請求項1~3のいずれか一項に記載の制御装置。
  5.  少なくとも、前記モデル構築部により構築されたモデルを記憶するメモリと前記細分化部により細分化されたモデルを記憶するメモリとを表示する表示部を、更に備える請求項1~4のいずれか一項に記載の制御装置。
  6.  制御対象を模擬するモデルを構築するモデル構築ステップと、
     前記モデル構築ステップで構築したモデルを細分化する細分化ステップと、
     前記細分化ステップで細分化したモデルを用いて前記制御対象の将来状態を予測し、予測した将来状態に基づいて前記制御対象の制御方策を計算する制御方策計算ステップと、
     前記制御方策計算ステップで計算した制御方策に基づいて、前記制御対象への操作指令を生成する操作指令生成ステップと、
    を備えることを特徴とする制御方法。
  7.  前記モデル構築ステップにおいて、前記制御対象の特性全体を状態遷移行列としてモデルを構築し、
     前記細分化ステップにおいて、前記状態遷移行列を細分化する請求項6に記載の制御方法。
  8.  前記モデル構築ステップにおいて、前記制御対象の運転データ及び画像データの少なくとも一つを、テーブル参照、適応共鳴理論、又はベクトル量子化手法を用いて離散化することにより、前記状態遷移行列の状態を定義する請求項7に記載の制御方法。
  9.  前記細分化ステップにおいて、複数の状態を1つの統合クラスタにまとめることで、前記モデル構築ステップで構築したモデルを複数に分割し、さらに統合クラスタ間を結合するジョイントの数が少なくなるように該モデルを細分化する請求項6~8のいずれか一項に記載の制御方法。
  10.  少なくとも、前記モデル構築ステップで構築したモデルを記憶するメモリと前記細分化ステップで細分化したモデルを記憶するメモリとを表示する表示ステップを、更に備える請求項6~9のいずれか一項に記載の制御方法。
PCT/JP2021/031806 2020-11-16 2021-08-30 制御装置及び制御方法 WO2022102213A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US18/035,771 US20230400821A1 (en) 2020-11-16 2021-08-30 Control device and control method
CN202180073239.XA CN116490834A (zh) 2020-11-16 2021-08-30 控制装置以及控制方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-190354 2020-11-16
JP2020190354A JP7441775B2 (ja) 2020-11-16 2020-11-16 制御装置及び制御方法

Publications (1)

Publication Number Publication Date
WO2022102213A1 true WO2022102213A1 (ja) 2022-05-19

Family

ID=81601045

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/031806 WO2022102213A1 (ja) 2020-11-16 2021-08-30 制御装置及び制御方法

Country Status (4)

Country Link
US (1) US20230400821A1 (ja)
JP (1) JP7441775B2 (ja)
CN (1) CN116490834A (ja)
WO (1) WO2022102213A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695707A (ja) * 1992-09-11 1994-04-08 Toshiba Corp モデル予測制御装置
JPH11161327A (ja) * 1997-11-28 1999-06-18 Mitsubishi Chemical Corp プロセスの異常診断方法及び装置
JP2011197705A (ja) * 2010-03-17 2011-10-06 Fuji Electric Co Ltd プラント制御装置、そのモデル予測制御装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7221584B2 (ja) * 2017-06-30 2023-02-14 横河電機株式会社 水処理施設における運転支援装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695707A (ja) * 1992-09-11 1994-04-08 Toshiba Corp モデル予測制御装置
JPH11161327A (ja) * 1997-11-28 1999-06-18 Mitsubishi Chemical Corp プロセスの異常診断方法及び装置
JP2011197705A (ja) * 2010-03-17 2011-10-06 Fuji Electric Co Ltd プラント制御装置、そのモデル予測制御装置

Also Published As

Publication number Publication date
US20230400821A1 (en) 2023-12-14
CN116490834A (zh) 2023-07-25
JP7441775B2 (ja) 2024-03-01
JP2022079264A (ja) 2022-05-26

Similar Documents

Publication Publication Date Title
US11914350B2 (en) Manufacturing process control using constrained reinforcement machine learning
Yang et al. Time-series forecasting based on high-order fuzzy cognitive maps and wavelet transform
US11573541B2 (en) Future state estimation device and future state estimation method
US20210064983A1 (en) Machine learning for industrial processes
Yang et al. Reliability-based design optimization with cooperation between support vector machine and particle swarm optimization
US10048658B2 (en) Information processing device, predictive control method, and recording medium
Hsu et al. Developing a fuzzy proportional–derivative controller optimization engine for engineering design optimization problems
Mansoori et al. An efficient recurrent neural network model for solving fuzzy non-linear programming problems
JP2021125136A (ja) 最適化装置及び最適化方法
JP7497516B2 (ja) 等式制約を代数モデルに課すための射影方法
Chen et al. Genetic programming for predicting aseismic abilities of school buildings
WO2022102213A1 (ja) 制御装置及び制御方法
Geris et al. An introduction to uncertainty in the development of computational models of biological processes
WO2023210665A1 (ja) 計算グラフの改善
Santner et al. Some criterion-based experimental designs
JP2023027851A (ja) 訓練装置、プラント、モデルを生成する方法、推論装置、推論方法及びプラントの制御方法
Annas et al. Implementation of Support Vector Regression (SVR) Analysis in Predicting Gold Prices in Indonesia
US20250005409A1 (en) Future state estimation apparatus
US20240354598A1 (en) Systems, apparatuses, methods, and computer program products for data-driven predictions within a process simulation system
Sousa et al. Adaptive learning in multiagent systems: a forecasting methodology based on error analysis
Vrabie et al. Online adaptive optimal control based on reinforcement learning
CN119740675A (zh) 一种基于量子计算的受众预测监管系统
Zhosan et al. Algorithm for the synthesis of dual non-parametric control of" black box" type dynamic object with use state matrix diagonalization method
JP2000057118A (ja) 学習機能付きダイナミックシミュレーションシステム
Liu Optimal design of stochastic complex systems with applications to deep excavations

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21891461

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202180073239.X

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21891461

Country of ref document: EP

Kind code of ref document: A1