CN112682198A

CN112682198A - 车辆用控制系统、车辆用控制装置及车辆用控制方法

Info

Publication number: CN112682198A
Application number: CN202011107803.9A
Authority: CN
Inventors: 桥本洋介; 片山章弘; 大城裕太; 杉江和纪; 冈尚哉
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-10-18
Filing date: 2020-10-16
Publication date: 2021-04-20
Anticipated expiration: 2040-10-16
Also published as: JP2021067194A; MX2020010934A; US20210114608A1; PH12020050406A1; TW202118318A; CN112682198B; AU2020256347A1; JP6744598B1; CA3096267A1; TWI745120B; US11691639B2; SG10202010148UA

Abstract

本发明涉及车辆用控制系统、车辆用控制装置及车辆用控制方法。所述车辆用控制系统包括存储装置、搭载于所述车辆的第1执行装置及另外于车载装置的第2执行装置。所述第1执行装置及所述第2执行装置构成为执行取得处理、操作处理、报酬算出处理及更新处理。所述第1执行装置构成为至少执行所述取得处理及所述操作处理，所述第2执行装置构成为执行所述更新处理。

Description

车辆用控制系统、车辆用控制装置及车辆用控制方法

技术领域

本发明涉及车辆用控制系统、车辆用控制装置及车辆用控制方法。

背景技术

例如在下述日本特开2016-6327中记载了基于对加速器踏板的操作量进行滤波器处理后的值来操作作为搭载于车辆的内燃机的操作部的节气门的控制装置。

发明内容

上述滤波器需要根据加速器踏板的操作量而将搭载于车辆的内燃机的节气门的操作量设定为合适的操作量，因此，在其适配中，熟练者需要花费很多工时。这样，以往，在与车辆的状态相应的车辆内的电子设备的操作量等的适配中，熟练者花费了很多工时。

本发明的第一方案的车辆用控制系统具备存储装置、搭载于车辆的第1执行装置及另外于车载装置的第2执行装置。所述存储装置构成为存储规定车辆的状态与行动变量的关系的关系规定数据，所述行动变量是与所述车辆内的电子设备的操作相关的变量。所述第1执行装置及所述第2执行装置构成为执行：取得处理，取得构成为检测所述车辆的状态的传感器的检测值；操作处理，操作所述电子设备；报酬算出处理，基于由所述取得处理取得的所述检测值，在所述车辆的特性满足基准的情况下提供比不满足的情况大的报酬；及更新处理，将基于由所述取得处理取得的所述检测值的所述车辆的状态、在所述电子设备的操作中使用的所述行动变量的值及与该操作对应的所述报酬作为向预先确定的更新映射的输入，更新所述关系规定数据。所述第1执行装置构成为至少执行所述取得处理及所述操作处理，所述第2执行装置构成为执行所述更新处理。所述操作处理包括根据由所述更新处理更新后的所述关系规定数据和所述车辆的状态来操作所述电子设备的处理，所述第2执行装置基于所述更新映射，输出以使关于按照所述关系规定数据而所述电子设备被操作的情况下的所述报酬的期待收益增加的方式更新后的所述关系规定数据。所述车辆包括多个车辆，所述更新处理将所述多个车辆的状态、所述多个车辆的所述行动变量的值及所述多个车辆的所述报酬作为向所述更新映射的输入。

在上述结构中，通过算出伴随于电子设备的操作的报酬，能够掌握通过该操作能够得到何种报酬。并且，基于报酬，通过基于按照强化学习的更新映射来更新关系规定数据，能够将车辆的状态与行动变量的关系在车辆的行驶中设定为合适的关系。因此，在将车辆的状态与行动变量的关系在车辆的行驶中设定为合适的关系时，能够削减对熟练者要求的工时。

而且，在上述结构中，通过基于关于多个车辆的状态、行动变量及报酬来更新单个关系规定数据，与基于单个车辆的状态、行动变量及报酬来更新单个关系规定数据的情况相比，能够提高更新频度。

在所述方案中，所述更新处理可以包括以下处理：针对车辆被分类的多个组的各组，为了更新所述关系规定数据，将所述多个车辆中的属于同一组的多个车辆的状态、属于所述同一组的所述多个车辆的所述行动变量的值及属于所述同一组的所述多个车辆的所述报酬作为向所述更新映射的输入，更新属于所述同一组的所述关系规定数据，所述第2执行装置可以构成为执行确定所述多个车辆的状态、所述多个车辆的所述行动变量的值及所述多个车辆的所述报酬属于所述多个组的哪个组的确定处理。

根据车辆的行驶环境、消耗程度、用户的驾驶偏好等，车辆的状态与合适的行动变量的值的组可能不同。于是，在上述结构中，通过针对每个组更新关系规定数据，与基于与系统内的具备第1执行装置的全部车辆相关的车辆的状态、行动变量及报酬来更新单个关系规定数据的情况相比，能够将关系规定数据向对于各组来说更合适的数据更新。

在所述方案中，所述确定处理可以包括根据所述多个车辆的位置来确定属于哪个组的处理。由于根据地域而车辆所处的状况不同，所以对于车辆的状态来说合适的行动变量的值有可能根据地域而不同。于是，在上述结构中，通过基于位置信息变量来确定组，能够将关系规定数据向对于多个地域的各自来说合适的数据更新。

在所述方案中，所述确定处理可以包括根据所述多个车辆的消耗程度来确定属于哪个组的处理。由于根据车辆的消耗程度而车辆相对于用户的操作的响应性不同等，所以根据车辆的消耗程度而对于车辆的状态来说合适的行动变量的值可能不同。于是，在上述结构中，通过根据车辆的消耗程度来确定组，能够根据车辆的消耗程度而更新为合适的关系规定数据。

在所述方案中，所述操作处理可以包括执行与使根据所述关系规定数据而掌握的所述期待收益成为最大的操作不同的操作的探索处理，所述第2执行装置可以构成为执行作为所述探索处理而应该执行的以下的指示处理：作为所述行动变量的值，针对所述多个车辆中的2个车辆即第1车辆和第2车辆指示不同的值。

在上述结构中，通过以针对第1车辆和第2车辆将不同的行动作为探索而执行的方式进行指示，能够控制从多个车辆各自的探索结果得到的信息。

本发明的第二方案的车辆用控制装置包括：存储装置，所述存储装置构成为存储规定车辆的状态与行动变量的关系的关系规定数据，所述行动变量是与所述车辆内的电子设备的操作相关的变量；搭载于所述车辆的第1执行装置；及另外于车载装置的第2执行装置。所述第1执行装置及所述第2执行装置构成为执行：取得处理，取得构成为检测所述车辆的状态的传感器的检测值；操作处理，操作所述电子设备；报酬算出处理，基于由所述取得处理取得的所述检测值，在所述车辆的特性满足基准的情况下提供比不满足的情况大的报酬；及更新处理，将基于由所述取得处理取得的所述检测值的所述车辆的状态、在所述电子设备的操作中使用的所述行动变量的值及与所述操作对应的所述报酬作为向预先确定的更新映射的输入，更新所述关系规定数据。所述第1执行装置构成为至少执行所述取得处理及所述操作处理，所述第2执行装置构成为执行所述更新处理。所述操作处理包括根据由所述更新处理更新后的所述关系规定数据和所述车辆的状态来操作所述电子设备的处理，所述第2执行装置基于所述更新映射，输出以使关于按照所述关系规定数据而所述电子设备被操作的情况下的所述报酬的期待收益增加的方式更新后的所述关系规定数据，所述车辆包括多个车辆，所述更新处理将所述多个车辆的状态、所述多个车辆的所述行动变量的值及所述多个车辆的所述报酬作为向所述更新映射的输入。

在本发明的第三方案的车辆用控制方法中，

所述车辆包括：存储装置，所述存储装置构成为存储规定车辆的状态与行动变量的关系的关系规定数据，所述行动变量是与所述车辆内的电子设备的操作相关的变量；搭载于所述车辆的第1执行装置；及另外于车载装置的第2执行装置，所述控制方法包括：取得处理，利用所述第1执行装置及所述第2执行装置，取得构成为检测所述车辆的状态的传感器的检测值；操作处理，利用所述第1执行装置及所述第2执行装置，操作所述电子设备；报酬算出处理，利用所述第1执行装置及所述第2执行装置，基于由所述取得处理取得的所述检测值，在所述车辆的特性满足基准的情况下提供比不满足的情况大的报酬；及更新处理，利用所述第1执行装置及所述第2执行装置，将基于由所述取得处理取得的所述检测值的所述车辆的状态、在所述电子设备的操作中使用的所述行动变量的值及与所述操作对应的所述报酬作为向预先确定的更新映射的输入，更新所述关系规定数据。所述第1执行装置构成为至少执行所述取得处理及所述操作处理，所述第2执行装置构成为执行所述更新处理。所述操作处理包括根据由所述更新处理更新后的所述关系规定数据和所述车辆的状态来操作所述电子设备的处理，所述第2执行装置基于所述更新映射，输出以使关于按照所述关系规定数据而所述电子设备被操作的情况下的所述报酬的期待收益增加的方式更新后的所述关系规定数据，所述车辆包括多个车辆，所述更新处理将所述多个车辆的状态、所述多个车辆的所述行动变量的值及所述多个车辆的所述报酬作为向所述更新映射的输入。

附图说明

本发明的示例性实施例的特征、优点及技术上和工业上的意义将会在下面参照附图来描述，在这些附图中，同样的标号表示同样的要素，其中：

图1是示出第1实施方式的车辆用控制系统的结构的图。

图2是示出该实施方式的控制装置所执行的处理的工序的流程图。

图3中的(a)的部分及(b)的部分是示出该实施方式的系统所执行的处理的工序的流程图。

图4是例示该实施方式的车辆的分类的图。

图5中的(a)的部分及(b)的部分是示出第2实施方式的系统所执行的处理的工序的流程图。

图6是例示该实施方式的再探索用的行动的设定的图。

具体实施方式

<第1实施方式>

以下，参照附图对车辆用控制系统的第1实施方式进行说明。图1示出本实施方式的车辆VC1的驱动系及控制系统的结构。

如图1所示，在内燃机10的进气通路12从上游侧起依次设置有节气门14及燃料喷射阀16，吸入到进气通路12的空气、从燃料喷射阀16喷射出的燃料伴随于进气门18的开阀而向由气缸20及活塞22区划的燃烧室24流入。在燃烧室24内，燃料与空气的混合气伴随于点火装置26的火花放电而用于燃烧，通过燃烧而产生的能量经由活塞22而被变换为曲轴28的旋转能。用于燃烧后的混合气伴随于排气门30的开阀而作为排气向排气通路32排出。在排气通路32设置有作为净化排气的后处理装置的催化剂34。

在曲轴28上能够经由具备锁止离合器42的变矩器40而机械连结变速装置50的输入轴52。变速装置50是使输入轴52的转速与输出轴54的转速之比即变速比可变的装置。在输出轴54上机械连结有驱动轮60。

控制装置70以内燃机10为控制对象，为了控制作为其控制量的转矩、排气成分比率等而操作节气门14、燃料喷射阀16及点火装置26等内燃机10的操作部。另外，控制装置70以变矩器40为控制对象，为了控制锁止离合器42的接合状态而操作锁止离合器42。另外，控制装置70以变速装置50为控制对象，为了控制作为其控制量的变速比而操作变速装置50。此外，在图1中，记载了节气门14、燃料喷射阀16、点火装置26、锁止离合器42及变速装置50各自的操作信号MS1～MS5。

控制装置70为了控制量的控制而参照由空气流量计80检测的吸入空气量Ga、由节气门传感器82检测的节气门14的开口度(节气门开口度TA)、曲轴角传感器84的输出信号Scr。另外，控制装置70参照由加速器传感器88检测的加速器踏板86的踩踏量(加速器操作量PA)、由加速度传感器90检测的车辆VC1的前后方向的加速度Gx。另外，控制装置70参照全球定位系统(GPS92)的位置数据Pgps。

控制装置70具备CPU72、ROM74、能够电改写的非易失性存储器(存储装置76)、通信机77及周边电路78，它们能够经由本地网络79而通信。在此，周边电路78包括生成规定内部的动作的时钟信号的电路、电源电路、复位电路等。

在ROM74中存储有控制程序74a及学习用副程序74b。另一方面，在存储装置76中存储有规定加速器操作量PA与节气门开口度TA的指令值(节气门开口度指令值TA*)及点火装置26的延迟量aop的关系的关系规定数据DR。在此，延迟量aop是相对于预先确定的基准点火正时的延迟量，基准点火正时是MBT点火正时和爆震界限点中的延迟侧的正时。MBT点火正时是得到最大转矩的点火正时(最大转矩点火正时)。另外，爆震界限点是在爆震界限高的高辛烷值燃料的使用时在设想的最好的条件下能够使爆震成为能够容许的水平以内的点火正时的提前界限值。另外，在存储装置76中存储有转矩输出映射数据DT。由转矩输出映射数据DT规定的转矩输出映射是以曲轴28的转速NE、充气效率η及点火正时为输入且以转矩Trq为输出的映射。

上述通信机77是用于经由车辆VC1的外部的网络100而与数据解析中心110通信的设备。数据解析中心110解析从多个车辆VC1、VC2、…发送的数据。数据解析中心110具备CPU112、ROM114、能够电改写的非易失性存储器(存储装置116)、周边电路118及通信机117，它们能够通过本地网络119而通信。在ROM114中存储有用于将关系规定数据DR通过强化学习而更新的学习用主程序114a。另外，在存储装置116中存储有关系规定数据DR。

图2示出本实施方式的控制装置70所执行的处理的工序。图2所示的处理通过CPU72例如以预定周期反复执行存储于ROM74的控制程序74a而实现。此外，以下，利用在开头标注有“S”的数字来表示各处理的步骤编号。

在图2所示的一系列处理中，CPU72首先取得由加速器操作量PA的6个采样值“PA(1)、PA(2)、…PA(6)”构成的时间序列数据作为状态s(S10)。在此，构成时间序列数据的各采样值是在互相不同的定时下采样到的值。在本实施方式中，利用以恒定的采样周期采样的情况下的互相在时间序列上相邻的6个采样值构成时间序列数据。

接着，CPU72按照关系规定数据DR所确定的策略π，设定由与通过S10的处理取得的状态s相应的节气门开口度指令值TA*及延迟量aop构成的行动a(S12)。

在本实施方式中，关系规定数据DR是确定行动价值函数Q及策略π的数据。在本实施方式中，行动价值函数Q是表示与状态s及行动a的8维的独立变量相应的期待收益的值的表型式的函数。另外，策略π确定以下规则：在给出了状态s时，优先地选择成为给出了独立变量的状态s的行动价值函数Q中的成为最大的行动a(贪婪行动)，并以预定的概率ε选择其以外的行动a。

接着，CPU72基于设定的节气门开口度指令值TA*及延迟量aop，向节气门14输出操作信号MS1来操作节气门开口度TA，并且向点火装置26输出操作信号MS3来操作点火正时(S14)。在此，在本实施方式中，例示将节气门开口度TA反馈控制成节气门开口度指令值TA*，因此，即使节气门开口度指令值TA*是同一值，操作信号MS1也可能成为互相不同的信号。另外，在例如进行周知的爆震控制(KCS)等的情况下，点火正时被设为使基准点火正时以延迟量aop延迟后的值由KCS反馈修正后的值。在此，基准点火正时由CPU72根据曲轴28的转速NE及充气效率η而可变设定。此外，转速NE基于曲轴角传感器84的输出信号Scr而由CPU72算出。另外，充气效率η基于转速NE及吸入空气量Ga而由CPU72算出。

接着，CPU72取得内燃机10的转矩Trq、相对于内燃机10的转矩指令值Trq*及加速度Gx(S16)。在此，CPU112通过将转速NE、充气效率η及点火正时向转矩输出映射输入来算出转矩Trq。另外，CPU72根据加速器操作量PA而设定转矩指令值Trq*。

接着，CPU72判定过渡标志F是否是“1”(S18)。过渡标志F在是“1”的情况下表示是过渡运转时，在是“0”的情况下表示不是过渡运转时。CPU72在判定为过渡标志F是“0”的情况下(S18：是)，判定加速器操作量PA的每单位时间的变化量ΔPA的绝对值是否为预定量ΔPAth以上(S20)。在此，变化量ΔPA例如设为S20的处理的执行定时下的最新的加速器操作量PA与相对于该定时靠前单位时间的加速器操作量PA之差即可。

CPU72在判定为是预定量ΔPAth以上的情况下(S20：是)，对过渡标志F代入“1”(S22)。相对于此，CPU72在判定为过渡标志F是“1”的情况下(S18：是)，判定在S22的处理的执行后是否经过了预定期间(S24)。在此，预定期间设为直到加速器操作量PA的每单位时间的变化量ΔPA的绝对值成为比预定量ΔPAth小的规定量以下的状态持续预定时间为止的期间。CPU72在判定为经过了预定期间的情况下(S24：是)，对过渡标志F代入“0”(S26)。

CPU72在S22、S26的处理完成的情况、在S20、S24的处理中进行否定判定的情况下，移向S28的处理。CPU72在S28的处理中使在S10的处理中取得的状态s、在S12的处理中选择出的行动a、在S16的处理中取得的转矩Trq、转矩指令值Trq*及加速度Gx、过渡标志F的值存储于存储装置76。

此外，CPU72在S28的处理完成的情况下，暂且结束图2所示的一系列处理。图3示出本实施方式的强化学习的处理工序。图3中的(a)部分所示的处理通过CPU72执行存储于图1所示的ROM74的学习用副程序74b而实现。另外，图3中的(b)部分所示的处理通过CPU112执行存储于ROM114的学习用主程序114a而实现。以下，沿着时间序列来说明图3所示的处理。

在图3中的(a)部分所示的一系列处理中，CPU72首先判定是否是出行的结束时(S30)。在此，出行是指车辆的行驶允许信号为ON状态的1次的期间。在本实施方式中，行驶允许信号相当于点火信号。

CPU72在判定为是出行的结束时的情况下(S30：是)，操作通信机77而发送车辆VC1的识别信息ID、行驶距离Lt、位置数据Pgps及通过S28的处理而存储的数据(S32)。

相对于此，如图3中的(b)部分所示，CPU112接收通过S32的处理而发送出的数据(S40)。然后，CPU112选择接收到的数据中的过渡标志F恒定的1个期间即1个过程(S42)。各过程(episode)是从进行S26的处理起到进行S22的处理为止的期间、从进行S22的处理起到进行S26的处理为止的期间。

接着，CPU112取得由选择出的过程中的转矩指令值Trq*、转矩Trq及加速度Gx这3个采样值的组构成的时间序列数据和状态s及行动a的时间序列数据(S44)。在图3中，括号中的数字不同的值表示是不同的采样定时下的变量的值。例如，转矩指令值Trq*(1)和转矩指令值Trq*(2)是采样定时互相不同的值。另外，将属于选择出的过程的行动a的时间序列数据设为行动集合Aj，将属于该过程的状态s的时间序列数据定义为状态集合Sj。

接着，CPU112判定属于选择出的过程的任意的转矩Trq与转矩指令值Trq*之差的绝对值为规定量ΔTrq以下的主旨的条件(A)和加速度Gx为下限值GxL以上且为上限值GxH以下的主旨的条件(B)的逻辑和是否为真(S46)。

在此，CPU112将规定量ΔTrq通过过程的开始时的加速器操作量PA的每单位时间的变化量ΔPA而可变设定。即，CPU112在过程的开始时的加速器操作量PA的变化量ΔPA的绝对值大的情况下，认为是与过渡时相关的过程，和与稳态时相关的过程相比，将规定量ΔTrq设定为大的值。

另外，CPU112将下限值GxL通过过程的开始时的加速器操作量PA的变化量ΔPA而可变设定。即，CPU112在是与过渡时相关的过程且变化量ΔPA为正的情况下，和与稳态时相关的过程的情况相比，将下限值GxL设定为大的值。另外，CPU112在是与过渡时相关的过程且变化量ΔPA为负的情况下，和与稳态时相关的过程的情况相比，将下限值GxL设定为小的值。

另外，CPU112将上限值GxH通过过程的开始时的加速器操作量PA的每单位时间的变化量ΔPA而可变设定。即，CPU112在是与过渡时相关的过程且变化量ΔPA为正的情况下，和与稳态时相关的过程的情况相比，将上限值GxH设定为大的值。另外，CPU112在是与过渡时相关的过程且变化量ΔPA为负的情况下，和与稳态时相关的过程的情况相比，将上限值GxH设定为小的值。

CPU112在判定为逻辑和是真的情况下(S46：是)，对报酬r代入“10”，另一方面(S48)，在判定为是假的情况下(S46：是)，对报酬r代入“-10”(S50)。CPU72在S48、S50的处理完成的情况下，为了针对将车辆VC1、VC2、…分类后的各组更新关系规定数据DR，确定通过S40的处理而接收到的数据的发送源的车辆所属的组(S52)。

图4例示本实施方式中的车辆的分类。在本实施方式中，通过车辆所处的地域和行驶距离Lt来确定组。例如，位于地域1的车辆和位于地域2的车辆互相属于独立的组。在此，基于地域的分类例如将地域1设为北美且将地域2设为南美等即可。基于地域的分类鉴于“由于燃料性状、环境针对每个地域不同，所以可认为对于状态s来说最佳的行动a可能不同”而设置。而且，即使在属于同一地域的情况下，行驶距离Lt比“0”大且为“L1”以下的车辆和比“L1”大且为“L2”以下的车辆也属于独立的组。基于行驶距离Lt的分类鉴于“根据车辆的消耗程度，例如车辆相对于用户的驾驶操作的响应性可能不同等，因此，可认为对于状态s来说最佳的行动a可能不同”而设置。

CPU72通过位置数据Pgps来确定地域，通过确定出的地域和行驶距离Lt来确定组。并且，CPU72更新对于确定出的组共通的关系规定数据DR。在本实施方式中，使用ε-soft同策略型蒙特卡罗法。

即，CPU112对由通过上述S44的处理而读出的各状态和对应的行动的组确定的收益R(Sj，Aj)分别加上报酬r(S54)。在此，“R(Sj，Aj)”是总括了将状态集合Sj的要素的1个设为状态且将行动集合Aj的要素的1个设为行动的收益R的记载。接着，关于由通过上述S44的处理而读出的各状态和对应的行动的组确定的收益R(Sj，Aj)的各自进行平均化并向对应的行动价值函数Q(Sj，Aj)代入(S56)。在此，平均化设为将通过S54的处理而算出的收益R除以对进行了S54的处理的次数加上预定数而得到的值的处理即可。此外，收益R的初始值设为对应的行动价值函数Q的初始值即可。

接着，CPU112关于通过上述S44的处理而读出的状态，分别将对应的行动价值函数Q(Sj，A)中的成为最大值时的节气门开口度指令值TA*及延迟量aop的组即行动向行动Aj*代入(S58)。在此，“A”表示可取的任意的行动。此外，行动Aj*根据通过上述S44的处理而读出的状态的种类而成为独立的值，但在此将记载简化而利用同一符号记载。

接着，CPU112判定是否关于属于通过S40的处理而接收到的1出行量的数据的全部过程完成了S44～S60的处理(S62)。并且，CPU112在判定为存在还未完成的过程的情况下(S62：是)，返回S42的处理。

相对于此，CPU112在判定为关于全部的过程完成了S44～S60的处理的情况下(S62：是)，操作通信机117而将更新后的关系规定数据DR向通过S40的处理而接收到的数据的发送源发送(S64)。此外，CPU112在完成S64的处理的情况下，暂且结束图3中的(b)部分所示的一系列处理。

相对于此，如图3中的(a)部分所示，CPU72接收更新后的关系规定数据DR(S34)，利用接收到的关系规定数据DR来改写在S12的处理中利用的关系规定数据DR(S36)。此外，CPU72在S36的处理完成的情况、在S30的处理中进行否定判定的情况下，暂且结束图3中的(a)部分所示的一系列处理。

此外，在车辆VC1出厂时存储于存储装置76的关系规定数据DR设为例如在试验台等中模拟车辆的行驶等并通过遵照图2及图3的处理而一定程度进行了强化学习后的已学习模型。不过，假设，在出厂前的学习中，关于设为强化学习的对象的行动价值函数Q的独立变量，状态s及行动a可取的值的全部组合中的一部分通过人的见解等而被削减。即，例如认为加速器操作量PA的时间序列数据中的相邻的2个采样值的1个成为加速器操作量PA的最小值且另1个成为最大值这一情况根据人对加速器踏板86的操作不可能产生，限定于出厂前的学习而未定义行动价值函数Q。在本实施方式中，通过基于人的见解等的维度削减，限定于出厂前的学习而将定义行动价值函数Q的状态s可取的值限制为10的4次方个以下，更优选的是10的3次方个以下。

在此，对本实施方式的作用及效果进行说明。CPU72伴随于用户对加速器踏板86的操作而取得作为状态s的加速器操作量PA的时间序列数据，按照策略π而设定由节气门开口度指令值TA*及延迟量aop构成的行动a。在此，CPU72基本上基于在关系规定数据DR中规定的行动价值函数Q来选择使期待收益成为最大的行动a。不过，CPU72通过以预定的概率ε选择使期待收益最大化的行动a以外的行动而进行使期待收益最大化的行动a的探索。并且，CPU72将状态s、行动a及转矩Trq、转矩指令值Trq*及加速度Gx向数据解析中心110发送。

由此，在数据解析中心110中，能够伴随于用户对车辆VC1的驾驶而将关系规定数据DR通过强化学习来更新。因此，能够将与加速器操作量PA相应的节气门开口度指令值TA*及延迟量aop以不会使熟练者的工时过度大的方式设定为在车辆VC1的行驶中合适的值。尤其是，数据解析中心110基于从多个车辆发送的数据来更新1个关系规定数据DR，因此，与基于从1个车辆发送的数据来更新1个关系规定数据DR的情况相比，能够提高关系规定数据DR的更新频度。另外，这意味着，能够在短时间内增大用于关系规定数据DR的更新的探索次数。

即，在各状态下选择贪婪行动以外的行动的各自的概率是“ε/|A|”，另一方面，在各状态下充分进行贪婪行动以外的行动的评价之前，需要该行动被选择一定程度的次数。这意味着需要增大各状态s的出现次数。在此，在100万台车辆中特定的状态s出现的合计的频度相对于在1个车辆中特定的状态s出现的频度成为100万倍左右。因而，在状态s出现为了通过探索而选择出的行动的评价变得充分而要求的次数之前所需的时间在使用来自100万台车辆的数据的情况下相对于仅使用1个车辆的数据的情况成为100万分之1左右。因此，能够在各种各样的用户驾驶车辆时迅速发现合适的行动a。

根据以上说明的本实施方式，还能够得到以下记载的效果。在数据解析中心110中取代使用全部车辆的数据来更新单个关系规定数据DR而针对组化的车辆的每个数据来更新独立的关系规定数据DR。由此，即使在车辆出厂时在全部车辆安装了共通的关系规定数据DR的情况下，也能够将关系规定数据向对于各组来说更合适的数据更新。

在出厂前仅关于行动价值函数Q的独立变量的值的一部分进行了基于强化学习的学习的状态下，伴随于出厂后的车辆VC1的驾驶，能够关于全部的独立变量的值学习行动价值函数Q。由此，能够基于从多个车辆VC1、VC2、…发送的庞大的数据，将具有大到在产品出厂前难以学习的程度的维数的独立变量的行动价值函数Q通过强化学习而学习。

在行动价值函数Q的独立变量中包括加速器操作量PA的时间序列数据。由此，与关于加速器操作量PA仅将单个采样值设为独立变量的情况相比，能够相对于加速器操作量PA的各种各样的变化细腻地调整行动a的值。

在行动价值函数Q的独立变量中包括节气门开口度指令值TA*自身。由此，例如，与将使节气门开口度指令值TA*的行为模型化后的模型式的参数等设为与节气门开口度相关的独立变量的情况相比，容易提高基于强化学习的探索的自由度。

<第2实施方式>

以下，关于第2实施方式，以与第1实施方式的不同点为中心，参照附图来说明。

在本实施方式中，通过使贪婪行动以外的行动可取的概率ε随着时间渐减且成为零，在车辆出厂后经过一定程度的时间的情况下，仅选择贪婪行动。另外，在本实施方式中，将基于行驶距离Lt的分类仅以1阶段进行，在行驶距离Lt一定程度变大的组中，暂时性地执行再探索。

图5示出本实施方式的强化学习的处理工序。图5中的(a)部分所示的处理通过CPU72执行存储于图1所示的ROM74的学习用副程序74b而实现。另外，图5中的(b)部分所示的处理通过CPU112执行存储于ROM114的学习用主程序114a而实现。此外，以下，关于与图3所示的处理对应的处理，为了方便而标注同一步骤编号。以下，沿着时间序列来说明图5所示的处理。

如图5中的(b)部分所示，CPU112执行S40～S62的处理。接着，CPU112判定行驶距离Lt是否为消耗下限值LtL以上(S70)。在此，消耗下限值LtL是确定基于行驶距离Lt的分类的阈值的值。另外，消耗下限值LtL被设定为设想为选择贪婪行动以外的行动的概率ε为零的值。

CPU112在判定为是消耗下限值LtL以上的情况下(S70：是)，判定成为了消耗下限值LtL以上的车辆的组中的再探索是否已完成(S72)。在此，再探索的完成意味着基于后述的S60a的处理的选择贪婪行动以外的行动的概率ε为零。CPU112在判定为再探索还未完成的情况下(S72：是)，将贪婪行动以外的1个行动ai向探索行动ae代入(S74)。接着，CPU112更新贪婪行动以外的行动的标签变量i(S76)。然后，CPU72更新行驶距离Lt为消耗下限值LtL以上的组用的关系规定数据DR(S60a)。在此，将选择贪婪行动的概率设为“1-ε”，将选择探索行动ae的概率设为“ε”，将选择其以外的行动的概率设为“0”。

并且，CPU112在S60a的处理完成的情况、在S70的处理中进行否定判定的情况、在S72的处理中进行肯定判定的情况下，判定关系规定数据DR是否被更新(S78)。在此，CPU112即使在由S72的处理进行肯定判定的情况下，在未向通过S40的处理而接收到的数据的发送源的车辆发送行驶距离Lt为消耗下限值LtL以上的组用的关系规定数据DR的情况下，也判定为存在更新后的数据。并且，CPU72在判定为存在更新后的数据的情况下(S78：是)，操作通信机117而将关系规定数据DR向通过S40的处理接收到的数据的发送源的车辆发送(S64)。

此外，CPU112在完成S64的处理的情况、在S78的处理中进行否定判定的情况下，暂且结束图5中的(b)部分所示的一系列处理。相对于此，如图5中的(a)部分所示，CPU72判定是否存在更新后的数据(S80)。并且，CPU72在判定为存在更新后的数据的情况下(S80：是)，移向S34的处理。此外，CPU72在S36的处理完成的情况、在S30、S80的处理中进行否定判定的情况下，暂且结束图5中的(a)部分所示的一系列处理。

在此，对本实施方式的作用及效果进行说明。CPU72伴随于用户对加速器踏板86的操作而取得加速器操作量PA的时间序列数据，按照策略π而设定由节气门开口度指令值TA*及延迟量aop构成的行动a。在此，CPU72基本上基于在关系规定数据DR中规定的行动价值函数Q而选择使期待收益成为最大的行动a。不过，CPU72通过以预定的概率ε选择使期待收益最大化的行动a以外的行动来进行使期待收益最大化的行动a的探索。由此，能够伴随于用户对车辆VC1的驾驶而将关系规定数据DR通过强化学习来更新。由此，能够将与加速器操作量PA相应的节气门开口度指令值TA*及延迟量aop以不会使熟练者的工时过度大的方式设定为在车辆VC1的行驶中合适的值。

在此，概率ε随着时间的经过而渐减并成为零，因此，在进行一定程度的学习的情况下，认为成为了对于实际行驶来说合适的关系规定数据DR，能够仅选择贪婪行动。由此，始终设定最佳的节气门开口度指令值TA*及延迟量aop。

不过，在车辆的行驶距离Lt变大的情况下，通过车辆的消耗，关系规定数据DR可能会不再是最佳的数据。例如，在节气门14、进气通路12中堆积堆积物的情况下，进气通路12的流路截面积变小，因此，即使节气门开口度TA相同，吸入空气量Ga也变小。因而，由关系规定数据DR规定的根据加速器操作量PA的时间序列数据而使期待收益最大化的节气门开口度指令值TA*优选成为对由在节气门14中堆积堆积物引起的进气通路12的流路截面积的缩小进行补偿的值。

于是，在本实施方式中，关于行驶距离Lt一定程度变大而可认为车辆的消耗正在进行的车辆，执行再探索。由此，在产品出厂后，通过一些车辆的行驶距离Lt成为消耗下限值LtL以上，能够将对于消耗的车辆来说合适的关系规定数据DR通过强化学习而学习。

根据以上说明的本实施方式，还能够得到以下记载的效果。在进行再探索处理的情况下，CPU112在每次发送关系规定数据DR时变更了探索行动ae。由此，如图6所示，例如在车辆VC1中，采用行动a1作为探索行动ae，在车辆VC2中，选择行动a2作为探索行动，在车辆VC3中，选择行动a3作为探索行动ae。由此，与执行再探索的车辆随机选择行动a的情况相比，能够将贪婪行动以外的行动提前各尝试预定次数。

<对应关系>

上述实施方式中的事项与本发明的对应关系如下。在本发明中，电子设备对应于节气门14、点火装置26。第1执行装置对应于CPU72及ROM74，第2执行装置对应于CPU112及ROM114。存储装置对应于存储装置76、116。取得处理对应于S10、S16的处理。操作处理对应于S14的处理。报酬算出处理对应于S46～S50的处理。更新处理对应于S54～S60的处理。更新映射对应于通过由学习用主程序114a确定的S54～S60的处理而规定的映射。在本发明中，确定处理对应于S52的处理。在本发明中，消耗程度由行驶距离Lt定量化。在本发明中，探索处理对应于不采取贪婪行动的情况下的S12、S14的处理。指示处理对应于S74、S76、S60a、S64的处理。

<其它实施方式>

此外，本实施方式能够如以下这样变更而实施。本实施方式及以下的变更例能够在技术上不矛盾的范围内互相组合而实施。

“关于表示消耗程度的变量”

在上述实施方式中，作为表示车辆的消耗程度的变量，例示了行驶距离Lt，但不限于此。例如，也可以是节气门14的开口度的每1％的吸入空气量Ga的平均值。另外，在例如如下述“关于车辆”一栏所记载的那样具备旋转电机作为车辆的推力生成装置的车辆的情况下，也可以是向旋转电机供给电力的蓄电池的满充电电荷量。

“关于车辆的分类”

在上述实施方式中，根据车辆的消耗程度和地域而将多个车辆分成了多个组，但不限于此。例如，关于车辆的消耗程度和地域这2个要素，也可以仅根据其中的1个而分类。

另外，作为确定组的变量，例如也可以使用加速器操作量PA的最大值、平均值。由此，能够进行与用户的驾驶偏好相应的分类。此外，作为车辆的分类，不限于通过预定的观点而预先定义。例如，也可以通过从多个车辆入手的信息的聚类而将多个组通过无教师学习自动生成。

顺便一提，将车辆分类自身不是必须的。

“关于指示处理”

作为指示处理，不限于由S74、S76、S60a、S64的处理例示的处理。例如，也可以是仅对消耗程度为预定值以上的车辆指示优先地执行相对于加速器操作量PA使节气门开口度指令值TA*更大的行动、使延迟量aop更小的行动的处理。具体而言，例如，以不使与现状的贪婪行动相比减小节气门开口度指令值TA*的行动、增大延迟量aop的行动包含于探索的方式更新策略π，将更新后的关系规定数据DR从数据解析中心110向设为对象的车辆发送即可。

另外，例如也可以是在发现了在现状的贪婪行动以外的行动中存在显著增大期待收益的行动的情况下以将发现的行动和与其相近的行动作为探索处理而执行的方式进行指示的处理。在此，在预定的状态下显著增大期待收益的行动例如设为预定期间内的行动价值函数Q的增加量成为预定值以上的行动即可。另外，指示处理具体而言设为以下处理即可：相对于发现的行动a，以仅使节气门开口度指令值TA*的值的差的绝对值为预定值以下且延迟量aop的差的绝对值为预定值以下的行动包含于探索的方式更新策略π，将更新后的关系规定数据DR从数据解析中心110向各车辆发送。

“关于行动变量”

在上述实施方式中，作为与作为行动变量的节气门的开口度相关的变量，例示了节气门开口度指令值TA*，但不限于此。例如，也可以将节气门开口度指令值TA*相对于加速器操作量PA的响应性利用浪费时间及2阶延迟滤波器来表现，将浪费时间和规定2阶延迟滤波器的2个变量这合计3个变量设为与节气门的开口度相关的变量。不过，在该情况下，状态变量优选取代加速器操作量PA的时间序列数据而设为加速器操作量PA的每单位时间的变化量。

在上述实施方式中，作为与作为行动变量的点火正时相关的变量，例示了延迟量aop，但不限于此。例如，也可以是被设为KCS的修正对象的点火正时自身。

在上述实施方式中，作为行动变量，例示了与节气门的开口度相关的变量及与点火正时相关的变量，但不限于此。例如，也可以除了与节气门的开口度相关的变量及与点火正时相关的变量之外还使用燃料喷射量。另外，关于这3个，也可以仅采用与节气门的开口度相关的变量及燃料喷射量作为行动变量，或者仅采用与点火正时相关的变量及燃料喷射量作为行动变量。而且，关于这3个，还可以仅采用其中1个作为行动变量。

另外，在如“关于内燃机”一栏所记载的那样是压缩着火式的内燃机的情况下，取代与节气门的开口度相关的变量而使用与喷射量相关的变量，取代与点火正时相关的变量而使用与喷射正时相关的变量即可。此外，优选除了与喷射正时相关的变量之外，还追加与1燃烧循环中的喷射次数相关的变量、与1燃烧循环中的1个气缸用的在时间序列上相邻的2个燃料喷射中的一方的结束定时和另一方的开始定时之间的时间间隔相关的变量。

另外，例如在变速装置50是有级变速装置的情况下，也可以将用于通过液压来调整离合器的接合状态的电磁阀的电流值等设为行动变量。另外，例如，在如下述“关于车辆”一栏所记载的那样采用混合动力车、电动汽车、燃料电池车作为车辆的情况下，也可以将旋转电机的转矩、输出设为行动变量。另外，例如，在具备具有通过内燃机的曲轴的旋转动力而旋转的压缩机的车载空调装置的情况下，也可以使压缩机的负荷转矩包含于行动变量。另外，在具备电动式的车载空调装置的情况下，也可以使空调装置的消耗电力包含于行动变量。

“关于状态”

在上述实施方式中，将加速器操作量PA的时间序列数据设为了由以相等间隔采样到的6个值构成的数据，但不限于此。只要是由互相不同的采样定时下的2个以上的采样值构成的数据即可，此时，更优选是由3个以上的采样值构成的数据、采样间隔是相等间隔的数据。

作为与加速器操作量相关的状态变量，不限于加速器操作量PA的时间序列数据，例如如“关于行动变量”一栏所记载的那样，也可以是加速器操作量PA的每单位时间的变化量等。

另外，例如在如“关于行动变量”一栏所记载的那样将电磁阀的电流值设为行动变量的情况下，在状态中包括变速装置的输入轴52的转速、输出轴54的转速、由电磁阀调整的液压即可。另外，例如在如“关于行动变量”一栏所记载的那样将旋转电机的转矩、输出设为行动变量的情况下，在状态中包括蓄电池的充电率、温度即可。另外，例如在“关于行动变量”一栏所记载的那样使压缩机的负荷转矩、空调装置的消耗电力包含于行动的情况下，在状态中包括车室内的温度即可。

“关于表形式的数据的维度削减”

作为表形式的数据的维度削减手法，不限于在上述实施方式中例示的手法。例如由于加速器操作量PA成为最大值的情况稀少，所以也可以关于加速器操作量PA成为规定量以上的状态不定义行动价值函数Q，加速器操作量PA成为规定量以上的情况下的节气门开口度指令值TA*等另外适配。另外，例如，也可以从行动可取的值除去节气门开口度指令值TA*成为规定值以上的值等而进行维度削减。

此外，在车辆出厂后与出厂前相比扩大设为强化学习的对象的行动价值函数Q的独立变量的可取的值的范围也不是必须的。另外，在出厂前进行强化学习自身不是必须的。例如，也可以是，在同一排气量的内燃机中，在转用已经进行了行动变量相对于状态的适配的车辆的适配数据而设定了行动价值函数Q的初始值后，将车辆出厂，在出厂后首次执行强化学习。

“关于关系规定数据”

在上述实施方式中，将行动价值函数Q设为了表形式的函数，但不限于此。例如，也可以使用函数近似器。

例如，也可以取代使用行动价值函数Q而将策略π设为采取行动a的概率，将策略π自身根据报酬r而更新。这例如能够将策略π使用将状态s及行动a设为独立变量且将采取行动a的概率设为从属变量的函数近似器而实现。在该情况下，将确定函数近似器的参数根据报酬r而更新即可。

“关于操作处理”

例如在如“关于关系规定数据”一栏所记载的那样将行动价值函数设为函数近似器的情况下，通过关于上述实施方式中的关于成为表型式的函数的独立变量的行动的离散的值的组的全部与状态s一起向行动价值函数Q输入而选择使行动价值函数Q最大化的行动a即可。

另外，例如在如“关于关系规定数据”一栏所记载的那样将策略π设为将状态s及行动a设为独立变量且将采取行动a的概率设为从属变量的函数近似器的情况下，基于由策略π表示的概率来选择行动a即可。

“关于更新映射”

在S54～S60的处理中，例示了基于ε-soft同策略型蒙特卡罗法的处理，但不限于此。例如，也可以是基于异策略型蒙特卡罗法的处理。不过，不限于蒙特卡罗法，例如，也可以使用异策略型TD法，另外，例如也可以如SARSA法这样使用同策略型TD法，另外，例如也可以使用资格迹法作为同策略型的学习。

另外，例如在如“关于关系规定数据”一栏所记载的那样将策略π使用函数近似器来表现且将其基于报酬r而直接更新的情况下，使用策略梯度法等来构成更新映射即可。

另外，不限于仅将行动价值函数Q和策略π中的任一方设为基于报酬r的直接的更新对象。例如，也可以如Actor-Critic法那样分别更新行动价值函数Q及策略π。另外，在Actor-Critic法中，不限于此，例如也可以取代行动价值函数Q而将价值函数V设为更新对象。

“关于报酬算出处理”

在图3的处理中，根据条件(A)及条件(B)的逻辑和是否为真来提供报酬，但不限于此。例如，也可以执行根据是否满足条件(A)来提供报酬的处理和根据是否满足条件(B)来提供报酬的处理。另外，例如，关于根据是否满足条件(A)来提供报酬的处理和根据是否满足条件(B)来提供报酬的处理这2个处理，也可以仅执行其中的任1个处理。

另外，例如也可以取代在满足条件(A)的情况下一律提供相同的报酬而设为在转矩Trq与转矩指令值Trq*之差的绝对值小的情况下提供比大的情况大的报酬的处理。另外，例如也可以取代在不满足条件(A)的情况下一律提供相同的报酬而设为在转矩Trq与转矩指令值Trq*之差的绝对值大的情况下提供比小的情况小的报酬的处理。

另外，例如也可以取代在满足条件(B)的情况下一律提供相同的报酬而设为根据加速度Gx的大小使报酬的大小可变的处理。另外，例如也可以取代在不满足条件(B)的情况下一律提供相同的报酬而设为根据加速度Gx的大小使报酬的大小可变的处理。

在上述实施方式中，根据是否满足与驾驶性能相关的基准而提供报酬r，但作为与驾驶性能相关的基准，不限于上述的内容，例如也可以根据噪音、振动强度是否满足基准而设定。不过，不限于此，例如可以是上述加速度是否满足基准、转矩Trq的跟随性是否满足基准、噪音是否满足基准及振动强度是否满足基准这4个中的任意的1个以上。

作为报酬算出处理，不限于根据是否满足与驾驶性能相关的基准而提供报酬r。例如，也可以是在燃料消耗率满足基准的情况下提供比不满足的情况大的报酬的处理。另外，例如也可以是在排气特性满足基准的情况下提供比不满足的情况大的报酬的处理。此外，也可以包括在满足与驾驶性能相关的基准的情况下提供比不满足的情况大的报酬的处理、在燃料消耗率满足基准的情况下提供比不满足的情况大的报酬的处理及在排气特性满足基准的情况下提供比不满足的情况大的报酬的处理这3个处理中的2个或3个。

另外，例如在如“关于行动变量”一栏所记载的那样将变速装置50的电磁阀的电流值设为行动变量的情况下，例如在报酬算出处理中包括以下的(a)～(c)这3个处理中的至少1个处理即可。

(a)是在变速装置的变速比的切换所需的时间为预定时间以内的情况下提供比超过预定时间的情况大的报酬的处理。(b)是在变速装置的输入轴52的转速的变化速度的绝对值为输入侧预定值以下的情况下提供比超过输入侧预定值的情况大的报酬的处理。

(c)是在变速装置的输出轴54的转速的变化速度的绝对值为输出侧预定值以下的情况下提供比超过输出侧预定值的情况大的报酬的处理。另外，例如在如“关于行动变量”一栏所记载的那样将旋转电机的转矩、输出设为行动变量的情况下，也可以包括在蓄电池的充电率处于预定范围内的情况下提供比不处于的情况大的报酬的处理、在蓄电池的温度处于预定范围内的情况下提供比不处于的情况大的报酬的处理。另外，例如在如“关于行动变量”一栏所记载的那样使压缩机的负荷转矩、空调装置的消耗电力包含于行动变量的情况下，也可以追加在车室内的温度处于预定范围内的情况下提供比不处于的情况大的报酬的处理。

“关于车辆用控制系统”

作为车辆用控制系统，不限于由控制装置70及数据解析中心110构成。例如，也可以由控制装置70、便携终端及数据解析中心110构成。这能够通过便携终端执行S12的处理等而实现。

“关于执行装置”

作为执行装置，不限于具备CPU72(112)和ROM74(114)且执行软件处理。例如，也可以具备对在上述实施方式中软件处理的至少一部分进行硬件处理的例如ASIC等专用的硬件电路。即，执行装置是以下的(a)～(c)的任一结构即可。(a)具备将上述处理的全部按照程序而执行的处理装置和存储程序的ROM等程序保存装置。(b)具备将上述处理的一部分按照程序而执行的处理装置及程序保存装置和执行剩余的处理的专用的硬件电路。(c)具备执行上述处理的全部的专用的硬件电路。在此，具备处理装置及程序保存装置的软件执行装置、专用的硬件电路也可以是多个。

“关于存储装置”

在上述实施方式中，将存储关系规定数据DR的存储装置和存储学习用副程序74b、控制程序74a的存储装置(ROM74)设为了独立的存储装置，但不限于此。另外，虽然将存储关系规定数据DR的存储装置和存储学习用主程序114a的存储装置(ROM114)设为了独立的存储装置，但不限于此。

“关于内燃机”

作为内燃机，不限于具备向进气通路12喷射燃料的进气口喷射阀作为燃料喷射阀的内燃机，也可以是具备向燃烧室24直接喷射燃料的缸内喷射阀的内燃机，另外，例如还可以是具备进气口喷射阀及缸内喷射阀双方的内燃机。

作为内燃机，不限于火花点火式内燃机，例如也可以是使用轻油等作为燃料的压缩着火式内燃机等。“关于车辆”作为车辆，不限于推力生成装置仅是内燃机的车辆，例如也可以是具备内燃机和旋转电机的所谓混合动力车辆。另外，例如，还可以是作为推力生成装置不具备内燃机而具备旋转电机的所谓电动汽车、燃料电池车。

Claims

1.一种车辆用控制系统，其特征在于，具备：

存储装置，所述存储装置构成为存储规定车辆的状态与行动变量的关系的关系规定数据，所述行动变量是与所述车辆内的电子设备的操作相关的变量；

搭载于所述车辆的第1执行装置；及

另外于车载装置的第2执行装置，

其中，

所述第1执行装置及所述第2执行装置构成为执行：

取得处理，取得构成为检测所述车辆的状态的传感器的检测值；

操作处理，操作所述电子设备；

报酬算出处理，基于由所述取得处理取得的所述检测值，在所述车辆的特性满足基准的情况下提供比不满足的情况大的报酬；及

更新处理，将基于由所述取得处理取得的所述检测值的所述车辆的状态、在所述电子设备的操作中使用的所述行动变量的值及与所述操作对应的所述报酬作为向预先确定的更新映射的输入，更新所述关系规定数据，

所述第1执行装置构成为至少执行所述取得处理及所述操作处理，

所述第2执行装置构成为执行所述更新处理，并且，

其中，

所述操作处理包括根据由所述更新处理更新后的所述关系规定数据和所述车辆的状态来操作所述电子设备的处理，

所述第2执行装置基于所述更新映射，输出以使关于按照所述关系规定数据而所述电子设备被操作的情况下的所述报酬的期待收益增加的方式更新后的所述关系规定数据，

所述车辆包括多个车辆，所述更新处理将所述多个车辆的状态、所述多个车辆的所述行动变量的值及所述多个车辆的所述报酬作为向所述更新映射的输入。

2.根据权利要求1所述的车辆用控制系统，其特征在于，

所述更新处理包括以下处理：针对车辆被分类的多个组的各组，为了更新所述关系规定数据，将所述多个车辆中的属于同一组的多个车辆的状态、属于所述同一组的所述多个车辆的所述行动变量的值及属于所述同一组的所述多个车辆的所述报酬作为向所述更新映射的输入，更新属于所述同一组的所述关系规定数据，

所述第2执行装置构成为执行确定所述多个车辆的状态、所述多个车辆的所述行动变量的值及所述多个车辆的所述报酬属于所述多个组的哪个组的确定处理。

3.根据权利要求2所述的车辆用控制系统，其特征在于，

所述确定处理包括根据所述多个车辆的位置来确定属于哪个组的处理。

4.根据权利要求2或3所述的车辆用控制系统，其特征在于，

所述确定处理包括根据所述多个车辆的消耗程度来确定属于哪个组的处理。

5.根据权利要求1～4中任一项所述的车辆用控制系统，其特征在于，

所述操作处理包括执行与使根据所述关系规定数据而掌握的所述期待收益成为最大的操作不同的操作的探索处理，

所述第2执行装置构成为执行作为所述探索处理而应该执行的以下的指示处理：作为所述行动变量的值，针对所述多个车辆中的2个车辆即第1车辆和第2车辆指示不同的值。

6.一种车辆用控制装置，其特征在于，具备：

搭载于所述车辆的第1执行装置；及

另外于车载装置的第2执行装置，

其中，

所述第1执行装置及所述第2执行装置构成为执行：

操作处理，操作所述电子设备；

所述第2执行装置构成为执行所述更新处理，并且，

其中，

7.一种车辆用控制方法，所述车辆包括：存储装置，所述存储装置构成为存储规定车辆的状态与行动变量的关系的关系规定数据，所述行动变量是与所述车辆内的电子设备的操作相关的变量；搭载于所述车辆的第1执行装置；及另外于车载装置的第2执行装置，

所述控制方法的特征在于，包括：

取得处理，利用所述第1执行装置及所述第2执行装置，取得构成为检测所述车辆的状态的传感器的检测值；

操作处理，利用所述第1执行装置及所述第2执行装置，操作所述电子设备；

报酬算出处理，利用所述第1执行装置及所述第2执行装置，基于由所述取得处理取得的所述检测值，在所述车辆的特性满足基准的情况下提供比不满足的情况大的报酬；

更新处理，利用所述第1执行装置及所述第2执行装置，将基于由所述取得处理取得的所述检测值的所述车辆的状态、在所述电子设备的操作中使用的所述行动变量的值及与所述操作对应的所述报酬作为向预先确定的更新映射的输入，更新所述关系规定数据，

所述第2执行装置构成为执行所述更新处理，并且，

其中，