CN118832569A - 机器人控制装置和系统、学习完毕模型及其生成方法 - Google Patents
机器人控制装置和系统、学习完毕模型及其生成方法 Download PDFInfo
- Publication number
- CN118832569A CN118832569A CN202310461786.6A CN202310461786A CN118832569A CN 118832569 A CN118832569 A CN 118832569A CN 202310461786 A CN202310461786 A CN 202310461786A CN 118832569 A CN118832569 A CN 118832569A
- Authority
- CN
- China
- Prior art keywords
- image
- objects
- learning
- mask
- work
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/08—Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Human Computer Interaction (AREA)
- Manipulator (AREA)
- Image Analysis (AREA)
Abstract
本发明提供机器人控制装置、机器人控制系统、学习完毕模型以及学习完毕模型的生成方法,能提升评分的有用性。机器人控制装置(20)具备:取得拍到机器人(10)的多个作业对象(8)的图像的取得部(22);基于图像来推定多个作业对象8各自的视觉辨识度的推定部(24);基于视觉辨识度来从多个作业对象(8)中选择使机器人(10)保持的确定作业对象的作业对象确定部(26)。
Description
技术领域
本公开涉及机器人控制装置、机器人控制系统、学习完毕模型以及学习完毕模型的生成方法。
背景技术
过去,已知具备物体认识处理装置的散件捡取装置(例如参考专利文献1)。
在先技术文献
专利文献
专利文献1:JP特开2010-120141号公报
谋求捡取作业的精度提升。
发明内容
本公开的目的在于,提供能提升捡取作业的精度的机器人控制装置、机器人控制系统、学习完毕模型以及学习完毕模型的生成方法。
本公开的一实施方式所涉及的机器人控制装置具备取得部、推定部和作业对象确定部。所述取得部取得拍到机器人的多个作业对象的图像。所述推定部基于所述图像来推定所述多个作业对象各自的视觉辨识度。所述作业对象确定部基于所述视觉辨识度来从所述多个作业对象中选择所述机器人的确定作业对象。
本公开的一实施方式所涉及的机器人控制系统具备所述机器人控制装置和显示装置。所述显示装置显示表示由所述机器人控制装置选择的所述确定作业对象的选择依据的评分。
本公开的一实施方式所涉及的学习完毕模型具备特征提取部、蒙片生成部和视觉辨识度推定部。所述特征提取部基于拍摄多个对象物的图像来提取所述多个对象物各自的特征。所述蒙片生成部基于所述多个对象物各自的特征来生成分别表示所述多个对象物的多个蒙片。所述视觉辨识度推定部基于所述多个蒙片来推定所述多个对象物各自的视觉辨识度。
本公开的一实施方式所涉及的学习完毕模型的生成方法包含:进行生成学习完毕模型的学习,所述学习完毕模型基于包含拍到对象物的多个学习用图像的学习数据来针对推论用图像的输入推定所述推论用图像中所拍到的物体的视觉辨识度。
发明效果
根据本公开的一实施方式所涉及的机器人控制装置、机器人控制系统、学习完毕模型以及学习完毕模型的生成方法,能提升捡取作业的精度。
附图说明
图1是表示一实施方式所涉及的机器人控制系统的结构例的框图。
图2是表示一实施方式所涉及的机器人控制系统的结构例的示意图。
图3是表示生成蒙片(mask)并推定蒙片的视觉辨识度的学习完毕模型的结构例的框图。
图4A是表示输入到学习完毕模型的图像的一例的图。
图4B是表示在图4A中按每个物体生成的边界框的一例的图。
图4C是表示在图4A中按每个物体生成的蒙片的一例的图。
图5是图4A的框包围部A的放大图。
图6是说明设为学习用图像的合成图像或注释数据的生成中所用的蒙片图像的大小的图。
图7是表示拍到作业对象的图像的一例的图。
图8是表示裁出图7的框包围部B的图像的图。
图9是表示学习完毕模型的生成方法的步骤例的流程。
图10是表示机器人控制方法的步骤例的流程。
图11是表示蒙片的面积分布的图表。
图12是表示蒙片的尺寸的直方图的一例的图。
符号说明
1 机器人控制系统
6 移动目的地
7 移动起点
8 作业对象
10 机器人(12:臂、14:手、16:摄像机、18:接口)
20 机器人控制装置(22:取得部、24:推定部、26:作业对象确定部、28:接口)
30 学习完毕模型(31:特征提取部、32:蒙片生成部、33:视觉辨识度推定部、34:分类生成部、35:生成精度推定部)
41~44 认识对象(41F~44F:边界框、40M~44M:蒙片、42A、42B:部分)
51、52 范围
53 虚拟摄像机
61~65 认识对象(62A、62B、63A、64A、64B、65A:部分)。
具体实施方式
本公开的一实施方式所涉及的机器人控制系统1能基于作为作业对象的各物体的视觉辨识度来选择使机器人保持的确定作业对象。
物体的视觉辨识度是实际的图像中拍到该物体的部分的面积相对于假定为该物体的整体在图像中拍到的情况的面积的比率。例如,由于在某物体重叠其他物体而该物体的一部分被其他物体挡住,该物体在图像中拍到的部分的面积有时会变小。该情况的物体的视觉辨识度是实际的图像中未被其他物体挡住地拍到的部分的面积相对于该物体未被其他物体挡住的情况下在图像中拍到的面积的比率。此外,由于某物体位于摄像机的视角的端部而从图像中看不全,由此,有时该物体在图像中拍到的部分的面积变小。该情况的物体的视觉辨识度是实际的图像没有看不全地拍到的部分的面积相对于该物体未被其他物体挡住的情况下在图像中拍到的面积的比率。
从机器人拍摄的图像中所拍到的物体的视觉辨识度越低,在从机器人来看时,物体被其他物体挡住的范围越大。即,从机器人来看,该物体位于比其他物体更靠里侧。在机器人将物体作为作业对象进行保持的情况下,在多个重合的物体中位于重叠的里侧的物体的保持与位于跟前的物体的保持相比,更易于失败。
因此,本公开通过考虑物体的视觉辨识度确定使机器人保持的作业对象,能减少基于机器人的保持的失败。以下说明具体的实施方式。
(机器人控制系统1的结构例)
如图1以及图2所示那样,本公开的一实施方式所涉及的机器人控制系统1具备机器人10和机器人控制装置20。在机器人控制系统1中,机器人控制装置20控制机器人10,以使得机器人10保持作业对象8并从移动起点7移动至移动目的地6。在图2的示例中,作业对象8设为是工业部件。移动起点7设为是收容工业部件的托盘。移动目的地6设为是运送工业部件的运送机。作业对象8并不限于例示的物体,可以是其他各种物体。移动起点7或移动目的地6并不限于所例示的场所,也可以是其他各种场所。
<机器人10>
如图1以及图2所示那样,机器人10具备臂12、手14、摄像机16和接口18。
臂12包含关节和连杆而构成。臂12例如可以构成为6轴或7轴的垂直多关节机器人。臂12也可以构成为3轴或4轴的水平多关节机器人或SCARA机器人。臂12也可以构成为2轴或3轴的正交机器人。臂12也可以构成为并联连杆机器人等。构成臂12的轴的数量并不限于例示。
手14安装于臂12的前端或给定位置。手14可以包含构成为能吸附作业对象8的吸附手。吸附手可以具有1个或多个吸附部。手14可以包含构成为能握持作业对象的握持手。握持手可以具有多个指。握持手的指的数量可以为2个以上。握持手的指可以具有1个以上的关节。手14也可以是构成为能掬取作业对象8的掬取手。
机器人10能通过使臂12动作来控制手14的位置以及姿态。手14的姿态可以通过确定手14对作业对象8作用的方向的角度来表征。手14的姿态并不限于角度,可以用空间向量等其他各种方式表征。手14对作业对象8作用的方向例如可以是手14吸附并保持作业对象8时靠近作业对象8的方向,也可以是进行吸附的方向。手14对作业对象8作用的方向可以是手14用多个指握持作业对象8时靠近作业对象8的方向,也可以进行握持的方向。手14对作业对象8作用的方向并不限于这些示例,能是各种方向。
机器人10可以还具备检测包含关节或连杆等的臂12的状态、或检测手14的状态的传感器。传感器可以检测与臂12或手14的现实的位置或姿态、或者臂12或手14的速度或加速度相关的信息,作为臂12或手14的状态。传感器可以检测作用于臂12或手14的力。传感器可以检测流过驱动关节的电动机的电流或电动机的转矩。传感器能检测作为机器人10的实际的动作的结果而得到的信息。机器人控制装置20通过取得传感器的检测结果,能掌握机器人10的实际的动作的结果。
摄像机16可以构成为能拍摄RGB图像,可以构成为能取得深度数据。机器人10通过使臂12动作,能控制摄像机16的位置以及姿态。摄像机16的姿态可以通过确定摄像机16进行拍摄的方向的角度来表征。摄像机16的姿态并不限于角度,也可以用空间向量等其他各种方式表征。摄像机16将在通过机器人10的动作而决定的位置以及姿态下拍摄的图像输出到机器人控制装置20。
另外,摄像机16构成为能输出RAW图像,也可以之后通过机器人控制装置20变换成RGB的数据。此外,摄像机16例如可以是红外线摄像机。在该情况下,例如在处置水果作为作业对象8,判定吃的时期来选择作业对象8,或者,在处置饮料作为作业对象8时,能根据含有的矿物质成分的量来选择作业对象8。
接口18可以包含通过有线或无线而与机器人控制装置20进行通信的通信设备来构成。通信设备可以构成为能基于LAN(Local Area Network,局域网)、WAN(Wide AreaNetwork,广域网)、RS-232C或RS-485等各种通信标准进行通信。接口18可以从机器人控制装置20取得控制臂12、手14或摄像机16的信息。接口18可以对机器人控制装置20输出臂12或手14的状态的检测结果、或者用摄像机16拍摄的图像或深度数据等。
<机器人控制装置20>
如图1所示那样,机器人控制装置20具备取得部22、推定部24、作业对象确定部26和接口28。
取得部22取得从机器人10输出的信息。取得部22取得用机器人10的摄像机16拍摄的作业对象8的图像。作业对象8的图像设为拍到多个作业对象8。取得部22可以包含通信接口而构成。
推定部24基于从机器人10取得的拍到多个作业对象8的图像,来推定多个作业对象8各自的视觉辨识度。视觉辨识度是在拍到物体的图像中物体未被其他物体挡住而能看到的部分的面积相对于假设拍到物体的整体的情况的面积的比率。在图像中拍到物体的整体的情况下,该物体的视觉辨识度为100%。如后述那样,推定部24可以使用学习完毕模型30(参考图3)来推定视觉辨识度,也可以基于其他各种算法来推定视觉辨识度。
作业对象确定部26基于推定部24中推定的视觉辨识度来从多个作业对象8中选择使机器人10的手14保持的确定作业对象。确定作业对象接下来是作为使机器人10的手14保持的物体而确定的作业对象8。
推定部24或作业对象确定部26可以包含至少1个处理器来构成。推定部24以及作业对象确定部26可以实现为1个处理器的功能。推定部24以及作业对象确定部26分别可以实现为不同的处理器的功能。处理器可以执行实现推定部24或作业对象确定部26的功能的程序。处理器可以实现为单一的集成电路。集成电路也被称作IC(Integrated Circuit)。处理器可以实现为多个能通信地连接的集成电路以及分立电路。处理器可以包含CPU(Central Processing Unit,中央处理器)而构成。处理器也可以包含DSP(Digital SignalProcessor,数字信号处理器)或GPU(Graphics Processing Unit,图形处理器)而构成。处理器可以基于其他各种已知的技术实现。
机器人控制装置20可以还具备存储部。存储部可以包含磁盘等电磁存储介质而构成,也可以包含半导体存储器或磁存储器等存储器而构成。存储部可以不成为HDD(HardDisk Drive,硬盘驱动器),也可以构成为SSD(Solid State Drive,固态硬盘)。存储部存放在各种信息以及处理器中执行的程序等。存储部可以作为处理器的工作存储器发挥功能。存储部的至少一部分可以含在处理器中。存储部的至少一部分可以构成为与机器人控制装置20分体的存储装置。
接口28可以包含构成为能通过有线或无线进行通信的通信设备而构成。通信设备可以构成为能基于各种通信标准进行通信。
接口28可以具有输入设备以及输出设备。输入设备例如能接受机器人10的用户等的输入。输入设备例如可以包含触控面板或触摸传感器、或者鼠标等指向设备而构成。输入设备可以包含物理键而构成。输入设备可以包含麦克风等声音输入设备而构成。输入设备并不限于这些示例,可以包含其他各种设备而构成。
输出设备可以包含显示设备而构成。输出设备例如可以将机器人10的作业结果、推定部24中的推定结果或作业对象确定部26中的确定结果等对用户等显示。显示设备例如可以包含液晶显示器(LCD:Liquid CrystalDisplay)、有机EL(Electro-Luminescence,电致发光)显示器或无机EL显示器、或者等离子显示器(PDP:Plasma Display Panel)等而构成。显示设备并不限于这些显示器,可以包含其他各种方式的显示器而构成。显示设备可以包含LED(Light Emitting Diode,发光二极管)等发光器件而构成。显示设备可以包含其他各种设备而构成。输出设备可以包含输出声音等听觉信息的扬声器等声音输出设备而构成。输出设备并不限于这些示例,可以包含其他各种设备而构成。
在图1例示的结构中,1台机器人控制装置20与1台机器人10连接。也可以1台机器人控制装置20与2台以上的机器人10连接。1台机器人控制装置20可以仅控制1台机器人10,也可以控制2台以上的机器人10。机器人控制装置20以及机器人10各自的数量并不限于1台,也可以是2台以上。
机器人控制装置20可以包含1个或多个服务器而构成。机器人控制装置20可以构成为使多个服务器执行并列处理。机器人控制装置20并不必须包含物理的壳体而构成,也可以基于虚拟机或容器编排系统等虚拟化技术来构成。机器人控制装置20可以使用云服务构成。在机器人控制装置20使用云服务构成的情况下,能通过组合管理服务来构成。即,机器人控制装置20的功能能作为云服务而实现。
机器人控制装置20可以具备至少1个服务器群和至少1个数据库群。服务器群作为推定部24或作业对象确定部26发挥功能。数据库群作为存储部发挥功能。服务器群的数量可以是1个,也可以是2个以上在服务器群的数量是1个的情况下,在1个服务器群实现的功能包含在各服务器群实现的功能。各服务器群能相互通过有线或无线来通信。数据库群的数量可以是1个,也可以是2个以上。数据库群的数量能基于机器人控制装置20中管理的数据的容量和对机器人控制装置20要求的可用性要件适宜增减。数据库群与各服务器群能通过有线或无线通信而连接。机器人控制装置20可以与外部的数据库连接。可以构成具备机器人控制装置20和外部的数据库的信息处理系统。
机器人控制装置20在图1中记载为1个结构,但也可以根据需要将多个结构视作1个系统来运用。即,机器人控制装置20构成为容量可变的平台。通过使用多个结构作为机器人控制装置20,在1个结构在天灾等不测的事态的发生时不再能运用的情况下,也使用其他结构继续系统的运用。在该情况下,多个结构分别构成为通过不问有线或无线的线路而连接,相互能通信。该多个结构也可以跨越云服务和本地部署环境来构建。
此外,机器人控制装置20通过不问有线或无线的线路与机器人控制系统1的至少1个结构能通信地连接。机器人控制装置20和机器人控制系统1的至少1个结构具备相互使用了标准的协议的接口,能取双方向的通信。
(机器人控制系统1的动作例)
在机器人控制系统1中,机器人控制装置20控制机器人10,以使得基于用机器人10的摄像机16拍摄的作业对象8的图像来选择作为进行保持的作业对象8而确定的确定作业对象,机器人10的手14保持确定作业对象。
具体地,机器人控制装置20的取得部22取得拍到机器人10的多个作业对象8的图像。机器人控制装置20的推定部24基于所取得的图像来推定多个作业对象8各自的视觉辨识度。机器人控制装置20的作业对象确定部26基于所推定的作业对象8的视觉辨识度,来从多个作业对象8中选择使得在机器人10的手14保持的确定作业对象。如上述那样,物体的视觉辨识度是实际的图像中拍到该物体的部分的面积相对于假定为图像中拍到该物体的整体的情况的面积的比率。
相比于被其他物体挡住而仅能看到一部分的作业对象8,机器人10更易于保持未被其他物体挡住从而能看到整体的作业对象8。此外,相比于重叠了其他物体的作业对象8,机器人10更易于保持与其他物体的重叠少的作业对象8。此外,相比于位于机器人10的摄像机16的视角的端从而从图像看不全的作业对象8,机器人10更易于保持收在视角中的作业对象8。因此,作业对象确定部26可以将视觉辨识度变高的作业对象8选择为确定作业对象。
推定部24可以从拍到作业对象8的图像中将作业对象8按每个种类或每个个体进行分类。推定部24可以推定分类的作业对象8各自的分类度。即,推定部24可以能从拍到作业对象8的图像推定多个作业对象8各自的分类度。分类度是表征作业对象8的分类精度的高度的指标。分类精度可以表征为作业对象8的分类的置信的高度或似然性。
作业对象确定部26可以基于多个作业对象8各自的视觉辨识度以及分类度,来从多个作业对象8中选择确定作业对象。
推定部24可以基于拍到多个作业对象8的图像来生成多个作业对象8各自的蒙片。推定部24可以基于多个作业对象8各自的蒙片来推定多个作业对象8各自的视觉辨识度。此外,推定部24可以推定蒙片的生成精度。即,推定部24可以能推定蒙片的生成精度。蒙片的生成精度与推定部24所生成的蒙片与正解蒙片的重合程度对应。即,推定部24所生成的蒙片越接近于正解蒙片,蒙片的生成精度越高。推定部24可以算出所生成的蒙片与正解蒙片的一致率作为蒙片的生成精度。
作业对象确定部26可以基于多个作业对象8各自的视觉辨识度以及蒙片的生成精度,来从多个作业对象8中选择确定作业对象。
推定部24可以从拍到作业对象8的图像推定多个作业对象8各自的高度信息。即,推定部24可以能从拍到作业对象8的图像推定多个作业对象8各自的高度信息。高度信息可以表征为从机器人10的摄像机16来看时的从摄像机16到作业对象8的距离。
推定部24可以基于拍到作业对象8的图像中所含的多个作业对象8各自的面积来推定高度信息。推定部24可以视作具有较大的面积的作业对象8位于跟前来推定作业对象8的高度信息。取得部22也可以从机器人10的摄像机16取得深度数据。推定部24也可以基于深度数据来推定作业对象8的高度信息。
作业对象确定部26可以基于多个作业对象8各自的视觉辨识度以及高度信息来从多个作业对象8中选择确定作业对象。相比于位于远处作业对象8,机器人10更易于保持位于近处的作业对象8。作业对象确定部26可以基于高度信息,选择将多个作业对象8当中位于近处的作业对象8作为确定作业对象。
此外,作业对象确定部26可以从图像中拍到的多个作业对象8当中的位于图像的中央侧的作业对象8选择确定作业对象。
(学习完毕模型30)
如上述那样,机器人控制装置20的推定部24可以使用学习完毕模型30来推定图像中拍到的作业对象8的视觉辨识度。学习完毕模型30例如是AI(artificial intelligence,人工智能)。学习完毕模型30通过对学习前模型进行给定的机器学习而生成。所谓给定的机器学习,例如是深度学习等即可。另外,所谓学习前模型,是指希望推论的项目未成为能推论的状态的AI模型,例如在学习完毕模型30推定作业对象8的视觉辨识度的情况下,学习前模型是指未成为能推定作业对象8的视觉辨识度的状态的AI模型,例如包含未经过学习处理的AI模型、或进行了能推论视觉辨识度以外的学习处理的AI模型。另外,在本公开中,说明推定部24为AI的示例,但推定部24也可以通过模板匹配的手法实现,还可以并用AI以及模板匹配来实现。
推定部24对学习完毕模型30输入推论用图像。推论用图像是提取使机器人10保持的作业对象8并将其作为推定视觉辨识度的对象的图像。推定部24推定推论用图像中拍到的作业对象8的视觉辨识度。换言之,学习完毕模型30针对推论用图像的输入来推定推论用图像中所拍到的物体的视觉辨识度。
如图3例示的那样,学习完毕模型30可以具备特征提取部31、蒙片生成部32、视觉辨识度推定部33、分类生成部34和生成精度推定部35。学习完毕模型30也可以不具备分类生成部34。学习完毕模型30也可以不具备生成精度推定部35。
学习完毕模型30可以包含具有多个层的CNN(Convolutional Neural Network,卷积神经网络)或R-CNN等而构成。对于输入到学习完毕模型的信息在CNN的各层执行基于给定的加权系数的卷积处理。在学习完毕模型的学习中,加权系数被更新。学习完毕模型可以包含全连接层而构成。学习完毕模型可以由VGG16或ResNet50构成。学习完毕模型可以构成为Transformer。学习完毕模型30可以构成为对所输入的图像以像素级进行处理。学习完毕模型30可以具有组合了各种Backbone以及头部的结构。学习完毕模型30可以具有在其他AI模型中追加新的Backbone或头部的结构。学习完毕模型并不限于这些示例,可以包含其他各种模型而构成。
以下说明学习完毕模型30的各结构部的动作。在以下的说明中,输入到学习完毕模型30的图像是图4A例示的拍到认识对象41~44的图像。认识对象41~43是符合作业对象8的部件。认识对象44是不符合作业对象8的铅笔。
<特征提取部31>
如图4B所示那样,特征提取部31提取图像中所拍到的物体的特征,变换成关注区域(Region Of Interest;ROI)。换言之,特征提取部31基于拍摄多个对象物的图像来提取多个对象物各自的特征。特征提取部31将图像中所拍到的物体的关注区域输出到蒙片生成部32以及分类生成部34。
特征提取部31提取符合作业对象8的认识对象41的特征,变换成被边界框41F包围的认识对象41的关注区域。特征提取部31提取符合作业对象8的认识对象42的特征,变换成被边界框42F包围的认识对象42的关注区域。特征提取部31提取符合作业对象8的认识对象43的特征,变换成被边界框43F包围的认识对象43的关注区域。特征提取部31提取不符合作业对象8的认识对象44的特征,变换成被边界框44F包围的认识对象44的关注区域。在本实施方式中,边界框41F~44F在后述的分类生成部34中生成。可以特征提取部31生成边界框41F~44F。
<蒙片生成部32>
蒙片生成部32基于从特征提取部31输出的关注区域,如图4C所示那样生成图像中所拍到的物体的蒙片。换言之,蒙片生成部32基于多个对象物各自的特征来生成分别表示多个对象物的多个蒙片。
蒙片生成部32将所生成的蒙片设为学习完毕模型30的输出。此外,蒙片生成部32将所生成的蒙片输出到视觉辨识度推定部33以及生成精度推定部35。
在图4C中,不是按物体的每个种类而是按每个个体来生成蒙片。即,符合作业对象8的认识对象41~43分别作为符合作业对象8的部件的个体来进行区别。蒙片41M是符合作业对象8的认识对象41的蒙片。蒙片42M是符合作业对象8的认识对象42蒙片。蒙片43M是符合作业对象8的认识对象43的蒙片。蒙片44M是不符合作业对象8的认识对象44的蒙片。
<视觉辨识度推定部33>
视觉辨识度推定部33推定与蒙片生成部32中生成的蒙片对应的物体的视觉辨识度。换言之,视觉辨识度推定部33基于多个蒙片来推定多个对象物各自的视觉辨识度。
视觉辨识度推定部33将视觉辨识度评分设为学习完毕模型30的输出。视觉辨识度评分是表征与蒙片对应的物体的视觉辨识度的大小的指标。视觉辨识度推定部33可以将与蒙片对应的物体的视觉辨识度的值本身作为视觉辨识度评分来输出。视觉辨识度推定部33也可以将与蒙片所对应的物体的视觉辨识度的大小相应的值作为视觉辨识度评分来输出。如上述那样,物体的视觉辨识度是在某拍摄视点下实际的图像中未被其他物体挡住地拍到的部分的面积相对于该物体未被其他物体挡住的情况下在图像中拍到的面积的比率。
视觉辨识度推定部33可以基于图4C例示的各物体的蒙片的生成结果来推定各物体的蒙片的视觉辨识度。如图5所示那样,在拍到认识对象42的图像中,认识对象42的一部分被认识对象41以及43挡住。具体地,认识对象42包含:被挡在认识对象41的后方的部分42A;和被挡在认识对象43的后方的部分42B。因此,认识对象42的蒙片42M(参考图4C)并非表征认识对象42的全景的蒙片。
视觉辨识度推定部33推定认识对象42当中的被其他认识对象41以及43挡住的部分42A以及42B的面积。视觉辨识度推定部33算出认识对象42当中的未被其他认识对象41以及43挡住而在图像中拍到的部分的面积。视觉辨识度推定部33算出认识对象42当中被其他认识对象41以及43挡住的部分的42A以及42B的面积、与认识对象42当中未被其他认识对象41以及43挡住而在图像中拍到的部分的面积的合计,作为认识对象42的全景在图像中拍到的情况的面积。视觉辨识度推定部33能通过用认识对象42当中的未被其他认识对象41以及43挡住而在图像中拍到的部分的面积除以认识对象42的全景在图像中拍到的情况的面积,来推定视觉辨识度。
<分类生成部34>
分类生成部34基于从特征提取部31输出的物体的关注区域来决定物体分类成哪个类别。换言之,分类生成部34将物体分类成类别。物体的关注区域例如分类成确定符合作业对象8的部件、或不符合作业对象8的铅笔等物体的种类的类别。物体的关注区域例如分类成确定背景等的认识对象的物体以外的属性的类别。换言之,分类生成部34基于物体的特征,将多个对象物的各自分类成多个类别的各自。
在有可能将物体分类成确定多个种类的各自的类别的情况下,分类生成部34可以算出将物体分类成各类别的概率。分类生成部34可以将物体分类成概率最高的类别。分类生成部34可以算出物体的分类精度。物体的分类精度可以表征为该物体被分类成由分类生成部34分类的类别的概率。
分类生成部34将与上述的分类度对应的分类评分设为学习完毕模型30的输出。分类评分是表征物体的物体的分类的置信的高度(置信度)的高度的指标。分类生成部34可以除了置信度以外,还输出表征似然性的数值(尤度),作为分类评分。分类生成部34可以输出物体的置信度本身作为分类评分。分类生成部34也可以输出与物体的置信度相应的值作为分类评分。
分类生成部34可以执行与图像中拍到的各物体的关注区域对应的边界框的学习。其结果,分类生成部34可以将边界框设为学习完毕模型30的输出。
<生成精度推定部35>
生成精度推定部35推定蒙片生成部32中生成的蒙片的生成精度。换言之,生成精度推定部35基于多个蒙片来推定多个蒙片各自的生成精度。如上述那样,蒙片的生成精度与蒙片生成部32中生成的蒙片与正解蒙片的重合程度对应。即,蒙片生成部32中生成的蒙片越接近于正解蒙片,蒙片的生成精度越高。生成精度推定部35将生成精度评分设为学习完毕模型30的输出。生成精度评分是表征蒙片的生成精度的高度的指标。生成精度推定部35可以输出蒙片生成部32中生成的蒙片与正解蒙片的一致率,作为生成精度评分。
<其他块>
学习完毕模型30可以具备算出拍到对象物的图像中所含的多个对象物各自的图像上的面积的面积算出部。面积算出部可以更从拍到对象物的图像算出多个对象物各自的图像上的面积。面积算出部可以位于蒙片生成部32之后,基于蒙片生成部32中生成的蒙片来算出对象物的面积。面积算出部也可以在特征提取部31之后与蒙片生成部32并列设置,基于与特征提取部31中提取的特征对应的关注区域来算出对象物的面积。面积算出部例如可以通过对所生成的蒙片的像素数进行计数,来算出面积。
学习完毕模型30可以具备从拍到对象物的图像推定多个对象物各自的高度信息的高度推定部。高度推定部可以能从拍到对象物的图像推定多个对象物各自的高度信息。高度信息表征为从拍摄对象物的摄像机到对象物的距离。高度推定部可以位于面积算出部之后,基于对象物的面积来推定对象物的高度信息。高度推定部也可以位于蒙片生成部32之后,基于蒙片生成部32中生成的蒙片和深度数据来推定对象物的高度信息。高度推定部也可以位于特征提取部31之后,基于与特征提取部31中提取的特征对应的关注区域和深度数据来推定对象物的高度信息。
<学习完毕模型30的生成>
学习完毕模型30通过基于包含拍到对象物的多个学习用图像的学习数据进行学习来生成。用于生成学习完毕模型30的学习可以由外部装置执行,也可以由机器人控制装置20执行。在本实施方式中,用于生成学习完毕模型30的学习设为由学习装置执行。学习装置可以包含外部装置或机器人控制装置20等。学习装置可以具备处理器、存储部或接口等。
作为学习用图像,可以使用实际的拍到对象物的图像。此外,作为学习用图像,可以使用合成图像。另外,所谓合成图像,例如是基于虚拟地对对象物的外观进行建模的数据而生成的图像。在本实施方式中,作为学习用图像,使用合成图像。
学习数据可以包含与学习用图像建立关联的注释数据。学习装置在生成视觉辨识度推定部33的情况下,取得对象物的整体像当中能在合成图像中看到的部分的比例,作为注释数据。学习装置可以基于合成图像中所含的对象物的像来算出对象物的整体像当中的能在合成图像中看到的部分的比例。学习装置可以将算出的比例作为注释数据与合成图像建立关联。
学习装置也可以基于合成图像中所含的对象物的像来推定对象物被其他物体挡住的部分,算出对象物的整体像当中的对象物被其他物体挡住的部分的比例。学习装置可以将算出的比例作为注释数据与合成图像建立关联。
由于对象物未收在合成图像的视角内,有时对象物的像在合成图像的端部看不全。学习装置也可以基于合成图像中所含的对象物的像来推定对象物从合成图像的视角超出的部分,算出对象物的整体像当中的对象物从合成图像的视角超出的部分的比例。学习装置可以将算出的比例作为注释数据与合成图像建立关联。另外,合成图像的视角与摄像机16的视角对应。
能通过生成视角比该合成图像宽的其他图像来确定对象物的像从合成图像的视角超出的部分。具体地,例如如图6所示那样,学习装置可以生成扩展成以虚线的矩形示出的范围51的基础合成图像,从基础合成图像取得在以一点划线的矩形示出的范围52裁出的摘录合成图像。基础合成图像例如设为是基于对象物的CAD(Computer Aided Design,计算机辅助涉及)数据等使用3DCG(3-Dimensional Computer Graphics,三维计算机图形)技术而建模的多个对象物在特定的范围51内随机重合的图像。假定为用摄像机16(虚拟摄像机53)拍摄在特定的范围51内扩展的多个对象物,摘录合成图像是以比特定的范围51窄的摄像机16的视角(范围52)从基础合成图像裁出多个对象物的一部分的图像。另外,基础合成图像例如具有摘录合成图像的约2~3倍的大小,具有将从摘录合成图像的视角超出的对象物全都收在视角内的大小。
具体地,生成图7例示的图像作为基础合成图像。此外,生成裁出被图7的B所示的一点划线的矩形的框包围的部分的图8例示的图像,作为摘录合成图像。在图7以及图8中,拍到作为工业部件的认识对象61~65。在图8中,认识对象61的整体的像含在摘录合成图像中。认识对象62的像包含:从摘录合成图像看不全的部分62A;和被其他物体挡住的部分62B。认识对象63的像包含:从摘录合成图像看不全的部分63A。认识对象64的像包含:从摘录合成图像看不全的部分64A;和被其他物体挡住的部分64B。认识对象65的像包含:从摘录合成图像看不全的部分65A。
学习装置能对认识对象63以及65从基于多个对象物的三维的建模数据渲染成多个对象物配置为与基础合成图像同样的各对象物的各第1蒙片图像取得认识对象63以及65的整体像的面积。此外,学习装置例如能根据各第1蒙片图像、和渲染成多个对象物配置成与摘录合成图像同样的各第2蒙片图像来算出从摘录合成图像看不全的部分63A以及65A的面积。具体地,首先,生成各对象物的各第1蒙片图像,以使得重现基础合成图像内的多个对象物的配置。这时生成的各对象物的各第1蒙片图像以没有看不全的状态生成。接下来,生成各对象物的各第2蒙片图像,以使得重现摘录合成图像内的多个对象物的配置。这时生成的各对象物的各第2蒙片图像以欠缺看不全的部分的状态生成。因此,学习装置通过算出各对象物的各第1蒙片图像以及各第2蒙片图像的面积,来对认识对象63以及65算出对象物的整体像当中的对象物从摘录合成图像的视角超出的部分的比例。具体地,学习装置可以基于各第1蒙片图像以及各第2蒙片图像,来算出摘录合成图像中拍到的对象物X1的一部分从摘录合成图像的视角超出的该对象物X1的面积、和基础合成图像中的对象物X1的面积,滨估算出对象物X1的整体像当中的从摘录合成图像看不全的对象物X1的一部分的比例。学习装置也可以反过来算出对象物X1的整体像当中的对象物X1并未从摘录合成图像看不全而在摘录合成图像中拍到的部分的比例。学习装置可以将算出的比例作为注释数据与认识对象62以及64建立关联。
学习装置对于认识对象62以及64,能与认识对象63以及65同样地算出从摘录合成图像看不全的部分62A以及64A的面积。此外,学习装置对于认识对象62以及64,例如可以从基于多个对象物的三维的建模数据渲染成多个对象物配置为与基础合成图像同样的各对象物的各第1蒙片图像以及渲染成多个对象物配置为与摘录合成图像同样的各对象物的各第2蒙片图像来推定被其他物体挡住的部分62B以及64B的面积。具体地,首先,生成各对象物的各第1蒙片图像,以使得重现基础合成图像内的多个对象物的配置。这时生成的各对象物的各第1蒙片图像作为未被其他物体挡住的图像而生成。接下来,生成各对象物的各第2蒙片图像,以使重现得摘录合成图像内的多个对象物的配置。这时生成的各对象物的各第2蒙片图像以欠缺与其他物体重叠的部分的状态生成。因此,学习装置通过算出并比较各对象物的各第1蒙片图像以及各第2蒙片图像的面积,能对认识对象62以及64算出对象物的整体像当中的对象物被其他物体挡住的部分的比例。因而,学习装置对于认识对象62以及64,可以推定对象物的整体像当中的对象物从摘录合成图像的视角超出的部分的比例和被其他物体挡住的部分的比例。学习装置可以将推定出的比例作为注释数据与认识对象62以及64建立关联。
学习装置能如上述那样,基于各第1蒙片图像以及各第2蒙片图像来算出摘录合成图像中认识对象62以及64的被其他物体挡住的部分62B以及64B的面积。具体地,学习装置可以基于各第1蒙片图像以及各第2蒙片图像,来算出基础合成图像中的对象物X2的面积、和摘录合成图像中将被其他物体当中的一部分从对象物X2除去的图像中的对象物X2的面积,算出对象物X2的整体像当中的对象物X2被其他物体挡住的部分的比例。学习装置也可以反过来算出对象物X2的整体像当中的对象物X2未被其他物体挡住而能看到的部分的比例。学习装置可以将算出的比例作为注释数据与认识对象62以及64建立关联。
通过基于多个对象物的三维的建模的数据算出被其他物体挡住的部分的面积,提高了对象物的整体像当中的对象物被其他物体挡住的部分的比例的算出精度。即,提高了注释数据的精度。通过提高注释数据的精度,提高了执行以注释数据为学习数据的学习而生成的学习完毕模型30的视觉辨识度的推定精度。
如以上述那样,例如,也可以通过基于基础合成图像以及摘录合成图像算出学习用图像中对象物被其他物体挡住的部分的比例、或从学习用图像看不全对象物的部分的比例,来生成注释数据。此外,通过将所生成的注释数据和摘录合成图像一起作为学习数据执行学习,提高了所生成的学习完毕模型30的视觉辨识度的推定精度。学习装置也可以算出对象物被其他物体挡住的部分的比例、以及对象物从学习用图像看不全的部分的比例这两方。
另外,在上述中,从基于多个对象物的三维的建模数据渲染成多个对象物配置为与基础合成图像同样的各对象物的各第1蒙片图像和渲染成多个对象物配置为与摘录合成图像同样的各对象物的各第2蒙片图像来算出对象物被其他物体挡住的部分或看不全的部分,但本公开并不限于此。即,例如,也可以不生成各第1蒙片图像,从渲染成多个对象物配置为与摘录合成图像同样的各对象物的各第2蒙片图像来算出对象物被其他物体挡住的部分或看不全的部分。在该情况下,也可以取代第1蒙片图像,基于多个对象物的三维的建模数据,来生成对象物以与摘录合成图像内的各对象物同样的姿态配置的情况的多个第3蒙片图像。在这时,第3蒙片图像生成物未被其他物体挡住且没有看不全的图像。然后,可以基于各第2蒙片图像以及各第3蒙片图像来算出对象物被其他物体挡住的部分或看不全的部分。
此外,在上述中,说明了生成图像并算出对象物被其他物体挡住的部分或看不全的部分的示例,但不一定非要生成图像数据。在该情况下,,也可以仅生成第2蒙片图像,取代第3蒙片图像,基于多个对象物的三维的建模数据进行对象物以与摘录合成图像内的各对象物同样的姿态配置的情况的仿真,作为仿真结果,算出未被其他物体挡住且没有看不全的对象物的面积。
此外,在上述中,各第2蒙片图像以欠缺对象物被其他物体挡住的部分或看不全的部分的状态生成。各第2蒙片图像也可以是并不欠缺对象物被其他物体挡住的部分或看不全的部分的状态。然后,可以基于各对象物的重复关系,通过仿真来算出欠缺的状态的各第2蒙片图像的面积。
学习装置中使用的图像可以具有基础合成图像或摘录合成图像、RGB图像或单色图像、以及蒙片图像。此外,学习装置可以基于对象物的像的像素数来算出对象物的整体像当中的对象物能在摘录合成图像中看到的部分的比例。
学习装置可以取得基于拍到对象物的图像生成的对象物的蒙片图像,作为学习用图像。此外,学习装置可以取得对象物的蒙片图像的范围相对于对象物的整体蒙片的范围的比例,作为注释数据。学习装置可以执行基于蒙片图像以及注释数据来生成学习完毕模型30的学习。
学习装置取得拍到对象物的图像和对象物的整体蒙片,基于拍到对象物的图像生成蒙片图像,算出蒙片图像相对于整体蒙片的面积的比例,作为注释数据。
另外,在上述中,说明了通过学习装置生成注释数据的示例,但注释数据还能通过学习完毕模型30的用户等来准备。即,可以针对图像中拍到的各个对象物,用户直接输入能看到的比例等。
学习装置在生成特征提取部31以及分类生成部34的情况下,取得表示学习用图像中拍到的对象物是什么的正解标签信息,作为注释数据。然后,能通过学习成将学习用图像输入到特征提取部31以及分类生成部34而得到的分类结果与正解标签信息一致,来生成特征提取部31以及分类生成部34。另外,蒙片生成部32判别具有特征提取部31中提取的特征的各个物体的外缘来生成蒙片即可。
学习装置在对生成精度推定部35进行生成的情况下,取得将从学习用图像中拍到的各对象物的建模数据提取的外形蒙片数据化的正解蒙片信息,作为注释数据。然后,通过学习成将学习用图像输入到特征提取部31以及蒙片生成部32而得到的蒙片与正解蒙片信息一致,能生成生成精度推定部35。
学习装置可以取得机器人10的作业对象8的图像,作为用作学习数据的对象物的图像。即,学习数据可以包含机器人10的作业对象8的图像作为对象物的图像。通过以作业对象8的图像为学习数据执行学习而生成的学习完毕模型30可以对机器人控制装置20输出作业对象8的蒙片以及视觉辨识度。机器人控制装置20可以基于从学习完毕模型30输出的作业对象8的蒙片以及视觉辨识度来控制机器人10。
<基于学习完毕模型30的输出的机器人控制装置20的动作例>
如上述那样,学习完毕模型30从蒙片生成部32输出蒙片,从视觉辨识度推定部33输出视觉辨识度评分。机器人控制装置20基于从学习完毕模型30输出的视觉辨识度评分来选择使机器人10保持的作业对象8。机器人控制装置20基于从学习完毕模型30输出的与所选择的作业对象8对应的蒙片,来决定用机器人10的手14保持作业对象8的位置或姿态。
成为视觉辨识度评分大的值的作业对象8位于比其他物体更靠跟前的可能性高。机器人控制装置20通过选择成为视觉辨识度评分大的值的作业对象8,能减少机器人10对作业对象8的保持的失败。
学习完毕模型30在具备分类生成部34的情况下,从分类生成部34输出分类评分。机器人控制装置20可以基于视觉辨识度评分和分类评分来选择使机器人10保持的作业对象8。机器人控制装置20可以基于视觉辨识度评分与分类评分的积,来选择所算出的值大的物体作为作业对象8。对某物体作为视觉辨识度评分与分类评分的积而算出的评分越高,该物体与其他物体的分类越良好,且该物体的全景当中能看到的部分越多。
学习完毕模型30在具备生成精度推定部35的情况下,从生成精度推定部35输出生成精度评分。机器人控制装置20可以基于视觉辨识度评分和生成精度评分来选择使机器人10保持的作业对象8。机器人控制装置20可以算出视觉辨识度评分与生成精度评分的积,选择所算出的值大的物体作为作业对象8。对某物体作为视觉辨识度评分与生成精度评分的积而算出的评分越高,该物体的认识越良好,且该物体的全景当中的能看到的部分越多。
机器人控制装置20可以基于视觉辨识度评分、分类评分和生成精度评分来选择使机器人10保持的作业对象8。机器人控制装置20可以算出视觉辨识度评分、分类评分与生成精度评分的积,选择所算出的值大的物体作为作业对象8。对某物体作为视觉辨识度评分、分类评分与生成精度评分的积而算出的评分越高,该物体与其他物体的分类越良好,该物体的认识越良好,且该物体的全景当中能看到的部分越多。
学习完毕模型30可以构成为分别分开输出视觉辨识度评分、分类评分和生成精度评分。学习完毕模型30可以构成为输出视觉辨识度评分、分类评分与生成精度评分的积。学习完毕模型30也可以构成为输出视觉辨识度评分与分类评分的积、或视觉辨识度评分与生成精度评分的积的至少一方。
另外,在学习完毕模型30输出视觉辨识度评分、分类评分以及生成精度评分等评价评分的情况下,机器人控制系统1可以进一步具备显示装置,使显示装置显示评价评分,作为确定作业对象的选择依据。评价评分可以分别针对图像中拍到的各作业对象8来进行显示。评价评分可以与拍到各作业对象8的图像重叠显示。此外,评价评分例如可以根据用户的输入而显示视觉辨识度评分、分类评分以及生成精度评分的任意1者,或则会,也可以显示加进视觉辨识度评分、分类评分以及生成精度评分当中的多个评分的综合评分。另外,显示装置并不限于综合评分,能显示机器人控制装置20、学习完毕模型30以及机器人控制系统1的各结构所输出的数据。显示装置也可以具有与显示设备同样的结构。
如以上叙述的那样,本公开的学习完毕模型30能判定物体的视觉辨识度,能使物体认识处理的性能或可靠性等提升。并且,具备学习完毕模型3的机器人控制装置20通过考虑物体的视觉辨识度来选择作业对象8,能减少机器人10对作业对象8的保持的失败。
(学习完毕模型30的生成方法的步骤例)
学习装置可以执行包含图9例示的流程的步骤的学习完毕模型30的生成方法。学习完毕模型30的生成方法可以实现为使构成学习装置的处理器执行的学习完毕模型30的生成程序。学习完毕模型30的生成程序可以存放于非临时性的计算机可读的介质。
学习装置取得学习用图像(步骤S1)。学习装置对于学习用图像中拍到的对象物取得为了生成学习完毕模型30所需的各注释数据(步骤S2)。学习装置通过执行利用了包含步骤S2中取得的注释数据和学习用图像的学习数据的学习,来生成学习完毕模型30(步骤S3)。学习装置在步骤S3的步骤的执行后结束图9的流程的步骤的执行。
(机器人控制方法的步骤例)
机器人控制装置20为了控制机器人10,可以执行图10例示的机器人控制方法。机器人控制方法可以实现为使构成机器人控制装置20的处理器执行的机器人控制程序。机器人控制程序可以存放于非临时性的计算机可读的介质。
机器人控制装置20取得拍到作业对象8的图像(步骤S11)。机器人控制装置20基于拍到作业对象8的图像来生成作业对象8的蒙片(步骤S12)。机器人控制装置20推定作业对象8的视觉辨识度(步骤S13)。机器人控制装置20推定作业对象8的分类度(步骤S14)。机器人控制装置20基于作业对象8的视觉辨识度来确定使机器人10的手14保持的作业对象8(步骤S15)。机器人控制装置20控制机器人10,以使得用机器人10的手14保持步骤S15的步骤中确定的确定作业对象(步骤S16)。机器人控制装置20在步骤S16的步骤的执行后结束图10的流程的步骤的执行。
(小结)
如以上叙述的那样,在本实施方式所涉及的机器人控制系统1中,机器人控制装置20从拍到多个作业对象8的图像算出考虑了多个作业对象8各自的视觉辨识度的评分。机器人控制装置20基于考虑了视觉辨识度的评分来选择确定作业对象,控制机器人10,以使得用机器人10的手14保持确定作业对象。通过基于考虑了视觉辨识度的评分来选择确定作业对象,机器人10的手14对作业对象8的保持的失败减少。即,对作业对象8算出的评分和作业对象8的保持的成功概率有相关。其结果,对作业对象8算出的评分的有用性提升。
(其他实施方式)
以下说明其他实施方式。
学习完毕模型30可以对作为作业对象8的不定形的多个物体进行物体认识。学习完毕模型30可以基于拍到不定形的多个物体的图像来推定各物体的视觉辨识度。其结果,例如还能选择性地使各机器人握持具有一定的视觉辨识度以及一定的面积的物体,例如还能检查或评价不定形的多个物体是否具有一定的面积。
学习完毕模型30可以生成不定形的各物体的多个蒙片。学习完毕模型30可以算出多个物体各自的多个蒙片当中的至少1个蒙片的像素数。推定部24如图11中作为图表所示那样,算出识别各蒙片或各物体的识别编号和各蒙片的像素数(像素数),并使显示设备或显示装置显示。在图11的图表中,纵轴表征k(千)单位的像素数。例如像素数为100的显示表征像素数是100000个(100k个)。横轴表示附在各蒙片或各物体的编号。由此,学习完毕模型30的用户能掌握物体认识或检查等的结果。
学习完毕模型30可以基于物体的视觉辨识度来算出能看到物体的整体像的情况的面积。例如,在物体的视觉辨识度为50%的情况下,蒙片的像素数的2倍相当于能看到物体的整体像的情况的面积。
学习完毕模型30可以将各蒙片的尺寸分类为小、中以及大这3个区分。蒙片的尺寸的区分的数量并不限于3个,也可以是2,还可以是4个以上。
如图12例示的那样,可以生成不定形的各物体或各物体的蒙片的尺寸的直方图,并使显示设备或显示装置显示。其结果,学习完毕模型30的用户能掌握物体认识或检查等的结果。
构成直方图的尺寸可以是基于物体的视觉辨识度而能看到物体的整体像的情况的推定面积,也可以是实际在图像中拍到的面积。此外,在基于在实际的图像中拍到的面积通过各物体的蒙片来生成直方图的情况下,重叠了其他物体的物体的蒙片的尺寸比不重叠其他物体而能看到整体的物体的蒙片的尺寸效。通过仅提取推定为不重叠其他物体而能看到整体的物体的蒙片的尺寸进行统计处理,能在统计上推定将位于重叠的下方的物体也包括在内的全部物体的尺寸的分布。
另外,除了上述以外,还能进行各种处理。例如,学习完毕模型30也可以在生成各物体的蒙片后,对各蒙片赋予基于视觉辨识度的高度而决定的顺位编号,并使显示设备或显示装置显示。其结果,学习完毕模型30的用户能掌握物体认识或检查等的结果。
以上说明了机器人控制系统1的实施方式,但作为本公开的实施方式,除了用于实施系统或装置的方法或程序以外,还能去作为记录程序的存储介质(作为一例,有光盘、光磁盘、CD-ROM、CD-R、CD-RW、磁带、硬盘或存储卡等)的实施方式。
此外,作为程序的实施方式,并不限定于通过编译器编译的目标码、通过注释器执行的程序代码等应用程序,也可以是装入操作系统的程序模块等形态。进而,程序也可以并不构成为仅在控制基板上的CPU中实施全部处理。程序也可以构成为由安装于根据需要附加在基板的扩展板或扩展组件的其他处理组件实施其一部分或全部。
基于诸附图以及实施例说明了本公开所涉及的实施方式,但希望留意的是,只要是本领域技术人员,就能基于本公开进行各种变形或改变。因此,希望留意的是,这些变形或改变含在本公开的范围中。例如,各结构部等中所含的功能等能重配置成逻辑上没有矛盾,能将多个结构部等组合成1体或进行分割。
关于本公开记载的构成要件的全部及/或公开的全部方法、或处理的全部步骤,除了这些特征相互排他的组合以外,能以任意的组合进行组合。此外,本公开记载的各个特征只要没有明示的否定,就能置换成为了相同的目的、同等的目的或类似的目的而起作用的代替的特征。因此,只要没有明示的否定,则公开的各个特征就只是总括的一系列相同或均等的特征的一例。
进而,本公开所涉及的实施方式并不限制在上述的实施方式任何具体的结构。本公开所涉及的实施方式能扩展到本公开记载的全部新的特征、或它们的组合、或所记载的全部新的方法、或处理的步骤、或它们的组合。
Claims (15)
1.一种机器人控制装置,具备:
取得部,取得拍到机器人的多个作业对象的图像;
推定部,基于所述图像来推定所述多个作业对象各自的视觉辨识度;和
作业对象确定部,基于所述视觉辨识度,来从所述多个作业对象中选择所述机器人的确定作业对象。
2.根据权利要求1所述的机器人控制装置,其中,
所述推定部能从所述图像推定所述多个作业对象各自的分类度,
所述作业对象确定部基于所述视觉辨识度以及所述分类度来选择所述确定作业对象。
3.根据权利要求1或2所述的机器人控制装置,其中,
所述推定部能从所述图像推定所述多个作业对象的高度信息,
所述作业对象确定部基于所述视觉辨识度以及所述高度信息来选择所述确定作业对象。
4.根据权利要求3所述的机器人控制装置,其中,
所述推定部基于所述图像中所含的所述多个作业对象各自的面积,来推定所述高度信息。
5.一种机器人控制系统,具备:
权利要求1~4中任一项所述的机器人控制装置;和
显示装置,
所述显示装置显示表示由所述机器人控制装置选择的所述确定作业对象的选择依据的评分。
6.一种学习完毕模型,具备:
特征提取部,基于拍摄多个对象物的图像来提取所述多个对象物各自的特征;
蒙片生成部,基于所述多个对象物各自的特征来生成分别表示所述多个对象物的多个蒙片;和
视觉辨识度推定部,基于所述多个蒙片来推定所述多个对象物各自的视觉辨识度。
7.根据权利要求6所述的学习完毕模型,其中,
所述学习完毕模型还具备:
分类生成部,基于所述特征来对所述多个对象物分别进行分类。
8.根据权利要求6或7所述的学习完毕模型,其中,
所述学习完毕模型还具备:
生成精度推定部,基于所述多个蒙片来推定所述多个蒙片各自的生成精度。
9.一种学习完毕模型的生成方法,
进行生成学习完毕模型的学习,该学习完毕模型基于包含拍到对象物的多个学习用图像的学习数据,针对推论用图像的输入来推定所述推论用图像中所拍到的物体的视觉辨识度。
10.根据权利要求9所述的学习完毕模型的生成方法,其中,
取得合成图像作为所述学习用图像,
取得所述对象物的整体像当中的能在所述合成图像中看到的部分的比例,作为注释数据,
基于所述合成图像以及所述注释数据,进行生成所述学习完毕模型的学习。
11.根据权利要求10所述的学习完毕模型的生成方法,其中,
基于所述对象物被其他物体挡住的部分的比例来算出所述注释数据。
12.根据权利要求10或11所述的学习完毕模型的生成方法,其中,
基于所述对象物从所述合成图像的视角超出的部分的比例来算出所述注释数据。
13.根据权利要求10~12中任一项所述的学习完毕模型的生成方法,其中,
基于所述对象物在所述合成图像中能看到的部分的像素数来算出所述注释数据。
14.根据权利要求9所述的学习完毕模型的生成方法,其中,
取得所述对象物的蒙片图像作为所述学习用图像,
取得所述对象物的蒙片图像的范围相对于所述对象物的正解的蒙片的范围的比例作为注释数据,
基于所述蒙片图像以及所述注释数据,进行生成所述学习完毕模型的学习。
15.根据权利要求9~14中任一项所述的学习完毕模型的生成方法,其中,
所述学习数据包含机器人的作业对象的图像作为所述对象物的图像,
所述学习完毕模型对基于所述作业对象的蒙片以及视觉辨识度来控制所述机器人的机器人控制装置输出所述作业对象的蒙片以及视觉辨识度。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310461786.6A CN118832569A (zh) | 2023-04-25 | 2023-04-25 | 机器人控制装置和系统、学习完毕模型及其生成方法 |
PCT/JP2024/015940 WO2024225276A1 (ja) | 2023-04-25 | 2024-04-23 | ロボット制御装置、ロボット制御システム、学習済みモデル、及び、学習済みモデルの生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310461786.6A CN118832569A (zh) | 2023-04-25 | 2023-04-25 | 机器人控制装置和系统、学习完毕模型及其生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118832569A true CN118832569A (zh) | 2024-10-25 |
Family
ID=93143180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310461786.6A Pending CN118832569A (zh) | 2023-04-25 | 2023-04-25 | 机器人控制装置和系统、学习完毕模型及其生成方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN118832569A (zh) |
WO (1) | WO2024225276A1 (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6542824B2 (ja) * | 2017-03-13 | 2019-07-10 | ファナック株式会社 | 入力画像から検出した対象物の像の尤度を計算する画像処理装置および画像処理方法 |
JP7171294B2 (ja) * | 2018-07-31 | 2022-11-15 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
US11314987B2 (en) * | 2018-11-23 | 2022-04-26 | X Development Llc | Domain adaptation using simulation to simulation transfer |
JP7377627B2 (ja) * | 2019-06-04 | 2023-11-10 | グローリー株式会社 | 物体検出装置、物体把持システム、物体検出方法及び物体検出プログラム |
US10954081B1 (en) * | 2019-10-25 | 2021-03-23 | Dexterity, Inc. | Coordinating multiple robots to meet workflow and avoid conflict |
US11273552B2 (en) * | 2020-07-14 | 2022-03-15 | Vicarious Fpc, Inc. | Method and system for object grasping |
-
2023
- 2023-04-25 CN CN202310461786.6A patent/CN118832569A/zh active Pending
-
2024
- 2024-04-23 WO PCT/JP2024/015940 patent/WO2024225276A1/ja unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024225276A1 (ja) | 2024-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11400598B2 (en) | Information processing apparatus, method, and robot system | |
JP7654447B2 (ja) | 2次元カメラによる3次元の姿勢推定 | |
Andrianakos et al. | An approach for monitoring the execution of human based assembly operations using machine learning | |
CN113450408A (zh) | 一种基于深度相机的非规则物体位姿估计方法及装置 | |
Sorokin et al. | People helping robots helping people: Crowdsourcing for grasping novel objects | |
CN115210049A (zh) | 取出系统以及方法 | |
JP7662381B2 (ja) | 深層学習及びベクトル場推定による特徴検出 | |
WO2023092519A1 (zh) | 抓取控制方法、装置、电子设备和存储介质 | |
CN116168387A (zh) | 用于物体检测的系统和方法 | |
JP7480001B2 (ja) | 学習装置、処理装置、学習方法、姿勢検出モデル、プログラム、及び記憶媒体 | |
JP2021081804A (ja) | 状態認識装置、状態認識方法及び状態認識プログラム | |
JP7178803B2 (ja) | 情報処理装置、情報処理装置の制御方法およびプログラム | |
JP2020077231A (ja) | 位置検出プログラム、位置検出方法及び位置検出装置 | |
CN118832569A (zh) | 机器人控制装置和系统、学习完毕模型及其生成方法 | |
US20230169324A1 (en) | Use synthetic dataset to train robotic depalletizing | |
Hasan et al. | 2D geometric object shapes detection and classification | |
CN116652974A (zh) | 用于控制机器人抓取对象的控制单元和方法 | |
CN117396927A (zh) | 训练模型生成装置、训练模型生成方法和识别装置 | |
TWI716926B (zh) | 物件姿態辨識方法及系統與電腦程式產品 | |
JP2022130227A (ja) | 設定方法、設定プログラム及び設定装置 | |
JP2021077177A (ja) | 動作認識装置、動作認識方法及び動作認識プログラム | |
US10379620B2 (en) | Finger model verification method and information processing apparatus | |
JP7684979B2 (ja) | 作業システム、機械学習装置、作業方法及び機械学習方法 | |
JP7678121B2 (ja) | 情報処理装置、ロボットコントローラ、ロボット制御システム、及び情報処理方法 | |
US20240131717A1 (en) | Robot operation system, robot operation method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |