[go: up one dir, main page]

CN112368724A - 学习装置、学习系统以及学习方法 - Google Patents

学习装置、学习系统以及学习方法 Download PDF

Info

Publication number
CN112368724A
CN112368724A CN201980043630.8A CN201980043630A CN112368724A CN 112368724 A CN112368724 A CN 112368724A CN 201980043630 A CN201980043630 A CN 201980043630A CN 112368724 A CN112368724 A CN 112368724A
Authority
CN
China
Prior art keywords
learning
candidates
label
candidate
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980043630.8A
Other languages
English (en)
Inventor
新崎诚
上田大介
松本裕一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of CN112368724A publication Critical patent/CN112368724A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • G06F18/41Interactive pattern learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/945User interactive design; Environments; Toolboxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

在生成用于图像识别的学习数据的过程中减轻对摄影图像赋予标签的人的负担。学习装置设为以下结构:具备执行生成学习数据的处理的处理器以及显示装置,其中,处理器从摄影装置获取摄影图像,获取基于识别模型针对该摄影图像中包含的对象物识别出的一个以上的物体的候选,将与物体的候选有关的信息作为对应的所述摄影图像的标签的候选显示于显示装置。

Description

学习装置、学习系统以及学习方法
技术领域
本公开涉及一种生成用于图像识别的学习数据的学习装置、学习系统以及学习方法。
背景技术
近年来,通过使用了深度学习(深层学习)等的机器学习,从摄像机的摄影图像等中识别出对象物的图像识别技术迅速地发展起来。在利用了机器学习的图像识别中,收集更多的以对象物(识别对象)为被摄体的摄影图像的数据来作为学习数据,通过使学习器对其进行学习,能够提高利用学习完毕模型识别未知的摄影图像中的对象物的精度。
在收集这样的学习数据的过程中产生花费工夫的作业,如为了详尽地收集包括对象物的图像的摄影图像,适当地设定多个摄影条件(包括摄像机设定、照明设定、对象物的配置等)来进行摄影。
因此,开发了一种用于简易地生成这种学习数据的技术,例如已知如下一种技术:学习数据生成装置具备:摄影处理单元,其一边变更至少包含与摄像机相对于被摄体的位置有关的信息的摄影条件,一边使在各摄影条件下生成的各物体摄影图像与包含表示摄影时的摄影条件的信息的摄影环境信息相关联;以及物体区域提取单元,其从各物体摄影图像中提取拍进了物体的区域即物体区域,其中,物体区域提取单元使用摄影条件与被设为物体区域的提取源的第一物体摄影图像不同的第二物体摄影图像,来从第一物体摄影图像中提取物体区域(参照专利文献1)。
现有技术文献
专利文献
专利文献1:日本特开2014-178957号公报
发明内容
发明要解决的问题
另外,在所谓的有监督学习中,需要对学习数据赋予正解标签,但在如上所述那样获取更多的摄影图像来作为学习数据的情况下,标签的输入要花费较长时间,给该作业者施加较大的负担。
然而,在如上述专利文献1所记载那样的现有技术中,虽然能够得到与对象物的朝向的变化相对应的摄影图像,但是没有考虑对这种摄影图像赋予标签的作业负担。
本公开是鉴于这样的现有技术的课题而提出的,其主要目的在于提供一种能够在生成用于图像识别的学习数据的过程中减轻对摄影图像赋予标签的人的负担的学习装置、学习系统以及学习方法。
用于解决问题的方案
本公开的学习装置根据由拍摄对象物的摄影装置生成的摄影图像来生成用于图像识别的学习数据,所述学习装置的特征在于,具备:处理器,其执行生成所述学习数据的处理;以及显示装置,其基于所述处理器的控制来显示信息,其中,所述处理器从所述摄影装置获取所述摄影图像,所述处理器获取基于识别模型针对所述摄影图像中包含的所述对象物识别出的一个以上的物体的候选,所述处理器将与所述物体的候选有关的信息作为对应的所述摄影图像的标签的候选显示于所述显示装置。
本公开的学习系统的特征在于,具备一个以上的所述学习装置和一个以上的所述摄影装置。
本公开的学习方法是由学习装置执行的学习方法,所述学习装置根据由拍摄对象物的摄影装置生成的摄影图像来生成用于图像识别的学习数据,所述学习方法的特征在于,从所述摄影装置获取所述摄影图像,获取基于识别模型针对所述摄影图像中包含的所述对象物识别出的一个以上的物体的候选,将与所述物体的候选有关的信息作为对应的所述摄影图像的标签的候选显示于显示装置。
发明的效果
根据本公开的学习装置、学习系统以及学习方法,能够在生成用于图像识别的学习数据的过程中减轻对摄影图像赋予标签的人的负担。
附图说明
图1是本公开的第一实施方式所涉及的学习系统的概要结构图。
图2是示出第一实施方式所涉及的摄影装置的结构例的说明图。
图3是示出第一实施方式所涉及的学习装置的硬件结构的说明图。
图4是示出第一实施方式所涉及的学习系统中的处理的流程的流程图。
图5是示出图4中的步骤ST101中的用户的操作画面的例子的说明图。
图6是示出在图4中的步骤ST204中计算出的得分的一例的说明图。
图7是示出图4中的步骤ST106中的用户的操作画面的例子的说明图。
图8是示出图4中的步骤ST107中的用户的操作画面的第一例的说明图。
图9是示出图4中的步骤ST107中的用户的操作画面的第二例的说明图。
图10是示出图4中的步骤ST107中的用户的操作画面的第三例的说明图。
图11是示出图4中的步骤ST107中的用户的操作画面的第四例的说明图。
图12是本公开的第二实施方式所涉及的学习系统的概要结构图。
具体实施方式
为了解决上述课题而完成的第1发明是一种学习装置,根据由拍摄对象物的摄影装置生成的摄影图像来生成用于图像识别的学习数据,所述学习装置的特征在于,具备:处理器,其执行生成所述学习数据的处理;以及显示装置,其基于所述处理器的控制来显示信息,其中,所述处理器从所述摄影装置获取所述摄影图像,所述处理器获取基于识别模型针对所述摄影图像中包含的所述对象物识别出的一个以上的物体的候选,所述处理器将与所述物体的候选有关的信息作为对应的所述摄影图像的标签的候选显示于所述显示装置。
由此,在生成用于图像识别的学习数据的过程中,将与基于规定的识别模型针对对象物识别出的一个以上的物体的候选有关的信息作为与对应的摄影图像有关的学习数据的标签的候选来进行显示,因此能够减轻对摄影图像赋予标签的人的负担。
另外,第2发明涉及所述学习装置,其特征在于,所述处理器将由用户选择出的所述标签的候选中的某一个作为对应的所述摄影图像的标签来赋予。
由此,由于将显示于显示装置且由用户选择出的标签的候选作为摄影图像的标签来赋予,因此能够更有效地减轻用户(赋予标签的人)对摄影图像赋予标签的负担。
另外,第3发明涉及所述学习装置,其特征在于,所述处理器将用于用户输入所述学习数据的标签的输入画面与所述标签的候选一起显示于所述显示装置。
由此,即使在显示装置中显示的标签的候选不恰当的情况下,也能够通过用户输入标签来赋予恰当的标签。
另外,第4发明涉及所述学习装置,其特征在于,在由所述用户在所述输入画面中输入了与所述标签的候选不同的标签的情况下,所述处理器将该标签的候选从基于所述识别模型针对所述对象物识别出的所述物体的候选中排除。
由此,能够避免不恰当的标签的候选被反复显示于显示装置。
另外,第5发明涉及所述学习装置,其特征在于,所述处理器从所述摄影装置获取同时从互不相同的方向拍摄所述对象物所得到的所述摄影图像的组,所述处理器分别获取基于识别模型针对所述摄影图像的组的各摄影图像中包含的所述对象物识别出的一个以上的物体的候选以及表示识别的准确度的得分,所述处理器基于各所述得分,将与各所述物体的候选有关的信息作为对应的所述摄影图像的标签的候选分别显示于所述显示装置。
由此,基于与从多个方向拍摄到的对象物有关的得分来决定标签的候选,因此能够基于从更合适的方向(即,更易于识别对象物的方向)拍摄到的摄影图像来决定恰当的标签的候选。
另外,第6发明涉及所述学习装置,其特征在于,所述处理器基于与各所述标签的候选相对应的所述得分来决定各该标签的候选在所述显示装置中的配置。
由此,用户能够基于各标签的候选在显示装置中的配置,来容易地识别出更合适的(即,表示识别的准确度的得分高的)标签候选。
另外,第7发明涉及所述学习装置,其特征在于,所述处理器从所述摄影装置获取从各不相同的方向拍摄所述对象物所得到的多个摄影图像,所述处理器按每个所述拍摄的方向,获取基于所述识别模型针对所述摄影图像中包含的对象物识别出的一个以上的所述候选,所述处理器按每个所述拍摄的方向,将与所述物体的候选有关的信息作为所述标签的候选显示于所述显示装置。
由此,学习装置能够按拍摄对象物的每个方向显示标签候选。因此,即使在特定的方向容易误识别对象物,也能够提出更加正确的标签候选。
另外,第8发明是一种学习系统,其特征在于,具备一个以上的上述第1~7发明中的任一发明所涉及的所述学习装置和一个以上的所述摄影装置。
由此,在生成用于图像识别的学习数据的过程中,将与基于规定的识别模型针对对象物识别出的一个以上的物体的候选有关的信息作为与对应的摄影图像有关的学习数据的标签的候选来进行显示,因此能够减轻对摄影图像赋予标签的人的负担。
另外,第9发明涉及所述学习系统,其特征在于,还具备计算所述得分的服务器装置,所述处理器获取由所述服务器装置计算出的所述得分。
由此,即使在学习系统内设置有多个学习装置的情况下,也能够通过将计算得分的处理集中于服务器装置,来提高系统整体的效率。
另外,第10发明涉及一种由学习装置执行的学习方法,所述学习装置根据由拍摄对象物的摄影装置生成的摄影图像来生成用于图像识别的学习数据,所述学习方法的特征在于,从所述摄影装置获取所述摄影图像,获取基于识别模型针对所述摄影图像中包含的所述对象物识别出的一个以上的物体的候选,将与所述物体的候选有关的信息作为对应的所述摄影图像的标签的候选显示于显示装置。
另外,第11发明涉及所述学习方法,其特征在于,将由用户选择出的所述标签的候选中的某一个作为对应的所述摄影图像的标签来赋予。
另外,第12发明涉及所述学习方法,其特征在于,将用于用户输入所述学习数据的标签的输入画面与所述标签的候选一起显示于所述显示装置。
另外,第13发明涉及所述学习方法,其特征在于,在由所述用户在所述输入画面中输入了与所述标签的候选不同的标签的情况下,将该标签的候选从基于所述识别模型针对所述对象物识别出的所述物体的候选中排除。
另外,第14发明涉及所述学习方法,其特征在于,从所述摄影装置获取同时从互不相同的方向拍摄所述对象物所得到的所述摄影图像的组,分别获取基于识别模型针对所述摄影图像的组的各摄影图像中包含的所述对象物识别出的一个以上的物体的候选以及表示识别的准确度的得分,基于各所述得分,将与各所述物体的候选有关的信息作为对应的所述摄影图像的标签的候选分别显示于所述显示装置。
另外,第15发明涉及所述学习方法,其特征在于,基于与各所述标签的候选相对应的所述得分来决定各该标签的候选在所述显示装置中的配置。
另外,第16发明涉及所述学习方法,其特征在于,从所述摄影装置获取从各不相同的方向拍摄所述对象物所得到的多个摄影图像,按每个所述拍摄的方向,获取基于所述识别模型针对所述摄影图像中包含的对象物识别出的一个以上的所述候选,按每个所述拍摄的方向,将与所述物体的候选有关的信息作为所述标签的候选显示于所述显示装置。
以下,参照附图来说明本公开的实施方式。
(第一实施方式)
图1是本公开的第一实施方式所涉及的学习系统1的概要结构图。
学习系统1主要具备:用于用户拍摄对象物的多个摄影装置2;多个学习装置3,所述多个学习装置3执行根据由对应的摄影装置2生成的摄影图像来生成用于图像识别的学习数据的处理(以下称为“学习数据生成处理”。);以及服务器装置4,其执行基于识别模型来识别由摄影装置2生成的摄影图像中包含的对象物的处理(以下称为“对象物识别处理”。)。
此外,图1示出的多个摄影装置2具有相同的结构,因此以下只要没有特别需要,则不对它们加以区分地进行说明。另外,对于多个学习装置3也同样。
摄影装置2具有能够同时从互不相同的方向拍摄对象物的多个摄像机5A-5C。设置不同方向的摄像机的理由是为了全面地捕捉对象物外观的特征,即使对象物的姿势改变也能够准确地实施识别。摄像机5A-5C是各自具有公知的摄影功能的摄像机,生成以对象物6(参照图2)为被摄体的摄影图像(运动图像或静止图像)。另外,摄影装置2具有公知的通信功能,将所生成的摄影图像依次发送到学习装置3。摄影装置2能够通过公知的通信线缆或无线通信直接连接于学习装置3,但不限于此,也可以经由公知的通信网络10(LAN、因特网等)连接于学习装置3。
此外,由摄影装置2拍摄的对象物不限定于本公开所示的对象物,是能够成为图像识别的对象的任意的物体。另外,作为由摄像机5A-5C生成的摄影图像,只要能够用于图像识别(对象物的识别),则能够采用任意的形式,例如也可以是,摄像机5A-5C具备RGB-D传感器,由此生成RGB图像和距离图像作为摄影图像。另外,在本公开中,与各个学习装置3对应地配置了摄影装置2,但不限于此,也可以是,一个摄影装置2为多个学习装置3生成摄影图像。
在学习装置3中,图像获取部11依次获取由摄影装置2生成的摄影图像。另外,物体识别信息获取部12获取由服务器装置4根据所得到的摄影图像识别出的一个以上的物体的候选以及与其对应的得分(表示基于规定的识别模型的识别的准确度的评价值)。在本实施方式中,物体识别信息获取部12通过向服务器装置4发送摄影图像,来获取作为由服务器装置4进行的对象物识别处理的结果而得到的一个以上的物体的候选以及与其对应的得分。另外,标签候选设定部13基于所得到的得分,将与一个以上的物体的候选有关的信息(例如,物体的名称)作为对应的摄影图像的标签的候选显示于显示部14。
另外,学习装置3还具备:存储部22,其存储学习数据生成处理中使用的各种信息、数据;以及输入部23,其用于用户(例如摄影者)对学习装置3进行输入操作。此外,显示部14除了显示上述的标签的候选以外,还能够适当显示与学习数据生成处理有关的用户所需要的信息。
服务器装置4具备:图像获取部24,其依次获取从学习装置3发送出的摄影图像;存储部26,其存储用于图像识别(对未知物体的识别)的识别模型(学习完毕模型)25;以及图像识别部27,其利用识别模型25将摄影图像中的对象物识别为未知物体。图像识别部27能够通过公知的方法来利用识别模型25进行物体的识别。
此外,作为识别模型25,能够使用通过基于学习数据的学习得到的学习完毕模型,该学习数据包含从多个学习装置3得到的摄影图像。另外,学习系统1还能够设为以下结构:学习装置3的物体识别信息获取部12提取摄影图像中包含的对象物(前景区域)的特征量,将提取出的该特征量的信息发送到服务器装置4。在该情况下,服务器装置4的图像识别部27能够基于来自学习装置3的特征量的信息来利用识别模型25进行物体的识别。
图2是示出图1所示的摄影装置2的结构例的说明图。
摄影装置2具有:大致平板状的基座部31,其被载置在地面或桌子上面等;大致平板状的第一臂部32,其从基座部31的一端侧沿大致铅垂方向延伸;大致平板状的第二臂部33,其从第一臂部32的上端朝向基座部31的另一端侧向斜上方延伸;以及第三臂部34,其从第二臂部33的上端朝向基座部31的另一端侧大致水平地延伸。此外,在图2中,虽然省略了图示,但摄影装置2具备内置电池(或电源线缆)、用于与学习装置3进行通信的无线通信部(或通信线缆)等。
基座部31具有被设置成绕铅垂方向的轴旋转自如的旋转台41。用户将对象物(这里是饮料容器)6配置在旋转台41上,在该状态下使旋转台41旋转期望的旋转角度,由此能够变更对象物6相对于摄像机5A-5C的方向(即,对象物6相对于摄像机5A-5C的配置)。
在第三臂部34的下表面侧配置有俯视摄像机5A。俯视摄像机5A的摄影方向朝向下方的旋转台41,能够拍摄与对象物6的俯视图大致相当的摄影图像46。
另外,在第二臂部33的下表面侧(内表面侧)配置有立体摄像机5B。摄像机5B的摄影方向朝向斜下方的旋转台41,能够拍摄与从对象物6的上侧观察到的立体图大致相当的摄影图像47。
另外,在第一臂部32的内表面侧(基座部31的另一端侧)配置有侧视摄像机5C。摄像机5C的摄影方向朝向大致水平方向(旋转台41的上方),能够拍摄与对象物6的侧视图大致相当的摄影图像48。
此外,摄影装置2的结构(例如,摄像机的数量、摄影方向)不限于图2所示的结构,能够进行各种变更。摄影装置2只要是具有至少一个摄像机的装置即可。
图3是示出图1所示的学习装置3的硬件结构的说明图。
学习装置3由具有公知的硬件结构的计算机构成,具有处理器51、RAM 52、ROM 53、存储装置54、显示装置55、输入装置56以及通信模块57等,其中,处理器51基于规定的控制程序来统一执行学习数据的收集处理(根据需要包括物体识别处理),RAM 52是作为该处理器51的工作区域等发挥功能的易失性存储器,ROM 53是用于存储由处理器51执行的控制程序、数据的非易失性存储器,存储装置54由HDD、快闪存储器等构成,显示装置55由液晶监视器等构成,输入装置56由键盘、鼠标以及触摸面板等输入设备构成,通信模块57用于执行与其它装置的通信。
图1所示的学习装置3中的显示部14、存储部22以及输入部23的功能能够分别通过图2所示的显示装置55、存储装置54以及输入装置56来实现。另外,学习装置3中的图像获取部11、物体识别信息获取部12以及标签候选设定部13的功能的至少一部分能够通过由处理器51执行控制程序来实现。此外,学习装置3未必需要限定于图3所示的结构,也可以由通过其它公知的硬件进行的处理来代替图1所示的学习装置3的功能的至少一部分。
此外,关于服务器装置4的硬件结构,省略说明,但服务器装置4能够由具有与上述学习装置3相同的公知的结构的计算机构成。在该情况下,存储部26能够通过与存储装置54相同的装置来实现,另外,图像获取部24和图像识别部27的功能的至少一部分能够通过由处理器执行控制程序来实现。
图4是示出学习系统1中的处理(学习装置3的学习数据生成处理、服务器装置4的对象物识别处理)的流程的流程图,图5是示出图4中的步骤ST101中的用户的操作画面的例子的说明图,图6是示出在图4中的步骤ST204中计算出的得分的一例的说明图,图7是示出图4中的步骤ST106中的用户的操作画面的例子的说明图,图8-图11分别是示出图4中的步骤ST107中的用户的操作画面的第一例至第四例的说明图。
如图4所示,当用户利用摄影装置2执行拍摄对象物的操作时(ST101:“是”),学习装置3从摄影装置2获取包含该摄影图像及其关联信息(摄像机5A-5C的摄影条件等)的摄影数据(ST102)。此外,在本公开中,通过各摄像机5A-5C获取多个(三个)摄影数据(摄影图像),但在学习系统1中,只要得到至少一个摄影图像即可。
在上述步骤ST101中,在显示装置55中显示例如图5所示的摄影画面61。用户能够通过在摄影画面61中点击(按下)摄影按钮62,来利用摄像机5A-5C执行摄影。另外,用户能够通过操作摄像机选择按钮63(按下摄像机1-3中的任一个摄像机的按钮),来将图像显示区域64中正在显示的摄影图像变更为对应的摄像机5A-5C中的某一个摄像机的摄影图像。
接着,学习装置3将从摄影装置2获取到的摄影图像发送到服务器装置4(ST103)。此外,在步骤ST103中,还能够如上所述那样构成为将由学习装置3提取出的对象物的特征量的信息发送到服务器装置4。
服务器装置4当从学习装置3接收到摄影图像时(ST201:“是”),提取摄影图像的前景区域来作为物体(对象物)(ST202),从该前景区域提取特征量(ST203)。此时,服务器装置4能够基于例如HOG(Histograms of Oriented Gradients:方向梯度直方图)、SURF(Speeded-Up Robust Features:加速稳健特征)等方法、使用了深度学习的方法来提取特征量。并且,服务器装置4通过利用识别模型25进行物体的识别,来基于识别模型25计算所识别出的物体的候选以及表示该识别的准确度的得分(ST204)。
在上述步骤ST204中,服务器装置4计算出例如图6所示的识别出的物体的候选(在此为识别模型25所使用的标签)以及与其对应的得分来作为物体的识别结果。在此,得分是例如在0~100的范围内设定的值,值越高,则表示识别的准确度越高。如果是表示识别的准确度的高低的值,则也可以是其它范围的值。
之后,服务器装置4向学习装置3发送与步骤ST204中的物体的识别结果有关的信息(包含识别出的物体的候选(标签)以及得分)(ST205)。
学习装置3当从服务器装置4接收到与物体的识别结果有关的信息时(ST104:“是”),针对该识别结果中包含的得分,判定是否存在预先设定的阈值以上的值的得分(即,识别的准确度高的物体的候选)(ST105)。
在步骤ST105中不存在阈值以上的值的得分的情况下(“否”),学习装置3执行用于使用户输入与摄影图像对应的标签(学习数据的标签)的处理(ST106)。
在上述步骤ST106中,学习装置3例如图7所示那样在摄影画面61中显示用于用户输入标签的输入画面71。用户能够在输入画面71中输入与摄影图像(即对象物)对应的标签(在此为“物体a”)。这样,即使在所显示的标签的候选不恰当的情况下,也能够通过用户输入标签来赋予恰当的标签。
另一方面,在步骤ST105中针对一个以上的物体的候选存在阈值以上的值的得分的情况下(“是”),学习装置3将具有阈值以上的值的得分的物体的候选作为标签的候选显示于显示装置55(ST107)。因此,当显示装置55中显示的标签的候选(任一个)得到用户的认可(ST108:“是”)时,学习装置3自动输入该物体的候选来作为与摄影图像对应的标签(作为学习数据的标签进行记录)(ST109)。在步骤ST108中,用户能够通过例如操作输入装置56来选择(即,认可)显示装置55中显示的物体的候选之一。这样,由用户选择出的标签的候选被作为摄影图像的标签赋予,因此能够有效地减轻用户(赋予标签的人)对摄影图像赋予标签的负担。
另外,在步骤ST108中没有得到用户的认可的情况下(“否”),与上述的情况同样地,学习装置3执行使用户输入与摄影图像对应的标签的处理(ST106)。此时,在由用户输入了与显示装置55中显示的标签的候选不同的标签的情况下,学习装置3能够向服务器装置4发送用于将未得到用户的认可的标签的候选从在下次以后服务器装置4要识别的物体的候选中排除(删除对应的数据)的命令。
在上述步骤ST107中,学习装置3能够在摄影画面61中显示例如图8所示的识别结果画面75。在图8中示出了将具有最高得分的一个物体的候选(物体a)与其图像一起显示的例子。用户在判断为物体a相当于对象物的情况下,能够按下登记按钮77来作为与上述步骤ST108有关的认可的操作。另外,用户在判断为物体a不相当于对象物的情况下,能够在识别结果画面75显示的标签输入栏78中输入与摄影图像(即,对象物)对应的标签(在此为物体a以外的物体的名称)来作为与上述步骤ST106有关的操作。
另外,作为另一例,在上述步骤ST107中,学习装置3能够在摄影画面61中显示例如图9所示的识别结果画面75。在图9中示出了以下例子:将具有阈值以上的值的得分的多个物体的候选(物体a、c、g)与它们的图像一同从上起按得分从高到低的顺序依次配置。用户在判断为物体a、c、g中的某一个相当于对象物的情况下,能够在识别结果画面75中选择(点击)相应的一个物体的图像之后按下登记按钮77来作为与上述步骤ST108有关的认可的操作。另外,用户在判断为物体a、c、g均不相当于对象物的情况下,能够在识别结果画面75显示的标签输入栏78中输入与摄影图像(即,对象物)对应的标签(在此为物体a、c、g以外的物体的名称)来作为与上述步骤ST106有关的操作。
另外,作为另一例,在上述步骤ST107中,学习装置3能够显示例如图10所示的识别结果画面75。在图10中示出以下例子:关于各摄像机5A-5C的摄影图像(对象物),将具有阈值以上的值的得分的多个物体的候选(物体m、c、x)与它们的图像一同从左起按得分从高到低的顺序依次配置。用户在判断为物体m、c、x中的某一个相当于对象物的情况下,能够在识别结果画面75中选择(点击)相应的一个物体的图像之后按下登记按钮77来作为与上述步骤ST108有关的认可的操作。另外,用户在判断为物体m、c、x均不相当于对象物的情况下,能够在识别结果画面75显示的标签输入栏78中输入与摄影图像(即,对象物)对应的标签(在此为物体m、c、x以外的物体的名称)来作为与上述步骤ST106有关的操作。
此外,在本实施方式中,摄影装置2以固定的朝向具备各摄像机5A-5C,但还能够通过使一个摄像机为可动式来得到同样的摄影图像。即,图10中记载的按每个摄像机显示候选的例子是按每个拍摄的方向显示候选的一例。通过这样设置,即使在学习在特定的方向容易发生误识别的对象物的情况下,也能够显示从其它方向看到的候选,因此能够提出更正确的标签的可能性提高。
另外,作为另一例,在上述步骤ST107中,学习装置3能够显示例如图11所示的识别结果画面75。在图11中示出以下例子:将与具有阈值以上的值的得分的物体a对应的摄影图像作为比较对象并将该摄影图像同该物体a及其图像一起配置。用户在判断为物体a相当于摄影图像中包含的对象物的情况下,能够按下登记按钮77来作为与上述步骤ST108有关的认可的操作。另外,用户在判断为物体a不相当于对象物的情况下,能够在识别结果画面75显示的标签输入栏78中输入与摄影图像(即,对象物)对应的标签(在此为物体a以外的物体的名称)来作为与上述步骤ST106有关的操作。
这样,在学习系统1中,在生成用于图像识别的学习数据的过程中,将与基于规定的识别模型针对对象物6识别出的一个以上的物体的候选有关的信息作为与对应的摄影图像有关的学习数据的标签的候选显示于显示装置55,因此能够减轻对摄影图像赋予标签的人的负担。
此外,在本实施方式中,将由服务器装置4识别出的物体的候选及得分发送到学习装置3,由学习装置3判定是否存在得分为阈值以上的候选,但不限于此。也可以是,由服务器装置4判定是否存在得分为阈值以上的候选,且仅将得分为阈值以上的候选发送到学习装置3。在该情况下,如果在服务器装置4中对候选进行甄选,则也可以不向学习装置3发送得分。
(第二实施方式)
图12是本公开的第二实施方式所涉及的学习系统1的概要结构图。在图12中,对与图1所示的构成要素相同的构成要素标注相同的附图标记。另外,关于第二实施方式所涉及的学习系统1,将以下没有特别提及的事项设为与上述的第一实施方式的情况相同。
在上述的第一实施方式中,示出了服务器装置4执行对象物识别处理的例子,但在第二实施方式中,学习装置3具备图像识别部27以及用于存储识别模型(学习完毕模型)25的存储部26,由此学习装置3能够代替服务器装置4来执行对象物识别处理。
根据这样的结构,在第二实施方式所涉及的学习系统1中,仅由学习装置3就能够完成学习数据生成处理。
以上,基于特定的实施方式说明了本公开,但这些实施方式只是例示,本公开并不限定于这些实施方式。另外,上述实施方式中示出的本公开所涉及的学习装置、学习系统以及学习方法未必全部是必须的,如果是本领域的技术人员,则只要至少不脱离本公开的范围,能够适当地进行选择取舍。
在上述的实施方式中,作为识别模型25,使用了通过基于学习数据的学习得到的学习完毕模型,该学习数据包含从多个学习装置3得到的摄影图像,但不限于此。为了防备在多个学习装置3之间无法共享学习结果等情况,也可以准备预先准备的标准的学习完毕模型来用作识别模型25。
产业上的可利用性
本公开所涉及的学习装置、学习系统以及学习方法能够在生成用于图像识别的学习数据的过程中减轻对摄影图像赋予标签的人的负担,作为生成用于图像识别的学习数据的学习数据收集装置、学习数据收集系统以及学习数据收集方法等是有用的。
附图标记说明
1:学习系统;1-3:摄像机;2:摄影装置;3:学习装置;4:服务器装置;5A-5C:摄像机;6:对象物;10:通信网络;11:图像获取部;12:物体识别信息获取部;13:标签候选设定部;24:图像获取部;25:识别模型;26:存储部;27:图像识别部;41:旋转台;46-48:摄影图像;51:处理器;54:存储装置;55:显示装置;56:输入装置;57:通信模块;61:摄影画面;62:摄影按钮;63:摄像机选择按钮;64:图像显示区域;71:输入画面;75:识别结果画面;77:登记按钮;78:标签输入栏。

Claims (16)

1.一种学习装置,根据由拍摄对象物的摄影装置生成的摄影图像来生成用于图像识别的学习数据,所述学习装置的特征在于,具备:
处理器,其执行生成所述学习数据的处理;以及
显示装置,其基于所述处理器的控制来显示信息,
其中,所述处理器从所述摄影装置获取所述摄影图像,
所述处理器获取基于识别模型针对所述摄影图像中包含的所述对象物识别出的一个以上的物体的候选,
所述处理器将与所述物体的候选有关的信息作为对应的所述摄影图像的标签的候选显示于所述显示装置。
2.根据权利要求1所述的学习装置,其特征在于,
所述处理器将由用户选择出的所述标签的候选中的某一个作为对应的所述摄影图像的标签来赋予。
3.根据权利要求1所述的学习装置,其特征在于,
所述处理器将用于用户输入所述学习数据的标签的输入画面与所述标签的候选一起显示于所述显示装置。
4.根据权利要求3所述的学习装置,其特征在于,
在由所述用户在所述输入画面中输入了与所述标签的候选不同的标签的情况下,所述处理器将该标签的候选从基于所述识别模型针对所述对象物识别出的所述物体的候选中排除。
5.根据权利要求1至4中的任一项所述的学习装置,其特征在于,
所述处理器从所述摄影装置获取同时从互不相同的方向拍摄所述对象物所得到的所述摄影图像的组,
所述处理器分别获取基于识别模型针对所述摄影图像的组的各摄影图像中包含的所述对象物识别出的一个以上的物体的候选以及表示识别的准确度的得分,
所述处理器基于各所述得分,将与各所述物体的候选有关的信息作为对应的所述摄影图像的标签的候选分别显示于所述显示装置。
6.根据权利要求5所述的学习装置,其特征在于,
所述处理器基于与各所述标签的候选相对应的所述得分来决定各该标签的候选在所述显示装置中的配置。
7.根据权利要求1所述的学习装置,其特征在于,
所述处理器从所述摄影装置获取从各不相同的方向拍摄所述对象物所得到的多个摄影图像,
所述处理器按每个所述拍摄的方向,获取基于所述识别模型针对所述摄影图像中包含的对象物识别出的一个以上的所述候选,
所述处理器按每个所述拍摄的方向,将与所述物体的候选有关的信息作为所述标签的候选显示于所述显示装置。
8.一种学习系统,其特征在于,具备一个以上的根据权利要求1至7中的任一项所述的所述学习装置以及一个以上的所述摄影装置。
9.根据权利要求8所述的学习系统,其特征在于,
还具备服务器装置,所述服务器装置针对基于所述识别模型识别出的一个以上的物体,计算表示识别的准确度的得分,
所述处理器获取由所述服务器装置计算出的所述得分。
10.一种学习方法,是由学习装置执行的学习方法,所述学习装置根据由拍摄对象物的摄影装置生成的摄影图像来生成用于图像识别的学习数据,所述学习方法的特征在于,
从所述摄影装置获取所述摄影图像,
获取基于识别模型针对所述摄影图像中包含的所述对象物识别出的一个以上的物体的候选,
将与所述物体的候选有关的信息作为对应的所述摄影图像的标签的候选显示于显示装置。
11.根据权利要求10所述的学习方法,其特征在于,
将由用户选择出的所述标签的候选中的某一个作为对应的所述摄影图像的标签来赋予。
12.根据权利要求10所述的学习方法,其特征在于,
将用于用户输入所述学习数据的标签的输入画面与所述标签的候选一起显示于所述显示装置。
13.根据权利要求12所述的学习方法,其特征在于,
在由所述用户在所述输入画面中输入了与所述标签的候选不同的标签的情况下,将该标签的候选从基于所述识别模型针对所述对象物识别出的所述物体的候选中排除。
14.根据权利要求10至13中的任一项所述的学习方法,其特征在于,
从所述摄影装置获取同时从互不相同的方向拍摄所述对象物所得到的所述摄影图像的组,
分别获取基于识别模型针对所述摄影图像的组的各摄影图像中包含的所述对象物识别出的一个以上的物体的候选以及表示识别的准确度的得分,
基于各所述得分,将与各所述物体的候选有关的信息作为对应的所述摄影图像的标签的候选分别显示于所述显示装置。
15.根据权利要求14所述的学习方法,其特征在于,
基于与各所述标签的候选相对应的所述得分来决定各该标签的候选在所述显示装置中的配置。
16.根据权利要求10所述的学习方法,其特征在于,
从所述摄影装置获取从各不相同的方向拍摄所述对象物所得到的多个摄影图像,
按每个所述拍摄的方向,获取基于所述识别模型针对所述摄影图像中包含的对象物识别出的一个以上的所述候选,
按每个所述拍摄的方向,将与所述物体的候选有关的信息作为所述标签的候选显示于所述显示装置。
CN201980043630.8A 2018-07-02 2019-04-23 学习装置、学习系统以及学习方法 Pending CN112368724A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018-126400 2018-07-02
JP2018126400A JP7308421B2 (ja) 2018-07-02 2018-07-02 学習装置、学習システム、及び学習方法
PCT/JP2019/017237 WO2020008711A1 (ja) 2018-07-02 2019-04-23 学習装置、学習システム、及び学習方法

Publications (1)

Publication Number Publication Date
CN112368724A true CN112368724A (zh) 2021-02-12

Family

ID=69060632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980043630.8A Pending CN112368724A (zh) 2018-07-02 2019-04-23 学习装置、学习系统以及学习方法

Country Status (5)

Country Link
US (1) US11436439B2 (zh)
EP (1) EP3819865A4 (zh)
JP (1) JP7308421B2 (zh)
CN (1) CN112368724A (zh)
WO (1) WO2020008711A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7367382B2 (ja) * 2019-08-21 2023-10-24 ブラザー工業株式会社 プログラム
WO2021176584A1 (ja) * 2020-03-04 2021-09-10 三菱電機株式会社 ラベリング装置及び学習装置
US20230061026A1 (en) * 2020-03-13 2023-03-02 Nec Corporation Training data generation device, training data generation method, and programrecording medium
WO2022209836A1 (ja) * 2021-04-01 2022-10-06 富士フイルム株式会社 学習データ生成装置、学習データ生成方法及びプログラム、及び学習装置
JP7650002B2 (ja) 2022-03-30 2025-03-24 パナソニックIpマネジメント株式会社 判定システム、判定方法及びプログラム

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001045471A (ja) * 1999-07-30 2001-02-16 Toshiba Corp 居所管理装置
US20090232403A1 (en) * 2005-06-15 2009-09-17 Matsushita Electric Industrial Co., Ltd. Object detecting apparatus and learning apparatus for the same
JP2010518505A (ja) * 2007-02-08 2010-05-27 オラワークス・インコーポレイテッド 人物画像にタグ情報を付加する方法
JP2011059810A (ja) * 2009-09-07 2011-03-24 Nippon Soken Inc 画像認識システム
US20140164413A1 (en) * 2011-07-29 2014-06-12 Panasonic Corporation Feature value extraction apparatus and feature value extraction method
US20150131897A1 (en) * 2013-11-13 2015-05-14 Thomas Tsao Method and Apparatus for Building Surface Representations of 3D Objects from Stereo Images
US20160132731A1 (en) * 2013-06-28 2016-05-12 Nec Corporation Video surveillance system, video processing apparatus, video processing method, and video processing program
US20170249766A1 (en) * 2016-02-25 2017-08-31 Fanuc Corporation Image processing device for displaying object detected from input picture image
CN108197658A (zh) * 2018-01-11 2018-06-22 阿里巴巴集团控股有限公司 图像标注信息处理方法、装置、服务器及系统
US20180181885A1 (en) * 2016-12-22 2018-06-28 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4132229B2 (ja) * 1998-06-03 2008-08-13 株式会社ルネサステクノロジ 欠陥分類方法
JP2014178957A (ja) 2013-03-15 2014-09-25 Nec Corp 学習データ生成装置、学習データ作成システム、方法およびプログラム
JP5988225B2 (ja) * 2015-02-25 2016-09-07 パナソニックIpマネジメント株式会社 モニタリング装置およびモニタリング方法
JP6489005B2 (ja) * 2015-12-18 2019-03-27 キヤノンマーケティングジャパン株式会社 情報処理システム、情報処理方法、プログラム
JP6442746B2 (ja) * 2015-12-24 2018-12-26 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001045471A (ja) * 1999-07-30 2001-02-16 Toshiba Corp 居所管理装置
US20090232403A1 (en) * 2005-06-15 2009-09-17 Matsushita Electric Industrial Co., Ltd. Object detecting apparatus and learning apparatus for the same
JP2010518505A (ja) * 2007-02-08 2010-05-27 オラワークス・インコーポレイテッド 人物画像にタグ情報を付加する方法
JP2011059810A (ja) * 2009-09-07 2011-03-24 Nippon Soken Inc 画像認識システム
US20140164413A1 (en) * 2011-07-29 2014-06-12 Panasonic Corporation Feature value extraction apparatus and feature value extraction method
US20160132731A1 (en) * 2013-06-28 2016-05-12 Nec Corporation Video surveillance system, video processing apparatus, video processing method, and video processing program
US20150131897A1 (en) * 2013-11-13 2015-05-14 Thomas Tsao Method and Apparatus for Building Surface Representations of 3D Objects from Stereo Images
US20170249766A1 (en) * 2016-02-25 2017-08-31 Fanuc Corporation Image processing device for displaying object detected from input picture image
US20180181885A1 (en) * 2016-12-22 2018-06-28 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium
CN108197658A (zh) * 2018-01-11 2018-06-22 阿里巴巴集团控股有限公司 图像标注信息处理方法、装置、服务器及系统

Also Published As

Publication number Publication date
WO2020008711A1 (ja) 2020-01-09
EP3819865A1 (en) 2021-05-12
US11436439B2 (en) 2022-09-06
JP7308421B2 (ja) 2023-07-14
JP2020008905A (ja) 2020-01-16
US20210158101A1 (en) 2021-05-27
EP3819865A4 (en) 2021-08-25

Similar Documents

Publication Publication Date Title
CN112368724A (zh) 学习装置、学习系统以及学习方法
GB2529943B (en) Tracking processing device and tracking processing system provided with same, and tracking processing method
JP6428266B2 (ja) 色補正装置、色補正方法および色補正用プログラム
CN112334943A (zh) 学习数据收集装置、学习数据收集系统以及学习数据收集方法
JP5799817B2 (ja) 指位置検出装置、指位置検出方法及び指位置検出用コンピュータプログラム
CN111062404A (zh) 自动建立物件辨识模型的方法
JP2017194787A (ja) 画像処理装置および領域追跡プログラム
US11989928B2 (en) Image processing system
JP2006146323A (ja) 顔特徴照合装置、顔特徴照合方法、及びプログラム
JP7036401B2 (ja) 学習用サーバ、不足学習用画像収集支援システム、及び不足学習用画像推定プログラム
JP2017162218A (ja) 管理プログラム、管理装置および管理方法
TW201448585A (zh) 利用行動電話及雲端可視化搜尋引擎之即時物體掃描
JP6567638B2 (ja) 鼻紋照合システム、鼻紋照合方法及び鼻紋照合プログラム
US20240282096A1 (en) Interactive user feedback system to enhance inspection accuracy of automated visual inspection system
CN104966060A (zh) 一种运动物体的目标识别方法和装置
JPH09181953A (ja) 自動追尾装置
CN114972303A (zh) 图像获取方法、装置、电子设备及存储介质
JP2013156909A (ja) 形状モデル生成装置及び作業前後対応画像判定システム
CN114268771A (zh) 视频查看方法、移动终端及计算机可读存储介质
JPWO2021229717A5 (zh)
JP6712861B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2021051022A (ja) 建物構造物診断システム
JP5626444B2 (ja) 撮像装置、プログラム及び撮像支援方法
JP5445648B2 (ja) 画像表示装置、画像表示方法、およびそのプログラム。
KR20250016798A (ko) 다중 카메라 영상에서의 재식별 모델 학습을 위한 어노테이션 검수방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210212