[go: up one dir, main page]

WO2021106686A1 - モデル作成装置及びモデル作成方法 - Google Patents

モデル作成装置及びモデル作成方法 Download PDF

Info

Publication number
WO2021106686A1
WO2021106686A1 PCT/JP2020/042830 JP2020042830W WO2021106686A1 WO 2021106686 A1 WO2021106686 A1 WO 2021106686A1 JP 2020042830 W JP2020042830 W JP 2020042830W WO 2021106686 A1 WO2021106686 A1 WO 2021106686A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
image
posture
registered
creation device
Prior art date
Application number
PCT/JP2020/042830
Other languages
English (en)
French (fr)
Inventor
泰樹 矢野
宣隆 木村
亮 坂井
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to CN202080059275.6A priority Critical patent/CN114303173B/zh
Priority to US17/642,615 priority patent/US12154294B2/en
Publication of WO2021106686A1 publication Critical patent/WO2021106686A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • G06T17/205Re-meshing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/529Depth or shape recovery from texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2021Shape modification

Definitions

  • the present invention relates to a model creation device and a model creation method.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 8-233556
  • the image pickup means 1, the first image storage means 3 in which the subject image from a predetermined viewpoint position captured by the image pickup means 1 is stored, and the viewpoint position closest to the captured subject image are used.
  • a three-dimensional shape model storage means 2 that generates an object image based on a standard three-dimensional shape model, a second image storage means 4 that stores the generated object image, and each image storage means. It has a difference extracting means 5 for extracting a difference between a subject image and an object image, and a shape model modifying means for modifying a standard three-dimensional shape model based on the extracted difference.
  • a typical shape model of a subject A standard three-dimensional shape model is modified based on the difference between the subject image and the object image to restore the subject shape model.
  • one aspect of the present invention is to create a model of a registration target object that reflects local information of the registration target object that affects recognition performance with a small amount of data and processing.
  • a model creation device that creates a model showing the shape of an object to be registered, which includes a processor and a memory, and the memory is an image of one or more postures of the object to be registered and a reference model showing the shape of the reference object. And, the processor acquires information indicating the characteristics of the first posture of the object to be registered, and the shape of the first posture shown by the reference model is not similar based on a predetermined first condition.
  • a model creation device that modifies the reference model based on the information indicating the feature and creates a model showing the shape of the object to be registered.
  • a model of a registration target object that reflects local information of the registration target object that affects recognition performance can be created with a small amount of data and processing.
  • FIG. 1 It is a block diagram which shows the functional structure example of the model making apparatus in Example 1.
  • FIG. It is a block diagram which shows the hardware configuration example of the model making apparatus in Example 1.
  • FIG. This is an example of an imaging system that captures an image of the object 20 to be registered provided in the model creation device according to the first embodiment.
  • It is a flowchart which shows an example of the model creation process which creates the 3D model of the object to be registered in Example 1.
  • FIG. It is a flowchart which shows an example of 3D model correction processing in Example 1.
  • FIG. It is explanatory drawing which shows the specific example of the process which determines whether or not the 3D model is modified in Example 1.
  • FIG. It is explanatory drawing which shows the detailed example of the 3D model correction processing in Example 1.
  • FIG. 1 is a block diagram showing a functional configuration example of the model creation device.
  • the model creation device 100 creates a model showing the shape of the newly registered object to be registered by using the model showing the shape of the registered reference object.
  • a 3D (three-dimensional) model capable of showing the shape of an object using vertices and a mesh (face) is an example of the model.
  • an example of expressing the shape of an object mainly using a 3D model will be described, but other models such as a 2D model may be used.
  • the model may show not only the shape of the object but also a pattern, a viewpoint, and the like.
  • the model creation device 100 includes, for example, an image acquisition unit 111, a recognition unit 112, a recognition result comparison unit 113, a model correction unit 114, and an output unit 115.
  • the image acquisition unit 111 acquires an image of the object to be registered.
  • the recognition unit 112 outputs the posture of the object by inputting the image of the object into the feature extractor described later.
  • the recognition result comparison unit 113 inputs the image of the object to be registered into the feature extractor and determines whether the posture obtained is the correct posture.
  • the model correction unit 114 modifies the 3D model of the reference object to create a 3D model of the object to be registered.
  • the output unit 115 outputs information about images of the reference object and the object to be registered, information about the posture output by the feature extractor, information about the created 3D model, and the like.
  • the model creation device 100 holds the image data 131 and the model data 132.
  • the image data 131 is data in which an image of one or more postures of one or more reference objects and an image of one or more postures of a newly registered object acquired by the image acquisition unit 111 are associated with the posture.
  • An image of one or more postures of the reference object is included in the image data 131 in advance.
  • the model data 132 includes a 3D model showing the shape of the reference object and a 3D model showing the shape of the registered object created by the model creation device 100.
  • the 3D model showing the shape of the reference object is included in the model data 132 in advance before the model creation process is executed. Further, in the model data 132, an object corresponding to each 3D model and a category to which the object belongs are defined.
  • the model data 132 has a feature extractor corresponding to the reference object for each reference object.
  • the features of the image are extracted, the posture of the object in the image is estimated based on the extracted features, and the estimated posture is output.
  • the feature extractor can also output the extracted features.
  • the feature extractor corresponding to each reference object is created by learning the image of the reference object.
  • the model data 132 may include a feature extractor that can be commonly used for all reference objects, and the feature extractor may include a feature extraction corresponding to each reference object. It may be used in place of the vessel.
  • the feature extractor which can be applied to all reference objects in common, further extracts the features of the image when an image of one or more postures of the object is input, and which reference object is the object of the image. It may be possible to output a result indicating whether or not it corresponds to (furthermore, it may be possible to output a result that does not correspond to any reference object).
  • the model data 132 is not limited to the feature extractor that uses such a posture recognition method, but is a feature extractor created from the learning data obtained by learning the image of the reference object, and when the image is input. It may have an arbitrary feature extractor capable of outputting the posture.
  • the feature extractor extracts the features of the image when the image is input and estimates the posture based on the extracted features, but when the image is input, the features of the image are It may be separated into a feature extractor that only extracts and a posture estimator that estimates the posture by inputting the feature from the feature extractor.
  • FIG. 2 is a block diagram showing a hardware configuration example of the model creation device 100.
  • the model creation device 100 has, for example, a processor 110, a memory 120, an auxiliary storage device 130, an input device 140, an output device 150, and a communication IF (Interface) 160, which are connected by an internal communication line 170 such as a bus. It is composed of a computer.
  • the processor 110 executes a program stored in the memory 120.
  • the memory 120 includes a ROM (Read Only Memory) which is a non-volatile storage element and a RAM (Random Access Memory) which is a volatile storage element.
  • the ROM stores an invariant program (for example, BIOS (Basic Input / Output System)) and the like.
  • BIOS Basic Input / Output System
  • the RAM is a high-speed and volatile storage element such as a DRAM (Dynamic Random Access Memory), and temporarily stores a program executed by the processor 110 and data used when the program is executed.
  • the auxiliary storage device 130 is a large-capacity, non-volatile storage device such as a magnetic storage device (HDD (Hard Disk Drive)) or a flash memory (SSD (Solid State Drive)), and includes a program executed by the processor 110 and a non-volatile storage device. Stores data used when running a program. That is, the program is read from the auxiliary storage device 130, loaded into the memory 120, and executed by the processor 110.
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • the input device 140 is a device such as a keyboard or a mouse that receives input from an operator.
  • the output device 150 is a device such as a display device or a printer that outputs a program execution result in a format that can be visually recognized by an operator.
  • the communication IF160 is a network interface device that controls communication with other devices according to a predetermined protocol.
  • the program executed by the processor 110 is provided to the model creation device 100 via removable media (CD-ROM, flash memory, etc.) or a network, and is stored in the non-volatile auxiliary storage device 130, which is a non-temporary storage medium. .. Therefore, the model creation device 100 may have an interface for reading data from removable media.
  • the model creation device 100 is a computer system configured on one computer physically or on a plurality of computers configured logically or physically, and operates in separate threads on the same computer. It may operate on a virtual computer built on a plurality of physical computer resources.
  • the model creation device 100 is not a single computer, but a teaching object registration device which is a computer for registering a teaching object and a recognition method for recognizing an object, and an object teaching using a set recognition method. It may be divided into a determination device which is a computer for determining whether or not it is an object.
  • the processor 110 has, for example, an image acquisition unit 111, a recognition unit 112, a recognition result comparison unit 113, a model correction unit 114, and an output unit 115, which are the above-mentioned functional units, respectively.
  • the processor 110 functions as the image acquisition unit 111 by operating according to the image acquisition program loaded in the memory 120, and functions as the recognition unit 112 by operating according to the recognition program loaded in the memory 120.
  • the relationship between the program and the functional unit is the same for the other functional units included in the processor 110.
  • processor 110 may be realized by hardware such as ASIC (Application Specific Integrated Circuit) or FPGA (Field-Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable Gate Array
  • the auxiliary storage device 130 holds, for example, the image data 131 and the model data 132 described above. A part or all of the information stored in the auxiliary storage device 130 may be stored in the memory 120, or may be stored in an external database or the like connected to the model creation device 100. ..
  • the information used by the model creation device 100 may be represented by any data structure regardless of the data structure.
  • the information is expressed in a table format, but for example, a data structure appropriately selected from a list, a database, or a queue can store the information.
  • FIG. 3 is an example of an imaging system that captures an image of the registration target object 20 provided in the model creation device 100.
  • the imaging system includes, for example, a camera 10, a turntable 30, and a terminal 200.
  • the camera 10 images the object 20 to be registered.
  • an arm 11 is attached to the camera 10, and by operating the arm 11, the camera 10 can take an image from various positions and angles.
  • the posture of an object represents the angle of the object as seen from the camera 10, and is determined by the relative positional relationship between the object and the camera.
  • the object 20 to be registered is mounted on the turntable 30.
  • the camera 10 can image the object 20 to be registered in various postures.
  • the terminal 200 is a computer connected to the camera 10.
  • the terminal 200 controls imaging by the camera 10 and the operation of the arm 11.
  • the terminal 200 acquires an image of the object to be registered 20 captured by the camera 10.
  • the camera 10 can capture images of a plurality of postures of the object 20 to be registered.
  • the terminal 200 is connected to the model creation device 100, transmits the acquired image of the object to be registered 20 to the model creation device 100, and the image acquisition unit 111 of the model creation device 100 The received image is saved in the image data 131.
  • the terminal 200 may control the camera 10, the arm 11, and the turntable 30 according to the instruction from the image acquisition unit 111 of the model creation device 100.
  • model creation device 100 and the terminal 200 may be integrated. Further, the camera 10 may be built in the model creation device 100, and in this case, imaging is performed according to the instruction of the image acquisition unit 111.
  • a plurality of cameras 10 installed on a spherical surface (or a hemispherical surface or the like) centered on the registration target object 20 may have a plurality of postures of the registration target object 20. You may take an image of. Further, the camera 10 fixed to the robot hand or the like instead of the arm 11 may capture images of a plurality of postures of the object to be registered 20 by the operation of the robot hand or the like.
  • FIG. 4 is a flowchart showing an example of a model creation process for creating a 3D model of the object 20 to be registered.
  • the image acquisition unit 111 acquires images of one or more postures of the object 20 to be registered and posture information (S41).
  • the model creation device 100 executes the processes of steps S43 to S45 for the images of each posture (S42).
  • the recognition unit 112 acquires a feature extractor that recognizes the posture of the reference object from the model data 132, inputs an image of the posture of the object to be registered into the feature extractor, and outputs the posture to recognize the posture. (S43).
  • the feature extractor selected by the user may be used, or corresponds to a reference object having the closest feature to the object to be registered (for example, a reference object having the smallest square distance between feature quantities).
  • a feature extractor may be used. However, the feature extractor used in step S43 performed a plurality of times is the same.
  • the model data 132 includes a feature extractor that can be commonly used for all the reference objects, the feature extractor may be used in step S43.
  • the recognition result comparison unit 113 determines whether or not the posture of the object to be registered and the posture recognized in step S43 are the same (whether the recognition is successful or the recognition is unsuccessful) (S44).
  • the recognition result comparison unit 113 determines that the posture of the object to be registered and the posture recognized in step S43 are the same (S44: YES)
  • the recognition result comparison unit 113 returns to step S42, and steps S43 to step S43 for the next posture.
  • the process of S45 is executed. However, when the processing for all postures is completed, the model creation processing is terminated.
  • the model correction unit 114 uses the 3D model of a reference object as model data.
  • a 3D model of the object to be registered is created by acquiring from 132 and modifying the acquired 3D model (S45). Details of step S45 will be described later.
  • FIG. 5 is a flowchart showing an example of the 3D model modification process in step S45.
  • the model correction unit 114 determines whether the 3D model correction process for creating the 3D model of the registration target object is the first 3D model correction process (that is, the process of the first step S45 for the registration target object). Whether or not) is determined (S51). When the model correction unit 114 determines that the 3D model correction process is the second or subsequent 3D model correction process (S51: NO), the model correction unit 114 proceeds to step S54, which will be described later.
  • the model correction unit 114 determines that the 3D model correction process is the first 3D model correction process (S51: YES)
  • the model correction unit 114 acquires the 3D model from the model data 132 (S52).
  • the model correction unit 114 acquires, for example, a 3D model of the reference object selected by the user of the model creation device 100 from the model data 132.
  • the model correction unit 114 acquires a 3D model of all the reference objects belonging to the category from the model data 132, and obtains an average model of the acquired model. It may be a 3D model acquired in step S52.
  • the model correction unit 114 registers the copy of the 3D model acquired in step S52 in the model data 132 as the 3D model of the object to be registered (S53).
  • the model correction unit 114 corrects the 3D model of the registration target object based on the image of the posture of the registration target object (S54). The details of the method of modifying the 3D model will be described later.
  • the model correction unit 114 overwrites the model data 132 with the modified 3D model as the 3D model of the object to be registered and registers it (S55), and ends the 3D model modification process.
  • FIG. 6 is an explanatory diagram showing a specific example of the process of determining whether or not the 3D model has been modified.
  • the posture ⁇ 1 of the reference object A is input to the feature extractor A created by learning the image of the reference object A
  • the posture ⁇ 1 is output.
  • the posture ⁇ 2 of the reference object A is input to the feature extractor A.
  • FIG. 7 is an explanatory diagram showing a detailed example of the 3D model modification process in step S35.
  • the image of the object to be registered is RGB
  • the local region 71 of the image of the posture ⁇ 1 of the object to be registered and the local region 72 corresponding to the local region 71 of the 3D model are not similar (for example, the local region 71). It is a state in which it is determined that the similarity between the feature amount and the local region 72 is equal to or less than a predetermined value (for example, the distance is equal to or greater than a predetermined value).
  • the model correction unit 114 increases the number of surfaces by adding the vertices 73 to the local region 72 of the 3D model. The model correction unit 114 moves the added vertices 73 to make the local region 72 similar to or coincide with the local region 71.
  • the model correction unit 114 corrects the different regions into similar or matching regions by refining the meshes of the different regions in the 3D model. Note that the model correction unit 114 may delete the vertices of the local region 72 and then move other vertices according to the difference between the local region 72 and the local region 71, or may move a certain vertex of the local region 72. You can just move it.
  • the mesh can be generated by automatically changing the number of vertices and the topology of the mesh using a neural network. it can.
  • the image acquisition unit 111 captures an image in more detail in the vicinity of the local region 72 of the reference object (for example).
  • An image having a higher resolution or an enlarged image) may be acquired, and the model modification unit 114 may further modify the 3D model in step S55 by using the acquired image, and then refine the mesh as described above.
  • the model correction unit 114 refines the mesh with respect to the average model in the same manner as in the above method.
  • the average model can be modified.
  • the model correction unit 114 may acquire an image of a reference object of the same category from the image data 131 in step S52, construct a 3D model from the average image which is the average of the acquired images, and use this as the average model. Good.
  • the model correction unit 114 has the posture in which the recognition failed in step S44 among the images of each posture of the reference object.
  • a 3D model of the object to be registered may be created by reconstructing the 3D model using the image group in which the image is replaced with the image of the object to be registered.
  • the model correction unit 114 integrates the mesh obtained by meshing the imaging point cloud obtained from the image with the 3D model acquired in step S52. By doing so, the 3D model is modified. Further, if the image of the reference object is also an RGB-Dept image, the model correction unit 114 obtains an imaging point group obtained from the image of the posture of the reference object corresponding to the 3D model from the image of the object to be registered. The 3D model may be modified by replacing it with a group of imaging points.
  • the model creation device 100 modifies the 2D model of the reference object and modifies the 2D model of the object to be registered. May be created.
  • the model correction unit 114 registers an image of the posture (viewpoint) of the 2D model.
  • the 2D model is modified by replacing it with an image of the posture of the target object.
  • the 2D model is a 2D model composed of one image of the reference object
  • the 2D model is modified by replacing the image with the image of the object to be registered.
  • the model correction unit 114 is a 2D model created by the 2D model acquired in step S52 and copied in step S53 from local features such as edges in the image of the reference object and SIFT (Scale Invariant Features Transfer).
  • the 2D model is modified by acquiring the local feature from the image of the posture (viewpoint) of the 2D model and replacing the local feature of the 2D model with the acquired local feature.
  • the 2D model is a 2D model composed of one image of the reference object
  • the 2D model is modified by replacing the local feature of the image with the local feature of the object to be registered.
  • the model correction unit 114 estimates, for example, the silhouette of the object to be registered from the image, and corrects the 2D model by any of the above methods.
  • the model creation device 100 of this embodiment creates a 3D model of the object to be registered by modifying the 3D model of the reference object only for the portion that affects the recognition performance by the feature extractor.
  • a 3D model that reflects the local information of the object to be registered that affects the recognition performance can be created with a small amount of data and processing amount.
  • FIG. 8 is an explanatory diagram showing a specific example of the process of determining whether or not the 3D model has been modified.
  • the posture ⁇ 1 of the registration target object B when the image of the posture ⁇ 1 of the registration target object B is input to the feature extractor A, the posture ⁇ 1 is output, but the image of the posture ⁇ 2 of the registration target object B is When input to the feature extractor A, the posture ⁇ 3 is output. That is, for the posture ⁇ 1 of the registration target object B, the correction processing of the 3D model in step S45 is unnecessary, but for the posture ⁇ 2 of the registration target object B, a different posture ⁇ 3 is output, so that the 3D model in step S45 Correction processing is required.
  • the recognition unit 112 determines that the local region 81 of the reference object obtained by the feature extractor and the local region 82 of the reference object are not similar (for example, the similarity of the feature amounts is equal to or less than a predetermined value). It shall be.
  • the model correction unit 114 captures in more detail the vicinity of the local region 82 in the posture determined that the model of the object to be registered needs to be corrected with respect to the image acquisition unit 111 (for example, more). Instruct to acquire a high resolution image or a magnified image).
  • the image acquisition unit 111 instructs the terminal 200 to capture the image, and acquires the image from the terminal 200.
  • the model correction unit 114 corrects the model in step S54 by using the acquired image information.
  • the model correction unit 114 corrects the 3D model based on the image in the vicinity of the local region (difference region) that is not similar to the reference object of the registration target object. You can create a 3D model that reflects the details.
  • FIG. 9 is an explanatory diagram showing a specific example of the process of determining whether or not the 3D model has been modified. Similar to the example of FIG. 8, when the image of the posture ⁇ 1 of the registration target object B is input to the feature extractor A, the posture ⁇ 1 is output, but the image of the posture ⁇ 2 of the registration target object B is the feature extractor A. When input to, the posture ⁇ 3 is output. That is, for the posture ⁇ 1 of the registration target object B, the correction processing of the 3D model in step S45 is unnecessary, but for the posture ⁇ 2 of the registration target object B, a different posture ⁇ 3 is output, so that the 3D model in step S45 Correction processing is required.
  • the recognition unit 112 determines that the local region 81 of the reference object obtained by the feature extractor and the local region 82 of the reference object are not similar (for example, the similarity of the feature amounts is equal to or less than a predetermined value). It shall be.
  • the output unit 115 outputs the local area designation screen 90 to the output device 150.
  • the local area designation screen 90 includes, for example, an object image display area 91, a local area change button 92, a save button 93, and a cancel button 94.
  • an image of the posture ⁇ 2 of the object to be registered (that is, an input image when an incorrect posture is output) and a display showing the local area (ellipse of the dotted line in the figure) are displayed. ..
  • the local area designation screen 90 is displayed in place of or in addition to the image of the posture ⁇ 2 of the object to be registered, for example, by an instruction from the user.
  • An image of the posture ⁇ 2 of the reference object (that is, an image of the posture of the reference object to be output correctly) may be displayed.
  • the local area change button 92 is a button for changing the range of the local area. For example, when the local area change button 92 is selected, the display showing the local area on the local area designation screen 90 can be changed by the input of the user.
  • the save button 93 is a button for saving the changed local area. When the save button 93 is selected, the model correction unit 114 corrects the model in step S54 using the image information of the changed local region.
  • the cancel button 94 is a button for terminating without changing the local area.
  • the model correction unit 114 corrects the model in step S54 using the image information of the local region before the change.
  • the model correction unit 114 captures in more detail the vicinity of the local area determined by the local area designation screen 90 in the posture determined that the model of the object to be registered needs to be corrected with respect to the image acquisition unit 111. It is instructed to acquire the image (for example, a higher resolution image or a magnified image). For example, the image acquisition unit 111 instructs the terminal 200 to capture the image, and acquires the image from the terminal 200. The model correction unit 114 corrects the model in step S54 by using the acquired image information.
  • the model correction unit 114 modifies the 3D model based on the image in the vicinity of the local region (difference region) selected by the user, it is recognized by the registration reference object, particularly the feature extractor. It is possible to create a 3D model that reflects the details of difficult difference areas.
  • FIG. 10 is an explanatory diagram showing an example of the 3D model selection process in step S52.
  • the model correction unit 114 acquires images of a registration target object and a plurality of reference objects (for example, a plurality of reference objects selected by the user, or all reference objects) from the image data 131, and uses the acquired images as the plurality of reference objects. Input to the corresponding feature extractor.
  • the model correction unit 114 may acquire an image of a certain posture (one or a plurality of the same postures) of the registration target object and the plurality of reference objects and input the image to the feature extractor, or the registration target object and the plurality of reference objects. Images of all postures of the reference object may be acquired and input to the feature extractor.
  • the model correction unit 114 calculates the degree of similarity with the object to be registered for each of the plurality of reference objects based on the features extracted by the feature extractor.
  • the cosine similarity and the squared distance between the features are examples of the similarity calculated by the model correction unit 114.
  • the model correction unit 114 determines that the calculated reference object having the highest degree of similarity is a similar object, and acquires a 3D model of the similar object from the model data 132.
  • the model correction unit 114 Assuming that the reference object A is a similar object, a 3D model of the reference object A is acquired from the model data 132.
  • the model correction unit 114 selects the 3D model of the reference object having a high degree of similarity to the object to be registered, an appropriate 3D model can be selected as the correction target, and eventually the 3D model is corrected. There is a high possibility that the amount of processing required for
  • FIG. 11 is an explanatory diagram showing an example of the 3D model selection process in step S52.
  • the model correction unit 114 calculates the similarity with the registration target object for each of the plurality of reference objects.
  • the model correction unit 114 determines that all the calculated similarities are equal to or less than a predetermined threshold value, in step S52, the model correction process is stopped without selecting the model, and the 3D model of the object to be registered is displayed. Create a new one.
  • the threshold value of the similarity is 0.5
  • the similarity between the registration target object B and the reference object A is 0.4, which is lower than the threshold value
  • the similarity between the registration target object B and the reference object X Since the degree is 0.3, which is below the threshold value, the model correction unit 114 newly creates a 3D model of the object B to be registered without selecting the 3D model of the reference object.
  • the model modification unit 114 selects an inappropriate 3D model to be modified in order to create a new 3D model of the object to be registered when there is no reference object having a high degree of similarity to the object to be registered. There is nothing to do. Further, if the model modification unit 114 selects a 3D model of a reference object having a high degree of similarity to the object to be registered, if the 3D model is modified to create a 3D model of the object to be registered, the processing amount is rather increased. There is a risk that the number of images will increase and the recognition performance will be insufficient. The model correction unit 114 can suppress the occurrence of such a situation by performing the process shown in FIG.
  • This embodiment shows another example of the model creation process.
  • the model creation device 100 of this embodiment modifies the feature extractor according to the recognition result of the object to be registered.
  • FIG. 12 is a flowchart showing an example of the model creation process of this embodiment.
  • the recognition result comparison unit 113 recognizes when it is determined that the posture of the object to be registered and the posture recognized in step S43 are the same (S44: YES) or after the model correction process in step S45 is completed.
  • Unit 112 modifies the feature extractor based on the image of the object to be registered (S46).
  • S46 modifies the feature extractor based on the image of the object to be registered
  • FIG. 13 is an explanatory diagram showing an example of the correction process of the feature extractor. Similar to the example of FIG. 8, when the image of the posture ⁇ 1 of the registration target object B is input to the feature extractor A, the posture ⁇ 1 is output, but the image of the posture ⁇ 2 of the registration target object B is the feature extractor A. When input to, the posture ⁇ 3 is output.
  • the recognition unit 112 acquires an image of the posture ⁇ 2 of the registration target object from the image data 131 (that is, an image of the registration target object having a posture that should be correctly output from the feature extractor), and the acquired image and the posture ⁇ 2.
  • the feature extractor A is additionally trained in association with the above, and the feature extractor A in the model data 132 is overwritten.
  • the recognition unit 112 can learn the image of the posture with low recognition accuracy at high speed in the feature extractor of the object to be registered.
  • the recognition unit 112 causes the attitude estimator to perform the above-mentioned additional learning, and further, the image of the attitude ⁇ 2 of the object to be registered (that is, from the attitude estimator).
  • the feature extractor is additionally trained to additionally learn the image of the object to be registered in the posture to be output correctly), and the feature extractor in the model data 132 is overwritten.
  • the recognition unit 112 performs a process of outputting the posture of the registration target object in step S52 by using the overwritten feature extractor A.
  • the posture is estimated using the feature extractor A that reflects the characteristics of the previously registered object, so that the amount of processing for model creation processing for the registered object having characteristics close to those of the previously registered object is reduced. ..
  • the image acquisition unit 111 is asked to determine the posture ⁇ 2 of the object to be registered. Instruct to get a number of images. For example, the image acquisition unit 111 instructs the terminal 200 to capture an image of the predetermined number of objects to be registered, and acquires an image of the predetermined number of objects to be registered from the terminal 200.
  • FIG. 14 is an explanatory diagram showing an example of the correction process of the feature extractor. Similar to the example of FIG. 8, when the image of the posture ⁇ 1 of the registration target object B is input to the feature extractor A, the posture ⁇ 1 is output, but the image of the posture ⁇ 2 of the registration target object B is the feature extractor A. When input to, the posture ⁇ 3 is output.
  • the recognition unit 112 acquires an image of the posture ⁇ 3 of the registration target object from the image data 131 (that is, an image of the registration target object having a posture erroneously output from the feature extractor), and the acquired image and the posture ⁇ 3.
  • the feature extractor A is additionally trained in association with the above, and the feature extractor A in the model data 132 is overwritten.
  • the recognition unit 112 can learn the image of the posture with low recognition accuracy at high speed in the feature extractor of the object to be registered.
  • the recognition unit 112 causes the attitude estimator to perform the above-mentioned additional learning, and further, the image of the attitude ⁇ 3 of the object to be registered (that is, from the feature extractor).
  • the feature extractor is additionally trained to additionally learn the image of the object to be registered in the posture that is erroneously output, and the feature extractor in the model data 132 is overwritten.
  • the recognition unit 112 performs a process of outputting the posture of the registration target object in step S52 by using the overwritten feature extractor A.
  • the posture is estimated using the feature extractor A that reflects the characteristics of the previously registered object, so that the amount of processing for model creation processing for the registered object having characteristics close to those of the previously registered object is reduced. ..
  • the image acquisition unit 111 is asked to determine the posture ⁇ 3 of the object to be registered. Instruct to get a number of images. For example, the image acquisition unit 111 instructs the terminal 200 to capture an image of the predetermined number of objects to be registered, and acquires an image of the predetermined number of objects to be registered from the terminal 200.
  • the recognition unit 112 has an image of the posture ⁇ 2 of the registration target object (that is, an image of the registration target object having a posture that should be correctly output from the feature extractor) and an image of the posture ⁇ 3 of the registration target object (that is, feature extraction).
  • the feature extractor may be additionally trained of both the image of the object to be registered in the posture that is erroneously output from the device).
  • the present invention is not limited to the above-described embodiment, and includes various modifications.
  • the above-described embodiment has been described in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the described configurations. It is also possible to replace a part of the configuration of one embodiment with the configuration of another embodiment, and it is also possible to add the configuration of another embodiment to the configuration of one embodiment. Further, it is possible to add / delete / replace a part of the configuration of each embodiment with another configuration.
  • each of the above configurations, functions, processing units, processing means, etc. may be realized by hardware by designing a part or all of them by, for example, an integrated circuit. Further, each of the above configurations, functions, and the like may be realized by software by the processor interpreting and executing a program that realizes each function. Information such as programs, tables, and files that realize each function can be stored in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
  • SSD Solid State Drive
  • control lines and information lines indicate those that are considered necessary for explanation, and do not necessarily indicate all the control lines and information lines in the product. In practice, it can be considered that almost all configurations are interconnected.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Architecture (AREA)
  • Image Analysis (AREA)
  • Image Generation (AREA)

Abstract

モデル作成装置は、登録対象物体の1以上の姿勢の画像と、基準物体の形状を示す基準モデルと、を保持し、登録対象物体の第1姿勢の特徴を示す情報を取得し、基準モデルが示す第1姿勢の形状が、所定の第1条件に基づいて類似しないと判定した場合、登録対象物体の特徴を示す情報に基づいて基準モデルを修正して、登録対象物体の形状を示すモデルを作成する。

Description

モデル作成装置及びモデル作成方法 参照による取り込み
 本出願は、2019年11月28日に出願された日本特許出願第2019-215673号の優先権を主張し、その内容を参照することにより、本出願に取り込む。
 本発明は、モデル作成装置及びモデル作成方法に関する。
 本技術分野の背景技術として、特開平8-233556号公報(特許文献1)がある。この公報には、「撮像手段1と、撮像手段1により撮像された所定視点位置からの被写体画像が記憶される第1の画像記憶手段3と、撮像された被写体画像に最も近い視点位置からの対象物画像を標準3次元形状モデルを基に生成する3次元形状モデル記憶手段2と、この生成された対象物画像が記憶される第2の画像記憶手段4と、各画像記憶手段に記憶された被写体画像と対象物画像との差異を抽出する差異抽出手段5と、抽出された差異を基に標準3次元形状モデルを修整する形状モデル修整手段とを有する。被写体の代表的な形状モデルである標準3次元形状モデルを被写体画像と対象物画像との差異を基に修整
することにより、被写体の形状モデルを復元する。」と記載されている(要約参照)。
特開平8-233556号公報
 特許文献1に記載の技術では、新規に作成する3Dモデルの認識に対して局所領域がどの程度影響を与えるかを推定することは困難であるため、局所領域をどの程度正確に3Dモデルに反映すべきかを評価することは難しい。つまり、特許文献1に記載の技術では、局所領域の上記評価が不十分であることにより、新規3Dモデルの認識性能が不十分となるおそれがある。また、特許文献1に記載の技術では、対象物画像の3Dモデルの認識にほとんど影響を与えない局所領域の変動(ノイズ)も新規3Dモデルに反映してしまうため、新規3Dモデルの作成に際して多量のデータ及び処理が必要となるおそれがある。
 また、特許文献1に記載の技術において局所領域をどの程度正確に3Dモデル反映すべきかを判定するためには、多量のデータ及び処理が必要となる。そこで、本発明の一態様は、認識性能に影響を与える登録対象物体の局所情報を反映した、登録対象物体のモデルを少ないデータ量及び処理で作成することを目的とする。
 上記課題を解決するため、本発明の一態様は以下の構成を採用する。登録対象物体の形状を示すモデルを作成するモデル作成装置であって、プロセッサとメモリとを備え、前記メモリは、前記登録対象物体の1以上の姿勢の画像と、基準物体の形状を示す基準モデルと、を保持し、前記プロセッサは、前記登録対象物体の第1姿勢の特徴を示す情報を取得し、前記基準モデルが示す前記第1姿勢の形状が、所定の第1条件に基づいて類似しないと判定した場合、前記特徴を示す情報に基づいて前記基準モデルを修正して、前記登録対象物体の形状を示すモデルを作成する、モデル作成装置。
 本発明の一態様によれば、認識性能に影響を与える登録対象物体の局所情報を反映した、登録対象物体のモデルを少ないデータ量及び処理で作成することができる。
 上記した以外の課題、構成、及び効果は、以下の実施形態の説明により明らかにされる。
実施例1におけるモデル作成装置の機能構成例を示すブロック図である。 実施例1におけるモデル作成装置のハードウェア構成例を示すブロック図である。 実施例1におけるモデル作成装置に提供される登録対象物体20の画像を撮像する撮像システムの一例である。 実施例1における登録対象物体の3Dモデルを作成するモデル作成処理の一例を示すフローチャートである。 実施例1における3Dモデル修正処理の一例を示すフローチャートである。 実施例1における3Dモデル修正有無を判定する処理の具体例を示す説明図である。 実施例1における3Dモデル修正処理の詳細な例を示す説明図である。 実施例2における3Dモデル修正有無を判定する処理の具体例を示す説明図である。 実施例2における3Dモデル修正有無を判定する処理の具体例を示す説明図である。 実施例3における3Dモデル選択処理の一例を示す説明図である。 実施例3における3Dモデル選択処理の一例を示す説明図である。 実施例4におけるモデル作成処理の一例を示すフローチャートである。 実施例4における特徴抽出器の修正処理の一例を示す説明図である。 実施例4における特徴抽出器の修正処理の一例を示す説明図である。
 以下、本発明の実施形態を図面に基づいて詳細に説明する。本実施形態において、同一の構成には原則として同一の符号を付け、繰り返しの説明は省略する。なお、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。
 図1は、モデル作成装置の機能構成例を示すブロック図である。モデル作成装置100は、登録済の基準物体の形状を示すモデルを用いて、新規登録される登録対象物体の形状を示すモデルを作成する。頂点とメッシュ(面)とを用いて物体の形状を示すことが可能な3D(3次元)モデルは、当該モデルの一例である。本実施例では、主に3Dモデルを用いて物体の形状を表す例を説明するが、2Dモデル等の他のモデルが用いられてもよい。また、モデルは物体の形状のみならず、模様や視点等を示してもよい。
 モデル作成装置100は、例えば、画像取得部111、認識部112、認識結果比較部113、モデル修正部114、及び出力部115を有する。画像取得部111は、登録対象物体の画像を取得する。認識部112は、物体の画像を後述する特徴抽出器に入力することにより物体の姿勢を出力する。
 認識結果比較部113は、登録対象物体の画像を特徴抽出器に入力して得られた姿勢が正しい姿勢であるかを判定する。モデル修正部114は、基準物体の3Dモデルを修正して、登録対象物体の3Dモデルを作成する。出力部115は、基準物体及び登録対象物体の画像に関する情報、特徴抽出器によって出力された姿勢に関する情報、及び作成された3Dモデルに関する情報等を出力する。
 また、モデル作成装置100は、画像データ131及びモデルデータ132を保持する。画像データ131は、1以上の基準物体の1以上の姿勢の画像、及び画像取得部111によって取得した新規登録物体の1以上の姿勢の画像が、姿勢と紐づけられているデータである。基準物体の1以上の姿勢の画像は予め画像データ131に含まれている。
 モデルデータ132は、基準物体の形状を示す3Dモデルと、モデル作成装置100が作成した登録物体の形状を示す3Dモデルと、を含む。基準物体の形状を示す3Dモデルは、モデル作成処理が実行される前に予めモデルデータ132に含まれている。また、モデルデータ132において、各3Dモデルに対応する物体と、物体が属するカテゴリと、が定義されている。
 また、モデルデータ132は、基準物体それぞれについて、当該基準物体に対応する特徴抽出器を有する。特徴抽出器に、物体の画像が入力されると当該画像の特徴を抽出し、抽出した特徴に基づいて当該画像における物体の姿勢を推定し、推定した姿勢を出力する。また、特徴抽出器は、抽出した特徴を出力することもできる。各基準物体に対応する特徴抽出器は、当該基準物体の画像を学習することにより作成されたものである。モデルデータ132は、各基準物体に対応する特徴抽出器に加えて、全ての基準物体に共通して対応可能な特徴抽出器を含んでもよく、当該特徴抽出器が各基準物体に対応する特徴抽出器に代えて用いられてもよい。
 なお、全ての基準物体に共通して対応可能な特徴抽出器は、さらに、物体の1以上の姿勢の画像が入力されると、当該画像の特徴を抽出して当該画像の物体がどの基準物体に該当するかを示す結果を出力可能であってもよい(さらに、どの基準物体にも該当しないという結果を出力可能であってもよい)。
 なお、ある基準物体に対応する特徴抽出器による姿勢認識方法として、例えば、登録対象物体の1以上の姿勢の画像と、基準物体の1以上の姿勢の画像と、がそれぞれオートエンコーダに入力されて得られた当該登録対象物体の各姿勢の特徴と当該基準物体の各姿勢の特徴とを比較して、最も近い特徴を有する姿勢を認識結果として返す方法がある。モデルデータ132はこのような姿勢認識方法を利用する特徴抽出器に限らず、基準物体の画像を学習して得られた学習データから作成された特徴抽出器であって、画像が入力されると姿勢が出力可能な任意の特徴抽出器を有してもよい。
 なお、上記した例では、特徴抽出器は、画像が入力されると当該画像の特徴を抽出して、抽出した特徴に基づいて姿勢を推定するが、画像が入力されると当該画像の特徴の抽出のみを行う特徴抽出器と、特徴抽出器から当該特徴が入力されて姿勢を推定する姿勢推定器と、に分離されていてもよい。
 図2は、モデル作成装置100のハードウェア構成例を示すブロック図である。モデル作成装置100は、例えば、プロセッサ110、メモリ120、補助記憶装置130、入力装置140、出力装置150、及び通信IF(Interface)160を有し、これらがバス等の内部通信線170によって接続された計算機によって構成される。
 プロセッサ110は、メモリ120に格納されたプログラムを実行する。メモリ120は、不揮発性の記憶素子であるROM(Read Only Memory)及び揮発性の記憶素子であるRAM(Random Access Memory)を含む。ROMは、不変のプログラム(例えば、BIOS(Basic Input/Output System))などを格納する。RAMは、DRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶素子であり、プロセッサ110が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。
 補助記憶装置130は、例えば、磁気記憶装置(HDD(Hard Disk Drive))、フラッシュメモリ(SSD(Solid State Drive))等の大容量かつ不揮発性の記憶装置であり、プロセッサ110が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置130から読み出されて、メモリ120にロードされて、プロセッサ110によって実行される。
 入力装置140は、キーボードやマウスなどの、オペレータからの入力を受ける装置である。出力装置150は、ディスプレイ装置やプリンタなどの、プログラムの実行結果をオペレータが視認可能な形式で出力する装置である。通信IF160は、所定のプロトコルに従って、他の装置との通信を制御するネットワークインターフェース装置である。
 プロセッサ110が実行するプログラムは、リムーバブルメディア(CD-ROM、フラッシュメモリなど)又はネットワークを介してモデル作成装置100に提供され、非一時的記憶媒体である不揮発性の補助記憶装置130に格納される。このため、モデル作成装置100は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。
 モデル作成装置100は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。例えば、モデル作成装置100が1つの計算機でなく、物体の認識を行うための教示物体及び認識手法の登録を行う計算機である教示物体登録装置と、設定された認識手法を用いてある物体が教示物体であるか否かの判定を行う計算機である判定装置と、に分かれていてもよい。
 プロセッサ110は、例えば、それぞれ前述した機能部である、画像取得部111、認識部112、認識結果比較部113、モデル修正部114、及び出力部115を有する。
 例えば、プロセッサ110は、メモリ120にロードされた画像取得プログラムに従って動作することで、画像取得部111として機能し、メモリ120にロードされた認識プログラムに従って動作することで、認識部112として機能する。プロセッサ110に含まれる他の機能部についても、プログラムと機能部の関係は同様である。
 なお、プロセッサ110に含まれる機能部による機能の一部又は全部が、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)等のハードウェアによって実現されてもよい。
 補助記憶装置130は、例えば、前述した画像データ131及びモデルデータ132を保持する。なお、補助記憶装置130に格納されている一部又は全部の情報は、メモリ120に格納されていてもよいし、モデル作成装置100に接続されている外部のデータベース等に格納されていてもよい。
 なお、本実施形態において、モデル作成装置100が使用する情報は、データ構造に依存せずどのようなデータ構造で表現されていてもよい。本実施形態ではテーブル形式で情報が表現されているが、例えば、リスト、データベース又はキューから適切に選択したデータ構造体が、情報を格納することができる。
 図3は、モデル作成装置100に提供される登録対象物体20の画像を撮像する撮像システムの一例である。撮像システムは、例えば、カメラ10、ターンテーブル30、及び端末200を含む。カメラ10は、登録対象物体20を撮像する。カメラ10には、例えばアーム11が取り付けられており、アーム11が動作することにより、カメラ10は様々な位置や角度からの撮像が可能となる。物体の姿勢はカメラ10から見た物体の角度を表し、物体とカメラの相対的な位置関係により決定される。
 登録対象物体20は、ターンテーブル30上に搭載されている。ターンテーブル30が回転したり、アーム11が動作したりすることにより、カメラ10は様々な姿勢の登録対象物体20を撮像可能である。端末200は、カメラ10に接続された計算機である。端末200は、カメラ10による撮像や、アーム11の動作を制御する。また、端末200は、カメラ10が撮像した登録対象物体20の画像を取得する。また、端末200がターンテーブル30の動作を制御することにより、カメラ10は登録対象物体20の複数の姿勢の画像を撮像することができる。
 また、図3には示していないが、端末200はモデル作成装置100に接続され、取得した登録対象物体20の画像をモデル作成装置100に送信し、モデル作成装置100の画像取得部111は、受信した画像を画像データ131に保存する。なお、端末200はモデル作成装置100の画像取得部111からの指示に従って、カメラ10、アーム11、及びターンテーブル30を制御してもよい。
 また、モデル作成装置100と端末200とが一体化されていてもよい。また、カメラ10がモデル作成装置100に内蔵されていてもよく、この場合、画像取得部111の指示によって撮像が行われる。
 また、図3の例とは異なり、例えば登録対象物体20を中心とした球面(又は半球面等であってもよい)上に設置された複数のカメラ10が、登録対象物体20の複数の姿勢の画像を撮像してもよい。また、アーム11の代わりにロボットハンド等に固定されたカメラ10が、ロボットハンド等が動作することによって、登録対象物体20の複数の姿勢の画像を撮像してもよい。
 図4は、登録対象物体20の3Dモデルを作成するモデル作成処理の一例を示すフローチャートである。画像取得部111は、登録対象物体20の1以上の姿勢の画像、及び姿勢の情報を取得する(S41)。モデル作成装置100は、各姿勢の画像に対して、ステップS43~ステップS45の処理を実行する(S42)。
 認識部112は、基準物体の姿勢を認識する特徴抽出器をモデルデータ132から取得し、登録対象物体の当該姿勢の画像を当該特徴抽出器に入力して姿勢を出力することにより、姿勢を認識する(S43)。なお、ステップS43において、利用者によって選択された特徴抽出器が利用されてもよいし、登録対象物体に最も特徴が近い基準物体(例えば特徴量間の2乗距離が最小の基準物体)に対応する特徴抽出器が利用されてもよい。但し、複数回行われるステップS43において利用される特徴抽出器は同じものである。また、全ての基準物体に共通して対応可能な特徴抽出器がモデルデータ132に含まれている場合には、ステップS43において当該特徴抽出器が利用されてもよい。認識結果比較部113は、登録対象物体の姿勢と、ステップS43で認識された姿勢と、が同じであるか否か(認識成功であるか認識失敗であるか)を判定する(S44)。
 認識結果比較部113は、登録対象物体の姿勢と、ステップS43で認識された姿勢と、が同じであると判定した場合(S44:YES)、ステップS42に戻り、次の姿勢についてステップS43~ステップS45の処理を実行する。但し、全ての姿勢について処理が終了した場合には、モデル作成処理を終了する。
 認識結果比較部113が、登録対象物体の姿勢と、ステップS43で認識された姿勢と、が同じでないと判定した場合(S44:NO)、モデル修正部114はある基準物体の3Dモデルをモデルデータ132から取得して、取得した3Dモデルを修正することにより、登録対象物体の3Dモデルを作成する(S45)。ステップS45の詳細については、後述する。
 図5は、ステップS45における3Dモデル修正処理の一例を示すフローチャートである。モデル修正部114は、当該登録対象物体の3Dモデル作成のための3Dモデル修正処理が初回の3Dモデル修正処理であるか否か(即ち登録対象物体に対して初回のステップS45の処理であるか否か)を判定する(S51)。モデル修正部114は、当該3Dモデル修正処理が2回目以降の3Dモデル修正処理であると判定した場合(S51:NO)、後述するステップS54に遷移する。
 モデル修正部114は、当該3Dモデル修正処理が初回の3Dモデル修正処理であると判定した場合(S51:YES)、モデルデータ132から3Dモデルを取得する(S52)。具体的には、例えば、モデル修正部114は、例えば、モデル作成装置100の利用者によって選択された基準物体の3Dモデルをモデルデータ132から取得する。また、モデル修正部114は、例えば、基準物体が属するカテゴリが与えられていた場合、モデルデータ132から、当該カテゴリに属する全ての基準物体の3Dモデルを取得し、当該取得したモデルの平均モデルをステップS52において取得する3Dモデルとしてもよい。
 モデル修正部114は、ステップS52で取得した3Dモデルのコピーを、登録対象物体の3Dモデルとしてモデルデータ132に登録する(S53)。モデル修正部114は、登録対象物体の当該姿勢の画像に基づいて、登録対象物体の3Dモデルを修正する(S54)。3Dモデルの修正方法の詳細については、後述する。
 モデル修正部114は、修正した3Dモデルを登録対象物体の3Dモデルとしてモデルデータ132に上書きして登録し(S55)、3Dモデル修正処理を終了する。
 図6は、3Dモデル修正有無を判定する処理の具体例を示す説明図である。(a)の例では、基準物体Aの姿勢θ1の画像が、基準物体Aの画像を学習して作成された特徴抽出器Aに入力されると姿勢θ1が出力されている。また、基準物体Aの姿勢θ2の画像が特徴抽出器Aに入力されると姿勢θ2が出力されている。
 (b)の例では、登録対象物体Bの姿勢θ1の画像が特徴抽出器Aに入力されると姿勢θ1が出力されるが、登録対象物体Bの姿勢θ2の画像が、特徴抽出器Aに入力されると姿勢θ3が出力されている。つまり、登録対象物体Bの姿勢θ1については、ステップS45における3Dモデルの修正処理は不要であるが、登録対象物体Bの姿勢θ2については、異なる姿勢θ3が出力されたため、ステップS45における3Dモデルの修正処理が必要である。
 図7は、ステップS35における3Dモデル修正処理の詳細な例を示す説明図である。以下、登録対象物体の画像がRGBである例を説明する。図7の例において、モデル修正部114は、登録対象物体の姿勢θ1の画像の局所領域71と、3Dモデルの局所領域71に対応する局所領域72と、が類似していない(例えば局所領域71と局所領域72とにおける特徴量の類似度が所定値以下である(例えば距離が所定値以上である))と判定した状態である。
 局所領域71と局所領域72とを比較すると、局所領域71は2面からなるが局所領域72は1面からなる。従って、モデル修正部114は、3Dモデルの局所領域72に頂点73を追加することで面を増やす。モデル修正部114は追加した頂点73を移動させることにより、局所領域72を局所領域71に類似又は一致させる。
 このように図7の例では、モデル修正部114は、3Dモデルにおける異なる領域のメッシュを精緻化することにより、当該異なる領域を類似又は一致する領域へと修正する。なお、モデル修正部114は、局所領域72と局所領域71との差異に応じて、局所領域72の頂点を削除した上で他の頂点を移動させてもよいし、局所領域72のある頂点を移動させるだけでもよい。
 なおこのように、モデル修正部114は、3Dモデルのメッシュを精緻化する場合、例えば、ニューラルネットを利用して自動的にメッシュの頂点数やトポロジーを変更することで、メッシュを生成することができる。
 また、例えば、ステップS52で取得された3Dモデルがいずれかの基準物体の3Dモデルそのものである場合、画像取得部111は当該基準物体の局所領域72の近傍がより詳細に撮像された画像(例えばより解像度の高い画像又は拡大画像)を取得し、モデル修正部114は、当該取得した画像をさらに用いてステップS55における3Dモデルを修正した上で、上記したメッシュの精緻化を行ってもよい。
 また、モデル修正部114は、ステップS52において同一カテゴリの基準物体の3Dモデルの平均モデルが取得された場合であっても、当該平均モデルに対して、上記した方法と同様にメッシュを精緻化して当該平均モデルを修正することができる。また、モデル修正部114は、ステップS52において同一カテゴリの基準物体の画像を画像データ131から取得して、取得した画像の平均である平均画像から3Dモデルを構築して、これを平均モデルとしてもよい。
 また、ステップS52で取得された3Dモデルがいずれかの基準物体の3Dモデルそのものである場合、モデル修正部114は、当該基準物体の各姿勢の画像のうち、ステップS44において認識が失敗した姿勢の画像を、登録対象物体の画像に差し替えた画像群を用いて、3Dモデルを再構築することにより、登録対象物体の3Dモデルを作成してもよい。
 また、登録対象物体の画像がRGB-Depth画像である場合、モデル修正部114は、当該画像から得られる撮像点群をメッシュ化して得られたメッシュを、ステップS52において取得した3Dモデルと統合することによって、当該3Dモデルを修正する。また、さらに基準物体の画像もRGB-Depth画像であれば、モデル修正部114は、当該3Dモデルに対応する基準物体の当該姿勢の画像から得られる撮像点群を、登録対象物体の画像から得られる撮像点群に差し替えることによって、当該3Dモデルを修正してもよい。
 また、本実施例及び後述する実施例において、モデルデータ132に基準物体の2Dモデルが格納されている場合、モデル作成装置100は、基準物体の2Dモデルを修正して、登録対象物体の2Dモデルを作成してもよい。
 例えば、モデル修正部114は、ステップS52において取得し、ステップS53においてコピーした2Dモデルが基準物体の画像によって構成された2Dモデルである場合、当該2Dモデルの当該姿勢(視点)の画像を、登録対象物体の当該姿勢の画像に差し替えることによって、当該2Dモデルを修正する。なお、当該2Dモデルが基準物体の1枚の画像によって構成された2Dモデルである場合、当該画像を登録対象物体の画像に差し替えることによって、当該2Dモデルを修正する。
 また、例えば、モデル修正部114は、ステップS52において取得し、ステップS53においてコピーした2Dモデルが基準物体の画像中のエッジやSIFT(Scale Invariant Feature Transform)等の局所特徴から作成された2Dモデルである場合、当該2Dモデルの当該姿勢(視点)の画像から当該局所特徴を取得し、2Dモデルの局所特徴を、取得した局所特徴に差し替えることによって、当該2Dモデルを修正する。なお、当該2Dモデルが基準物体の1枚の画像によって構成された2Dモデルである場合、当該画像の局所特徴を登録対象物体の局所特徴に差し替えることによって、当該2Dモデルを修正する。
 なお、登録対象物体の画像にノイズが含まれる場合、モデル修正部114は、例えば、当該画像から当該登録対象物体のシルエットを推定し、上記したいずれかの方法で2Dモデルを修正する。
 上記した処理により、本実施例のモデル作成装置100は、登録対象物体の3Dモデルを、基準物体の3Dモデルを、特徴抽出器による認識性能に影響を与える部分についてのみ修正することによって作成するため、認識性能に影響を与える登録対象物体の局所情報を反映した3Dモデルを少ないデータ量及び処理量で作成することができる。
 本実施例では、モデル修正処理の詳細の別例について説明する。以下の実施例においては、実施例1との相違点を説明し、実施例1と重複する説明は省略する。図8は、3Dモデル修正有無を判定する処理の具体例を示す説明図である。
 図6の(b)の例と同様に、登録対象物体Bの姿勢θ1の画像が特徴抽出器Aに入力されると姿勢θ1が出力されるが、登録対象物体Bの姿勢θ2の画像が、特徴抽出器Aに入力されると姿勢θ3が出力されている。つまり、登録対象物体Bの姿勢θ1については、ステップS45における3Dモデルの修正処理は不要であるが、登録対象物体Bの姿勢θ2については、異なる姿勢θ3が出力されたため、ステップS45における3Dモデルの修正処理が必要である。
 また、認識部112が特徴抽出器によって得た基準物体の局所領域81と、基準物体の局所領域82と、が類似していない(例えば特徴量の類似度が所定値以下である)と判定したものとする。
 このとき、モデル修正部114は、画像取得部111に対して、登録対象物体のモデルの修正が必要であると判定された姿勢の局所領域82の近傍がより詳細に撮像された画像(例えばより解像度の高い画像又は拡大画像)を取得するよう指示する。例えば、画像取得部111は、端末200に対して当該画像を撮像するよう指示し、端末200から当該画像を取得する。モデル修正部114は、当該取得された画像情報を用いて、ステップS54におけるモデル修正を行う。
 図8の処理において、モデル修正部114は、登録対象物体の基準物体に類似していない局所領域(差異領域)の近傍の画像に基づいて3Dモデルを修正するため、登録基準物体の差異領域の詳細を反映した3Dモデルを作成することができる。
 図9は、3Dモデル修正有無を判定する処理の具体例を示す説明図である。図8の例と同様に、登録対象物体Bの姿勢θ1の画像が特徴抽出器Aに入力されると姿勢θ1が出力されるが、登録対象物体Bの姿勢θ2の画像が、特徴抽出器Aに入力されると姿勢θ3が出力されている。つまり、登録対象物体Bの姿勢θ1については、ステップS45における3Dモデルの修正処理は不要であるが、登録対象物体Bの姿勢θ2については、異なる姿勢θ3が出力されたため、ステップS45における3Dモデルの修正処理が必要である。
 また、認識部112が特徴抽出器によって得た基準物体の局所領域81と、基準物体の局所領域82と、が類似していない(例えば特徴量の類似度が所定値以下である)と判定したものとする。
 このとき、出力部115は、局所領域指定画面90を出力装置150に出力する。局所領域指定画面90は、例えば、物体画像表示領域91、局所領域変更ボタン92、保存ボタン93、及びキャンセルボタン94を含む。
 局所領域指定画面90は、登録対象物体の姿勢θ2の画像(即ち誤った姿勢が出力されたときの入力画像)と、局所領域を示す表示(図中点線の楕円)と、が表示されている。なお、類似していない領域を利用者が容易に把握できるように、局所領域指定画面90には、例えば当該利用者からの指示によって、登録対象物体の姿勢θ2の画像に代えて又は加えて、基準物体の姿勢θ2の画像(即ち基準物体の正しく出力されるべき姿勢の画像)が表示されてもよい。
 局所領域変更ボタン92は、局所領域の範囲を変更するためのボタンである。例えば、局所領域変更ボタン92が選択されると、局所領域指定画面90における局所領域を示す表示が利用者の入力によって変更可能な状態となる。保存ボタン93は、変更された局所領域を保存するためのボタンである。保存ボタン93が選択されると、モデル修正部114は、変更された局所領域の画像情報を用いて、ステップS54におけるモデル修正を行う。
 キャンセルボタン94は、局所領域を変更することなく終了するためのボタンである。キャンセルボタン94が選択されると、モデル修正部114は、変更前の局所領域の画像情報を用いて、ステップS54におけるモデル修正を行う。
 モデル修正部114は、画像取得部111に対して、登録対象物体のモデルの修正が必要であると判定された姿勢の、局所領域指定画面90によって決定された局所領域の近傍がより詳細に撮像された画像(例えばより解像度の高い画像又は拡大画像)を取得するよう指示する。例えば、画像取得部111は、端末200に対して当該画像を撮像するよう指示し、端末200から当該画像を取得する。モデル修正部114は、当該取得された画像情報を用いて、ステップS54におけるモデル修正を行う。
 図9の処理において、モデル修正部114は、利用者によって選択された局所領域(差異領域)の近傍の画像に基づいて3Dモデルを修正するため、登録基準物体の、特に特徴抽出器によって認識が困難な差異領域の詳細を反映した3Dモデルを作成することができる。
 本実施例は、ステップS52における3Dモデルの選択処理の別例を示す。図10は、ステップS52における3Dモデル選択処理の一例を示す説明図である。モデル修正部114は、画像データ131から登録対象物体及び複数の基準物体(例えばユーザが選択した複数の基準物体、又は全ての基準物体)の画像を取得し、取得した画像を当該複数の基準物体それぞれに対応する特徴抽出器に入力する。
 なお、モデル修正部114は、登録対象物体及び複数の基準物体のある姿勢(1又は複数の同じ姿勢)の画像を取得して特徴抽出器に入力してもよいし、登録対象物体及び複数の基準物体の全ての姿勢の画像を取得して特徴抽出器に入力してもよい。
 モデル修正部114は、特徴抽出器が抽出した特徴に基づいて、複数の基準物体それぞれについて、登録対象物体との類似度を算出する。コサイン類似度や、特徴量間の2乗距離はいずれもモデル修正部114が算出する類似度の一例である。モデル修正部114は、算出した類似度が最も高い基準物体を類似物体であると判定し、類似物体の3Dモデルをモデルデータ132から取得する。
 図10の例では、登録対象物体Bと基準物体Aとの類似度が0.6であり、登録対象物体Bと基準物体Xとの類似度が0.4であるため、モデル修正部114は基準物体Aを類似物体であるとし、基準物体Aの3Dモデルをモデルデータ132から取得する。
 図10の処理において、モデル修正部114は、登録対象物体と類似度の高い基準物体の3Dモデルを選択するため、修正対象として適切な3Dモデルを選択することができ、ひいては当該3Dモデルの修正にかかる処理量が低減する可能性が高い。
 図11は、ステップS52における3Dモデル選択処理の一例を示す説明図である。図10の例と同様に、モデル修正部114は、複数の基準物体それぞれについて、登録対象物体との類似度を算出する。モデル修正部114は、算出した全ての類似度が所定の閾値以下であると判定した場合、ステップS52において、モデルを選択せずに、モデル修正処理を中止して、登録対象物体の3Dモデルを新たに作成する。
 図11の例では、類似度の閾値が0.5であり、登録対象物体Bと基準物体Aとの類似度が閾値を下回る0.4であり、登録対象物体Bと基準物体Xとの類似度が閾値を下回る0.3であるため、モデル修正部114は基準物体の3Dモデルを選択することなく、登録対象物体Bの3Dモデルを新たに作成する。
 図11の処理において、モデル修正部114は、登録対象物体と類似度の高い基準物体がない場合に、登録対象物体の3Dモデルを新たに作成するため、修正対象の不適切な3Dモデルを選択することがない。また、仮に、モデル修正部114が、登録対象物体と類似度の高い基準物体の3Dモデルを選択した場合には、当該3Dモデルを修正して登録対象物体の3Dモデルを作成すると、かえって処理量が多くなったり、認識性能が不十分となったりするおそれがある。モデル修正部114は、図11の処理を行うことによって、このような事態の発生を抑制することができる。
 本実施例は、モデル作成処理の別例を示す。本実施例のモデル作成装置100は、登録対象物体の認識結果に応じて、特徴抽出器を修正する。図12は、本実施例のモデル作成処理の一例を示すフローチャートである。
 認識結果比較部113は、登録対象物体の姿勢と、ステップS43で認識された姿勢と、が同じであると判定した場合(S44:YES)、又はステップS45におけるモデル修正処理が終了した後、認識部112は、登録対象物体の画像に基づいて、特徴抽出器を修正する(S46)。以下、特徴抽出器の修正処理の具体例について説明する。
 図13は、特徴抽出器の修正処理の一例を示す説明図である。図8の例と同様に、登録対象物体Bの姿勢θ1の画像が特徴抽出器Aに入力されると姿勢θ1が出力されるが、登録対象物体Bの姿勢θ2の画像が、特徴抽出器Aに入力されると姿勢θ3が出力されている。
 このとき、認識部112は、画像データ131から登録対象物体の姿勢θ2の画像(即ち特徴抽出器から正しく出力されるべき姿勢の登録対象物体の画像)を取得して、取得した画像と姿勢θ2とを紐づけて特徴抽出器Aに追加学習させて、モデルデータ132における特徴抽出器Aを上書きする。これにより、認識部112は、登録対象物体の特徴抽出器において認識精度の低い姿勢の画像を高速に学習させることができる。
 なお、特徴抽出器と姿勢推定器とが分離している場合には、認識部112は、姿勢推定器に上記した追加学習をさせ、さらに登録対象物体の姿勢θ2の画像(即ち姿勢推定器から正しく出力されるべき姿勢の登録対象物体の画像)を当該特徴抽出器に追加学習させて、モデルデータ132における当該特徴抽出器を上書きする。
 そして、次回の登録対象物体の3Dモデルの生成において、認識部112は、上書きされた特徴抽出器Aを用いて、ステップS52における当該登録対象物体の姿勢を出力する処理を行う。これにより、前回の登録対象物体の特徴を反映した特徴抽出器Aを用いた姿勢推定が行われるため、前回の登録対象物体に近い特徴を有する登録対象物体に対するモデル作成処理の処理量が低減する。
 なお、画像データ131に登録対象物体の姿勢θ2の十分な数の画像がない(例えば所定枚数以下の画像しかない)場合には、画像取得部111に対して、登録対象物体の姿勢θ2の所定数の画像を取得するよう指示する。例えば、画像取得部111は、端末200に対して当該所定数の登録対象物体の画像を撮像するよう指示し、端末200から当該所定数の登録対象物体の画像を取得する。
 図14は、特徴抽出器の修正処理の一例を示す説明図である。図8の例と同様に、登録対象物体Bの姿勢θ1の画像が特徴抽出器Aに入力されると姿勢θ1が出力されるが、登録対象物体Bの姿勢θ2の画像が、特徴抽出器Aに入力されると姿勢θ3が出力されている。
 このとき、認識部112は、画像データ131から登録対象物体の姿勢θ3の画像(即ち特徴抽出器から誤って出力された姿勢の登録対象物体の画像)を取得して、取得した画像と姿勢θ3と紐づけて特徴抽出器Aに追加学習させて、モデルデータ132における特徴抽出器Aを上書きする。これにより、認識部112は、登録対象物体の特徴抽出器において認識精度の低い姿勢の画像を高速に学習させることができる。
 なお、特徴抽出器と姿勢推定器とが分離している場合には、認識部112は、姿勢推定器に上記した追加学習をさせ、さらに登録対象物体の姿勢θ3の画像(即ち特徴抽出器から誤って出力された姿勢の登録対象物体の画像)を当該特徴抽出器に追加学習させて、モデルデータ132における当該特徴抽出器を上書きする。
 そして、次回の登録対象物体の3Dモデルの生成において、認識部112は、上書きされた特徴抽出器Aを用いて、ステップS52における当該登録対象物体の姿勢を出力する処理を行う。これにより、前回の登録対象物体の特徴を反映した特徴抽出器Aを用いた姿勢推定が行われるため、前回の登録対象物体に近い特徴を有する登録対象物体に対するモデル作成処理の処理量が低減する。
 なお、画像データ131に登録対象物体の姿勢θ3の十分な数の画像がない(例えば所定枚数以下の画像しかない)場合には、画像取得部111に対して、登録対象物体の姿勢θ3の所定数の画像を取得するよう指示する。例えば、画像取得部111は、端末200に対して当該所定数の登録対象物体の画像を撮像するよう指示し、端末200から当該所定数の登録対象物体の画像を取得する。
 なお、例えば、認識部112は、登録対象物体の姿勢θ2の画像(即ち特徴抽出器から正しく出力されるべき姿勢の登録対象物体の画像)と、登録対象物体の姿勢θ3の画像(即ち特徴抽出器から誤って出力された姿勢の登録対象物体の画像)と、の双方を特徴抽出器に追加学習させてもよい。
 なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
 また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
 また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
 

Claims (13)

  1.  登録対象物体の形状を示すモデルを作成するモデル作成装置であって、
     プロセッサとメモリとを備え、
     前記メモリは、
     前記登録対象物体の1以上の姿勢の画像と、
     基準物体の形状を示す基準モデルと、を保持し、
     前記プロセッサは、
     前記登録対象物体の第1姿勢の特徴を示す情報を取得し、
     前記基準モデルが示す前記第1姿勢の形状が、所定の第1条件に基づいて類似しないと判定した場合、前記特徴を示す情報に基づいて前記基準モデルを修正して、前記登録対象物体の形状を示すモデルを作成する、モデル作成装置。
  2.  請求項1に記載のモデル作成装置であって、
     前記メモリは、前記基準物体の画像を学習することによって作成され、画像が入力されると姿勢を出力する特徴抽出器を保持し、
     前記プロセッサは、
     前記登録対象物体の前記第1姿勢の第1画像を前記特徴抽出器に入力して、前記第1姿勢と異なる第2姿勢が出力された場合、前記特徴を示す情報に基づいて前記基準モデルを修正して、前記登録対象物体の形状を示すモデルを作成する、モデル作成装置。
  3.  請求項2に記載のモデル作成装置であって、
     前記メモリは、
     複数の前記基準物体それぞれの形状を示す基準モデルと、
     前記複数の前記基準物体それぞれの前記1以上の姿勢の画像と、保持し、
     前記プロセッサは、
     前記第1画像を前記特徴抽出器に入力して、前記第2姿勢が出力された場合、
     前記登録対象物体の前記第1画像と、前記複数の基準物体それぞれの前記第1姿勢の画像と、を前記特徴抽出器に入力して、前記登録対象物体と前記複数の基準物体それぞれとの類似度を算出し、
     前記算出した類似度が最も高い基準物体の基準モデルを、前記登録対象物体の前記第1姿勢の特徴を示す情報に基づいて修正して、前記登録対象物体の形状を示すモデルを作成する、モデル作成装置。
  4.  請求項2に記載のモデル作成装置であって、
     前記メモリは、
     複数の前記基準物体それぞれの形状を示す基準モデルと、
     前記複数の基準物体それぞれの前記1以上の姿勢の画像と、保持し、
     前記特徴抽出器は、前記複数の基準物体の画像を学習することによって作成されたものであり、
     前記第1画像を前記特徴抽出器に入力して、前記第2姿勢が出力された場合、
     前記第1画像と、前記複数の基準物体それぞれの前記第1姿勢の画像と、を比較して、前記登録対象物体と前記複数の基準物体それぞれとの類似度を算出し、
     前記算出した類似度の全てが所定の閾値以下である場合、前記基準モデルの修正を行うことなく、前記登録対象物体の形状を示すモデルを新たに作成する、モデル作成装置。
  5.  請求項2に記載のモデル作成装置であって、
     前記メモリは、前記登録対象物体の前記第1姿勢の前記第1画像と異なる第2画像を保持し、
     前記プロセッサは、
     前記第1画像を前記特徴抽出器に入力して、前記第2姿勢が出力された場合、
     前記第2画像を前記特徴抽出器に学習させ、
     学習後の前記特徴抽出器を前記メモリに格納する、モデル作成装置。
  6.  請求項5に記載のモデル作成装置であって、
     前記特徴抽出器は、画像の特徴を抽出する抽出部と、前記抽出部が抽出した特徴に基づいて姿勢を出力する姿勢推定部と、を含み、
     前記第1画像を前記特徴抽出器に入力して、前記第2姿勢が出力された場合、
     前記第2画像を前記姿勢推定部に学習させる、モデル作成装置。
  7.  請求項2に記載のモデル作成装置であって、
     前記メモリは、前記登録対象物体の前記第2姿勢の第3画像を保持し、
     前記プロセッサは、
     前記第1画像を前記特徴抽出器に入力して、前記第2姿勢が出力された場合、
     前記第3画像を前記特徴抽出器に学習させる、
     学習後の前記特徴抽出器を前記メモリに格納する、モデル作成装置。
  8.  請求項7に記載のモデル作成装置であって、
     前記特徴抽出器は、画像の特徴を抽出する抽出部と、前記抽出部が抽出した特徴に基づいて姿勢を出力する姿勢推定部と、を含み、
     前記第1画像を前記特徴抽出器に入力して、前記第2姿勢が出力された場合、
     前記第3画像を前記姿勢推定部に学習させる、モデル作成装置。
  9.  請求項1に記載のモデル作成装置であって、
     前記メモリは、前記基準物体の画像の局所領域の特徴を示す情報を保持し、
     前記プロセッサは、
     前記基準モデルが示す前記第1姿勢の形状が、前記第1条件に基づいて類似しないと判定した場合、
     前記登録対象物体と、前記基準物体と、において所定の第2条件に基づいて、特徴を示す情報が類似していない局所領域を特定し、
     前記登録対象物体の前記特定した局所領域の詳細画像を取得し、
     前記詳細画像の特徴を示す情報を取得し、
     前記詳細画像の特徴を示す情報に基づいて前記基準モデルを修正して、前記登録対象物体の形状を示すモデルを作成する、モデル作成装置。
  10.  請求項1に記載のモデル作成装置であって、
     表示装置を備え、
     前記メモリは、前記基準物体の画像の局所領域の特徴を示す情報を保持し、
     前記プロセッサは、
     前記基準モデルが示す前記第1姿勢の形状が、前記第1条件に基づいて類似しないと判定した場合、
     前記登録対象物体の前記第1姿勢の画像を前記表示装置に表示し、
     局所領域の指定を受け付け、
     指定された局所領域の特徴を示す情報を取得し、
     前記指定された局所領域の特徴を示す情報に基づいて前記基準モデルを修正して、前記登録対象物体の形状を示すモデルを作成する、モデル作成装置。
  11.  請求項1に記載のモデル作成装置であって、
     前記基準モデルは、メッシュと頂点とによって前記基準物体の形状が規定される3次元モデルであり、
     前記プロセッサは、
     前記基準モデルが示す前記第1姿勢の形状が、前記第1条件に基づいて類似しないと判定した場合、
     前記登録対象物体の前記第1姿勢における画像が示す形状に基づいて、前記基準モデルにおける頂点を増減し、前記増減後の頂点を移動させることによって、前記基準モデルを修正する、モデル作成装置。
  12.  請求項1に記載のモデル作成装置であって、
     前記メモリは、
     複数の前記基準物体それぞれの前記1以上の姿勢の画像と、
     前記登録対象物体と前記複数の基準物体が属するカテゴリを示すカテゴリ情報と、を保持し、
     前記プロセッサは、
     前記カテゴリ情報を参照して、前記登録対象物体と同じカテゴリに属する基準物体を特定し、
     前記特定した基準物体の画像を平均化した画像の形状を示す平均モデルを作成し、
     前記基準モデルが示す前記第1姿勢の形状が、前記第1条件に基づいて類似しないと判定した場合、前記特徴を示す情報に基づいて前記平均モデルを修正して、前記登録対象物体の形状を示すモデルを作成する、モデル作成装置。
  13.  モデル作成装置が登録対象物体の形状を示すモデルを作成する方法であって、
     前記モデル作成装置は、
     前記登録対象物体の1以上の姿勢の画像と、
     基準物体の形状を示す基準モデルと、を保持し、
     前記方法は、
     前記モデル作成装置が、前記登録対象物体の第1姿勢の特徴を示す情報を取得し、
     前記モデル作成装置が、前記基準モデルが示す前記第1姿勢の形状が、所定の第1条件に基づいて類似しないと判定した場合、前記特徴を示す情報に基づいて前記基準モデルを修正して、前記登録対象物体の形状を示すモデルを作成する、方法。
PCT/JP2020/042830 2019-11-28 2020-11-17 モデル作成装置及びモデル作成方法 WO2021106686A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202080059275.6A CN114303173B (zh) 2019-11-28 2020-11-17 模型制作装置及模型制作方法
US17/642,615 US12154294B2 (en) 2019-11-28 2020-11-17 Model creation device and model creation method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-215673 2019-11-28
JP2019215673A JP7362453B2 (ja) 2019-11-28 2019-11-28 モデル作成装置及びモデル作成方法

Publications (1)

Publication Number Publication Date
WO2021106686A1 true WO2021106686A1 (ja) 2021-06-03

Family

ID=76087815

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/042830 WO2021106686A1 (ja) 2019-11-28 2020-11-17 モデル作成装置及びモデル作成方法

Country Status (4)

Country Link
US (1) US12154294B2 (ja)
JP (1) JP7362453B2 (ja)
CN (1) CN114303173B (ja)
WO (1) WO2021106686A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0814860A (ja) * 1994-06-30 1996-01-19 Toshiba Corp モデル作成装置
JPH08233556A (ja) * 1995-02-24 1996-09-13 Canon Inc 撮像画像処理装置および撮像画像処理方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819016A (en) * 1993-10-05 1998-10-06 Kabushiki Kaisha Toshiba Apparatus for modeling three dimensional information
JP2892610B2 (ja) * 1996-01-16 1999-05-17 株式会社エイ・ティ・アール通信システム研究所 姿勢検出装置
JP4573085B2 (ja) * 2001-08-10 2010-11-04 日本電気株式会社 位置姿勢認識装置とその位置姿勢認識方法、及び位置姿勢認識プログラム
JP2003196326A (ja) * 2001-12-26 2003-07-11 Toyota Motor Corp 形状モデル作成装置及び方法
US7809159B2 (en) * 2003-10-30 2010-10-05 Nec Corporation Estimation system, estimation method, and estimation program for estimating object state
JP4552431B2 (ja) * 2003-12-08 2010-09-29 日本電気株式会社 画像照合装置、画像照合方法及び画像照合プログラム
ATE452379T1 (de) 2007-10-11 2010-01-15 Mvtec Software Gmbh System und verfahren zur 3d-objekterkennung
JP4347386B2 (ja) * 2008-01-23 2009-10-21 ファナック株式会社 加工用ロボットプラグラムの作成装置
JP5287152B2 (ja) * 2008-11-04 2013-09-11 オムロン株式会社 3次元モデルの作成方法および物体認識装置
JP6642968B2 (ja) * 2014-03-20 2020-02-12 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
JP2015219868A (ja) * 2014-05-21 2015-12-07 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
JP6348093B2 (ja) * 2015-11-06 2018-06-27 ファナック株式会社 入力データから検出対象物の像を検出する画像処理装置および方法
JP2019049919A (ja) * 2017-09-12 2019-03-28 大日本印刷株式会社 テンプレート抽出装置、テンプレート抽出方法、およびプログラム
JP6936974B2 (ja) * 2017-12-19 2021-09-22 オムロン株式会社 位置姿勢推定装置、位置姿勢推定方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0814860A (ja) * 1994-06-30 1996-01-19 Toshiba Corp モデル作成装置
JPH08233556A (ja) * 1995-02-24 1996-09-13 Canon Inc 撮像画像処理装置および撮像画像処理方法

Also Published As

Publication number Publication date
CN114303173A (zh) 2022-04-08
US20220343538A1 (en) 2022-10-27
JP7362453B2 (ja) 2023-10-17
JP2021086449A (ja) 2021-06-03
CN114303173B (zh) 2025-06-10
US12154294B2 (en) 2024-11-26

Similar Documents

Publication Publication Date Title
KR102292028B1 (ko) 제스처 인식 방법, 장치, 전자 기기 및 저장 매체
US10996062B2 (en) Information processing device, data management device, data management system, method, and program
CN112233181B (zh) 6d位姿识别的方法、装置及计算机存储介质
US20200042782A1 (en) Distance image processing device, distance image processing system, distance image processing method, and non-transitory computer readable recording medium
CN113192138B (zh) 一种机器人自主重定位方法、装置、机器人及存储介质
US10664939B2 (en) Position control system, position detection device, and non-transitory recording medium
CN108573471B (zh) 图像处理装置、图像处理方法以及记录介质
JP2019114103A (ja) 物体認識処理装置、物体認識処理方法及びプログラム
US11094082B2 (en) Information processing apparatus, information processing method, robot system, and non-transitory computer-readable storage medium
CN111382776A (zh) 物体识别装置以及物体识别方法
JP2019109747A (ja) 位置姿勢推定装置、位置姿勢推定方法及びプログラム
JP2019057227A (ja) テンプレート作成装置、物体認識処理装置、テンプレート作成方法及びプログラム
US20170185226A1 (en) Operating apparatus, control method therefor, and storage medium storing program
US20240177341A1 (en) Computer-readable recording medium storing object detection program, device, and machine learning model generation method
CN114511719A (zh) 一种图像匹配方法、装置、设备及存储介质
CN110766996B (zh) 一种点读内容定位方法、装置、电子设备及存储介质
CN109978829B (zh) 一种待检测对象的检测方法及其系统
JP7187377B2 (ja) 物体情報登録装置及び物体情報登録方法
WO2021106686A1 (ja) モデル作成装置及びモデル作成方法
JP6892155B2 (ja) 人体部位推定装置、人体部位推定方法、及びプログラム
JP2021144359A (ja) 学習装置、推定装置、学習方法、及びプログラム
US11620479B2 (en) System for determining diverting availability of object recognition model
US20240020918A1 (en) Information processing apparatus and information processing method
JP7276968B2 (ja) 3次元データ更新装置、顔向き推定装置、3次元データ更新方法およびプログラム
KR20220144456A (ko) Svm 원 영상을 기반으로 근접 주행 환경을 인식하는 방법 및 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20894233

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20894233

Country of ref document: EP

Kind code of ref document: A1