KR20240169499A - Learning method of determining light patterns for three-dimensional scenes, method and apparatus of three-dimensional scenes - Google Patents
Learning method of determining light patterns for three-dimensional scenes, method and apparatus of three-dimensional scenes Download PDFInfo
- Publication number
- KR20240169499A KR20240169499A KR1020230150041A KR20230150041A KR20240169499A KR 20240169499 A KR20240169499 A KR 20240169499A KR 1020230150041 A KR1020230150041 A KR 1020230150041A KR 20230150041 A KR20230150041 A KR 20230150041A KR 20240169499 A KR20240169499 A KR 20240169499A
- Authority
- KR
- South Korea
- Prior art keywords
- surface normal
- image
- dimensional
- scene
- normal vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Architecture (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Geometry (AREA)
- Processing Or Creating Images (AREA)
Abstract
일 실시예에 따른 조명 패턴 결정 방법은 표면 법선 정보를 미리 알고 있는 3차원 객체를 촬영한 제1 영상으로부터 3차원 객체의 제1 표면 법선 벡터를 추정함으로써 데이터 셋을 구성하고, 데이터 셋에 포함된 기저 영상들의 조합에 기초한 가상의 조명 패턴들을 3차원 객체에 적용한 시뮬레이션 영상들을 생성하고, 가상의 조명 패턴들 및 상기 가상의 조명 패턴들에 대응하는 시뮬레이션 영상들에 기초한 포토메트릭 스테레오 기법의 재구성을 통해 3차원 객체에 대한 제2 표면 법선 벡터를 추정하고, 제1 표면 법선 벡터와 제2 표면 법선 벡터 간의 차이에 기초하여 조명 패턴을 결정하도록 신경망을 학습한다.A method for determining a lighting pattern according to one embodiment comprises: configuring a data set by estimating a first surface normal vector of a three-dimensional object from a first image of the three-dimensional object whose surface normal information is known in advance; generating simulation images in which virtual lighting patterns based on a combination of basis images included in the data set are applied to the three-dimensional object; estimating a second surface normal vector for the three-dimensional object through reconstruction of a photometric stereo technique based on the virtual lighting patterns and simulation images corresponding to the virtual lighting patterns; and training a neural network to determine the lighting pattern based on a difference between the first surface normal vector and the second surface normal vector.
Description
아래의 개시는 3차원 장면을 위한 조명 패턴 결정 방법, 및 3차원 장면을 모델링하는 방법 및 장치에 관한 것이다.The disclosure below relates to a method for determining a lighting pattern for a three-dimensional scene, and a method and device for modeling a three-dimensional scene.
실제 객체의 표면 법선(surface normal)을 재구성하는 것은 예를 들어, 3차원 재구성, 재조명(relighting) 및 역 렌더링(inverse rendering)과 같이 여러 영역에 걸쳐 있는 응용 프로그램에서 중요한 작업에 해당할 수 있다. 예를 들어, 다양한 조명 조건에서 장면 점의 강도 변화를 활용하여 표면 법선을 재구성하는 포토메트릭 스테레오(photometric stereo) 기법에 의해 표면 법선을 재구성할 수 있다. 하지만, 일반적인 포토메트릭 스테레오 기법은 최적의 조명 패턴을 결정하지 못할 뿐만 아니라, 정반사로 인한 아티팩트(artifact)를 처리하지 못하므로 고품질의 표면 법선을 제공하는 것이 어려울 수 있다.Reconstructing surface normals of real objects can be a crucial task in many applications, such as 3D reconstruction, relighting, and inverse rendering. For example, surface normals can be reconstructed by photometric stereo techniques, which utilize the intensity variation of scene points under different lighting conditions to reconstruct surface normals. However, conventional photometric stereo techniques cannot provide high-quality surface normals because they cannot determine the optimal lighting pattern and cannot handle artifacts caused by specular reflection.
일 실시예에 따른 조명 패턴 결정 방법은 표면 법선 정보를 미리 알고 있는 3차원 객체를 촬영한 제1 영상으로부터 상기 3차원 객체의 제1 표면 법선 벡터(surface normal vector)를 추정함으로써 데이터 셋을 구성하는 단계; 상기 데이터 셋에 포함된 기저 영상들(Basis images)의 조합에 기초한 가상의 조명 패턴들(Illumination Patterns)을 상기 3차원 객체에 적용한 시뮬레이션 영상들을 생성하는 단계; 상기 가상의 조명 패턴들 및 상기 가상의 조명 패턴들에 대응하는 시뮬레이션 영상들에 기초한 포토메트릭 스테레오(Photometric Stereo) 기법의 재구성(reconstruction)을 통해 상기 3차원 객체에 대한 제2 표면 법선 벡터를 추정하는 단계; 상기 제1 표면 법선 벡터와 상기 제2 표면 법선 벡터 간의 차이에 기초하여 조명 패턴을 결정하도록 신경망을 학습하는 단계를 포함한다. A method for determining an illumination pattern according to one embodiment comprises the steps of: configuring a data set by estimating a first surface normal vector of a three-dimensional object from a first image of the three-dimensional object whose surface normal information is known in advance; generating simulation images in which virtual illumination patterns based on a combination of basis images included in the data set are applied to the three-dimensional object; estimating a second surface normal vector for the three-dimensional object through reconstruction of a photometric stereo technique based on the virtual illumination patterns and simulation images corresponding to the virtual illumination patterns; and training a neural network to determine the illumination pattern based on a difference between the first surface normal vector and the second surface normal vector.
상기 데이터 셋을 구성하는 단계는 상기 3차원 객체를 기저 조명에 의해 촬영한 상기 제1 영상을 획득하는 단계; 및 미분 가능한 렌더링 기법을 통해 상기 제1 영상으로부터 상기 제1 표면 법선 벡터를 추정하는 단계를 포함할 수 있다. The step of constructing the above data set may include the step of obtaining the first image of the three-dimensional object captured by ground illumination; and the step of estimating the first surface normal vector from the first image using a differentiable rendering technique.
상기 조명 패턴 결정 방법은 상기 제1 영상에서 정반사 성분을 제거하는 전처리를 수행하는 단계를 더 포함하고, 상기 제1 영상을 획득하는 단계는 상기 전처리된 상기 제1 영상으로부터 상기 데이터 셋을 구성하는 단계를 포함할 수 있다. The method for determining the above lighting pattern may further include a step of performing preprocessing to remove a specular component from the first image, and the step of acquiring the first image may include a step of configuring the data set from the preprocessed first image.
상기 전처리를 수행하는 단계는 거울을 사용하여 디스플레이 장치에 표시되는 격자점들의 위치를 예측하는 단계; 및 상기 격자점들의 위치에 놓이도록 상기 디스플레이 장치의 위치를 조정하여 정반사(specular reflection) 성분을 제거함으로써 상기 제1 영상을 획득하는 단계를 포함할 수 있다. The step of performing the above preprocessing may include the step of predicting the positions of grid points displayed on the display device using a mirror; and the step of adjusting the position of the display device to be located at the positions of the grid points to remove a specular reflection component, thereby obtaining the first image.
상기 정반사 성분을 제거함으로써 상기 제1 영상을 획득하는 단계는 편광 카메라를 이용하여 상기 3차원 객체를 촬영한 제1 영상으로부터 상기 정반사 성분과 확산 반사(diffuse reflection) 성분을 광학적으로 구분하는 단계; 및 상기 3차원 객체를 촬영한 제1 영상으로부터 상기 정반사 성분을 제거한 상기 확산 반사 성분의 영상을 상기 제1 영상으로 획득하는 단계를 포함할 수 있다. The step of obtaining the first image by removing the above-described specular reflection component may include the step of optically distinguishing the above-described specular reflection component and the above-described diffuse reflection component from a first image of the three-dimensional object captured by using a polarizing camera; and the step of obtaining an image of the above-described diffuse reflection component from the first image of the three-dimensional object captured by removing the above-described specular reflection component as the first image.
상기 제1 표면 법선 벡터를 추정하는 단계는 가상 환경에서의 상기 3차원 객체의 이동 파라미터 및 회전 파라미터를 최적화함으로써 상기 미분 가능한 렌더링 기법을 통해 렌더링한 제2 영상이 상기 제1 영상과 같아지도록 정렬하는 단계; 및 상기 정렬된 제1 영상과 상기 제2 영상을 기초로 상기 제1 표면 법선 벡터를 추정하는 단계를 포함할 수 있다. The step of estimating the first surface normal vector may include a step of aligning a second image rendered through the differentiable rendering technique to be the same as the first image by optimizing translation parameters and rotation parameters of the three-dimensional object in a virtual environment; and a step of estimating the first surface normal vector based on the aligned first image and the second image.
상기 시뮬레이션 영상들을 생성하는 단계는 상기 기저 영상들에 대응하여 상기 가상의 조명 패턴들 별로 캡처된 영상들을 미분 가능한 방식으로 시뮬레이션한 상기 시뮬레이션 영상들을 합성하는 단계를 포함할 수 있다. The step of generating the above simulation images may include a step of synthesizing the simulation images by simulating the images captured for each of the virtual lighting patterns in a differentiable manner corresponding to the base images.
상기 시뮬레이션 영상들을 합성하는 단계는 상기 가상의 조명 패턴들 별로 상기 기저 영상들 각각의 적어도 일부에 대응하는 RGB 색상 강도를 곱하는 가중합에 의해 상기 시뮬레이션 영상들을 합성하는 단계를 포함할 수 있다. The step of synthesizing the above simulation images may include the step of synthesizing the simulation images by a weighted sum that multiplies RGB color intensities corresponding to at least a portion of each of the base images for each of the virtual lighting patterns.
상기 제2 표면 법선 벡터를 예측하는 단계는 디스플레이와 카메라를 사용하여 상기 3차원 객체의 표면 법선을 재구성하는 단계를 포함할 수 있다. The step of predicting the second surface normal vector may include a step of reconstructing a surface normal of the three-dimensional object using a display and a camera.
상기 제2 표면 법선 벡터를 예측하는 단계는 상기 가상의 조명 패턴들에 대응하는 시뮬레이션 영상들로부터 상기 표면 법선(surface normal) 및 확산 알베도(diffuse albedo) 중 적어도 하나를 재구성하는 단계를 포함할 수 있다. The step of predicting the second surface normal vector may include the step of reconstructing at least one of the surface normal and the diffuse albedo from simulated images corresponding to the virtual illumination patterns.
상기 표면 법선 및 상기 확산 알베도 중 적어도 하나를 재구성하는 단계는 상기 확산 알베도를 상기 시뮬레이션 영상들 간의 최대 강도로 설정하는 단계; 상기 최대 강도로 설정된 확산 알베도에 기초한 의사 역법(pseudo-inverse method)을 사용하여 상기 표면 법선을 추정하는 단계; 상기 시뮬레이션 영상들의 RGB 각 채널에 대해 상기 의사 역법을 사용하여 상기 확산 알베도를 추정하는 단계; 및 상기 표면 법선 및 상기 확산 알베도에 대한 반복적인 추정을 통해 상기 표면 법선 및 상기 확산 알베도 중 적어도 하나를 재구성하는 단계를 포함할 수 있다. The step of reconstructing at least one of the surface normal and the diffuse albedo may include the steps of: setting the diffuse albedo to a maximum intensity among the simulation images; estimating the surface normal using a pseudo-inverse method based on the diffuse albedo set to the maximum intensity; estimating the diffuse albedo using the pseudo-inverse method for each RGB channel of the simulation images; and reconstructing at least one of the surface normal and the diffuse albedo through iterative estimation of the surface normal and the diffuse albedo.
상기 제2 표면 법선 벡터를 예측하는 단계는 포토메트릭 스테레오(photometric stereo) 기법에 기초한 선형 시스템에 상기 가상의 조명 패턴들과 상기 가상의 조명 패턴들에 대응하는 시뮬레이션 영상들을 대입하여 상기 제2 표면 법선 벡터를 예측하는 단계를 포함할 수 있다. The step of predicting the second surface normal vector may include a step of predicting the second surface normal vector by inputting the virtual lighting patterns and simulation images corresponding to the virtual lighting patterns into a linear system based on a photometric stereo technique.
일 실시예에 따르면, 3차원 장면을 모델링하는 방법은 학습된 신경망을 이용하여 상기 3차원 대상 객체에 대응하는 조명 패턴들을 획득하는 단계; 상기 조명 패턴들에 의해 3차원 대상 객체를 포함하는 대상 장면을 캡처하는 단계; 및 상기 조명 패턴들에 기초한 포토메트릭 스테레오 기법을 통해 상기 3차원 대상 객체의 표면 법선을 복원함으로써 상기 대상 장면에 대응하는 3차원 장면을 모델링하는 단계를 포함한다. According to one embodiment, a method for modeling a three-dimensional scene includes the steps of: obtaining lighting patterns corresponding to the three-dimensional target object using a learned neural network; capturing a target scene including the three-dimensional target object by the lighting patterns; and modeling a three-dimensional scene corresponding to the target scene by restoring a surface normal of the three-dimensional target object using a photometric stereo technique based on the lighting patterns.
상기 3차원 장면을 모델링하는 단계는 상기 대상 장면의 각 프레임 별로 확산 반사 성분과 정반사 성분의 분리를 수행하여 상기 조명 패턴들 중 어느 하나의 조명 패턴에 대응하는 확산 반사 영상을 획득하는 단계; 및 상기 확산 반사 영상에 상기 포토메트릭 스테레오 기법을 적용하여 상기 3차원 대상 객체의 표면 법선 벡터를 추정하는 단계를 포함할 수 있다. The step of modeling the above three-dimensional scene may include the step of obtaining a diffuse reflection image corresponding to one of the lighting patterns by performing separation of a diffuse reflection component and a specular reflection component for each frame of the target scene; and the step of applying the photometric stereo technique to the diffuse reflection image to estimate a surface normal vector of the three-dimensional target object.
상기 신경망은 표면 법선 정보를 미리 알고 있는 3차원 객체를 촬영한 제1 영상으로부터 상기 3차원 객체의 제1 표면 법선 벡터(surface normal vector)를 추정함으로써 구성되는 데이터 셋에 의해 학습된 것일 수 있다. The above neural network may be trained by a data set configured by estimating a first surface normal vector of a three-dimensional object from a first image of the three-dimensional object whose surface normal information is known in advance.
일 실시예에 따르면, 3차원 장면을 모델링하는 장치는 3차원 대상 객체에 대응하는 조명 패턴들을 수신하는 통신 인터페이스; 상기 조명 패턴들에 의해 3차원 대상 객체를 포함하는 대상 장면을 캡처하는 카메라; 및 상기 조명 패턴들에 기초한 포토메트릭 스테레오 기법을 통해 상기 3차원 대상 객체의 표면 법선을 복원함으로써 상기 대상 장면에 대응하는 3차원 장면을 모델링하는 프로세서를 포함한다. According to one embodiment, a device for modeling a three-dimensional scene includes a communication interface for receiving lighting patterns corresponding to a three-dimensional target object; a camera for capturing a target scene including the three-dimensional target object by the lighting patterns; and a processor for modeling a three-dimensional scene corresponding to the target scene by restoring a surface normal of the three-dimensional target object through a photometric stereo technique based on the lighting patterns.
상기 프로세서는 상기 대상 장면의 각 프레임 별로 확산 반사 성분과 정반사 성분의 분리를 수행하여 상기 조명 패턴들 중 어느 하나의 조명 패턴에 대응하는 확산 반사 영상을 획득하고, 상기 확산 반사 영상에 상기 포토메트릭 스테레오 기법을 적용하여 상기 3차원 대상 객체의 표면 법선 벡터를 추정할 수 있다. The above processor separates the diffuse reflection component and the specular reflection component for each frame of the target scene to obtain a diffuse reflection image corresponding to one of the lighting patterns, and applies the photometric stereo technique to the diffuse reflection image to estimate the surface normal vector of the three-dimensional target object.
상기 3차원 장면을 모델링하는 장치는 상기 조명 패턴들 및 모델링된 상기 3차원 장면 중 적어도 하나를 표시하는 디스플레이를 더 포함할 수 있다. The device for modeling the three-dimensional scene may further include a display for displaying at least one of the lighting patterns and the modeled three-dimensional scene.
상기 3차원 장면을 모델링하는 장치는 조명 스테이지, 핸드헬드 플래시 카메라, 디스플레이 카메라 시스템을 포함한 이미징 시스템, 스마트 글래스(smart glass)를 포함하는 웨어러블 디바이스(wearable device), AR(Augmented Reality) 기기, VR(Virtual Reality) 기기, 및 MR(Mixed Reality) 기기를 포함하는 헤드 마운티드 디바이스(Head Mounted Device; HMD), 텔레비전, 스마트 폰, 퍼스널 컴퓨터, 태블릿, 및 노트북을 포함하는 사용자 단말 중 적어도 하나를 포함할 수 있다.The device for modeling the above three-dimensional scene may include at least one of a lighting stage, an imaging system including a handheld flash camera, a display camera system, a wearable device including smart glasses, a head mounted device (HMD) including an Augmented Reality (AR) device, a Virtual Reality (VR) device, and a Mixed Reality (MR) device, and a user terminal including a television, a smart phone, a personal computer, a tablet, and a laptop.
도 1은 일 실시예에 따른 조명 패턴 결정 방법을 나타낸 흐름도이다.
도 2는 일 실시예에 따른 포토메트릭 스테레오 기법의 개요를 나타낸 도면이다.
도 3a 내지 도 3d는 일 실시예에 따른 거울 기반의 캘리브레이션 및 영상 전처리 과정을 설명하기 위한 도면이다.
도 4a 및 도 4b는 일 실시예에 따른 데이터 셋을 구성하는 방법을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 포토메트릭 스테레오 기법의 재구성(reconstruction) 방법을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 3차원 장면을 모델링하는 방법을 나타낸 흐름도이다.
도 7은 일 실시예에 따른 촬영된 장면으로부터 포토메트릭 스테레오 기법을 통해 복원된 객체의 표면 법선 벡터를 나타낸 도면이다.
도 8은 일 실시예에 따른 조명 패턴의 결정을 위한 학습 과정을 나타낸 도면이다.
도 9는 일 실시예에 따른 3차원 장면을 모델링하는 장치의 블록도이다.Figure 1 is a flowchart illustrating a method for determining a lighting pattern according to one embodiment.
FIG. 2 is a diagram illustrating an overview of a photometric stereo technique according to one embodiment.
FIGS. 3A to 3D are diagrams illustrating a mirror-based calibration and image preprocessing process according to one embodiment.
FIGS. 4A and 4B are diagrams for explaining a method of configuring a data set according to one embodiment.
FIG. 5 is a diagram for explaining a reconstruction method of a photometric stereo technique according to one embodiment.
Figure 6 is a flowchart illustrating a method for modeling a three-dimensional scene according to one embodiment.
FIG. 7 is a diagram showing a surface normal vector of an object restored from a photographed scene using a photometric stereo technique according to one embodiment.
FIG. 8 is a diagram illustrating a learning process for determining a lighting pattern according to one embodiment.
FIG. 9 is a block diagram of a device for modeling a three-dimensional scene according to one embodiment.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.Specific structural or functional descriptions of the embodiments are disclosed for illustrative purposes only and may be implemented in various forms. Accordingly, the actual implemented form is not limited to the specific embodiments disclosed, and the scope of the present disclosure includes modifications, equivalents, or alternatives included in the technical idea described in the embodiments.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.Although the terms first or second may be used to describe various components, such terms should be construed only for the purpose of distinguishing one component from another. For example, a first component may be referred to as a second component, and similarly, a second component may also be referred to as a first component.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.When it is said that a component is "connected" to another component, it should be understood that it may be directly connected or connected to that other component, but there may also be other components in between.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Singular expressions include plural expressions unless the context clearly indicates otherwise. In this specification, the terms "comprises" or "has" and the like are intended to specify the presence of a described feature, number, step, operation, component, part, or combination thereof, but should be understood to not preclude the presence or addition of one or more other features, numbers, steps, operations, components, parts, or combinations thereof.
본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다.In this document, each of the phrases "A or B", "at least one of A and B", "at least one of A or B", "A, B, or C", "at least one of A, B, and C", and "at least one of A, B, or C" can include any one of the items listed together in that phrase, or all possible combinations of them.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art. Terms defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning they have in the context of the relevant art, and will not be interpreted in an idealized or overly formal sense unless explicitly defined herein.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, embodiments will be described in detail with reference to the attached drawings. In describing with reference to the attached drawings, identical components are given the same reference numerals regardless of the drawing numbers, and redundant descriptions thereof will be omitted.
도 1은 일 실시예에 따른 조명 패턴 결정 방법을 나타낸 흐름도이다. 이하의 실시예들에서 각 단계들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 단계들의 순서가 변경될 수도 있으며, 적어도 두 단계들이 병렬적으로 수행될 수도 있다. 도 1을 참조하면, 일 실시예에 따른 패턴 결정 장치는 단계(110) 내지 단계(150)을 통해 조명 패턴을 출력할 수 있다. Fig. 1 is a flow chart illustrating a method for determining a lighting pattern according to one embodiment. In the following embodiments, each step may be performed sequentially, but is not necessarily performed sequentially. For example, the order of each step may be changed, and at least two steps may be performed in parallel. Referring to Fig. 1, a pattern determination device according to one embodiment may output a lighting pattern through steps (110) to (150).
단계(110)에서, 패턴 결정 장치는 표면 법선 정보를 미리 알고 있는 3차원 객체를 촬영한 제1 영상으로부터 3차원 객체의 제1 표면 법선 벡터(surface normal vector)를 추정함으로써 데이터 셋을 구성한다. 여기서, 표면 법선 정보를 미리 알고 있는 3차원 객체는 후술하는 3D 프린팅된 객체에 해당할 수 있으나, 반드시 이에 한정되지는 않는다. 제1 표면 법선 벡터는 실제로 촬영된 3차원 객체에 대한 것이라는 점에서 '정답 표면 법선 벡터'라고 부를 수도 있다.In step (110), the pattern determination device configures a data set by estimating a first surface normal vector of a three-dimensional object from a first image of a three-dimensional object whose surface normal information is known in advance. Here, the three-dimensional object whose surface normal information is known in advance may correspond to a 3D printed object described later, but is not necessarily limited thereto. The first surface normal vector may also be called a 'correct surface normal vector' in that it is for an actually photographed three-dimensional object.
단계(110)의 데이터 셋 구성에 앞서, 패턴 결정 장치는 제1 영상에서 정반사 성분을 제거하는 전처리를 수행할 수 있다. 전처리 시에, 패턴 결정 장치는 캘리브레이션과 함께 제1 영상에 대한 영상 전처리를 수행할 수 있다. 전처리가 수행되는 경우, 패턴 결정 장치는 전처리된 제1 영상으로부터 데이터 셋을 구성할 수 있다. 패턴 결정 장치는 예를 들어, 거울 기반의 캘리브레이션 기법에 의해 거울을 사용하여 디스플레이 장치에 표시되는 격자점들의 위치를 추정하고, 격자점들의 위치에 놓이도록 디스플레이의 위치를 조정할 수 있다. 패턴 결정 장치는 디스플레이의 위치 조정에 의해 획득된 영상에서 정반사(specular reflection) 성분을 제거하는 전처리를 통해 제1 영상을 획득할 수 있다. 패턴 결정 장치가 전처리를 수행하는 방법은 아래의 도 3a 내지 도 3d를 참조하여 보다 구체적으로 설명한다.Prior to configuring the data set in step (110), the pattern determination device can perform preprocessing to remove specular reflection components from the first image. During the preprocessing, the pattern determination device can perform image preprocessing for the first image together with calibration. When the preprocessing is performed, the pattern determination device can configure a data set from the preprocessed first image. The pattern determination device can estimate the positions of grid points displayed on the display device using a mirror, for example, by a mirror-based calibration technique, and adjust the position of the display to be located at the positions of the grid points. The pattern determination device can obtain the first image through preprocessing to remove specular reflection components from the image obtained by adjusting the position of the display. The method by which the pattern determination device performs the preprocessing will be described in more detail with reference to FIGS. 3a to 3d below.
패턴 결정 장치는 3차원 객체를 기저 조명에 의해 촬영한 제1 영상을 획득할 수 있다. 패턴 결정 장치는 미분 가능한 렌더링(Differentiable Rendering) 기법을 통해 제1 영상으로부터 제1 표면 법선 벡터를 추정할 수 있다. 여기서, '기저 조명'은 예를 들어, 각 광원을 최대 강도로 하나씩 켜는 OLAT(One-Light-A-Time) 패턴일 수 있다. OLAT패턴은 일반적으로 각 광원의 강도가 조명 스테이지와 같이 큰 노이즈 없이 카메라 센서에 의해 감지될 광 에너지를 제공하기에 충분할 때 사용될 수 있다. 인접한 광원 그룹으로 OLAT 패턴을 확장하는 경우, 광 에너지가 증가하고 측정 노이즈가 줄어들 수 있다. 이때 각 3차원 축에 대해 조명의 절반은 켜지고 나머지 절반은 꺼지는 보완 패턴 또한 기저 조명으로 사용될 수 있다. The pattern determination device can acquire a first image of a three-dimensional object by ground illumination. The pattern determination device can estimate a first surface normal vector from the first image by a differentiable rendering technique. Here, the 'ground illumination' can be, for example, an OLAT (One-Light-A-Time) pattern in which each light source is turned on one by one at maximum intensity. The OLAT pattern can generally be used when the intensity of each light source is sufficient to provide light energy detected by a camera sensor without significant noise, such as a lighting stage. When the OLAT pattern is extended to a group of adjacent light sources, the light energy can be increased and the measurement noise can be reduced. At this time, a complementary pattern in which half of the lights are turned on and the other half are turned off for each three-dimensional axis can also be used as the ground illumination.
패턴 결정 장치는 가상 환경에서의 3차원 객체의 이동 파라미터 및 회전 파라미터를 결정함으로써 미분 가능한 렌더링 기법을 통해 렌더링한 제2 영상이 제1 영상과 같아지도록 정렬할 수 있다. 패턴 결정 장치는 정렬된 제1 영상과 제2 영상을 기초로 제1 표면 법선 벡터를 추정할 수 있다. 패턴 결정 장치는 3D 프린팅된 객체를 사용하여 알려진 형상을 갖춘 실제 포토메트릭 스테레오 데이터 셋을 생성할 수 있다. 패턴 결정 장치가 데이터 셋을 구성하는 방법은 아래의 도 4a 및 도 4b를 참조하여 보다 구체적으로 설명한다. The pattern determination device can align the second image rendered through a differentiable rendering technique to be the same as the first image by determining the translation parameters and rotation parameters of the three-dimensional object in the virtual environment. The pattern determination device can estimate the first surface normal vector based on the aligned first and second images. The pattern determination device can generate a real photometric stereo data set having a known shape using the 3D printed object. The method by which the pattern determination device configures the data set is described in more detail with reference to FIGS. 4A and 4B below.
단계(120)에서, 패턴 결정 장치는 데이터 셋에 포함된 기저 영상들(Basis images)(예: 도 4a의 기저 영상들(430) 참조)의 조합에 기초한 가상의 조명 패턴들(Illumination Patterns)을 3차원 객체에 적용한 시뮬레이션 영상들을 생성한다. 기저 영상들의 조합에 의해 가상의 조명 패턴들을 생성할 수 있다는 점에서 기저 영상들은 '기저 조명 영상들(Basis illumination images)'이라 부를 수도 있다. 패턴 결정 장치는 기저 영상들에 대응하여 가상의 조명 패턴들 별로 캡처된 영상들을 미분 가능한 방식으로 시뮬레이션한 시뮬레이션 영상들을 합성할 수 있다. 패턴 결정 장치는 기저 영상들을 활용하여 가벼운 연산만으로도 실제의 다양한 조명 조건들을 시뮬레이션 할 수 있으므로 가볍고 효과적인 조명 패턴의 최적화를 달성할 수 있다. 패턴 결정 장치는 예를 들어, 가상의 조명 패턴들 별로 기저 영상들 각각의 적어도 일부에 대응하는 RGB 색상 강도를 곱하는 가중합에 의해 시뮬레이션 영상들을 합성할 수 있다. 시뮬레이션 영상들을 합성하는 방법은 아래의 도 5를 참조하여 보다 구체적으로 설명한다. In step (120), the pattern determination device generates simulation images by applying virtual illumination patterns to a 3D object based on a combination of basis images (e.g., see basis images (430) of FIG. 4a) included in the data set. Since the basis images can generate virtual illumination patterns by combining the basis images, the basis images may also be called 'basis illumination images'. The pattern determination device can synthesize simulation images that simulate images captured for each virtual illumination pattern in a differentiable manner in response to the basis images. Since the pattern determination device can simulate various actual illumination conditions with only light calculations by utilizing the basis images, the optimization of a light and effective illumination pattern can be achieved. The pattern determination device can synthesize simulation images by, for example, a weighted sum that multiplies RGB color intensities corresponding to at least a part of each of the basis images for each virtual illumination pattern. A method of synthesizing simulation images will be described in more detail with reference to FIG. 5 below.
단계(130)에서, 패턴 결정 장치는 가상의 조명 패턴들 및 가상의 조명 패턴들에 대응하는 시뮬레이션 영상들에 기초한 포토메트릭 스테레오(Photometric Stereo)의 재구성(reconstruction)을 통해 3차원 객체에 대한 제2 표면 법선 벡터를 추정한다. 패턴 결정 장치는 포토메트릭 스테레오 기법에 의해 다양한 조명 조건에서 장면 점의 강도 변화를 활용하여 표면 법선을 재구성할 수 있다. 표면 법선을 재구성하는 기술은 예를 들어, 수많은 점 광원을 활용하는 조명 스테이지, 핸드 헬드 플래시 카메라 및 디스플레이 카메라 시스템을 포함하는 다양한 이미징 시스템(예: 이미징 시스템(310))에 적용될 수 있다. 패턴 결정 장치는 포토메트릭 스테레오 기법에 기초한 선형 시스템에 가상의 조명 패턴들과 가상의 조명 패턴들에 대응하는 시뮬레이션 영상들을 대입하여 제2 표면 법선 벡터를 추정할 수 있다. In step (130), the pattern determination device estimates a second surface normal vector for the three-dimensional object through reconstruction of photometric stereo based on virtual lighting patterns and simulated images corresponding to the virtual lighting patterns. The pattern determination device can reconstruct the surface normal by utilizing intensity changes of scene points under various lighting conditions by the photometric stereo technique. The technique of reconstructing the surface normal can be applied to various imaging systems (e.g., the imaging system (310)) including, for example, a lighting stage utilizing numerous point light sources, a handheld flash camera, and a display camera system. The pattern determination device can estimate the second surface normal vector by substituting the virtual lighting patterns and simulated images corresponding to the virtual lighting patterns into a linear system based on the photometric stereo technique.
포토메트릭 스테레오 기법은 다양한 조명 조건에서 객체를 관찰하여 객체의 표면 법선을 추정하는 컴퓨터 비전 기술로서, 대상 객체에 여러 개의 조명들 또는 조명 패턴들을 순차적으로 적용하고 카메라를 통해 획득한 최소 3개 이상의 영상을 이용하여 객체의 3차원 형상을 추출하는 기법에 해당할 수 있다. 일 실시예에서, '조명 패턴(들)'은 예를 들어, 모니터와 같은 디스플레이를 통해 제공된다는 점에서 '디스플레이 패턴'이라 부를 수도 있다.Photometric stereo technique is a computer vision technique that estimates the surface normal of an object by observing the object under various lighting conditions. It may correspond to a technique that sequentially applies multiple lights or lighting patterns to a target object and extracts the three-dimensional shape of the object using at least three images acquired through a camera. In one embodiment, the 'lighting pattern(s)' may also be called 'display pattern' in that they are provided through a display such as a monitor, for example.
포토메트릭 스테레오 기법에 의하면, 조명들의 개수가 많을수록 보다 신뢰성 있게 객체의 3차원 형상을 추출할 수 있다. 이는 객체의 표면에서 반사되는 빛의 양이 광원과 관찰자에 대한 표면의 방향에 따라 달라진다는 사실에 근거할 수 있다. 가능한 표면 방향의 공간은 카메라에 반사되는 빛의 양을 측정하여 제한될 수 있다. 다양한 각도에서 충분한 광원이 주어지면 표면 방향이 단일 방향으로 제한되거나 과도하게 제한될 수 있다.According to the photometric stereo technique, the more the number of lights, the more reliably the 3D shape of the object can be extracted. This can be based on the fact that the amount of light reflected from the surface of the object varies depending on the direction of the surface relative to the light source and the observer. The space of possible surface directions can be limited by measuring the amount of light reflected to the camera. Given enough light sources from various angles, the surface direction can be limited or over-limited to a single direction.
특히, 디스플레이를 조명 소스로 사용하는 디스플레이 포토메트릭 스테레오 기법은 다용도의 접근 가능한 시스템을 제공할 수 있다. 디스플레이에는 프로그래밍 가능한 점 광원 역할을 할 수 있는 수많은 3색 픽셀들이 장착될 수 있다. 일 실시예에서는 표준 모니터와 같은 디스플레이와 카메라를 사용하여 고품질 표면 법선을 재구성하는 미분 가능한 디스플레이 포토메트릭 스테레오(Differentiable Display Photometric Stereo; DDPS) 기법을 사용할 수 있다. 미분 가능한 디스플레이 포토메트릭 스테레오(DDPS) 기법은 손으로 만든 조명 패턴에 의존하는 대신 차별화 가능한 프레임워크와 엔드-투-엔드 최적화를 사용하여 조명 패턴을 학습하여 대상 시스템에 최적화된 표면 법선을 재구성할 수 있다. 이하, 설명의 편의를 위하여, '미분 가능한 디스플레이 포토메트릭 스테레오 기법'을 '포토메트릭 스테레오 기법'로 간략화하여 표현하기로 한다. 따라서, 이하에서 별도의 기재가 없더라도 용어 '포토메트릭 스테레오 기법'은 '미분 가능한 디스플레이 포토메트릭 스테레오(DDPS) 기법'을 의미하는 것으로 이해될 수 있다. In particular, display photometric stereo techniques using a display as a light source can provide a versatile and accessible system. The display can be equipped with a large number of three-color pixels that can act as programmable point sources. In one embodiment, a differentiable display photometric stereo (DDPS) technique can be used to reconstruct high-quality surface normals using a display and a camera, such as a standard monitor. Instead of relying on handcrafted light patterns, the differentiable display photometric stereo (DDPS) technique can learn the light patterns using a differentiable framework and end-to-end optimization to reconstruct surface normals optimized for the target system. Hereinafter, for the convenience of explanation, the term 'differentiable display photometric stereo technique' will be abbreviated as 'photometric stereo technique'. Therefore, even if not otherwise described below, the term 'photometric stereo technique' can be understood to mean 'differentiable display photometric stereo (DDPS) technique'.
일 실시예에서는 기저 조명 영상의 형성과 최적화 기반의 포토메트릭 스테레오 기법을 결합한 미분 가능한 파이프라인을 사용할 수 있다. 기저 조명 영상의 형성을 위한 기저 조명 모델은 개별 광원을 최대 강도로 설정하여 영상을 캡처하는 동시에 다른 광원은 꺼진 상태로 유지하는 방식으로 작동될 수 있다. 전술한 미분 가능한 파이프라인은 최종적인 재구성 손실이 조명 패턴으로 다시 전파되도록 함으로써 조명 패턴의 효율적인 학습이 가능하게 할 수 있다. In one embodiment, a differentiable pipeline can be used that combines the formation of a ground-illuminated image with an optimization-based photometric stereo technique. The ground-illuminated model for the formation of a ground-illuminated image can operate by capturing the image by setting individual light sources to their maximum intensity while keeping other light sources off. The differentiable pipeline described above can enable efficient learning of the illumination pattern by allowing the final reconstruction loss to be propagated back to the illumination pattern.
패턴 결정 장치는 포토메트릭 스테레오 기법에 의한 영상 형성 및 재구성의 미분 가능한 프레임워크를 사용하여 표면 법선의 재구성 손실에 의해 조명 패턴을 최적화할 수 있다. 포토메트릭 스테레오 기법은 법선 재구성을 위한 조명 패턴을 최적화할 수 있다. 포토메트릭 스테레오 기법은 디스플레이 조명을 위해 유비쿼터스 LCD 장치와 그 편광 상태를 활용할 수 있다. 포토메트릭 스테레오 기법은 3D 프린팅된 객체를 사용하여 법선 재구성 손실을 조명 학습에 직접 적용하여 합성 도메인과 실제 도메인 간의 갭을 줄일 수 있다. 포토메트릭 스테레오 기법에 대하여는 아래의 도 2를 참조하여 보다 구체적으로 설명한다. The pattern decision device can optimize the illumination pattern by the reconstruction loss of surface normals using a differentiable framework of image formation and reconstruction by photometric stereo technique. Photometric stereo technique can optimize the illumination pattern for normal reconstruction. Photometric stereo technique can utilize ubiquitous LCD devices and their polarization states for display illumination. Photometric stereo technique can directly apply normal reconstruction loss to illumination learning by using 3D printed objects to narrow the gap between synthetic domain and real domain. The photometric stereo technique is described in more detail with reference to Fig. 2 below.
패턴 결정 장치는 포토메트릭 스테레오 기법에 기초한 선형 시스템에 가상의 조명 패턴들과 가상의 조명 패턴들에 대응하는 시뮬레이션 영상들을 대입하여 제2 표면 법선 벡터를 추정할 수 있다. 패턴 결정 장치는 가상의 조명 패턴들에 대응하는 시뮬레이션 영상들로부터 표면 법선(surface normal) 및 확산 알베도(diffuse albedo) 중 적어도 하나를 재구성할 수 있다. 패턴 결정 장치는 확산 알베도를 시뮬레이션 영상들 간의 최대 강도로 설정할 수 있다. 패턴 결정 장치는 최대 강도로 설정된 확산 알베도에 기초한 의사 역법(pseudo-inverse method)을 사용하여 표면 법선을 추정할 수 있다. 패턴 결정 장치는 시뮬레이션 영상들의 RGB 각 채널에 대해 의사 역법을 사용하여 확산 알베도를 추정할 수 있다. 패턴 결정 장치는 표면 법선 및 확산 알베도에 대한 반복적인 추정을 통해 표면 법선 및 확산 알베도를 재구성할 수 있다. A pattern determination device can estimate a second surface normal vector by inputting virtual lighting patterns and simulation images corresponding to the virtual lighting patterns into a linear system based on a photometric stereo technique. The pattern determination device can reconstruct at least one of a surface normal and a diffuse albedo from the simulation images corresponding to the virtual lighting patterns. The pattern determination device can set the diffuse albedo to the maximum intensity among the simulation images. The pattern determination device can estimate the surface normal using a pseudo-inverse method based on the diffuse albedo set to the maximum intensity. The pattern determination device can estimate the diffuse albedo using the pseudo-inverse method for each RGB channel of the simulation images. The pattern determination device can reconstruct the surface normal and the diffuse albedo through iterative estimation of the surface normal and the diffuse albedo.
포토메트릭 스테레오 기법의 재구성(reconstruction) 방법 및 포토메트릭 스테레오 기법에 기초한 선형 시스템의 일 예시는 아래의 도 5를 참조하여 보다 구체적으로 설명한다. A reconstruction method of the photometric stereo technique and an example of a linear system based on the photometric stereo technique are described in more detail with reference to Fig. 5 below.
단계(140)에서, 패턴 결정 장치는 단계(110)에서 추정한 제1 표면 법선 벡터와 단계(130)에서 추정한 제2 표면 법선 벡터 간의 차이에 기초하여 조명 패턴을 결정하도록 신경망을 학습한다. 신경망은 예를 들어, Deep Feedforward Network(DFN), Convolutional Neural Network(CNN), Recurrent Neural Network(RNN)일 수 있으나, 반드시 이에 한정되지는 않는다.In step (140), the pattern determination device trains a neural network to determine an illumination pattern based on the difference between the first surface normal vector estimated in step (110) and the second surface normal vector estimated in step (130). The neural network may be, for example, a Deep Feedforward Network (DFN), a Convolutional Neural Network (CNN), or a Recurrent Neural Network (RNN), but is not necessarily limited thereto.
패턴 결정 장치는 포토메트릭 스테레오 기법에 의해 예를 들어, 아래의 두 가지 방식으로 초기 조명 패턴을 수정할 수 있다. 패턴 결정 장치는 다양한 각도에서 적절한 영상 강도 캡처를 보장하기 위해 밝은 영역(bright region)의 면적(area)을 조정할 수 있다. 또한, 패턴 결정 장치는 3색 포토메트릭 스테레오(trichromatic photometric stereo)에 의해 초기 조명 패턴의 색상 분포를 수정하여 각 색상 채널에 대한 다양한 조명 패턴을 제공할 수 있다. 포토메트릭 스테레오 기법은 RGB 강도를 다양한 영역에 공간적으로 분산시켜 다양한 방향에서 3색 조명을 활용할 수 있다. 이때, 조명 패턴의 전체적인 모양은 학습 과정의 초기 단계에서 결정될 수 있으나, 반드시 이에 한정되지는 않는다. 패턴 결정 장치는 단계(140)에서 학습된 신경망에 의해 결정된 조명 패턴을 출력할 수 있다. 이때, 출력되는 조명 패턴은 표면 법선의 재구성을 위해 모든 픽셀들에 대한 충분한 조명이 있는 조명 패턴에 해당할 수 있다. The pattern determination device can modify the initial illumination pattern by photometric stereo technique, for example, in the following two ways. The pattern determination device can adjust the area of the bright region to ensure proper image intensity capture from various angles. In addition, the pattern determination device can modify the color distribution of the initial illumination pattern by trichromatic photometric stereo to provide various illumination patterns for each color channel. The photometric stereo technique can utilize three-color illumination from various directions by spatially distributing RGB intensities to various regions. At this time, the overall shape of the illumination pattern can be determined at the early stage of the learning process, but is not necessarily limited thereto. The pattern determination device can output the illumination pattern determined by the learned neural network in step (140). At this time, the output illumination pattern can correspond to an illumination pattern with sufficient illumination for all pixels for reconstructing the surface normal.
도 2는 일 실시예에 따른 포토메트릭 스테레오 기법의 개요를 나타낸 도면(200)이다. 일 실시예에서는 디스플레이와 카메라를 사용하여 충실도가 높은 표면 법선 재구성을 달성하기 위해 설계된 미분 가능한 디스플레이 포토메트릭 스테레오(DDPS) 기법을 사용할 수 있다. FIG. 2 is a drawing (200) illustrating an overview of a photometric stereo technique according to one embodiment. In one embodiment, a differentiable display photometric stereo (DDPS) technique may be used, which is designed to achieve high fidelity surface normal reconstruction using a display and a camera.
미분 가능한 디스플레이 포토메트릭 스테레오(DDPS) 기법은 데이터 셋 획득(Dataset acquisition) 과정(201), 패턴 트레이닝(Training patterns) 과정(203) 및 테스팅(Testing) 과정(205)으로 구성될 수 있다. 데이터 셋 획득 과정(201), 패턴 트레이닝 과정(203)은 도 1을 통해 전술한 조명 패턴 결정 방법에 해당할 수 있다. 테스팅 과정(205)는 아래의 도 6을 통해 설명하는 학습된 조명 패턴을 이용하여 3차원 장면을 모델링하는 추론 과정에 해당할 수 있다. The differentiable display photometric stereo (DDPS) technique may be composed of a dataset acquisition process (201), a pattern training process (203), and a testing process (205). The dataset acquisition process (201) and the pattern training process (203) may correspond to the illumination pattern determination method described above through Fig. 1. The testing process (205) may correspond to an inference process that models a 3D scene using the learned illumination pattern described through Fig. 6 below.
데이터 셋 획득 과정(201)에서, 패턴 결정 장치는 3D 프린팅된 객체를 기저 조명을 사용하여 촬영하고, 촬영한 영상을 기반으로 미분가능한 렌더링을 통해 해당 객체의 제1 표면 법선 벡터를 얻을 수 있다. In the data set acquisition process (201), the pattern determination device can capture a 3D printed object using base lighting, and obtain a first surface normal vector of the object through differentiable rendering based on the captured image.
패턴 결정 장치는 데이터 셋 획득 과정(201)에 앞서, 캘리브레이션과 영상 전처리를 수행할 수 있다. 전처리 과정에서, 패턴 결정 장치는 거울을 사용하여 디스플레이에 표시되는 격자점들의 위치를 추정할 수 있다. 패턴 결정 장치는 격자점들의 위치에 놓이도록 디스플레이의 위치를 조정하는 거울 기반의 캘리브레이션을 수행할 수 있다. 패턴 결정 장치는 캘리브레이션을 통해 디스플레이 장치의 위치를 조정하여 정반사 성분을 제거함으로써 제1 영상을 획득할 수 있다. The pattern determination device can perform calibration and image preprocessing prior to the data set acquisition process (201). In the preprocessing process, the pattern determination device can estimate the positions of grid points displayed on the display using a mirror. The pattern determination device can perform mirror-based calibration to adjust the position of the display to be located at the positions of the grid points. The pattern determination device can acquire the first image by adjusting the position of the display device through calibration to remove the specular reflection component.
또한, 패턴 결정 장치는 편광 성질을 활용하여 촬영된 영상에서 정반사 성분을 분리할 수 있다. 거울 기반의 캘리브레이션 및 정반사 성분의 분리 방법은 아래의 도 3a 내지 도 3d를 참조하여 보다 구체적으로 설명한다. In addition, the pattern determination device can separate the specular component from the captured image by utilizing the polarization property. The mirror-based calibration and specular component separation method is described in more detail with reference to FIGS. 3a to 3d below.
데이터 셋 획득 과정(201)에서, 패턴 결정 장치는 다양한 3D 모델에 대한 3D 프린팅을 수행하고, 3D 프린팅된 객체의 기저 영상들을 캡처하며, 캡처된 기저 영상들을 사용하여 실제 표면 법선 맵을 얻을 수 있다. 이때, 획득한 실제 표면 법선 맵은 제1 표면 법선 벡터에 해당할 수 있다. In the data set acquisition process (201), the pattern determination device can perform 3D printing for various 3D models, capture base images of the 3D printed object, and obtain an actual surface normal map using the captured base images. At this time, the acquired actual surface normal map may correspond to the first surface normal vector.
패턴 결정 장치는 엔드-투-엔드 최적화 시에 합성 트레이닝 데이터의 사용으로 인해 발생하는 합성 도메인과 실제 도메인 간의 격차를 완화하기 위해 3D 프린팅된 객체를 사용하여 현실적인 트레이닝 데이터 셋을 구성할 수 있다. 패턴 결정 장치는 3차원 모델의 실측 지오메트리를 캡처된 영상에 맞춰 실측 표면 법선 맵(예: 제1 표면 법선 벡터(210))을 추출할 수 있다. 패턴 결정 장치는 기저 영상들(215)의 형성과 실측 표면 법선 맵(예: 제1 표면 법선 벡터(210))의 추출을 결합하는 방식을 통해 도메인 간의 갭(gap)을 효과적으로 줄일 수 있다. The pattern determination device can construct a realistic training data set using 3D printed objects to alleviate the gap between the synthetic domain and the real domain that occurs due to the use of synthetic training data during end-to-end optimization. The pattern determination device can extract a real-world surface normal map (e.g., a first surface normal vector (210)) by fitting the real-world geometry of the 3D model to the captured image. The pattern determination device can effectively reduce the gap between the domains by combining the formation of the basis images (215) and the extraction of the real-world surface normal map (e.g., the first surface normal vector (210)).
또한, 일 실시예에서는 모니터와 같은 디스플레이가 선형 편광을 방출한다는 점을 이용하여 디스플레이가 방출하는 선형 편광을 카메라와 결합하여 정반사를 광학적으로 필터링함으로써 캡처된 기저 영상들(215)로부터 확산 반사 성분이 지배적인 영상('확산 반사 영상')을 추출할 수 있다. 패턴 결정 장치는 확산 반사 영상을 사용하여 포토메트릭 스테레오 기법에 대한 램버시안(Lambertian) 가정을 충족시켜 표면 법선을 보다 정확하게 재구성(230)할 수 있다. 램버시안의 코사인 법칙에 따르면, 램버시안 표면(Lambertian surface)를 바라볼 때의 광도(radiant intensity)는 표면의 법선 방향과 이루는 각의 코사인에 비례할 수 있다. 이는 법선과 일치하는 면에서 봤을 때가 비스듬히 봤을 때보다 더 많은 광도를 가진다는 의미로 이해될 수 있다. '램버시안 표면'은 모든 방향에서 보아도 똑같은 밝기로 보이는 표면을 뜻할 수 있다. 램버시안 표면은 모든 방향으로 같은 양의 빛을 반사하기 때문에 관찰자의 위치에 관계없이 모든 방향에서의 빛이 같은 밝기로 보일 수 있다. 여기서, '램버시안 가정'은 물체가 램버시안 표면 성질을 지닌다는 것일 수 있다. Also, in one embodiment, by utilizing the fact that a display such as a monitor emits linear polarization, the linear polarization emitted by the display can be combined with a camera to optically filter out the specular reflection to extract an image ('diffuse reflection image') in which the diffuse reflection component is dominant from the captured base images (215). The pattern determination device can use the diffuse reflection image to satisfy the Lambertian assumption for the photometric stereo technique to more accurately reconstruct the surface normal (230). According to the cosine law of Lambertian, the radiant intensity when viewing a Lambertian surface can be proportional to the cosine of the angle formed with the normal direction of the surface. This can be understood to mean that the radiant intensity is greater when viewed from a side that is coincident with the normal than when viewed obliquely. A 'Lambertian surface' can mean a surface that appears to have the same brightness when viewed from all directions. Since a Lambertian surface reflects the same amount of light in all directions, light from all directions can appear to have the same brightness, regardless of the observer's position. Here, the 'Lambertian assumption' can be that the object has Lambertian surface properties.
또한, 패턴 결정 장치는 후술하는 거울 기반의 캘리브레이션 기법을 통해 미분 가능한 디스플레이 포토메트릭 스테레오(DDPS) 시스템을 위한 디스플레이(예: 모니터)의 픽셀 위치를 보다 정확하게 추정할 수 있다. Additionally, the pattern determination device can more accurately estimate pixel positions of a display (e.g., a monitor) for a differentiable display photometric stereo (DDPS) system through a mirror-based calibration technique described below.
패턴 트레이닝 과정(203)에서, 패턴 결정 장치는 과정(201)에서 획득한 데이터 셋 중 기저 영상들(215)을 조합하여 가상의 조명 패턴들(235)에 대한 렌더링(220)을 통해 새로운 영상을 시뮬레이션할 수 있다. 이때, 시뮬레이션된 가상의 조명 패턴들(235)에 대한 영상을 '시뮬레이션 영상'(225)이라 부를 수 있다. In the pattern training process (203), the pattern determination device can simulate a new image through rendering (220) for virtual lighting patterns (235) by combining the base images (215) among the data sets acquired in the process (201). At this time, the image for the simulated virtual lighting patterns (235) can be called a 'simulation image' (225).
패턴 결정 장치는 선형 시스템으로 근사화 된 영상 형성 수식(예: 수학식 8 참조)에 가상의 조명 패턴들(235)과 가상의 조명 패턴들(235)에 대응하는 시뮬레이션 영상(들)(225)을 대입하여 객체에 대한 표면 법선 벡터('제2 표면 법선 벡터')(240)를 산출할 수 있다. 이러한 과정은 포토메트릭 스테레오 기법에 해당할 수 있다. 패턴 결정 장치는 정답에 해당하는 제1 표면 법선 벡터(210)와 산출된 표면 법선 벡터('제2 표면 법선 벡터')(240) 간의 차이 값(245)을 계산하고, 차이 값(245)을 역전파하여 조명 패턴을 최적화할 수 있다. The pattern determination device can output a surface normal vector ('second surface normal vector') (240) for an object by substituting virtual lighting patterns (235) and simulation images (225) corresponding to the virtual lighting patterns (235) into an image formation formula approximated as a linear system (e.g., see Equation 8). This process may correspond to a photometric stereo technique. The pattern determination device can calculate a difference value (245) between the first surface normal vector (210) corresponding to the correct answer and the output surface normal vector ('second surface normal vector') (240), and backpropagate the difference value (245) to optimize the lighting pattern.
패턴 트레이닝 과정(203)은 트레이닝 데이터 셋에서 고품질 법선 재구성(230)으로 이어지는 조명 패턴들을 트레이닝하는 과정에 해당할 수 있다. 패턴 결정 장치는 영상 형성 프레임워크와 포토메트릭 스테레오 기법을 활용하여 조명 패턴(235)을 최적화함으로써 고품질의 재구성(230)을 제공할 수 있다. 일 실시예에 따르면, 조명 패턴들(235)에 따른 장면의 변화를 시뮬레이션하고, 시뮬레이션 결과를 이용하여 물체의 표면 법선을 계산하는 일련의 과정을 미분 가능하게 설계할 수 있다. The pattern training process (203) may correspond to a process of training illumination patterns that lead to high-quality normal reconstruction (230) from a training data set. The pattern determination device may provide high-quality reconstruction (230) by optimizing the illumination pattern (235) by utilizing an image formation framework and a photometric stereo technique. According to one embodiment, a series of processes of simulating changes in a scene according to illumination patterns (235) and calculating surface normals of an object using the simulation results may be designed to be differentiable.
테스팅 과정(205)에서, 패턴 결정 장치는 패턴 트레이닝 과정(203)을 통해 최적화된 조명 패턴들(235)을 사용하여 실제 장면을 캡처(capture(250))할 수 있다. 패턴 결정 장치는 패턴 트레이닝 과정(203)에서 사용한 포토메트릭 스테레오 기법을 통해 테스팅 과정(205)에서 캡처된 장면(255)의 객체들의 표면 법선을 복원(재구성(230)할 수 있다. In the testing process (205), the pattern determination device can capture (250) an actual scene using the lighting patterns (235) optimized through the pattern training process (203). The pattern determination device can restore (reconstruct (230)) surface normals of objects in the scene (255) captured in the testing process (205) using the photometric stereo technique used in the pattern training process (203).
테스팅 과정(205)에서 패턴 결정 장치는 패턴 트레이닝 과정(203)을 통해 최적화된 조명 패턴(들)(235)을 사용하여 실제 장면에 포함된 객체에 대한 표면 법선을 추정하는 테스트를 수행할 수 있다. 이때, 최적화된 조명 패턴(들)(235)은 예를 들어, 8비트의 RGB 패턴으로 변환되어 표시될 수 있다. 패턴 결정 장치는 예를 들어, 반복되는 개의 다양한 조명 패턴들(235)에서 편광 영상들을 캡처(250)할 수 있다. 패턴 결정 장치는 각 프레임 별로 확산 반사 성분과 정반사 성분의 분리를 수행하여 번째 조명 패턴에 대한 확산 반사 영상을 획득할 수 있다. 패턴 결정 장치는 확산 반사 영상에 포토메트릭 스테레오 기법 기법을 적용하여 표면 법선을 추정할 수 있다. In the testing process (205), the pattern determination device can perform a test to estimate a surface normal for an object included in an actual scene by using the optimized illumination pattern(s) (235) through the pattern training process (203). At this time, the optimized illumination pattern(s) (235) can be converted and displayed as, for example, an 8-bit RGB pattern. The pattern determination device can capture (250) polarization images from, for example, various repeated illumination patterns (235). The pattern determination device can obtain a diffuse reflection image for the th illumination pattern by performing separation of a diffuse reflection component and a specular reflection component for each frame. The pattern determination device can estimate a surface normal by applying a photometric stereo technique to the diffuse reflection image.
도 3a 내지 도 3d는 일 실시예에 따른 거울 기반의 캘리브레이션 및 영상 전처리 과정을 설명하기 위한 도면이다. 도 3a및 도 3b를 참조하면, 일 실시예에 따른 거울(323) 기반의 캘리브레이션을 위한 이미징 시스템(310) 및 거울(323) 기반의 기하학적 캘리브레이션 과정을 나타낸 도면(320)이 도시된다. 도 3c를 참조하면, 일 실시예에 따른 편광 성질을 활용하여 정반사 성분을 분리하는 과정을 나타낸 도면(330)이 도시된다. 도 3d를 참조하면, 일 실시예에 따른 편광 영상을 사용하여 정반사 성분을 제거한 영상의 획득 과정을 설명하기 위한 도면(350)이 도시된다. FIGS. 3A to 3D are diagrams for explaining a mirror-based calibration and image preprocessing process according to one embodiment. Referring to FIGS. 3A and 3B, a diagram (320) is illustrated for illustrating an imaging system (310) for mirror-based calibration according to one embodiment and a geometric calibration process based on the mirror (323). Referring to FIG. 3C, a diagram (330) is illustrated for illustrating a process for separating a specular component by utilizing polarization properties according to one embodiment. Referring to FIG. 3D, a diagram (350) is illustrated for explaining a process for obtaining an image from which a specular component is removed by using a polarization image according to one embodiment.
이미징 시스템(310)은 디스플레이(311) 및 카메라(313)를 포함할 수 있다. The imaging system (310) may include a display (311) and a camera (313).
디스플레이(311)는 선형적으로 편광된 빛을 조사하는 상용 대형 곡면 LCD(Liquid Crystal Display) 모니터일 수 있으나 반드시 이에 한정되지는 않는다. 디스플레이(311)의 각 픽셀은 LCD의 편광 감지 광학 요소로 인해 3가지 색상의 RGB 스펙트럼에서 수평 선형 편광을 방출할 수 있다. 디스플레이(311)의 픽셀은 = 9Х16인 슈퍼 픽셀일 수 있으나, 반드시 이에 한정되지는 않는다. The display (311) may be, but is not necessarily limited to, a commercially available large-screen curved LCD (Liquid Crystal Display) monitor that emits linearly polarized light. Each pixel of the display (311) may emit horizontal linearly polarized light in the RGB spectrum in three colors due to the polarization-sensitive optical elements of the LCD. The pixels of the display (311) may be, but are not necessarily limited to, super-pixels of = 9Х16.
카메라(313)는 도 3c에 도시된 것과 같은 편광 카메라(Polarization camera)(313)일 수 있다. 카메라(313)는 예를 들어, 온 센서 선형 편광 필터가 있는 편광 카메라일 수 있다.The camera (313) may be a polarization camera (313) such as that illustrated in FIG. 3c. The camera (313) may be, for example, a polarization camera having an on-sensor linear polarization filter.
카메라(313)는 예를 들어, 도 3d의 도면(350)에 도시된 것과 같이 4개의 선형 편광 강도를 네 가지 다른 각도들(예: 0°, 45°, 90°, 135°)에서 촬영한 영상들(I0°, I45°, I90° 및 I135°)(351)을 캡처할 수 있다. 이때, 디스플레이(311)에서 방출되는 선형 편광은 실제 장면과 상호 작용하여 표면 지점에 대한 정반사 성분 및 확산 반사 성분을 모두 생성할 수 있다. 정반사 성분은 빛의 편광 상태를 유지하는 경향이 있는 반면, 확산 반사 성분은 종종 편광되지 않을 수 있다. The camera (313) can capture images (I 0° , I 45° , I 90° and I 135° ) (351) of four linear polarization intensities at four different angles (e.g., 0 °, 45 °, 90° , 135°), for example, as illustrated in the drawing ( 350 ) of FIG. 3d . In this case, the linear polarization emitted from the display (311) can interact with the actual scene to generate both specular and diffuse reflection components for the surface point. The specular reflection component tends to maintain the polarization state of the light, whereas the diffuse reflection component can often be unpolarized.
일 실시예에서는 카메라(313)와 디스플레이(311)의 스펙트럼 분포가 일치한다고 가정할 수 있다. 실시예에 따라서, 카메라(313) 앞에 스펙트럼 차단 필터를 추가적으로 사용할 수 있다. In one embodiment, it can be assumed that the spectral distributions of the camera (313) and the display (311) match. Depending on the embodiment, a spectral blocking filter can be additionally used in front of the camera (313).
또한, 일 실시예에서는 대상 장면의 임의의 정점의 평면 기하학 가정(예: 카메라(313)와 디스플레이(311)의 스펙트럼 분포가 일치한다는 가정)에 의존하므로 깊이 변화가 뚜렷한 장면에 대해 편향된 추정이 이루어질 수 있다. 일 실시예에서는 깊이 추정을 위해 다시점 카메라를 사용함으로써 깊이 변화가 뚜렷한 장면에 대해 편향된 추정을 완화할 수 있다. Additionally, since one embodiment relies on the assumption of planar geometry of arbitrary vertices of the target scene (e.g., the assumption that the spectral distributions of the camera (313) and the display (311) match), biased estimation may be made for scenes with distinct depth changes. In one embodiment, the biased estimation can be mitigated for scenes with distinct depth changes by using a re-view camera for depth estimation.
도 3a의 도면(320) 및 도 3b를 참조하면, 거울(323) 기반의 기하학적 캘리브레이션 과정이 도시된다. 일 실시예에서는 카메라(313)의 고유 파라미터와 카메라(313)에 대한 디스플레이(311)의 각 픽셀 위치를 추정하기 위한 거울(323) 기반의 캘리브레이션 방법을 이용할 수 있다. Referring to the drawings (320) of FIG. 3a and FIG. 3b, a mirror (323) based geometric calibration process is illustrated. In one embodiment, a mirror (323) based calibration method may be used to estimate the unique parameters of the camera (313) and the position of each pixel of the display (311) with respect to the camera (313).
패턴 결정 장치는 디스플레이(311)에 흰색 픽셀 격자점들(321)을 표시하여 카메라(313) 앞에 특정 포즈(예: 특정 각도)로 거울(예: 평면 거울)(323)을 배치할 수 있다. 패턴 결정 장치는 디스플레이(311)의 픽셀 좌표가 할당되는 그리드 패턴(321)의 일부 격자점을 반영하는 거울(323)의 영상(324)을 캡처할 수 있다. The pattern determination device can display white pixel grid points (321) on the display (311) to place a mirror (e.g., a flat mirror) (323) in a specific pose (e.g., a specific angle) in front of the camera (313). The pattern determination device can capture an image (324) of the mirror (323) reflecting some of the grid points of the grid pattern (321) to which pixel coordinates of the display (311) are assigned.
보다 구체적으로, 패턴 결정 장치는 체커 보드를 사용하여 거울(323)의 3차원 위치를 캘리브레이션할 수 있다. 패턴 결정 장치는 디스플레이(311)에 반사된 영상을 촬영할 수 있다. 패턴 결정 장치는 거울(323)에 표시된 흰색 픽셀 격자점(321)을 이용하여 해당 디스플레이(311)의 픽셀의 3D 좌표를 추정할 수 있다. 패턴 결정 장치는 캘리브레이션된 정점에 곡선 평면을 피팅하고, 피팅된 평면에서 디스플레이(311)의 픽셀을 샘플링할 수 있다. 패턴 결정 장치는 거울(323)의 포즈(예: 각도)를 다양하게 변경하여 이 절차를 반복함으로써 격자점을 반영하는 여러 쌍의 체커보드 영상(checkerboard image)(325)와 거울 영상(mirror image)(326)을 생성할 수 있다. 패턴 결정 장치는 체커보드 영상(325)로부터 카메라(313)의 고유 파라미터와 각 체커보드의 3차원 포즈를 추정할 수 있다. 패턴 결정 장치는 알려진 디스플레이(311)의 크기로 각 거울 영상(326)에 표시된 격자점의 3차원 정점을 감지하고 캘리브레이션을 통해 디스플레이(311)의 픽셀의 3차원 정점을 획득할 수 있다. 패턴 결정 장치는 거울 기반의 캘리브레이션을 통해 카메라 좌표계 상에서의 디스플레이(311)의 픽셀 위치 정보를 획득할 수 있다. More specifically, the pattern determination device can calibrate the three-dimensional position of the mirror (323) using a checkerboard. The pattern determination device can capture an image reflected on the display (311). The pattern determination device can estimate the three-dimensional coordinates of the pixels of the corresponding display (311) using the white pixel grid points (321) displayed on the mirror (323). The pattern determination device can fit a curved plane to the calibrated vertices and sample the pixels of the display (311) from the fitted plane. The pattern determination device can generate multiple pairs of checkerboard images (325) and mirror images (326) reflecting the grid points by repeating this procedure while varying the pose (e.g., angle) of the mirror (323). The pattern determination device can estimate the unique parameters of the camera (313) and the three-dimensional pose of each checkerboard from the checkerboard image (325). The pattern determination device can detect three-dimensional vertices of grid points displayed on each mirror image (326) with the size of a known display (311) and obtain three-dimensional vertices of pixels of the display (311) through calibration. The pattern determination device can obtain pixel position information of the display (311) on the camera coordinate system through mirror-based calibration.
이때, 패턴 결정 장치는 도 3c의 도면(330)와 같이 편광 성질을 활용하여 촬영된 영상으로부터 정반사 성분을 제거하여 확산 반사 영상을 획득할 수 있다. 패턴 결정 장치는 편광 카메라(313)를 이용하여 3차원 객체(331)를 촬영한 제1 영상으로부터 정반사 성분과 확산 반사 성분을 광학적으로 구분할 수 있다. 패턴 결정 장치는 입사 광도의 편광 상태를 편광 카메라(313)로 분석하여 획득 속도에 따라 확산 반사 성분과 정반사 성분을 분리할 수 있다. 패턴 결정 장치는 디스플레이(예: LCD 모니터)(311)에서 방출되는 선형 편광을 이용하여 확산 반사 영상과 정반사 영상을 분해할 수 있다. 패턴 결정 장치는 3차원 객체를 촬영한 영상('제1 영상')으로부터 정반사 성분을 제거한 확산 반사 성분의 영상을 3차원 객체를 촬영한 영상으로 획득할 수 있다. 패턴 결정 장치는 확산 반사 성분이 지배적인 영상(예: 영상(315) 또는 영상(357))에만 포토메트릭 스테레오 기법을 적용하여 표면 법선을 효과적으로 재구성할 수 있다.At this time, the pattern determination device can obtain a diffuse reflection image by removing the specular reflection component from the captured image by utilizing the polarization property as in the drawing (330) of Fig. 3c. The pattern determination device can optically distinguish the specular reflection component and the diffuse reflection component from the first image in which the three-dimensional object (331) is captured by using the polarization camera (313). The pattern determination device can analyze the polarization state of the incident light intensity by the polarization camera (313) and separate the diffuse reflection component and the specular reflection component according to the acquisition speed. The pattern determination device can decompose the diffuse reflection image and the specular reflection image by utilizing the linear polarization emitted from the display (e.g., LCD monitor) (311). The pattern determination device can obtain an image of the diffuse reflection component by removing the specular reflection component from the image ('first image') in which the three-dimensional object is captured as an image in which the three-dimensional object is captured. The pattern determination device can effectively reconstruct surface normals by applying the photometric stereo technique only to images in which the diffuse reflection component is dominant (e.g., image (315) or image (357)).
패턴 결정 장치는 편광된 빛을 방출하는 디스플레이(311)와 다양한 선형 편광 정보를 실시간 촬영 가능한 카메라(313)를 사용하여 촬영한 영상에서 정반사 성분을 제거함으로써 표면 법선을 효과적으로 재구성할 수 있다. 패턴 결정 장치는 거울 기반의 캘리브레이션을 통해 디스플레이(311)의 각 픽셀의 실제 3차원 좌표를 산출할 수 있다. The pattern determination device can effectively reconstruct the surface normal by removing the specular reflection component from the image captured using a display (311) that emits polarized light and a camera (313) capable of capturing various linear polarization information in real time. The pattern determination device can derive the actual three-dimensional coordinates of each pixel of the display (311) through mirror-based calibration.
일 실시예에서는 확산이 지배적인 영상('확산 반사 영상')으로부터 표면 법선을 재구성함으로써 확산 반사 성분과 정반사 성분을 모두 포함하는 영상을 사용하여 표면 법선을 재구성하는 경우에 정반사 성분으로 인해 발생하는 법선 재구성의 불안정성을 완화할 수 있다. 법선의 재구성을 위해, 패턴 결정 장치는 도 3d와 같이 4개의 편광 강도 값, 다시 말해 네 가지 다른 각도들(예: 0°, 45°, 90°, 135°)에서 캡처된 원시 영상들(I0°, I45°, I90° 및 I135°)(351)을 아래의 수학식 1과 같이 선형 스톡스 벡터 요소(Stokes-vector elements) s0, s1, s2로 변환(convert)할 수 있다. In one embodiment, when reconstructing surface normals using an image containing both diffuse and specular components, the instability in normal reconstruction caused by the specular component can be alleviated by reconstructing the surface normals from an image in which diffusion is dominant ('diffuse reflection image'). For the reconstruction of normals, the pattern determination device can convert raw images (I 0° , I 45 ° , I 90° and I 135 ° ) (351) captured at four different angles (e.g., 0 ° , 45°, 90° , 135°) with four polarization intensity values, as shown in FIG. 3d , into linear Stokes vector elements s 0 , s 1 , s 2 as shown in
선형 스톡스 벡터 요소 s0, s1, s2로 변환된 영상들은 도 3d의 도면(353)을 참고할 수 있다. Images converted into linear Stokes vector elements s 0 , s 1 , s 2 can be referenced to the drawing (353) of Fig. 3d.
패턴 결정 장치는 아래의 수학식 2와 같이 확산 반사(diffuse reflection) 성분 및 정반사(specular reflection) 성분 S을 산출할 수 있다. The pattern determination device can produce a diffuse reflection component and a specular reflection component S as shown in the
영상(315, 355)은 확산 반사 성분 I의 영상에 해당하고, 영상(317, 357)은 정반사 성분 S의 영상에 해당할 수 있다. 패턴 결정 장치는 확산 반사 성분 I의 영상(315, 357)를 포토메트릭 스테레오 기법에 적용할 수 있다. Image (315, 355) may correspond to an image of the diffuse reflection component I, and image (317, 357) may correspond to an image of the specular reflection component S. The pattern determination device may apply the image (315, 357) of the diffuse reflection component I to the photometric stereo technique.
전술한 바와 같이, 패턴 결정 장치는 디스플레이(211)의 편광 조명과 이미징 시스템(310)을 사용하여 확산-반사 분리를 수행할 수 있다. As described above, the pattern determination device can perform diffuse-reflective separation using polarized illumination of the display (211) and the imaging system (310).
패턴 결정 장치는 거울을 사용하여 디스플레이 장치에 표시되는 격자점들의 위치를 추정할 수 있다. 패턴 결정 장치는 격자점들의 위치에 놓이도록 디스플레이 장치의 위치를 조정하여 정반사 성분을 제거함으로써 제1 영상을 획득할 수 있다. The pattern determination device can estimate the positions of grid points displayed on the display device using a mirror. The pattern determination device can obtain a first image by adjusting the position of the display device to be located at the positions of the grid points and thereby eliminating the specular reflection component.
도 4a 및 도 4b는 일 실시예에 따른 데이터 셋을 구성하는 방법을 설명하기 위한 도면이다. FIGS. 4A and 4B are diagrams for explaining a method of configuring a data set according to one embodiment.
도 4a를 참조하면, 일 실시예에 따른 3D 프린팅한 객체(411), 3D 프린팅한 객체(411)를 렌더링한 결과에 해당하는 정답 영상(413), 정답 실루엣 S에 의해 오버레이된 평균 영상(415), 평균 영상(415)에 피팅된 실루엣으로 표시된 대로 실측(정답) 3D 모델(417), 및 피팅된 3차원 D 모델로부터 획득한 정답 법선 맵(ground-truth normal map)(419)을 나타낸 도면(410) 및 3D 프린팅한 객체의 기저 영상들(430)이 도시된다. Referring to FIG. 4A, a drawing (410) showing a 3D printed object (411) according to one embodiment, a correct image (413) corresponding to a result of rendering the 3D printed object (411), an average image (415) overlaid by a correct silhouette S, a ground-
도 4b를 참조하면, 일 실시예에 따른 데이터 셋 획득 과정에서 촬영된 영상을 기반으로 미분 가능한 렌더링을 통해 해당 객체의 정답 표면 법선 벡터('제1 표면 법선 벡터')를 추정하는 과정을 나타낸 도면(450)이 도시된다.Referring to FIG. 4b, a drawing (450) is shown showing a process of estimating a correct surface normal vector ('first surface normal vector') of a corresponding object through differentiable rendering based on an image captured during a data set acquisition process according to one embodiment.
일 실시예에서는 3D 프린팅을 사용하여 알려진 실측 형상을 사용하여 데이터 셋을 생성할 수 있다. 패턴 결정 장치는 예를 들어, 0.2mm의 인쇄 해상도를 갖는 FDM 기반 3D 프린터를 사용하여 11개의 서로 다른 3D 모델을 3D 프린팅할 수 있다. 패턴 결정 장치는 다양한 필라멘트들(예: PLA, PLA+, Matte PLA, eSilk-PLA, eMarble-PLA, Gradient Matte PLA, PETG)을 사용하여 색상, 산란, 확산/반사 비율 측면에서 다양한 외관을 제공할 수 있다. In one embodiment, a data set can be generated using 3D printing using known ground truth geometries. The pattern determination device can 3D print 11 different 3D models using, for example, an FDM-based 3D printer having a print resolution of 0.2 mm. The pattern determination device can use a variety of filaments (e.g., PLA, PLA+, Matte PLA, eSilk-PLA, eMarble-PLA, Gradient Matte PLA, PETG) to provide a variety of appearances in terms of color, scattering, and diffuse/reflective ratios.
패턴 결정 장치는 3D 프린팅한 객체(411)와 같이 표면 법선 정보를 미리 알고 있는 3차원 객체를 촬영한 제1 영상으로부터 3차원 객체의 제1 표면 법선 벡터(surface normal vector)를 추정함으로써 데이터 셋을 구성할 수 있다. The pattern determination device can construct a data set by estimating a first surface normal vector of a three-dimensional object from a first image of a three-dimensional object whose surface normal information is known in advance, such as a 3D printed object (411).
트레이닝 장면을 구성하기 위해 패턴 결정 장치는 3D 프린팅된 객체 중 일부를 이미징 시스템 앞에 배치할 수 있다. 패턴 결정 장치는 각 장면에 대해 기저 영상들 (430)을 캡처할 수 있다. 여기서, j는 j번째 슈퍼 픽셀이 흰색으로 최대 강도로 켜지는 기저 조명의 인덱스에 해당할 수 있다. To construct a training scene, the pattern determination device can place some of the 3D printed objects in front of the imaging system. The pattern determination device can generate base images for each scene. (430) can be captured, where j can correspond to the index of the basis illumination at which the j-th superpixel is turned on with maximum intensity in white.
패턴 결정 장치는 가상 환경에서의 3차원 객체의 이동 파라미터 및 회전 파라미터를 최적화함으로써 미분 가능한 렌더링 기법을 통해 렌더링한 제2 영상이 제1 영상과 같아지도록 정렬할 수 있다. 패턴 결정 장치는 정렬된 제1 영상과 제2 영상을 기초로 제1 표면 법선 벡터를 추정할 수 있다.The pattern determination device can align the second image rendered through a differentiable rendering technique to be identical to the first image by optimizing the translation parameters and rotation parameters of the three-dimensional object in the virtual environment. The pattern determination device can estimate the first surface normal vector based on the aligned first and second images.
보다 구체적으로, 패턴 결정 장치는 정답 실루엣(454)을 기저 영상들(430)의 평균 영상(453)에 오버레이할 수 있다. 패턴 결정 장치는 정답 실루엣 S에 의해 오버레이된 평균 영상과 같이 대부분의 객체 장면의 지점에 대해 밝은 모습을 나타내는 기저 영상들(430)의 평균 영상(Iavg)(453)을 사용하여 실루엣 마스크 를 추출할 수 있다. More specifically, the pattern determination device can overlay the correct silhouette (454) on the average image (453) of the basis images (430). The pattern determination device can extract the silhouette mask using the average image (I avg ) (453) of the basis images (430) that exhibits a bright appearance for most points of the object scene, such as the average image overlaid by the correct silhouette S.
실루엣 마스크 S가 주어지면, 패턴 결정 장치는 장면에서 3D 프린팅된 객체의 정답 지오메트리(ground-truth geometry)를 정렬할 수 있다. 패턴 결정 장치는 제1 표면 법선 벡터의 추정을 위해 자세를 정렬할 수 있다.Given a silhouette mask S, the pattern determination device can align the ground-truth geometry of the 3D printed object in the scene. The pattern determination device can align the pose for estimation of the first surface normal vector.
패턴 결정 장치는 실루엣 마스크 S에 대비되는 실루엣 렌더링 손실을 최소화하여 장면에 있는 객체의 정답 메시(ground-truth mesh)의 포즈를 최적화할 수 있다. 패턴 결정 장치는 경사 하강법(gradient descent)에 의해 객체의 실측 메시의 포즈를 최적화할 수 있다. 이때, 실루엣 렌더링 손실은 카메라 캡쳐된 기저 영상들(430)의 평균 영상(453)의 정답 실루엣(454)과 렌더링 영상(451)으로부터 획득된 렌더링된 실루엣 영상(452) 간의 차이에 해당할 수 있다.The pattern decision device can optimize the pose of the ground-truth mesh of the object in the scene by minimizing the silhouette rendering loss compared to the silhouette mask S. The pattern decision device can optimize the pose of the ground-truth mesh of the object by gradient descent. In this case, the silhouette rendering loss may correspond to the difference between the true silhouette (454) of the average image (453) of the camera-captured basis images (430) and the rendered silhouette image (452) obtained from the rendered image (451).
이때, 실루엣 렌더링 손실은 실루엣 마스크 S와 렌더링된 실루엣 영상(452) 사이의 평균 제곱 오차(mean squared error)로 계산되며, 이러한 오차는 객체의 위치(location) t와 회전(rotation) r을 최적화하기 위해 역전파될 수 있다. 패턴 결정 장치는 미분 가능 렌더링을 통해 촬영 영상(예: 카메라 캡쳐된 기저 영상들(430)의 평균 영상(453))과 렌더링 영상(451)이 같아지도록 가상 환경에서의 물체의 이동, 회전 파라미터를 최적화할 수 있다. At this time, the silhouette rendering loss is calculated as the mean squared error between the silhouette mask S and the rendered silhouette image (452), and this error can be backpropagated to optimize the location t and rotation r of the object. The pattern determination device can optimize the movement and rotation parameters of the object in the virtual environment through differentiable rendering so that the captured image (e.g., the average image (453) of the camera-captured basis images (430)) and the rendered image (451) become the same.
전술한 최적화 과정은 예를 들어, 아래의 수학식 3과 같이 표현될 수 있다. The above-described optimization process can be expressed, for example, as shown in
여기서, π는 장면에 있는 3D 프린팅된 객체의 3D 모델을 나타낼 수 있다. 는 미분 가능한 실루엣 렌더링 함수(differentiable silhouette rendering function)를 나타낼 수 있다. 패턴 결정 장치는 렌더링 시의 가상 카메라 설정에서 카메라의 캘리브레이션 파라미터를 사용할 수 있다. 패턴 결정 장치는 경사 하강법(gradient descent)을 사용하여 수학식 3을 풀 수 있다. Here, π can represent a 3D model of a 3D printed object in the scene. can represent a differentiable silhouette rendering function. The pattern determination device can use the calibration parameters of the camera in the virtual camera settings during rendering. The pattern determination device can solve
패턴 결정 장치는 3D 모델들에 대한 포즈 파라미터들이 획득되면, 패턴 결정 장치는 최적화된 포즈들에서의 3D 모델들(455)을 사용하여 포즈가 정렬된 노멀 맵(normal map)(457)을 렌더링할 수 있다. 이때, 렌더링된 노멀 맵(457)은 엔드 투 엔드 최적화를 위한 정답(ground-truth) 노멀 맵(GT)으로 사용될 수 있다. 패턴 결정 장치는 렌더링된 노멀 맵(457)을 사용하여 포즈가 정렬된 렌더링 영상(456)을 생성할 수 있다. 패턴 결정 장치는 포즈가 정렬된 렌더링 영상(456)과 기저 영상들(430)의 평균 영상(Iavg)(453)을 1:1의 비율로 블렌딩한 블렌딩 영상(458)을 생성할 수 있다. 블렌딩 영상(458)은 정답 노멀 맵의 정렬 정확도를 시각적으로 판단하는 데에 사용될 수 있다. When the pattern determination device obtains pose parameters for the 3D models, the pattern determination device can render a pose-aligned normal map (457) using the 3D models (455) at the optimized poses. At this time, the rendered normal map (457) can be used as a ground-truth normal map ( GT ) for end-to-end optimization. The pattern determination device can generate a pose-aligned rendered image (456) using the rendered normal map (457). The pattern determination device can generate a blended image (458) by blending the pose-aligned rendered image (456) and the average image (I avg ) (453) of the basis images (430) at a ratio of 1:1. The blended image (458) can be used to visually determine the alignment accuracy of the ground-truth normal map.
도 5는 일 실시예에 따른 포토메트릭 스테레오 기법의 재구성(reconstruction) 방법을 설명하기 위한 도면이다. 도 5를 참조하면, 일 실시예에 따른 미분 가능한 영상 형성(Differentiable Image Formation)(510) 과정 및 포토메트릭 스테레오 프레임워크(530)를 나타낸 도면(500)이 도시된다. FIG. 5 is a diagram for explaining a reconstruction method of a photometric stereo technique according to one embodiment. Referring to FIG. 5, a diagram (500) is illustrated showing a differentiable image formation (510) process and a photometric stereo framework (530) according to one embodiment.
패턴 결정 장치는 취득한 데이터셋 중 기저 영상들(430)을 조합하여 가상의 조명 패턴들(513)에 대한 새로운 시뮬레이션 영상들(515)을 생성할 수 있다. 패턴 결정 장치는 예를 들어, 기저 영상들(430)에 대한 요소 별 곱(element-wise product) 연산에 의해 가상의 조명 패턴들(513)을 생성할 수 있다. 패턴 결정 장치는 예를 들어, 아래의 수학식 8과 같이 선형 시스템으로 근사된 영상 형성 수식에 가상의 조명 패턴들(513)과 이에 대응하는 시뮬레이션 영상들(515)을 대입하여 포토메트릭 스테레오 프레임워크(530)에 의해 객체에 대한 표면 법선 벡터(550)를 추정할 수 있다. 포토메트릭 스테레오 프레임워크(530)는 미분 가능한 디스플레이 포토메트릭 스테레오(Differentiable Display Photometric Stereo; DDPS) 프레임워크에 해당할 수 있다. The pattern determination device can generate new simulation images (515) for virtual lighting patterns (513) by combining basis images (430) from the acquired data sets. The pattern determination device can generate the virtual lighting patterns (513) by, for example, an element-wise product operation for the basis images (430). The pattern determination device can estimate a surface normal vector (550) for an object by using a photometric stereo framework (530) by substituting the virtual lighting patterns (513) and the corresponding simulation images (515) into an image formation formula approximated by a linear system, as in, for example, Mathematical Formula 8 below. The photometric stereo framework (530) can correspond to a Differentiable Display Photometric Stereo (DDPS) framework.
포토메트릭 스테레오 프레임워크(530)는 조명 조건의 변화를 활용하여 픽셀들 별로 표면 법선을 재구성할 수 있다. 패턴 결정 장치는 추정한 표면 법선 벡터(550)와 정답 법선 벡터 사이의 차이를 산출하고, 산출한 차이를 역전파하여 조명 패턴들(513)을 최적화할 수 있다. The photometric stereo framework (530) can reconstruct surface normals for each pixel by utilizing changes in lighting conditions. The pattern determination unit can calculate the difference between the estimated surface normal vector (550) and the correct normal vector, and backpropagate the calculated difference to optimize the lighting patterns (513).
패턴 결정 장치는 포토메트릭 스테레오 기법에 기반한 미분 가능한 프레임워크(530)를 통해 표면 법선의 재구성 손실에 직접 페널티를 적용하여 조명 패턴들(513)을 학습할 수 있다. 포토메트릭 스테레오 프레임워크(530)는 디스플레이를 공간적으로 변화하는 3색 강도 변화를 생성할 수 있는 활성 조명 모듈로 활용할 수 있다. The pattern decision device can learn the illumination patterns (513) by directly penalizing the reconstruction loss of surface normals through a differentiable framework (530) based on the photometric stereo technique. The photometric stereo framework (530) can utilize the display as an active illumination module capable of generating spatially varying three-color intensity variations.
패턴 결정 장치는 미분 가능한 기저 영상들의 형성(510) 및 포토메트릭 스테레오의 재구성이 결합된 미분 가능한 프레임워크를 사용함으로써 고품질의 표면 법선의 재구성으로 이어지는 조명 패턴 학습을 촉진할 수 있다. The pattern decision device can facilitate learning of illumination patterns leading to reconstruction of high-quality surface normals by using a differentiable framework that combines the formation of differentiable basis images (510) and the reconstruction of photometric stereo.
보다 구체적으로, 패턴 결정 장치는 표면 법선의 재구성을 제공하는 조명 패턴들을 학습하기 위해, 실측된 법선 맵(GT)과 기저 영상들 (430) 쌍의 트레이닝 데이터 셋을 사용할 수 있다. More specifically, the pattern decision unit learns illumination patterns that provide a reconstruction of surface normals using the ground truth normal map ( GT ) and basis images. (430) A training data set of pairs is available.
예를 들어, 개의 서로 다른 조명 패턴들(513)을 으로 표시할 수 있다. 여기서, 번째 조명 패턴 M은 최적화 변수인 슈퍼 픽셀 의 RGB 강도 패턴을 갖는 조명 패턴 Mi로 모델링될 수 있다. For example, different lighting patterns of the dog (513) can be expressed as, where, the th illumination pattern M is a super pixel that is an optimization variable. can be modeled as a lighting pattern M i having an RGB intensity pattern.
패턴 결정 장치는 RGB 강도 패턴 의 엔드-투-엔드 트레이닝을 위해 자동 미분을 통해 함께 연결되는 미분 가능한 영상 형성 함수 와 미분 가능한 포토메트릭 스테레오 함수 을 이용하여 표면 법선을 재구성할 수 있다. The pattern determination device is an RGB intensity pattern Differentiable image-forming functions that are linked together via automatic differentiation for end-to-end training of and differentiable photometric stereo functions can be used to reconstruct surface normals.
여기서, 미분 가능한 영상 형성 함수 는 트레이닝 장면의 조명 패턴 M과 기저 영상들 (430)를 기초로 캡처된 영상 를 시뮬레이션할 수 있다. 패턴 결정 장치는 K 개의 서로 다른 조명 패턴들(513)에 대한 영상 시뮬레이션을 수행하여 시뮬레이션된 캡처 영상들 (515)를 얻을 수 있다.Here, the differentiable image forming function The lighting pattern M and the base images of the training scene Footage captured based on (430) can be simulated. The pattern determination device performs image simulation for K different lighting patterns (513) and simulated captured images. (515) can be obtained.
패턴 결정 장치는 포토메트릭 스테레오 함수 를 이용하여 시뮬레이션된 캡처 영상 (515)를 처리함으로써 표면 법선 N을 추정할 수 있다. 패턴 결정 장치는 예를 들어, 에 의해 표면 법선 N을 추정할 수 있다. 이때, ρ는 알베도를 나타내고, n은 표면 법선 벡터를 나타낼 수 있다. 여기서, 알베도(ρ)는 와 같이 구할 수 있다. 또한, 표면 법선 벡터(n)는 와 같이 구할 수 있다. 표면 법선(N)은 와 같이 구할 수 있으며, 는 와 같이 광원(light sources) l과 광원 방향(light source directions) i의 곱에 의해 구할 수 있다. 또한, L은 출력되는 래디언트(최종 색상)을 나타내며, 와 같이 구할 수 있다. The pattern decision device is a photometric stereo function Simulated captured video using By processing (515), the surface normal N can be estimated. The pattern determination device is, for example, The surface normal N can be estimated by . Here, ρ represents the albedo, and n can represent the surface normal vector. Here, the albedo (ρ) is can be obtained as follows. Also, the surface normal vector (n) is can be obtained as follows. The surface normal (N) is It can be obtained as follows, Is It can be obtained by the product of light sources l and light source directions i. Also, L represents the output radiant (final color). It can be obtained as follows.
패턴 결정 장치는 추정된 표면 법선(550)을 실측 법선 NGT와 비교하고, 비교 결과에 따른 손실을 미분 가능한 흐름을 통해 조명 패턴 의 강도로 역전파할 수 있다. The pattern determination device compares the estimated surface normal (550) with the measured normal N GT , and the loss according to the comparison result is converted into an illumination pattern through a differentiable flow. It can be backpropagated with the intensity of .
패턴 결정 장치는 예를 들어, 아래의 수학식 4와 같이 조명 패턴 을 최적화할 수 있다. The pattern determination device determines the illumination pattern as in the mathematical expression 4 below, for example. can be optimized.
여기서, 는 추정된 표면 법선(550)과 실제 표면 법선 사이의 각도 차이에 해당할 수 있다. 일 실시예에서는 예를 들어, Adam 최적화 프로그램을 사용하여 3D 프린트된 데이터 셋에 대한 확률적 경사 하강법을 사용하여 수학식 4를 풀 수 있다. Here, may correspond to the angular difference between the estimated surface normal (550) and the actual surface normal. In one embodiment, equation (4) may be solved using stochastic gradient descent on a 3D printed data set, for example, using the Adam optimizer.
패턴 결정 장치는 트레이닝 샘플의 기저 영상들 (430)에 대해 조명 패턴들 (513)로 캡처된 영상을 아래의 수학식 5와 같이 미분 가능한 방식으로 시뮬레이션 함으로써 시뮬레이션된 캡처 영상()을 생성할 수 있다. The pattern decision unit is the basis images of the training samples. Lighting patterns for (430) (513) The captured image is simulated in a differentiable manner as in the mathematical expression 5 below, thereby generating a simulated captured image ( ) can be created.
여기서, 는 조명 패턴 의 번째 슈퍼 픽셀의 RGB 강도를 나타낼 수 있다. 는 기저 영상들 (430) 중 j번째 기저 영상을 나타낼 수 있다. Here, is a lighting pattern can represent the RGB intensity of the th superpixel. are the underlying images (430) can represent the jth basis image.
패턴 결정 장치는 K 개의 전체 조명 패턴들(513)에 대응하는 각 시뮬레이션된 캡처 영상()을 아래의 수학식 6과 같이 합성할 수 있다. The pattern decision device captures each simulated captured image ( ) corresponding to K total illumination patterns (513). ) can be synthesized as in mathematical formula 6 below.
일 실시예에 따른 미분 가능한 영상 형성(510)에 사용된 가중합 공식(weighted-sum formulation)은 광선 광학 체제의 빛 전달 선형성을 기반으로 실제 3D 프린팅된 객체에 대해 획득한 기저 영상들을 활용할 수 있다. 미분 가능한 영상 형성(510)에서 기저 영상들을 사용한 영상 형성은 현실적인 영상을 합성하는 메모리 효율적이고 효과적인 영상 형성을 가능하게 할 수 있다. The weighted-sum formulation used in the differentiable image formation (510) according to one embodiment can utilize basis images acquired for actual 3D printed objects based on the light transmission linearity of the ray optics system. Image formation using basis images in the differentiable image formation (510) can enable memory-efficient and effective image formation for synthesizing realistic images.
패턴 결정 장치는 다양한 조명 패턴 하에서 캡처하거나 시뮬레이션하여 캡처한 영상 (515) 으로부터 아래의 수학식 7과 같이 표면 법선 N을 재구성할 수 있다. The pattern determination device has various lighting patterns. Images captured from below or simulated (515) The surface normal N can be reconstructed from the following mathematical expression 7.
편광에 의한 확산 반사 성분과 정반사 성분의 분리로 인해 영상 (515)에는 확산 반사 성분이 지배적으로 포함될 수 있다. Image due to separation of diffuse reflection component and specular reflection component by polarization (515) may contain a dominant diffuse reflection component.
일 실시예에서는 포토메트릭 스테레오에서 광학적으로 분리된 확산 반사 영상 I를 사용하여, 트레이닝 데이터 세트와 독립적이고 트레이닝 파라미터가 없는 3안 포토메트릭 스테레오(trinocular photometric stereo) 기법을 사용할 수 있다. 3안 포토메트릭 스테레오 기법은 엔드-투-엔드 학습 중에 조명 패턴에 대한 효율적인 그라데이션 업데이트에 도움을 줄 수 있다. In one embodiment, a trinocular photometric stereo technique can be used, which is independent of the training dataset and has no training parameters, by using optically separated diffuse reflectance images I in photometric stereo. The trinocular photometric stereo technique can help in efficient gradient updates for the illumination pattern during end-to-end learning.
예를 들어, 카메라 픽셀의 캡처된 확산 RGB 강도를 로 나타낼 수 있다. 여기서,c는 색상 채널 에 해당할 수 있다. 단순화를 위해 표기에서는 픽셀에 대한 종속성을 생략할 수 있다. For example, the captured diffuse RGB intensity of a camera pixel can be expressed as , where c is the color channel. may correspond to. For simplicity, In notation, dependency on pixels can be omitted.
또한, 디스플레이의 j번째 슈퍼 픽셀의 중심에서 오는 조명 벡터를 로 나타낼 수 있다. 표면 법선 N은 카메라 픽셀 p에 해당하는 장면 지점 P가 카메라에서 50cm 떨어진 평면에 있다는 기준 평면 가정(reference-plane assumption)을 기반으로 계산될 수 있다. Additionally, the illumination vector coming from the center of the jth superpixel of the display can be represented as . The surface normal N can be computed based on the reference-plane assumption that the scene point P corresponding to the camera pixel p lies in a plane 50 cm away from the camera.
선형 시스템으로 근사된 영상 형성 수식은 아래의 수학식 8과 같이 표현될 수 있다. The image formation formula approximated by a linear system can be expressed as mathematical expression 8 below.
여기서, I는 촬영된 영상을 나타내고, ρ는 객체의 기본색, 다시 말해, 알베도를 나타낼 수 있다. N은 객체의 표면 법선을 나타낼 수 있다. 은 하다마드곱(Hadarmard product)을 나타낼 수 있다. M은 패턴의 색상(또는 색상 강도)을 나타낼 수 있다. l은 조명 방향에 대한 행렬, 다시 말해 빛의 입사 벡터를 나타낼 수 있다. Here, I represents the captured image, ρ can represent the primary color of the object, or in other words, the albedo, and N can represent the surface normal of the object. can represent the Hadarmard product. M can represent the color (or color intensity) of the pattern. l can represent a matrix for the direction of the light, that is, the incident vector of the light.
패턴 결정 장치는 알베도 ρ를 캡처된 영상들 간의 최대 강도로 설정하고, 의사 역법(pseudo-inverse method)에 의한 의사 역 행렬(pseudo inverse matrix)을 사용하여 선형 시스템을 풀어서 표면 법선 N을 추정할 수 있다. 패턴 결정 장치는 표면 법선 N이 추정되면, 알베도 ρ를 다시 풀기 위해 수학식 8을 아래의 수학식 9와 같이 다시 작성할 수 있다. The pattern decision unit can estimate the surface normal N by setting the albedo ρ to the maximum intensity among the captured images and solving the linear system using the pseudo inverse matrix by the pseudo-inverse method. Once the surface normal N is estimated, the pattern decision unit can rewrite Equation 8 as Equation 9 below to solve the albedo ρ again.
여기서, , 는 원본 벡터(original vector) 와 매트릭스 의 채널 별 버전에 해당할 수 있다. Here, , is the original vector Wow matrix may correspond to a channel-specific version of .
패턴 결정 장치는 각 채널 에 대해 의사 역법을 사용하여 와 같이 채널 별 알베도 를 추정할 수 있다. The pattern decision device is for each channel Using the doctor's calendar for Albedo by channel as can be estimated.
패턴 결정 장치는 더 높은 정확도를 위해 법선 추정과 알베도 추정을 반복할 수 있었으며, 반복적인 추정을 통해 재구성 품질을 향상시킬 수 있다. The pattern decision unit can repeat normal estimation and albedo estimation for higher accuracy, and the reconstruction quality can be improved through repeated estimation.
추정된 표면 법선(550)은 표면 법선과 알베도의 재구성 결과에 해당할 수 있다. The estimated surface normal (550) may correspond to the reconstruction result of the surface normal and albedo.
도 6은 일 실시예에 따른 3차원 장면을 모델링하는 방법을 나타낸 흐름도이고, 도 7은 일 실시예에 따른 촬영된 장면으로부터 포토메트릭 스테레오 기법을 통해 복원된 객체의 표면 법선 벡터를 나타낸 도면이다. FIG. 6 is a flowchart illustrating a method for modeling a three-dimensional scene according to one embodiment, and FIG. 7 is a drawing illustrating a surface normal vector of an object restored from a photographed scene through a photometric stereo technique according to one embodiment.
도 6및 도 7을 참조하면, 일 실시예에 따른 3차원 장면을 모델링하는 장치(이하, '모델링 장치')는 단계(610) 내지 단계(630)을 통해 대상 장면에 대응하는 3차원 장면을 모델링할 수 있다. Referring to FIGS. 6 and 7, a device for modeling a three-dimensional scene according to one embodiment (hereinafter, “modeling device”) can model a three-dimensional scene corresponding to a target scene through steps (610) to (630).
단계(610)에서, 모델링 장치는 학습된 신경망을 이용하여 3차원 대상 객체에 대응하는 조명 패턴들을 획득한다. 이때, 신경망은 표면 법선 정보를 미리 알고 있는 3차원 객체를 촬영한 제1 영상으로부터 3차원 객체의 제1 표면 법선 벡터 (surface normal vector)를 추정함으로써 구성되는 데이터 셋에 의해 학습된 것일 수 있다. 단계(610)에서 획득된 조명 패턴들은 전술한 과정을 통해 최적화된 조명 패턴에 해당할 수 있다. In step (610), the modeling device acquires lighting patterns corresponding to a three-dimensional target object using a learned neural network. At this time, the neural network may be learned by a data set configured by estimating a first surface normal vector of a three-dimensional object from a first image that captures the three-dimensional object whose surface normal information is known in advance. The lighting patterns acquired in step (610) may correspond to lighting patterns optimized through the aforementioned process.
단계(620)에서, 모델링 장치는 단계(610)에서 획득한 조명 패턴들에 의해 3차원 대상 객체를 포함하는 대상 장면을 도면(710)과 같이 캡처한다. In step (620), the modeling device captures a target scene including a three-dimensional target object as shown in the drawing (710) by the lighting patterns acquired in step (610).
단계(630)에서, 모델링 장치는 조명 패턴들에 기초한 포토메트릭 스테레오 기법을 통해 3차원 대상 객체의 표면 법선을 아래의 도면(730)과 같이 복원함으로써 대상 장면에 대응하는 3차원 장면을 모델링한다. 대상 장면에 대응하는 3차원 장면은 예를 들어, 도면(750)과 같이 추정된 확산 알베도를 포함할 수 있다. In step (630), the modeling device models a three-dimensional scene corresponding to the target scene by restoring the surface normal of the three-dimensional target object as shown in the drawing (730) below through a photometric stereo technique based on illumination patterns. The three-dimensional scene corresponding to the target scene may include, for example, an estimated diffuse albedo as shown in the drawing (750).
모델링 장치는 단계(610)에서 획득한 조명 패턴에 의해 대상 장면을 캡처함으로써 고품질의 표면 법선을 추정할 수 있다. 모델링 장치는 전술한 과정을 통해 최적화된 조명 패턴을 사용하여 실제 대상 장면에 대한 표면 법선 N를 추정할 수 있다. The modeling device can estimate high-quality surface normals by capturing the target scene by the illumination pattern acquired in step (610). The modeling device can estimate surface normals N for the actual target scene by using the illumination pattern optimized through the above-described process.
모델링 장치는 대상 장면의 각 프레임 별로 확산 반사 성분과 정반사 성분의 분리를 수행하여 조명 패턴들 중 어느 하나의 조명 패턴에 대응하는 확산 반사 영상을 획득할 수 있다. The modeling device can obtain a diffuse reflection image corresponding to one of the lighting patterns by performing separation of the diffuse reflection component and the specular reflection component for each frame of the target scene.
모델링 장치는 최적화된 조명 패턴에 대한 대상 장면의 확산 반사 영상에 포토메트릭 스테레오 기법에 따른 포토메트릭 스테레오 함수 을 적용하여 아래의 수학식 10과 같이 3차원 대상 객체의 표면 법선(N)을 추정할 수 있다. The modeling device applies a photometric stereo function according to the photometric stereo technique to the diffuse reflection image of the target scene for the optimized illumination pattern. By applying the mathematical expression 10 below, the surface normal (N) of the three-dimensional target object can be estimated.
모델링 장치는 예를 들어, 조명 스테이지, 핸드헬드 플래시 카메라, 디스플레이 카메라 시스템을 포함한 이미징 시스템, 스마트 글래스(smart glass)를 포함하는 웨어러블 디바이스(wearable device), AR(Augmented Reality) 기기, VR(Virtual Reality) 기기, 및 MR(Mixed Reality) 기기를 포함하는 헤드 마운티드 디바이스(Head Mounted Device; HMD), 텔레비전, 스마트 폰, 퍼스널 컴퓨터, 태블릿, 및 노트북을 포함하는 사용자 단말 중 적어도 하나에 해당할 수 있으나, 반드시 이에 한정되지 않는다. The modeling device may be, but is not necessarily limited to, at least one of a lighting stage, a handheld flash camera, an imaging system including a display camera system, a wearable device including smart glasses, a head mounted device (HMD) including an Augmented Reality (AR) device, a Virtual Reality (VR) device, and a Mixed Reality (MR) device, a user terminal including a television, a smart phone, a personal computer, a tablet, and a laptop.
도 8은 일 실시예에 따른 조명 패턴의 결정을 위한 학습 과정을 나타낸 도면이다. 도 8을 참조하면, 일 실시예에 따른 조명 패턴의 결정을 위한 학습 과정을 나타낸 도면(800)이 도시된다. FIG. 8 is a diagram illustrating a learning process for determining a lighting pattern according to one embodiment. Referring to FIG. 8, a diagram (800) illustrating a learning process for determining a lighting pattern according to one embodiment is illustrated.
데이터 셋 획득 과정(810)에서, 패턴 결정 장치는 기저 조명을 사용하여 실제 객체(815)를 촬영하고, 촬영된 영상을 기반으로 미분 가능한 렌더링을 통해 실제 객체(815)의 정답 표면 법선 벡터(805)를 얻을 수 있다. In the data set acquisition process (810), the pattern determination device can capture a real object (815) using base lighting, and obtain a correct surface normal vector (805) of the real object (815) through differentiable rendering based on the captured image.
패턴 결정 장치는 실제 객체(815)를 촬영한 영상에 기초하여 기저 영상들(Basis images)을 생성하고, 캡처 과정(820)을 통해 기저 영상들(825)을 획득할 수 있다. The pattern determination device can generate basis images based on an image captured of an actual object (815) and obtain the basis images (825) through a capture process (820).
패턴 결정 장치는 기저 영상들(825)에 대한 렌더링(830)을 수행하여 시뮬레이션된 영상들(835)을 획득할 수 있다. 렌더링(830) 과정에서 패턴 결정 장치는 정답 표면 법선 벡터(805)과 미분 가능한 포토메트릭 스테레오 기법에 따른 재구성에 의해 추정된 표면 법선 벡터(845) 간의 차이에 기초한 손실 함수(850)에 의해 학습된 조명 패턴(860)을 이용하여 기저 영상들(825)에 대한 렌더링을 수행할 수 있다. The pattern determination device can perform rendering (830) on the basis images (825) to obtain simulated images (835). In the rendering (830) process, the pattern determination device can perform rendering on the basis images (825) using an illumination pattern (860) learned by a loss function (850) based on the difference between the correct surface normal vector (805) and the surface normal vector (845) estimated by reconstruction according to a differentiable photometric stereo technique.
패턴 결정 장치는 시뮬레이션된 영상들(835)과 학습된 조명 패턴(860)을 미분 가능한 포토메트릭 스테레오 프레임워크(530)에 입력하여 미분 가능한 포토메트릭 스테레오 기법에 따른 재구성에 의해 표면 법선 벡터(845)를 추정할 수 있다. The pattern determination device can input simulated images (835) and learned illumination patterns (860) into a differentiable photometric stereo framework (530) and estimate surface normal vectors (845) by reconstruction according to a differentiable photometric stereo technique.
도 9는 일 실시예에 따른 3차원 장면을 모델링하는 장치의 블록도이다. 도 8을 참조하면, 일 실시예에 따른 3차원 장면을 모델링하는 장치('모델링 장치')(900)는 통신 인터페이스(910), 카메라(920), 프로세서(930), 디스플레이(950), 및 메모리(970)를 포함할 수 있다. 통신 인터페이스(910), 카메라(920), 프로세서(930), 디스플레이(950), 및 메모리(970)는 통신 버스(905)를 통해 서로 연결될 수 있다. FIG. 9 is a block diagram of a device for modeling a three-dimensional scene according to one embodiment. Referring to FIG. 8, a device for modeling a three-dimensional scene ('modeling device') (900) according to one embodiment may include a communication interface (910), a camera (920), a processor (930), a display (950), and a memory (970). The communication interface (910), the camera (920), the processor (930), the display (950), and the memory (970) may be connected to each other through a communication bus (905).
통신 인터페이스(910)는 3차원 대상 객체에 대응하는 조명 패턴들을 수신한다. 이때, 조명 패턴들은 전술한 과정을 통해 학습된 신경망에 의해 출력된 것일 수 있다. The communication interface (910) receives lighting patterns corresponding to a three-dimensional target object. At this time, the lighting patterns may be output by a neural network learned through the aforementioned process.
카메라(920)는 통신 인터페이스(910)를 통해 수신한 조명 패턴들에 의해 3차원 대상 객체를 포함하는 대상 장면을 캡처한다. 이때, 카메라(920)는 예를 들어, 전술한 편광 카메라 또는 스테레오 카메라로서 스테레오 영상을 촬영할 수 있으나, 반드시 이에 한정되지는 않는다. 스마트폰으로 구현되는 모델링 장치(900)에서, 카메라(920)는 서로 광학 사양이 다른 멀티 카메라 센서를 포함할 수도 있다. 스마트폰의 카메라들은 고정된 베이스라인을 가지고 있지만 각 카메라(920)에서 촬영되는 영상의 크기 및/또는 해상도가 다를 수 있다.The camera (920) captures a target scene including a three-dimensional target object by means of illumination patterns received through the communication interface (910). At this time, the camera (920) may capture stereo images, for example, as the aforementioned polarization camera or stereo camera, but is not necessarily limited thereto. In a modeling device (900) implemented as a smartphone, the camera (920) may include multi-camera sensors having different optical specifications. The cameras of the smartphone have a fixed baseline, but the size and/or resolution of the images captured by each camera (920) may be different.
프로세서(930)는 통신 인터페이스(910)를 통해 수신한 조명 패턴들에 기초한 포토메트릭 스테레오 기법을 통해 3차원 대상 객체의 표면 법선을 복원함으로써 카메라(920)가 캡처한 대상 장면에 대응하는 3차원 장면을 모델링한다. The processor (930) models a three-dimensional scene corresponding to the target scene captured by the camera (920) by restoring the surface normal of the three-dimensional target object through a photometric stereo technique based on the illumination patterns received through the communication interface (910).
디스플레이(950)는 통신 인터페이스(910)를 통해 수신한 조명 패턴들 및 프로세서(930)에 의해 모델링된 3차원 장면 중 적어도 하나를 표시할 수 있다. The display (950) can display at least one of the lighting patterns received via the communication interface (910) and the three-dimensional scene modeled by the processor (930).
메모리(970)는 통신 인터페이스(910)를 통해 수신한 조명 패턴들, 프로세서(930)가 복원한 3차원 대상 객체의 표면 법선 벡터, 및/또는 프로세서(930)가 모델링한 3차원 장면을 저장할 수 있다. The memory (970) can store lighting patterns received through the communication interface (910), surface normal vectors of a three-dimensional target object restored by the processor (930), and/or a three-dimensional scene modeled by the processor (930).
또한, 메모리(970)는 상술한 프로세서(930)에서의 처리 과정에서 생성되는 다양한 정보들을 저장할 수 있다. 이 밖에도, 메모리(970)는 각종 데이터와 프로그램 등을 저장할 수 있다. 메모리(970)는 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(970)는 하드 디스크 등과 같은 대용량 저장 매체를 구비하여 각종 데이터를 저장할 수 있다. In addition, the memory (970) can store various pieces of information generated during the processing in the processor (930) described above. In addition, the memory (970) can store various pieces of data and programs. The memory (970) can include volatile memory or nonvolatile memory. The memory (970) can store various pieces of data by having a large storage medium such as a hard disk.
이 밖에도, 프로세서(930)는 본 명세서의 도 1 내지 도 7을 통해 기술하는 방법 또는 방법에 대응되는 알고리즘을 수행할 수 있다. 프로세서(930)는 프로그램을 실행하고, 모델링 장치(900)를 제어할 수 있다. 프로세서(930)에 의하여 실행되는 프로그램 코드는 메모리(970)에 저장될 수 있다.In addition, the processor (930) can perform an algorithm corresponding to a method or a method described through FIGS. 1 to 7 of the present specification. The processor (930) can execute a program and control the modeling device (900). The program code executed by the processor (930) can be stored in the memory (970).
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The embodiments described above may be implemented as hardware components, software components, and/or a combination of hardware components and software components. For example, the devices, methods, and components described in the embodiments may be implemented using a general-purpose computer or a special-purpose computer, such as, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), a programmable logic unit (PLU), a microprocessor, or any other device capable of executing instructions and responding to them. The processing device may execute an operating system (OS) and software applications running on the OS. In addition, the processing device may access, store, manipulate, process, and generate data in response to the execution of the software. For ease of understanding, the processing device is sometimes described as being used alone, but those skilled in the art will appreciate that the processing device may include multiple processing elements and/or multiple types of processing elements. For example, a processing device may include multiple processors, or a processor and a controller. Other processing configurations, such as parallel processors, are also possible.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 저장될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of these, which may configure a processing device to perform a desired operation or may independently or collectively command the processing device. The software and/or data may be stored on any type of machine, component, physical device, virtual equipment, computer storage medium, or device for interpretation by the processing device or for providing instructions or data to the processing device. The software may also be distributed over networked computer systems and stored or executed in a distributed manner. The software and data may be stored on a computer-readable recording medium.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 저장할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. The method according to the embodiment may be implemented in the form of program commands that can be executed through various computer means and recorded on a computer-readable medium. The computer-readable medium may store program commands, data files, data structures, etc., alone or in combination, and the program commands recorded on the medium may be those specially designed and configured for the embodiment or may be those known to and available to those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, and hardware devices specially configured to store and execute program commands such as ROMs, RAMs, and flash memories. Examples of program commands include not only machine language codes generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter, etc.
위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described with limited drawings as described above, those skilled in the art can apply various technical modifications and variations based on them. For example, even if the described techniques are performed in a different order than the described method, and/or the components of the described system, structure, device, circuit, etc. are combined or combined in a different form than the described method, or are replaced or substituted by other components or equivalents, appropriate results can be achieved.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also included in the scope of the claims described below.
Claims (20)
상기 데이터 셋에 포함된 기저 영상들(Basis images)의 조합에 기초한 가상의 조명 패턴들(Illumination Patterns)을 상기 3차원 객체에 적용한 시뮬레이션 영상들을 생성하는 단계;
상기 가상의 조명 패턴들 및 상기 가상의 조명 패턴들에 대응하는 시뮬레이션 영상들에 기초한 포토메트릭 스테레오(Photometric Stereo) 기법의 재구성(reconstruction)을 통해 상기 3차원 객체에 대한 제2 표면 법선 벡터를 추정하는 단계;
상기 제1 표면 법선 벡터와 상기 제2 표면 법선 벡터 간의 차이에 기초하여 조명 패턴을 결정하도록 신경망을 학습하는 단계
를 포함하는, 조명 패턴 결정 방법.A step of constructing a data set by estimating a first surface normal vector of a three-dimensional object from a first image of the three-dimensional object whose surface normal information is known in advance;
A step of generating simulation images by applying virtual illumination patterns based on a combination of basis images included in the above data set to the three-dimensional object;
A step of estimating a second surface normal vector for the three-dimensional object through reconstruction of the photometric stereo technique based on the virtual lighting patterns and simulation images corresponding to the virtual lighting patterns;
A step of training a neural network to determine a lighting pattern based on the difference between the first surface normal vector and the second surface normal vector.
A method for determining a lighting pattern, comprising:
상기 데이터 셋을 구성하는 단계는
상기 3차원 객체를 기저 조명에 의해 촬영한 상기 제1 영상을 획득하는 단계; 및
미분 가능한 렌더링 기법을 통해 상기 제1 영상으로부터 상기 제1 표면 법선 벡터를 추정하는 단계
를 포함하는, 조명 패턴 결정 방법.In the first paragraph,
The steps to construct the above data set are
A step of obtaining the first image of the three-dimensional object by photographing it with ground illumination; and
A step of estimating the first surface normal vector from the first image using a differentiable rendering technique.
A method for determining a lighting pattern, comprising:
상기 제1 영상에서 정반사 성분을 제거하는 전처리를 수행하는 단계
를 더 포함하고,
상기 제1 영상을 획득하는 단계는
상기 전처리된 상기 제1 영상으로부터 상기 데이터 셋을 구성하는 단계
를 포함하는, 조명 패턴 결정 방법.In the second paragraph,
A step of performing preprocessing to remove the specular component from the first image above.
Including more,
The step of obtaining the first image is
A step of constructing the data set from the first image that has been preprocessed above.
A method for determining a lighting pattern, comprising:
상기 전처리를 수행하는 단계는
거울을 사용하여 디스플레이 장치에 표시되는 격자점들의 위치를 예측하는 단계; 및
상기 격자점들의 위치에 놓이도록 상기 디스플레이 장치의 위치를 조정하여 정반사(specular reflection) 성분을 제거함으로써 상기 제1 영상을 획득하는 단계
를 포함하는, 조명 패턴 결정 방법.In the third paragraph,
The steps for performing the above preprocessing are
A step of predicting the positions of grid points displayed on a display device using a mirror; and
A step of obtaining the first image by adjusting the position of the display device to be placed at the positions of the grid points to remove the specular reflection component.
A method for determining a lighting pattern, comprising:
상기 정반사 성분을 제거함으로써 상기 제1 영상을 획득하는 단계는
편광 카메라를 이용하여 상기 3차원 객체를 촬영한 제1 영상으로부터 상기 정반사 성분과 확산 반사(diffuse reflection) 성분을 광학적으로 구분하는 단계; 및
상기 3차원 객체를 촬영한 제1 영상으로부터 상기 정반사 성분을 제거한 상기 확산 반사 성분의 영상을 상기 제1 영상으로 획득하는 단계
를 포함하는, 조명 패턴 결정 방법.In paragraph 4,
The step of obtaining the first image by removing the above reflection component is
A step of optically distinguishing the specular reflection component and the diffuse reflection component from a first image captured of the three-dimensional object using a polarizing camera; and
A step of obtaining an image of the diffuse reflection component from which the specular reflection component has been removed from the first image that captured the three-dimensional object as the first image.
A method for determining a lighting pattern, comprising:
상기 제1 표면 법선 벡터를 추정하는 단계는
가상 환경에서의 상기 3차원 객체의 이동 파라미터 및 회전 파라미터를 최적화함으로써 상기 미분 가능한 렌더링 기법을 통해 렌더링한 제2 영상이 상기 제1 영상과 같아지도록 정렬하는 단계; 및
상기 정렬된 제1 영상과 상기 제2 영상을 기초로 상기 제1 표면 법선 벡터를 추정하는 단계
를 포함하는, 조명 패턴 결정 방법.In the second paragraph,
The step of estimating the first surface normal vector is
A step of aligning the second image rendered through the differentiable rendering technique to be the same as the first image by optimizing the movement parameters and rotation parameters of the three-dimensional object in the virtual environment; and
A step of estimating the first surface normal vector based on the aligned first image and the second image.
A method for determining a lighting pattern, comprising:
상기 시뮬레이션 영상들을 생성하는 단계는
상기 기저 영상들에 대응하여 상기 가상의 조명 패턴들 별로 캡처된 영상들을 미분 가능한 방식으로 시뮬레이션한 상기 시뮬레이션 영상들을 합성하는 단계
를 포함하는, 조명 패턴 결정 방법.In the first paragraph,
The steps for generating the above simulation images are
A step of synthesizing the simulated images by simulating the captured images for each of the virtual lighting patterns in a differentiable manner in response to the above base images.
A method for determining a lighting pattern, comprising:
상기 시뮬레이션 영상들을 합성하는 단계는
상기 가상의 조명 패턴들 별로 상기 기저 영상들 각각의 적어도 일부에 대응하는 RGB 색상 강도를 곱하는 가중합에 의해 상기 시뮬레이션 영상들을 합성하는 단계
를 포함하는, 조명 패턴 결정 방법.In Article 7,
The step of synthesizing the above simulation images is
A step of synthesizing the simulation images by a weighted sum that multiplies RGB color intensities corresponding to at least a portion of each of the base images for each of the virtual lighting patterns.
A method for determining a lighting pattern, comprising:
상기 제2 표면 법선 벡터를 예측하는 단계는
디스플레이와 카메라를 사용하여 상기 3차원 객체의 표면 법선을 재구성하는 단계
를 포함하는, 조명 패턴 결정 방법.In the first paragraph,
The step of predicting the second surface normal vector is
A step of reconstructing the surface normal of the above 3D object using a display and a camera.
A method for determining a lighting pattern, comprising:
상기 제2 표면 법선 벡터를 예측하는 단계는
상기 가상의 조명 패턴들에 대응하는 시뮬레이션 영상들로부터 상기 표면 법선(surface normal) 및 확산 알베도(diffuse albedo) 중 적어도 하나를 재구성하는 단계
를 포함하는, 조명 패턴 결정 방법.In the first paragraph,
The step of predicting the second surface normal vector is
A step of reconstructing at least one of the surface normal and diffuse albedo from simulation images corresponding to the virtual lighting patterns.
A method for determining a lighting pattern, comprising:
상기 표면 법선 및 상기 확산 알베도를 재구성하는 단계는
상기 확산 알베도를 상기 시뮬레이션 영상들 간의 최대 강도로 설정하는 단계;
상기 최대 강도로 설정된 확산 알베도에 기초한 의사 역법(pseudo-inverse method)을 사용하여 상기 표면 법선을 추정하는 단계;
상기 시뮬레이션 영상들의 RGB 각 채널에 대해 상기 의사 역법을 사용하여 상기 확산 알베도를 추정하는 단계; 및
상기 표면 법선 및 상기 확산 알베도에 대한 반복적인 추정을 통해 상기 상기 표면 법선 및 상기 확산 알베도를 재구성하는 단계
를 포함하는, 조명 패턴 결정 방법.In Article 10,
The step of reconstructing the surface normal and the diffuse albedo is
A step of setting the above diffuse albedo to the maximum intensity among the above simulation images;
A step of estimating the surface normal using a pseudo-inverse method based on the diffuse albedo set to the maximum intensity;
A step of estimating the diffuse albedo using the pseudo-inverse method for each RGB channel of the above simulation images; and
A step of reconstructing the surface normal and the diffuse albedo by iteratively estimating the surface normal and the diffuse albedo.
A method for determining a lighting pattern, comprising:
상기 제2 표면 법선 벡터를 예측하는 단계는
포토메트릭 스테레오(photometric stereo) 기법에 기초한 선형 시스템에 상기 가상의 조명 패턴들과 상기 가상의 조명 패턴들에 대응하는 시뮬레이션 영상들을 대입하여 상기 제2 표면 법선 벡터를 예측하는 단계
를 포함하는, 조명 패턴 결정 방법.In the first paragraph,
The step of predicting the second surface normal vector is
A step of predicting the second surface normal vector by substituting the virtual lighting patterns and simulation images corresponding to the virtual lighting patterns into a linear system based on the photometric stereo technique.
A method for determining a lighting pattern, comprising:
상기 조명 패턴들에 의해 3차원 대상 객체를 포함하는 대상 장면을 캡처하는 단계; 및
상기 조명 패턴들에 기초한 포토메트릭 스테레오 기법을 통해 상기 3차원 대상 객체의 표면 법선을 복원함으로써 상기 대상 장면에 대응하는 3차원 장면을 모델링하는 단계
를 포함하는, 3차원 장면을 모델링하는 방법.A step of obtaining lighting patterns corresponding to a three-dimensional target object using a learned neural network;
A step of capturing a target scene including a three-dimensional target object by the above lighting patterns; and
A step of modeling a 3D scene corresponding to the target scene by restoring the surface normal of the 3D target object through a photometric stereo technique based on the above lighting patterns.
A method for modeling a three-dimensional scene, comprising:
상기 3차원 장면을 모델링하는 단계는
상기 대상 장면의 각 프레임 별로 확산 반사 성분과 정반사 성분의 분리를 수행하여 상기 조명 패턴들 중 어느 하나의 조명 패턴에 대응하는 확산 반사 영상을 획득하는 단계; 및
상기 확산 반사 영상에 상기 포토메트릭 스테레오 기법을 적용하여 상기 3차원 대상 객체의 표면 법선 벡터를 추정하는 단계
를 포함하는, 3차원 장면을 모델링하는 방법.In Article 13
The steps for modeling the above 3D scene are
A step of obtaining a diffuse reflection image corresponding to one of the lighting patterns by performing separation of the diffuse reflection component and the specular reflection component for each frame of the target scene; and
A step of estimating the surface normal vector of the three-dimensional target object by applying the photometric stereo technique to the diffuse reflection image.
A method for modeling a three-dimensional scene, comprising:
상기 신경망은
표면 법선 정보를 미리 알고 있는 3차원 객체를 촬영한 제1 영상으로부터 상기 3차원 객체의 제1 표면 법선 벡터(surface normal vector)를 추정함으로써 구성되는 데이터 셋에 의해 학습된 것인, 3차원 장면을 모델링하는 방법.In Article 12,
The above neural network
A method for modeling a three-dimensional scene, the method being learned by a data set composed by estimating a first surface normal vector of a three-dimensional object from a first image of the three-dimensional object whose surface normal information is known in advance.
상기 조명 패턴들에 의해 3차원 대상 객체를 포함하는 대상 장면을 캡처하는 카메라; 및
상기 조명 패턴들에 기초한 포토메트릭 스테레오 기법을 통해 상기 3차원 대상 객체의 표면 법선을 복원함으로써 상기 대상 장면에 대응하는 3차원 장면을 모델링하는 프로세서
를 포함하는, 3차원 장면을 모델링하는 장치.A communication interface for receiving lighting patterns corresponding to a three-dimensional target object;
A camera for capturing a target scene including a three-dimensional target object by the above lighting patterns; and
A processor that models a 3D scene corresponding to the target scene by restoring the surface normal of the 3D target object through a photometric stereo technique based on the above lighting patterns.
A device for modeling a three-dimensional scene, including:
상기 프로세서는
상기 대상 장면의 각 프레임 별로 확산 반사 성분과 정반사 성분의 분리를 수행하여 상기 조명 패턴들 중 어느 하나의 조명 패턴에 대응하는 확산 반사 영상을 획득하고, 상기 확산 반사 영상에 상기 포토메트릭 스테레오 기법을 적용하여 상기 3차원 대상 객체의 표면 법선 벡터를 추정하는, 3차원 장면을 모델링하는 장치.In Article 17,
The above processor
A device for modeling a three-dimensional scene, wherein the device separates a diffuse reflection component and a specular reflection component for each frame of the target scene to obtain a diffuse reflection image corresponding to one of the lighting patterns, and applies the photometric stereo technique to the diffuse reflection image to estimate a surface normal vector of the three-dimensional target object.
상기 조명 패턴들 및 모델링된 상기 3차원 장면 중 적어도 하나를 표시하는 디스플레이
를 더 포함하는, 3차원 장면을 모델링하는 장치.In Article 17,
A display displaying at least one of the above lighting patterns and the modeled three-dimensional scene
A device for modeling a three-dimensional scene, comprising:
상기 3차원 장면을 모델링하는 장치는
조명 스테이지, 핸드헬드 플래시 카메라, 디스플레이 카메라 시스템을 포함한 이미징 시스템, 스마트 글래스(smart glass)를 포함하는 웨어러블 디바이스(wearable device), AR(Augmented Reality) 기기, VR(Virtual Reality) 기기, 및 MR(Mixed Reality) 기기를 포함하는 헤드 마운티드 디바이스(Head Mounted Device; HMD), 텔레비전, 스마트 폰, 퍼스널 컴퓨터, 태블릿, 및 노트북을 포함하는 사용자 단말 중 적어도 하나를 포함하는, 3차원 장면을 모델링하는 장치.In Article 17,
The device for modeling the above three-dimensional scene is
A device for modeling a three-dimensional scene, comprising at least one of a lighting stage, an imaging system including a handheld flash camera, a display camera system, a wearable device including smart glasses, a head mounted device (HMD) including an augmented reality (AR) device, a virtual reality (VR) device, and a mixed reality (MR) device, and a user terminal including a television, a smart phone, a personal computer, a tablet, and a laptop.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US18/669,048 US20240394964A1 (en) | 2023-05-24 | 2024-05-20 | Method of determining illumination pattern for three-dimensional scene and method and apparatus for modeling three-dimensional scene |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230067282 | 2023-05-24 | ||
KR20230067282 | 2023-05-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240169499A true KR20240169499A (en) | 2024-12-03 |
Family
ID=93846916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230150041A Pending KR20240169499A (en) | 2023-05-24 | 2023-11-02 | Learning method of determining light patterns for three-dimensional scenes, method and apparatus of three-dimensional scenes |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20240169499A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119693580A (en) * | 2025-02-24 | 2025-03-25 | 北京正通亿和文化艺术交流有限公司 | Light field data acquisition and processing method based on artificial intelligence |
-
2023
- 2023-11-02 KR KR1020230150041A patent/KR20240169499A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119693580A (en) * | 2025-02-24 | 2025-03-25 | 北京正通亿和文化艺术交流有限公司 | Light field data acquisition and processing method based on artificial intelligence |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102606208B1 (en) | Learning-based lens flare removal | |
US10417829B2 (en) | Method and apparatus for providing realistic 2D/3D AR experience service based on video image | |
CN106548455B (en) | Apparatus and method for adjusting the brightness of an image | |
TWI870399B (en) | System and method for creation of topical agents with improved image capture | |
US11210839B2 (en) | Photometric image processing | |
JP3962588B2 (en) | 3D image processing method, 3D image processing apparatus, 3D image processing system, and 3D image processing program | |
Griffiths et al. | OutCast: Outdoor Single‐image Relighting with Cast Shadows | |
US20170094253A1 (en) | Photometric three-dimensional facial capture and relighting | |
Pouli et al. | Image statistics in visual computing | |
US11526067B2 (en) | Lighting assembly for producing realistic photo images | |
Huang et al. | End-to-end full projector compensation | |
Zhong et al. | Reproducing reality with a high-dynamic-range multi-focal stereo display | |
TW202424629A (en) | Infrared light-guided portrait relighting | |
Itoh et al. | Gaussian light field: Estimation of viewpoint-dependent blur for optical see-through head-mounted displays | |
KR20240169499A (en) | Learning method of determining light patterns for three-dimensional scenes, method and apparatus of three-dimensional scenes | |
US20240394964A1 (en) | Method of determining illumination pattern for three-dimensional scene and method and apparatus for modeling three-dimensional scene | |
Li et al. | Physics-based efficient full projector compensation using only natural images | |
KR100681320B1 (en) | Three-Dimensional Shape Modeling of Objects Using Level Set Solution of Partial Differential Equations Derived from Helmholtz Exchange Conditions | |
Lin et al. | Learning lens blur fields | |
Ono et al. | Practical BRDF reconstruction using reliable geometric regions from multi-view stereo | |
US12260496B2 (en) | Method and device for light estimation | |
US11636578B1 (en) | Partial image completion | |
Gibson et al. | Photorealistic Augmented Reality. | |
Rangelov et al. | 3D Reconstruction Techniques and the Impact of Lighting Conditions on Reconstruction Quality: A Comprehensive Review | |
Li et al. | DPCS: Path Tracing-Based Differentiable Projector-Camera Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20231102 |
|
PG1501 | Laying open of application |