[go: up one dir, main page]

KR20200050246A - 2차원 영상으로부터 3차원 객체를 검출하는 방법 및 장치 - Google Patents

2차원 영상으로부터 3차원 객체를 검출하는 방법 및 장치 Download PDF

Info

Publication number
KR20200050246A
KR20200050246A KR1020180133044A KR20180133044A KR20200050246A KR 20200050246 A KR20200050246 A KR 20200050246A KR 1020180133044 A KR1020180133044 A KR 1020180133044A KR 20180133044 A KR20180133044 A KR 20180133044A KR 20200050246 A KR20200050246 A KR 20200050246A
Authority
KR
South Korea
Prior art keywords
volume
image
candidates
detection area
coordinate system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020180133044A
Other languages
English (en)
Other versions
KR102723996B1 (ko
Inventor
최희민
강효아
현윤석
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020180133044A priority Critical patent/KR102723996B1/ko
Priority to US16/545,659 priority patent/US11080878B2/en
Priority to CN201910998360.8A priority patent/CN111145139B/zh
Publication of KR20200050246A publication Critical patent/KR20200050246A/ko
Application granted granted Critical
Publication of KR102723996B1 publication Critical patent/KR102723996B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06K9/00208
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • G06K9/46
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Multimedia (AREA)

Abstract

일 실시예에 따른 객체 검출 기법은 객체를 포함하는 2차원의 영상을 수신하는 단계; 영상에서 객체의 검출 영역을 획득하는 단계; 객체의 검출 영역에 기초하여, 3차원 좌표계에서 객체를 포함하는 볼륨의 방향 후보들을 반복적으로(iteratively) 탐색하는 단계; 및 탐색 결과에 기초하여, 3차원 좌표계에서 볼륨을 검출하는 단계를 포함한다.

Description

2차원 영상으로부터 3차원 객체를 검출하는 방법 및 장치{METHOD FOR DETECTING 3D OBJECT FROM 2D IMAGE AND APPARATUS THEREOF}
아래 실시예들은 2차원 영상으로부터 3차원 객체를 검출하는 방법 및 장치에 관한 것이다.
객체 검출 기술은 영상에서 객체를 포함하는 영역을 검출하는 기법이다. 예를 들어, 객체 검출 기술을 이용하여, 2차원 영상에서 객체를 둘러싸는 2차원 바운딩 박스(bounding box)가 검출될 수 있다. 2차원 바운딩 박스는 영상 내 위치 및 크기로 특정될 수 있다. 객체 검출 기술은 신경망 기반 영상 처리를 통하여 수행될 수 있다. 한편, 3차원 바운딩 박스는 3차원 좌표계에서 객체를 둘러싸는 볼륨(volume)으로, 예를 들어 3차원 좌표계에서 위치, 크기 및 방향으로 특정될 수 있다. 주행 관련 어플리케이션 등 3차원 바운딩 박스를 요구하는 어플리케이션들이 증가하고 있다.
일 측에 따른 2차원 영상으로부터 3차원 객체를 검출하는 방법은 객체를 포함하는 2차원의 영상을 수신하는 단계; 상기 영상에서 상기 객체의 검출 영역을 획득하는 단계; 상기 객체의 검출 영역에 기초하여, 3차원 좌표계에서 상기 객체를 포함하는 볼륨의 방향 후보들을 반복적으로(iteratively) 탐색하는 단계; 및 상기 탐색 결과에 기초하여, 상기 3차원 좌표계에서 상기 볼륨을 검출하는 단계를 포함한다.
상기 영상에서, 상기 객체의 적어도 일부는 다른 객체에 의하여 가려지거나, 상기 영상의 경계에 의하여 잘릴 수 있다.
상기 반복적으로 탐색하는 단계는 상기 3차원 좌표계에서 상기 볼륨의 방향 후보들을 생성하는 단계; 상기 볼륨의 방향 후보들 및 상기 볼륨의 크기에 기초하여, 상기 3차원 좌표계에서 상기 볼륨의 위치 후보들을 추정하는 단계; 상기 볼륨의 위치 후보들에 따른 상기 볼륨의 투영 영역들 및 상기 검출 영역에 기초하여, 상기 볼륨의 위치 후보들 중 어느 하나를 선택하는 단계; 및 상기 선택된 위치 후보 및 상기 영상에서 상기 객체의 방향에 기초하여, 상기 3차원 좌표계에서 상기 볼륨의 방향을 결정하는 단계를 포함할 수 있다.
상기 볼륨의 방향 후보들을 생성하는 단계는 이전 이터레이션에서 결정된 볼륨의 방향에 기초하여, 상기 후보 방향들을 생성하는 단계를 포함할 수 있다.
상기 볼륨의 방향 후보들을 생성하는 단계는 이전 이터레이션의 서치 범위보다 작은 서치 범위 및 상기 이전 이터레이션의 해상도보다 높은 해상도에 기초하여, 상기 후보 방향들을 생성하는 단계를 포함할 수 있다.
상기 볼륨의 방향 후보들을 생성하는 단계는 미리 정해진 서치 범위 및 해상도에 기초하여, 복수의 방향 후보들을 생성하는 단계; 및 상기 검출 영역의 중심점을 향하는 레이 방향(ray direction) 및 상기 영상에서 상기 객체의 방향에 대응하는 방향 후보를 생성하는 단계 중 적어도 하나를 포함할 수 있다.
상기 볼륨의 위치 후보들을 추정하는 단계는 상기 검출 영역의 특징점들 및 상기 볼륨의 특징점들 사이의 대응관계에 기초하여, 상기 방향 후보들 및 상기 크기에 대응하는 상기 위치 후보들을 결정하는 단계를 포함할 수 있다.
상기 볼륨의 위치 후보들을 추정하는 단계는 상기 검출 영역의 특징점들 중 상기 객체의 잘리거나 가려진 부위에 해당하는 특징점을 배제하는 단계를 더 포함할 수 있다.
상기 볼륨의 위치 후보들을 결정하는 단계는 상기 영상의 그라운드 평면의 피치(pitch)를 더 고려하여, 상기 방향 후보들 및 상기 크기에 대응하는 상기 위치 후보들을 결정하는 단계를 포함할 수 있다.
상기 선택하는 단계는 상기 투영 영역들과 상기 검출 영역 사이의 겹쳐진 영역의 크기들을 산출하는 단계; 상기 겹쳐진 영역의 크기들에 기초하여, 상기 투영 영역들 중 어느 하나를 선택하는 단계; 및 상기 선택된 투영 영역에 대응하는 위치 후보를 선택하는 단계를 포함할 수 있다.
상기 볼륨을 검출하는 단계는 상기 영상으로부터 획득한 상기 볼륨의 크기 및 상기 탐색 결과로부터 획득한 상기 볼륨의 방향에 기초하여, 상기 3차원 좌표계에서 상기 볼륨의 위치를 결정하는 단계를 포함할 수 있다.
상기 볼륨의 위치를 결정하는 단계는 상기 검출 영역의 특징점들 및 상기 볼륨의 특징점들 사이의 대응관계에 기초하여, 상기 볼륨의 방향 및 상기 볼륨의 크기에 대응하는 상기 볼륨의 위치를 결정하는 단계를 포함할 수 있다.
상기 검출 영역을 획득하는 단계는 상기 영상을 인식하는 신경망을 이용하여, 상기 객체를 포함하는 상기 검출 영역, 상기 영상에서 상기 객체의 방향, 및 상기 3차원 좌표계에서 상기 볼륨의 크기를 획득하는 단계를 포함할 수 있다.
일 측에 따른 2차원 영상으로부터 3차원 객체를 검출하는 장치는 객체를 포함하는 2차원의 영상을 저장하는 메모리; 및 상기 영상에서 상기 객체의 검출 영역을 획득하고, 상기 객체의 검출 영역에 기초하여, 3차원 좌표계에서 상기 객체를 포함하는 볼륨의 방향 후보들을 반복적으로(iteratively) 탐색하며, 상기 탐색 결과에 기초하여, 상기 3차원 좌표계에서 상기 볼륨을 검출하는 적어도 하나의 프로세서를 포함한다.
도 1은 일 실시예에 따른 객체 검출 기법을 설명하는 도면.
도 2는 일 실시예에 따른 객체 검출 기법을 설명하는 동작 흐름도.
도 3은 일 실시예에 따른 객체 검출 기법의 상세 동작을 설명하는 도면.
도 4는 일 실시예에 따른 방향들을 설명하는 도면.
도 5는 일 실시예에 따른 볼륨의 방향 후보들을 설명하는 도면.
도 6a는 일 실시예에 따른 볼륨의 위치를 결정하는 방법을 설명하는 도면.
도 6b는 일 실시예에 따른 2차원 바운딩 박스와 3차원 바운딩 박스 사이의 대응관계를 설명하는 도면.
도 7은 일 실시예에 따른 볼륨의 위치를 연산하는 방법을 설명하는 도면.
도 8은 일 실시예에 따른 이터레이션에 따라 볼륨의 방향 후보들을 결정하는 방법을 설명하는 도면.
도 9는 일 실시예에 따라 2차원 영상으로부터 3차원 객체를 검출하는 방법을 도시한 동작 흐름도.
도 10은 일 실시예에 따른 객체 검출 장치를 도시한 블록도.
본 명세서에서 개시되어 있는 특정한 구조적 또는 기능적 설명들은 단지 기술적 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실시예들은 다양한 다른 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~간의에"와 "바로~간의에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일 실시예에 따른 객체 검출 기법을 설명하는 도면이다.
도 1을 참조하면, 일 실시예에 따른 2차원의 영상과 3차원의 좌표계가 도시된다. 2차원의 영상은 객체를 포함한다. 2차원 영상으로부터 객체를 검출하는 기법은 널리 알려져 있다. 일 예로, 기 학습된 신경망에 2차원 영상을 입력하여 객체의 영역이 검출될 수 있다. 객체의 검출 영역은 2차원 영상에서 해당 객체를 둘러싸는 2차원 바운딩 박스일 수 있다.
예를 들어, 2차원의 영상은 차량의 주행 영상일 수 있다. 시간의 흐름에 따라 시간의 흐름에 따른 제1 프레임(110), 제2 프레임(120), 제3 프레임(130) 및 제4 프레임(140)이 입력된다고 가정하자. 각 프레임에서 인접 차로에서 주행 중인 다른 차량이 객체로 검출될 수 있다. 제1 프레임(110)에서는 제1 바운딩 박스(115)가 검출되고, 제2 프레임(120)에서는 제2 바운딩 박스(125)가 검출되며, 제3 프레임(130)에서는 제3 바운딩 박스(135)가 검출되고, 제4 프레임(140)에서는 제4 바운딩 박스(145)가 검출될 수 있다.
2차원 바운딩 박스는 직사각형일 수 있고, 다양한 방식으로 특정될 수 있다. 일 예로, 2차원 바운딩 박스는 네 모서리의 점들의 좌표들로 특정될 수 있다. 또는, 2차원 바운딩 박스는 위치와 크기의 조합으로 특징될 수 있다. 위치는 한 모서리의 점의 좌표, 혹은 중심점의 좌표 등으로 표현되고, 크기는 너비와 높이로 표현될 수 있다.
일 실시예에 따르면, 2차원 영상에서 객체의 검출 영역에 기초하여 3차원 좌표계에서 객체를 포함하는 볼륨이 검출될 수 있다. 3차원 좌표계는 월드 좌표계일 수 있다. 볼륨은 3차원 좌표계에서 해당 객체를 둘러싸는 3차원 바운딩 박스일 수 있다. 예를 들어, 제1 프레임(110), 제2 프레임(120), 제3 프레임(130) 및 제4 프레임(140)에 대응하여, 3차원 좌표계에서 3차원 바운딩 박스(150)가 검출될 수 있다. 시간의 흐름에 따라 객체가 이동하는 경우, 3차원 좌표계에서 3차원 바운딩 박스(150)도 이동한다.
3차원 바운딩 박스는 직육면체일 수 있고, 다양한 방식으로 특정될 수 있다. 일 예로, 3차원 바운딩 박스는 여덟 모서리의 점들의 좌표들로 특정될 수 있다. 또는, 3차원 바운딩 박스는 위치, 크기 및 방향의 조합으로 특징될 수 있다. 위치는 한 모서리의 점의 좌표, 혹은 바닥 면의 중심점의 좌표 등으로 표현되고, 크기(size)는 너비, 길이 및 높이로 표현될 수 있다. 방향은 한 면의 법선이 향하는 방향 벡터 등으로 표현될 수 있다. 방향 벡터는 3차원 바운딩 박스가 3차원 좌표계의 세 축(예를 들어, x축, y축, z축)을 기준으로 회전한 정도(예를 들어, 요우, 피치, 로우)에 대응할 수 있다. 방향은 자세(orientation)라고 지칭될 수도 있다.
2차원 영상은 z축 방향의 깊이 정보를 포함하지 않으므로, 사영 기하학(projective geometry)을 이용하여 2차원 바운딩 박스로부터 3차원 바운딩 박스가 검출될 수 있다. 사영 기하학은 2차원 영상 내 특성으로, 기하학적 물체가 사영 변환할 때 변하지 않는 특성들을 포함할 수 있다.
일 실시예에 따르면, 2차원 영상에서 객체가 다른 객체에 의하여 가려지거나, 객체가 영상의 경계에서 잘리는 경우가 발생할 수 있다. 이 경우, 객체의 검출 영역은 실제 객체를 모두 포함하지 않을 수 있다. 예를 들어, 제1 프레임(110)을 참고하면, 인접 차로에서 주행 중인 다른 차량의 왼편이 영상의 경계에서 잘려 있고, 제1 바운딩 박스(115)는 영상에 표시되지 않은 부분까지 포함할 수 없다.
2차원 영상에서 객체가 가려지거나 잘리더라도, 3차원 좌표계에서는 온전한 형태의 객체로 표현되어야 한다. 2차원 영상에서 객체의 검출 영역이 해당 객체를 모두 포함하지 못하는 경우, 3차원 좌표계에서 해당 객체의 불륨이 정확하게 검출될 수 없다.
아래에서 설명할 실시예들은 사영 기하학에 기초하여 3차원 좌표계에서 볼륨의 방향 후보들을 반복적으로 탐색함으로써, 2차원 영상에서 객체가 가려지거나 잘리더라도 3차원 좌표계에서 볼륨을 정확하게 검출하는 기법을 제공한다.
도 2는 일 실시예에 따른 객체 검출 기법을 설명하는 동작 흐름도이다.
도 2를 참조하면, 일 실시예에 따른 객체 검출 기법은 객체를 포함하는 2차원 영상을 수신하는 단계(210), 2차원 영상에서 객체의 검출 영역을 획득하는 단계(220), 객체의 검출 영역에 기초하여 3차원 좌표계에서 볼륨의 방향 후보들을 반복적으로 탐색하는 단계(230), 및 탐색 결과에 기초하여 3차원 좌표계에서 볼륨을 검출하는 단계(240)를 포함한다. 이 때, 2차원 영상에 포함된 객체의 적어도 일부는 다른 객체에 의하여 가려지거나, 2차원 영상의 경계에 의하여 잘릴 수 있다.
단계(210)에서 카메라에 의하여 촬영된 2차원 영상이 수신된다. 단계(220)에서 2차원 영상으로부터 검출되는 검출 영역은 2차원 바운더리 박스일 수 있다. 단계(220)에서, 2차원 영상으로부터 검출 영역뿐 아니라, 2차원 영상에서 객체의 방향(이하, 로컬 방향)이 더 획득될 수 있다. 예를 들어, 2차원 영상을 입력 받아, 해당 영상 내에서 객체가 향하는 방향인 로컬 방향을 출력하는 신경망이 이용될 수 있다.
사영 기하학에 기초하여, 2차원 영상에서 객체의 방향(이하, 로컬 방향)이 3차원 좌표계에서 객체의 방향(이하, 글로벌 방향)으로 변환될 수 있다. 도 4를 참조하면, 카메라에서 객체의 중심을 향하는 레이 방향(ray direction)(410)이 정의된다. 카메라는 3차원 좌표계의 한 축(예를 들어, x축)(430)에 정렬될 수 있다. 레이 방향(410)은 레이 각도(θray)로 표현될 수 있다. 2차원 영상에서 로컬 방향은 레이 방향(410)과 객체의 방향(420) 사이의 로컬 각도(θl)로 표현될 수 있다. 또한, 3차원 좌표계에서 글로벌 방향은 축(430)과 평행한 방향(435)과 객체의 방향(420) 사이의 글로벌 각도(θ)로 표현될 수 있다. 글로벌 각도(θ)는 레이 각도(θray)와 로컬 각도(θl)를 합산함으로써, 계산될 수 있다.
만약 2차원 영상에서 객체의 검출 영역이 해당 객체를 온전히 포함하는 경우, 레이 각도(θray)는 카메라로부터 검출 영역의 중심을 향하는 방향을 통하여 결정될 수 있다. 하지만, 객체의 적어도 일부가 가려지거나 잘린 경우, 카메라로부터 검출 영역의 중심을 향하는 방향을 통하여 결정된 레이 각도(θray)는 부정확할 수 있다.
일 실시예에 따른 객체 검출 기법은 단계(230)에서 글로벌 방향에 해당하는 볼륨의 방향 후보들을 반복적으로 탐색함으로써, 객체의 적어도 일부가 가려지거나 잘린 경우에도 3차원 좌표계에서 볼륨을 정확하게 검출 혹은 복원할 수 있다.
아래에서 상세하게 설명하겠으나, 단계(220)에서, 3차원 좌표계에서 볼륨의 크기가 더 획득될 수 있다. 볼륨은 직육면체일 수 있고, 볼륨의 크기는 너비, 길이 및 높이를 포함할 수 있다. 예를 들어, 기 학습된 신경망은 검출 대상인 객체의 클래스 혹은 유형을 식별할 수 있다. 신경망은 식별된 클래스 혹은 유형에 따라 볼륨의 크기를 출력할 수 있다. 설명의 편의를 위하여, 객체의 클래스 혹은 유형이 식별된 이후 볼륨의 크기가 결정되는 것으로 설명하였으나, 실시예에 따라 신경망은 2차원 영상을 입력 받아 바로 볼륨의 크기를 출력하는 단-대-단(end-to-end) 신경망일 수 있다.
단계(220)에서 이용되는 신경망들(예를 들어, 검출 영역을 출력하는 제1 신경망, 로컬 방향을 출력하는 제2 신경망, 및 볼륨의 크기를 출력하는 제3 신경망 등) 중 적어도 일부는 단일 신경망으로 병합되어 구현될 수 있다.
단계(240)에서 탐색 결과에 기초하여 볼륨이 검출되며, 검출된 볼륨은 3차원 좌표계에서 위치, 크기, 및 방향으로 특정될 수 있다. 전술한 것과 같이, 여덟 개의 모서리 점들의 좌표들을 이용하여 볼륨을 특정하는 등, 볼륨을 특정하는 방식은 다양하게 변형될 수 있다.
이하에서, 단계(230)을 통하여 볼륨의 방향 후보들을 반복적으로 탐색하는 동작을 구체적으로 설명한다.
도 3은 일 실시예에 따른 객체 검출 기법의 상세 동작을 설명하는 도면이다. 도 3을 참조하면, 2차원의 영상(310)으로부터 볼륨(350)이 검출되는 동작이 도시된다. 2차원의 영상(310)은 적어도 일부가 가려지거나 잘린 객체를 포함한다.
우선, 2차원의 영상(310)이 수신되면, 2차원의 영상(310)에 기초하여 객체의 검출 영역(317), 객체의 로컬 방향(319)이 획득된다. 전술한 사항들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 생략한다.
3차원 좌표계에서 볼륨이 향할 수 있는 글로벌 방향 후보들(320)이 생성된다. 최초 글로벌 방향 후보들은 미리 정해진 서치 범위 및 해상도에 기초하여 생성될 수 있다. 도 5를 참조하면, 3차원 좌표계의 x-z 평면에서 생성되는 8개의 글로벌 방향 후보들(510, 520, 530, 540, 550, 560, 570, 580)이 도시된다. 이 경우, 서치 범위는 x-z 평면의 -π부터 π까지이고, 해상도는 π/4일 수 있다. 일 실시예에 따르면, 볼륨의 형태는 볼륨의 방향으로 대칭이기 때문에, 서치 범위는 0부터 π로 설정될 수 있다.
일 실시예에 따르면, 카메라로부터 검출 영역(예를 들어, 2차원 바운딩 박스)을 향하는 레이 방향 및 객체의 로컬 방향(319)로부터 결정되는 글로벌 방향도 최초 글로벌 방향 후보들 중 하나로 포함될 수 있다. 적어도 일부가 가려지거나 잘린 객체의 검출 영역을 향하는 레이 방향을 이용하는 경우 글로벌 방향이 정확하게 계산될 수 없으나, 글로벌 방향 후보들을 탐색하기 위한 기점으로 활용될 수 있다.
글로벌 방향 후보들(320)과 볼륨의 크기(315)에 기초하여, 3차원 좌표계에서 볼륨의 위치 후보들(330)이 추정될 수 있다. 도 6a를 참조하면, 사영 기하학에 기초하여, 2차원 영상의 픽셀과 3차원 좌표 사이의 대응관계가 도시된다. 3차원 좌표는 도 6a의 관계식을 통하여 2차원 영상의 픽셀에 투영될 수 있다.
(x, y, z)는 3차원 좌표계에서 3차원 좌표에 해당한다. 볼륨의 아랫면의 중심점(610)이 3차원 좌표계의 원점에 위치한다고 가정하면, 볼륨의 여덟 모서리의 3차원 좌표들은 볼륨의 크기에 의하여 표현될 수 있다. 예를 들어, 볼륨의 너비가 w이고, 길이가 l이며, 높이가 h인 경우, 볼륨의 아랫면의 네 모서리의 3차원 좌표들은 (-w/2, 0, -l/2), (w/2, 0, -l/2), (w/2, 0, l/2), (-w/2, 0, l/2)이고, 볼륨의 윗면의 네 모서리의 3차원 좌표들은 (-w/2, -h, -l/2), (w/2, -h, -l/2), (w/2, -h, l/2), (-w/2, -h, l/2)로 표현될 수 있다.
T는 이동 매트릭스로, 볼륨의 위치에 관한 매트릭스이다. 도 6a의 수학식을 풀이하여 T를 구함으로써, 볼륨의 위치가 추정될 수 있다. R은 회전 매트릭스로, 볼륨의 글로벌 방향에 의하여 결정될 수 있다. 복수의 글로벌 방향 후보들 각각에 대응하여 볼륨의 위치 후보가 추정될 수 있다. K는 카메라의 내부(intrinsic) 파라미터에 해당하고, S는 스케일링 팩터에 해당한다. (x_img, y_img)는 2차원 영상에서 픽셀의 좌표에 해당한다.
도 6b를 참조하면, 2차원 영상에서 객체의 검출 영역(710)에 포함된 제1 특징점들과 3차원 좌표계에서 객체의 볼륨(720)에 포함된 제2 특징점들 사이의 대응관계가 도시된다. 제1 특징점들 중 일부와 제2 특징점들 중 일부는 서로 매칭될 수 있다. 예를 들어, 검출 영역(710)에서 (x_img_min, y_img_min)의 픽셀과 볼륨(720)에서 (x_min, y_min, z_min)의 3차원 좌표 위치는 서로 매칭될 수 있다. 일 실시예에 따르면, 매칭되는 픽셀을 결정할 때, 가려지거나 잘린 부위(혹은 경계)에 해당하는 픽셀은 배제될 수 있다.
다시 도 6a를 참조하면, 매칭되는 픽셀의 좌표를 (x_img, y_img)로 설정하고, 매칭되는 3차원 좌표를 (x, y, z)로 설정하면, 볼륨의 위치를 미지수로 하는 방정식이 얻어진다. 여기서, 3차원 좌표는 볼륨이 3차원 좌표계의 원점에 위치하는 것을 가정하였을 때의 좌표로, 볼륨의 크기에 의하여 표현되는 좌표일 수 있다.
도 7을 참조하면, 2차원 영상의 픽셀들과 3차원 좌표들이 서로 매칭됨으로써, 볼륨의 위치가 연산되는 방법이 도시된다. 예를 들어, 도 7(a)의 좌측 2차원 영상에서 차량을 중심으로 전면 우상단에 해당하는 픽셀의 x좌표는 xmin이고, y좌표는 ymin이다. 또한, 차량을 중심으로 전면 좌하단에 해당하는 픽셀의 y좌표는 ymax이고, 차량을 중심으로 후면 좌하단에 해당하는 픽셀의 x좌표는 xmax이다.
각 픽셀들은 도 7(a)의 우측의 3차원 좌표계에 도시한 것과 같이 볼륨의 모서리들에 매칭되므로, 도 7(b)의 관계식을 통하여 Tx, Ty, Tz가 연산될 수 있다. (Tx, Ty, Tz)는 볼륨의 위치, 예를 들어 볼륨의 아랫면의 중심에 해당하는 3차원 좌표일 수 있다.
서로 매칭되는 픽셀과 3차원 좌표의 쌍이 세 개 이상인 경우, 3차원 좌표계에서 볼륨의 위치가 확정적으로 계산될 수 있다. 일 실시예에 따르면, 서로 매칭되는 픽셀과 3차원 좌표의 쌍이 두 개이더라도, 2차원의 영상의 그라운드 평면의 피치(pitch)를 더 고려하여 볼륨의 위치가 결정될 수 있다. 예를 들어, 주행 영상에서 객체는 인접한 다른 차량일 수 있고, 다른 차량은 영상 내 그라운드 평면과 평행하게 주행 중이라고 가정할 수 있다. 따라서, 볼륨의 피치를 그라운드 평면의 피치와 일치하도록 설정하면, 서로 매칭되는 픽셀과 3차원 좌표의 쌍이 두 개이더라도 볼륨의 위치가 확정적으로 결정될 수 있다. 또는, 서로 매칭되는 픽셀과 3차원 좌표의 쌍이 세 개 이상인 경우에도, 그라운드 평면의 피치를 더 고려하여 볼륨의 위치가 결정될 수도 있다.
다시 도 3을 참조하면, 글로벌 방향 후보들(320)에 대응하여 볼륨의 위치 후보들(330)이 추정될 수 있다. 볼륨의 위치 후보들(330) 중 어느 하나의 위치 후보(335)가 선택될 수 있다. 보다 구체적으로, 볼륨의 위치 후보들(330)이 추정되면, 위치 후보들(330)에 따른 볼륨이 2차원 영상으로 투영되고, 투영 영역들과 2차원 영상에서 객체의 검출 영역(317)을 비교함으로써 어느 하나의 위치 후보(335)가 선택될 수 있다.
예를 들어, 3차원 좌표계에서 볼륨은 위치, 크기, 방향에 기초하여 특정될 수 있으며, 글로벌 방향 후보마다 위치 후보가 결정되고, 볼륨의 크기는 주어져 있으므로, 위치 후보들에 대응하는 볼륨 후보들이 결정될 수 있다. 볼륨 후보들은 2차원 영상에 투영됨으로써 투영 영역들이 얻어질 수 있다. 투영 영역들 중 검출 영역(317)과 겹쳐진 영역이 최대이거나, 미리 정해진 임계치 이상인 투영 영역이 선택되고, 선택된 투영 영역에 대응하는 위치 후보(335)가 선택될 수 있다.
위치 후보(335)가 선택되면, 위치 후보(335)에 대응하는 투영 영상을 이용하여 레이 방향이 계산되고, 레이 방향과 로컬 방향(319)의 합산을 통하여 글로벌 방향(340)이 결정될 수 있다.
현 이터레이션에서 글로벌 방향(340)이 결정되면, 다음 이터레이션에서 글로벌 방향(340)에 기초하여 다음 글로벌 방향 후보들이 생성될 수 있다. 예를 들어, 글로벌 방향(340)을 기준으로, 이전 이터레이션의 서치 범위보다 작은 서치 범위를 가지고, 이전 이터레이션의 해상도보다 높은 해상도를 가지는 글로벌 방향 후보들이 생성될 수 있다.
도 8을 참조하면, 이전 이터레이션에서 방향(810)이 글로벌 방향으로 결정되었다고 가정하자. 이 경우, 서치 범위가 0에서 π이고, 해상도가 π/8인 글로벌 방향 후보들(820, 830, 840, 850, 860, 870)이 생성될 수 있다. 일 실시예에 따르면, 볼륨의 형태는 볼륨의 방향으로 대칭이기 때문에, 서치 범위는 π/4부터 3π/4과 같이 이전 이터레이션의 서치 범위보다 작은 범위로 설정될 수 있다.
글로벌 방향 후보들의 반복적 탐색을 통하여 최종 글로벌 방향이 결정되면, 최종 글로벌 방향에 기초하여 볼륨(350)이 검출 혹은 복원될 수 있다. 최종 글로벌 방향이 결정되면, 볼륨의 크기는 주어져 있으므로, 도 6a의 관계식을 통하여 볼륨의 최종 위치가 추정될 수 있다. 볼륨의 최종 글로벌 방향, 볼륨의 최종 위치, 및 볼륨의 크기가 결정되면, 볼륨(350)이 검출 혹은 복원될 수 있다.
도 9는 일 실시예에 따라 2차원 영상으로부터 3차원 객체를 검출하는 방법을 도시한 동작 흐름도이다.
도 9를 참조하면, 단계(1)에서, [-π, π] 사이를 양자화(quantize)하여 글로벌 자세 후보들이 선정된다(910). 글로벌 자세 후보들은 글로벌 방향 후보들에 대응한다.
단계(2)에서, 입력으로 주어진 3차원 박스의 크기와 단계(1)에서 선정된 글로벌 자세 후보들 각각에 대응하여 사영 기하학을 이용하여, 3차원 박스의 중심 위치가 계산된다(920). 3차원 박스는 3차원 볼륨에 대응하고, 3차원 박스의 중심 위치는 3차원 볼륨의 위치에 대응한다. 일 실시예에 따르면, 단계(2)에서, 그라운드 평면의 피치를 더 고려하여 3차원 박스의 중심 위치가 계산될 수 있다.
단계(3)에서, 단계(2)에서 계산된 글로벌 자세 후보들에 대응하는 3차원 박스의 중심 위치들 중 최적 값으로 레이 각도가 계산된다(930). 최적 값은 자세 후보에 대응하는 3차원 박스의 투영 영상과 2차원 검출 영역 사이의 겹친 영역에 기초하여 결정될 수 있다.
단계(4)에서, 입력으로 주어진 로컬 자세와 단계(3)에서 계산된 레이 각도를 합산함으로써, 글로벌 자세가 계산된다(940). 로컬 자세는 로컬 방향에 대응하고, 글로벌 자세는 글로벌 방향에 대응한다.
단계(5)에서, 단계(4)에서 주어진 글로벌 자세의 근처 값들로 글로벌 자세 후보들이 선정된다(950).
단계(6)에서, 입력으로 주어진 3차원 박스의 크기와 단계(5)에서 구한 글로벌 자세 후보들 각각에 대응하여, 사영 기하학을 이용하여 3차원 박스의 중심 위치가 계산된다(960). 일 실시예에 따르면, 단계(6)에서, 그라운드 평면의 피치를 더 고려하여 3차원 박스의 중심 위치가 계산될 수 있다.
단계(7)에서, 단계(6)에서 계산된 글로벌 자세 후보들에 대응하는 3차원 박스의 중심 위치들 중 최적 값으로 레이 각도가 계산된다(970). 단계(8)에서, 입력으로 주어진 로컬 자세와 단계(7)에서 계산된 레이 각도를 합산함으로써, 글로벌 자세가 계산된다(980).
단계(9)에서, 입력으로 주어진 3차원 박스의 크기와 단계(8)에서 구한 최종 글로벌 자세에 대응하여, 사영 기하학을 이용하여 최종적으로 3차원 박스의 중심 위치가 계신된다(990). 일 실시예에 따르면, 단계(9)에서, 그라운드 평면의 피치를 더 고려하여 3차원 박스의 중심 위치가 계산될 수 있다.
도 10은 일 실시예에 따른 전자 시스템을 도시하는 블록도이다. 도 10을 참조하면, 전자 시스템은 적어도 하나의 프로세서(1020) 및 메모리(1010)를 포함한다. 전자 시스템은 센서(1030)를 더 포함할 수 있다. 프로세서(1020), 메모리(1010), 및 센서(1030)는 버스를 통하여 서로 통신할 수 있다.
프로세서(1020)는 도 1 내지 도 9를 통하여 전술한 적어도 하나의 기법들을 수행할 수 있다. 메모리(1010)는 센서(1030)에 의하여 캡쳐된 영상을 저장할 수 있다. 메모리(1030)는 휘발성 메모리 또는 비휘발성 메모리일 수 있다. 프로세서(1020)는 프로그램을 실행하고, 전자 시스템을 제어할 수 있다. 프로세서(1020)에 실행되는 프로그램 코드는 메모리(1010)에 저장될 수 있다.
전자 시스템은 입출력 장치(도면 미 표시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다. 전자 시스템은 서버 장치 혹은 클라이언트 장치 등 다양한 전자 시스템들을 포함할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (28)

  1. 객체를 포함하는 2차원의 영상을 수신하는 단계;
    상기 영상에서 상기 객체의 검출 영역을 획득하는 단계;
    상기 객체의 검출 영역에 기초하여, 3차원 좌표계에서 상기 객체를 포함하는 볼륨의 방향 후보들을 반복적으로(iteratively) 탐색하는 단계; 및
    상기 탐색 결과에 기초하여, 상기 3차원 좌표계에서 상기 볼륨을 검출하는 단계
    를 포함하는, 2차원 영상으로부터 3차원 객체를 검출하는 방법.
  2. 제1항에 있어서,
    상기 영상에서,
    상기 객체의 적어도 일부는 다른 객체에 의하여 가려지거나, 상기 영상의 경계에 의하여 잘린,
    2차원 영상으로부터 3차원 객체를 검출하는 방법.
  3. 제1항에 있어서,
    상기 반복적으로 탐색하는 단계는
    상기 3차원 좌표계에서 상기 볼륨의 방향 후보들을 생성하는 단계;
    상기 볼륨의 방향 후보들 및 상기 볼륨의 크기에 기초하여, 상기 3차원 좌표계에서 상기 볼륨의 위치 후보들을 추정하는 단계;
    상기 볼륨의 위치 후보들에 따른 상기 볼륨의 투영 영역들 및 상기 검출 영역에 기초하여, 상기 볼륨의 위치 후보들 중 어느 하나를 선택하는 단계; 및
    상기 선택된 위치 후보 및 상기 영상에서 상기 객체의 방향에 기초하여, 상기 3차원 좌표계에서 상기 볼륨의 방향을 결정하는 단계
    를 포함하는,
    2차원 영상으로부터 3차원 객체를 검출하는 방법.
  4. 제3항에 있어서,
    상기 볼륨의 방향 후보들을 생성하는 단계는
    이전 이터레이션에서 결정된 볼륨의 방향에 기초하여, 상기 후보 방향들을 생성하는 단계
    를 포함하는,
    2차원 영상으로부터 3차원 객체를 검출하는 방법.
  5. 제3항에 있어서,
    상기 볼륨의 방향 후보들을 생성하는 단계는
    이전 이터레이션의 서치 범위보다 작은 서치 범위 및 상기 이전 이터레이션의 해상도보다 높은 해상도에 기초하여, 상기 후보 방향들을 생성하는 단계
    를 포함하는,
    2차원 영상으로부터 3차원 객체를 검출하는 방법.
  6. 제3항에 있어서,
    상기 볼륨의 방향 후보들을 생성하는 단계는
    미리 정해진 서치 범위 및 해상도에 기초하여, 복수의 방향 후보들을 생성하는 단계; 및
    상기 검출 영역의 중심점을 향하는 레이 방향(ray direction) 및 상기 영상에서 상기 객체의 방향에 대응하는 방향 후보를 생성하는 단계
    중 적어도 하나를 포함하는,
    2차원 영상으로부터 3차원 객체를 검출하는 방법.
  7. 제3항에 있어서,
    상기 볼륨의 위치 후보들을 추정하는 단계는
    상기 검출 영역의 특징점들 및 상기 볼륨의 특징점들 사이의 대응관계에 기초하여, 상기 방향 후보들 및 상기 크기에 대응하는 상기 위치 후보들을 결정하는 단계
    를 포함하는,
    2차원 영상으로부터 3차원 객체를 검출하는 방법.
  8. 제7항에 있어서,
    상기 볼륨의 위치 후보들을 추정하는 단계는
    상기 검출 영역의 특징점들 중 상기 객체의 잘리거나 가려진 부위에 해당하는 특징점을 배제하는 단계
    를 더 포함하는,
    2차원 영상으로부터 3차원 객체를 검출하는 방법.
  9. 제7항에 있어서,
    상기 볼륨의 위치 후보들을 결정하는 단계는
    상기 영상의 그라운드 평면의 피치(pitch)를 더 고려하여, 상기 방향 후보들 및 상기 크기에 대응하는 상기 위치 후보들을 결정하는 단계
    를 포함하는,
    2차원 영상으로부터 3차원 객체를 검출하는 방법.
  10. 제3항에 있어서,
    상기 선택하는 단계는
    상기 투영 영역들과 상기 검출 영역 사이의 겹쳐진 영역의 크기들을 산출하는 단계;
    상기 겹쳐진 영역의 크기들에 기초하여, 상기 투영 영역들 중 어느 하나를 선택하는 단계; 및
    상기 선택된 투영 영역에 대응하는 위치 후보를 선택하는 단계
    를 포함하는,
    2차원 영상으로부터 3차원 객체를 검출하는 방법.
  11. 제1항에 있어서,
    상기 볼륨을 검출하는 단계는
    상기 영상으로부터 획득한 상기 볼륨의 크기 및 상기 탐색 결과로부터 획득한 상기 볼륨의 방향에 기초하여, 상기 3차원 좌표계에서 상기 볼륨의 위치를 결정하는 단계
    를 포함하는,
    2차원 영상으로부터 3차원 객체를 검출하는 방법.
  12. 제11항에 있어서,
    상기 볼륨의 위치를 결정하는 단계는
    상기 검출 영역의 특징점들 및 상기 볼륨의 특징점들 사이의 대응관계에 기초하여, 상기 볼륨의 방향 및 상기 볼륨의 크기에 대응하는 상기 볼륨의 위치를 결정하는 단계
    를 포함하는,
    2차원 영상으로부터 3차원 객체를 검출하는 방법.
  13. 제1항에 있어서,
    상기 검출 영역을 획득하는 단계는
    상기 영상을 인식하는 신경망을 이용하여, 상기 객체를 포함하는 상기 검출 영역, 상기 영상에서 상기 객체의 방향, 및 상기 3차원 좌표계에서 상기 볼륨의 크기를 획득하는 단계
    를 포함하는,
    2차원 영상으로부터 3차원 객체를 검출하는 방법.
  14. 하드웨어와 결합되어 제1항 내지 제13항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  15. 객체를 포함하는 2차원의 영상을 저장하는 메모리; 및
    상기 영상에서 상기 객체의 검출 영역을 획득하고,
    상기 객체의 검출 영역에 기초하여, 3차원 좌표계에서 상기 객체를 포함하는 볼륨의 방향 후보들을 반복적으로(iteratively) 탐색하며,
    상기 탐색 결과에 기초하여, 상기 3차원 좌표계에서 상기 볼륨을 검출하는
    적어도 하나의 프로세서
    를 포함하는, 2차원 영상으로부터 3차원 객체를 검출하는 장치.
  16. 제15항에 있어서,
    상기 영상에서,
    상기 객체의 적어도 일부는 다른 객체에 의하여 가려지거나, 상기 영상의 경계에 의하여 잘린,
    2차원 영상으로부터 3차원 객체를 검출하는 장치.
  17. 제15항에 있어서,
    상기 프로세서는
    상기 반복적으로 탐색하기 위하여,
    상기 3차원 좌표계에서 상기 볼륨의 방향 후보들을 생성하고,
    상기 볼륨의 방향 후보들 및 상기 볼륨의 크기에 기초하여, 상기 3차원 좌표계에서 상기 볼륨의 위치 후보들을 추정하며,
    상기 볼륨의 위치 후보들에 따른 상기 볼륨의 투영 영역들 및 상기 검출 영역에 기초하여, 상기 볼륨의 위치 후보들 중 어느 하나를 선택하고,
    상기 선택된 위치 후보 및 상기 영상에서 상기 객체의 방향에 기초하여, 상기 3차원 좌표계에서 상기 볼륨의 방향을 결정하는,
    2차원 영상으로부터 3차원 객체를 검출하는 장치.
  18. 제17항에 있어서,
    상기 프로세서는
    상기 볼륨의 방향 후보들을 생성하기 위하여,
    이전 이터레이션에서 결정된 볼륨의 방향에 기초하여, 상기 후보 방향들을 생성하는,
    2차원 영상으로부터 3차원 객체를 검출하는 장치.
  19. 제17항에 있어서,
    상기 프로세서는
    상기 볼륨의 방향 후보들을 생성하기 위하여,
    이전 이터레이션의 서치 범위보다 작은 서치 범위 및 상기 이전 이터레이션의 해상도보다 높은 해상도에 기초하여, 상기 후보 방향들을 생성하는,
    2차원 영상으로부터 3차원 객체를 검출하는 장치.
  20. 제17항에 있어서,
    상기 프로세서는
    상기 볼륨의 방향 후보들을 생성하기 위하여,
    미리 정해진 서치 범위 및 해상도에 기초하여, 복수의 방향 후보들을 생성하는,
    2차원 영상으로부터 3차원 객체를 검출하는 장치.
  21. 제17항에 있어서,
    상기 프로세서는
    상기 볼륨의 방향 후보들을 생성하기 위하여,
    상기 검출 영역의 중심점을 향하는 레이 방향(ray direction) 및 상기 영상에서 상기 객체의 방향에 대응하는 방향 후보를 생성하는,
    2차원 영상으로부터 3차원 객체를 검출하는 장치.
  22. 제17항에 있어서,
    상기 프로세서는
    상기 볼륨의 위치 후보들을 추정하기 위하여,
    상기 검출 영역의 특징점들 및 상기 볼륨의 특징점들 사이의 대응관계에 기초하여, 상기 방향 후보들 및 상기 크기에 대응하는 상기 위치 후보들을 결정하는,
    2차원 영상으로부터 3차원 객체를 검출하는 장치.
  23. 제22항에 있어서,
    상기 프로세서는
    상기 볼륨의 위치 후보들을 추정하기 위하여,
    상기 검출 영역의 특징점들 중 상기 객체의 잘리거나 가려진 부위에 해당하는 특징점을 배제하는,
    2차원 영상으로부터 3차원 객체를 검출하는 장치.
  24. 제22항에 있어서,
    상기 프로세서는
    상기 볼륨의 위치 후보들을 결정하기 위하여,
    상기 영상의 그라운드 평면의 피치(pitch)를 더 고려하여, 상기 방향 후보들 및 상기 크기에 대응하는 상기 위치 후보들을 결정하는,
    2차원 영상으로부터 3차원 객체를 검출하는 장치.
  25. 제17항에 있어서,
    상기 프로세서는
    상기 위치 후보들 중 어느 하나를 선택하기 위하여,
    상기 투영 영역들과 상기 검출 영역 사이의 겹쳐진 영역의 크기들을 산출하고,
    상기 겹쳐진 영역의 크기들에 기초하여, 상기 투영 영역들 중 어느 하나를 선택하며,
    상기 선택된 투영 영역에 대응하는 위치 후보를 선택하는,
    2차원 영상으로부터 3차원 객체를 검출하는 장치.
  26. 제15항에 있어서,
    상기 프로세서는
    상기 볼륨을 검출하기 위하여,
    상기 영상으로부터 획득한 상기 볼륨의 크기 및 상기 탐색 결과로부터 획득한 상기 볼륨의 방향에 기초하여, 상기 3차원 좌표계에서 상기 볼륨의 위치를 결정하는,
    2차원 영상으로부터 3차원 객체를 검출하는 장치.
  27. 제26항에 있어서,
    상기 프로세서는
    상기 볼륨의 위치를 결정하기 위하여,
    상기 검출 영역의 특징점들 및 상기 볼륨의 특징점들 사이의 대응관계에 기초하여, 상기 볼륨의 방향 및 상기 볼륨의 크기에 대응하는 상기 볼륨의 위치를 결정하는,
    2차원 영상으로부터 3차원 객체를 검출하는 장치.
  28. 제15항에 있어서,
    상기 프로세서는
    상기 검출 영역을 획득하기 위하여,
    상기 영상을 인식하는 신경망을 이용하여, 상기 객체를 포함하는 상기 검출 영역, 상기 영상에서 상기 객체의 방향, 및 상기 3차원 좌표계에서 상기 볼륨의 크기를 획득하는,
    2차원 영상으로부터 3차원 객체를 검출하는 장치.
KR1020180133044A 2018-11-01 2018-11-01 2차원 영상으로부터 3차원 객체를 검출하는 방법 및 장치 Active KR102723996B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020180133044A KR102723996B1 (ko) 2018-11-01 2018-11-01 2차원 영상으로부터 3차원 객체를 검출하는 방법 및 장치
US16/545,659 US11080878B2 (en) 2018-11-01 2019-08-20 Method and apparatus for detecting 3D object from 2D image
CN201910998360.8A CN111145139B (zh) 2018-11-01 2019-10-21 从2d图像中检测3d对象的方法、设备和计算机程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180133044A KR102723996B1 (ko) 2018-11-01 2018-11-01 2차원 영상으로부터 3차원 객체를 검출하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200050246A true KR20200050246A (ko) 2020-05-11
KR102723996B1 KR102723996B1 (ko) 2024-10-30

Family

ID=70459831

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180133044A Active KR102723996B1 (ko) 2018-11-01 2018-11-01 2차원 영상으로부터 3차원 객체를 검출하는 방법 및 장치

Country Status (3)

Country Link
US (1) US11080878B2 (ko)
KR (1) KR102723996B1 (ko)
CN (1) CN111145139B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12283118B2 (en) 2021-10-27 2025-04-22 Hyundai Motor Company Device and method for detecting 3D object

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102633140B1 (ko) * 2018-10-23 2024-02-05 삼성전자주식회사 주행 정보를 결정하는 방법 및 장치
CN111612753B (zh) * 2020-05-15 2021-08-06 北京百度网讯科技有限公司 三维物体检测方法、装置、电子设备和可读存储介质
CN111652113B (zh) * 2020-05-29 2023-07-25 阿波罗智联(北京)科技有限公司 障碍物检测方法、装置、设备以及存储介质
US11987236B2 (en) * 2020-08-31 2024-05-21 Nec Corporation Monocular 3D object localization from temporal aggregation
CN112509126B (zh) * 2020-12-18 2024-07-12 南京模数智芯微电子科技有限公司 三维物体检测的方法、装置、设备及存储介质
WO2022141262A1 (en) * 2020-12-30 2022-07-07 SZ DJI Technology Co., Ltd. Object detection
CN112633258B (zh) * 2021-03-05 2021-05-25 天津所托瑞安汽车科技有限公司 一种目标确定方法及装置、电子设备、计算机可读存储介质
WO2022191010A1 (ja) * 2021-03-12 2022-09-15 ソニーグループ株式会社 情報処理装置および情報処理方法
CN114187589A (zh) * 2021-12-14 2022-03-15 京东鲲鹏(江苏)科技有限公司 一种目标检测方法、装置、设备和存储介质
KR20230143383A (ko) * 2022-04-05 2023-10-12 현대자동차주식회사 3차원 객체 검출 장치 및 방법
EP4317904A1 (en) 2022-08-01 2024-02-07 Wilcox Industries Corp. Junction box interface for weapon accessory remote control unit

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9213885B1 (en) * 2004-10-22 2015-12-15 Carnegie Mellon University Object recognizer and detector for two-dimensional images using Bayesian network based classifier
US9563955B1 (en) * 2013-05-15 2017-02-07 Amazon Technologies, Inc. Object tracking techniques
US20170220887A1 (en) * 2016-01-29 2017-08-03 Pointivo, Inc. Systems and methods for extracting information about objects from scene information

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980059962A (ko) 1996-12-31 1998-10-07 구자홍 단안시를 사용한 물체의 3차원 위치 측정방법 및 이를 이용한 측정장치
KR100777199B1 (ko) 2006-12-14 2007-11-16 중앙대학교 산학협력단 이동 객체 추적 장치 및 그 방법
KR100920931B1 (ko) 2007-11-16 2009-10-12 전자부품연구원 Tof 카메라를 이용한 로봇의 물체 자세 인식 방법
KR100974413B1 (ko) 2009-03-18 2010-08-05 부산대학교 산학협력단 단일 카메라에 나타난 영상객체를 둘러싸는 3차원 도형의 추정 방법
US8749630B2 (en) 2010-05-13 2014-06-10 Ecole Polytechnique Federale De Lausanne (Epfl) Method and system for automatic objects localization
US8842163B2 (en) 2011-06-07 2014-09-23 International Business Machines Corporation Estimation of object properties in 3D world
US8736463B1 (en) 2012-01-30 2014-05-27 Google Inc. Object bounding box estimation
US9418480B2 (en) 2012-10-02 2016-08-16 Augmented Reailty Lab LLC Systems and methods for 3D pose estimation
US9558584B1 (en) 2013-07-29 2017-01-31 Google Inc. 3D position estimation of objects from a monocular camera using a set of known 3D points on an underlying surface
US9373057B1 (en) 2013-11-01 2016-06-21 Google Inc. Training a neural network to detect objects in images
EP3175791B1 (en) 2013-11-04 2021-09-08 Ecential Robotics Method for reconstructing a 3d image from 2d x-ray images
US9396553B2 (en) 2014-04-16 2016-07-19 Xerox Corporation Vehicle dimension estimation from vehicle images
JP6225889B2 (ja) 2014-11-19 2017-11-08 株式会社豊田中央研究所 車両位置推定装置及びプログラム
CN105279484B (zh) * 2015-10-10 2019-08-06 北京旷视科技有限公司 对象检测方法和对象检测装置
US10482681B2 (en) * 2016-02-09 2019-11-19 Intel Corporation Recognition-based object segmentation of a 3-dimensional image

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9213885B1 (en) * 2004-10-22 2015-12-15 Carnegie Mellon University Object recognizer and detector for two-dimensional images using Bayesian network based classifier
US9563955B1 (en) * 2013-05-15 2017-02-07 Amazon Technologies, Inc. Object tracking techniques
US20170220887A1 (en) * 2016-01-29 2017-08-03 Pointivo, Inc. Systems and methods for extracting information about objects from scene information

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12283118B2 (en) 2021-10-27 2025-04-22 Hyundai Motor Company Device and method for detecting 3D object

Also Published As

Publication number Publication date
KR102723996B1 (ko) 2024-10-30
US11080878B2 (en) 2021-08-03
CN111145139A (zh) 2020-05-12
CN111145139B (zh) 2025-05-16
US20200143557A1 (en) 2020-05-07

Similar Documents

Publication Publication Date Title
KR102723996B1 (ko) 2차원 영상으로부터 3차원 객체를 검출하는 방법 및 장치
CN110807350B (zh) 用于面向扫描匹配的视觉slam的系统和方法
CN111024040B (zh) 距离估计方法和设备
TWI708210B (zh) 三維模型重建方法、電子裝置及非暫態電腦可讀取記錄媒體
US9933264B2 (en) System and method for achieving fast and reliable time-to-contact estimation using vision and range sensor data for autonomous navigation
KR102647351B1 (ko) 3차원의 포인트 클라우드를 이용한 모델링 방법 및 모델링 장치
EP2671384B1 (en) Mobile camera localization using depth maps
CN108475058B (zh) 估计对象接触时间的系统和方法、计算机可读介质
KR101784183B1 (ko) ADoG 기반 특징점을 이용한 이동 로봇의 위치를 인식하기 위한 장치 및 그 방법
KR20190042187A (ko) 깊이 값을 추정하는 방법 및 장치
EP3159121A1 (en) Device for updating map of mobile robot and method therefor
KR102455632B1 (ko) 스테레오 매칭 방법 및 장치
Costa et al. Robust 3/6 DoF self-localization system with selective map update for mobile robot platforms
KR20220160850A (ko) 소실점을 추정하는 방법 및 장치
Schaeferling et al. Object recognition and pose estimation on embedded hardware: SURF‐based system designs accelerated by FPGA logic
KR102314954B1 (ko) 반사 영상 제거 장치 및 방법
US9165208B1 (en) Robust ground-plane homography estimation using adaptive feature selection
KR20200072714A (ko) 시차맵과 보행자 상하단 인식을 이용한 정밀한 보행자 검출 방법 및 장치
KR102046243B1 (ko) 반사 영상 제거 장치 및 상기 장치의 동작 방법
KR20220085682A (ko) 전방향 영상센서 및 관성측정센서의 자세추정 융합 방법 및 시스템
CN114332448B (zh) 基于稀疏点云的平面拓展方法及其系统和电子设备
US20250124588A1 (en) Distance determination method and device using the same
JP7152103B2 (ja) 推定装置、推定方法、及び推定プログラム
KR20250039239A (ko) 이미지의 3차원 오리엔테이션을 추정하는 방법 및 이를 수행하는 전자 장치
KR20240127165A (ko) 물체 검출 결과 보정 방법 및 이를 수행하는 전자 장치

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20181101

PG1501 Laying open of application
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20211029

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 20181101

Comment text: Patent Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20231124

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20240725

PG1601 Publication of registration