KR102695519B1

KR102695519B1 - 영상 모델 구축 장치 및 방법

Info

Publication number: KR102695519B1
Application number: KR1020180076226A
Authority: KR
Inventors: 성재모; 김창현
Original assignee: 삼성전자주식회사
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2024-08-14
Anticipated expiration: 2038-07-02
Also published as: US11514692B2; CN110674919A; KR20200003444A; CN110674919B; EP3591581B1; EP3591581A1; US20200005098A1

Abstract

영상 모델 구축 장치 및 방법이 제공된다. 일 실시예에 따른 영상 모델 구축 장치는 기준 영상 모델로부터 복제된 레이어들 및 추가 레이어를 포함하는 대상 영상 모델을 생성할 수 있고, 추가 레이어를 우선적으로 트레이닝시킬 수 있다.

Description

영상 모델 구축 장치 및 방법{METHOD AND DEVICE TO BUILD IMAGE MODEL}

이하, 영상 모델을 트레이닝시키는 기술이 제공된다.

최근 들어, 입력 패턴을 특정 그룹으로 분류하는 문제를 해결하는 방안으로서, 인간이 지니고 있는 효율적인 패턴 인식 방법을 실제 컴퓨터에 적용시키려는 연구가 활발히 진행되고 있다. 이러한 연구 중 하나로, 인간의 생물학적 신경 세포의 특성을 수학적 표현에 의해 모델링한 인공 뉴럴 네트워크(artificial neural network)에 대한 연구가 있다. 입력 패턴을 특정 그룹으로 분류하는 문제를 해결하기 위해, 인공 뉴럴 네트워크는 인간이 가지고 있는 학습이라는 능력을 모방한 알고리즘을 이용한다. 이 알고리즘을 통하여 인공 뉴럴 네트워크는 입력 패턴과 출력 패턴들 간의 사상(mapping)을 생성해낼 수 있는데, 이를 인공 뉴럴 네트워크가 학습 능력이 있다고 표현한다. 또한, 인공 뉴럴 네트워크는 학습된 결과에 기초하여 학습에 이용되지 않았던 입력 패턴에 대하여 비교적 올바른 출력을 생성할 수 있는 일반화 능력을 가지고 있다.

일 실시예에 따른 영상 모델 구축 방법은, 기준 영상 모델(reference image model)의 복수의 레이어들과 동일한 레이어들 및 추가 레이어를 포함하는 대상 영상 모델(target image model)을 생성하는 단계; 및 상기 기준 영상 모델에 기초하여 상기 대상 영상 모델의 상기 추가 레이어를 트레이닝시키는 단계를 포함할 수 있다.

상기 대상 영상 모델을 생성하는 단계는, 상기 추가 레이어를 상기 복수의 레이어들 중 입력측 레이어에 연결함으로써, 상기 대상 영상 모델을 생성하는 단계를 포함할 수 있다.

상기 대상 영상 모델을 생성하는 단계는, 상기 대상 영상 모델 중 상기 추가 레이어의 각 노드에 무작위 값을 할당함으로써, 상기 추가 레이어를 초기화하는 단계를 포함할 수 있다.

상기 추가 레이어를 트레이닝시키는 단계는, 상기 트레이닝 입력이 변환된 영상으로부터, 상기 기준 영상 모델에 기초하여, 기준 모델 출력을 산출하는 단계; 및 상기 기준 모델 출력에 기초하여 상기 대상 영상 모델을 트레이닝시키는 단계를 포함할 수 있다.

상기 기준 모델 출력을 산출하는 단계는, 상기 기준 영상 모델의 입력 레이어에 기초하여 상기 트레이닝 입력을 변환함으로써 변환 영상을 생성하는 단계; 및 상기 변환 영상으로부터 상기 기준 모델 출력을 산출하는 단계를 포함할 수 있다.

상기 추가 레이어를 트레이닝시키는 단계는, 상기 기준 영상 모델에 기초한 기준 모델 출력 및 상기 대상 영상 모델에 기초한 대상 모델 출력을 이용하여 상기 대상 영상 모델을 트레이닝시키는 단계를 포함할 수 있다.

상기 추가 레이어를 트레이닝시키는 단계는, 상기 기준 모델 출력 및 상기 대상 모델 출력에 기초하여 오차를 산출하는 단계; 및 상기 산출된 오차에 기초하여 상기 대상 영상 모델 중 적어도 일부 레이어의 파라미터를 업데이트하는 단계를 포함할 수 있다.

상기 대상 영상 모델 중 적어도 일부 레이어의 파라미터를 업데이트하는 단계는, 상기 기준 모델 출력 및 상기 대상 모델 출력 간의 오차가 수렴할 때까지, 상기 파라미터의 업데이트를 반복하는 단계를 포함할 수 있다.

상기 추가 레이어를 트레이닝시키는 단계는, 상기 추가 레이어의 파라미터를 업데이트하는 단계를 포함할 수 있다.

상기 추가 레이어를 트레이닝시키는 단계는, 상기 대상 영상 모델의 상기 추가 레이어의 파라미터를 업데이트하는 동안, 상기 대상 영상 모델의 나머지 레이어의 파라미터를 유지하는 단계를 포함할 수 있다.

상기 대상 영상 모델을 생성하는 단계는, 상기 기준 영상 모델의 레이어 구조 및 파라미터를 복제(duplicate)함으로써, 상기 대상 영상 모델의 나머지 레이어를 생성하는 단계; 및 상기 나머지 레이어에 상기 추가 레이어를 연결하는 단계를 포함할 수 있다.

영상 모델 구축 방법은 상기 추가 레이어의 트레이닝 완료(completion)에 응답하여, 상기 대상 영상 모델의 모든 레이어의 파라미터를 업데이트하는 단계를 더 포함할 수 있다.

상기 대상 영상 모델을 생성하는 단계는, 상기 기준 영상 모델의 한 레이어에 포함되는 노드 개수 이상 및 상기 대상 영상 모델의 입력 레이어에 포함되는 노드 개수 이하의 노드를 포함하는 추가 레이어를 생성하는 단계를 포함할 수 있다.

영상 모델 구축 방법은 신규 입력 영상(new input image)을 획득하는 단계; 상기 신규 입력 영상에 대한 레이블(label)을 결정하는 단계; 및 상기 신규 입력 영상 및 상기 레이블에 기초하여 상기 대상 영상 모델을 추가적으로(additionally) 트레이닝시키는 단계를 더 포함할 수 있다.

상기 신규 입력 영상에 대한 레이블을 결정하는 단계는, 상기 신규 입력 영상의 획득과 연관된 사용자 입력에 기초하여, 상기 신규 입력 영상에 대한 레이블을 결정하는 단계를 포함할 수 있다.

영상 모델 구축 방법은 상기 대상 영상 모델의 트레이닝이 완료된 후, 상기 대상 영상 모델에 추가 레이어가 연결된 추가 영상 모델을 생성하는 단계; 및 상기 대상 영상 모델의 출력에 기초하여 상기 추가 영상 모델의 추가 레이어를 트레이닝시키는 단계를 더 포함할 수 있다.

상기 대상 영상 모델을 생성하는 단계는, 상기 기준 영상 모델의 입력 해상도보다 높은 해상도의 영상을 수신할 수 있도록 상기 대상 영상 모델을 생성하는 단계를 포함할 수 있다.

상기 추가 레이어를 트레이닝시키는 단계는, 상기 기준 영상 모델의 적어도 일부 레이어로부터 출력되는 특징 데이터 및 상기 대상 영상 모델의 적어도 일부 레이어로부터 출력되는 특징 데이터에 기초하여, 상기 추가 레이어를 트레이닝시키는 단계를 포함할 수 있다.

일 실시예에 따른 영상 모델 구축 장치는 기준 영상 모델의 복수의 레이어들과 동일한 레이어들 및 추가 레이어를 포함하는 대상 영상 모델을 생성하고, 상기 기준 영상 모델에 기초하여 상기 대상 영상 모델의 상기 추가 레이어를 트레이닝시키는 프로세서; 및 상기 트레이닝된 대상 영상 모델을 저장하는 메모리를 포함할 수 있다.

도 1은 일 실시예에 따른 영상 모델의 개략적인 구성을 설명하는 도면이다.
도 2는 일 실시예에 따른 기준 영상 모델에 기초한 대상 영상 모델의 구축을 설명하는 도면이다.
도 3 및 도 4는 일 실시예에 따른 영상 모델 구축 방법을 설명하는 흐름도이다.
도 5는 일 실시예에 따른 대상 영상 모델의 생성 및 초기화를 설명하는 도면이다.
도 6은 일 실시예에 따른 대상 영상 모델의 트레이닝을 설명하는 흐름도이다.
도 7은 일 실시예에 따른 트레이닝 동안 오차 산출의 예시를 설명하는 도면이다.
도 8은 일 실시예에 따른 대상 영상 모델의 전체 트레이닝을 설명하는 흐름도이다.
도 9는 일 실시예에 따른 대상 영상 모델의 그로잉(growing)을 설명하는 도면이다.
도 10 및 도 11은 일 실시예에 따른 영상 모델 구축 장치의 구성을 설명하는 블록도이다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수 개의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 1은 일 실시예에 따른 영상 모델의 개략적인 구성을 설명하는 도면이다.

뉴럴 네트워크(neural network)(100)는 딥 뉴럴 네트워크(DNN, deep neural network)의 예시에 해당할 수 있다. DNN은 완전 연결 네트워크(fully connected network), 딥 컨볼루셔널 네트워크(deep convolutional network) 및 리커런트 뉴럴 네트워크(recurrent neural network) 등을 포함할 수 있다. 뉴럴 네트워크(100)는 딥 러닝에 기반하여 비선형적 관계에 있는 입력 데이터 및 출력 데이터를 서로 매핑함으로써 객체 분류, 객체 인식, 음성 인식 및 영상 인식 등을 수행할 수 있다. 딥 러닝은 빅 데이터 세트로부터 영상 또는 음성 인식과 같은 문제를 해결하기 위한 기계 학습 기법이다. 딥 러닝의 지도식(supervised) 또는 비지도식(unsupervised) 학습을 통해 입력 데이터 및 출력 데이터를 서로 매핑할 수 있다.

본 명세서에서 인식(recognition)은 검증(verification) 및 식별(identification)을 포함할 수 있다. 검증은 입력 데이터가 참인지 거짓인지를 판단하는 동작을 나타낼 수 있고, 식별은 복수의 레이블들 중 입력 데이터가 지시하는 레이블(label)을 판단하는 동작을 나타낼 수 있다.

도 1을 참조하면, 뉴럴 네트워크(100)는 입력 레이어(110), 히든 레이어(120) 및 출력 레이어(130)를 포함한다. 입력 레이어(110), 히든 레이어(120) 및 출력 레이어(130)는 각각 복수의 인공 뉴런들(artificial neurons)을 포함한다. 인공 뉴런은 노드라고도 표현될 수 있다.

도 1에는 설명의 편의를 위해 히든 레이어(120)가 3개의 레이어를 포함하는 것으로 도시되었나, 히든 레이어(120)는 다양한 수의 레이어들을 포함할 수 있다. 또한, 도 1에는 뉴럴 네트워크(100)는 입력 데이터를 수신하기 위한 별도의 입력 레이어를 포함하는 것으로 도시되었으나, 입력 데이터가 히든 레이어(120)에 직접 입력될 수 있다. 뉴럴 네트워크(100)에서 출력 레이어(130)를 제외한 레이어들의 인공 뉴런들은 출력 신호를 전송하기 위한 링크들을 통해 다음 레이어의 인공 뉴런들과 연결될 수 있다. 링크들의 수는 다음 레이어에 포함된 인공 뉴런들의 수에 대응할 수 있다. 이러한 링크는 시냅스(synapse)로 지칭될 수 있다.

히든 레이어(120)에 포함된 각각의 인공 뉴런에는 이전 레이어에 포함된 인공 뉴런들의 가중된 입력들(weighted inputs)에 관한 활성 함수(activation function)의 출력이 입력될 수 있다. 가중된 입력은 이전 레이어에 포함된 인공 뉴런들의 입력에 시냅스 가중치(synaptic weight)가 곱해진 것이다. 시냅스 가중치는 뉴럴 네트워크(100)의 파라미터로 지칭될 수 있다. 활성 함수는 시그모이드(sigmoid), 하이퍼볼릭 탄젠트(hyperbolic tangent; tanh) 및 렐루(rectified linear unit; ReLU)를 포함할 수 있고, 활성 함수에 의해 뉴럴 네트워크(100)에 비선형성이 형성될 수 있다. 출력 레이어(130)에 포함된 각각의 인공 뉴런에는 이전 레이어에 포함된 인공 뉴런들의 가중된 입력들이 입력될 수 있다.

뉴럴 네트워크(100)는 입력 데이터가 주어지면 히든 레이어(120)를 거쳐 출력 레이어(130)에서 분류 및 인식하고자 하는 클래스의 수에 따라 함수 값을 계산하고, 이들 중 가장 큰 값을 갖는 클래스로 입력 데이터를 분류 및 인식할 수 있다. 뉴럴 네트워크(100)는 입력 데이터를 분류하거나, 혹은 인식할 수 있으나, 아래에서는 설명의 편의를 위해 뉴럴 네트워크(100)의 분류 및 인식 과정을 인식 과정으로 설명한다. 아래의 인식 과정에 관한 설명은 성격에 반하지 않는 한 분류 과정에도 적용될 수 있다.

뉴럴 네트워크(100)의 폭과 깊이가 충분히 크면 임의의 함수를 구현할 수 있을 만큼의 용량(capacity)을 가질 수 있다. 뉴럴 네트워크(100)가 적절한 트레이닝 과정을 통해 충분히 많은 트레이닝 데이터를 학습하면, 최적의 인식 성능을 달성할 수 있다.

본 명세서에서 영상 모델은 입력 영상으로부터 인식 결과를 출력하도록 트레이닝된 기계 학습 구조일 수 있다. 예를 들어, 영상 모델은 상술한 뉴럴 네트워크(100)로 구성될 수 있으나, 이로 한정하는 것은 아니다. 일 실시예에 따른 영상 모델 구축 장치(image model building device)는 그로잉된(growing)된 영상 모델을 트레이닝시킬 수 있다. 예를 들어, 일 실시예에 따른 영상 모델 구축 기술은 자율 주행 관련 물체 인식에 적용될 수 있다. 영상 모델 구축 장치는 자동차에 장착된 카메라에서 출력된 영상에 기초하여 영상 모델을 트레이닝시킴으로써, 고해상도 영상을 지원하는 영상 모델을 효과적으로 생성할 수 있다.

영상 모델 구축 장치는 영상 모델을 구축하는 장치를 나타낼 수 있다. 예를 들어, 영상 모델 구축 장치는 기준 영상 모델에 기초하여, 대상 영상 모델을 생성 및 트레이닝시킬 수 있다. 영상 모델의 구축 동작(building operation)은, 영상 모델의 생성 및 트레이닝 동작을 포함할 수 있다. 영상 인식 장치는 구축된 영상 모델에 기초하여 입력 영상을 인식할 수 있다. 예를 들어, 영상 인식 장치는 구축된 대상 영상 모델에 기초하여 입력 영상에 나타나는 객체를 식별할 수 있다. 다만, 이로 한정하는 것은 아니고, 영상 모델 구축 장치는 영상 인식 장치와 통합되어 구현될 수도 있다.

도 2는 일 실시예에 따른 기준 영상 모델에 기초한 대상 영상 모델의 트레이닝을 설명하는 도면이다.

일 실시예에 따르면, 영상 모델은 복수의 레이어들을 포함할 수 있다. 복수의 레이어들 간의 연결 관계는 설계에 따라 달라질 수 있다. 본 명세서에서 기준 영상 모델(210)은 트레이닝이 완료된 기존(original) 영상 모델로서, 예를 들어, 제1 해상도의 영상을 입력받도록 설계될 수 있다. 대상 영상 모델(220)은 트레이닝의 대상이 되는 신규(new) 영상 모델로서, 예를 들어, 제2 해상도의 영상을 입력받도록 설계될 수 있다. 제2 해상도는 제1 해상도보다 높을 수 있다. 영상 모델 구축 장치는 기준 영상 모델(210)에 기초하여 대상 영상 모델(220)을 생성 및 트레이닝시킬 수 있다.

기준 영상 모델(210) 및 대상 영상 모델(220)의 각각은 입력 레이어(211, 221), 컨볼루션 레이어들(212, 222), 커스터마이징된 부분(customized part)(213, 223), 및 분류기(214, 224)를 포함할 수 있다.

입력 레이어(211, 221)는 입력 영상을 수신하는 레이어를 나타낼 수 있다. 대상 영상 모델(220)의 입력 레이어(221)는 제2 해상도의 영상을 수신할 수 있고, 기준 영상 모델(210)의 입력 레이어(211)는 제1 해상도의 영상을 수신할 수 있다. 따라서, 대상 영상 모델(220)은 기준 영상 모델(210)의 영상보다 높은 해상도의 영상에 대한 특징 추출, 인식, 및 분류 등에 사용될 수 있다.

컨볼루션 레이어들(212, 222)은 입력 영상으로부터 특징 데이터(feature data)을 추출할 수 있다. 특징 데이터는 입력 영상이 추상화된 데이터로서, 예를 들어 특징 벡터로 표현될 수 있다. 컨볼루션 레이어들(212, 222)의 개수가 증가할수록 추상화 정도(level)도 증가할 수 있다. 영상 모델에 포함되는 컨볼루션 레이어들(212, 222)의 개수가 증가할수록, 영상 인식 장치는 영상 모델을 이용하여 더 높은 해상도의 입력 영상의 특징을 표현할 수 있다. 다만, 컨볼루션 레이어들(212, 222)의 개수가 증가할수록, 트레이닝되어야 하는 파라미터의 개수도 함께 증가할 수 있다. 트레이닝되어야 하는 파라미터의 개수가 증가하면, 영상 모델의 트레이닝 시, 경사 정보(gradient information)의 배니싱(vanishing) 정도(level)도 증가하므로, 영상 모델의 트레이닝 난이도(difficulty level)가 증가할 수 있다. 일 실시예에 따른, 영상 모델 구축 장치는, 컨볼루션 레이어들(212, 222)을 확장하면서 효과적으로 영상 모델을 트레이닝시킬 수 있다.

커스터마이징된 부분(213, 223)은 주어진 문제(given problem)를 해결하기 위한 설계된 부분을 나타낼 수 있다. 예를 들면, 커스터마이징된 부분(213, 223)은 F-RCNN(Faster Region based Convolutional Neural Network)의 영역 제안 망(RPN, Region Proposal Network)일 수 있다. 다른 예를 들어, 커스터마이징된 부분(213, 223)은 GAN(Generative Adversarial Network)의 ASDN(Adversarial Spatial Dropout Network)일 수도 있다. 다만, 주어진 문제에 따라 커스터마이징된 부분(213, 223)은 생략될 수도 있다.

분류기(214, 224)는 입력 데이터의 클래스(class)를 분류할 수 있다. 예를 들어, 분류기(214, 224)는 객체 인식(object recognition)에 대하여, 입력 영상에 나타나는 객체의 카테고리(category)를 분류하는 네트워크일 수 있다. 분류기(214, 224)의 출력은 객체의 ID(identification)를 지시하는 정보일 수 있다. 분류기(214, 224)는 완전연결 레이어(Fully-Connected Layer)로 구성될 수도 있다. 다만, 영상 모델의 최종 목적이 입력 영상에 대한 특징 추출인 경우, 분류기(214, 224)도 영상 모델에서 생략될 수 있다.

도 2에서 기준 영상 모델(210)의 컨볼루션 레이어들(212)은 L1, L2, L3, 및 L4의 4개 레이어로 도시되었으나, 개수를 이로 한정하는 것은 아니다. 입력 레이어에 가까운 컨볼루션 레이어는 입력 영상의 보다 상세한 특징(more detail feature)를 추출할 수 있다. 기준 영상 모델(210)은 제1 해상도의 영상을 포함하는 트레이닝 데이터에 기초하여 트레이닝이 완료된 영상 모델일 수 있다.

도 2에서 대상 영상 모델(220)은 기준 영상 모델(210)이 확장된 구조를 가질 수 있다. 예를 들어, 대상 영상 모델(220)의 컨볼루션 레이어들(222)은 기준 영상 모델(210)의 컨볼루션 레이어들(212)보다 하나의 추가 레이어 L0를 더 포함할 수 있다. 다만, 추가 레이어의 개수를 이로 한정하는 것은 아니다. 아래에서는, 기준 영상 모델(210)보다 많은 레이어 및 파라미터를 포함하는 대상 영상 모델(220)의 효율적인 트레이닝을 설명한다.

일 실시예에 따른 영상 모델 구축 장치는 저해상도 영상에 기초하여 트레이닝된 기준 영상 모델(210)로부터, 고해상도 영상에 대한 대상 영상 모델(220)을 트레이닝시킬 수 있다. 예를 들어, 영상 인식 장치(예를 들어, 자율 주행 차량 등)의 카메라 센서가 변경되어 카메라 센서가 이전보다 높은 해상도를 지원하는 상황이 발생할 수 있다. 기준 영상 모델(210)이 저해상도 영상에 기초하여 트레이닝된 경우, 고해상도 영상에 대한 성능(예를 들어, 인식률)이 저하될 수 있다.

일 실시예에 따른 영상 모델 구축 장치는 새로운 트레이닝 데이터를 획득할 수 있다. 새로운 트레이닝 데이터는 예를 들어, 고해상도 영상을 포함할 수 있다. 영상 모델 구축 장치는 새로운 트레이닝 데이터의 고해상도 영상(예를 들어, 제2 해상도를 가지는 영상)을 저해상도(예를 들어, 제1 해상도)로 변환(201)함으로써, 변환 영상을 생성할 수 있다. 영상 모델 구축 장치는 변환 영상으로부터 기준 영상 모델(210)에 기초한 출력을 산출할 수 있다. 영상 모델 구축 장치는 새로운 트레이닝 데이터의 입력 영상으로부터 대상 영상 모델(220)에 기초한 출력을 생성할 수 있다. 영상 모델 구축 장치는 기준 영상 모델(210)에 기초한 출력 및 대상 영상 모델(220)에 기초한 출력으로부터 오차를 산출(209)할 수 있다. 영상 모델 구축 장치는 산출된 오차에 기초하여, 대상 영상 모델(220)을 트레이닝시킬 수 있다. 대상 영상 모델(220)의 생성 및 트레이닝은 아래에서 상세히 설명한다.

도 3 및 도 4는 일 실시예에 따른 영상 모델 구축 방법을 설명하는 흐름도이다.

도 3은 영상 모델 구축 방법의 개괄적인 흐름도를 설명한다.

우선, 단계(310)에서 영상 모델 구축 장치는 기준 영상 모델의 복수의 레이어들과 동일한 레이어들(예를 들어, 나머지 레이어) 및 추가 레이어를 포함하는 대상 영상 모델을 생성할 수 있다. 일 실시예에 따르면 영상 모델 구축 장치는 기준 영상 모델의 레이어 구조 및 파라미터를 복제(duplicate)함으로써, 대상 영상 모델의 나머지 레이어를 생성할 수 있다. 영상 모델 구축 장치는 나머지 레이어에 추가 레이어를 연결할 수 있다. 예를 들어, 영상 모델 구축 장치는 기준 영상 모델로부터 복제된 복수의 레이어들 중 입력 측(input side) 레이어(예를 들어, 도 2에서는 L1)에 추가 레이어를 연결함으로써, 대상 영상 모델을 생성할 수 있다. 다만, 추가 레이어의 연결을 이로 한정하는 것은 아니다.

대상 영상 모델은 기준 영상 모델에 포함된 레이어들(예를 들어, 컨볼루션 레이어들)과 동일한 구조 및 파라미터를 가지는 레이어들을 포함할 수 있다. 대상 영상 모델에서 기준 영상 모델로부터 복제된 복수의 레이어들은 도 2에서 L1, L2, L3, 및 L4로 도시된다. 대상 영상 모델은 기준 영상 모델로부터 복제된 복수의 레이어들에 연결된 추가 레이어를 더 포함할 수 있다. 추가 레이어는 도 2에서 L0로 도시된다.

그리고 단계(320)에서 영상 모델 구축 장치는 기준 영상 모델에 기초하여 대상 영상 모델의 추가 레이어를 트레이닝시킬 수 있다. 예를 들어, 영상 모델 구축 장치는 기준 영상 모델에 기초하여 트레이닝 입력으로부터 산출된 출력 및 대상 영상 모델에 기초하여 트레이닝 입력으로부터 산출된 출력에 기초하여 대상 영상 모델의 추가 레이어를 트레이닝시킬 수 있다. 트레이닝 입력이 영상 포맷인 경우, 트레이닝 입력 영상이라고 나타낼 수도 있다. 영상 모델 구축 장치는 추가 레이어를 트레이닝시키는 동안, 대상 영상 모델의 나머지 레이어의 파라미터를 유지할 수 있다.

도 4는 영상 모델 구축 방법의 다른 예시를 설명한다.

우선 단계(410)에서 영상 모델 구축 장치는 대상 영상 모델을 생성 및 초기화할 수 있다. 영상 모델 구축 장치는 기준 영상 모델로부터 복제된 레이어들 중 한 레이어(예를 들어, 입력측 레이어)에 추가 레이어를 연결함으로써 대상 영상 모델을 생성할 수 있다. 영상 모델 구축 장치는 대상 영상 모델 중 추가 레이어의 각 노드에 무작위 값을 할당함으로써, 추가 레이어를 초기화할 수 있다. 영상 모델 구축 장치는 나머지 레이어(예를 들어, 기준 영상 모델로부터 복제된 레이어들)의 각 노드에 기준 영상 모델의 노드의 값과 동일한 값을 할당할 수 있다.

본 명세서에서 입력측 레이어는 임의의 영상 모델의 히든 레이어들 중 입력 레이어에 인접하여 연결된 레이어를 나타낼 수 있다. 예를 들어, 도 2에 도시된 대상 영상 모델(220)에서 입력측 레이어는 L1 레이어를 나타낼 수 있다.

그리고 단계(420)에서 영상 모델 구축 장치는 대상 영상 모델의 일부를 트레이닝시킬 수 있다. 예를 들어, 영상 모델 구축 장치는 대상 영상 모델의 추가 레이어의 파라미터를 업데이트함으로써, 추가 레이어를 트레이닝시킬 수 있다. 영상 모델 구축 장치는 대상 영상 모델의 추가 레이어의 파라미터를 업데이트하는 동안, 대상 영상 모델의 나머지 레이어의 파라미터를 유지할 수 있다.

이어서 단계(430)에서 영상 모델 구축 장치는 대상 영상 모델의 전체를 트레이닝시킬 수 있다. 예를 들어, 영상 모델 구축 장치는 추가 레이어의 트레이닝 완료(completion)에 응답하여, 대상 영상 모델의 모든 레이어의 파라미터를 업데이트할 수 있다.

따라서 영상 모델 구축 장치는 1차적으로 기준 영상 모델과 유사한 결과를 출력하도록 추가 레이어를 트레이닝시킬 수 있다. 영상 모델 구축 장치는 2차적으로 기준 영상 모델보다 정밀한 결과를 출력하도록 추가 레이어 및 나머지 레이어를 모두 트레이닝시킬 수 있다.

영상 모델 구축 장치의 동작이 수행되는 순서를 도 3 및 도 4에서 상술한 바로 한정하는 것은 아니다. 설계에 따라 각 동작의 순서가 변경되거나 일부 동작이 생략되거나 추가될 수도 있다. 아울러, 도 4의 각 단계는 아래에서 상세히 설명한다.

도 5는 일 실시예에 따른 대상 영상 모델의 생성 및 초기화를 설명하는 도면이다.

도 5는 도 4에서 상술한 단계(410)에서 영상 모델 구축 장치가 대상 영상 모델(520)을 생성하고, 초기화하는 동작을 설명한다.

영상 모델 구축 장치는 추가 레이어(521) 및 나머지 레이어(522)를 생성할 수 있다. 나머지 레이어(522)는 기준 영상 모델(510)의 복수의 레이어들(512)과 동일한 레이어 구조를 가지는 레이어일 수 있다. 예를 들어, 나머지 레이어(522)는 기준 영상 모델(510)의 컨볼루션 레이어들(L1, L2, L3, 및 L4)과 함께 분류기 등의 구조도 포함할 수 있다. 영상 모델 구축 장치는 나머지 레이어(522)의 일부 레이어에 추가 레이어(521)를 연결할 수 있다. 예를 들어, 영상 모델 구축 장치는 나머지 레이어(522) 중 입력측 레이어에 추가 레이어(521)를 연결할 수 있다. 추가 레이어(521)는 도 5에서 L0로 도시된다. 다만, 추가 레이어(521)의 연결을 이로 한정하는 것은 아니다.

일 실시예에 따르면 영상 모델 구축 장치는 기준 영상 모델에 의해 처리될 수 있는 데이터 크기(data size) 이상의 데이터를 처리할 수 있는 추가 레이어(521)를 생성할 수 있다. 예를 들어, 영상 모델 구축 장치는 기준 영상 모델의 입력 해상도보다 높은 해상도의 영상을 수신할 수 있도록 대상 영상 모델을 생성할 수 있다. 영상 모델 구축 장치는 기준 영상 모델의 한 레이어(예를 들어, 기준 영상 모델의 입력측 레이어)에 포함되는 노드 개수 이상 및 대상 영상 모델의 입력 레이어에 포함되는 노드 개수 이하의 노드를 포함하는 추가 레이어(521)를 생성할 수 있다. 따라서, 영상 모델 구축 장치는 기준 영상 모델의 레이어에 포함된 노드 개수보다 많은 노드 개수를 가지는 추가 레이어(521)를 통해, 고해상도 영상에 관한 상세 특징 정보(detailed feature information)를 추출할 수 있다.

영상 모델 구축 장치는 새로 생성된 대상 영상 모델(520)을 초기화할 수 있다. 예를 들어, 영상 모델 구축 장치는 대상 영상 모델(520)의 파라미터를 초기 값으로 설정할 수 있다. 영상 모델 구축 장치는 대상 영상 모델(520)의 나머지 레이어(522)에 대해서는, 미리 트레이닝된(pre-trained) 기준 영상 모델(510)과 동일한 파라미터를 나머지 레이어(522)의 초기 파라미터로 결정할 수 있다. 영상 모델 구축 장치는 추가 레이어(521)를 랜덤 초기화할 수 있다. 예를 들어, 영상 모델 구축 장치는 추가 레이어(521)에 대해서는 무작위 값을 초기 파라미터로 결정할 수 있다.

따라서 대상 영상 모델(520)은 기준 영상 모델(510)로부터 복제된 나머지 레이어(522)들 및 무작위로 초기화된 추가 레이어(521)를 포함할 수 있다.

도 6은 일 실시예에 따른 대상 영상 모델의 트레이닝을 설명하는 흐름도이다.

도 6은 도 4에서 설명한 단계(420)에서 대상 영상 모델을 일부 트레이닝하는 구성을 설명한다.

우선, 단계(621)에서 영상 모델 구축 장치는 고해상도 트레이닝 입력 영상을 획득할 수 있다. 일 실시예에 따르면, 영상 모델 구축 장치는 고해상도(예를 들어, 제2 해상도)의 새로운 트레이닝 데이터를 획득할 수 있다.

새로운 트레이닝 데이터는 대상 영상 모델을 트레이닝시키기 위한 데이터로서, 예를 들어, 제2 해상도의 트레이닝 입력 영상을 포함할 수 있다. 새로운 트레이닝 데이터는 제1 해상도를 지시하는 기존 트레이닝 데이터(original training data)에 비해 높은 해상도를 나타낼 수 있다. 새로운 트레이닝 데이터는 기존 트레이닝 데이터에 포함된 객체와 동일한 객체를 지시할 수도 있으나, 이로 한정하는 것은 아니다. 새로운 트레이닝 데이터는 기존 트레이닝 데이터와 무관하게 획득된 데이터일 수도 있다. 다른 예를 들어, 새로운 트레이닝 데이터는 제2 해상도의 트레이닝 입력 영상에 매핑된 레이블을 더 포함할 수도 있으나, 이로 한정하는 것은 아니다.

그리고 단계(622)에서 영상 모델 구축 장치는 대상 영상 모델의 출력을 계산할 수 있다. 예를 들어, 영상 모델 구축 장치는 대상 영상 모델에 기초하여 제2 해상도를 가지는 트레이닝 입력으로부터 대상 모델 출력을 산출할 수 있다. 대상 영상 모델이 뉴럴 네트워크로 구현된 경우, 영상 모델 구축 장치는 대상 영상 모델의 입력 레이어로부터 출력 레이어까지 트레이닝 입력을 전방 전파(forward propagate)시킴으로써 대상 모델 출력을 산출할 수 있다.

이어서 단계(623)에서 영상 모델 구축 장치는 기준 영상 모델의 입력 레이어에 기초하여 트레이닝 입력 영상을 변환할 수 있다. 일 실시예에 따르면 영상 모델 구축 장치는 기준 영상 모델의 입력 레이어에 기초하여 트레이닝 입력을 변환함으로써 변환 영상을 생성할 수 있다. 예를 들어, 영상 모델 구축 장치는 기준 영상 모델에 입력될 수 있는 해상도를 기준 영상 모델의 입력 레이어에 기초하여 식별할 수 있고, 식별된 해상도로 트레이닝 입력 영상을 변환할 수 있다. 영상 모델 구축 장치는 제2 해상도를 가지는 트레이닝 입력 영상을, 기준 영상 모델에 의해 지원되는 제1 해상도로 변환할 수 있다.

영상 모델 구축 장치는 트레이닝 입력 영상의 영상 포맷을 제1 해상도에 대응하는 영상 포맷으로 변환할 수 있다. 예를 들어, 영상 모델 구축 장치는 트레이닝 입력 영상을 리사이징(resizing)하거나, 트레이닝 입력 영상에 포함된 픽셀들을 다운샘플링(down-sampling)함으로써, 트레이닝 입력 영상의 영상 포맷을 변환할 수 있다. 변환 영상은 트레이닝 입력 영상으로부터 영상 포맷이 변환된 영상을 나타낼 수 있다.

그리고 단계(624)에서 영상 모델 구축 장치는 기준 영상 모델의 출력을 계산할 수 있다. 일 실시예에 따르면 영상 모델 구축 장치는 기준 영상 모델에 기초하여, 트레이닝 입력이 변환된 입력(예를 들어, 변환 영상)으로부터 기준 모델 출력을 산출할 수 있다. 예를 들어, 영상 모델 구축 장치는 기준 영상 모델의 입력 레이어로부터 출력 레이어까지 변환 영상을 전방 전파(forward propagate)시킴으로써 기준 모델 출력을 산출할 수 있다.

이어서 단계(625)에서 영상 모델 구축 장치는 대상 영상 모델의 출력 및 기준 영상 모델의 출력에 기초하여 오차를 산출할 수 있다. 일 실시예에 따르면, 영상 모델 구축 장치는 기준 모델 출력에 기초하여 대상 영상 모델을 트레이닝시킬 수 있다. 영상 모델 구축 장치는 기준 모델 출력 및 대상 모델 출력에 기초하여 오차를 산출할 수 있다. 예를 들어, 영상 모델 구축 장치는 대상 영상 모델을 트레이닝시키기 위한 손실 함수(loss function)를 기준 모델 출력 및 대상 모델 출력 중 적어도 하나에 기초하여 계산할 수 있다. 손실 함수는 기준 모델 출력 및 대상 모델 출력 간의 차이를 지시하는 함수일 수 있고, 예를 들어, 소프트맥스 손실(softmax loss) 및 크로스 엔트로피 손실(cross entropy loss) 등이 있다. 다만, 손실 함수를 이로 한정하는 것은 아니고, 트레이닝 데이터가 트레이닝 입력 영상 및 트레이닝 레이블의 페어(pair)를 포함하는 경우, 손실 함수는 대상 모델 출력 및 트레이닝 레이블 간의 차이를 지시하는 함수일 수도 있다.

그리고 단계(626)에서 영상 모델 구축 장치는 산출된 오차에 기초하여 대상 영상 모델의 추가 레이어의 파라미터를 업데이트할 수 있다. 영상 모델 구축 장치는 기준 영상 모델에 기초한 기준 모델 출력 및 대상 영상 모델에 기초한 대상 모델 출력을 이용하여 대상 영상 모델을 트레이닝시킬 수 있다.

일 실시예에 따른 영상 모델 구축 장치는 산출된 오차에 기초하여 대상 영상 모델 중 적어도 일부 레이어의 파라미터를 업데이트할 수 있다. 예를 들어, 영상 모델 구축 장치는 대상 영상 모델에서 추가 레이어의 파라미터만을 경사 기반 역전파 기법(gradient based back-propagation manner)에 의해 업데이트할 수 있다. 또한, 영상 모델 구축 장치는 대상 영상 모델의 추가 레이어의 파라미터를 업데이트하는 동안, 대상 영상 모델의 나머지 레이어의 파라미터를 유지할 수 있다.

이어서 단계(627)에서 영상 모델 구축 장치는 오차가 수렴되었는지 여부를 판단할 수 있다. 일 실시예에 따르면 영상 모델 구축 장치는 기준 모델 출력 및 대상 모델 출력 간의 오차가 수렴할 때까지, 파라미터의 업데이트를 반복할 수 있다. 예를 들어, 대상 영상 모델에서 추가 레이어의 파라미터가 업데이트된 후, 영상 모델 구축 장치는 두 출력 간 오차의 변화가 임계(threshold) 이하인 경우 오차가 수렴된 것으로 결정할 수 있다. 다른 예를 들어, 영상 모델 구축 장치는 업데이트 후 파라미터 및 업데이트 전 파라미터 간의 차이가 임계 이하인 경우 오차가 수렴된 것으로 결정할 수 있다. 오차가 수렴되지 않은 것으로 결정되는 경우에 응답하여, 영상 모델 구축 장치는 단계(621)로 돌아가서 새로운 트레이닝 입력을 통해 파라미터 업데이트를 수행할 수 있다.

따라서, 영상 모델 구축 장치는 추가 레이어의 파라미터 업데이트를 반복함으로써, 기준 영상 모델 및 대상 영상 모델에 기초한 오차를 최소화할 수 있다.

일 실시예에 따른 영상 모델 구축 장치는, 파라미터 업데이트의 대상(target)을 추가 레이어로만 제한함으로써, 대상 영상 모델의 트레이닝에 소요되는 시간을 최소화할 수 있다. 영상 모델 구축 장치는 기준 모델 출력 및 대상 모델 출력 간의 오차를 최소화함으로써, 대상 영상 모델이 기준 영상 모델과 비슷한 인식 성능을 가지도록 트레이닝시킬 수 있다. 영상 모델 구축 장치는, 트레이닝의 대상이 추가 레이어로만 제한되므로, 기준 영상 모델에서 확보된 저해상도 영상에 대한 인식 성능을 강인하게(robust)하게 유지하면서 대상 영상 모델을 트레이닝시킬 수 있다.

도 7은 일 실시예에 따른 트레이닝 동안 오차 산출의 예시를 설명하는 도면이다.

도 6에서 상술한 단계들(625, 626)에서는 각 영상 모델의 출력에 기초한 오차 산출을 설명하였으나, 이로 한정하는 것은 아니다. 예를 들어, 영상 모델 구축 장치는 기준 영상 모델(710)의 적어도 일부 레이어로부터 출력되는 특징 데이터 및 대상 영상 모델(720)의 적어도 일부 레이어로부터 출력되는 특징 데이터에 기초하여, 추가 레이어를 트레이닝시킬 수도 있다. 기준 영상 모델(710)로 입력되는 변환 영상은 트레이닝 입력으로부터 변환(701)된 영상일 수 있다.

도 7에서 영상 모델 구축 장치가 기준 영상 모델(710)의 특징 데이터 및 대상 영상 모델(720)의 특징 데이터에 기초하여 오차를 산출(709)할 수 있다. 예를 들어, 영상 모델 구축 장치는 오토인코딩(auto-encoding) 방식으로 오차를 산출할 수 있다. 영상 모델 구축 장치는 기준 영상 모델(710)의 각 레이어에서 출력되는 특징 데이터 및 대상 영상 모델(720)의 그에 대응하는 레이어에서 출력되는 특징 데이터의 차이에 기초하여 오차를 산출할 수 있다. 예를 들어, 영상 모델 구축 장치는 기준 영상 모델(710) 및 대상 영상 모델(720)에 대하여, L1 레이어들 간의 특징 차이, L2 레이어들 간의 특징 차이, L3 레이어들 간의 특징 차이 및 L4 레이어들 간의 특징 차이에 기초하여 오차를 산출할 수 있다.

영상 모델 구축 장치는 기준 영상 모델(710)의 복수의 레이어들(712) 및 대상 영상 모델(720)의 나머지 레이어들(722) 간의 특징 차이에 기초하여 추가 레이어(721)의 파라미터를 업데이트할 수 있다.

도 8은 일 실시예에 따른 대상 영상 모델의 전체 트레이닝을 설명하는 흐름도이다.

도 8은 도 4의 단계(430)에서 대상 영상 모델의 전체 트레이닝을 설명하는 도면이다. 일 실시예에 따르면 영상 모델 구축 장치는 추가 레이어의 트레이닝 완료(completion)에 응답하여, 대상 영상 모델의 모든 레이어의 파라미터를 업데이트할 수 있다.

우선, 단계(831)에서 영상 모델 구축 장치는 고해상도 입력 이미지를 획득할 수 있다. 예를 들어, 영상 모델 구축 장치는 신규 입력 영상(new input image)을 획득할 수 있다. 신규 입력 영상은 도 6의 단계(621)에서 획득된 트레이닝 입력 영상일 수 있으나, 이로 한정하는 것은 아니다. 신규 입력 영상은 트레이닝 입력 영상과는 별개로 추가적으로 획득된 영상일 수도 있다. 예를 들어, 영상 모델 구축 장치가 자율 주행 차량에 장착된 경우, 신규 입력 영상은 자율 주행 차량이 주행 중 획득하는 영상일 수 있다.

그리고 단계(832)에서 영상 모델 구축 장치는 고해상도 입력 이미지에 대한 레이블을 결정할 수 있다. 일 실시예에 따르면, 영상 모델 구축 장치는 제2 해상도를 가지는 신규 입력 영상에 대한 레이블(label)을 결정할 수 있다.

예를 들어, 대상 영상 모델이 분류 작업(classification task)을 위한 모델인 경우, 영상 모델 구축 장치는 제2 해상도는 가지는 신규 입력 영상에 대해 실제 값 레이블 정보(ground truth label information)를 생성할 수 있다. 다른 예를 들어, 대상 영상 모델이 영상 내의 객체 위치 및 크기를 검출하기 위한 모델인 경우, 영상 모델 구축 장치는 신규 입력 영상에 대해 객체(object)의 위치 및 크기를 지시하는 레이블 정보를 생성할 수 있다. 또한, 영상 모델 구축 장치는 전문가에 의해 수동으로(manually) 입력된 레이블 정보를 사용할 수도 있다.

또한, 영상 모델 구축 장치는 신규 입력 영상의 획득과 연관된 사용자 입력에 기초하여, 신규 입력 영상에 대한 레이블을 결정할 수 있다. 예를 들어, 영상 모델 구축 장치가 자율 주행 차량에 장착된 경우, 운전자는 장애물(obstacle)을 발견하는 경우 브레이크 패드(brake pad)를 조작할 수 있다. 영상 모델 구축 장치는 브레이크 패드 조작과 같은 사용자 입력이 획득된 시점에 획득된 신규 입력 영상에 대하여, 검출된 객체가 참(truth)이라는 레이블 정보를 생성할 수 있다. 다만, 이는 순전히 예시로서, 사용자 입력에 기초한 자동화된 레이블 정도 생성은 설계에 따라 변경될 수 있다.

다만, 대상 영상 모델이 비지도 영상 도메인 해석 작업(unsupervised image domain translation task)을 위해 디자인된 경우, 단계(832)는 생략될 수 있다.

이어서 단계(833)에서 영상 모델 구축 장치는 대상 영상 모델의 전체 파라미터를 업데이트할 수 있다. 예를 들어, 영상 모델 구축 장치는 신규 입력 영상 및 레이블에 기초하여 대상 영상 모델을 추가적으로(additionally) 트레이닝시킬 수 있다. 영상 모델 구축 장치는 추가 레이어의 1차 트레이닝이 완료된 후에 대상 영상 모델의 전체 파라미터를 업데이트함으로써, 대상 영상 모델의 파라미터를 미세 조정(fine tuning)할 수 있다. 영상 모델 구축 장치는 단계들(831, 832)에서 획득된 제2 해상도의 트레이닝 입력 영상으로부터 대상 영상 모델에 기초하여 출력을 산출할 수 있다. 영상 모델 구축 장치는 산출된 출력 및 레이블 정보에 기초하여 오차를 산출할 수 있고, 산출된 오차를 이용하여 역전파 기법을 기반으로 대상 영상 모델의 전체 레이어에 대한 파라미터를 업데이트할 수 있다.

그리고 단계(834)에서 영상 모델 구축 장치는 오차가 수렴되었는지 여부를 결정할 수 있다. 영상 모델 구축 장치는 오차가 수렴될 때까지 전체 트레이닝을 반복할 수 있다. 예를 들어, 영상 모델 구축 장치는 오차가 수렴된 경우, 대상 영상 모델의 트레이닝을 종료할 수 있다. 다른 예를 들어 영상 모델 구축 장치는 오차가 수렴되지 않은 경우, 대상 영상 모델의 전체 트레이닝을 단계(831)부터 반복할 수 있다.

따라서 영상 모델 구축 장치는 미리(in advance) 트레이닝된 기준 영상 모델을 이용하여, 대상 영상 모델을 보다 적은 트레이닝 데이터로 효율적으로 강인하게 트레이닝시킬 수 있다. 또한, 영상 모델 구축 장치는 대상 영상 모델을 트레이닝하는데 소요되는 계산적 비용 및 시간적 비용을 최소화할 수 있다.

도 9는 일 실시예에 따른 대상 영상 모델의 그로잉(growing)을 설명하는 도면이다.

영상 모델 구축 장치는 도 1 내지 도 8에서 설명한 동작들을 통해 영상 모델을 그로잉(growing)시킬 수 있다. 예를 들어, 영상 모델 구축 장치는 대상 영상 모델(920)의 트레이닝이 완료된 후, 대상 영상 모델(920)에 추가 레이어가 연결된 추가 영상 모델(930)을 생성할 수 있다.

영상 모델 구축 장치는 기준 영상 모델(910)의 복수의 레이어들(예를 들어, L1 내지 L4 레이어)에 대해 L0 레이어를 추가 레이어로서 연결함으로써 대상 영상 모델(920)을 생성할 수 있다. 영상 모델 구축 장치는 대상 영상 모델(920)의 복수의 레이어들(예를 들어, L0 내지 L4 레이어)에 대해 L0' 레이어를 추가 레이어로서 연결함으로써 대상 영상 모델(920)을 생성할 수 있다.

영상 모델 구축 장치는 대상 영상 모델(920)의 출력에 기초하여 추가 영상 모델(930)의 추가 레이어를 트레이닝시킬 수 있다. 추가 영상 모델(930)의 트레이닝은 대상 영상 모델(920)의 트레이닝과 유사하게 수행될 수 있다. 예를 들어, 영상 모델 구축 장치는 제3 해상도의 트레이닝 입력 영상을 획득할 수 있고, 해당 트레이닝 입력 영상을 추가 영상 모델(930)에 입력함으로써 제3 임시 출력을 산출할 수 있다. 영상 모델 구축 장치는 제3 해상도의 트레이닝 입력 영상을 제2 해상도의 영상으로 변환함으로써 대상 영상 모델(920)에 입력하여 제2 임시 출력을 산출할 수 있다. 영상 모델 구축 장치는 제2 해상도의 영상을 제1 해상도의 영상으로 변환함으로써 기준 영상 모델(910)에 입력하여 제1 임시 출력을 산출할 수 있다. 영상 모델 구축 장치는 제1 임시 출력, 제2 임시 출력, 및 제3 임시 출력 중 정도 하나에 기초하여 오차를 산출(909)할 수 있다. 영상 모델 구축 장치는 산출된 오차에 기초하여, 추가 영상 모델(930)의 L0' 레이어의 파라미터만을 업데이트할 수 있다. 제2 해상도는 제1 해상도보다 높은 해상도를 나타낼 수 있고, 제3 해상도는 제2 해상도보다 높은 해상도를 나타낼 수 있다.

영상 모델 구축 장치는 상술한 바와 같이 영상 모델을 그로잉시킴으로써, 카메라 센서의 성능이 변화하더라도 해당 카메라 센서에 의해 지원되는 해상도에 대한 영상 모델을 빠르고 효율적으로 생성 및 트레이닝시킬 수 있다.

트레이닝이 완료된 대상 영상 모델은 영상 인식 장치에 탑재될 수 있다. 영상 인식 장치는 입력 영상을 획득할 수 있고, 획득된 입력 영상으로부터 대상 영상 모델에 기초하여 인식 결과를 생성할 수 있다. 예를 들어, 영상 인식 장치는 대상 영상 모델에 기초하여 입력 영상으로부터 특징 데이터를 추출하거나 입력 영상이 지시하는 레이블을 결정할 수 있다. 영상 인식 장치는 대상 영상 모델에 기초하여 입력 영상에 나타나는 객체를 인식할 수 있다. 영상 인식 장치가 차량에 탑재된 경우, 영상 인식 장치는 입력 영상에 나타나는 장애물을 인식할 수 있다.

도 10 및 도 11은 일 실시예에 따른 영상 모델 구축 장치의 구성을 설명하는 블록도이다.

도 10은 영상 모델 구축 장치(1000)의 개괄적인 구성을 설명하는 블록도이다. 영상 모델 구축 장치(1000)는 프로세서(1010) 및 메모리(1020)를 포함할 수 있다.

프로세서(1010)는 기준 영상 모델의 복수의 레이어들과 동일한 레이어들 및 추가 레이어를 포함하는 대상 영상 모델을 생성할 수 있다. 또한, 프로세서(1010)는 기준 영상 모델에 기초하여 대상 영상 모델의 추가 레이어를 트레이닝시킬 수 있다. 다만, 프로세서(1010)의 동작을 이로 한정하는 것은 아니고, 프로세서(1010)는 도 1 내지 도 9에서 설명한 동작들 중 적어도 일부를 수행할 수 있다.

메모리(1020)는 트레이닝된 대상 영상 모델을 저장할 수 있다. 또한, 메모리(1020)는 기준 영상 모델 및 추가 영상 모델을 저장할 수도 있다.

도 11은 능동적 학습(active learning)을 수행할 수 있는 영상 모델 구축 장치(1100)의 구성을 설명하는 블록도이다. 영상 모델 구축 장치(1100)는 프로세서(1110), 메모리(1120), 및 영상 획득부(1130)를 포함할 수 있다.

프로세서(1110)는 도 10에서 설명한 프로세서(1010)와 유사한 동작을 수행할 수 있다. 프로세서(1110)는 추가적으로, 영상 획득부(1130)를 통해 신규 입력 영상이 획득되는 경우에 응답하여, 신규 입력 영상에 기초하여 대상 영상 모델(1122)을 생성 및 트레이닝시킬 수 있다. 예를 들어, 프로세서(1110)는 영상 획득부(1130)를 통해 획득된 신규 입력 영상에 대해 레이블 정보를 생성할 수 있고, 대상 영상 모델(1122)을 신규 입력 영상 및 그에 대응하는 레이블 정보에 기초하여 트레이닝시킬 수 있다. 프로세서(1110)의 동작으로 이로 한정하는 것은 아니고, 프로세서(1110)는 도 1 내지 도 9에서 상술한 동작들 중 적어도 일부와 결합된 동작을 수행할 수 있다.

메모리(1120)는 대상 영상 모델(1122)의 트레이닝에 요구되는 데이터를 임시적으로 또는 영구적으로 저장할 수 있다. 예를 들어, 메모리(1120)는 기준 영상 모델(1121), 대상 영상 모델(1122), 및 트레이닝 데이터(1123)를 저장할 수 있다. 메모리(1120)는 대상 영상 모델(1122)의 트레이닝이 완료되는 경우에 응답하여, 기준 영상 모델(1121)을 삭제(delete)할 수도 있다. 트레이닝 데이터(1123)는 미리 확보된 트레이닝 입력 영상을 포함할 수 있다. 트레이닝 데이터(1123)는 또한, 영상 획득부(1130)를 통해 새로 획득되는 입력 영상을 포함할 수도 있다.

영상 획득부(1130)는 대상 영상 모델(1122)의 트레이닝에 사용되는 영상을 획득할 수 있다. 예를 들어, 영상 획득부(1130)는 카메라 센서를 포함할 수 있고, 카메라 센서는 기기(예를 들어, 자율 주행 차량 등)의 외부를 촬영할 수 있다. 영상 획득부(1130)는 프로세서(1110)로부터 요청되는 때(예를 들어, 사용자 입력이 수신된 때) 외부 영상을 촬영할 수 있다. 다만, 이로 한정하는 것은 아니고, 영상 획득부(1130)는 주기적으로 또는 연속적으로 영상을 획득할 수도 있다. 또한, 영상 획득부(1130)는 기기 외부의 장치(예를 들어, 임의의 서버)와 수립된 통신(예를 들어, 무선 통신 또는 유선 통신)을 통해 트레이닝을 위한 입력 영상을 획득할 수도 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다.　 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.　　

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

1000: 영상 모델 구축 장치
1010: 프로세서
1020: 메모리

Claims

프로세서에 의해 수행되는 영상 모델 구축 방법에 있어서,
상기 프로세서가 기준 영상 모델(reference image model)의 복수의 레이어들과 동일한 레이어들 및 추가 레이어를 포함하는 대상 영상 모델(target image model)을 생성하는 단계;
상기 프로세서가 상기 기준 영상 모델에 기초하여 상기 대상 영상 모델의 상기 추가 레이어를 트레이닝시키는 단계; 및
상기 추가 레이어에 대한 트레이닝이 완료되면, 상기 기준 영상 모델에 기초하여 상기 대상 영상 모델의 상기 추가 레이어 및 상기 복수의 레이어들을 포함하는 모든 레이어들을 추가 트레이닝 시키는 단계
를 포함하고
상기 대상 영상 모델을 생성하는 단계는,
상기 추가 레이어를 상기 복수의 레이어들 중 입력측 레이어에 연결함으로써, 상기 대상 영상 모델을 생성하는 단계
를 포함하며,
상기 추가 레이어를 트레이닝시키는 단계는,
상기 기준 영상 모델의 적어도 일부 레이어로부터 출력되는 특징 데이터 및 상기 대상 영상 모델의 적어도 일부 레이어로부터 출력되는 특징 데이터 간의 차이에 기초하여, 상기 추가 레이어를 트레이닝시키는 단계
를 포함하는 영상 모델 구축 방법.
삭제
제1항에 있어서,
상기 대상 영상 모델을 생성하는 단계는,
상기 대상 영상 모델 중 상기 추가 레이어의 각 노드에 무작위 값을 할당함으로써, 상기 추가 레이어를 초기화하는 단계
를 포함하는 영상 모델 구축 방법.
제1항에 있어서,
상기 추가 레이어를 트레이닝시키는 단계는,
트레이닝 입력이 변환된 영상으로부터, 상기 기준 영상 모델에 기초하여, 기준 모델 출력을 산출하는 단계; 및
상기 기준 모델 출력에 기초하여 상기 대상 영상 모델을 트레이닝시키는 단계
를 포함하는 영상 모델 구축 방법.
제4항에 있어서,
상기 기준 모델 출력을 산출하는 단계는,
상기 기준 영상 모델의 입력 레이어에 기초하여 상기 트레이닝 입력을 변환함으로써 변환 영상을 생성하는 단계; 및
상기 변환 영상으로부터 상기 기준 모델 출력을 산출하는 단계
를 포함하는 영상 모델 구축 방법.
제1항에 있어서,
상기 추가 레이어를 트레이닝시키는 단계는,
상기 기준 영상 모델에 기초한 기준 모델 출력 및 상기 대상 영상 모델에 기초한 대상 모델 출력을 이용하여 상기 대상 영상 모델을 트레이닝시키는 단계
를 포함하는 영상 모델 구축 방법.
제6항에 있어서,
상기 추가 레이어를 트레이닝시키는 단계는,
상기 기준 모델 출력 및 상기 대상 모델 출력에 기초하여 오차를 산출하는 단계; 및
상기 산출된 오차에 기초하여 상기 대상 영상 모델 중 적어도 일부 레이어의 파라미터를 업데이트하는 단계
를 포함하는 영상 모델 구축 방법.
제7항에 있어서,
상기 대상 영상 모델 중 적어도 일부 레이어의 파라미터를 업데이트하는 단계는,
상기 기준 모델 출력 및 상기 대상 모델 출력 간의 오차가 수렴할 때까지, 상기 파라미터의 업데이트를 반복하는 단계
를 포함하는 영상 모델 구축 방법.
제1항에 있어서,
상기 추가 레이어를 트레이닝시키는 단계는,
상기 추가 레이어의 파라미터를 업데이트하는 단계
를 포함하는 영상 모델 구축 방법.
제1항에 있어서,
상기 추가 레이어를 트레이닝시키는 단계는,
상기 대상 영상 모델의 상기 추가 레이어의 파라미터를 업데이트하는 동안, 상기 대상 영상 모델의 나머지 레이어의 파라미터를 유지하는 단계
를 포함하는 영상 모델 구축 방법.
제1항에 있어서,
상기 대상 영상 모델을 생성하는 단계는,
상기 기준 영상 모델의 레이어 구조 및 파라미터를 복제(duplicate)함으로써, 상기 대상 영상 모델의 나머지 레이어를 생성하는 단계; 및
상기 나머지 레이어에 상기 추가 레이어를 연결하는 단계
를 포함하는 영상 모델 구축 방법.
제1항에 있어서,
상기 추가 레이어의 트레이닝 완료(completion)에 응답하여, 상기 대상 영상 모델의 모든 레이어의 파라미터를 업데이트하는 단계
를 더 포함하는 영상 모델 구축 방법.
제1항에 있어서,
상기 대상 영상 모델을 생성하는 단계는,
상기 기준 영상 모델의 한 레이어에 포함되는 노드 개수 이상 및 상기 대상 영상 모델의 입력 레이어에 포함되는 노드 개수 이하의 노드를 포함하는 추가 레이어를 생성하는 단계
를 포함하는 영상 모델 구축 방법.
제1항에 있어서,
신규 입력 영상(new input image)을 획득하는 단계;
상기 신규 입력 영상에 대한 레이블(label)을 결정하는 단계; 및
상기 신규 입력 영상 및 상기 레이블에 기초하여 상기 대상 영상 모델을 추가적으로(additionally) 트레이닝시키는 단계
를 더 포함하는 영상 모델 구축 방법.
제14항에 있어서,
상기 신규 입력 영상에 대한 레이블을 결정하는 단계는,
상기 신규 입력 영상의 획득과 연관된 사용자 입력에 기초하여, 상기 신규 입력 영상에 대한 레이블을 결정하는 단계
를 포함하는 영상 모델 구축 방법.
제1항에 있어서,
상기 대상 영상 모델의 트레이닝이 완료된 후, 상기 대상 영상 모델에 추가 레이어가 연결된 추가 영상 모델을 생성하는 단계; 및
상기 대상 영상 모델의 출력에 기초하여 상기 추가 영상 모델의 추가 레이어를 트레이닝시키는 단계
를 더 포함하는 영상 모델 구축 방법.
제1항에 있어서,
상기 대상 영상 모델을 생성하는 단계는,
상기 기준 영상 모델의 입력 해상도보다 높은 해상도의 영상을 수신할 수 있도록 상기 대상 영상 모델을 생성하는 단계
를 포함하는 영상 모델 구축 방법.
삭제
제1항 및 제3항 내지 제17항 중 어느 한 항의 방법을 수행하기 위한 명령어들을 포함하는 하나 이상의 프로그램을 저장한 컴퓨터 판독 가능 기록매체.
영상 모델 구축 장치에 있어서,
기준 영상 모델의 복수의 레이어들과 동일한 레이어들 및 추가 레이어를 포함하는 대상 영상 모델을 생성하고, 상기 기준 영상 모델에 기초하여 상기 대상 영상 모델의 상기 추가 레이어를 트레이닝시키며, 상기 추가 레이어에 대한 트레이닝이 완료되면, 상기 기준 영상 모델에 기초하여 상기 대상 영상 모델의 상기 추가 레이어 및 상기 복수의 레이어들을 포함하는 모든 레이어들을 추가 트레이닝시키는 프로세서; 및
상기 트레이닝된 대상 영상 모델을 저장하는 메모리
를 포함하고,
상기 프로세서는,
상기 추가 레이어를 상기 복수의 레이어들 중 입력 측 레이어에 연결함으로써, 상기 대상 영상 모델을 생성하고, 상기 기준 영상 모델의 적어도 일부 레이어로부터 출력되는 특징 데이터 및 상기 대상 영상 모델의 적어도 일부 레이어로부터 출력되는 특징 데이터 간의 차이에 기초하여, 상기 추가 레이어를 트레이닝 시키는,
영상 모델 구축 장치.