KR102366172B1 - Method and apparatus for identifying image mathcihng - Google Patents
Method and apparatus for identifying image mathcihng Download PDFInfo
- Publication number
- KR102366172B1 KR102366172B1 KR1020200045739A KR20200045739A KR102366172B1 KR 102366172 B1 KR102366172 B1 KR 102366172B1 KR 1020200045739 A KR1020200045739 A KR 1020200045739A KR 20200045739 A KR20200045739 A KR 20200045739A KR 102366172 B1 KR102366172 B1 KR 102366172B1
- Authority
- KR
- South Korea
- Prior art keywords
- image
- image patch
- neural network
- network model
- patch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000003062 neural network model Methods 0.000 claims abstract description 261
- 239000013598 vector Substances 0.000 claims abstract description 191
- 230000006870 function Effects 0.000 claims description 45
- 238000013528 artificial neural network Methods 0.000 claims description 31
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000001131 transforming effect Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 7
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims 1
- 229910052698 phosphorus Inorganic materials 0.000 claims 1
- 239000011574 phosphorus Substances 0.000 claims 1
- 238000001228 spectrum Methods 0.000 description 33
- 238000004891 communication Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 26
- 239000000284 extract Substances 0.000 description 22
- 230000004913 activation Effects 0.000 description 12
- 238000006116 polymerization reaction Methods 0.000 description 12
- 230000003595 spectral effect Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 210000002569 neuron Anatomy 0.000 description 8
- 230000035945 sensitivity Effects 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 6
- 230000009977 dual effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 3
- 210000000225 synapse Anatomy 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G06N3/0454—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
본 개시는 이미지의 정합 여부를 식별하는 방법 및 상기 이미지의 정합 여부를 식별하는 방법을 수행하는 이미지 정합 장치에 관한 것이다. 일 실시 예에 의하면, 이미지의 정합 여부를 식별하는 방법은 서로 다른 파장 대역의 광들로부터 제1 이미지 패치 및 제2 이미지 패치를 획득하는 단계; 상기 제1 이미지 패치 및 제2 이미지 패치를 미리 설정된 파장 대역의 이미지 특성을 나타내도록 변환하는 단계; 상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치로부터 특징 벡터를 추출하는 단계; 및 상기 추출된 특징 벡터를 제1 신경망 모델에 입력함으로써, 상기 제1 이미지 패치 및 상기 제2 이미지 패치의 정합 여부를 식별하는 단계; 를 포함할 수 있다.The present disclosure relates to a method for identifying whether an image is matched, and an image matching apparatus for performing a method for identifying whether an image is matched. According to an embodiment, a method of identifying whether an image is matched may include: acquiring a first image patch and a second image patch from lights of different wavelength bands; converting the first image patch and the second image patch to exhibit image characteristics of a preset wavelength band; extracting a feature vector from the transformed first image patch and the transformed second image patch; and inputting the extracted feature vector into a first neural network model to identify whether the first image patch and the second image patch match; may include
Description
본 개시는 이미지의 정합 여부를 식별하는 방법 및 장치에 관한 것이다. 보다 상세하게는, 인공 신경망을 이용하여 이미지의 정합 여부를 식별하는 방법 및 장치에 관한 것이다.The present disclosure relates to a method and apparatus for identifying whether an image is matched. More particularly, it relates to a method and apparatus for identifying whether images are matched using an artificial neural network.
인공 신경망(Artificial Neural Network)는 인공 뉴런들의 상호 연결된 집합들을 구현하기 위하여 컴퓨팅 기기 또는 컴퓨팅 기기에 의해서 수행되는 방법을 지칭할 수 있다. 인공 신경망의 일 실시 예로, 심층 신경망(Deep Neural Network) 또는 딥 러닝(Deep Learning)은 멀티 레이어 구조를 가질 수 있고, 레이어들 각각이 다수의 데이터에 따라 학습될 수 있다.An artificial neural network may refer to a computing device or a method performed by a computing device to implement interconnected sets of artificial neurons. As an example of the artificial neural network, a deep neural network or deep learning may have a multi-layer structure, and each of the layers may be learned according to a plurality of data.
최근 인공 신경망 기술의 개발이 활성화 됨에 따라, 인공 지능 분야에서 이미지를 자동으로 인식하기 위한 기술이 활발히 연구되고 있다. 특히, 서로 다른 파장 영역의 광을 복합적으로 이용하는 다중 스펙트럼(multi spectrum) 영상들 사이의 정합 여부를 정확하게 식별하기 위한 교차 스펙트럼(cross-spectrum) 영상 정합 기술 역시 활발히 연구되고 있다.Recently, as the development of artificial neural network technology is activated, a technology for automatically recognizing an image is being actively studied in the field of artificial intelligence. In particular, a cross-spectrum image matching technique for accurately discriminating whether or not matching between multi-spectrum images using light of different wavelength ranges is actively being studied.
그러나, 서로 다른 파장 영역의 광을 이용하는 다중 스펙트럼 이미지를 처리하는 시스템에서, 각 이미지들은 상당히 큰 이미지 특성 차이를 나타내기 때문에, 서로 다른 스펙트럼의 이미지가 정합되는지 여부를 식별 하기 어려운 문제점이 있었다.However, in a system for processing multi-spectral images using light of different wavelength regions, since each image shows a fairly large difference in image characteristics, there is a problem in that it is difficult to identify whether images of different spectra are matched.
따라서, 서로 다른 스펙트럼 이미지의 정합을 효과적으로 식별하기 위한 기술 개발이 요구되고 있다.Therefore, there is a demand for technology development for effectively identifying the matching of different spectral images.
일 실시 예에 따르면, 이미지의 정합 여부를 식별하는 방법 및 이미지 정합 장치가 제공될 수 있다.According to an embodiment, a method and an image matching apparatus for identifying whether an image is matched may be provided.
또한, 일 실시 예에 의하면, 적어도 하나의 신경망 모델을 이용하여 이미지의 정합 여부를 식별하는 방법 및 이미지 정합 장치가 제공될 수 있다.Also, according to an embodiment, a method and an image matching apparatus for identifying whether an image is matched by using at least one neural network model may be provided.
상술한 기술적 과제를 달성하기 위한 본 개시의 일 실시 예에 따라, 서로 다른 파장 대역의 광들로부터 제1 이미지 패치 및 제2 이미지 패치를 획득하는 단계; 상기 제1 이미지 패치 및 제2 이미지 패치를 미리 설정된 파장 대역의 이미지 특성을 나타내도록 변환하는 단계; 상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치로부터 특징 벡터를 추출하는 단계; 및 상기 추출된 특징 벡터를 제1 신경망 모델에 입력함으로써, 상기 제1 이미지 패치 및 상기 제2 이미지 패치의 정합 여부를 식별하는 단계; 를 포함하는 이미지의 정합 여부를 식별하는 방법이 제공될 수 있다.According to an embodiment of the present disclosure for achieving the above-described technical problem, the method comprising: obtaining a first image patch and a second image patch from lights of different wavelength bands; converting the first image patch and the second image patch to exhibit image characteristics of a preset wavelength band; extracting a feature vector from the transformed first image patch and the transformed second image patch; and inputting the extracted feature vector into a first neural network model to identify whether the first image patch and the second image patch match; A method of identifying whether an image including a match may be provided.
또한, 일 실시 예에 의하면, 상기 획득된 제1 이미지 패치 및 상기 획득된 제2 이미지 패치로부터 특징 벡터를 추출하는 단계; 를 더 포함하고, 상기 정합 여부를 식별하는 단계는 상기 획득된 제1 이미지 패치, 상기 획득된 제2 이미지 패치 각각으로부터 추출된 특징 벡터를 제1 신경망 모델에 더 입력함으로써, 상기 제1 이미지 패치 및 상기 제2 이미지 패치의 정합 여부를 식별하는 것을 특징으로 하는 이미지의 정합 여부를 식별하는 방법이 제공될 수 있다.In addition, according to an embodiment, extracting a feature vector from the obtained first image patch and the obtained second image patch; The method further includes, wherein the step of identifying whether the match is performed comprises further inputting a feature vector extracted from each of the obtained first image patch and the obtained second image patch into a first neural network model, whereby the first image patch and There may be provided a method of identifying whether an image is matched, characterized in that it is identified whether the second image patch is matched.
또한, 상기 기술적 과제를 해결하기 위한 본 개시의 또 다른 실시 예에 따라, 하나의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서; 를 포함하고, 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 서로 다른 파장 대역의 광들로부터 제1 이미지 패치 및 제2 이미지 패치를 획득하고, 상기 제1 이미지 패치 및 제2 이미지 패치를 미리 설정된 파장 대역의 이미지 특성을 나타내도록 변환하고, 상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치로부터 특징 벡터를 추출하고, 상기 추출된 특징 벡터를 제1 신경망 모델에 입력함으로써, 상기 제1 이미지 패치 및 상기 제2 이미지 패치의 정합 여부를 식별하는, 영상 정합 장치가 제공될 수 있다.In addition, according to another embodiment of the present disclosure for solving the above technical problem, a memory for storing one instruction; and at least one processor executing the one or more instructions. including, wherein the at least one processor obtains a first image patch and a second image patch from lights of different wavelength bands by executing the one or more instructions, and pre-processes the first image patch and the second image patch. By converting to represent image characteristics of a set wavelength band, extracting a feature vector from the converted first image patch and the converted second image patch, and inputting the extracted feature vector to a first neural network model, the first An image matching apparatus may be provided that identifies whether the first image patch and the second image patch are matched.
또한, 상기 기술적 과제를 해결하기 위한 본 개시의 또 다른 실시 예에 따라, 서로 다른 파장 대역의 광들로부터 제1 이미지 패치 및 제2 이미지 패치를 획득하는 단계; 상기 제1 이미지 패치 및 제2 이미지 패치를 미리 설정된 파장 대역의 이미지 특성을 나타내도록 변환하는 단계; 상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치로부터 특징 벡터를 추출하는 단계; 및 상기 추출된 특징 벡터를 제1 신경망 모델에 입력함으로써, 상기 제1 이미지 패치 및 상기 제2 이미지 패치의 정합 여부를 식별하는 단계; 를 포함하는 이미지의 정합 여부를 식별하는 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체가 제공될 수 있다.In addition, according to another embodiment of the present disclosure for solving the above technical problem, the method comprising: obtaining a first image patch and a second image patch from lights of different wavelength bands; converting the first image patch and the second image patch to exhibit image characteristics of a preset wavelength band; extracting a feature vector from the transformed first image patch and the transformed second image patch; and inputting the extracted feature vector into a first neural network model to identify whether the first image patch and the second image patch match; A computer-readable recording medium in which a program for executing a method of identifying whether an image is matched, including a computer-readable recording medium, may be provided.
도 1은 일 실시 예에 따른 이미지의 정합 여부를 식별하는 방법을 개략적으로 설명하기 위한 도면이다.
도 2는 일 실시 예에 따른 이미지 정합 장치가, 이미지의 정합 여부를 식별하는 방법을 나타내는 흐름도이다.
도 3은 일 실시 예에 따른 이미지 정합 장치가 이미지의 정합 여부를 식별하는 방법을 설명하기 위한 도면이다.
도 4는 또 다른 실시 예에 따른 이미지 정합 장치가 이미지의 정합 여부를 식별하는 방법을 나타내는 흐름도이다.
도 5는 또 다른 실시 예에 따른 이미지 정합 장치가 이미지의 정합 여부를 식별하는 방법을 설명하기 위한 도면이다.
도 6은 일 실시 예에 따른 이미지 정합 장치의 구조를 설명하기 위한 도면이다.
도 7은 일 실시 예에 따른 이미지 정합 장치가 이미지 패치를 변환하기 위해 이용하는 신경망 모델의 구조를 설명하기 위한 도면이다.
도 8은 일 실시 예에 따른 이미지 정합 장치가 이미지 패치로부터 특징 벡터를 추출하기 위해 이용하는 신경망 모델의 구조를 설명하기 위한 도면이다.
도 9는 일 실시 예에 따른 이미지 정합 장치가 신경망 모델을 이용하여 이미지 패치를 변환한 결과를 설명하기 위한 도면이다.
도 10은 일 실시 예에 따른 이미지 정합 장치의 블록도이다.
도 11은 일 실시 예에 따른 이미지 정합 장치와 연결되는 서버의 블록도이다.
도 12는 일 실시 예에 따라, 가시광선 이미지 패치 및 근적외선 이미지 패치 쌍에 기초하여, 학습된 신경망 모델의 성능을 비교하기 위한 도면이다.
도 13은 일 실시 예에 따라 가시광선 이미지 패치 및 열화상 이미지 패치 쌍에 기초하여 학습된 신경망 모델의 성능을 비교하기 위한 도면이다.
도 14는 일 실시 예에 따라 RGB 이미지 패치 및 근적외선 이미지 패치 쌍에 기초하여 학습된 신경망 모델의 성능을 비교하기 위한 도면이다.
도 15는 일반적인 샴 네트워크 구조의 신경망 모델, 본 개시의 실시 예에 따른 신경망 모델의 성능을 비교하기 위한 도면이다.1 is a diagram schematically illustrating a method of identifying whether images are matched, according to an exemplary embodiment.
2 is a flowchart illustrating a method of identifying whether an image is matched by an image matching apparatus according to an exemplary embodiment.
3 is a diagram for describing a method of identifying whether an image is matched by an image matching apparatus according to an exemplary embodiment.
4 is a flowchart illustrating a method of identifying whether an image is matched by an image matching apparatus according to another exemplary embodiment.
5 is a diagram for explaining a method of identifying whether an image is matched by an image matching apparatus according to another exemplary embodiment.
6 is a diagram for describing a structure of an image matching apparatus according to an exemplary embodiment.
7 is a diagram for describing a structure of a neural network model used by an image matching apparatus to convert an image patch, according to an embodiment.
8 is a diagram for explaining the structure of a neural network model used by an image matching apparatus to extract a feature vector from an image patch according to an embodiment.
9 is a diagram for explaining a result of converting an image patch using a neural network model by an image matching apparatus according to an exemplary embodiment.
10 is a block diagram of an image matching apparatus according to an exemplary embodiment.
11 is a block diagram of a server connected to an image matching apparatus according to an exemplary embodiment.
12 is a diagram for comparing performance of a trained neural network model based on a pair of a visible ray image patch and a near-infrared image patch, according to an embodiment.
13 is a diagram for comparing the performance of a neural network model learned based on a pair of a visible light image patch and a thermal image patch according to an embodiment.
14 is a diagram for comparing the performance of a neural network model trained based on a pair of RGB image patches and near-infrared image patches, according to an embodiment.
15 is a diagram for comparing the performance of a neural network model of a general Siamese network structure and a neural network model according to an embodiment of the present disclosure.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다. Terms used in this specification will be briefly described, and the present disclosure will be described in detail.
본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다. The terms used in the present disclosure have been selected as currently widely used general terms as possible while considering the functions in the present disclosure, but these may vary depending on the intention or precedent of a person skilled in the art, the emergence of new technology, and the like. In addition, in a specific case, there is a term arbitrarily selected by the applicant, and in this case, the meaning will be described in detail in the description of the corresponding invention. Therefore, the terms used in the present disclosure should be defined based on the meaning of the term and the contents of the present disclosure, rather than the simple name of the term.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.In the entire specification, when a part "includes" a certain element, this means that other elements may be further included, rather than excluding other elements, unless otherwise stated. In addition, terms such as "...unit" and "module" described in the specification mean a unit that processes at least one function or operation, which may be implemented as hardware or software, or a combination of hardware and software. .
아래에서는 첨부한 도면을 참고하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, with reference to the accompanying drawings, the embodiments of the present disclosure will be described in detail so that those of ordinary skill in the art to which the present disclosure pertains can easily implement them. However, the present disclosure may be implemented in several different forms and is not limited to the embodiments described herein. And in order to clearly explain the present disclosure in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.
도 1은 일 실시 예에 따른 이미지의 정합 여부를 식별하는 방법을 개략적으로 설명하기 위한 도면이다.1 is a diagram schematically illustrating a method of identifying whether images are matched, according to an exemplary embodiment.
일 실시 예에 의하면, 이미지 정합 장치(1000)는 인공 신경망 모델 (Artificial Neural Network Model)(110)을 포함할 수 있다. 일 실시 예에 의하면, 인공 신경망 모델은 적어도 하나의 신경망 모델을 포함할 수 있다. 이미지 정합 장치(1000)는 이미지 패치 쌍을 획득하고, 인공 신경망 모델을 이용하여 획득된 이미지 패치 쌍의 정합(matching) 여부를 식별할 수 있다.According to an embodiment, the
일 실시 예에 의하면, 이미지 정합 장치(1000)는 이미지 패치 쌍이 서로 정합되는지 여부를 식별하기 위해, 이미지 패치로부터 특징 벡터를 추출하며, 추출된 특징 벡터에 기초하여 이미지 패치의 정합 여부를 식별할 수 있다. 이미지 정합 장치(1000)는 이미지 쌍 각각에 포함된 이미지 패치의 정합 여부에 기초하여, 이미지 쌍의 정합(matching) 여부를 식별할 수도 있다. 이미지 정합 장치(1000)는 신경망 모델을 이용하여 이미지를 처리하기 위한 AI 프로그램이 탑재되고, 이미지 촬영 기능을 포함하는 스마트폰, 태블릿 PC, PC, 스마트 TV, 휴대폰, 미디어 플레이어, 서버, 마이크로 서버, 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다.According to an embodiment, the
일 실시 예에 의하면, 이미지 정합 장치(1000)가 이용하는 인공 신경망 모델은 생물학적 신경망에 착안된 컴퓨팅 시스템을 지칭할 수 있다. 인공 신경망은 미리 정의된 조건에 따라 작업을 수행하는 고전적인 알고리즘과 달리, 다수의 샘플들을 고려함으로써 작업을 수행하는 것을 학습할 수 있다. 인공 신경망은 인공 뉴런(neuron)들이 연결된 구조를 가질 수 있고, 뉴런들 간의 연결은 시냅스(synapse)로 지칭될 수 있다. 뉴런은 수신된 신호를 처리할 수 있고, 처리된 신호를 시냅스를 통해서 다른 뉴런에 전송할 수 있다. 뉴런의 출력은 액티베이션(activation)으로 지칭될 수 있고, 뉴런 및/또는 시냅스는 변동될 수 있는 가중치(weight)를 가질 수 있으며, 가중치에 따라 뉴런에 의해 처리된 신호의 영향력이 증가하거나 감소할 수 있다.According to an embodiment, the artificial neural network model used by the
예를 들어, 인공 신경망은 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values, weights)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공 신경망의 학습 결과에 의해 최적화될 수 있다. For example, the artificial neural network may be composed of a plurality of neural network layers. Each of the plurality of neural network layers has a plurality of weight values (weights), and a neural network operation is performed through an operation between an operation result of a previous layer and a plurality of weights. The plurality of weights of the plurality of neural network layers may be optimized by the learning result of the artificial neural network.
예를 들어, 학습 과정 동안 신경망 모델에서 획득한 손실(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 수정 및 갱신될 수 있다. 본 개시에 따른 신경망 모델은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.For example, a plurality of weights may be modified and updated so that a loss value or a cost value obtained from the neural network model during the learning process is reduced or minimized. The neural network model according to the present disclosure may include a deep neural network (DNN), for example, a Convolutional Neural Network (CNN), a Deep Neural Network (DNN), a Recurrent Neural Network (RNN), Restricted (RBM) Boltzmann Machine), DBN (Deep Belief Network), BRDNN (Bidirectional Recurrent Deep Neural Network), or deep Q-Networks, but is not limited to the above-described example.
일 실시 예에 의하면, 이미지 정합 장치(1000)는 제1 이미지(122) 및 제2 이미지(142)를 획득할 수 있다. 일 실시 예에 의하면, 제1 이미지는 제1 도메인(120)에 해당하는 이미지이고, 제2 이미지(142)는 제2 도메인(140)에 해당하는 이미지일 수 있다. 예를 들어, 제1 도메인(120) 및 제2 도메인(140)은 이미지를 생성하기 위해 이용되는 연속적 또는 불연속적인 파장 대역에 대응될 수 있다. 본 명세서에서 기술되는 제1 도메인, 제2 도메인, 제3 도메인 또는 제4 도메인은, 광의 파장 길이를 기초로, 광 스펙트럼 영역을 구분하기 위한 기준이 될 수 있다.According to an embodiment, the
예를 들어, 제1 도메인(120)은 가시 광선 영역(예컨대 광의 파장이 380nm~780nm인 영역)에 속하는 광의 스펙트럼(spectrum)을 나타낼 수 있고, 제2 도메인(140)은 근적외선 영역(예컨대 광의 파장이 0.75um~1um인 영역)에 속하는 광의 스펙트럼을 나타낼 수 있다. 또 다른 실시 예에 의하면, 제1 도메인(120)은 RGB 영역의 파장으로써, 광의 파장이 400nm~500nm, 450nm~630nm, 500~650nm인 영역에 속하는 광의 스펙트럼을 포함할 수 있으나, 이에 한정되는 것은 아니며, 서로 다른 파장 영역을 나타내기 위해 임의로 설정될 수 있음은 물론이다.For example, the
일 실시 예에 의하면, 이미지 정합 장치(1000)가 이용하는 제1 이미지 패치 및 제2 이미지 패치가 속하는 제1 도메인 및 제2 도메인은 각각이 서로 다른 파장 대역에 속하는 광들의 스펙트럼인 다중 스펙트럼(multi spectrum)을 나타낼 수도 있다.According to an embodiment, the first domain and the second domain to which the first image patch and the second image patch used by the
일 실시 예에 의하면, 이미지 정합 장치(1000)는 제1 이미지(122)로부터 제1 이미지 패치(124)를 결정하고, 제2 이미지(142)로부터 제2 이미지 패치(144)를 결정할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 제1 이미지(122)의 픽셀 값에 기초하여 제1 이미지로부터 제1 특징점을 추출하고, 추출된 제1 특징점을 포함하는 제1 이미지의 일부 영역을 제1 이미지 패치로 결정할 수 있다. 또한, 이미지 정합 장치(1000)는 제2 이미지(142)의 픽셀 값에 기초하여 제2 이미지로부터 제2 특징점을 추출하고, 추출된 제2 특징점을 포함하는 제2 이미지의 일부 영역을 제2 이미지 패치(144)로 결정할 수 있다. 이미지 정합 장치(1000)가 결정한 제1 이미지 패치는 제1 도메인에 속할 수 있으며, 제2 이미지 패치는 제2 도메인에 속할 수 있다. According to an embodiment, the
이미지 정합 장치(1000)가 획득한 제1 이미지 패치 및 제2 이미지 패치는 제1 이미지 및 제2 이미지 각각과 동일한 도메인에 속하고, 제1 이미지 패치는 제1 이미지의 파장 대역의 이미지 특성과 동일한 이미지 특성을 가지고, 제2 이미지 패치는 제2 이미지의 파장 대역의 이미지 특성과 동일한 이미지 특성을 가질 수 있다.The first image patch and the second image patch acquired by the
일 실시 예에 의하면, 이미지 정합 장치(1000)는 획득된 이미지 패치의 도메인을 변환(102) 기능을 수행할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 제1 이미지 패치(124), 제2 이미지 패치(144)를 획득하고, 획득된 제1 이미지 패치 및 제2 이미지 패치가 속하는 도메인을 변환할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 제1 이미지 패치의 도메인을 변환함으로써 제2 도메인에 속하는 이미지 특성이 나타나도록 제1 이미지 패치를 변환할 수 있고, 제2 이미지의 패치의 도메인을 변환함으로써 제1 도메인에 속하는 이미지 특성이 나타나도록 제2 이미지 패치를 변환할 수 있다. 이미지 정합 장치(1000)가 이미지 패치의 도메인을 변환하는 과정은 타겟 도메인에 대응되는 파장 대역의 이미지 특성을 나타내도록, 이미지 패치 내 픽셀 값들을 변환하는 동작에 대응될 수 있다.According to an embodiment, the
예를 들어, 이미지 정합 장치(1000)는 제1 파장 대역의 광에 의하여 생성되는 제1 이미지 패치가, 제2 파장 대역의 이미지 특성을 나타내도록 제1 이미지 패치를 변환할 수 있고, 제2 파장 대역의 광에 의하여 생성되는 제2 이미지 패치가, 제1 파장 대역의 이미지 특성을 나타내도록 제2 이미지 패치를 변환할 수 있다. 일 실시 예에 의하면 제2 파장 대역의 이미지 특성은, 제2 파장 대역에 속하는 광을 기초로 생성되는 이미지들 내 픽셀 값들의 세기, 수준, 패턴 등을 의미할 수 있고, 제1 파장 대역의 이미지 특성은, 제1 파장 대역에 속하는 광을 기초로 생성되는 이미지들 내 픽셀 값들의 세기, 수준 패턴 등을 의미할 수 있다.For example, the
이미지 정합 장치(1000)는 소정의 이미지 패치를 이용하여 특징 벡터 추출(104) 기능을 수행할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 획득된 이미지 패치 또는 다른 도메인으로 변환된 이미지 패치로부터 특징 벡터를 추출할 수 있다. 또한, 이미지 정합 장치(1000)는 각 이미지 패치로부터 추출된 특징 벡터를 이용하여, 이미지 패치 쌍이 정합되는지 여부를 판단하는 정합 식별(106) 기능을 수행할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 추출된 특징 벡터에 기초하여 이미지 패치 쌍이 정합되는지 여부에 관한 정합 결과(152)를 획득할 수 있다. 예를 들어, 이미지 정합 장치(1000)가 획득하는 정합 결과는 이진수로 표현된 정합 결과를 포함할 수 있고, 이미지 패치 쌍의 정합 정도에 대한 확률 값에 대한 정보를 더 포함할 수도 있다.The
일 실시 예에 의하면, 이미지 정합 장치(1000)는 이미지 패치 쌍의 정합 여부를 식별한 결과에 기초하여, 각 이미지 패치를 포함하는 이미지 전체의 정합 여부를 식별할 수 있다. 본 개시에 따른 정합(matching)은 이미지 내 픽셀들의 위치, 해당 위치에서의 픽셀 값, 소정의 영역에서 픽셀 값들의 변화량의 유사 정도를 나타낼 수 있다.According to an embodiment, the
일반적으로, 서로 다른 파장 대역의 스펙트럼을 가지는 광으로부터 생성된 이미지들은 픽셀의 수준(level) 및 세기(intensity)모두에서 상당히 차이가 크기 때문에, 서로 다른 파장 대역의 스펙트럼에 속하는 이미지들의 정합(matching) 여부를 정확하게 식별하기 위하여 샴 네트워크 구조의 합성곱 기반 신경망 모델이 사용될 수 있다. 그러나, 여전히 일반적인 샴 네트워크 구조의 합성곱 기반 신경망 모델은 서로 다른 파장 대역의 광에 의하여 생성된 이미지들 간의 픽셀 세기 및 픽셀 수준(level)의 차이를 정확하게 처리하지 못하기 때문에 서로 다른 파장 대역의 스펙트럼에 속하는 이미지들의 정합 여부를 식별하는데 한계가 있었다.In general, since images generated from light having spectra of different wavelength bands have a significant difference in both pixel level and intensity, matching of images belonging to spectra of different wavelength bands A convolution-based neural network model of a Siamese network structure can be used to accurately identify whether or not However, since the convolution-based neural network model of the general Siamese network structure does not accurately process the difference in pixel intensity and pixel level between images generated by light of different wavelength bands, the spectrum of different wavelength bands There was a limit in identifying whether the images belonging to .
그러나, 본 개시에 따른 이미지 정합 장치(1000)는 이미지 패치들로부터 직접 특징 벡터를 추출하는 것이 아니고, 이미지 패치들의 도메인을 변환한 후, 듀얼 샴(dual siamese) 네트워크 구조의 신경망 모델을 이용하여, 변환된 도메인을 가지는 이미지 패치들 및 변환되지 않은 도메인을 가지는 이미지 패치들로부터 특징 벡터를 추출함으로써, 서로 다른 파장 대역의 스펙트럼을 가지는 광으로부터 생성된 이미지들의 정합여부를 정확하게 식별할 수 있다.However, the
일 실시 예에 의하면, 이미지 정합 장치(1000)는 서버(2000)와 연결될 수 있다. 일 실시 예에 의하면, 이미지 정합 장치(1000)는 서버(2000)와 연동되어, 이미지 패치 쌍의 정합 여부를 식별할 수도 있다. 서버(2000)는 네트워크를 통하여 이미지 정합 장치(1000)와 연결됨으로써, 이미지 정합 장치와 데이터를 송수신할 수 있는 기타 컴퓨팅 장치를 포함할 수 있다. 일 실시 예에 의하면, 서버(2000)는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 이동 통신망(mobile radio communication network), 위성 통신망 및 이들의 상호 조합을 통하여 이미지 정합 장치(1000)와 연결될 수 있다. 또한, 일 실시 예에 의하면, 서버(2000)는 도 1에 도시된 각 네트워크 구성 주체(예컨대 이미지 정합 장치 및 서버)가 서로 원활하게 통신을 할 수 있도록 하는 포괄적인 의미의 데이터 통신망이며, 유선 인터넷, 무선 인터넷 및 모바일 무선 통신망 자체를 포함할 수 도 있다.According to an embodiment, the
도 2는 일 실시 예에 따른 이미지 정합 장치가, 이미지의 정합 여부를 식별하는 방법을 나타내는 흐름도이다.2 is a flowchart illustrating a method of identifying whether an image is matched by an image matching apparatus according to an exemplary embodiment.
S210에서, 이미지 정합 장치(1000)는 서로 다른 파장 대역의 광들로부터 제1 이미지 패치 및 제2 이미지 패치를 획득할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 가시 광선 파장 영역에 속하는 광들에 의하여 생성되는 제1 이미지(예컨대 가시광선 이미지) 및 근적외선 파장 영역에 속하는 광들에 의하여 생성되는 제2 이미지(예컨데 근적외선 이미지)를 획득하고, 획득된 각각의 이미지 내 픽셀 값의 변화량에 기초하여 특징점을 추출하며, 추출된 특징점에 기초하여, 제1 이미지 및 제2 이미지 각각으로부터 제1 이미지 패치 및 제2 이미지 패치를 획득할 수 있다. In S210 , the
또 다른 실시 예에 의하면, 이미지 정합 장치(1000)는 이미지 정합 장치와 연결된, 가시광선 이미지를 촬영하는 가시광선 카메라로부터 제1 이미지를 획득하고, 근적외선 이미지를 촬영하는 근적외선 카메라로부터 제2 이미지를 획득하며, 획득된 제1 이미지 및 제2 이미지 각각으로부터 제1 이미지 패치 및 제2 이미지 패치를 각각 획득할 수도 있다.According to another embodiment, the
S220에서, 이미지 정합 장치(1000)는 제1 이미지 패치 및 제2 이미지 패치를 미리 설정된 파장 대역의 이미지 특성을 나타내도록 변환할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 제1 파장 대역의 광에 의하여 생성되는 제1 이미지 패치가, 제2 파장 대역의 이미지 특성을 나타내도록 제1 이미지 패치를 변환하고, 제2 파장 대역의 광에 의하여 생성되는 제2 이미지 패치가, 제1 파장 대역의 이미지 특성을 나타내도록 제2 이미지 패치를 변환할 수 있다. 즉, 이미지 정합 장치(1000)는 제1 이미지 패치의 도메인을 제1 도메인에서 제2 도메인으로 변환하고, 제2 이미지 패치의 도메인을 제2 도메인에서 제1 도메인으로 변환할 수 있다.In S220 , the
그러나 또 다른 실시 예에 의하면, 이미지 정합 장치(1000)는 제1 이미지 패치가, 제3 파장 대역의 이미지 특성을 나타내도록 제1 이미지 패치를 변환하고, 제2 이미지 패치가 제3 파장 대역의 이미지 특성을 나타내도록 제2 이미지 패치를 변환할 수 있다. 즉, 이미지 정합 장치(1000)는 제1 이미지 패치의 도메인을 제1 도메인에서 제3 도메인으로 변환하고, 제2 이미지 패치의 도메인을 제2 도메인에서 제3 도메인으로 변환할 수 있다. 상술한 바와 같이, 이미지 정합 장치(1000)가 이미지 패치의 도메인을 변환하는 동작은, 타겟 도메인에 대응되는 타겟 파장 대역의 이미지 특성을 나타내도록, 이미지 패치의 픽셀 값들을 변환하는 동작에 대응될 수 있다.However, according to another embodiment, the
일 실시 예에 의하면, 이미지 정합 장치(1000)는 이미지 패치가 속하는 도메인을, 타겟 도메인으로 변환하도록 미리 학습된 신경망 모델을 이용하여 이미지 패치의 도메인을 변환할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 제1 파장 대역의 이미지 특성을 나타내는 제1 이미지 패치가 입력되는 경우, 제2 파장 대역의 이미지 특성을 나타내는 이미지 패치를 출력하도록 학습된 제2 신경망 모델을 이용하여, 제1 이미지 패치를 변환할 수 있다. 또한, 이미지 정합 장치(1000)는 제2 파장 대역의 이미지 특성을 나타내는 제2 이미지 패치가 입력되는 경우, 제1 파장 대역의 이미지 특성을 나타내는 이미지 패치를 출력하도록 학습된 제3 신경망 모델을 이용하여 제2 이미지 패치를 변환할 수도 있다.According to an embodiment, the
S230에서, 이미지 정합 장치(1000)는 상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치로부터 특징 벡터를 추출할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 미리 학습된 제4 신경망 모델을 이용하여 변환된 제1 이미지 패치로부터 제1 특징 벡터를 추출하고, 미리 학습된 제5 신경망 모델을 이용하여 변환된 제2 이미지 패치로부터 제4 특징 벡터를 추출할 수 있다. 일 실시 예에 의하면, 제4 신경망 모델 및 제5 신경망 모델은 소정의 도메인에 속하는 이미지 패치로부터 특징 벡터를 추출하기 위해 미리 학습된 합성곱 기반의 신경망 모델일 수 있다.In S230 , the
일반적으로, 이미지로부터 특징 벡터를 추출하기 위해 이미지 패치 내 픽셀 값들의 유사성을 기반으로 하는 특징(feature)으로써, SIFT, SURF, FAST 특징 추출 알고리즘 등이 사용될 수 있다. 그러나, 이러한 특징 추출 알고리즘들은, 다중 스펙트럼 이미지에서 픽셀 세기(intensity)의 변화 및 텍스처 불일치(texture inconsistency)의 한계가 있다. 이러한 한계들을 극복하기 위해, 다중 스펙트럼 SIFT, RGB-근적외선 쌍의 통계적 이미지 특성을 분석하는 방법 등이 개시되었으나, 여전히 다중 스펙트럼 이미지 매칭을 위한 정확한 특징 추출에는 한계가 있다. In general, as a feature based on the similarity of pixel values in an image patch to extract a feature vector from an image, a SIFT, SURF, FAST feature extraction algorithm, etc. may be used. However, these feature extraction algorithms have limitations in the change of pixel intensity and texture inconsistency in a multi-spectral image. In order to overcome these limitations, multi-spectral SIFT and methods for analyzing statistical image characteristics of RGB-near-infrared pairs have been disclosed, but there is still a limit to accurate feature extraction for multi-spectral image matching.
그러나, 본 개시에 따른 이미지 정합 장치(1000)는 후술하는 바와 같이, 이미지 패치로부터 직접 특징 벡터를 추출하는 것이 아니라, 이미지 패치의 도메인을 변환하고, 변환된 도메인의 이미지 패치로부터 추출된 특징 벡터 및 변환되지 않은 도메인의 이미지 패치로부터 추출된 특징 벡터를 모두 이용함으로써, 서로 다른 스펙트럼 이미지 간의 매칭을 정확하게 수행할 수 있다.However, as will be described later, the
S240에서, 이미지 정합 장치(1000)는 변환된 제1 이미지 패치 및 변환된 제2 이미지 패치로부터 각각 추출된 특징 벡터들을 제1 신경망 모델에 입력함으로써, 제1 이미지 패치 및 제2 이미지 패치의 정합 여부를 식별할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 변환된 제1 이미지 패치로부터 추출된 제1 특징 벡터, 상기 변환된 제2 이미지 패치로부터 추출된 제4 특징 벡터의 원소 별 거리 값의 제곱을 원소로 포함하는 차이 벡터를 결정하고, 결정된 차이 벡터, 제1 특징 벡터, 및 제4 특징 벡터를 중합(concatenate)함으로써 중합 벡터를 생성할 수 있다. 이미지 정합 장치(1000)는 중합 벡터를 미리 학습된 제1 신경망 모델에 입력하고, 제1 신경망 모델의 출력 값에 기초하여 제1 이미지 패치 및 제2 이미지 패치의 정합 여부를 식별할 수 있다.In S240 , the
도 3은 일 실시 예에 따른 이미지 정합 장치가 이미지의 정합 여부를 식별하는 방법을 설명하기 위한 도면이다.3 is a diagram for describing a method of identifying whether an image is matched by an image matching apparatus according to an exemplary embodiment.
도 3을 참조하여, 일 실시 예에 따른 이미지 정합 장치(1000)가 이미지의 정합 여부를 식별하는 과정을 더 구체적으로 설명하기로 한다. 상술한 바와 같이, 이미지 정합 장치(1000)는 제1 도메인에 속하는 제1 이미지 패치(302) 및 제2 도메인에 속하는 제2 이미지 패치(312)를 획득할 수 있다. 일 실시 예에 의하면, 제1 도메인 및 제2 도메인은 가시광선 영역에 속하는 광의 스펙트럼(spectrum) 및 제2 도메인은 근적외선 영역에 속하는 광의 스펙트럼을 의미할 수 있다. 그러나, 이에 한정되는 것은 아니며, 제1 도메인은 가시광선 영역에 속하는 광의 스펙트럼 및 제2 도메인은 열적외선 영역이 속하는 광의 스펙트럼을 나타낼 수도 있음은 물론이다.Referring to FIG. 3 , a process in which the
이미지 정합 장치(1000)는 제1 이미지 패치(302) 및 제2 이미지 패치(312)를 미리 설정된 파장 대역의 이미지 특성을 나타내도록 변환할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 제1 파장 대역의 광에 의하여 생성되는 제1 이미지 패치가, 제2 파장 대역의 이미지 특성을 나타내도록 제1 이미지 패치를 변환하고, 제2 파장 대역의 광에 의하여 생성되는 제2 이미지 패치가, 제1 파장 대역의 이미지 특성을 나타내도록 제2 이미지 패치를 변환할 수 있다. 그러나, 또 다른 실시 예에 의하면, 이미지 정합 장치(1000)는 제1 이미지 패치가, 제3 파장 대역의 이미지 특성을 나타내도록 제1 이미지 패치를 변환하고, 제2 이미지 패치가 제3 파장 대역의 이미지 특성을 나타내도록 제2 이미지 패치를 변환할 수 있음은 도 2에서 상술한 바와 같다.The
일 실시 예에 의하면, 이미지 정합 장치(1000)가 타겟 파장 대역의 이미지 특성을 나타내도록 이미지 패치를 변환하는 동작은, 이미지 패치의 현재 도메인을 타겟 도메인으로 변환하기 위해, 이미지 패치의 픽셀 값들을 변환하는 동작에 대응될 수 있다.According to an embodiment, the converting of the image patch to indicate the image characteristic of the target wavelength band by the
또한, 일 실시 예에 의하면, 이미지 정합 장치(1000)는 이미지 패치가 속하는 도메인을, 타겟 도메인으로 변환하도록 미리 학습된 신경망 모델을 이용하여 이미지 패치의 도메인을 변환할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 제1 파장 대역의 이미지 특성을 나타내는 제1 이미지 패치가 입력되는 경우, 제2 파장 대역의 이미지 특성을 나타내는 이미지 패치를 출력하도록 학습된 제2 신경망 모델(304)을 이용하여, 제1 이미지 패치를 변환할 수 있다. 또한, 이미지 정합 장치(1000)는 제2 파장 대역의 이미지 특성을 나타내는 제2 이미지 패치가 입력되는 경우, 제1 파장 대역의 이미지 특성을 나타내는 이미지 패치를 출력하도록 학습된 제3 신경망 모델(314)을 이용하여 제2 이미지 패치를 변환할 수도 있다.Also, according to an embodiment, the
그러나, 또 다른 실시 예에 의하면, 이미지 정합 장치(1000)는 제1 파장 대역의 이미지 특성을 나타내는 제1 이미지 패치가 입력되는 경우, 제3 파장 대역의 이미지 특성을 나타내는 이미지 패치를 출력하도록 학습된 제2 신경망 모델(304)을 이용하여, 제1 이미지 패치를 변환할 수도 있고, 제2 파장 대역의 이미지 특성을 나타내는 제2 이미지 패치가 입력되는 경우, 제3 파장 대역의 이미지 특성을 나타내는 이미지 패치를 출력하도록 학습된 제3 신경망 모델(314)을 이용하여 제2 이미지 패치를 변환할 수도 있다. However, according to another embodiment, when the first image patch representing the image property of the first wavelength band is input, the
즉, 본 개시에 따른 이미지 정합 장치(1000)는 서로 다른 도메인에 속하는 이미지 패치들의 도메인을 공통 도메인으로 변환할 수도 있지만, 서로 다른 도메인에 속하는 이미지 패치들의 도메인이 상호 교환되도록, 이미지 패치들의 도메인을 변환할 수도 있다.That is, the
이미지 정합 장치(1000)는 제2 신경망 모델(304)을 이용하여, 제1 이미지 패치를 변환함으로써, 변환된 제1 이미지 패치(306)를 획득하고, 제3 신경망 모델(314)를 이용하여 제2 이미지 패치를 변환함으로써, 변환된 제2 이미지 패치(316)를 획득할 수 있다. 이미지 정합 장치(1000)는 변환된 제1 이미지 패치(306)로부터 제1 특징 벡터(308)를 추출하고, 변환된 제2 이미지 패치(316)로부터 제2 특징 벡터(318)를 추출할 수 있다. 예를 들어, 도 3에 도시되지는 않았지만, 이미지 정합 장치(1000)는 미리 학습된 적어도 하나의 합성곱 기반의 신경망 모델을 이용하여 변환된 제1 이미지 패치(306)로부터 제1 특징 벡터(308)를 추출하고, 변환된 제2 이미지 패치(316)로부터 제2 특징 벡터(318)를 추출할 수 있다.The
일 실시 예에 의하면, 이미지 정합 장치(1000)는 제1 특징 벡터 및 제2 특징 벡터의 원소 별 차이 값의 제곱을 원소로 포함하는 차이 벡터를 결정하고, 결정된 차이 벡터에 기초하여, 제1 신경망 모델이 이미지 패치의 유사도(similarity)를 출력하도록 학습시킬 수 있다. 예를 들어, 이미지 정합 장치(1000) 이미지 패치의 정합 정도를 확률 값으로 출력하는 제1 신경망 모델을 학습하는 과정은, 제1 특징 벡터 및 제2 특징 벡터의 거리차이에 기초하여 신경망 모델을 metric learning(320) 시키는 과정에 대응될 수 있다.According to an embodiment, the
도 4는 또 다른 실시 예에 따른 이미지 정합 장치가 이미지의 정합 여부를 식별하는 방법을 나타내는 흐름도이다.4 is a flowchart illustrating a method of identifying whether an image is matched by an image matching apparatus according to another exemplary embodiment.
도 2 내지 3에서 상술한 바와 달리, 이미지 정합 장치(1000)는 제1 이미지 패치, 제2 이미지 패치, 변환된 제1 이미지 패치 및 변환된 제2 이미지 패치 각각으로부터 추출된 특징 벡터를 이용하여, 제1 이미지 패치 및 제2 이미지 패치의 정합을 식별할 수도 있다. 이하에서는 도 4 내지 5를 참조하여 또 다른 실시 예에 따른 이미지의 정합 여부를 식별하는 방법을 구체적으로 설명하기로 한다.2 to 3, the
S410에서, 이미지 정합 장치(1000)는 서로 다른 파장 대역의 광들로부터 제1 이미지 패치 및 제2 이미지 패치를 획득할 수 있다. 일 실시 예에 의하면, 제1 이미지 패치는 제1 파장 대역에 속하는 광에 의하여 생성된 제1 이미지 내 일부 영역 이미지일 수 있고, 제2 이미지 패치는 제2 파장 대역에 속하는 광에 의하여 생성된 제2 이미지 내 일부 영역 이미지 일 수 있다. 제1 이미지 패치는 제1 도메인에 대응되는 영역 이미지일 수 있고, 제2 이미지 패치는 제2 도메인에 대응되는 영역 이미지 일 수 있다. S410은 도 2의 S210에 대응될 수 있으므로 구체적인 설명은 생략하기로 한다.In S410 , the
S420에서, 이미지 정합 장치(1000)는 제1 이미지 패치 및 제2 이미지 패치를 미리 설정된 파장 대역의 이미지 특성을 나타내도록 변환할 수 있다. 일 실시 예에 의하면, 이미지 정합 장치(1000)는 제1 파장 대역의 이미지 특성을 나타내는 제1 이미지 패치가 입력되는 경우, 제2 파장 대역의 이미지 특성을 나타내는 이미지 패치를 출력하도록 학습된 제2 신경망 모델(304)을 이용하여, 제1 이미지 패치를 변환할 수 있다. 또한, 이미지 정합 장치(1000)는 제2 파장 대역의 이미지 특성을 나타내는 제2 이미지 패치가 입력되는 경우, 제1 파장 대역의 이미지 특성을 나타내는 이미지 패치를 출력하도록 학습된 제3 신경망 모델(314)을 이용하여 제2 이미지 패치를 변환할 수 있다. In S420 , the
즉, 본 개시에 따른 이미지 정합 장치(1000)는 제1 이미지 패치의 도메인을 제1 도메인에서 제2 도메인으로 변환하고, 제2 이미지 패치의 도메인을 제2 도메인에서 제1 도메인으로 변환함으로써, 제1 이미지 패치가 제2 도메인에 속하는 이미지 특성을 나타내도록 하고, 제2 이미지 패치가 제1 도메인에 속하는 이미지 특성을 나타내도록 변환할 수 있다.That is, the
S430에서, 이미지 정합 장치(1000)는 변환된 제1 이미지 패치 및 변환된 제2 이미지 패치로부터 특징 벡터를 추출할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 변환된 제1 이미지 패치를 제4 신경망 모델에 입력함으로써, 상기 변환된 제1 이미지 패치로부터 제1 특징 벡터를 추출하고, 상기 변환된 제2 이미지 패치를 제5 신경망 모델에 입력함으로써, 상기 변환된 제2 이미지 패치로부터 제4 특징 벡터를 추출할 수 있다. In S430 , the
S440에서, 이미지 정합 장치(1000)는 상기 획득된 제1 이미지 패치 및 상기 획득된 제2 이미지 패치로부터 특징 벡터를 추출할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 상기 획득된 제2 이미지 패치를 제6 신경망 모델에 입력함으로써, 상기 획득된 제2 이미지 패치로부터 제2 특징 벡터를 추출하고, 상기 획득된 제1 이미지 패치를 제7 신경망 모델에 입력함으로써, 상기 획득된 제1 이미지 패치로부터 제3 특징 벡터를 추출할 수 있다.In S440 , the
S460에서, 이미지 정합 장치(1000)는 상기 획득된 제1 이미지 패치, 상기 획득된 제2 이미지 패치, 상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치 각각으로부터 추출된 특징 벡터를 제1 신경망 모델에 입력함으로써, 제1 이미지 패치 및 제2 이미지 패치의 정합 여부를 식별할 수 있다.In step S460 , the
예를 들어, 이미지 정합 장치(1000)는 변환된 제1 이미지 패치로부터 추출된 제1 특징 벡터 및 제2 이미지 패치로부터 추출된 제2 특징 벡터의 제1 거리 차이를 결정하고, 제1 이미지 패치로부터 추출된 제3 특징 벡터 및 변환된 제2 이미지 패치로부터 추출된 제4 특징 벡터의 제2 거리 차이를 결정할 수 있다. 이미지 정합 장치(1000)는 상기 제1 거리 차이 및 제2 거리 차이에 관한 차이 벡터를 제1 신경망 모델에 입력함으로써, 제1 신경망 모델로부터 제1 이미지 패치 및 제2 이미지 패치의 정합 정도에 관한 확률 값을 획득할 수 있다. 이미지 정합 장치(1000)는 제1 신경망 모델로부터 출력된 확률 값에 기초하여, 제1 이미지 패치 및 제2 이미지 패치의 정합 여부를 식별할 수 있다.For example, the
도 5는 또 다른 실시 예에 따른 이미지 정합 장치가 이미지의 정합 여부를 식별하는 방법을 설명하기 위한 도면이다.5 is a diagram for explaining a method of identifying whether an image is matched by an image matching apparatus according to another exemplary embodiment.
도 5를 참조하여, 일 실시 예에 따른 이미지 정합 장치(1000)가 이미지의 정합 여부를 식별하는 과정을 더 구체적으로 설명하기로 한다. 상술한 바와 같이, 이미지 정합 장치(1000)는 제1 도메인(501)에 속하는 제1 이미지 패치(502) 및 제2 도메인(503)에 속하는 제2 이미지 패치(504)를 획득할 수 있다. 이미지 정합 장치(1000)는 도 2 내지 도 3에서 상술한 바와 달리, 변환된 제1 이미지 패치(522) 및 변환된 제2 이미지 패치(524) 외에, 제1 이미지 패치(502) 및 제2 이미지 패치(504)로부터 추출된 특징 벡터를 더 이용하여, 제1 이미지 패치 및 제2 이미지 패치의 정합 여부를 식별할 수도 있다.A process in which the
예를 들어, 이미지 정합 장치(1000)는 제1 도메인(502)에 속하는 제1 이미지 패치(502)를 획득하고, 제1 도메인에 따른 이미지 특성이 나타나는 이미지 패치가 입력되면, 입력된 이미지 패치가 제2 도메인에 따른 이미지 특성을 나타내도록 입력된 이미지 패치를 변환하는 제2 신경망 모델(512)을 이용하여, 제1 이미지 패치(502)를 변환함으로써, 변환된 제1 이미지 패치(522)를 획득할 수 있다.For example, the
일 실시 예에 의하면, 제1 도메인(502)은 제1 파장 대역의 광들이 속하는 스펙트럼 영역을 의미할 수 있다. 이미지 정합 장치(1000)는 제1 파장 대역의 광들로부터 제1 이미지를 획득하고, 제1 이미지 내 픽셀 값에 기초하여 제1 이미지로부터 추출되는 특징점을 포함하는 제1 이미지의 일부 영역을 제1 이미지 패치로 결정할 수 있다.According to an embodiment, the
또한, 일 실시 예에 의하면, 이미지 정합 장치(1000)는 제2 도메인(503)에 속하는 제2 이미지 패치(504)를 획득하고, 제2 도메인에 따른 이미지 특성이 나타나는 이미지 패치가 입력되면, 입력된 이미지 패치가 제1 도메인에 따른 이미지 특성을 나타내도록, 입력된 이미지 패치를 변환하는 제3 신경망 모델(514)을 이용하여, 제2 이미지 패치(504)를 변환함으로써, 변환된 제2 이미지 패치(524)를 획득할 수 있다.Also, according to an embodiment, the
일 실시 예에 의하면, 제2 도메인(503)은 제2 파장 대역의 광들이 속하는 스펙트럼 영역을 의미할 수 있다. 이미지 정합 장치(1000)는 제2 파장 대역의 광들로부터 제2 이미지를 획득하고, 제2 이미지 내 픽셀 값에 기초하여 제2 이미지로부터 추출되는 특징점을 포함하는 제2 이미지의 일부 영역을 제2 이미지 패치로 결정할 수 있다.According to an embodiment, the second domain 503 may mean a spectral region to which lights of the second wavelength band belong. The
일 실시 예에 의하면, 상술한 제1 도메인 및 제2 도메인은 각각 가시광선 영역에 속하는 광의 스펙트럼 및 근적외선 영역에 속하는 광의 스펙트럼을 나타낼 수 있다. 그러나, 또 다른 실시 예에 의하면, 제1 도메인 및 제2 도메인은 각각 가시광선 영역에 속하는 광의 스펙트럼 및 열적외선 영역에 속하는 광의 스펙트럼을 나타낼 수도 있다. 또한, 일 실시 예에 의하면, 제1 도메인 및 제2 도메인은 각각 RGB 각각의 영역에 속하는 광의 스펙트럼 및 근적외선 영역에 속하는 광의 스펙트럼을 나타낼 수도 있다.According to an embodiment, the above-described first domain and the second domain may represent a spectrum of light belonging to a visible ray region and a spectrum of light belonging to a near-infrared region, respectively. However, according to another embodiment, the first domain and the second domain may represent a spectrum of light belonging to a visible ray region and a spectrum of light belonging to a thermal infrared region, respectively. Also, according to an embodiment, the first domain and the second domain may represent a spectrum of light belonging to each RGB region and a spectrum of light belonging to a near-infrared region, respectively.
또 다른 실시 예에 의하면, 이미지 정합 장치(1000)가 획득한 제1 이미지 패치 및 제2 이미지 패치는 각각 가시광선 영역의 광에 의해 생성된 이미지들의 이미지 특성 및 근적외선 영역의 광에 의해 생성된 이미지들의 특성을 포함할 수 있다. 그러나, 또 다른 실시 예에 의하면, 제1 이미지 패치 및 제2 이미지 패치는 각각 가시 광선 영역의 광에 의해 생성된 이미지들의 이미지 특성 및 열적외선 영역에 속하는 광에 의해 생성된 이미지들의 특성을 포함할 수도 있다. 또한, 일 실시 예에 의하면, 제1 이미지 패치 및 제2 이미지 패치는 각각 RGB 각각의 영역에 속하는 광에 의해 생성된 이미지들의 특성 및 근적외선 영역에 속하는 광에 의해 생성된 이미지들의 특성을 포함할 수도 있다. According to another embodiment, the first image patch and the second image patch acquired by the
또한, 일 실시 예에 의하면, 본 개시에 따른 이미지들의 특성은, 이미지 내 픽셀 값의 세기(intensity), 수준(level), 값(value)의 최소 및 최대 범위(range)를 의미할 수 있다. 예를 들어, 근적외선 카메라에 의해 촬영된 근적외선 이미지 패치와 가시광선 카메라에 의해 촬영된 가시광선 이미지 패치 내 픽셀 값들의 세기, 수준, 값들의 최소 및 최대 범위(range)는 서로 달라질 수 있다.Also, according to an embodiment, characteristics of images according to the present disclosure may mean intensity, level, and minimum and maximum ranges of pixel values in the image. For example, intensities, levels, and minimum and maximum ranges of pixel values in a near-infrared image patch photographed by a near-infrared camera and a visible light image patch photographed by a visible light camera may be different from each other.
일 실시 예에 의하면, 이미지 정합 장치(1000)는 제2 도메인에 속하는 이미지 패치로부터 특징 벡터를 추출하도록 미리 학습되는 제4 신경망 모델을 이용하여, 변환된 제1 이미지 패치(522)로부터 제1 특징 벡터(532)를 추출할 수 있다. 또한, 이미지 정합 장치(1000)는 제2 도메인에 속하는 이미지 패치로부터 특징 벡터를 추출하도록 미리 학습되는 제6 신경망 모델을 이용하여, 제2 이미지 패치(504)로부터 제2 특징 벡터(534)를 추출할 수 있다. 일 실시 예에 의하면, 변환된 제1 이미지 패치 및 제2 이미지 패치는 제2 도메인에 따른 이미지 특성을 나타내는 이미지 패치일 수 있고, 제4 신경망 모델 및 제6 신경망 모델은 서로 가중치를 공유하는 샴(Siamese) 네트워크 구조의 신경망 모델일 수 있다.According to an embodiment, the
또한, 일 실시 예에 의하면, 이미지 정합 장치(1000)는 제1 도메인에 속하는 이미지 패치로부터 특징 벡터를 추출하도록 미리 학습되는 제7 신경망 모델을 이용하여, 제1 이미지 패치(502)로부터 제3 특징 벡터(536)를 추출할 수 있다. 또한, 이미지 정합 장치(1000)는 제1 도메인에 속하는 이미지 패치로부터 특징 벡터를 추출하도록 미리 학습되는 제5 신경망 모델을 이용하여, 변환된 제2 이미지 패치(524)로부터 제4 특징 벡터(538)을 추출할 수 있다. 일 실시 예에 의하면, 변환된 제2 이미지 패치 및 제1 이미지 패치는 제1 도메인에 따른 이미지 특성을 나타내는 이미지 패치일 수 있고, 제7 신경망 모델 및 제5 신경망 모델은 서로 가중치를 공유하는 샴(Siamese) 네트워크 구조의 신경망 모델일 수 있다.Also, according to an embodiment, the
본 개시의 일 실시 예에 따른 이미지 정합 장치(1000)는 샴 네트워크 구조의 신경망 모델을 쌍(dual Siamese Network)을 포함할 수 있고, 샴 네트워크 구조의 신경망 모델 쌍은 제1 타입의 샴 네트워크 신경망 모델 및 제2 타임의 샴 네트워크 신경망 모델을 포함할 수 있다. The
이미지 정합 장치(1000)는 제1 특징 벡터(532) 및 제2 특징 벡터(534)의 원소 별 거리 값의 제곱을 원소로 포함하는 제1 차이 벡터(542)를 결정할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 제1 특징 벡터(532) 및 제2 특징 벡터(534)의 원소 별 거리 차이 값의 제곱을 원소로 포함하는 벡터를 제1 차이 벡터(542)로 결정할 수도 있다. 또한, 일 실시 예에 의하면, 이미지 정합 장치(1000)는 제3 특징 벡터(536) 및 제4 특징 벡터(538)의 원소 별 거리 값의 제곱을 원소로 포함하는 제2 차이 벡터(544)를 결정할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 제3 특징 벡터(536) 및 제4 특징 벡터(538)의 원소 별 거리 차이 값의 제곱을 원소로 포함하는 벡터를 제2 차이 벡터(544)로 결정할 수도 있다.The
이미지 정합 장치(1000)는 제1 차이 벡터(542) 및 제2 차이 벡터(544)가 입력되면, 제1 이미지 패치 및 제2 이미지 패치의 정합 정도를 나타내는 확률 값을 출력하도록 제1 신경망 모델을 학습시킬 수 있다. 예를 들어, 이미지 정합 장치(1000)는 이미지 간의 유사성(similarity)을 식별하도록 하기 위해, metric learning(546) 기법을 이용하여 제1 신경망 모델을 학습시킬 수 있다. 이미지 정합 장치(1000)는 제1 차이 벡터 및 제2 차이 벡터에 기초하여, 제1 이미지 패치 및 제2 이미지 패치의 유사 정도를 식별하도록 학습된 제1 신경망 모델을 이용하여, 제1 이미지 패치 및 제2 이미지 패치의 정합(matching)을 식별할 수 있다. When the
본 개시의 일 실시 예에 따른 이미지 정합 장치(1000)는 서로 다른 파장 영역의 스펙트럼을 가지는 이미지 패치들 사이의 정합 여부를 식별함으로써, 각 이미지 패치가 속하는 이미지들의 정합(matching) 여부를 식별할 수 있다. 또한, 일 실시 예에 의하면, 이미지 정합 장치(1000)는 시간의 흐름에 따른 연속적인 이미지 시퀀스들을 획득함으로써, 서로 다른 스펙트럼에 속하는 영상들을 획득할 수도 있다. 이미지 정합 장치(1000)는 서로 다른 스펙트럼에 속하는 이미지 패치들의 정합 여부를 식별함으로써 서로 다른 스펙트럼에 속하는 영상들 사이의 정합을 식별할 수도 있다.The
본 개시에 따른 이미지 정합 장치(1000)가 다중 스펙트럼(multi-spectrum)의 영상 정합(matching) 여부를 식별한 결과, 다중 스펙트럼의 영상들이 정합되는 것으로 식별되는 경우, 상기 정합된 다중 스펙트럼 영상들 사이의 정합은, 교차 스펙트럼(cross spectrum) 영상 정합이라고 표현될 수 있다.When the
도 6은 일 실시 예에 따른 이미지 정합 장치의 구조를 설명하기 위한 도면이다.6 is a diagram for describing a structure of an image matching apparatus according to an exemplary embodiment.
일 실시 예에 의하면, 이미지 정합 장치(1000)는 복수의 신경망 모델을 이용하여 이미지 패치 쌍의 정합 여부를 식별할 수 있다. 이하에서는 편의상, 제1 이미지 패치(602)가 가시광선 영역에 속하는 광의 스펙트럼에 대응되는 가시광선 도메인(Visible Domain, 601)에 해당하고, 제2 이미지 패치(604)가 근적외선 영역에 속하는 광의 스펙트럼에 대응되는 근적외선 도메인(NIR Domain, 603)에 해당하는 경우를 가정하여 설명하기로 한다.According to an embodiment, the
예를 들어, 이미지 정합 장치(1000)는 가시광선 도메인(601)의 제1 이미지 패치(602) 및 근적외선 도메인(604)의 제2 이미지 패치를 획득할 수 있다. 이미지 정합 장치(1000)는 가시광선 카메라 및 근적외선 카메라와 연결될 수 있고, 가시광선 카메라 및 근적외선 카메라 각각으로부터 제1 이미지 패치 및 제2 이미지 패치를 획득할 수도 있다.For example, the
이미지 정합 장치(1000)는 제2 신경망 모델(612)을 이용하여, 제1 이미지 패치의 도메인인 가시광선 도메인을 근적외선 도메인으로 변환할 수 있다. 예를 들어, 이미지 정합 장치(1000)가 제1 이미지 패치의 도메인을 가시광선 도메인에서 근적외선 도메인으로 변환하는 동작은, 가시광선 도메인에 속하는 제1 이미지 패치가 근적외선 도메인에 따른 이미지 특성을 나타내도록, 제1 이미지 패치의 픽셀 값을 변환하는 동작에 대응될 수 있다. 이미지 정합 장치(1000)가 이용하는 제2 신경망 모델(612)은 가시광선 도메인에 속하는 이미지 패치가 입력되면, 입력된 이미지 패치가, 근적외선 도메인에 따른 이미지 특성을 나타내도록, 입력된 이미지 패치의 픽셀 값을 변환하도록 학습된 신경망 모델일 수 있다. 일 실시 예에 의하면, 제2 신경망 모델은 10개의 블록을 포함하는 U-Net 모델로써, 입력 레이어, 엔코딩 블록, 디코딩 블록 및 출력 레이어를 포함할 수 있다. 제2 신경망 모델의 구조는 도 7을 참조하여 더 구체적으로 설명하기로 한다.The
이미지 정합 장치(1000)는 가시광선 도메인에 속하는 제1 이미지 패치를 변환함으로써, 근적외선 도메인에 따른 이미지 특성을 나타내는 변환된 제1 이미지 패치(622)를 획득할 수 있다. 변환된 제1 이미지 패치는, 근적외선 이미지 센서를 포함하는 카메라로부터 촬영된 이미지 패치는 아니지만, 근적외선 이미지 특성을 나타내도록 변환된 이미지 패치일 수 있다. 또한, 변환된 제1 이미지 패치는, 제2 신경망 모델로 입력된 제1 이미지 패치와 저 수준의 특징 값들을 유지할 뿐만 아니라, 유사한 형상(appearance)을 가질 수 있다. 변환된 제1 이미지 패치는 제1 이미지 패치와 픽셀의 세기 및 수준이 약간 다를 수 있지만, 이미지 정합 장치(1000)는 변환된 제1 이미지 패치를 이용함으로써, 다중 스펙트럼 이미지의 정합을 정확하게 식별할 수 있다.The
또한, 일 실시 예에 의하면, 이미지 정합 장치(1000)는 제3 신경망 모델(614)을 이용하여 제2 이미지 패치의 도메인인 근적외선 도메인을 가시광선 도메인으로 변환할 수 있다. 예를 들어, 이미지 정합 장치(1000)가 제2 이미지 패치의 도메인을 근적외선 도메인에서 가시광선 도메인으로 변환하는 동작은, 근적외선 도메인에 속하는 제2 이미지 패치가, 가시광선 도메인에 따른 이미지 특성을 나타내도록, 제2 이미지 패치의 픽셀 값을 변환하는 동작에 대응될 수 있다. 이미지 정합 장치(1000)가 이용하는 제3 신경망 모델(614)은 근적외선 도메인에 속하는 이미지 패치가 입력되면, 입력된 이미지 패치가, 근적외선 도메인에 따른 이미지 특성을 나타내도록, 입력된 이미지 패치의 픽셀 값을 변환하도록 학습된 신경망 모델일 수 있다. 일 실시 예에 의하면, 제3 신경망 모델은 10개의 블록을 포함하는 U-Net 모델로써, 입력 레이어, 엔코딩 블록, 디코딩 블록 및 출력 레이어를 포함할 수 있다. 제3 신경망 모델의 구조는 도 7을 참조하여 더 구체적으로 설명하기로 한다.Also, according to an embodiment, the
이미지 정합 장치(1000)는 근 적외선 도메인에 속하는 제2 이미지 패치를 변환함으로써, 가시광선 도메인에 따른 이미지 특성을 나타내는, 변환된 제2 이미지 패치(624)를 획득할 수 있다. 변환된 제2 이미지 패치는, 가시광선 이미지 센서를 포함하는 카메라로부터 촬영된 이미지는 아니지만, 가시광선 이미지 특성을 나타내도록 변환된 이미지 패치일 수 있다.The
이미지 정합 장치(1000)는 제1 이미지 패치(602), 제2 이미지 패치(604), 변환된 제1 이미지 패치(622), 변환된 제2 이미지 패치(624)로부터 특징 벡터를 추출할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 근적외선 도메인에 속하는 이미지 패치로부터 특징 벡터를 추출하도록 미리 학습된 제4 신경망 모델(626) 및 제6 신경망 모델(628)을 이용하여, 변환된 제1 이미지 패치(622) 및 제2 이미지 패치로부터 각각 제1 특징 벡터(632) 및 제2 특징 벡터(634)를 추출할 수 있다. 제4 신경망 모델 및 제6 신경망 모델은, 근적외선 도메인에 속하는 이미지 패치로부터 특징 벡터를 추출하도록 미리 학습될 수 있고, 가중치를 공유하는 샴 네트워크 구조의 합성곱 신경망 모델일 수 있다.The
이미지 정합 장치(1000)는 가시광선 도메인에 속하는 이미지 패치로부터 특징 벡터를 추출하도록 미리 학습된 제7 신경망 모델(629) 및 제5 신경망(631)을 이용하여, 제1 이미지 패치(602) 및 변환된 제2 이미지 패치(624)로부터 각각 제3 특징 벡터(636) 및 제4 특징 벡터(638)를 추출할 수 있다. 제7 신경망 모델 및 제5 신경망 모델은, 가시광선 도메인에 속하는 이미지 패치로부터 특징 벡터를 추출하도록 미리 학습될 수 있고, 가중치를 공유하는 샴 네트워크 구조의 합성곱 신경망 모델일 수 있다.The
일 실시 예에 의하면, 상술한 제4 신경망 모델, 제5 신경망 모델, 제6 신경망 모델 및 제7 신경망 모델은 이미지 패치가 입력되면 이미지 패치의 픽셀 정보 및 기 설정된 크기의 커널의 상관 관계에 기초하여 결정되는 특징 값들을 벡터 형태로 출력하는 합성곱 기반의 신경망 모델일 수 있다. According to an embodiment, the above-described fourth neural network model, fifth neural network model, sixth neural network model, and seventh neural network model are based on a correlation between pixel information of an image patch and a kernel of a preset size when an image patch is input. It may be a convolution-based neural network model that outputs determined feature values in a vector form.
이미지 정합 장치(1000)는 제1 특징 벡터(632) 및 제2 특징 벡터(634)의 원소 별 거리 차이 값을 원소로 포함하는 제1 차이 벡터(642)를 결정할 수 있다. 또한, 이미지 정합 장치(1000)는 제3 특징 벡터(636) 및 제4 특징 벡터(638)의 원소 별 거리 차이 값을 원소로 포함하는 제2 차이 벡터(644)를 결정할 수 있다. 이미지 정합 장치(1000)는 제1 차이 벡터(642), 제1 특징 벡터(632) 및 제2 특징 벡터(634)를 연결(concatenate)함으로써, 제1 중합 벡터(646)를 생성할 수 있다. The
일 실시 예에 의하면, 이미지 정합 장치(1000)는 제2 차이 벡터(644), 제3 특징 벡터(636) 및 제4 특징 벡터(638)를 중합(concatenate)함으로서, 제2 중합 벡터(644)를 생성할 수 있다. 이미지 정합 장치(1000)는 제1 중합 벡터(646) 및 제2 중합 벡터(648)를 중합(concatenate)함으로써 제3 중합 벡터(648)를 생성할 수 있다. According to an embodiment, the
이미지 정합 장치(1000)는 생성된 제3 중합 벡터(648)를 미리 학습된 제1 신경망 모델에 입력하고, 제1 신경망 모델로부터 제1 이미지 패치 및 제2 이미지 패치의 정합 정도를 나타내는 유사도 점수(similarity score, 658)를 획득할 수 있다. 일 실시 예에 의하면, 제1 신경망 모델은 복수의 풀리 커넥티드 레이어(652, 654, 656) 및 풀리 커넥티드의 출력단에 연결된 활성화 함수를 더 포함할 수 있다.The
예를 들어, 풀리 커넥티드 레이어(652)는 특징 벡터들로부터 생성된 제3 중합 벡터(648)를 입력 받고, 입력된 제3 중합 벡터의 차원을 변환하며, 변환된 차원의 제3 중합 벡터를 다음 풀리 커넥티드 레이어(654) 및 풀리커넥티드 레이어(656)로 순차적으로 전달한다. 풀리 커넥티드 레이어(656)에는, 중합 벡터로부터 유사도 점수를 생성하기 위해 미리 학습된 비선형 시그모이드 활성화 함수가 더 연결될 수 있다.For example, the fully connected
일 실시 예에 의하면, 이미지 정합 장치(1000)가 제1 이미지 패치 및 제2 이미지 패치의 정합을 식별하기 위해 이용하는, 제1 신경망 모델, 제2 신경망 모델, 제3 신경망 모델, 제4 신경망 모델, 제5 신경망 모델, 제6 신경망 모델 및 제7 신경망 모델은 하나의 신경망 모델로써 스펙트럼 불변 이미지 정합 모델(Spectral-Invariant Matching Network, SPIMNet)로 구현될 수 있다. According to an embodiment, the first neural network model, the second neural network model, the third neural network model, the fourth neural network model, The fifth neural network model, the sixth neural network model, and the seventh neural network model may be implemented as a single neural network model as a Spectral-Invariant Matching Network (SPIMNet).
일 실시 예에 의하면, 이미지 정합 장치(1000)가 제1 이미지 패치 및 제2 이미지 패치의 정합을 식별하기 위해 이용하는, 상술한 제1 신경망 모델, 상기 제2 신경망 모델, 상기 제3 신경망 모델, 상기 제4 신경망 모델, 상기 제5 신경망 모델, 상기 제6 신경망 모델 및 상기 제7 신경망 모델은, 상기 제1 이미지 패치 및 상기 제2 이미지 패치의 정합 정도에 관한 제1 손실 함수와 상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치의 변환 정도에 관한 제2 손실 함수가 최소화되도록, 레이어들 및 레이어들 간의 연결 강도에 관한 가중치가 수정 및 갱신될 수 있다.According to an embodiment, the above-described first neural network model, the second neural network model, the third neural network model, The fourth neural network model, the fifth neural network model, the sixth neural network model, and the seventh neural network model include a first loss function related to a degree of matching of the first image patch and the second image patch and the transformed first Layers and weights related to connection strength between layers may be corrected and updated so that the second loss function related to the transformation degree of the image patch and the transformed second image patch is minimized.
일 실시 예에 따라, 이미지 정합 장치(1000)가 이용하는 신경망 모델이 단일의 신경망 모델로써 스펙트럼 불변 이미지 정합 모델로 구현되는 경우, 스펙트럼 불변 이미지 정합 모델 내 가중치들 역시, 상기 제1 이미지 패치 및 상기 제2 이미지 패치의 정합 정도에 관한 제1 손실 함수와 상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치의 변환 정도에 관한 제2 손실 함수가 최소화되도록 수정 및 갱신될 수 있다. 일 실시 예에 의하면, 제1 손실 함수 및 제2 손실 함수는 하나의 항으로 연결됨으로써 제3 손실 함수에 포함될 수 있다.According to an embodiment, when the neural network model used by the
즉, 본 개시의 일 실시 예에 따른 이미지 정합 장치(1000)는 하기 수학식 1과 같이 표현되는 제3 손실 함수가 최소화 되도록 이미지 정합 장치(1000)내 신경망 모델들 내의 가중치들을 수정 및 갱신할 수 있다.That is, the
상기 수학식 1에서, LSPIMNet은 제1 손실 함수 및 제2 손실 함수를 포함하는 제3 손실 함수이고, Lmatching은 제1 이미지 패치 및 제2 이미지 패치의 정합 정도(similarity level)을 학습하는데 사용되는 제1 손실 함수이며, yLconversion은 이미지 정합 장치(1000)가 이미지 패치들의 도메인을 변환하도록 학습하는데 사용되는 제2 손실 함수이다. 이미지 정합 장치(1000)는 상기 수학식 1에 따른 제3 손실 함수가 최소화되도록, 이미지 정합 장치 내 신경망 모델들 내의 가중치들을 수정 및 갱신할 수 있다.In
여기에서, Lmatching은 이진 크로스 엔트로피 함수(binary cross-entropy function)로써, 제1 이미지 패치 및 제2 이미지 패치의 정합 정도(similarity level)를 학습하는데 사용되는 제1 손실 함수이고, 는 하나의 트레이닝 이미지에 대한 이미지 정합 장치(1000)가 이용하는 스펙트럼 불변 이미지 정합 모델의 출력 값이며, y는 학습 데이터의 클래스를 나타낸다. 예를 들어, y가 1인 경우, 제1 이미지 패치 및 제2 이미지 패치의 정합을 나타내고, y가 0이면, 제1 이미지 패치 및 제2 이미지 패치가 정합되지 않음을 나타낼 수 있다.Here, L matching is a binary cross-entropy function, and is a first loss function used to learn a similarity level of the first image patch and the second image patch, is an output value of a spectral invariant image matching model used by the
상기 수학식 3에서, Lconversion은 이미지 정합 장치(1000)가 이미지 패치들의 도메인을 변환하도록 학습하는데 사용되는 제2 손실 함수이고, 은 L1 손실이며, 는 perceptual 손실이다. Perceptual 손실이 사용되지 않으면, Lconversion 손실은 정합(matched) 레이블링된 패치 쌍들이 misaligned 되는 경우, 상당히 증가할 수 있다. 상기 수학식 3에서, 은 Perceptual 손실을 결정하기 위해, ImageNet 데이터 셋에 기초하여 미리 학습된 VGG19 network일 수 있다. 또한, 상기 수학식 3에서, xvis는 가시광선 도메인에 속하는 제1 이미지 패치이고, xnir은 근적외선 도메인에 속하는 제2 이미지 패치를 나타내며, xtvis는 가시광선 도메인에 속하는 이미지 패치가 입력되면, 근적외선 도메인에 따른 이미지 특성을 나타내도록, 입력된 이미지 패치를 변환하는 제2 신경망 모델로부터 출력된, 변환된(translated) 제1 이미지 패치이고, xtnir은 근적외선 도메인에 속하는 이미지 패치가 입력되면, 가시광선 도메인에 따른 이미지 특성을 나타내도록, 입력된 이미지 패치를 변환하는 제3 신경망 모델로부터 출력된, 변환된(translated) 제2 이미지 패치를 나타낸다.In
일 실시 예에 의하면, 는 0.1, 는 30으로 설정될 수 있으나, 이에 제한되는 것은 아니며, 제3 손실 함수를 최소화하기 위해 학습 과정에서 다르게 설정될 수도 있다. 예를 들어, 이미지 정합 장치(1000)는 이미지 데이터 셋에 기초하여 이미지 정합 장치 내 신경망 모델을 훈련하는 과정에서 Lconversion이 최소화 되도록, 이미지 신경망 모델 내 가중치들을 수정 및 갱신할 수 있다. Lconversion은, 제2 신경망 모델 및 제3 신경망 모델로부터 각각 출력된 변환된 제1 이미지 패치 및 변환된 제2 이미지 패치가, 제1 이미지 패치 및 제2 이미지 패치와 유사해질수록, 작아질 수 있다.According to one embodiment, is 0.1, may be set to 30, but is not limited thereto, and may be set differently in the learning process to minimize the third loss function. For example, the
도 7은 일 실시 예에 따른 이미지 정합 장치가 이미지 패치를 변환하기 위해 이용하는 신경망 모델의 구조를 설명하기 위한 도면이다.7 is a diagram for describing a structure of a neural network model used by an image matching apparatus to convert an image patch, according to an embodiment.
도 7을 참조하여 이미지 정합 장치(1000)가 타겟 도메인에 따른 이미지 특성을 나타내도록 이미지 패치를 변환하기 위해 이용하는 제2 신경망 모델 및 제3 신경망 모델의 구조를 구체적으로 설명한다. 이하에서는 편의상, 제1 이미지 패치(602)가 가시광선 영역에 속하는 광의 스펙트럼에 대응되는 가시광선 도메인(Visible Domain, 601)에 해당하고, 제2 이미지 패치(604)가 근적외선 영역에 속하는 광의 스펙트럼에 대응되는 근적외선 도메인(NIR Domain, 603)에 해당하는 경우를 가정하여 설명하기로 한다.The structures of the second neural network model and the third neural network model used by the
이미지 정합 장치(1000)는 가시광선 도메인에 속하는 제1 이미지 패치가, 근적외선 도메인 이미지 특성을 나타내도록 하기 위해, 제2 신경망 모델(712)을 이용하여 제1 이미지 패치를 변환할 수 있다. 일 실시 예에 의하면, 제2 신경망 모델(712)은 가시광선 도메인에 속하는 이미지 패치가 입력되면, 근적외선 도메인의 이미지 특성을 나타내도록, 입력된 이미지 패치를 변환하는 신경망 모델일 수 있다. 일 실시 예에 의하면, 제2 신경망 모델(712)은 10개의 블록들을 포함하는 U-net일 수 있다.The
일 실시 예에 의하면, 제2 신경망 모델(712)은 복수의 컨벌루션 레이어들(722, 724, 728) 및 컨벌루션 전치 레이어들(726, convolution transponse layer)을 포함할 수 있다. 보다 상세하게는, 제2 신경망 모델(712)은 입력 레이어, 엔코딩 블록, 디코딩 블록 및 출력 레이어를 포함할 수 있다. 일 실시 예에 의하면, 각 엔코딩 블록들은 컨벌루션 레이어, batch norm 레이어(732), instance norm 레이어(734) 및 ReLU 활성화 레이어(736)를 포함할 수 있고, 각 디코딩 블록들은 컨벌루션 전치 레이어(Convolution transpose layer, 726), batch norm 레이어(732), instance norm 레이어(734) 및 ReLU 활성화 레이어(736)를 포함할 수 있다.According to an embodiment, the second
일 실시 예에 의하면, batch norm 레이어는 신경망 모델 내 특징 벡터 값의 평균과 분산 값을 batch 단위로 normalize할 수 있다. 또한, instance norm 레이어는, 신경망 모델 내 특징 벡터들의 평균 값과 분산 값을, 신경망 모델의 batch 단위가 아닌 채널 단위의 normalize 할 수 있다. 또한, Relu 활성화 레이어는, 각 블록의 출력 값들이 0보다 작으면 0을 출력하고, 각 블록의 출력 값들이 0보다 크면 해당 출력 값을 그대로 출력할 수 있다. 또한, Tanh 활성화 레이어는 시그 모이드 활성화 레이어를 변환함으로써 생성되는 것으로, 각 블록의 출력 값을 Tanh Function의 입력값으로 할 때, Tanh Function의 출력 값을, 활성화 레이어의 출력으로 할 수 있다.According to an embodiment, the batch norm layer may normalize the average and variance values of the feature vector values in the neural network model in batch units. In addition, the instance norm layer may normalize the average value and variance value of the feature vectors in the neural network model in a channel unit rather than a batch unit in the neural network model. In addition, the Relu activation layer may
일 실시 예에 의하면, 제2 신경망 모델(712)는 5개의 엔코딩 블록들을 포함할 수 있고, 각 엔코딩 블록들에서 컨벌루션 레이어들의 필터 수는 64, 128, 256, 256. 256과 같이 점차적으로 증가될 수 있다. 또한, 제2 신경망 모델(712)내 4개의 디코딩 블록들에서, 컨벌루션 전치 레이어들의 필터 수는 256, 256, 128, 64와 같이 점차적으로 감소할 수 있다. 일 실시 예에 의하면, 엔코딩 블록 및 디코딩 블록 내 컨벌루션 레이어들의 필터(또는 커널 kernel) 사이즈는 4*4 이고, 필터들이 이동하는 간격 stride는 2이며, 컨벌루션 레이어들의 출력 데이터 감소 방지를 위한 패딩(padding) 값은 2일 수 있다.According to an embodiment, the second
일 실시 예에 의하면, 이미지 정합 장치(1000)는 근적외선 도메인에 속하는 제2 이미지 패치가, 가시광선 도메인에 따른 이미지 특성을 나타내도록 하기 위해, 제3 신경망 모델(714)을 이용하여 제2 이미지 패치를 변환할 수 있다. 일 실시 예에 의하면, 제3 신경망 모델(714)은 10개의 블록들을 포함하는 U-net일 수 있다. 제3 신경망 모델(714)은 제2 신경망 모델(714)과 마지막 블록의 구조를 제외하고, 구조가 동일할 수 있다. 제2 신경망 모델 및 제3 신경망 모델 내 마지막 블록의 구조는, 각 신경망 모델이 목표로 하는 타겟 도메인의 종류에 따라 달라질 수 있다.According to an embodiment, the
예를 들어, 제3 신경망 모델(714)은 근적외선 도메인에 해당하는 이미지 패치가 입력될 경우, 입력된 이미지 패치가 가시광선 도메인에 따른 이미지 특성을 나타내도록 변환하기 위한 모델이므로, 타겟 도메인은 가시광선 도메인으로 설정될 수 있다. 따라서, 가시광선 도메인의 경우, 총 3개의 채널을 필요로 하므로, 제3 신경망 모델의 마지막 블록의 컨벌루션 레이어의 필터수는 3일 수 있다. 반대로, 제2 신경망 모델(712)은 가시광선 도메인에 해당하는 이미지 패치가 입력될 경우, 입력된 이미지 패치가 근적외선 도메인에 따른 이미지 특성을 나타내도록 변환하기 위한 모델이므로, 타겟 도메인은 근적외선 도메인으로 설정될 수 있다. 따라서, 제2 신경망 모델의 마지막 블록의 컨벌루션 레이어의 필터수는 1일 수 있다.For example, since the third
또한, 제2 신경망 모델(712) 및 제3 신경망 모델(714)의 각 일단에는 Tanh 활성화 레이어(738)이 연결될 수 있다. 상술한 바와 같이, Tanh 활성화 레이어(738)는 각 제2 신경망 모델 및 제3 신경망 모델로부터 출력되는 이미지 패치의 범위가 [-1, 1]이 되도록, normalize 하는 기능을 수행할 수 있다.In addition, a
도 8은 일 실시 예에 따른 이미지 정합 장치가 이미지 패치로부터 특징 벡터를 추출하기 위해 이용하는 신경망 모델의 구조를 설명하기 위한 도면이다.8 is a diagram for explaining the structure of a neural network model used by an image matching apparatus to extract a feature vector from an image patch according to an embodiment.
일 실시 예에 의하면, 이미지 정합 장치(1000)는 듀얼 샴 네트워크 구조(dual-Siamese network structure)의 합성곱 신경망 모델을 이용하여, 이미지 패치로부터 특징 벡터를 추출할 수 있다. 예를 들어, 이미지 정합 장치(1000)는 도 6에서 상술한 바와 같이, 제4 신경망 모델을 이용하여 변환된 제1 이미지 패치로부터 제1 특징 벡터를 추출하고, 제6 신경망 모델을 이용하여 제2 이미지 패치로부터 제2 특징 벡터를 추출하며, 제7 신경망 모델을 이용하여 제1 이미지 패치로부터 제3 특징 벡터를 추출하고, 제5 신경망 모델을 이용하여 변환된 제2 이미지 패치로부터 제4 특징 벡터를 추출할 수 있다. 일 실시 예에 의하면, 제4 신경망 모델, 제6 신경망 모델, 제7 신경망 모델 및 제5 신경망 모델 각각은 도 8에 도시된 신경망 모델 구조(802)를 포함할 수 있다.According to an embodiment, the
이미지 정합 장치(1000)가 이용하는 제4 신경망 모델 및 제6 신경망 모델은 가중치를 서로 공유하는 샴 네트워크 구조(dual-Siamese network structure)의 제1 타입의 합성곱 신경망 모델이고, 제7 신경망 모델 및 제5 신경망 모델은 가중치를 서로 공유하는 샴 네트워크 구조(dual-Siamese network structure)의 제2 타입의 합성곱 신경망 모델일 수 있다. 즉, 이미지 정합 장치(1000)는 듀얼 샴 네트워크 구조의 합성곱 신경망 모델을 이용하여 제1 이미지 패치, 제2 이미지 패치, 변환된 제1 이미지 패치 및 변환된 제2 이미지 패치 각각으로부터 특징 벡터를 추출할 수 있다.The fourth neural network model and the sixth neural network model used by the
일 실시 예에 의하면, 이미지 정합 장치(1000)가 이미지 패치 또는 변환된 이미지 패치로부터 특징 벡터를 추출하기 위해 이용하는 제4 신경망 모델, 제6 신경망 모델, 제5 신경망 모델 및 제7 신경망 모델 각각은 총 8개의 블록들을 포함할 수 있고, 각 블록들은 컨벌루션 레이어, batch norm 레이어, instance norm 레이어, ReLU활성화 레이어를 포함할 수 있다. 각 레이어들의 구성은 도 7에서 상술한 바에 대응될 수 있으므로 구체적인 설명은 생략하기로 한다. 또한, 일 실시 예에 의하면, 각 블록 내 컨벌루션 레이어의 필터 수, 필터 사이즈 및 stride는 각 블록 별로(32, 3*3, 1), (64, 3*3, 1), (128, 3*3, 1), (128, 5*5, 2), (256, 3*3, 1), (256, 5*5, 2), (256, 3*3, 1) 및 (256, 5*5, 2)와 같이 설정될 수 있다. According to an embodiment, each of the fourth neural network model, the sixth neural network model, the fifth neural network model, and the seventh neural network model used by the
이미지 정합 장치(1000)는 변환된 제1 이미지 패치로부터 추출된 제1 특징 벡터 및 제2 이미지 패치로부터 추출된 제2 특징 벡터의 원소 별 거리 차이의 절대값의 제곱 값에 기초하여 제1 차이 벡터를 결정할 수 있다. 또한, 이미지 정합 장치(1000)는 제1 이미지 패치로부터 추출된 제3 특징 벡터 및 변환된 제2 이미지 패치로부터 추출된 제4 특징 벡터의 원소 별 거리 차이의 절대 값의 제곱 값에 기초하여 제2 차이 벡터를 결정할 수 있다. 이미지 정합 장치(1000)는 상기 결정된 제1 차이 벡터 및 제2 차이 벡터를 이미지간의 유사도를 판단하도록 학습된 제1 신경망 모델에 입력함으로써, 이미지 패치 쌍 간의 정합 정도에 관한 유사도 점수를 획득할 수 있다.The
도 9는 일 실시 예에 따른 이미지 정합 장치가 신경망 모델을 이용하여 이미지 패치를 변환한 결과를 설명하기 위한 도면이다.FIG. 9 is a diagram for explaining a result of converting an image patch using a neural network model by an image matching apparatus according to an exemplary embodiment.
도 9를 참조하면, 가시광선 도메인에 속하는 이미지 패치가 입력되면, 입력된 이미지 패치가, 근적외선 도메인에 따른 이미지 특성을 나타내도록, 입력 이미지 패치를 변환하는 제2 신경망 모델에서 출력된 이미지 패치와 근적외선 도메인에 속하는 이미지 패치가 입력되면, 입력된 이미지 패치가, 가시광선 도메인에 따른 이미지 특성을 나타내도록, 입력된 이미지 패치를 변환하는 제3 신경망 모델에서 출력된 이미지 패치가 도시된다. Referring to FIG. 9 , when an image patch belonging to the visible ray domain is input, the image patch output from the second neural network model that converts the input image patch and the near infrared ray so that the input image patch exhibits image characteristics according to the near infrared domain When an image patch belonging to a domain is input, an image patch output from the third neural network model that transforms the input image patch is shown so that the input image patch exhibits image characteristics according to the visible ray domain.
보다 상세하게는 도 9에 도시된 이미지 패치들은, 상기 제3 손실 함수에서, 제2 손실 함수(예컨대, 상기 수학식 3에 따른 Lconversion 손실)가 제거된 손실 함수(예컨대 제1 손실 함수)를 최소화하도록 학습된 제2 신경망 모델 및 제3 신경망 모델의 출력 이미지 패치들을 나타낼 수 있다.In more detail, the image patches shown in FIG. 9 minimize a loss function (eg, a first loss function) in which a second loss function (eg, an Lconversion loss according to Equation 3) is removed from the third loss function. Output image patches of the second neural network model and the third neural network model that have been trained to do so may be represented.
예를 들어, 제3 손실 함수로부터 제2 손실 함수가 제거됨으로써 획득되는 제1 손실 함수만을 최소화하도록 학습되는 제2 신경망 모델 및 제3 신경망 모델에 이미지 패치들(912, 916, 922)이 입력되면, 제2 신경망 모델 및 제3 신경망 모델로부터 변환된 이미지 패치들(913, 918, 924)이 출력될 수 있다. 변환된 이미지 패치들(913, 918, 924)은, 도 9에 도시된 바와 같이, 원본 이미지 패치와 유사한 객체 또는 객체의 부분들을 포함하지 않기 때문에, 원본 이미지와 형상(appearance) 면에서 차이가 클 수 있다. 또한, 제1 손실 함수만을 최소화하도록 학습된 제2 신경망 모델 및 제3 신경망 모델로부터 출력된 변환된 이미지 패치들(913, 918, 924))은 이미지 패치 쌍간의 정합 여부를 식별하는데 필요한 이미지 정보들을 거의 포함하지 않을 수 있다.For example, when the
그러나, 도 9에 도시된 실시 예와 달리, 본 개시의 일 실시 예에 따른 이미지 정합 장치(1000)는 패치의 정합 정도를 결정하기 위한 제1 손실 함수 및 이미지 패치 및 변환된 이미지 패치 사이의 변환을 결정하는 제2 손실 함수를 모두 포함하는 제3 손실 함수를 최소화하도록, 이미지 정합 장치 내의 신경망 모델들의 가중치를 수정 및 갱신함으로써, 서로 다른 스펙트럼 이미지 패치 쌍간에도 정확하게 이미지 패치의 정합 여부를 식별할 수 있다.However, unlike the embodiment shown in FIG. 9 , the
도 10은 일 실시 예에 따른 이미지 정합 장치의 블록도이다.10 is a block diagram of an image matching apparatus according to an exemplary embodiment.
도 10에 도시된 바와 같이, 이미지 정합 장치(1000)는 프로세서(1400) 및 메모리(1402)를 포함할 수 있다. 그러나, 도시된 구성 요소가 모두 필수구성요소인 것은 아니고, 도시된 구성 요소보다 많은 구성 요소에 의해 이미지 정합 장치(1000)가 구현될 수도 있고, 그보다 적은 구성 요소에 의해서도 이미지 정합 장치(1000)는 구현될 수도 있다. 일 실시 예에 의하면, 이미지 정합 장치(1000)는 프로세서(1400) 및 메모리(1402)외에 통신부(미도시)를 더 포함할 수도 있다.As shown in FIG. 10 , the
프로세서(1400)는, 통상적으로 이미지 정합 장치(1000)의 전반적인 동작을 제어할 수 있다.The
일 실시 예에 의하면, 본 개시에 따른 프로세서(1400)는 메모리(1402)에 저장된 프로그램들을 실행함으로써, 도 1 내지 도 9에 기재된 이미지 정합 장치(1000)의 기능을 수행할 수 있다. 또한, 프로세서(1400)는 하나 또는 복수의 프로세서로 구성될 수 있고, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU와 같은 그래픽 전용 프로세서 또는 인공지능(AI) 전용 프로세서일 수 있다. 일 실시 예에 의하면, 프로세서(1400)가 범용 프로세서, 인공지능 프로세서 및 그래픽 전용 프로세서를 포함하는 경우, 인공지능 프로세서는 범용 프로세서 또는 그래픽 전용 프로세서와 별도의 칩으로 구현될 수도 있다.According to an embodiment, the
일 실시 예에 의하면, 프로세서(1400)가 복수의 프로세서 또는 그래픽 전용 프로세서 또는 인공 지능 전용 프로세서로 구현될 때, 복수의 프로세서 또는 그래픽 전용 프로세서 또는 인공 지능 전용 프로세서 중 적어도 일부는 이미지 정합 장치(1000) 및 이미지 정합 장치(1000)와 연결된 임의의 전자 장치 또는 서버에 탑재될 수도 있다. According to an embodiment, when the
예를 들어, 프로세서(1400)는, 메모리(1402)에 저장된 프로그램들을 실행함으로써, 서로 다른 파장 대역의 광들로부터 제1 이미지 패치 및 제2 이미지 패치를 획득하고, 상기 제1 이미지 패치 및 제2 이미지 패치를 미리 설정된 파장 대역의 이미지 특성을 나타내도록 변환하고, 상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치로부터 특징 벡터를 추출하고, 상기 추출된 특징 벡터를 제1 신경망 모델에 입력함으로써, 상기 제1 이미지 패치 및 상기 제2 이미지 패치의 정합 여부를 식별할 수 있다.For example, the
일 실시 예에 의하면, 프로세서(1400)는 상기 획득된 제1 이미지 패치 및 상기 획득된 제2 이미지 패치로부터 특징 벡터를 추출하고, 상기 획득된 제1 이미지 패치, 상기 획득된 제2 이미지 패치 각각으로부터 추출된 특징 벡터를 제1 신경망 모델에 더 입력함으로써, 상기 제1 이미지 패치 및 상기 제2 이미지 패치의 정합 여부를 식별 할 수 있다.According to an embodiment, the
일 실시 예에 의하면, 프로세서(1400)는 제1 파장 대역의 광들로부터 제1 이미지 및 제2 파장 대역의 광들로부터 제2 이미지를 획득하고, 상기 제1 이미지 및 상기 제2 이미지 내 각각의 픽셀 값에 기초하여, 상기 제1 이미지 및 상기 제2 이미지 각각으로부터 특징점을 추출하고, 상기 추출된 특징점을 포함하는 이미지의 일부 영역을 상기 제1 이미지 패치 및 상기 제2 이미지 패치로 획득할 수 있다.According to an embodiment, the
일 실시 예에 의하면, 프로세서(1400)는 제1 파장 대역의 이미지 특성을 나타내는 제1 이미지 패치가 입력되는 경우, 제2 파장 대역의 이미지 특성을 나타내는 이미지 패치를 출력하는 제2 신경망 모델을 이용하여, 상기 제1 이미지 패치를 변환하고, 제2 파장 대역의 이미지 특성을 나타내는 제2 이미지 패치가 입력되는 경우, 상기 제1 파장 대역의 이미지 특성을 나타내는 이미지 패치를 출력하는 제3 신경망 모델을 이용하여, 상기 제2 이미지 패치를 변환할 수 있다.According to an embodiment, the
일 실시 예에 의하면, 프로세서(1400)는 상기 변환된 제1 이미지 패치를 제4 신경망 모델에 입력함으로써, 상기 변환된 제1 이미지 패치로부터 제1 특징 벡터를 추출하고, 상기 변환된 제2 이미지 패치를 제5 신경망 모델에 입력함으로써, 상기 변환된 제2 이미지 패치로부터 제4 특징 벡터를 추출할 수 있다.According to an embodiment, the
일 실시 예에 의하면, 프로세서(1400)는 상기 획득된 제2 이미지 패치를 제6 신경망 모델에 입력함으로써, 상기 획득된 제2 이미지 패치로부터 제2 특징 벡터를 추출하고, 상기 획득된 제1 이미지 패치를 제7 신경망 모델에 입력함으로써, 상기 획득된 제1 이미지 패치로부터 제3 특징 벡터를 추출할 수 있다.According to an embodiment, the
일 실시 예에 의하면, 프로세서(1400)는 상기 제1 특징 벡터 및 상기 제2 특징 벡터의 원소 별 거리 값의 제곱을 원소로 포함하는 제1 차이 벡터를 결정하고, 상기 제3 특징 벡터 및 상기 제4 특징 벡터의 원소 별 거리 값의 제곱을 원소로 포함하는 제2 차이 벡터를 결정할 수 있다. 상기 제1 신경망 모델은 상기 제1 차이 벡터 및 상기 제2 차이 벡터에 기초하여 상기 제1 이미지 패치 및 상기 제2 이미지 패치가 정합(matching)될 확률 값을 출력할 수 있음은 상술한 바와 같다.According to an embodiment, the
통신부(미도시)는, 이미지 정합 장치(1000)가 다른 장치(미도시) 및 서버(2000)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 다른 장치(미도시)는 이미지 정합 장치(1000)와 같은 컴퓨팅 장치이거나, 센싱 장치일 수 있으나, 이에 제한되지 않는다. 예를 들어, 통신부(미도시)는, 근거리 통신부, 이동 통신부를 포함할 수 있다.The communication unit (not shown) may include one or more components that allow the
근거리 통신부(short-range wireless communication unit)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 이동 통신부는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. Short-range wireless communication unit, Bluetooth communication unit, BLE (Bluetooth Low Energy) communication unit, near field communication unit (Near Field Communication unit), WLAN (Wi-Fi) communication unit, Zigbee communication unit, infrared (IrDA, infrared) It may include a data association) communication unit, a Wi-Fi Direct (WFD) communication unit, an ultra wideband (UWB) communication unit, and the like, but is not limited thereto. The mobile communication unit transmits and receives a radio signal to and from at least one of a base station, an external terminal, and a server on a mobile communication network.
일 실시 예에 의하면, 통신부(미도시)는 프로세서의 제어에 의하여, 서버로 서로 다른 파장 대역의 광들에 의해 생성되는 제1 이미지 패치 및 제2 이미지 패치를 전송할 수 있다. 일 실시 예에 의하면, 통신부는 가시광선 카메라, 열화상 카메라, 근적외선 카메라로부터 각각 가시광선 이미지 패치, 열화상 이미지 패치, 근적외선 이미지 패치등을 수신할 수도 있다. 또한, 일 실시 예에 의하면, 통신부(미도시)는 서버가 이미지 패치 쌍들에 대하여 판단한 이미지 정합 결과에 대한 정보를, 서버로부터 수신할 수도 있다.According to an embodiment, the communication unit (not shown) may transmit the first image patch and the second image patch generated by lights of different wavelength bands to the server under the control of the processor. According to an embodiment, the communication unit may receive a visible ray image patch, a thermal image patch, a near-infrared image patch, and the like from the visible ray camera, the thermal imager, and the near-infrared camera, respectively. Also, according to an embodiment, the communication unit (not shown) may receive information about the image matching result determined by the server for the image patch pairs from the server.
메모리(1402)는, 프로세서(1400)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 이미지 정합 장치(1000)로 입력되거나, 이미지 정합 장치(1000)로부터 출력되는 데이터등을 저장할 수 있다. 또한, 메모리(1402)는 이미지 정합 장치가 이미지 패치 쌍간의 정합 여부를 식별하기 위해 이용하는, 제1 신경망 모델, 제2 신경망 모델, 제3 신경망 모델, 제4 신경망 모델, 제5 신경망 모델, 제6 신경망 모델 및 제7 신경망 모델에 대한 정보를 더 저장할 수도 있다. 일 실시 예에 의하면, 메모리(1402)등은 제3 손실 함수를 최소화하도록 미리 학습되는 이미지 정합 장치 내 인공 신경망 모델 내 레이어들 및 상기 레이어들 간의 연결 강도에 관한 가중치 값들을 더 저장할 수도 있다.The
메모리(1402)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.The
도 11은 일 실시 예에 따른 이미지 정합 장치와 연결되는 서버의 블록도이다.11 is a block diagram of a server connected to an image matching apparatus according to an exemplary embodiment.
일 실시 예에 따르면, 서버(2000)는 통신부(2100), 데이터 베이스(Data Base, 2200) 및 프로세서(2300)를 포함할 수 있다. According to an embodiment, the
통신부(2100)는 상술한 이미지 정합 장치 (1000)의 통신부(미도시)에 대응될 수 있다. 예를 들어, 통신부(2100)는 이미지 정합 장치(1000)로부터 신경망 모델의 레이어들 및 레이어들에 포함된 조드에 관한 정보 또는 신경망 내 레이어들의 연결 강도에 관한 가중치 값들을 수신할 수 있다.The communication unit 2100 may correspond to the communication unit (not shown) of the
데이터 베이스(2200)는 도 10에 도시된 이미지 정합 장치의 메모리(1402)에 대응될 수 있다. 예를 들어, 데이터 베이스(2200)는 프로세서(2300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 이미지 정합 장치(1000)로 입력되거나, 이미지 정합 장치(1000)로부터 출력되는 데이터를 더 저장할 수도 있다. 또한, 데이터 베이스(2200)는 이미지 정합 여부를 식별하기 위해 사용되는, 신경망 모델을 구성하는 레이어들, 레이어들에 포함된 노드들 및 레이어들의 연결 강도에 관한 가중치들에 대한 정보를 더 저장할 수도 있다. 또한, 데이터 베이스(2200)는 이미지 정합 여부를 식별하기 위해 사용되는 인공 신경망 모델 내 가중치들이 수정 및 갱신될 경우, 수정 및 갱신된 가중치에 관한 정보를 더 저장할 수도 있다.The database 2200 may correspond to the
프로세서(2300)는 통상적으로 서버(2000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(2300)는, 서버(2000)의 DB(2200)에 저장된 프로그램들을 실행함으로써, DB(2200) 및 통신부(2100) 등을 전반적으로 제어할 수 있다. 또한, 프로세서(2300)는 DB(2100)에 저장된 프로그램들을 실행함으로써, 도 1 내지 도10에서의 이미지 정합 장치(1000)의 동작의 일부를 수행할 수 있다.The processor 2300 typically controls the overall operation of the
예를 들어, 프로세서(2300)는 서로 다른 파장 대역의 광들로부터 생성되는 제1 이미지 패치 및 제2 이미지 패치를 획득하고, 상기 제1 이미지 패치 및 제2 이미지 패치를 미리 설정된 파장 대역의 이미지 특성을 나타내도록 변환하며, 상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치로부터 특징 벡터를 추출하고, 상기 추출된 특징 벡터를 제1 신경망 모델에 입력함으로써, 상기 제1 이미지 패치 및 상기 제2 이미지 패치의 정합 여부를 식별할 수도 있다.For example, the processor 2300 acquires a first image patch and a second image patch generated from lights of different wavelength bands, and sets the image characteristics of the first image patch and the second image patch in a preset wavelength band. The first image patch and the second image patch are transformed to represent It is also possible to identify whether the image patches are matched.
도 12는 일 실시 예에 따라, 가시광선 이미지 패치 및 근적외선 이미지 패치 쌍에 기초하여, 학습된 신경망 모델의 성능을 비교하기 위한 도면이다.12 is a diagram for comparing performance of a trained neural network model based on a pair of a visible ray image patch and a near-infrared image patch, according to an embodiment.
도 12는 이미지 정합 여부를 식별하기 위해, 가시광선 이미지 패치 및 근적외선 이미지 패치 쌍에 기초하여 학습된 여러 타입의 인공 신경망 모델(902)의 카테고리 별(904, 906, 908, 910, 912, 914, 916, 918) False positive rate 재현율(또는 민감도) 95의 비교 결과를 나타낸다. 각 모델의 명칭 뒤에 연결된 DA는 데이터 증강(Data Augmentation)을 의미한다. 도 12에 도시된 신경망 모델들 중, 본 개시에 따른 이미지 정합 장치(1000)가 이용하는 스펙트럼 불변 이미지 정합 모델(도 12에 도시된 Ours DA)가 가장 뛰어난 성능을 나타냄을 알 수 있다.12 shows several types of artificial
도 13은 일 실시 예에 따라 가시광선 이미지 패치 및 열화상 이미지 패치 쌍에 기초하여 학습된 신경망 모델의 성능을 비교하기 위한 도면이다.13 is a diagram for comparing the performance of a neural network model learned based on a pair of a visible light image patch and a thermal image patch according to an embodiment.
도 13은 가시광선 이미지 패치 및 열화상 이미지 패치 쌍에 기초하여 학습된 여러 신경망 모델들의 성능 지표로써, False positive rate 재현율(또는 민감도) 95 및 False positive rate 재현율(또는 민감도) 99의 비교 결과를 나타낸다. 도 13을 참조하면, 가시광선 이미지 패치 및 열화상 이미지 패치 쌍에 기초하여 학습된 여러 신경망 모델들 중, 본 개시에 따른 이미지 정합 장치(1000)가 이용하는 스펙트럼 불변 이미지 정합 모델(도 13에 도시된 Ours DA)이, False positive rate 재현율(또는 민감도) 95 및 False positive rate 재현율(또는 민감도) 99 지표 모두에서 가장 뛰어난 성능을 나타냄을 알 수 있다. 13 shows a comparison result of false positive rate recall (or sensitivity) 95 and false positive rate recall (or sensitivity) 99 as performance indicators of several neural network models trained based on a pair of visible light image patches and thermal image patches. . Referring to FIG. 13 , a spectral invariant image matching model (shown in FIG. 13 ) used by the
즉, 본 개시에 따른 이미지 정합 장치(1000)가 이미지의 정합 여부를 식별하기 위해 애용하는 스펙트럼 불변 이미지 정합 모델은, 가시광선 이미지 패치 및 근적외선 이미지 패치 쌍뿐만 아니라, 가시광선 이미지 패치 및 열화상 이미지 패치 쌍에 대해서도 가장 뛰어난 성능을 나타냄을 알 수 있다. 따라서, 본 개시에 따른 이미지 정합 장치(1000)는, 야간 영상에서의 스테레오 정합, 다중 스펙트럼 영상을 이용한 얼굴, 물체 인식 및 보행자 검출 등 다양한 분야에 활용될 수 있다.That is, the spectral invariant image registration model used by the
도 14는 일 실시 예에 따라 RGB 이미지 패치 및 근적외선 이미지 패치 쌍에 기초하여 학습된 신경망 모델의 성능을 비교하기 위한 도면이다.14 is a diagram for comparing the performance of a neural network model trained based on a pair of RGB image patches and near-infrared image patches, according to an embodiment.
도 13는 이미지 정합 여부를 식별하기 위해, RGB 이미지 패치 및 근적외선 이미지 패치 쌍에 기초하여 학습된 여러 타입의 신경망 모델의 성능 비교 결과를 나타낸다. 본 개시에 따른 이미지 정합 장치(1000)가 이용하는 스펙트럼 불변 이미지 정합 모델(도 14에 도시된 Ours DA)이, False positive rate 재현율(또는 민감도) 95, False positive rate 재현율(또는 민감도) 97 및 False positive rate 재현율(또는 민감도) 99 모두에서 가장 뛰어난 성능을 나타냄을 알 수 있다. 13 shows performance comparison results of various types of neural network models trained based on a pair of RGB image patches and near-infrared image patches in order to identify whether images are matched. The spectral invariant image registration model (Ours DA shown in FIG. 14 ) used by the
도 15는 일반적인 샴 네트워크 구조의 신경망 모델, 본 개시의 실시 예에 따른 신경망 모델의 성능을 비교하기 위한 도면이다.15 is a diagram for comparing the performance of a neural network model of a general Siamese network structure and a neural network model according to an embodiment of the present disclosure.
도 15를 참조하면, 이미지의 정합 여부를 식별하기 위해 일반적인 샴 네트워크 구조의 신경망 모델로부터 출력된 유사도 점수(similarity scores, 1502), 도 3 내지 도 4에서 상술된 이미지 정합 장치(1000)가 이용하는 신경망 모델로부터 출력된 유사도 점수(1504) 및 도 4 내지 도 5에서 상술된 이미지 정합 장치(1000)가 이용하는 신경망 모델로부터 출력된 유사도 점수(1506)이 도시된다. 도 15를 참조하면, 듀얼 샴 네트워크 구조의 신경망 모델로써, 제2 신경망 모델 및 제3 신경망 모델을 모두 포함하는 스펙트럼 불변 이미지 정합 모델의 유사도 점수가 가장 높은 것을 확인할 수 있다.Referring to FIG. 15 ,
일 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 개시를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. The method according to an embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the present disclosure, or may be known and available to those skilled in the art of computer software.
또한, 상기 일 실시 예에 다른 방법을 수행하도록 하는 프로그램이 저장된 기록매체를 포함하는 컴퓨터 프로그램 장치가 제공될 수 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. In addition, according to the embodiment, a computer program apparatus including a recording medium storing a program for performing another method may be provided. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic such as floppy disks. - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
이상에서 본 개시의 실시예에 대하여 상세하게 설명하였지만 본 개시의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 개시의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 개시의 권리범위에 속한다.Although the embodiment of the present disclosure has been described in detail above, the scope of the present disclosure is not limited thereto, and various modifications and improved forms of the present disclosure are also provided by those skilled in the art using the basic concept of the present disclosure as defined in the following claims. belong to the scope of the right.
Claims (20)
서로 다른 파장 대역의 광들로부터 제1 이미지 패치 및 제2 이미지 패치를 획득하는 단계;
상기 제1 이미지 패치 및 제2 이미지 패치를 미리 설정된 파장 대역의 이미지 특성을 나타내도록 변환하는 단계;
상기 획득된 제1 이미지 패치 및 상기 획득된 제2 이미지 패치로부터 특징 벡터를 추출하는 단계;
상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치로부터 특징 벡터를 추출하는 단계; 및
상기 획득된 제1 이미지 패치, 상기 획득된 제2 이미지 패치, 상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치 각각으로부터 추출된 특징 벡터를 제1 신경망 모델에 입력함으로써, 상기 제1 이미지 패치 및 상기 제2 이미지 패치의 정합 여부를 식별하는 단계; 를 포함하는, 방법.In the method of identifying whether an image is matched,
obtaining a first image patch and a second image patch from lights of different wavelength bands;
converting the first image patch and the second image patch to exhibit image characteristics of a preset wavelength band;
extracting a feature vector from the obtained first image patch and the obtained second image patch;
extracting a feature vector from the transformed first image patch and the transformed second image patch; and
By inputting feature vectors extracted from each of the obtained first image patch, the obtained second image patch, the converted first image patch, and the converted second image patch to a first neural network model, the first image identifying whether the patch and the second image patch match; A method comprising
제1 파장 대역의 광들로부터 제1 이미지 및 제2 파장 대역의 광들로부터 제2 이미지를 획득하는 단계;
상기 제1 이미지 및 상기 제2 이미지 내 각각의 픽셀 값에 기초하여, 상기 제1 이미지 및 상기 제2 이미지 각각으로부터 특징점을 추출하는 단계; 및
상기 추출된 특징점을 포함하는 이미지의 일부 영역을 상기 제1 이미지 패치 및 상기 제2 이미지 패치로 획득하는 단계; 를 포함하는, 방법.The method of claim 1, wherein the obtaining
obtaining a first image from lights of a first wavelength band and a second image from lights of a second wavelength band;
extracting a feature point from each of the first image and the second image based on respective pixel values in the first image and the second image; and
acquiring a partial region of an image including the extracted feature points as the first image patch and the second image patch; A method comprising
제1 파장 대역의 이미지 특성을 나타내는 제1 이미지 패치가 입력되는 경우, 제2 파장 대역의 이미지 특성을 나타내는 이미지 패치를 출력하는 제2 신경망 모델을 이용하여, 상기 제1 이미지 패치를 변환하는 단계; 및
제2 파장 대역의 이미지 특성을 나타내는 제2 이미지 패치가 입력되는 경우, 상기 제1 파장 대역의 이미지 특성을 나타내는 이미지 패치를 출력하는 제3 신경망 모델을 이용하여, 상기 제2 이미지 패치를 변환하는 단계; 를 포함하는, 방법.The method of claim 1, wherein the converting comprises:
converting the first image patch by using a second neural network model that outputs an image patch representing image characteristics of a second wavelength band when a first image patch representing image characteristics of a first wavelength band is input; and
converting the second image patch by using a third neural network model that outputs an image patch representing the image characteristic of the first wavelength band when a second image patch representing the image characteristic of the second wavelength band is input; ; A method comprising
상기 변환된 제1 이미지 패치를 제4 신경망 모델에 입력함으로써, 상기 변환된 제1 이미지 패치로부터 제1 특징 벡터를 추출하는 단계; 및
상기 변환된 제2 이미지 패치를 제5 신경망 모델에 입력함으로써, 상기 변환된 제2 이미지 패치로부터 제4 특징 벡터를 추출하는 단계; 를 포함하는, 방법.5. The method of claim 4, wherein the extracting of a feature vector from the transformed first image patch and the transformed second image patch comprises:
extracting a first feature vector from the transformed first image patch by inputting the transformed first image patch into a fourth neural network model; and
extracting a fourth feature vector from the transformed second image patch by inputting the transformed second image patch into a fifth neural network model; A method comprising
상기 획득된 제2 이미지 패치를 제6 신경망 모델에 입력함으로써, 상기 획득된 제2 이미지 패치로부터 제2 특징 벡터를 추출하는 단계; 및
상기 획득된 제1 이미지 패치를 제7 신경망 모델에 입력함으로써, 상기 획득된 제1 이미지 패치로부터 제3 특징 벡터를 추출하는 단계; 를 포함하는, 방법.The method of claim 5, wherein extracting a feature vector from the obtained first image patch and the obtained second image patch comprises:
extracting a second feature vector from the obtained second image patch by inputting the obtained second image patch into a sixth neural network model; and
extracting a third feature vector from the obtained first image patch by inputting the obtained first image patch into a seventh neural network model; A method comprising
상기 제4 신경망 모델 및 상기 제6 신경망 모델은 상기 제4 신경망 모델 및 상기 제6 신경망 모델 내 레이어들 및 상기 레이어들 간의 연결 강도에 관한 가중치(weight)를 공유하고,
상기 제5 신경망 모델 및 상기 제7 신경망 모델은 상기 제5 신경망 모델 및 상기 제7 신경망 모델 내 레이어들 및 상기 레이어들 간의 연결 강도에 관한 가중치(weight)를 공유하는 샴(siamese) 네트워크 구조의 신경망 모델인 것을 특징으로 하는, 방법.7. The method of claim 6,
The fourth neural network model and the sixth neural network model share a weight with respect to layers in the fourth neural network model and the sixth neural network model and a connection strength between the layers,
The fifth neural network model and the seventh neural network model are a neural network of a siamese network structure in which layers within the fifth neural network model and the seventh neural network model and a weight related to a connection strength between the layers are shared. A method, characterized in that it is a model.
상기 제1 특징 벡터 및 상기 제2 특징 벡터의 원소 별 거리 값의 제곱을 원소로 포함하는 제1 차이 벡터를 결정하는 단계; 및
상기 제3 특징 벡터 및 상기 제4 특징 벡터의 원소 별 거리 값의 제곱을 원소로 포함하는 제2 차이 벡터를 결정하는 단계; 를 더 포함하고,
상기 제1 신경망 모델은 상기 제1 차이 벡터 및 상기 제2 차이 벡터에 기초하여 상기 제1 이미지 패치 및 상기 제2 이미지 패치가 정합(matching)될 확률 값을 출력하는 것인, 방법.The method of claim 6, wherein the step of identifying whether the match
determining a first difference vector including, as an element, the square of the distance values for each element of the first feature vector and the second feature vector; and
determining a second difference vector including, as an element, the square of the distance values for each element of the third feature vector and the fourth feature vector; further comprising,
The method of claim 1, wherein the first neural network model outputs a probability value that the first image patch and the second image patch match based on the first difference vector and the second difference vector.
상기 제1 신경망 모델, 상기 제2 신경망 모델, 상기 제3 신경망 모델, 상기 제4 신경망 모델, 상기 제5 신경망 모델, 상기 제6 신경망 모델 및 상기 제7 신경망 모델은,
상기 제1 이미지 패치 및 상기 제2 이미지 패치의 정합 정도에 관한 제1 손실 함수와 상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치의 변환 정도에 관한 제2 손실 함수가 최소화되도록, 레이어들 및 레이어들 간의 연결 강도에 관한 가중치를 갱신하는 것인, 방법.7. The method of claim 6,
The first neural network model, the second neural network model, the third neural network model, the fourth neural network model, the fifth neural network model, the sixth neural network model, and the seventh neural network model,
A layer such that a first loss function related to the degree of matching of the first image patch and the second image patch and a second loss function related to the degree of conversion of the first transformed image patch and the transformed second image patch are minimized. and updating the weights regarding connection strength between layers and layers.
상기 제4 신경망 모델, 상기 제5 신경망 모델, 상기 제6 신경망 모델 및 상기 제7 신경망 모델은 이미지 패치가 입력되면 이미지 패치의 픽셀 정보 및 기 설정된 크기의 커널(kernel)의 상관관계에 기초하여 결정되는 특징 값들을 벡터형태로 출력하는 합성곱(Convolutional) 신경망 모델인 것인, 방법.7. The method of claim 6,
The fourth neural network model, the fifth neural network model, the sixth neural network model, and the seventh neural network model are determined based on the correlation between pixel information of the image patch and a kernel of a preset size when an image patch is input. A method that is a convolutional neural network model that outputs the feature values to be used in a vector form.
상기 이미지 패치를 부호화 하기 위한 복수의 컨벌루션 레이어를 포함하는 엔코더 및 상기 부호화된 이미지 패치를 디코딩함으로써 소정의 파장 대역의 이미지 특성을 나타내는 이미지 패치를 출력하기 위한 디코더를 포함하는 것인, 방법.The method of claim 4, wherein the second neural network model and the third neural network model are
An encoder including a plurality of convolutional layers for encoding the image patch and a decoder for outputting an image patch representing image characteristics of a predetermined wavelength band by decoding the encoded image patch.
하나의 인스트럭션을 저장하는 메모리; 및
상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서; 를 포함하고,
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
서로 다른 파장 대역의 광들로부터 제1 이미지 패치 및 제2 이미지 패치를 획득하고,
상기 제1 이미지 패치 및 제2 이미지 패치를 미리 설정된 파장 대역의 이미지 특성을 나타내도록 변환하고,
상기 획득된 제1 이미지 패치 및 상기 획득된 제2 이미지 패치로부터 특징 벡터를 추출하고,
상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치로부터 특징 벡터를 추출하고,
상기 획득된 제1 이미지 패치, 상기 획득된 제2 이미지 패치, 상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치 각각으로부터 추출된 특징 벡터를 제1 신경망 모델에 입력함으로써, 상기 제1 이미지 패치 및 상기 제2 이미지 패치의 정합 여부를 식별하는, 영상 정합 장치.An image matching device comprising:
a memory for storing one instruction; and
at least one processor executing the one or more instructions; including,
The at least one processor by executing the one or more instructions,
obtaining a first image patch and a second image patch from lights of different wavelength bands,
converting the first image patch and the second image patch to exhibit image characteristics of a preset wavelength band;
extracting a feature vector from the obtained first image patch and the obtained second image patch;
extracting a feature vector from the transformed first image patch and the transformed second image patch;
By inputting feature vectors extracted from each of the obtained first image patch, the obtained second image patch, the converted first image patch, and the converted second image patch to a first neural network model, the first image An image matching device for identifying whether a patch and the second image patch are matched.
제1 파장 대역의 광들로부터 제1 이미지 및 제2 파장 대역의 광들로부터 제2 이미지를 획득하고,
상기 제1 이미지 및 상기 제2 이미지 내 각각의 픽셀 값에 기초하여, 상기 제1 이미지 및 상기 제2 이미지 각각으로부터 특징점을 추출하고,
상기 추출된 특징점을 포함하는 이미지의 일부 영역을 상기 제1 이미지 패치 및 상기 제2 이미지 패치로 획득하는, 것인 영상 정합 장치.13. The method of claim 12, wherein the at least one processor comprises:
obtaining a first image from lights of a first wavelength band and a second image from lights of a second wavelength band;
extracting a feature point from each of the first image and the second image based on each pixel value in the first image and the second image;
An image matching apparatus for acquiring a partial region of an image including the extracted feature points as the first image patch and the second image patch.
제1 파장 대역의 이미지 특성을 나타내는 제1 이미지 패치가 입력되는 경우, 제2 파장 대역의 이미지 특성을 나타내는 이미지 패치를 출력하는 제2 신경망 모델을 이용하여, 상기 제1 이미지 패치를 변환하고,
제2 파장 대역의 이미지 특성을 나타내는 제2 이미지 패치가 입력되는 경우, 상기 제1 파장 대역의 이미지 특성을 나타내는 이미지 패치를 출력하는 제3 신경망 모델을 이용하여, 상기 제2 이미지 패치를 변환하는 것인, 영상 정합 장치.13. The method of claim 12, wherein the at least one processor comprises:
When a first image patch representing an image characteristic of a first wavelength band is input, the first image patch is converted using a second neural network model that outputs an image patch representing an image characteristic of a second wavelength band;
Transforming the second image patch by using a third neural network model that outputs an image patch representing the image characteristic of the first wavelength band when a second image patch representing the image characteristic of the second wavelength band is input Phosphorus, an image matching device.
상기 변환된 제1 이미지 패치를 제4 신경망 모델에 입력함으로써, 상기 변환된 제1 이미지 패치로부터 제1 특징 벡터를 추출하고,
상기 변환된 제2 이미지 패치를 제5 신경망 모델에 입력함으로써, 상기 변환된 제2 이미지 패치로부터 제4 특징 벡터를 추출하는 것인, 영상 정합 장치.16. The method of claim 15, wherein the at least one processor comprises:
By inputting the transformed first image patch into a fourth neural network model, extracting a first feature vector from the transformed first image patch,
By inputting the transformed second image patch into a fifth neural network model, the fourth feature vector is extracted from the transformed second image patch.
상기 획득된 제2 이미지 패치를 제6 신경망 모델에 입력함으로써, 상기 획득된 제2 이미지 패치로부터 제2 특징 벡터를 추출하고,
상기 획득된 제1 이미지 패치를 제7 신경망 모델에 입력함으로써, 상기 획득된 제1 이미지 패치로부터 제3 특징 벡터를 추출하는 것인, 영상 정합 장치.17. The method of claim 16, wherein the at least one processor comprises:
By inputting the obtained second image patch into a sixth neural network model, a second feature vector is extracted from the obtained second image patch,
By inputting the obtained first image patch into a seventh neural network model, extracting a third feature vector from the obtained first image patch.
상기 제4 신경망 모델 및 상기 제6 신경망 모델은 상기 제4 신경망 모델 및 상기 제6 신경망 모델 내 레이어들 및 상기 레이어들 간의 연결 강도에 관한 가중치(weight)를 공유하고,
상기 제5 신경망 모델 및 상기 제7 신경망 모델은 상기 제5 신경망 모델 및 상기 제7 신경망 모델 내 레이어들 및 상기 레이어들 간의 연결 강도에 관한 가중치(weight)를 공유하는 샴(siamese) 네트워크 구조의 신경망 모델인 것을 특징으로 하는, 영상 정합 장치.18. The method of claim 17,
The fourth neural network model and the sixth neural network model share a weight with respect to layers in the fourth neural network model and the sixth neural network model and a connection strength between the layers,
The fifth neural network model and the seventh neural network model are a neural network of a siamese network structure in which layers within the fifth neural network model and the seventh neural network model and a weight related to a connection strength between the layers are shared. An image matching device, characterized in that the model.
상기 제1 특징 벡터 및 상기 제2 특징 벡터의 원소 별 거리 값의 제곱을 원소로 포함하는 제1 차이 벡터를 결정하고,
상기 제3 특징 벡터 및 상기 제4 특징 벡터의 원소 별 거리 값의 제곱을 원소로 포함하는 제2 차이 벡터를 결정하고,
상기 제1 신경망 모델은 상기 제1 차이 벡터 및 상기 제2 차이 벡터에 기초하여 상기 제1 이미지 패치 및 상기 제2 이미지 패치가 정합(matching)될 확률 값을 출력하는 것인, 영상 정합 장치.18. The method of claim 17, wherein the at least one processor comprises:
determining a first difference vector including, as an element, the square of the distance values for each element of the first feature vector and the second feature vector;
determining a second difference vector including, as an element, the square of the distance values for each element of the third feature vector and the fourth feature vector;
The first neural network model outputs a probability value that the first image patch and the second image patch are matched based on the first difference vector and the second difference vector.
상기 제1 이미지 패치 및 제2 이미지 패치를 미리 설정된 파장 대역의 이미지 특성을 나타내도록 변환하는 단계;
상기 획득된 제1 이미지 패치 및 상기 획득된 제2 이미지 패치로부터 특징 벡터를 추출하는 단계;
상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치로부터 특징 벡터를 추출하는 단계; 및
상기 획득된 제1 이미지 패치, 상기 획득된 제2 이미지 패치, 상기 변환된 제1 이미지 패치 및 상기 변환된 제2 이미지 패치 각각으로부터 추출된 특징 벡터를 제1 신경망 모델에 입력함으로써, 상기 제1 이미지 패치 및 상기 제2 이미지 패치의 정합 여부를 식별하는 단계; 를 포함하는, 이미지의 정합 여부를 식별하는 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.obtaining a first image patch and a second image patch from lights of different wavelength bands;
converting the first image patch and the second image patch to exhibit image characteristics of a preset wavelength band;
extracting a feature vector from the obtained first image patch and the obtained second image patch;
extracting a feature vector from the transformed first image patch and the transformed second image patch; and
By inputting feature vectors extracted from each of the obtained first image patch, the obtained second image patch, the converted first image patch, and the converted second image patch to a first neural network model, the first image identifying whether the patch and the second image patch match; A computer-readable recording medium recording a program for executing a method of identifying whether an image is matched or not, including a computer-readable recording medium.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200045739A KR102366172B1 (en) | 2020-04-16 | 2020-04-16 | Method and apparatus for identifying image mathcihng |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200045739A KR102366172B1 (en) | 2020-04-16 | 2020-04-16 | Method and apparatus for identifying image mathcihng |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210128076A KR20210128076A (en) | 2021-10-26 |
KR102366172B1 true KR102366172B1 (en) | 2022-02-22 |
Family
ID=78268389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200045739A Active KR102366172B1 (en) | 2020-04-16 | 2020-04-16 | Method and apparatus for identifying image mathcihng |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102366172B1 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102651559B1 (en) * | 2021-12-08 | 2024-03-26 | 주식회사 딥엑스 | Neural processing unit and artificial neural network system for image fusion |
KR102456402B1 (en) * | 2022-01-05 | 2022-10-19 | 신우진 | Method and apparatus for supporting design co-work using neural networks |
KR102786889B1 (en) * | 2022-01-05 | 2025-03-26 | 신우진 | Method and apparatus for supporting design co-work using neural networks |
CN117173854B (en) * | 2023-09-13 | 2024-04-05 | 西安博深安全科技股份有限公司 | Coal mine open fire early warning method and system based on deep learning |
CN117710711B (en) * | 2024-02-06 | 2024-05-10 | 东华理工大学南昌校区 | Optical and SAR image matching method based on lightweight depth convolution network |
CN118397428B (en) * | 2024-05-09 | 2024-12-03 | 深圳市探鸽智能科技有限公司 | An infrared camera intelligent target recognition method, system and device |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101405435B1 (en) | 2012-12-14 | 2014-06-11 | 한국항공우주연구원 | Method and apparatus for blending high resolution image |
KR101928393B1 (en) | 2017-07-17 | 2018-12-12 | 서울시립대학교 산학협력단 | Method and apparatus for data fusion of infrared image and radar image |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101132536B1 (en) * | 2008-12-02 | 2012-04-02 | 삼성메디슨 주식회사 | System and method of perform image registration |
KR102667740B1 (en) | 2018-02-12 | 2024-05-22 | 삼성전자주식회사 | Device and method for matching image |
-
2020
- 2020-04-16 KR KR1020200045739A patent/KR102366172B1/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101405435B1 (en) | 2012-12-14 | 2014-06-11 | 한국항공우주연구원 | Method and apparatus for blending high resolution image |
KR101928393B1 (en) | 2017-07-17 | 2018-12-12 | 서울시립대학교 산학협력단 | Method and apparatus for data fusion of infrared image and radar image |
Non-Patent Citations (2)
Title |
---|
Lloyd H. Hughes 등, Identifying Corresponding Patches in SAR and Optical Images With a Pseudo-Siamese CNN, IEEE GRSL.(2018.03.12.)* |
Nina Merkle 등, Exploring the Potential of Conditional Adversarial Networks for Optical and SAR Image Matching, IEEE JSTARS.(2018.03.29.)* |
Also Published As
Publication number | Publication date |
---|---|
KR20210128076A (en) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102366172B1 (en) | Method and apparatus for identifying image mathcihng | |
US11651229B2 (en) | Methods and systems for face recognition | |
CN110458844B (en) | A Semantic Segmentation Method for Low Light Scenes | |
Raja et al. | Smartphone based visible iris recognition using deep sparse filtering | |
Alqethami et al. | Disease detection in apple leaves using image processing techniques | |
Chen et al. | An adaptive CNNs technology for robust iris segmentation | |
CN107832700A (en) | A kind of face identification method and system | |
EP3799647A1 (en) | Fast and robust friction ridge impression minutiae extraction using feed-forward convolutional neural network | |
CN114037640B (en) | Image generation method and device | |
JP2011248879A (en) | Method for classifying object in test image | |
Proença et al. | A reminiscence of “mastermind”: Iris/periocular biometrics by “in-set” CNN iterative analysis | |
Badeka et al. | Grapes visual segmentation for harvesting robots using local texture descriptors | |
Sowmiya et al. | Deep learning techniques to detect crop disease and nutrient deficiency-a survey | |
KR20200083119A (en) | User verification device and method | |
Liu et al. | Iris recognition in visible spectrum based on multi-layer analogous convolution and collaborative representation | |
Haq et al. | Implementation of CNN for plant identification using UAV imagery | |
Le-Tien et al. | Iris-based biometric recognition using modified convolutional neural network | |
Suárez et al. | Cross-spectral image patch similarity using convolutional neural network | |
CN114419741B (en) | Living body detection method, living body detection device, electronic apparatus, and storage medium | |
CN116524556A (en) | Multi-model-based human face living body detection method, device, equipment and storage medium | |
Lefkovits | CNN approaches for dorsal hand vein based identification | |
CN117853873A (en) | Training method and recognition method for multi-mode recognition model | |
KR100357441B1 (en) | Human iris recognition method using harr wavelet transform and lvq | |
Bhuvaneswari et al. | Robust Image Forgery Classification using SqueezeNet Network | |
Meena et al. | Citrus plant leaves disease detection using CNN and LVQ algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20200416 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210901 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220207 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220217 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20220217 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20241223 Start annual number: 4 End annual number: 4 |