[go: up one dir, main page]

KR102622958B1 - 이미지 캡션 자동 생성 시스템 및 방법 - Google Patents

이미지 캡션 자동 생성 시스템 및 방법 Download PDF

Info

Publication number
KR102622958B1
KR102622958B1 KR1020190023268A KR20190023268A KR102622958B1 KR 102622958 B1 KR102622958 B1 KR 102622958B1 KR 1020190023268 A KR1020190023268 A KR 1020190023268A KR 20190023268 A KR20190023268 A KR 20190023268A KR 102622958 B1 KR102622958 B1 KR 102622958B1
Authority
KR
South Korea
Prior art keywords
caption
image
model
tuple
word
Prior art date
Application number
KR1020190023268A
Other languages
English (en)
Other versions
KR20200104663A (ko
Inventor
최호진
한승호
Original Assignee
한국전력공사
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전력공사, 한국과학기술원 filed Critical 한국전력공사
Priority to KR1020190023268A priority Critical patent/KR102622958B1/ko
Publication of KR20200104663A publication Critical patent/KR20200104663A/ko
Application granted granted Critical
Publication of KR102622958B1 publication Critical patent/KR102622958B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하여 캡션을 생성하고, 오브젝트 정보들 사이의 관계를 예측하여 생성된 캡션을 재구조화하는 이미지 캡션 자동 생성 시스템 및 방법에 관한 것이다.
본 발명의 실시 예에 따른 이미지에 대해 이미지를 설명하는 캡션을 자동으로 생성하기 위한 캡션 자동 생성 시스템에 있어서. 상기 캡션을 생성하기 위한 이미지를 제공하는 클라이언트와, 상기 클라이언트로부터 제공받은 이미지를 분석하여 상기 이미지를 설명하는 캡션을 생성하고, 상기 생성한 캡션 및 상기 캡션을 생성한 근거를 상기 클라이언트로 전송하는 캡션 생성기를 포함한다.

Description

이미지 캡션 자동 생성 시스템 및 방법{System and method for automatic generation of image caption}
본 발명은 이미지 캡션 자동 생성 시스템 및 방법에 관한 것으로, 보다 자세하게는 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하여 캡션을 생성하고, 오브젝트 정보들 사이의 관계를 예측하여 생성된 캡션을 재구조화하는 이미지 캡션 자동 생성 시스템 및 방법에 관한 것이다.
이미지 캡셔닝은 제공되는 이미지에 대해 그 이미지를 설명하는 자연어 문장을 생성하는 것으로, 최근에는 인공지능 기술의 발전으로 기계를 이용하여 자동으로 캡션을 생성하는 기술이 개발되고 있다.
이와 같이, 기계를 이용하여 자동으로 캡션을 생성하는 기술은 기존의 존재하는 많은 이미지와 각 이미지에 달린 라벨(이미지를 설명하는 한 단어) 정보를 이용하여 라벨이 같은 이미지를 검색하거나, 유사한 이미지들의 라벨들을 하나의 이미지에 할당하여 이미지에 대한 캡션을 생성하였다.
이미지 캡셔닝은 제공되는 이미지에 대해 그 이미지를 설명하는 캡션을 자연어 문장으로 생성하는 것이다. 최근에는 인공지능 기술의 발전으로 기계를 이용하여 자동으로 캡션을 생성하는 기술이 개발되고 있다.
기계를 이용하여 자동으로 캡션을 생성하는 것은 기존에 존재하는 많은 이미지와 각 이미지에 대한 라벨(이미지를 설명하는 한 단어) 정보를 이용하여 수행될 수 있다. 즉, 라벨이 같은 이미지를 검색하거나, 유사한 이미지들의 라벨들을 하나의 이미지에 할당함으로써 이미지에 대한 캡션을 생성할 수 있게 되는 것이다.
그러나, 이러한 방법의 경우 새로운 이미지에 대해 저장되어 있는 이미지 및 라벨 데이터만을 이용하여 캡션을 생성하므로, 자연어 문장으로 된 캡션을 생성하기 어렵고, 생성하더라고 문장의 질이 떨어지는 문제가 있다.
본 발명은 앞에서 설명한 문제점을 해결하기 위한 것으로, 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하여 캡션을 생성하고, 오브젝트 정보들 사이의 관계를 예측하여 생성된 캡션을 재구조화하는 이미지 캡션 자동 생성 시스템 및 방법을 제공하는 것을 목적으로 한다.
위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
앞에서 설명한 목적을 달성하기 위한 본 발명의 실시 예에 따른 이미지에 대해 이미지를 설명하는 캡션을 자동으로 생성하기 위한 캡션 자동 생성 시스템은 캡션을 생성하기 위한 이미지를 제공하는 클라이언트와, 클라이언트로부터 제공받은 이미지를 분석하여 이미지를 설명하는 캡션을 생성하고, 생성한 캡션 및 캡션을 생성한 근거를 클라이언트로 전송하는 캡션 생성기를 포함할 수 있다.
한편, 앞에서 설명한 목적을 달성하기 위한 본 발명의 실시 예에 따른 이미지에 대해 이미지를 설명하는 캡션을 자동으로 생성하기 위한 캡션 자동 생성 방법은 캡션 생성 모듈에서 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 속성 정보 및 오브젝트 정보를 이용하여 캡션을 생성하는 단계와, 관계 생성 모듈에서 이미지 내 오브젝트들 사이의 관계를 예측하고, 예측된 관계들을 투플(tuple) 형태로 구조화한 투플 집합을 생성하고, 설명 생성 모듈에서 생성한 캡션 및 투플 집합을 이용하여 캡션을 재구조화여 확장된 캡션을 생성하고, 확장된 캡션 및 투플 집합에 대한 그래프를 시각화할 수 있다.
본 발명의 실시 예에 따른 이미지 캡션 자동 생성 시스템 및 방법은 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 반영하여 캡션을 생성하므로 이미지에 대한 캡션 생성의 성능을 향상시킬 수 있다.
이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.
도 1은 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 시스템의 구성을 나타내는 도면이다.
도 2는 본 발명의 실시 예에 따른 캡션 생성기의 구성을 나타내는 도면이다.
도 3은 본 발명의 실시 예에 따른 캡션 생성 모듈의 구성을 나타내는 도면이다.
도 4는 본 발명의 실시 예에 따른 관계 생성 모듈의 구성을 나타내는 도면이다.
도 5는 본 발명의 실시 예에 따른 설명 생성 모듈의 구성을 나타내는 도면이다.
도 6은 본 발명의 실시 예에 따른 이미지에 대한 캡션 생성을 나타내는 도면이다.
도 7은 본 발명의 실시 예에 따른 확장된 캡션 생성을 나타내는 도면이다.
도 8은 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 방법을 나타내는 도면이다.
도 9는 본 발명의 실시 예에 따른 캡션을 생성하는 방법을 나타내는 도면이다.
도 10은 본 발명의 실시 예에 따른 확장된 캡션을 생성하는 방법을 나타내는 도면이다.
본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다.
여기서 사용되는 전문 용어는 단지 특정 실시 예를 언급하기 위한 것이며, 본 발명을 한정하는 것을 의도하지 않는다. 여기서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다. 명세서에서 사용되는 "포함하는"의 의미는 특정 특성, 영역, 정수, 단계, 동작, 요소 및/또는 성분을 구체화하며, 다른 특성, 영역, 정수, 단계, 동작, 요소 및/또는 성분의 존재나 부가를 제외시키는 것은 아니다.
다르게 정의하지는 않았지만, 여기에 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 보통 사용되는 사전에 정의된 용어들은 관련 기술문헌과 현재 개시된 내용에 부합하는 의미를 가지는 것으로 추가 해석되고, 정의되지 않는 한 이상적이거나 매우 공식적인 의미로 해석되지 않는다.
이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
도 1은 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 시스템의 구성을 나타내는 도면이다.
도 1을 참조하면, 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 시스템(1000)은 클라이언트(100), 캡션 생성기(200)를 포함할 수 있다.
클라이언트(100)는 캡션을 생성하기 위한 이미지를 제공할 수 있다. 클라이언트(100)는 스마트폰이나 태플릿 PC와 같은 사용자 디바이스를 통해 캡션 생성기(200)로 이미지를 제공할 수 있다.
또한, 캡션 생성기(200)는 클라이언트(100)로부터 제공받은 이미지를 분석하여 해당 이미지를 설명하는 캡션을 생성하고, 생성한 캡션 및 캡션을 생성한 근거를 클라이언트(100)로 전송할 수 있다.
여기서, 캡션 생성기(200)는 딥 러닝을 통해 이미지를 분석할 수 있다. 구체적으로, 캡션 생성기(200)는 이미지 및 이미지에 대한 정답 캡션을 학습하고 있을 수 있다.
캡션 생성기(200)는 학습된 이미지 및 이미지에 대한 정답 캡션들을 이용하여 새로운 이미지에 대한 캡션을 생성할 수 있다. 캡션 생성기(200)는 학습된 이미지 및 이미지에 대한 정답 캡션들을 이용하여 클라이언트(100)로부터 제공된 이미지에 대해 캡션을 생성할 수 있다. 여기서, 정답 캡션은 사용자가 이미지에 대해 임의로 설정한 5개 이상의 구절을 포함하는 문장일 수 있다. 또한, 캡션 생성기(200)는 제공된 이미지의 오브젝트를 추출하여 오브젝트들간의 관계를 예측하고, 예측된 관계들을 생성된 캡션에 적용하여 줌으로써 더 확장된 캡션을 생성할 수 있다.
캡션 생성기(200)는 확장된 캡션 및 캡션이 생성된 근거를 클라이언트(100)로 전달할 수 있고, 클라이언트(100)는 캡션 생성기(200)에서 전달된 이미지에 대한 캡션 및 캡션이 생성된 근거를 통해 딥 러닝의 대한 결과를 해석할 수 있다. 여기서, 클라이언트(100) 및 캡션 생성기(200)는 유선 또는 무선으로 연결될 수 있다.
도 2는 본 발명의 실시 예에 따른 캡션 생성기의 구성을 나타내는 도면이다.
도 2를 참조하면, 본 발명의 실시 예에 따른 캡션 생성기(200)는 캡션 생성 모듈(210), 관계 생성 모듈(220) 및 설명 생성 모듈(230)을 포함할 수 있다.
캡션 생성 모듈(210)은 이미지 및 이미지에 대한 정답 캡션을 학습하고 있으며, 학습된 이미지 및 이미지에 대한 정답 캡션을 이용하여 제공된 이미지의 캡션을 생성할 수 있다. 캡션 생성 모듈(210)은 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 추출한 속성 정보 및 오브젝트 정보를 이용하여 캡션을 생성할 수 있다. 여기서, 속성 정보는 이미지와 관련된 단어들일 수 있고, 오브젝트 정보는 제공받은 이미지의 핵심 대상일 수 있다. 일 예로, 소파 앞의 개를 포함하고 있는 이미지의 경우, 속성 정보는 '개', '소퍄'일 수 있고, 오브젝트 정보는 이미지 내의 '개', '소파'일 수 있다.
관계 생성 모듈(220)은 이미지 내 오브젝트들 사이의 관계를 예측하고, 예측된 관계들을 투플(tuple) 형태로 구조화한 투플 집합을 생성할 수 있다. 여기서, 투플 형태는 원소들을 열거한 것으로, 원소들을 괄호 '( )'안에 쉼표 ','로 구분하여 나열하는 것일 수 있다. 일 예로, 소파 앞의 개를 포함하고 있는 이미지가 제공된 경우, 관계 생성 모듈(220)은 오브젝트인 개와 소파 사이의 관계를 예측할 수 있다. 즉, 관계 생성 모듈(220)은 개가 소파 앞의 있음을 예측할 수 있고, 예측된 관계를 (소파, 앞의, 개)로 구조화할 수 있다. 이때. '(소파, 앞의, 개)'는 투플 집합일 수 있다.
설명 생성 모듈(230)은 캡션 생성 모듈(210)에서 생성한 캡션 및 관계 생성 모듈(220)에서 생성한 투플 집합을 이용하여 캡션을 재구조화여 확장된 캡션을 생성할 수 있다. 즉, 설명 생성 모듈(230)은 캡션 생성 모듈(210)에서 생성한 캡션에 관계 생성 모듈(220)에서 예측한 오브젝트들 사이의 관계를 반영하여 더 확장된 캡션을 생성할 수 있다. 또한, 설명 생성 모듈(230)은 확장된 캡션 및 캡션이 생성된 근거인 투플 집합에 대한 그래프를 시각화하여 클라이언트(100)로 전송할 수 있다.
도 3은 본 발명의 실시 예에 따른 캡션 생성 모듈의 구성을 나타내는 도면이다.
도 3을 참조하면, 본 발명의 실시 예에 따른 캡션 생성 모듈(210)은 속성 추출 모델(212), 오브젝트 인식 모델(214) 및 이미지 캡션 모델(216)을 포함할 수 있다.
속성 추출 모델(212)은 제공받은 이미지의 속성 정보를 추출하고, 속성 정보를 투플 형태로 변환할 수 있다. 여기서, 속성 추출 모델(212)은 이미지 및 이미지에 대한 캡션이 학습되어 있을 수 있다. 즉, 속성 추출 모델(212)에는 많은 이미지와 각 이미지와 관련된 단어들이 하나의 벡터 공간에 맵핑되어 저장되어 있을 수 있다. 이에 따라, 속성 추출 모델(212)은 저장된 정보들을 이용하여 새로운 이미지와 관련된 단어들을 출력하고, 출력한 단어들을 학습에 이용할 수 있다.
또한, 속성 추출 모델(212)은 각 이미지에 대한 캡션들로부터 캡션 내 동사(또는 동명사 및 분사) 형태의 단어들과 3번 이상 동일하게 존재하는 명사 형태의 단어들을 이용하여 각 이미지에 대한 캡션들로부터 단어들을 추출할 수 있다. 속성 추출 모델(212)은 해당 이미지 및 추출된 단어들을 딥 러닝 모델을 이용하여 하나의 벡터 공간에 임베딩 되도록 학습할 수 있다.
이에 따라, 속성 추출 모델(212)은 학습되어 있는 이미지 및 이미지에 대한 캡션 데이터를 이용하여 제공받은 이미지와 가장 관련된 단어들을 추출할 수 있다.
오브젝트 인식 모델(214)은 이미지 내 중요 오브젝트를 추출하고, 추출된 오브젝트를 포함하는 오브젝트 영역을 투플 형태로 변환할 수 있다. 오브젝트 인식 모델(214)은 Mask R-CNN 알고리즘 등과 같은 딥 러닝 기반 오브젝트 인식 모델을 활용하여 제공된 이미지 내의 미리 정의된 오브젝트 영역에 해당하는 영역들을 제공된 이미지의 오브젝트 영역으로써, 추출할 수 있다.
이미지 캡션 모델(216)은 속성 추출 모델(212)에서 추출된 각 단어들 및 오브젝트 인식 모델(214)에서 추출된 오브젝트 영역들을 이용하여 제공된 이미지의 캡션을 생성할 수 있다.
이미지 캡션 모델(216)은 딥 러닝 알고리즘으로 수행되며, RNN(Recurrent neural network)을 기반으로 수행될 수 있다. 이에 따라, 이미지 캡션 모델(216)은 이미지 내 오브젝트들 사이의 관계를 시계열적으로 예측할 수 있다.
본 발명의 실시 예에 따른 이미지 캡션 모델(216)은 속성 주의 모델(216a), 오브젝트 주의 모델(216b), 문법 학습 모델(216c) 및 언어 생성 모델(216d)을 포함할 수 있다.
속성 주의 모델(216a)은 속성 추출 모델(212)에서 추출된 단어들에 대해 단어 주의도(attention score)를 부여할 수 있다. 속성 주의 모델(216a)은 현재 시간에 언어 생성 모델(216d)에서 생성한 단어 태그와 관련성이 높은 단어 순서로 단어 주의도를 부여할 수 있다. 여기서, 단어 주의도는 0 내지 1 사이의 값이며, 단어 태그와 관련성이 높을수록 1에 인접할 수 있다.
오브젝트 주의 모델(216b)은 오브젝트 인식 모델(214)에서 추출한 오브젝트의 영역들에 대해 영역 주의도를 부여할 수 있다. 오브젝트 주의 모델(216b)은 현재 시간에 언어 생성 모델(216d)에서 생성한 단어 태그와 관련성이 높은 단어 순서로 영역 주의도를 부여할 수 있다. 여기서, 영역 주의도는 0 내지 1 사이의 값이며, 단어 태그와 관련성이 높을수록 1에 인접할 수 있다.
문법 학습 모델(216c)은 이미지 및 이미지의 캡션에 대한 문장의 문법을 학습할 수 있다. 문법 학습 모델(216c)은 이미지의 정답 캡션 문장에 대해 EasySRL과 같은 문법 태깅 도구를 이용하여 문장 내 각 단어들에 대해 태깅하고, 이미지의 정답 캡션 문장의 문법을 학습할 수 있다. 문법 학습 모델(216c)이 캡션 문장의 문법을 학습함으로써, 제공된 이미지에 대해 캡션을 생성할 때 문법적인 측면이 고려될 수 있도록 할 수 있다.
언어 생성 모델(216d)은 속성 추출 모델(216a)에서 추출된 단어들, 오브젝트 인식 모델(216b)에서 추출된 오브젝트 영역들, 속성 주의 모델(216c)에서 생성된 단어 주의도 및 오브젝트 주의 모델(216d)에서 생성된 영역 주의도를 기초로 시간 단계마다 캡션을 위한 단어 태그 및 문법 태그를 생성할 수 있다.
언어 생성 모델(216d)은 단어 주의도 값, 영역 주의도 값, 속성 추출 모젤(212)에서 투플 형태로 변환한 단어들의 평균 벡터, 오브젝트 인식 모델(214)에서 투플 형태로 변환한 오브젝트 영역들의 평균 벡터, 언어 생성 모델(216d)에서 이전 시간에 생성한 단어 및 언어 생성 모델(216d)이 생성한 모든 단어들에 대한 압축된 정보를 모두 고려하여 현재 시간에서 단어 태그 및 문법 태그를 예측할 수 있다. 언어 생성 모델(216d)은 예측한 단어 태그 및 문법 태그에 대해서 정답 캡션 문장과 비교하여 생성된 단어 태그 및 문법 태그에 대한 손실값을 각각 계산할 수 있다. 언어 생성 모델(216d)은 단어 태그 및 문법 태그에 대한 손실값들을 반영하여 캡션 생성 모듈(210)의 학습 파라미터들을 업데이트할 수 있다.
이에 따라, 언어 생성 모델(216d)은 단어 태그 및 문법 태그를 이용하여 제공된 이미지에 대해 문법이 고려된 캡션 문장을 생성할 수 있다.
도 4는 본 발명의 실시 예에 따른 관계 생성 모듈의 구성을 나타내는 도면이다.
도 4를 참조하면, 본 발명의 실시 예에 따른 관계 생성 모듈(220)은 오브젝트 추출 모델(222), 관계 예측 모델(224) 및 관계 그래프 생성 모델(226)을 포함할 수 있다.
오브젝트 인식 모델(222)은 제공된 이미지 내 중요한 오브젝트 영역들을 추출할 수 있다. 오브젝트 인식 모델(222)은 제공된 이미지 내 중요한 오브젝트들을 추출하고, 추출한 오브젝트들을 포함하는 오브젝트 영역들을 추출할 수 있다.
관계 예측 모델(224)은 추출된 오브젝트 영역들간의 관계를 예측하고, 예측한 오브젝트 영역들간의 관계를 투플 형태로 구조화할 수 있다. 여기서, 관계 예측 모델(224)은 예측한 오브젝트 영역들간의 관계를 (제1명사, 서술어, 제2명사)의 형태로 구조화할 수 있다.
관계 그래프 생성 모델(226)은 생성된 투플 집합에 대해 하나의 그래프를 생성할 수 있다. 관계 그래프 생성 모델(226)은 투플 집합들에 대해 제1명사로부터 서술어로 화살표를 표시하고, 서술어로부터 제2명사로 화살표를 표시하는 등의 그래프를 생성할 수 있다.
도 5는 본 발명의 실시 예에 따른 설명 생성 모듈의 구성을 나타내는 도면이다.
도 5를 참조하면, 본 발명의 실시 예에 따른 설명 생성 모듈(230)은 문장 재구조화 모델(232) 및 시각화 모델(234)을 포함할 수 있다.
문장 재구조화 모델(232)은 캡션 생성 모듈(210)에서 생성된 캡션 및 관계 생성 모듈(220)에서 생성된 투플 집합을 이용하여 알고리즘에 따라 일부 단어를 투플에 대한 구절로 대치시키고, 생성된 캡션을 확장시킬 수 있다. 즉, 문장 재구조화 모델(232)은 캡션 생성 모듈(210)에서 생성한 캡션에 관계 생성 모듈(220)에서 생성된 투플 집합을 반영하여 캡션을 더 확장시킬 수 있다.
문장 재구조화 모델(232)은 관계 생성 모듈(220)에서 생성된 투플 집합들 중에서 캡션 생성 모듈(210)에서 생성된 캡션에 포함되는 투플 집합들을 제거할 수 있다. 여기서, 투플 집합을 제거하는 것은 투플 집합 내 제1명사, 제2명사, 서술어가 캡션 생성 모듈(210)에서 생성된 캡션에 모두 포함되면 중복 투플 집합으로 판단하여 이 중복 투플 집합을 삭제할 수 있다.
문장 재구조화 모델(232)은 중복 투플 집합을 제거하고 남은 투플 집합들을 문장 형식으로 변환할 수 있다. 여기서, 문장 재구조화 모델(232)은 투플 집합의 서술어가 전치사인 경우 제1명사 - 전치사 - 제2명사의 순으로 나열함으로써 문장 형식으로 변환할 수 있다. 반면, 문장 재구조화 모델(232)은 투플 집합의 서술어가 동사인 경우 제2명사 - 동사 - 제1명사의 순으로 나열함으로써 문장 형식으로 변환할 수 있다.
일 예로, 투플 집합이 (소파, 앞의, 개)인 경우 투플 집합의 서술어가 전치사이므로, 문장 재구조화 모델(232)은 상기 투플 집합을 '소파 앞의 개'로 변환할 수 있다. 다른 예로, 투플 집합이 (사람, 눕다. 침대)인 경우 투플 집합의 서술어가 동사이므로, 문장 재구조화 모델(232)은 상기 투플 집합을 '침대에 누워있는 사람'으로 변환할 수 있다.
문장 재구조화 모델(232)은 투플 집합을 문장 형식으로 변환하고, 변환된 문장을 캡션에 반영할 수 있다. 이후, 변환된 문장이 반영된 캡션(확장된 캡션)을 정답 캡션과 비교하여 스코어를 계산하고, 가장 큰 스코어를 갖는 구절을 선택할 수 있다. 문장 재구조화 모델(232)은 투플 집합을 문장 형식으로 변환 - 캡션에 적용 - 가장 큰 스코어를 갖는 구절 선택하는 방식을 통해 더 이상 남은 투플 집합이 없을때까지 반복할 수 있다. 이후, 문장 재구조화 모델(232)은 마지막에 선택된 구절을 최종 확장된 캡션으로서 선택할 수 있다.
시각화 모델(234)은 문장 재구조화 모델(232)에서 확장시킨 캡션을 투플 집합과 매칭하여 시각화할 수 있다. 시각화 모델(234)은 문장 재구조화 모델(232)에서 확장된 캡션을 투플 집합과 매칭하여 투플 집합의 관계를 나타내는 그래프를 생성할 수 있다. 또한, 시각화 모델(234)은 생성한 투플 집합의 관계를 나타내는 그래프를 클라이언트(100)로 전송하여 사용자가 확장된 캡션이 생성된 근거를 확인할 수 있도록 할 수 있다.
시각화 모델(234)은 캡션에 반영된 투플 집합에 해당하는 오브젝트 영역을 제공된 이미지 위에 표시할 수 있다. 이때, 시각화 모델(234)은 각각의 오브젝트 영역을 서로 다른 색 또는 서로 다른 선(선 종류나 두께 등)을 통해 표시할 수 있다. 또한, 시각화 모델(234)은 최종 캡션에서 오브젝트 영역과 대응되는 구절을 오브젝트 영역과 동일한 색으로 표시할 수 있다. 일 예로, 최종 캡션 문장이 '바닥에 누워있는 소파 앞의 개와 노트북 주변의 고양이'인 경우 시각화 모델(234)은 제공된 이미지 내의 소파 및 개를 하나의 오브젝트 영역으로써 빨간색 선을 이용하여 표시할 수 있다. 또한, 시각화 모델(234)은 최종 캡션 문장에서 '소파 앞의 개'를 빨간색 글씨로 표시할 수 있다. 이와 같이, 대응되는 구절 및 오브젝트 영역을 동일한 색으로 표시함으로써, 사용자가 이를 한눈에 알아 볼 수 있도록 할 수 있다.
도 6은 본 발명의 실시 예에 따른 이미지에 대한 캡션 생성을 나타내는 도면이다.
도 6을 참조하면, 클라이언트(100)로부터 이미지(10)가 제공되면 속성 추출 모델(212)은 제공된 이미지(10) 내 속성 정보(1)를 추출할 수 있다. 속성 추출 모델(212)은 학습된 이미지 및 이미지의 정답 캡션을 기초로 제공된 이미지(10) 내 속성 정보(1)를 추출할 수 있다. 일 예로, 속성 추출 모델(212)은 개, 고양이, 바닥 등을 속성 정보(1)로 추출할 수 있다.
또한, 오브젝트 인식 모델(214)은 속성 추출 모델(212)이 속성 정보(1)를 추출하는 것과 동시에 제공된 이미지(10) 내 오브젝트 정보 및 오브젝트를 포함하는 오브젝트 영역(2)을 추출할 수 있다. 오브젝트 인식 모델(214)은 학습된 이미지 및 이미지의 정답 캡션을 기초로 제공된 이미지(10) 내 오브젝트 영역(2)을 추출할 수 있다. 일 예로, 오브젝트 인식 모델(214)은 개, 고양이, 바닥 등을 오브젝트 정보로 추출할 수 있고, 오브젝트 정보를 포함하는 오브젝트 영역(2)을 추출할 수 있다.
또한, 이미지 캡션 모델(216)은 속성 추출 모델(212)에서 추출한 속성 정보 및 오브젝트 인식 모델(214)에서 추출한 오브젝트 정보를 이용하여 제공된 이미지(10)에 대한 캡션(3)을 생성할 수 있다. 일 예로, 이미지 캡션 모델(216)은 '바닥 위에 누워 있는 개와 고양이에 대한 거실 사진'이라는 캡션(3)을 생성할 수 있다.
도 7은 본 발명의 실시 예에 따른 확장된 캡션 생성을 나타내는 도면이다.
도 7을 참조하면, 오브젝트 추출 모델(222)은 제공된 이미지(10) 내 오브젝트 정보 및 오브젝트를 포함하는 오브젝트 영역(2)을 추출할 수 있다. 오브젝트 추출 모델(222)은 학습된 이미지 및 이미지의 정답 캡션을 기초로 제공된 이미지(10) 내 오브젝트 정보를 추출할 수 있다. 일 예로, 오브젝트 추출 모델(222)은 개, 고양이, 소파, 노트북, 문 등을 오브젝트 정보로 추출할 수 있고, 오브젝트 정보를 포함하는 오브젝트 영역(2)을 추출할 수 있다. 이때, 오브젝트 추출 모델(222)은 추출한 오브젝트들을 두 개 이상 포함하도록 오브젝트 영역(2)을 추출할 수 있다. 이를 통해, 관계 예측 모델(224)은 오브젝트 영역(2) 내의 오브젝트들의 관계를 예측할 수 있다.
관계 예측 모델(224)은 오브젝트 추출 모델(222)에서 추출한 오브젝트들 간의 관계를 예측할 수 있고, 오브젝트들 간의 관계를 투플 집합(4)으로 생성할 수 있다. 일 예로, 관계 예측 모델(224)은 오브젝트로 추출된 '소파'와 '개' 사이의 관계는 소파 앞의 개가 있는 것으로 예측할 수 있으며, 이에 따라 (소파, 앞의, 개)로 투플 집합(4)을 생성할 수 있다. 다른 예로, 관계 예측 모델(224)은 오브젝트로 추출된 '고양이'와 '문' 사이의 관계는 고양이가 문 옆에 있는 것으로 예측할 수 있으며, 이에 따라 (문, 옆의, 고양이)로 투플 집합(4)을 생성할 수 있다.
문장 재구조화 모델(232)은 관계 예측 모델(224)에서 생성한 투플 집합(4)을 이용하여 알고리즘에 따라 일부 단어를 투플 집합에 대한 구절로 대치시키고, 생성된 캡션(3)을 확장시킬 수 있다. 즉, 문장 재구조화 모델(232)은 캡션 생성 모듈(210)에서 생성한 캡션(3)에 관계 생성 모듈(220)에서 생성된 투플 집합(4)을 반영하여 캡션을 더 확장시킬 수 있다. 일 예로, 문장 재구조화 모델(232)은 '바닥에 누워있는 소파 앞의 개와 문 옆의 노트북 주변의 고양이에 대한 거실 사진'으로 캡션을 확장시킬 수 있다.
관계 그래프 생성 모델(226)은 관계 예측 모델(224)에서 생성된 투플 집합(4)에 대해 관계 그래프를 생성할 수 있다. 여기서, 관계 그래프 생성 모델(226)은 투플 집합(4)의 서술어를 네모 박스로 표현하고, 투플 집합의 명사들을 원형 박스로 표현할 수 있다. 관계 그래프 생성 모델(226)은 제1명사 - 서술어 - 제2명사의 순서로 각 박스들을 연결할 수 있다.
시각화 모델(234)은 이미지 위에 확장된 캡션의 구절들을 오브젝트 영역으로써 표시할 수 있고, 이때, 각 오브젝트 영역들은 다른 색으로 표시될 수 있다. 또한, 시각화 모델(234)은 각 오브젝트 영역들과 대응되는 확장된 캡션의 구절들을, 해당하는 오브젝트 영역과 동일한 색으로 표시함으로써 시각화할 수 있다.
도 8은 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 방법을 나타내는 도면이다.
도 8을 참조하면, 캡션 생성 모듈(210)은 제공된 이미지의 속성 정보 및 오브젝트 정보를 추출하고, 추출한 이미지의 속성 정보 및 오브젝트 정보를 반영하여 캡션을 생성할 수 있다(S100).
캡션 생성 모듈(210)은 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 추출한 속성 정보 및 오브젝트 정보를 이용하여 캡션을 생성할 수 있다. 여기서, 속성 정보는 이미지와 관련된 단어들일 수 있고, 오브젝트 정보는 제공받은 이미지의 핵심 대상일 수 있다. 여기서, 캡션 생성 모듈(210)은 딥 러닝을 통해 학습된 이미지 및 각 이미지에 대한 캡션들을 기초로 제공된 이미지의 캡션을 생성할 수 있다.
관계 생성 모듈(220)은 이미지 내 오브젝트들 사이의 관계를 예측하고, 예측된 관계들에 대한 투플 집합을 생성할 수 있다(S200). 관계 생성 모듈(220)은 이미지 내 오브젝트들 사이의 관계를 (제1명사, 서술어, 제2명사)로 구성되는 투플 집합으로 나타낼 수 있다.
설명 생성 모듈(230)은 캡션 생성 모듈(210)에서 생성한 캡션과 관계 생성 모듈(220)에서 생성한 투플 집합을 이용하여 확장된 캡션을 생성할 수 있다(S300). 설명 생성 모듈(230)은 투플 집합을 문장으로 변환하고, 이를 캡션에 반영함으로써, 캡션을 확장시킬 수 있다.
설명 생성 모듈(230)은 확장된 캡션 및 오브젝트들 사이의 관계를 그래프로 나타내어 시각화할 수 있다(S400). 설명 생성 모듈(230)은 확장된 캡션 및 오브젝트들 사이의 관계를 매칭하여 그래프를 생성할 수 있다. 설명 생성 모듈(230)은 생성한 그래프를 클라이언트(100)로 전송하여 사용자가 확장된 캡션이 생성된 근거를 확인할 수 있도록 할 수 있다.
도 9은 본 발명의 실시 예에 따른 캡션을 생성하는 방법을 나타내는 도면이다.
도 9를 참조하면, 속성 추출 모델(212)은 이미지의 속성 정보를 추출할 수 있다(S110). 여기서, 속성 추출 모델(212)은 이미지 및 이미지에 대한 캡션이 학습되어 있을 수 있다. 이에 따라, 속성 추출 모델(212)은 학습된 정보들을 이용하여 새로운 이미지와 관련된 속성 정보를 출력할 수 있다.
오브젝트 인식 모델(214)은 이미지 내 중요 오브젝트를 추출하고, 추출된 오브젝트를 포함하는 오브젝트 영역을 투플 형태로 변환할 수 있다(S120). 오브젝트 인식 모델(214)은 Mask R-CNN 알고리즘 등과 같은 딥 러닝 기반 오브젝트 인식 모델을 활용하여 제공된 이미지 내의 미리 정의된 오브젝트 영역에 해당하는 영역들을 제공된 이미지의 오브젝트 영역으로써, 추출할 수 있다.
이미지 캡션 모델(216)은 제공된 이미지에서 추출한 속성 정보 및 오브젝트 영역에 대해 단어 주의도 및 영역 주의도를 부여할 수 있다(S130). 이미지 캡션 모델(216)은 현재 시간에 생성한 단어 태그와 관련성이 높은 단어 순서로 단어 주의도를 부여할 수 있다. 여기서, 단어 주의도 및 영역 주의도는 0 내지 1 사이의 값이며, 단어 태그와 관련성이 높을수록 1에 인접할 수 있다.
이미지 캡션 모델(216)은 속성 추출 모델(212)에서 추출된 속성 정보, 오브젝트 인식 모델(214)에서 추출된 오브젝트 영역, 단어 주의도 및 영역 주의도를 기초로 시간 단계마다 캡션을 위한 단어 태그 및 문법 태그를 예측할 수 있다(S140). 이미지 캡션 모델(216)은 예측한 단어 태그 및 문법 태그에 대해서 정답 캡션 문장과 비교하여 생성된 단어 태그 및 문법 태그에 대한 손실값을 각각 계산할 수 있다.
이미지 캡션 모델(216)은 단어 태그 및 문법 태그에 대한 손실값들을 반영하여 캡션을 생성할 수 있다(S150). 이에 따라, 이미지 캡션 모델(216)은 단어 태그 및 문법 태그를 이용하여 제공된 이미지에 대해 문법이 고려된 캡션 문장을 생성할 수 있고, 이를 학습할 수 있다.
도 10은 본 발명의 실시 예에 따른 확장된 캡션을 생성하는 방법을 나타내는 도면이다.
도 10을 참조하면, 설명 생성 모듈(210)은 관계 생성 모듈(220)에서 생성된 투플 집합들 중에서 캡션 생성 모듈(210)에서 생성된 캡션에 포함되는 투플 집합들을 제거할 수 있다(S310). 여기서, 투플 집합을 제거하는 것은 투플 집합 내 제1명사, 제2명사, 서술어가 캡션 생성 모듈(210)에서 생성된 캡션에 모두 포함되면 중복 투플 집합으로 판단하여 이 중복 투플 집합을 삭제할 수 있다.
설명 생성 모듈(210)은 중복 투플 집합을 제거하고 남은 투플 집합들을 문장 형식으로 변환할 수 있다(S320). 여기서, 설명 생성 모듈(210)은 투플 집합의 서술어가 전치사인 경우 제1명사 - 전치사 - 제2명사의 순으로 나열함으로써 문장 형식으로 변환할 수 있다. 반면, 설명 생성 모듈(210)은 투플 집합의 서술어가 동사인 경우 제2명사 - 동사 - 제1명사의 순으로 나열함으로써 문장 형식으로 변환할 수 있다.
설명 생성 모듈(210)은 투플 집합들이 변환된 문장을 캡션에 반영할 수 있다(S330). 이후, 변환된 문장이 반영된 캡션(확장된 캡션)을 정답 캡션과 비교하여 스코어를 계산하고, 가장 큰 스코어를 갖는 구절을 선택할 수 있다. 문장 재구조화 모델(232)은 투플 집합을 문장 형식으로 변환 - 캡션에 적용 - 가장 큰 스코어를 갖는 구절 선택하는 방식을 통해 더 이상 남은 투플 집합이 없을때까지 반복할 수 있다. 이후, 설명 생성 모듈(210)은 마지막에 선택된 구절을 최종 확장된 캡션으로서 선택할 수 있다.
설명 생성 모듈(210)은 문장 재구조화 모델(232)에서 확장시킨 캡션을 투플 집합과 매칭하여 시각화할 수 있다(S340). 설명 생성 모듈(210)은 확장된 캡션을 투플 집합과 매칭하여 투플 집합의 관계를 나타내는 그래프를 생성할 수 있다. 또한, 시각화 모델(234)은 생성한 투플 집합의 관계를 나타내는 그래프를 클라이언트(100)로 전송하여 사용자가 확장된 캡션이 생성된 근거를 확인할 수 있도록 할 수 있다.
전술한 바와 같이, 본 발명의 실시 예에 따르면 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하여 캡션을 생성하고, 오브젝트 정보들 사이의 관계를 예측하여 생성된 캡션을 재구조화하는 이미지 캡션 자동 생성 시스템 및 방법을 제공할 수 있다.
본 발명이 속하는 기술 분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있으므로, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 클라이언트 200: 캡션 생성기
210: 캡션 생성 모듈 220: 관계 생성 모듈
230: 설명 생성 모듈 212: 속성 추출 모델
214: 오브젝트 인식 모델 216: 이미지 캡션 모델
216a: 속성 주의 모델 216b: 오브젝트 주의 모델
216c: 문법 학습 모델 216d: 언어 생성 모델
222: 오브젝트 추출 모델 224: 관계 예측 모델
226: 관계 그래프 생성 모델 232: 문장 재구조화 모델
234: 시각화 모델 226: 관계 그래프 생성 모델

Claims (13)

  1. 이미지에 대해 이미지를 설명하는 캡션을 자동으로 생성하기 위한 캡션 자동 생성 시스템에 있어서.
    상기 캡션을 생성하기 위한 이미지를 제공하는 클라이언트; 및
    상기 클라이언트로부터 제공받은 이미지를 분석하여 상기 이미지를 설명하는 캡션을 생성하고, 상기 생성한 캡션 및 상기 캡션을 생성한 근거를 상기 클라이언트로 전송하는 캡션 생성기;를 포함하되,
    상기 캡션 생성기는,
    딥 러닝을 이용하여 상기 제공받은 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 상기 속성 정보 및 상기 오브젝트 정보를 이용하여 상기 캡션을 생성하는 캡션 생성 모듈;
    상기 이미지 내 오브젝트들 사이의 관계를 예측하고, 상기 예측된 관계들을 투플(tuple) 형태로 구조화한 투플 집합을 생성하는 관계 생성 모듈; 및
    상기 캡션 생성 모듈에서 생성한 캡션 및 상기 관계 생성 모듈에서 생성한 상기 투플 집합을 이용하여 상기 캡션을 재구조화여 확장된 캡션을 생성하고, 상기 확장된 캡션 및 상기 투플 집합에 대한 그래프를 시각화하는 설명 생성 모듈;을 포함하고,
    상기 캡션 생성 모듈은,
    상기 제공받은 이미지와 가장 관련된 단어들을 추출하고, 각 단어들을 투플 형태로 변환하는 속성 추출 모델;
    상기 이미지 내 중요 오브젝트들을 추출하고, 상기 추출된 오브젝트들을 포함하는 오브젝트 영역을 투플 형태로 변환하는 오브젝트 인식 모델;
    상기 속성 추출 모델에서 추출한 단어들 및 상기 오브젝트 인식 모델에서 추출한 오브젝트 영역을 이용하여 상기 이미지의 캡션을 생성하는 이미지 캡션 모델;을 포함하며,
    상기 이미지 캡션 모델은,
    상기 속성 추출 모델에서 추출한 단어들에 대해 단어 주의도(attention score)를 부여하는 속성 주의 모델;
    상기 오브젝트 인식 모델에서 추출한 오브젝트의 영역들에 대해 영역 주의도를 부여하는 오브젝트 주의 모델;
    상기 이미지 및 상기 이미지의 캡션에 대한 문장의 문법을 학습하는 문법 학습 모델; 및
    상기 속성 추출 모델에서 추출된 단어들, 상기 오브젝트 인식 모델에서 추출된 오브젝트 영역들, 상기 단어 주의도 및 상기 영역 주의도를 기초로 시간 단계마다 캡션을 위한 단어 태그 및 문법 태그를 생성하는 언어 생성 모델;을 포함하고,
    상기 언어 생성 모델은, 상기 단어 주의도, 상기 영역 주의도, 상기 속성 추출 모델에서 투플 형태로 변환한 단어들의 평균 벡터, 상기 오브젝트 인식 모델에서 투플 형태로 변환한 오브젝트 영역들의 평균 벡터, 상기 언어 생성 모델에서 이전 시간에 생성한 단어 및 상기 언어 생성 모델이 생성한 모든 단어들에 대한 압축된 정보를 모두 고려하여 현재 시간에서 단어 태그 및 문법 태그를 예측하는 이미지 캡션 자동 생성 시스템.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 이미지 캡션 모델은 딥 러닝 알고리즘으로 수행되며, RNN(Recurrent neural network)을 기반으로 수행되며, 상기 이미지 내 오브젝트들 사이의 관계를 시계열적으로 예측하는 이미지 캡션 자동 생성 시스템.
  5. 삭제
  6. 제1항에 있어서,
    상기 속성 주의 모델은 상기 언어 생성 모델에서 생성한 단어 태그와의 관련성에 대한 단어 순서로 상기 단어 주의도를 부여하고,
    상기 오브젝트 주의 모델은 상기 언어 생성 모델에서 생성한 단어 태그와의 관련성에 대한 단어 순서로 상기 영역 주의도를 부여하고,
    상기 단어 주의도 및 상기 영역 주의도는 0 내지 1 사이의 값이며, 상기 단어 태그와 관련성이 높을수록 1에 인접한 이미지 캡션 자동 생성 시스템.
  7. 제1항에 있어서,
    상기 관계 생성 모듈은,
    상기 제공된 이미지 내 중요한 오브젝트 영역들을 추출하는 오브젝트 인식 모델; 및
    상기 추출된 영역들간의 관계를 예측하고, 상기 예측한 영역들간의 관계를 투플 형태로 구조화하여 투플 집합을 생성하는 관계 예측 모델; 및
    상기 생성된 투플 집합에 대해 하나의 그래프를 생성하는 관계 그래프 생성 모델;을 포함하는 이미지 캡션 자동 생성 시스템.
  8. 제7항에 있어서,
    상기 설명 생성 모듈은,
    상기 캡션 생성 모듈에서 생성된 캡션 및 관계 생성 모듈에서 생성된 투플 집합을 이용하여 알고리즘에 따라 일부 단어를 투플에 대한 구절로 대치시키고, 상기 생성된 캡션을 확장시키는 문장 재구조화 모델; 및
    상기 문장 재구조화 모델에서 확장시킨 캡션을 상기 투플 집합과 매칭하여 시각화하는 시각화 모델;을 포함하는 이미지 캡션 자동 생성 시스템.
  9. 이미지에 대해 이미지를 설명하는 캡션을 자동으로 생성하기 위한 캡션 자동 생성 방법에 있어서,
    캡션 생성 모듈에서 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 상기 속성 정보 및 상기 오브젝트 정보를 이용하여 상기 캡션을 생성하는 단계;
    관계 생성 모듈에서 상기 이미지 내 오브젝트들 사이의 관계를 예측하고, 상기 예측된 관계들을 투플(tuple) 형태로 구조화한 투플 집합을 생성하는 단계; 및
    설명 생성 모듈에서 상기 생성한 캡션 및 상기 투플 집합을 이용하여 상기 캡션을 재구조화여 확장된 캡션을 생성하고, 상기 확장된 캡션 및 상기 투플 집합에 대한 그래프를 시각화하는 단계;를 포함하되,
    상기 캡션을 생성하는 단계는,
    상기 캡션 생성 모듈에서 상기 이미지와 가장 관련된 단어들을 추출하고, 각 단어들을 투플 형태로 변환하는 단계;
    오브젝트 인식 모델에서 상기 이미지 내 중요 오브젝트들을 추출하고, 상기 추출된 오브젝트들을 포함하는 오브젝트 영역을 투플 형태로 변환하는 단계; 및
    이미지 캡션 모델에서 상기 추출한 단어들 및 상기 추출한 오브젝트 영역을 이용하여 상기 이미지의 캡션을 생성하는 단계;를 포함하고,
    상기 이미지의 캡션을 생성하는 단계는,
    상기 이미지 캡션 모델에서 추출한 단어들에 대해 단어 주의도(attention score)를 부여하는 단계;
    상기 이미지 캡션 모델에서 추출한 오브젝트 영역들에 대해 영역 주의도를 부여하는 단계;
    상기 속성 정보, 상기 오브젝트 영역들, 상기 단어 주의도 및 상기 영역 주의도를 기초로 시간 단계마다 캡션을 위한 단어 태그 및 문법 태그를 예측하는 단계; 및
    단어 태그 및 문법 태그에 대한 손실값들을 반영하여 캡션을 생성하는 단계;를 포함하는 이미지 캡션 자동 생성 방법.
  10. 삭제
  11. 삭제
  12. 제9항에 있어서, 상기 투플 집합을 생성하는 단계는,
    오브젝트 인식 모델에서 상기 이미지 내 중요한 오브젝트 영역들을 추출하는 단계;
    관계 예측 모델에서 상기 추출된 영역들간의 관계를 예측하고, 상기 예측한 영역들간의 관계를 투플 형태로 구조화하여 투플 집합을 생성하는 단계; 및
    관계 그래프 생성 모델에서 상기 생성된 투플 집합에 대해 하나의 그래프를 생성하는 단계;를 더 포함하는 이미지 캡션 자동 생성 방법.
  13. 제9항에 있어서, 상기 투플 집합에 대한 그래프를 시각화하는 단계는,
    문장 재구조화 모델에서 상기 생성된 캡션 및 관계 생성 모듈에서 생성된 투플 집합을 이용하여 알고리즘에 따라 일부 단어를 투플에 대한 구절로 대치시키고, 상기 생성된 캡션을 확장시키는 단계; 및
    시각화 모델에서 상기 확장시킨 캡션을 상기 투플 집합과 매칭하여 시각화하는 단계;를 더 포함하는 이미지 캡션 자동 생성 방법.

KR1020190023268A 2019-02-27 2019-02-27 이미지 캡션 자동 생성 시스템 및 방법 KR102622958B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190023268A KR102622958B1 (ko) 2019-02-27 2019-02-27 이미지 캡션 자동 생성 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190023268A KR102622958B1 (ko) 2019-02-27 2019-02-27 이미지 캡션 자동 생성 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20200104663A KR20200104663A (ko) 2020-09-04
KR102622958B1 true KR102622958B1 (ko) 2024-01-10

Family

ID=72470993

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190023268A KR102622958B1 (ko) 2019-02-27 2019-02-27 이미지 캡션 자동 생성 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102622958B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102470959B1 (ko) 2019-12-31 2022-11-28 연세대학교 산학협력단 건설현장사진 촬영의도 자동인식 및 포토메시징 기술기반의 건설현장 관리시스템 및 관리방법
CN112116685A (zh) * 2020-09-16 2020-12-22 中国石油大学(华东) 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法
WO2022114322A1 (ko) * 2020-11-30 2022-06-02 한국과학기술원 딥 러닝 알고리즘 기반의 이미지 오브젝트 속성 주의 모델을 이용한 이미지 캡션 자동 생성 시스템 및 방법
KR102551960B1 (ko) * 2021-07-30 2023-07-06 한국전자기술연구원 객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템
KR102731839B1 (ko) * 2021-11-19 2024-11-19 한국전자기술연구원 핵심영역 선택 기반 시각장면 분석 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170098153A1 (en) 2015-10-02 2017-04-06 Baidu Usa Llc Intelligent image captioning
US20170200065A1 (en) 2016-01-13 2017-07-13 Adobe Systems Incorporated Image Captioning with Weak Supervision

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170098153A1 (en) 2015-10-02 2017-04-06 Baidu Usa Llc Intelligent image captioning
US20170200065A1 (en) 2016-01-13 2017-07-13 Adobe Systems Incorporated Image Captioning with Weak Supervision

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Quanzeng You at al., ‘Image Captioning with Semantic Attention’, 2016.03.12.*
Xu Yang at al., ‘Auto-Encoding Scene Graphs for Image Captioning’, 2018.12.11.*

Also Published As

Publication number Publication date
KR20200104663A (ko) 2020-09-04

Similar Documents

Publication Publication Date Title
KR102622958B1 (ko) 이미지 캡션 자동 생성 시스템 및 방법
JP6799800B2 (ja) 意味情報生成方法、意味情報生成装置、およびプログラム
US11093835B2 (en) Natural language question expansion and extraction
Cheng et al. Learning structured natural language representations for semantic parsing
CN112214608B (zh) 基于知识推理的文本生成方法、介质、装置和计算设备
CN106933804B (zh) 一种基于深度学习的结构化信息抽取方法
CN112200317A (zh) 多模态知识图谱构建方法
CN110245238B (zh) 基于规则推理和句法模式的图嵌入方法及系统
JP6975752B2 (ja) Vqaシステムの訓練データを生成する訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な媒体
Han et al. Domain-specific image caption generator with semantic ontology
KR20200106115A (ko) 이미지 캡션 자동 생성 장치 및 방법
JP6856709B2 (ja) 訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な記憶媒体
Almarsoomi et al. AWSS: An algorithm for measuring Arabic word semantic similarity
Jain et al. Vishit: A visualizer for hindi text
Zhang et al. Let's be humorous: Knowledge enhanced humor generation
KR20120042562A (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
CN113191118B (zh) 一种基于序列标注的文本关系抽取方法
KR102642488B1 (ko) 인공지능 기술을 이용하여 질문에 대한 답변을 생성하는 데이터 제공 장치, 방법 및 컴퓨터 프로그램
BE1022627B1 (nl) Methode en apparaat voor het automatisch genereren van feedback
CN114528223B (zh) 一种智能软件代码类型推断方法、系统、设备及存储介质
WO2022114322A1 (ko) 딥 러닝 알고리즘 기반의 이미지 오브젝트 속성 주의 모델을 이용한 이미지 캡션 자동 생성 시스템 및 방법
Stramandinoli et al. Grounding speech utterances in robotics affordances: An embodied statistical language model
JP2007041767A (ja) テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム
CN114998041A (zh) 理赔预测模型的训练方法和装置、电子设备及存储介质
KR100574887B1 (ko) 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20190227

PG1501 Laying open of application
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20220225

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 20190227

Comment text: Patent Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20230416

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20231030

PG1601 Publication of registration