KR102622958B1 - 이미지 캡션 자동 생성 시스템 및 방법 - Google Patents
이미지 캡션 자동 생성 시스템 및 방법 Download PDFInfo
- Publication number
- KR102622958B1 KR102622958B1 KR1020190023268A KR20190023268A KR102622958B1 KR 102622958 B1 KR102622958 B1 KR 102622958B1 KR 1020190023268 A KR1020190023268 A KR 1020190023268A KR 20190023268 A KR20190023268 A KR 20190023268A KR 102622958 B1 KR102622958 B1 KR 102622958B1
- Authority
- KR
- South Korea
- Prior art keywords
- caption
- image
- model
- tuple
- word
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013135 deep learning Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims description 34
- 239000000284 extract Substances 0.000 claims description 29
- 238000012800 visualization Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 20
- 241000282326 Felis catus Species 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8126—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
- H04N21/8133—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명의 실시 예에 따른 이미지에 대해 이미지를 설명하는 캡션을 자동으로 생성하기 위한 캡션 자동 생성 시스템에 있어서. 상기 캡션을 생성하기 위한 이미지를 제공하는 클라이언트와, 상기 클라이언트로부터 제공받은 이미지를 분석하여 상기 이미지를 설명하는 캡션을 생성하고, 상기 생성한 캡션 및 상기 캡션을 생성한 근거를 상기 클라이언트로 전송하는 캡션 생성기를 포함한다.
Description
도 2는 본 발명의 실시 예에 따른 캡션 생성기의 구성을 나타내는 도면이다.
도 3은 본 발명의 실시 예에 따른 캡션 생성 모듈의 구성을 나타내는 도면이다.
도 4는 본 발명의 실시 예에 따른 관계 생성 모듈의 구성을 나타내는 도면이다.
도 5는 본 발명의 실시 예에 따른 설명 생성 모듈의 구성을 나타내는 도면이다.
도 6은 본 발명의 실시 예에 따른 이미지에 대한 캡션 생성을 나타내는 도면이다.
도 7은 본 발명의 실시 예에 따른 확장된 캡션 생성을 나타내는 도면이다.
도 8은 본 발명의 실시 예에 따른 이미지 캡션 자동 생성 방법을 나타내는 도면이다.
도 9는 본 발명의 실시 예에 따른 캡션을 생성하는 방법을 나타내는 도면이다.
도 10은 본 발명의 실시 예에 따른 확장된 캡션을 생성하는 방법을 나타내는 도면이다.
210: 캡션 생성 모듈 220: 관계 생성 모듈
230: 설명 생성 모듈 212: 속성 추출 모델
214: 오브젝트 인식 모델 216: 이미지 캡션 모델
216a: 속성 주의 모델 216b: 오브젝트 주의 모델
216c: 문법 학습 모델 216d: 언어 생성 모델
222: 오브젝트 추출 모델 224: 관계 예측 모델
226: 관계 그래프 생성 모델 232: 문장 재구조화 모델
234: 시각화 모델 226: 관계 그래프 생성 모델
Claims (13)
- 이미지에 대해 이미지를 설명하는 캡션을 자동으로 생성하기 위한 캡션 자동 생성 시스템에 있어서.
상기 캡션을 생성하기 위한 이미지를 제공하는 클라이언트; 및
상기 클라이언트로부터 제공받은 이미지를 분석하여 상기 이미지를 설명하는 캡션을 생성하고, 상기 생성한 캡션 및 상기 캡션을 생성한 근거를 상기 클라이언트로 전송하는 캡션 생성기;를 포함하되,
상기 캡션 생성기는,
딥 러닝을 이용하여 상기 제공받은 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 상기 속성 정보 및 상기 오브젝트 정보를 이용하여 상기 캡션을 생성하는 캡션 생성 모듈;
상기 이미지 내 오브젝트들 사이의 관계를 예측하고, 상기 예측된 관계들을 투플(tuple) 형태로 구조화한 투플 집합을 생성하는 관계 생성 모듈; 및
상기 캡션 생성 모듈에서 생성한 캡션 및 상기 관계 생성 모듈에서 생성한 상기 투플 집합을 이용하여 상기 캡션을 재구조화여 확장된 캡션을 생성하고, 상기 확장된 캡션 및 상기 투플 집합에 대한 그래프를 시각화하는 설명 생성 모듈;을 포함하고,
상기 캡션 생성 모듈은,
상기 제공받은 이미지와 가장 관련된 단어들을 추출하고, 각 단어들을 투플 형태로 변환하는 속성 추출 모델;
상기 이미지 내 중요 오브젝트들을 추출하고, 상기 추출된 오브젝트들을 포함하는 오브젝트 영역을 투플 형태로 변환하는 오브젝트 인식 모델;
상기 속성 추출 모델에서 추출한 단어들 및 상기 오브젝트 인식 모델에서 추출한 오브젝트 영역을 이용하여 상기 이미지의 캡션을 생성하는 이미지 캡션 모델;을 포함하며,
상기 이미지 캡션 모델은,
상기 속성 추출 모델에서 추출한 단어들에 대해 단어 주의도(attention score)를 부여하는 속성 주의 모델;
상기 오브젝트 인식 모델에서 추출한 오브젝트의 영역들에 대해 영역 주의도를 부여하는 오브젝트 주의 모델;
상기 이미지 및 상기 이미지의 캡션에 대한 문장의 문법을 학습하는 문법 학습 모델; 및
상기 속성 추출 모델에서 추출된 단어들, 상기 오브젝트 인식 모델에서 추출된 오브젝트 영역들, 상기 단어 주의도 및 상기 영역 주의도를 기초로 시간 단계마다 캡션을 위한 단어 태그 및 문법 태그를 생성하는 언어 생성 모델;을 포함하고,
상기 언어 생성 모델은, 상기 단어 주의도, 상기 영역 주의도, 상기 속성 추출 모델에서 투플 형태로 변환한 단어들의 평균 벡터, 상기 오브젝트 인식 모델에서 투플 형태로 변환한 오브젝트 영역들의 평균 벡터, 상기 언어 생성 모델에서 이전 시간에 생성한 단어 및 상기 언어 생성 모델이 생성한 모든 단어들에 대한 압축된 정보를 모두 고려하여 현재 시간에서 단어 태그 및 문법 태그를 예측하는 이미지 캡션 자동 생성 시스템.
- 삭제
- 삭제
- 제1항에 있어서,
상기 이미지 캡션 모델은 딥 러닝 알고리즘으로 수행되며, RNN(Recurrent neural network)을 기반으로 수행되며, 상기 이미지 내 오브젝트들 사이의 관계를 시계열적으로 예측하는 이미지 캡션 자동 생성 시스템.
- 삭제
- 제1항에 있어서,
상기 속성 주의 모델은 상기 언어 생성 모델에서 생성한 단어 태그와의 관련성에 대한 단어 순서로 상기 단어 주의도를 부여하고,
상기 오브젝트 주의 모델은 상기 언어 생성 모델에서 생성한 단어 태그와의 관련성에 대한 단어 순서로 상기 영역 주의도를 부여하고,
상기 단어 주의도 및 상기 영역 주의도는 0 내지 1 사이의 값이며, 상기 단어 태그와 관련성이 높을수록 1에 인접한 이미지 캡션 자동 생성 시스템.
- 제1항에 있어서,
상기 관계 생성 모듈은,
상기 제공된 이미지 내 중요한 오브젝트 영역들을 추출하는 오브젝트 인식 모델; 및
상기 추출된 영역들간의 관계를 예측하고, 상기 예측한 영역들간의 관계를 투플 형태로 구조화하여 투플 집합을 생성하는 관계 예측 모델; 및
상기 생성된 투플 집합에 대해 하나의 그래프를 생성하는 관계 그래프 생성 모델;을 포함하는 이미지 캡션 자동 생성 시스템.
- 제7항에 있어서,
상기 설명 생성 모듈은,
상기 캡션 생성 모듈에서 생성된 캡션 및 관계 생성 모듈에서 생성된 투플 집합을 이용하여 알고리즘에 따라 일부 단어를 투플에 대한 구절로 대치시키고, 상기 생성된 캡션을 확장시키는 문장 재구조화 모델; 및
상기 문장 재구조화 모델에서 확장시킨 캡션을 상기 투플 집합과 매칭하여 시각화하는 시각화 모델;을 포함하는 이미지 캡션 자동 생성 시스템.
- 이미지에 대해 이미지를 설명하는 캡션을 자동으로 생성하기 위한 캡션 자동 생성 방법에 있어서,
캡션 생성 모듈에서 딥 러닝을 이용하여 이미지 내 속성 정보 및 오브젝트 정보를 추출하고, 상기 속성 정보 및 상기 오브젝트 정보를 이용하여 상기 캡션을 생성하는 단계;
관계 생성 모듈에서 상기 이미지 내 오브젝트들 사이의 관계를 예측하고, 상기 예측된 관계들을 투플(tuple) 형태로 구조화한 투플 집합을 생성하는 단계; 및
설명 생성 모듈에서 상기 생성한 캡션 및 상기 투플 집합을 이용하여 상기 캡션을 재구조화여 확장된 캡션을 생성하고, 상기 확장된 캡션 및 상기 투플 집합에 대한 그래프를 시각화하는 단계;를 포함하되,
상기 캡션을 생성하는 단계는,
상기 캡션 생성 모듈에서 상기 이미지와 가장 관련된 단어들을 추출하고, 각 단어들을 투플 형태로 변환하는 단계;
오브젝트 인식 모델에서 상기 이미지 내 중요 오브젝트들을 추출하고, 상기 추출된 오브젝트들을 포함하는 오브젝트 영역을 투플 형태로 변환하는 단계; 및
이미지 캡션 모델에서 상기 추출한 단어들 및 상기 추출한 오브젝트 영역을 이용하여 상기 이미지의 캡션을 생성하는 단계;를 포함하고,
상기 이미지의 캡션을 생성하는 단계는,
상기 이미지 캡션 모델에서 추출한 단어들에 대해 단어 주의도(attention score)를 부여하는 단계;
상기 이미지 캡션 모델에서 추출한 오브젝트 영역들에 대해 영역 주의도를 부여하는 단계;
상기 속성 정보, 상기 오브젝트 영역들, 상기 단어 주의도 및 상기 영역 주의도를 기초로 시간 단계마다 캡션을 위한 단어 태그 및 문법 태그를 예측하는 단계; 및
단어 태그 및 문법 태그에 대한 손실값들을 반영하여 캡션을 생성하는 단계;를 포함하는 이미지 캡션 자동 생성 방법.
- 삭제
- 삭제
- 제9항에 있어서, 상기 투플 집합을 생성하는 단계는,
오브젝트 인식 모델에서 상기 이미지 내 중요한 오브젝트 영역들을 추출하는 단계;
관계 예측 모델에서 상기 추출된 영역들간의 관계를 예측하고, 상기 예측한 영역들간의 관계를 투플 형태로 구조화하여 투플 집합을 생성하는 단계; 및
관계 그래프 생성 모델에서 상기 생성된 투플 집합에 대해 하나의 그래프를 생성하는 단계;를 더 포함하는 이미지 캡션 자동 생성 방법.
- 제9항에 있어서, 상기 투플 집합에 대한 그래프를 시각화하는 단계는,
문장 재구조화 모델에서 상기 생성된 캡션 및 관계 생성 모듈에서 생성된 투플 집합을 이용하여 알고리즘에 따라 일부 단어를 투플에 대한 구절로 대치시키고, 상기 생성된 캡션을 확장시키는 단계; 및
시각화 모델에서 상기 확장시킨 캡션을 상기 투플 집합과 매칭하여 시각화하는 단계;를 더 포함하는 이미지 캡션 자동 생성 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190023268A KR102622958B1 (ko) | 2019-02-27 | 2019-02-27 | 이미지 캡션 자동 생성 시스템 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190023268A KR102622958B1 (ko) | 2019-02-27 | 2019-02-27 | 이미지 캡션 자동 생성 시스템 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200104663A KR20200104663A (ko) | 2020-09-04 |
KR102622958B1 true KR102622958B1 (ko) | 2024-01-10 |
Family
ID=72470993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190023268A KR102622958B1 (ko) | 2019-02-27 | 2019-02-27 | 이미지 캡션 자동 생성 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102622958B1 (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102470959B1 (ko) | 2019-12-31 | 2022-11-28 | 연세대학교 산학협력단 | 건설현장사진 촬영의도 자동인식 및 포토메시징 기술기반의 건설현장 관리시스템 및 관리방법 |
CN112116685A (zh) * | 2020-09-16 | 2020-12-22 | 中国石油大学(华东) | 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法 |
WO2022114322A1 (ko) * | 2020-11-30 | 2022-06-02 | 한국과학기술원 | 딥 러닝 알고리즘 기반의 이미지 오브젝트 속성 주의 모델을 이용한 이미지 캡션 자동 생성 시스템 및 방법 |
KR102551960B1 (ko) * | 2021-07-30 | 2023-07-06 | 한국전자기술연구원 | 객체 정보 컨디션 기반의 이미지 캡션 생성 방법 및 시스템 |
KR102731839B1 (ko) * | 2021-11-19 | 2024-11-19 | 한국전자기술연구원 | 핵심영역 선택 기반 시각장면 분석 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170098153A1 (en) | 2015-10-02 | 2017-04-06 | Baidu Usa Llc | Intelligent image captioning |
US20170200065A1 (en) | 2016-01-13 | 2017-07-13 | Adobe Systems Incorporated | Image Captioning with Weak Supervision |
-
2019
- 2019-02-27 KR KR1020190023268A patent/KR102622958B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170098153A1 (en) | 2015-10-02 | 2017-04-06 | Baidu Usa Llc | Intelligent image captioning |
US20170200065A1 (en) | 2016-01-13 | 2017-07-13 | Adobe Systems Incorporated | Image Captioning with Weak Supervision |
Non-Patent Citations (2)
Title |
---|
Quanzeng You at al., ‘Image Captioning with Semantic Attention’, 2016.03.12.* |
Xu Yang at al., ‘Auto-Encoding Scene Graphs for Image Captioning’, 2018.12.11.* |
Also Published As
Publication number | Publication date |
---|---|
KR20200104663A (ko) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102622958B1 (ko) | 이미지 캡션 자동 생성 시스템 및 방법 | |
JP6799800B2 (ja) | 意味情報生成方法、意味情報生成装置、およびプログラム | |
US11093835B2 (en) | Natural language question expansion and extraction | |
Cheng et al. | Learning structured natural language representations for semantic parsing | |
CN112214608B (zh) | 基于知识推理的文本生成方法、介质、装置和计算设备 | |
CN106933804B (zh) | 一种基于深度学习的结构化信息抽取方法 | |
CN112200317A (zh) | 多模态知识图谱构建方法 | |
CN110245238B (zh) | 基于规则推理和句法模式的图嵌入方法及系统 | |
JP6975752B2 (ja) | Vqaシステムの訓練データを生成する訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な媒体 | |
Han et al. | Domain-specific image caption generator with semantic ontology | |
KR20200106115A (ko) | 이미지 캡션 자동 생성 장치 및 방법 | |
JP6856709B2 (ja) | 訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な記憶媒体 | |
Almarsoomi et al. | AWSS: An algorithm for measuring Arabic word semantic similarity | |
Jain et al. | Vishit: A visualizer for hindi text | |
Zhang et al. | Let's be humorous: Knowledge enhanced humor generation | |
KR20120042562A (ko) | 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치 | |
CN113191118B (zh) | 一种基于序列标注的文本关系抽取方法 | |
KR102642488B1 (ko) | 인공지능 기술을 이용하여 질문에 대한 답변을 생성하는 데이터 제공 장치, 방법 및 컴퓨터 프로그램 | |
BE1022627B1 (nl) | Methode en apparaat voor het automatisch genereren van feedback | |
CN114528223B (zh) | 一种智能软件代码类型推断方法、系统、设备及存储介质 | |
WO2022114322A1 (ko) | 딥 러닝 알고리즘 기반의 이미지 오브젝트 속성 주의 모델을 이용한 이미지 캡션 자동 생성 시스템 및 방법 | |
Stramandinoli et al. | Grounding speech utterances in robotics affordances: An embodied statistical language model | |
JP2007041767A (ja) | テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム | |
CN114998041A (zh) | 理赔预测模型的训练方法和装置、电子设备及存储介质 | |
KR100574887B1 (ko) | 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190227 |
|
PG1501 | Laying open of application | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20220225 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20190227 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20230416 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20231030 |
|
PG1601 | Publication of registration |