[go: up one dir, main page]

KR20160087222A - 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치 - Google Patents

디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치 Download PDF

Info

Publication number
KR20160087222A
KR20160087222A KR1020150006113A KR20150006113A KR20160087222A KR 20160087222 A KR20160087222 A KR 20160087222A KR 1020150006113 A KR1020150006113 A KR 1020150006113A KR 20150006113 A KR20150006113 A KR 20150006113A KR 20160087222 A KR20160087222 A KR 20160087222A
Authority
KR
South Korea
Prior art keywords
photo
images
story
tags
photo story
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020150006113A
Other languages
English (en)
Other versions
KR102290419B1 (ko
Inventor
아담 포렉키
안제이 루타
율리우스 라벡키
마이클 쿠델스키
토마슈 루드니
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150006113A priority Critical patent/KR102290419B1/ko
Priority to US14/994,684 priority patent/US10685460B2/en
Publication of KR20160087222A publication Critical patent/KR20160087222A/ko
Application granted granted Critical
Publication of KR102290419B1 publication Critical patent/KR102290419B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Human Computer Interaction (AREA)

Abstract

많은 양의 포토 이미지나 동영상 중 하이라이트를 선별하여 포토 스토리를 생성하고 사용자에게 제공하는 방법이 개시된다. 본 발명에 의하면, 포토 이미지들의 시각적인 내용을 기계 학습을 통해 분석하여 포토 스토리를 작성하기 위한 토픽을 검출하고 그에 따라 포토 이미지를 생성함으로써 단순히 포토 이미지들의 시간적 순서에 한정되지 않고 다양한 주제의 포토 스토리들을 작성될 수 있고, 사용자는 많은 양의 포토 이미지들 중 특정 토픽과 관련된 포토 이미지들만 브라우즈 할 수 있다.

Description

디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치{Method and Appratus For Creating Photo Story based on Visual Context Analysis of Digital Contents}
본 발명은 많은 양의 동영상이나 포토 이미지들 중 하이라이트를 선별함으로써 포토 스토리를 생성하고 사용자에게 제공하는 기술에 관한 것이다.
최근 스마트 폰, 태블릿 등 디지털 데이터를 획득하고 생성할 수 있는 개인 기기의 종류가 다양해지고 메모리 기술이 발달함에 따라, 사람들이 생성하고 저장하는 미디어 데이터의 크기가 급속도로 증가하게 되었다.
이에 따라 방대한 용량의 포토 이미지 및 동영상 데이터 중 일부만을 샘플링하여 보여주는 서비스가 등장하게 되었는데 이것이 포토 스토리 제공 서비스이다.
포토 스토리는 시각적 컨텐츠, 즉 포토 이미지들 및 동영상들 중 일부를 선택하여 특정한 순서로 배열함으로써 생성되는 서비스 객체로서, 사용자는 단지 포토 스토리를 재생함으로써 많은 수의 포토 이미지나 동영상들을 일일이 다 브라우즈하지 않고도 요약본(summarized collection)을 감상할 수 있다.
종래의 포토 스토리는 많은 수의 시각적 컨텐츠를 시간적인 순서에 따라 선택하거나 배열하는 단순한 방식으로 작성되기 때문에, 사용자는 매우 단순한 구성의 포토 스토리만을 감상할 수 있었다.
이러한 과제를 해결하기 위한 본 발명의 일 실시예는, 포토 스토리를 생성하는 방법에 있어서, 복수의 포토 이미지들 각각에 대해 포토 이미지의 내용에 관한 속성을 나타내는 태그들을 생성하는 단계; 상기 생성된 태그들에 기초하여 상기 포토 이미지들이 의미하는 장면들을 예측하는 단계; 상기 예측된 장면들에 기초하여 상기 예측된 장면들의 조합으로 구성되는 적어도 하나의 포토 스토리를 생성하는 단계를 포함한다.
상기 태그들을 생성하는 단계는, 훈련 이미지들을 통해 학습된 시각적 패턴 인식 모델들을 이용하여 상기 포토 이미지들 상의 오브젝트들을 인지하는 단계; 상기 인지된 오브젝트들에 기초하여 상기 포토 이미지들의 내용에 관련된 속성을 결정하는 단계를 포함하는 것이 바람직하다.
상기 적어도 하나의 포토 스토리를 생성하는 단계는, 포토 스토리의 구조를 정의하는 복수의 템플릿들 중 상기 예측된 장면들을 포함하는 후보 템플릿들을 검출하는 단계; 상기 후보 템플릿들 각각에 대해 상기 예측된 장면들에 속하는 포토 이미지들이 종합적으로 해당 템플릿에 부합하는 수준을 평가하는 단계; 상기 평가에 의한 결과에 따라 상기 후보 템플릿들 중 적어도 하나를 최종 템플릿으로 선택하는 단계; 상기 선택된 최종 템플릿에 따라 사용자에게 최종적으로 제공할 적어도 하나의 포토 스토리를 작성하는 단계를 포함하는 것이 바람직하다.
상기 복수의 템플릿들은 미리 정해진 것이거나 또는 상기 포토 이미지들에 대한 비지도 기계 학습(unsupervised machine learning) 기법을 통해 자동적으로 생성된 것일 수 있다.
상기 포토 스토리 생성 방법은, 미리 정해진 기준에 따라 상기 복수의 포토 이미지들 중 서로 동일하거나 유사한 것으로 판단되는 중복 이미지들을 검출하는 단계를 더 포함하며, 상기 적어도 하나의 포토 스토리를 생성하는 단계는, 상기 중복 이미지들이 함께 동일한 포토 스토리에 부합하면 중복 이미지들 중 하나를 최종적으로 해당 포토 스토리에 사용될 이미지로 선택하는 단계를 포함하는 것이 바람직하다.
상기 적어도 하나의 포토 스토리를 생성하는 단계는, 상기 최종 템플릿에서 요구하는 장면에 필요한 이미지를 인터넷으로부터 다운로드하는 단계를 포함하는 것이 바람직하다.
상기 포토 스토리 생성 방법은, 사용자 단말, 멀티미디어 컨텐츠 공유 서비스를 제공하는 서버, 소셜 네트워크 서비스를 제공하는 서버 중 적어도 하나로부터 상기 복수의 포토 이미지들을 수집하는 단계를 더 포함하는 것이 바람직하다.
본 발명의 다른 실시예는, 상기 포토 스토리 생성 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
본 발명의 다른 실시예는, 복수의 포토 이미지들 각각에 대해 포토 이미지의 내용에 관한 속성을 나타내는 태그들을 생성하는 태그 생성부; 상기 생성된 태그들에 기초하여 상기 포토 이미지들이 의미하는 장면들을 예측하는 장면 예측부; 상기 예측된 장면들에 기초하여 상기 예측된 장면들의 조합으로 구성되는 적어도 하나의 포토 스토리를 생성하는 포토 스토리 생성부를 포함하는 포토 스토리 생성 장치를 제공한다.
상기 태그 생성부는, 훈련 이미지들을 통해 학습된 시각적 패턴 인식 모델들을 이용하여 상기 포토 이미지들 상의 오브젝트들을 인지하는 오브젝트 인지부; 상기 인지된 오브젝트들에 기초하여 상기 포토 이미지들의 내용에 관련된 속성을 결정하는 속성 결정부를 포함하는 것이 바람직하다.
상기 포토 스토리 생성부는, 포토 스토리의 구조를 정의하는 복수의 템플릿들 중 상기 예측된 장면들을 포함하는 후보 템플릿들을 검출하는 템플릿 검출부; 상기 후보 템플릿들 각각에 대해 상기 예측된 장면들에 속하는 포토 이미지들이 종합적으로 해당 템플릿에 부합하는 수준을 평가하는 평가부; 상기 평가에 의한 결과에 따라 상기 후보 템플릿들 중 적어도 하나를 최종 템플릿으로 선택하는 선택부; 상기 선택된 최종 템플릿에 따라 사용자에게 최종적으로 제공할 적어도 하나의 포토 스토리를 작성하는 포토 스토리 작성부를 포함하는 것이 바람직하다.
상기 복수의 템플릿들은 미리 정해진 것이거나 또는 상기 포토 이미지들에 대한 비지도 기계 학습(unsupervised machine learning) 기법을 통해 자동적으로 생성된 것일 수 있다.
상기 속성 결정부는 미리 정해진 기준에 따라 상기 복수의 포토 이미지들 중 서로 동일하거나 유사한 것으로 판단되는 중복 이미지들을 검출하며, 상기 포토 스토리 생성부는, 상기 중복 이미지들이 함께 동일한 포토 스토리에 부합하면 중복 이미지들 중 하나를 최종적으로 해당 포토 스토리에 사용될 이미지로 선택하는 것이 바람직하다.
상기 포토 스토리 작성부는, 상기 최종 템플릿에서 요구하는 장면에 필요한 이미지들 중 일부를 인터넷으로부터 다운로드할 수 있다.
상기 포토 스토리 생성 장치는, 사용자 단말, 멀티미디어 컨텐츠 공유 서비스를 제공하는 서버, 소셜 네트워크 서비스를 제공하는 서버 중 적어도 하나로부터 상기 복수의 포토 이미지들을 수신하는 네트워크 인터페이스를 더 포함하는 것이 바람직하다.
본 발명의 다른 실시예는, 사용자 단말에서 포토 스토리를 처리하는 방법에 있어서, 복수의 포토 이미지들의 내용에 관한 속성을 나타내는 태그들에 기초하여 생성된 포토 스토리의 목록을 표시하는 단계; 사용자 입력에 따라 상기 목록에서 선택된 포토 스토리를 재생하는 단계를 포함한다.
상기 포토 스토리의 목록을 표시하는 단계는, 각 포토 스토리의 제목을 해당 포토 스토리에 포함된 포토 이미지들의 속성을 나타내는 태그들과 함께 표시하는 것이 바람직하다.
상기 포토 스토리의 목록을 표시하는 단계는, 복수의 제목들을 계층적으로 표시하는 것이 바람직하다.
상기 포토 스토리 표시 방법은, 상기 포토 이미지들의 태그들 중 미리 정해진 기준보다 높은 빈도로 검출된 태그인 선호 태그들을 표시하는 단계를 더 포함하고, 상기 포토 스토리의 목록을 표시하는 단계는, 상기 표시된 선호 태그들 중 사용자 입력에 의해 선택된 적어도 하나의 태그와 매핑된 포토 이미지를 포함하는 포토 스토리들의 목록을 표시하는 단계를 포함하는 것이 바람직하다.
상기 재생하는 단계는, 상기 선택된 포토 스토리의 포토 이미지들 중 사용자가 지정한 태그와 매핑되는 포토 이미지들만을 표시하는 것이 바람직하다.
상기 재생하는 단계는, 상기 선택된 포토 스토리의 포토 이미지들 중 다른 포토 스토리에도 포함된 포토 이미지가 표시되는 동안에는 상기 다른 포토 스토리로 점프할 수 있는 사용자 인터페이스를 제공하는 단계를 포함하는 것이 바람직하다.
본 발명의 다른 실시예는, 포토 스토리 파일을 처리하는 프로그램을 저장하는 적어도 하나의 메모리; 및 상기 적어도 하나의 메모리에 저장된 상기 프로그램을 실행하는 적어도 하나의 프로세서를 포함하며, 상기 적어도 하나의 프로그램은, 복수의 포토 이미지들의 내용에 관한 속성을 나타내는 태그들에 기초하여 생성된 포토 스토리의 목록을 표시하는 단계; 사용자 입력에 따라 상기 목록에서 선택된 포토 스토리를 재생하는 단계를 수행하는 명령어들을 포함하는 것을 특징으로 하는 사용자 단말 장치를 제공한다.
도 1은 본 발명의 일 실시예에 따라 포토 스토리를 생성하는 전체적인 과정을 간략히 나타낸 순서도,
도 2는 본 발명의 일 실시예에 따라 포토 스토리를 재생하는 과정을 나타낸 순서도,
도 3은 본 발명의 일 실시예에 따라 포토 스토리를 사용자에게 제공하는 시스템의 전체 구조를 나타낸 도면,
도 4는 본 발명의 일 실시예에 따라 포토 이미지들로부터 의미 정보(semantic information)를 추출하는 방법을 설명하기 위한 개념도,
도 5는 본 발명의 일 실시예에 따라 서로 다른 포토 이미지들 간에 설정되는 교차점을 설명하기 위한 도면,
도 6은 본 발명의 일 실시예에 따라 태그에 기초하여 포토 스토리를 생성하는 방법을 설명하는 개념도,
도 7은 본 발명의 일 실시예에 따라 태그에 기초하여 포토 스토리를 생성하는 과정을 나타낸 순서도,
도 8은 본 발명의 일 실시예에 따라 휴대 기기에서 복수 개의 포토 스토리 제목들을 표시한 화면을 나타낸 도면,
도 9는 본 발명의 일 실시예에 따라 휴대 기기에서 포토 스토리 제목을 관련된 태그들과 함께 표시한 화면을 나타낸 도면,
도 10a 및 도 10b는 본 발명의 일 실시예에 따라 휴대 기기에서 사용자가 관심 있는 태그와 관련된 포토 이미지들만 표시한 화면을 나타낸 도면,
도 11a 및 도 11b는 본 발명의 일 실시예에 따라 휴대 기기에서 하나의 포토 스토리 제목이 선택되었을 때 표시되는 화면을 나타낸 도면,
도 12a 내지 도 12c는 본 발명의 일 실시예에 따라 휴대 기기에서 포토 스토리가 재생되는 화면을 나타낸 도면,
도 13은 본 발명의 일 실시예에 따라 포토 스토리를 생성하는 장치의 구조를 나타낸 도면,
도 14는 본 발명의 일 실시예에 따라 포토 스토리를 재생하는 장치의 구조를 나타낸 도면이다.
본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 도면에서 구성 요소들이 단순하고 명확하게 도시되었으며 크기를 고려하지는 않았음을 이해할 수 있을 것이다. 예를 들면, 도면에서 일부 구성 요소들의 차원이나 위치가 본 발명의 다양한 실시예들에 대한 이해를 돕기 위해 다른 구성 요소들에 비해 과장되었을 수 있다. 또한, 본 발명의 실시예들을 더욱 명확하게 나타내기 위해 실제 제품에 유용하거나 필수적이지만 일반적으로 잘 알려져 있는 구성 요소들은 도시하지 않았다. 또한, 일부 동작이나 과정들은 특정한 순서에 따라 설명 또는 도시되었으나 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 이러한 순서가 반드시 요구되지는 않음을 이해할 수 있을 것이다. 나아가, 별도로 정의되지 않는 한 여기서 사용되는 용어나 표현들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 일반적으로 인지하는 기술적인 용어나 표현을 의미한다.
이하의 도면들에서 설명하는 실시예들은 다른 실시예의 기술적 특징과 결합하여 하나 또는 그 이상의 기술적 특징들로 나타날 수 있다. 따라서, 하나의 특정 실시예에서 설명된 기술적 특징은 그 실시예에 한정적으로 해석되어서는 안되며 다른 실시예에서 나타날 수도 있다.
도 1은 본 발명의 일 실시예에 따라 포토 스토리를 생성하는 전체적인 과정을 간략히 나타낸 순서도이다.
포토 스토리에 사용되는 시각적 컨텐츠는 단지 이미지만을 의미하지 않고 동영상을 포함한다. 동영상은 많은 수의 유사한 이미지들의 시퀀스로 볼 수 있기 때문이다. 동영상의 프레임들 중 하나를 캡쳐해서 그 내용을 이미지와 동일한 방식으로 분석할 수 있다. 따라서, 이하에서 포토 이미지는 동영상으로부터 캡쳐된 이미지를 포함하며, 본 발명에 따른 포토 스토리 생성 시스템으로 입력되는 포토 이미지들은 동영상을 포함하는 것으로 가정한다. 동영상을 대표하는 프레임을 추출하는 방법은 특정하지 않는다.
단계 101에서, 포토 스토리를 생성하는 장치는 포토 스토리 생성을 위해 입력된 포토 이미지들의 데이터 집합(이하 입력 포토 이미지들이라 칭함)을 분석하여 포토 이미지들의 속성을 나타내는 태그들을 생성한다.
포토 이미지들의 속성은 포토 이미지의 일반적인 메타 데이터로부터 얻을 수 있는 정보 뿐 아니라 포토 이미지의 내용에 관련된 속성들을 포함한다. 일반적인 메타 데이터를 통해 얻을 수 있는 정보는 예를 들면 카메라 제조사 및 모델, 사진이 찍힌 날짜 및 시간, 이미지 해상도, 노출 시간, 플래시 사용 여부, 사진이 찍힌 지리적 위치 등을 포함한다. 포토 이미지의 내용에 관련된 속성은 포토 이미지의 평균 밝기, 평균 컬러, 이미지 블러의 정도, 주파수 히스토그램과 같은 기술적 분석 정보는 물론 배경이 실내인지 여부, 인물 수, 사진의 분위기, 인물들의 표정 등과 같이 포토 이미지의 시각적 내용(visual context)에 대한 분석을 통해 얻은 의미 정보(semantic information)를 포함하는 개념이다.
의미 정보를 얻기 위해서는 포토 이미지의 시각적 내용을 분석해야 하는데, 이를 위해 기계 학습(machine learning) 기법이 이용될 수 있다.  기계 학습이란 인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 기술을 의미한다. 포토 이미지의 시각적 내용을 분석하기 위해서는 포토 이미지 상의 오브젝트들을 인지해야 한다. 이를 위해, 우선 훈련 이미지들을 통해 시각적 패턴 인식 모델들을 학습하고, 입력 포토 이미지들에 대하여 그 인식 모델들을 적용함으로써 오브젝트들을 발견할 수 있다. 보다 자세한 설명은 도 4와 함께 후술한다.
단계 102에서, 포토 스토리 생성 장치는 단계 101에서 생성된 태그들에 기초하여 포토 이미지들이 의미하는 장면(scene)들을 예측한다. 장면은 포토 스토리를 구성하는 단위로서 각 장면은 길이(사진 개수), 토픽(사진들의 공통된 주제) 등에 의해 특정될 수 있다. 예를 들면, '스포츠'라는 장면에는 축구, 수영, 육상 등에 관한 사진들이 포함될 수 있다. 따라서, 친구들끼리 축구하는 내용의 포토 이미지는 '스포츠'라는 장면에 속하는 것으로 예측될 수 있다.
단계 103에서, 단계 102에서 예측된 장면들에 기초하여 그 예측된 장면들의 조합으로 구성되는 적어도 하나의 포토 스토리를 생성한다.
구체적으로, 포토 스토리의 구조를 정의하는 복수의 포토 스토리 템플릿들 중 예측된 장면들을 포함하는 후보 템플릿들을 검출하고, 예측된 장면들에 속하는 포토 이미지들이 종합적으로 후보 템플릿들에 부합하는 수준을 평가하여 그 결과에 따라 후보 템플릿들 중 적어도 하나를 선택하게 된다. 최종적으로 선택된 포토 스토리 템플릿에 따라 포토 스토리가 생성되고 그 포토 스토리는 사용자에게 제공된다.
포토 스토리 템플릿은 미리 정해진 것이거나 또는 비지도 기계 학습(unsupervised machine learning) 기법을 통해 자동적으로 생성된 것일 수 있다. 예를 들면, '여름 휴가'라는 포토 스토리를 위해 미리 정해진 포토 스토리 템플릿에서 '해변'이라는 장면이 요구될 수도 있고, 구체적인 장면들이 정해져 있지 않더라도 여러 포토 이미지들에서 동일한 인물들이 인지될 경우 해당 인물들이 찍힌 포토 이미지들을 모아 해당 인물들을 토픽으로 하는 새로운 포토 스토리 템플릿이 생성될 수도 있다. 예를 들면, 사용자의 친구로 인지되는 얼굴들이 복수의 포토 이미지들에 중복하여 등장한다면, '대학 친구들'과 같은 포토 스토리 템플릿이 생성될 수 있다.
이와 같이, 본 발명에 의하면 단지 시간적인 순서 뿐만 아니라 포토 이미지들에 대한 시각적인 내용 분석을 통해 얻어진 다양한 정보들을 기준으로 하여 포토 이미지들에 대한 포토 스토리를 자동적으로 생성할 수 있다.
도 2는 본 발명의 일 실시예에 따라 포토 스토리를 재생하는 과정을 나타낸 순서도이다.
도 1에서는 방대한 양의 포토 이미지들에 대한 압축본(abstract)으로서 포토 스토리를 생성하는 과정들을 설명하였고, 도 2에서는 이와 같이 생성된 포토 스토리를 스마트 폰과 같은 사용자 단말에서 사용자에게 제공하는 방법을 설명한다.
단계 201에서, 사용자 단말은 포토 이미지들의 내용에 관한 속성을 나타내는 태그들에 기초하여 생성된 포토 스토리의 목록을 표시한다. 목록은 포토 스토리의 식별자들로 구성될 수 있으며, 예를 들면, 포토 스토리의 제목들이 표시될 수 있다. 포토 스토리들의 목록을 표시할 때, 각 포토 스토리의 식별자(예를 들면 제목)는 해당 포토 스토리에 포함된 포토 이미지들의 속성을 나타내는 태그들과 함께 표시될 수 있다. 이를 통해 사용자는 어떤 포토 스토리가 어떤 태그들로부터 생성되었는지 쉽게 파악할 수 있다.
화면에는 포토 스토리의 생성을 위해 사용된 포토 이미지들 중 높은 빈도로 출현한 태그들이 표시될 수 있다. 만약 사용자가 그 태그들 중 적어도 하나를 선택하면, 그 태그에 매핑된 포토 이미지를 포함하는 포토 스토리들의 목록이 표시된다. 이로써, 사용자는 자신이 관심 있는 내용의 사진을 포함하는 포토 스토리들만 브라우즈할 수 있다.
한편, 동일한 포토 이미지가 서로 다른 복수의 포토 이미지들에 공통적으로 포함될 수 있기 때문에 포토 스토리의 목록에서 포토 스토리들의 식별자들은 계층적으로 표시되는 것이 바람직하다.
단계 202에서, 목록에서 적어도 하나의 포토 스토리를 선택하는 사용자의 입력이 수신된다.
단계 303에서, 사용자가 선택한 포토 스토리가 재생된다. 예를 들면, 포토 스토리에 포함된 포토 이미지들이 미리 정해진 순서대로 슬라이드 쇼 형식으로 화면에 표시될 수 있으며, 적절한 효과나 배경 음악 등이 더해질 수 있다.
사용자는 선택한 포토 스토리 내에서 자신이 관심 있는 태그를 지정할 수 있다. 사용자가 태그를 지정하면, 포토 스토리에 포함된 포토 이미지들 중 해당 태그와 매핑된, 즉 그 태그와 대응되는 속성을 가진 포토 이미지들만 표시된다.
한편, 사용자가 포토 스토리의 목록에서 하나를 선택하여 포토 스토리가 재생될 때, 현재 재생 중인 포토 스토리 외에 다른 포토 스토리에도 속한 포토 이미지가 표시되는 동안에는 그 다른 포토 스토리로 점프할 수 있는 사용자 인터페이스가 제공될 수 있다. 이에 대한 보다 상세한 설명은 도 5와 함께 후술한다.
도 3은 본 발명의 일 실시예에 따라 포토 스토리를 사용자에게 제공하는 시스템의 전체 구조를 나타낸 도면이다.
도 3에 도시된 포토 스토리 제공 시스템은 기능적으로 이미지 수집 (310), 태그 생성(320), 포토 스토리 생성(330), 포토 스토리 표현(340)의 네 단계들을 수행하는 블록들로 구성된다. 도 3에 도시된 바와 같이, 이미지 수집, 태그 생성, 포토 스토리 생성의 단계들은 대용량의 저장 공간과 높은 성능이 필요하므로 서버측에서 수행되고, 포토 스토리 표현 단계는 사용자 단말 측에서 수행되는 것이 바람직하다. 그러나, 본 발명의 실시예에 반드시 이에 한정되는 것은 아니다.
수집부(311)는 포토 스토리의 제작에 이용될 동영상들 및 포토 이미지들을 찾아서 이미지 데이터베이스(312)에 저장한다. 일반적으로 이미지 분석 작업을 제3자 도메인에서 수행하기 어렵기 때문에 본 실시예에서는 다양한 소스에 분산된 시각적 컨텐츠를 하나의 이미지 데이터베이스(312)에 저장하지만, 반드시 이에 한정되는 것은 아니며 수집된 시각적 컨텐츠는 복수의 서버들에 분산되어 저장될 수 있다.
시각적 컨텐츠는 다양한 소스들로부터 수집되는데, 반드시 동영상이나 이미지의 소유자가 동일인일 필요는 없다. 시각적 컨텐츠의 소스는 사용자의 휴대폰, PC, 클라우드 서버, SNS(Social Network Service) 서버 등이 될 수 있다. 따라서, 사용자의 개입 없이 자동적으로 포토 스토리가 생성되도록 하기 위해 수집부(311)는 클라우드 서버나 SNS 계정에 로그인하기 위해 필요한 아이디 및 패스워드를 저장하고 있는 것이 바람직하다.
사용자 단말에서 소프트웨어 에이전트를 통해 이미지 데이터베이스(312)에 저장된 시각적 컨텐츠와 사용자 단말 간의 동기화를 수행할 수 있다.
메타 데이터 추출부(321)는 이미지 데이터베이스(312)로부터 포토 이미지들을 로딩해서 이미지 파일들에 포함된 메타 데이터를 추출하여 태그를 생성한다. 메타 데이터의 형식은 특정한 것으로 한정되지 않는다. 예를 들면 Exif(Exchangeable Image File Format) 또는 XMP(eXtensible Metadata Platform)이 사용될 수 있다. 메타 데이터는 카메라 제조사 및 모델, 이미지 방향(image orientation), 촬영 날짜 및 시각, 이미지 해상도, 노출 시간, 렌즈 초점 길이, 플래쉬 사용 여부, 컬러 스페이스, 촬영 위치 등에 대한 정보를 포함할 수 있다.
의미 정보 추출부(323)에서는 포토 이미지의 의미 정보, 즉 이미지가 가지는 시각적 내용에 대한 정보를 추출하여 태그로 생성한다. 이 과정에서 메타 데이터 추출부(321)에서 추출한 메타 데이터가 이용될 수도 있다.
기본적으로 포토 이미지의 의미 정보를 추출하기 위해서는 포토 이미지들로부터 배경, 인물 등의 오브젝트 및/또는 사람의 액션을 인지해야 하는데, 이를 위해 기계 학습 기법이 이용될 수 있다. 이를 위해 의미 정보 추출부(323)에서는 포토 이미지의 특징들을 나타내기 위한 최적의 표현 형식(representation)을 결정하고, 학습 알고리듬을 훈련 데이터 집합에 적용하여 얻어진 모델들을 통해 포토 이미지들의 의미 정보를 추출한다. 이에 대한 보다 상세한 설명은 도 4와 함께 후술한다.
한편, 의미 정보 추출부(323)는 포토 이미지들의 특징들을 이용하여 포토 이미지들 간의 유사도를 비교할 수 있다. 복수의 포토 이미지들이 유사하다는 것은 의미적으로(semantically) 유사한 경우를 포함한다. 나아가, 포토 이미지들의 기술적인 특징이나 의미 정보를 이용하여 다양한 기준으로 품질을 평가할 수 있다. 예를 들면, 전체적인 컬러나 이미지 블러(image blur)의 정도와 같이 기술적인 특징은 물론 이미지의 분위기, 인물 표정 등과 같은 의미 정보에 따라 포토 이미지들의 품질(quality)이 평가된다.
이와 같은 유사도 및 품질의 평가 결과는 다양하게 활용될 수 있다. 예를 들면, 포토 이미지가 어느 장면이나 토픽으로 분류되어야 하는지에 참조할 수도 있고, 입력 포토 이미지들 중 중복된 것들이 있는지도 알 수 있으며, 유사한 포토 이미지들 중 가장 좋은 품질의 포토 이미지를 선택하여 포토 스토리에 사용할 수 있다.
태그 데이터베이스(324)에는 포토 이미지들에 대한 다양한 정보를 나타내는 태그들이 저장된다. 즉, 태그들은 메타 데이터 추출부(321)에서 추출된 메타 데이터는 물론 의미 정보 추출부(323)에서 추출된 의미 정보도 나타낼 수 있다.
포토 스토리 작성부(331)는 태그 데이터베이스(324)에 저장된 태그들을 참조하여 포토 스토리를 작성한다. 구체적으로는, 태그들을 분석하여 포토 스토리의 토픽을 선정하고, 그 토픽과 관련된 포토 스토리 템플릿에 따라 포토 스토리 파일을 생성한다. 포토 스토리 템플릿에 대한 보다 상세한 설명은 도 6과 함께 후술한다.
포토 스토리 작성부(331)에 의해 생성된 포토 스토리 파일은 포토 스토리 데이터베이스(332)에 저장된다. 포토 스토리 파일은 포토 스토리의 구조를 정의하므로, 포토 스토리에 사용된 포토 이미지들의 식별자, 포토 이미지들의 순서, 시각적 효과(예를 들면, 밝기 조절), 배경 음악 등을 포함할 수 있다.
포토 스토리 관리부(333)는 사용자 단말로 포토 스토리 파일을 송신한다.
사용자 단말의 포토 스토리 파싱부(341)는 포토 스토리 파일을 파싱하여 포토 스토리의 재생에 필요한 포토 이미지 및 관련 데이터를 이미지 데이터베이스(312)로부터 로딩한다. 포토 스토리 재생부(342)는 포토 스토리 파싱부(341)로부터 포토 이미지와 관련 데이터를 전달받아 포토 스토리를 렌더링한다. 피드백 관리부(343)는 만약 사용자가 포토 스토리를 편집하거나 삭제하면 이를 포토 스토리 관리부(333)에게 알리고, 포토 스토리 관리부(333)는 사용자의 커맨드를 반영하여 포토 스토리 데이터베이스(332)에 저장된 포토 스토리 파일을 업데이트한다.
도 4는 본 발명의 일 실시예에 따라 포토 이미지들로부터 의미 정보(semantic information)를 추출하는 방법을 설명하기 위한 개념도이다.
다양한 포토 이미지들의 내용을 예측하기 위해, 다른 말로 하면 포토 이미지로부터 의미 정보를 추출하기 위해서는 기계 학습 기법(machine learning technique)이 이용될 수 있다. 구체적으로, 모델 학습 모듈(402)은 적어도 하나의 학습 알고리듬을 훈련 이미지들에 적용함으로써 포토 이미지들의 시각적 내용을 분석하는데 이용될 분류자들(classifiers), 즉 시각적 패턴 인식 모델들(403)을 얻을 수 있다. 이 모델들(403)은 포토 이미지(404)의 시각적 내용을 예측한다. 예를 들면, 어떤 모델은 안면 인식을 위한 분류자로 기능하고 어떤 모델은 고양이 인식을 위한 분류자로 기능할 수 있다.
훈련 이미지 데이터베이스(401)는 모델 학습 모듈(402)이 모델들(403)을 생성하기 위해 필요한 훈련 이미지들을 포함한다. 모델 학습 모듈(402)의 학습 알고리듬은 훈련 이미지 데이터 집합을 훈련 데이터(training data)와 검증 데이터(validation data)로 나누기 위해 반복 무작위 서브 샘플링(repeated random sub-sampling), n차 교차 검증(n-fold cross validation), 하나 남기기(leave-one-out) 등의 분할 기법을 사용할 수 있다.
훈련 이미지들이 모델 학습기(402)에 입력되기 전 또는 실제 분석해야 할 새로운 이미지들(404)에 모델이 적용되기 전에 이러한 이미지들에 대해 전처리(pre-processing) 과정이 수행될 수 있다. 포토 이미지들을 분석하여 그 내용에 따라(예를 들면, 감지되는 오브젝트에 따라) 효과적으로 분류하기 위해서는 포토 이미지들의 특징(feature)들을 어떠한 표현 형식(representation)으로 모델링할 것인지가 매우 중요한데, 전처리 과정은 이러한 표현 형식(representation)을 최적화하는데 가장 큰 목적이 있다. 예를 들면, 크기 조절(resizing), 잘라내기(cropping), 명암 대비 정규화(contrast normalization), 노이즈 감소(noise reduction) 등을 통해 이미지에서 불필요한 특징들을 제거할 수 있다.
이미지 표현 형식은 사람의 신경망을 모델로 하는 기계 학습 기법의 일종인 심화 신경망(Deep Neural Network) 아키텍쳐를 통해 결정되는 것이 바람직하다. 일반적으로 포토 스토리를 생성하기 위해 이용되는 포토 이미지들은 대부분 개인들에 의해 촬영된 것이어서 예측하기가 매우 어렵고 훈련 데이터의 양도 적은데, 심화 신경망을 통해 결정된 이미지 표현 형식은 특정한 토픽과 관련 없이 다양한 포토 이미지들에 대해 일반적으로 적용할 수 있기 때문이다.
모델 학습 모듈(402)에 의해 생성된 모델들(403)은 포토 이미지(404)들을 예측하고 평가한다. 예를 들면, 모델들(403)은 각각 오브젝트 감지, 안면 인식, 시각적 심미감(visual aesthetics) 평가와 같은 작업들을 수행할 수 있으며 하나의 모델이 둘 이상의 작업에 할당될 수도 있다.
한편, 하나의 모델이 다른 모델에 의존적이 될 수도 있다. 예를 들면, 이미지에서 자동차를 감지하는 모델은 장면을 감지하는 모델이 '도로 장면'으로 분류한 경우에만 트리거될 수 있다. 또한, 예측의 분산(variance)을 줄이기 위해 서로 다른 모델들이 하나로 결합하여 동작할 수도 있다.
결국, 기계 학습을 통해 생성된 모델들(403)을 포토 이미지(404)에 적용함으로써 그 포토 이미지(404)의 내용이 예측되고, 예측된 내용을 나타내는 적어도 하나의 태그(405)가 생성된다. 따라서, 이 태그들은 이미지에 특정 오브젝트가 존재하는지 여부, 구체적인 오브젝트의 정체(identity), 감지된 오브젝트의 위치, 해당 이미지와 유사하거나 동일한 내용을 가지는 이미지를 가리키는 식별자, 비지도 기계 학습(unsupervised machine learning)을 통해 발견된 의미 정보 등을 나타낼 수 있다.
도 4에 도시된 바와 같이, 시각적 패턴 인식 모델들(403)을 생성하는 과정, 즉 훈련 단계는 실행 시간의 제약이 요구되지 않으므로 오프라인에서 수행될 수 있으며, 일단 모델들(403)이 학습되었으면 그 모델들은 새로운 학습 알고리듬을 도입하거나 새로운 훈련 이미지가 도입되지 않는 한 얼마든지 재사용될 수 있다. 포토 스토리를 생성하기 위해 모델들(403)을 포토 이미지들(404)에 적용하기 전에, 훈련 단계에서와 마찬가지로 포토 이미지들(404)에 대해 전처리 과정이 수행될 수 있다.
도 5는 본 발명의 일 실시예에 따라 서로 다른 포토 이미지들 간에 설정되는 교차점을 설명하기 위한 도면이다.
본 발명에 의한 포토 스토리 제공 시스템에서는 포토 이미지들의 시각적 내용을 분석하여 자동적으로 다양한 토픽의 포토 스토리를 생성하기 때문에, 동일하거나 기술적 또는 의미적으로 유사한 포토 이미지가 둘 이상의 서로 다른 포토 스토리에 공통적으로 이용될 수 있다. 이와 같이 복수의 포토 스토리에 공통적으로 사용된 동일 또는 유사한 이미지는 포토 스토리들 간의 교차점으로 기능할 수 있다. 포토 스토리를 재생하는 사용자 단말에서는 포토 스토리들 간의 교차점을 이용하여 사용자가 포토 스토리를 감상하는 도중 현재 표시된 포토 이미지와 높은 연관성이 있는 다른 포토 스토리로 점프할 수 있는 기능을 제공할 수 있다.
도 5에 도시된 바와 같이, 본 실시예에서는 '여행'이라는 포토 스토리에 사용된 포토 이미지들 중 사용자가 여행 중에 가족과 함께 찍은 사진이 '가족들'이라는 포토 스토리에도 이용되었다. 따라서, 이 두 이미지들은 서로 링크되어 두 포토 스토리들 간의 교차점으로 기능할 수 있다. 구체적으로, 사용자는 '여행' 포토 스토리를 감상하는 도중 그 이미지를 클릭(또는 터치)함으로써 '가족들' 포토 스토리로 즉시 이동할 수 있다. 여기서는 이미지를 클릭하는 방법으로 예시하였지만, 포토 스토리들 간에 점프할 수 있도록 하는 사용자 인터페이스는 특정한 것으로 한정되지 않는다. 예를 들면, 동일한 이미지가 '가족들' 포토 스토리에도 사용되었음을 알리는 메시지와 함께 사용자에게 '가족들' 포토 스토리로 이동할 것인지를 묻는 메뉴가 표시될 수도 있을 것이다.
두 포토 스토리들 간의 교차점이 되는 포토 이미지들은 반드시 동일할 필요는 없으며, 두 포토 이미지들이 단지 의미적으로만 유사하더라도 교차점이 될 수 있다.
도 6은 본 발명의 일 실시예에 따라 태그에 기초하여 포토 스토리를 생성하는 방법을 설명하는 개념도이다.
본 발명에 따른 시스템은 포토 이미지들로부터 생성된 태그들을 분석하여 그 포토 이미지들을 이용하여 어떤 포토 스토리를 만들 수 있을 것인지 판단한다. 템플릿 데이터베이스(602)에는 장면(scene)의 속성을 정의하는 장면 템플릿들과 포토 스토리의 구조를 정의하는 포토 스토리 템플릿들이 저장되어 있다. 즉, 장면 템플릿에서는 특정 장면에는 어떤 속성을 가진 포토 이미지들이 포함되어야 하는지 명시되어 있다. 따라서, 기계 학습 기법을 통해 태그 데이터베이스(601)에 저장된 태그들을 분류하면 포토 이미지들이 어떤 장면(scene)에 속하는지를 예측하고, 포토 이미지와 해당 장면이 매칭되는 수준을 평가(603)할 수 있다. 경우에 따라 하나의 포토 이미지가 둘 이상의 장면에 속할 수도 있다. 예를 들면, 사람이 자전거를 타고 있는 포토 이미지는 '스포츠' 장면에도 속할 수 있고, '인물' 장면에도 속할 수 있다.
템플릿 데이터베이스(602)에 저장된 포토 스토리 템플릿은 포토 스토리의 구조를 정의하며, 각 포토 스토리 템플릿에 필요한 장면들이 명시된다. 태그들에 대한 분석이 끝나면 포토 이미지들로 구성할 수 있는 장면들이 결정되므로 예측된 장면들이 조합으로 생성할 수 있는 후보 포토 스토리 템플릿들이 결정된다. 후보 포토 스토리 템플릿에 따라 포토 스토리가 생성되고, 포토 스토리 파일은 포토 스토리 데이터베이스(605)에 저장된다. 추후, 포토 스토리 데이터베이스(605)에 저장된 포토 스토리 파일은 사용자 단말로 송신되어 사용자에게 해당 포토 스토리가 제공된다.
바람직하게는 후보 포토 스토리 템플릿들 중에서 포토 이미지들이 일정 기준 이상으로 해당 장면들과 매칭하는 경우만 포토 스토리가 생성된다. 전술한 바와 같이, 포토 이미지들이 장면별로 분류될 때 해당 장면에 매칭되는 수준이 평가되기 때문에, 포토 스토리 템플릿들에 대해 포토 이미지들이 종합적으로 어느 정도 부합하는지 평가할 수 있고, 따라서 포토 스토리 완성도에 대해 후보 포토 스토리 템플릿들 간에 상대적으로 순위를 정할 수 있다.
도 7은 본 발명의 일 실시예에 따라 태그에 기초하여 포토 스토리를 생성하는 과정을 나타낸 순서도이다.
단계 701에서, 포토 이미지들의 태그들을 분석하여 포토 이미지들이 속하는 장면들을 예측한다. 이 때, 포토 이미지들이 해당 장면에 부합하는 레벨이 평가된다.
단계 702에서, 예측된 장면들의 조합으로 작성할 수 있는 토픽에 대응되는 후보 포토 스토리 템플릿을 결정한다.
단계 703에서, N개의 후보 포토 스토리 템플릿들의 완성도가 평가된다. 구체적으로, 포토 스토리들이 속하는 장면들을 예측할 때 해당 장면에 부합하는 레벨이 평가되므로, 결국 후보 포토 스토리 템플릿에 따라 포토 스토리를 구성했을 때 종합적으로 포토 이미지들이 후보 포토 스토리 템플릿에 부합하는 레벨 역시 평가될 수 있다.
단계 704에서, 단계 703에서의 평가 결과에 따라 후보 템플릿들 중 적어도 하나의 최종 포토 스토리 템플릿이 결정된다.
단계 705에서, 최종 포토 스토리 템플릿에 따라 포토 스토리가 생성되고 생성된 포토 스토리는 사용자에게 제공된다.
단계 706에서, 만약 사용자가 사용자 단말을 통해 포토 스토리를 편집하면 변경된 포토 스토리를 포토 스토리 데이터베이스에 저장한다.
도 8은 본 발명의 일 실시예에 따라 사용자의 휴대 기기에서 복수 개의 포토 스토리 제목들을 표시한 화면을 나타낸 도면이다. 이하에서, 포토 스토리 제목은 포토 스토리의 식별자에 대한 일례일 뿐이며 본 발명의 실시를 위해 다른 종류의 포토 스토리 식별자가 사용될 수 있음은 당업자에게 자명하게 이해될 수 있을 것이다.
왼쪽의 화면에서는 <Risoul 2014>라는 포토 스토리 제목(801)이 표시되어 있다. 또한 사용자의 휴대 기기에 저장된 포토 이미지들의 썸네일도 표시되고 또한 전체 포토 이미지들 중 어떤 부분이 그 포토 스토리에 포함되었는지를 나타내는 바(bar)도 표시된다.
만약 사용자가 왼쪽의 화면에서, 예를 들면 핀치 제스쳐를 통해, 줌 아웃을 하면 오른쪽과 같은 화면이 된다. 즉, 타임 라인이 줌 아웃되면서 왼쪽의 화면에서는 표시되지 않았던 더 이전 과거의 포토 스토리들에 대한 제목들도 표시된다. 구체적으로, 'Weekend in Lyon', 'Portugal 2014', 'Weekend in Lisbon' 세 개의 포토 스토리 제목들이 계층적으로 표시되어 있다. 즉, 'Risoul 2014' (802)에 'Weekend in Lyon' (803)이 포함되며, 'Portugal 2014' (804)에 'Weekend in Lisbon' (805)이 포함된다. 전술한 바와 같이, 본 발명에서 제안하는 시스템에서는 입력 포토 이미지들에 대해 기계 학습 기법을 통해 자동적으로 장면들이 예측되고 그에 따라 포토 스토리가 생성되어, 동일한 포토 이미지가 복수의 포토 스토리들에 공통적으로 사용될 수 있기 때문이다. 오른쪽의 화면에서 사용자가, 예를 들어 스프레드 제스쳐를 통해, 줌인 커맨드를 입력하면 화면은 다시 왼쪽과 같이 표시된다.
도 9는 본 발명의 일 실시예에 따라 사용자의 휴대 기기에서 포토 스토리 제목을 관련된 태그들과 함께 표시한 화면을 나타낸 도면이다.
왼쪽의 화면을 참조하면, 상단에 사용자가 선호하는 태그들(901)이 표시되어 있다. 이 선호 태그들은 입력 포토 이미지들의 태그들 중에서 출현 빈도에 따라 자동적으로 선택된 것들이다. 또는, 사용자가 선호 태그를 수동으로 지정하도록 하는 실시예도 가능할 것이다.
만약 사용자가 왼쪽 화면에서, 예를 들면 핀치 제스쳐를 통해, 줌 아웃을 하면 오른쪽과 같은 화면이 되어 왼쪽의 화면에서는 표시되지 않았던 더 이전 과거의 포토 스토리들에 대한 제목들도 표시된다. 반대로, 오른쪽의 화면에서 사용자가, 예를 들어 스프레드 제스쳐를 통해, 줌인 커맨드를 입력하면 화면은 다시 왼쪽과 같이 표시된다.
도 9에 도시된 바와 같이, 포토 스토리 제목(910)은 그 포토 스토리에 사용된 포토 이미지들의 속성을 나타내는 태그들(911,912)과 함께 표시된다. 따라서, 사용자는 어떤 포토 스토리에 어떤 내용들의 포토 이미지가 포함되어 있는지 해당 포토 스토리를 재생시키지 않고도 쉽고 간편하게 알 수 있다.
도 10a 및 도 10b는 본 발명의 일 실시예에 따라 휴대 기기에서 사용자가 관심 있는 태그와 관련된 포토 이미지들만 표시한 화면을 나타낸 도면이다.
도 9의 왼쪽 화면에서 사용자가 선호 태그들 중 <car>만을 선택하면 도 10a의 왼쪽 화면과 같이 포토 이미지들 중 태그에 <car>를 포함하지 않는 포토 이미지들이 어둡게 표시된다. 이 때 사용자가 다른 사진 숨기기 버튼(1001)을 누르면 화면은 오른쪽과 같이 바뀌어 어둡게 표시되어 있던 포토 이미지들이 아예 보이지 않게 된다. 오른쪽 화면에서 사용자가 모든 사진 표시 버튼(1002)을 누르면 다시 화면은 왼쪽과 같이 바뀐다. 만약 사용자가 <car> 태그만을 선택한 상태에서 포토 스토리를 슬라이드 쇼로 재생시키면 <car> 태그와 매핑된 포토 이미지들만 순차적으로 표시된다.
한편, 사용자가 선호 태그들 중 적어도 하나를 선택했을 때, 그 태그와 매핑된 포토 이미지를 포함하지 않는 포토 스토리의 제목은 화면에 표시되지 않는 것이 바람직하다.
도 10b는 도 10a와 유사한 실시예로서, 사용자가 선택한 태그와 관련된 포토 이미지만을 표시한다. 다만, 도 10a와 달리 포토 스토리의 제목이 관련된 태그들과 함께 표시된다.
사용자가 다른 사진 숨기기 버튼(1003)을 누르면 화면은 오른쪽과 같이 바뀌어 어둡게 표시되어 있던 포토 이미지들이 아예 보이지 않게 된다. 오른쪽 화면에서 사용자가 모든 사진 표시 버튼(1004)을 누르면 다시 화면은 왼쪽과 같이 바뀐다.
도 11a 및 도 11b는 본 발명의 일 실시예에 따라 휴대 기기에서 하나의 포토 스토리 제목이 선택되었을 때 표시되는 화면을 나타낸 도면이다.
도 8의 화면에서 사용자가 포토 스토리의 제목 <Risoul 2014>를 선택하면 도 11a의 왼쪽 화면이 표시된다. 즉, 포토 스토리에 포함된 포토 이미지들의 썸네일들이 표시된다. 왼쪽 화면에서 <모든 사진 표시> 버튼(1101)을 누르면 오른쪽 화면으로 바뀌고, 오른쪽 화면에서 <스토리 사진만 표시> 버튼(1102)을 누르면 왼쪽 화면으로 바뀐다.
오른쪽 화면은 포토 스토리의 장면들에 매칭되는 포토 이미지들 중 포토 스토리에는 포함되지 않은 포토 이미지들의 썸네일까지 모두 표시하고 있다. 동일하거나 유사한 태그들을 포함하는 포토 이미지들이 존재하는 경우 다양한 기준으로 평가할 때 품질이 더 좋은 포토 이미지가 포토 스토리에 포함되는 것이 바람직하다. 예를 들면, 해상도가 높거나 얼굴 부분의 이미지 블러가 적은 포토 이미지가 더 품질이 좋은 것으로 평가될 수 있다. 또한, 유사한 다른 포토 이미지가 없더라도 포토 이미지의 품질이 미리 정해진 기준을 넘지 못하면 포토 이미지에 사용되지 않도록 하는 것이 바람직하다.
도 11a의 화면들에 표시된 바와 같이, 사용자는 편집 버튼을 눌러서 포토 스토리를 편집할 수 있다. 구체적으로, 사용자는 포토 이미지를 포토 스토리에서 삭제하거나 새로운 포토 이미지를 포토 스토리에 추가할 수 있다.
본 실시예에서는 사용자가 포토 스토리 목록에서 하나를 선택했을 때 도 11a와 같이 우선 타임 라인 상의 썸네일들을 표시하고 별도의 버튼을 통해 슬라이드 쇼를 재생할 수 있도록 하였으나, 포토 스토리의 재생 방식은 특정한 것으로 한정하지 않는다. 예를 들면, 사용자가 포토 스토리의 제목을 클릭(또는 터치)하면 즉시 슬라이드 쇼 방식으로 포토 스토리가 재생될 수도 있다.
도 11b는 도 11a과 유사한 실시예로서, 포토 스토리의 목록에서 사용자가 선택한 포토 스토리에 포함된 포토 이미지들의 썸네일들이 표시된다. 왼쪽 화면에서 <모든 사진 표시> 버튼(1103)을 누르면 오른쪽 화면으로 바뀌고, 오른쪽 화면에서 <스토리 사진만 표시> 버튼(1104)을 누르면 왼쪽 화면으로 바뀐다.
다만, 본 실시예에서는 도 11a와 달리 포토 스토리의 제목이 관련된 태그들과 함께 표시된다. 왼쪽 화면을 보면 2014년 4월 20일자로 찍힌 2개의 포토 이미지가 포토 스토리에 포함되어 있고, 오른쪽 화면을 보면 동일자에 10개의 포토 이미지가 존재하는 것을 알 수 있다. 이로부터, 10개의 포토 이미지들 중 2개의 포토 이미지가 이 포토 스토리에 사용되었으며 왼쪽 화면에는 없으나 오른쪽 화면에는 표시되는 <ski>, <mountain>태그들은 나머지 8개 포토 이미지들로부터 생성된 것임을 알 수 있다.
도 12a 내지 도 12c는 본 발명의 일 실시예에 따라 휴대 기기에서 포토 스토리가 재생되는 화면을 나타낸 도면이다.
도 10a 내지 도 11b의 화면에서 사용자가 <슬라이드 쇼로 보기> 버튼을 누르면 포토 스토리에 포함된 포토 이미지들이 슬라이드 쇼로 재생되는데, 이 때 화면은 도 12a 내지 도 12c 중 하나와 같이 표시될 수 있다.
도 12a는 현재 표시되고 있는 포토 이미지에서 추출된 태그들을 표시한다. 본 실시예에서는 포토 이미지에서 인지된 오브젝트, 촬영 장소, 인물들, 촬영 날짜와 같은 속성들이 표시된다. 오브젝트, 인물들은 기계 학습 기법을 통해 얻어지는 의미 정보이고, 촬영 장소 및 촬영 날짜는 메타 데이터 분석을 통해 얻을 수 있다.
도 12b는 도 12a와 유사하지만, 화면 상단에 현재 재생 중인 포토 스토리의 제목을 표시하고 있다는 점이 도 12a와 다르다.
도 12c는 도 12a와 유사하지만, 화면 상단에 현재 선택된 태그가 표시되고 있는 점이 다르다. 도 10a 및 도 10b에서 전술한 바와 같이, 사용자는 특정 태그를 선택하여 그 태그와 관련 있는 포토 스토리들만을 브라우즈하거나, 하나의 포토 스토리 내에서 그 태그와 매핑된 포토 이미지들만을 브라우즈 할 수 있다.
도 13은 본 발명의 일 실시예에 따라 포토 스토리를 생성하는 장치의 구조를 나타낸 도면이다.
도 13에 도시된 바와 같이, 포토 스토리 생성 장치(1300)는 네트워크 인터페이스(1301), 이미지 데이터베이스(1302), 태그 생성부(1310), 태그 데이터베이스(1320), 장면 예측부(1330), 템플릿 검출부(1340), 템플릿 데이터베이스(1350), 포토 스토리 생성부(1360)를 포함한다.
네트워크 인터페이스(1301)는 입력 포토 이미지들을 외부, 즉 사용자 단말, 멀티미디어 컨텐츠 공유 서비스를 제공하는 서버, 소셜 네트워크 서비스를 제공하는 서버 등으로부터 수신하고, 포토 스토리 파일을 사용자 단말로 송신한다. 통신 프로토콜은 특정한 것으로 한정되지 않는다. 여기서는 포토 스토리를 재생하는 사용자 단말과 포토 스토리를 생성하는 장치(1300)가 별개의 장치인 것으로 가정하고 있으나 포토 스토리를 생성하고 재생하는 시스템 전체가 하나의 기기 내에 구현될 수도 있다.
이미지 데이터베이스(1302)는 포토 스토리의 생성을 위해 입력된 포토 이미지들을 저장한다.
태그 생성부(1310)는 오브젝트 인지부(311)와 속성 결정부(1312)를 포함하며, 기계 학습 기법을 이용하여 입력 포토 이미지들을 분석하고, 포토 이미지의 내용에 대한 속성을 나타내는 태그들을 생성한다. 구체적으로, 포토 이미지에서 인지된 오브젝트나 액션, 인물 표정 등이 모두 태그로 생성될 수 있다. 오브젝트 인지부(1311)는 훈련 이미지들을 통해 학습된 시각적 패턴 인식 모델들을 이용하여 포토 이미지들 상의 오브젝트, 액션 등을 인지한다. 이 과정에서 포토 이미지 파일의 메타 데이터는 물론, 픽셀 정보, 경계 히스토그램, 컬러 히스토그램 등의 포토 이미지에 대한 기술적인 정보가 참조될 수 있다. 속성 결정부(1312)는 포토 이미지 상에서 인지된 오브젝트나 액션에 기초하여 포토 이미지들의 내용에 관련된 속성을 결정한다. 예를 들면, 포토 이미지의 평균 밝기가 높고 두명의 사람, 자전거, 헬멧 등이 인지된 포토 이미지의 경우 <사람들>, <자전거>, <헬멧>과 같은 태그들이 해당 포토 이미지에 매핑된다. 나아가, 기계 학습 기법을 통해 인지된 오브젝트들로부터 <야외 활동>이라는 속성이 추론될 수 있다.
나아가, 속성 결정부(1312)는 포토 이미지들 간에 동일하거나 유사한 포토 이미지들을 검출하여 해당 이미지들의 태그에 반영한다. 포토 이미지들 간의 유사도를 참조하면 중복된 이미지가 동일한 포토 스토리에 사용되는 것을 방지할 수 있다. 또한, 포토 스토리를 생성할 때 품질이 낮은 이미지가 포함된 경우 그 이미지를 기존과 동일하거나 유사한 내용을 가지면서도 품질이 더 좋은 이미지로 대체할 수 있다.
태그 데이터베이스(1320)에는 포토 이미지의 내용 분석을 통해 생성된 태그들이 저장된다.
장면 예측부(1330)는 태그 데이터베이스(1320)에 저장된 태그들에 기초하여 포토 이미지들이 어떤 장면에 매칭되는지 예측한다. 이 때, 템플릿 데이터베이스(1350)에 저장된 장면 템플릿이 참조된다. 장면 템플릿은 하나의 장면에 어떠한 속성의 포토 이미지들이 포함되는지를 명시한다. 예를 들면, <해변에서의 여가> 장면을 위한 장면 템플릿은 사람들과 해변이 포함된 포토 이미지가 3장 이상 필요하다고 명시할 수 있다.
템플릿 검출부(1340)는 장면 예측부(1330)에서 예측한 장면들에 기초하여 템플릿 데이터베이스(1350)에 저장된 포토 스토리 템플릿들 중 입력 포토 이미지들과 매칭되는 포토 스토리 템플릿들을 검출한다.
템플릿 데이터베이스(1350)는 포토 스토리 템플릿과 장면 템플릿들이 저장된다.
포토 스토리 템플릿은 어떤 장면들로 구성되는지를 명시하고 있으며, 나아가 포토 스토리의 스토리 라인을 정의한다. 예를 들면, 포토 스토리 템플릿은 포토 스토리에 선택된 포토 이미지들을 단순히 시간적 순서로 배치하지 않고 아리스토텔레스의 3장 구조(Three-Act Structure)에 따라 시작-중간-결말의 구조를 가지는 스토리 라인에 따라 배치할 수 있다.
포토 스토리 템플릿은 일반적으로 미리 생성되지만, 전술한 바와 같이 입력 포토 이미지들에 대한 내용 분석 과정에서 기계 학습 기법을 통해 새롭게 발견될 수도 있다.
포토 스토리 생성부(1360)는 포토 스토리 템플릿에 따라 포토 스토리를 생성하며, 평가부(1361), 선택부(1362), 포토 스토리 작성부(1363)을 포함한다. 평가부(1361)는 템플릿 검출부(1340)에 의해 검출된 후보 포토 스토리 템플릿들이 입력 포토 이미지들과 얼마나 잘 부합하는지 평가한다. 구체적으로, 후보 템플릿들 각각에 대해 포토 이미지들로 해당 포토 스토리에 필요한 장면들을 구성했을 때, 그 포토 이미지들이 종합적으로 그 포토 스토리 템플릿에 부합하는 수준을 평가한다.
선택부(1362)는 평가부(1361)의 평가 결과에 따라 후보 포토 스토리 템플릿들 중 최종적으로 사용자에게 제공할 포토 스토리에 대한 템플릿을 선택한다. 즉, 입력 포토 이미지들이 속하는 장면들의 조합을 이용하여 포토 스토리를 생성할 때 가장 잘 매칭되는 포토 스토리가 어떤 것인지 선택한다.
포토 스토리 작성부(1363)는 선택부(1362)에 의해 선택된 적어도 하나의 포토 스토리 템플릿에 따라 포토 스토리를 생성한다. 포토 스토리 템플릿에서 요구하는 장면에 필요한 이미지가 입력 포토 이미지들 중에서 찾을 수 없는 경우, 인터넷에서 적절한 이미지를 검색하여 다운로드 할 수도 있다. 예를 들면, <뉴욕 여행> 포토 스토리 템플릿에서 요구하는 타임 스퀘어 사진을 입력 포토 이미지들에서 찾을 수 없는 경우 인터넷에서 다운로드하여 포토 스토리에 사용할 수 있다.
도 14는 본 발명의 일 실시예에 따라 포토 스토리를 재생하는 사용자 단말의 구조를 나타낸 도면이다.
여기서는 포토 스토리를 재생하는 사용자 단말이 도 13에 도시된 포토 스토리 생성 장치와 별개의 장치인 것으로 가정하고 있으나, 전술한 바와 같이 포토 스토리를 생성하는 장치가 사용자 단말 내에 구현될 수도 있다. 한편, 본 발명에 따라 포토 스토리를 재생하는 사용자 단말(1300)은 스마트 폰, 태블릿, PC 등이 될 수 있으며 특정한 것으로 한정되지 않으며, 반드시 휴대 기기로 한정되는 것도 아니다.
이동 통신부(1401)는 3G/4G와 같은 이동 통신 네트워크를 통해 기지국과의 호 설정, 데이터 통신 등을 수행한다. 서브 통신부(1402)는 블루투스나 NFC 등 근거리 통신을 위한 프로세스를 수행한다. 방송부(1403)는 DMB (Digital Multimedai Broadcasting) 신호를 수신한다.
카메라부(1404)는 사진이나 동영상을 촬영하기 위한 렌즈 및 광학 소자들을 포함한다. 도 14에는 두 개의 카메라가 구비된 것으로 도시되었으나 실시예에 따라 하나의 카메라가 포함될 수도 있도 있고 세 개 이상의 카메라들이 포함될 수도 있다.
센서부(1405)는 모바일 단말(1400)의 움직임을 감지하는 중력 센서, 빛의 밝기를 감지하는 조도 센서, 사람의 근접도를 감지하는 근접 센서, 사람의 움직임을 감지하는 모션 센서 등을 포함할 수 있다.
GPS 수신부(1406)는 인공 위성으로부터 GPS 신호를 수신한다. 이러한 GPS 신호를 이용하여 다양한 서비스가 사용자에게 제공될 수 있다.
입출력부(1410)은 외부 기기나 사람과의 인터페이스를 제공하며, 도시하지는 않았으나 버튼, 마이크, 스피커, 진동 모터, 커넥터, 키패드 등을 포함한다.
터치 스크린(1418)은 사용자의 터치 입력을 수신한다. 여기서의 터치 입력은 핀치(pinch), 스프레드(spread), 드래그(drag), 탭(tap) 등 다양한 제스쳐에 의해 감지된다. 터치 스크린 컨트롤러(1417)는 터치 스크린(1418)을 통해 입력된 터치 입력을 제어부(1450)에 전달한다. 전원 공급부(1419)는 모바일 단말(1400)에 필요한 전력을 공급하기 위해 배터리 또는 외부 전원 소스와 연결된다.
제어부(1450)는 메모리(1460)에 저장된 프로그램들을 실행함으로써 도 14에 도시된 유닛들을 제어하고, 모바일 단말(1400)의 다양한 기능들을 수행한다.
메모리(1460)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 이동 통신 모듈(1461), Wi-Fi 모듈(1462), 블루투스 모듈(1463), DMB 모듈(1462), 카메라 모듈(1465), 센서 모듈(1466), GPS 모듈(1467), 포토 스토리 처리 모듈(1468), 동영상 재생 모듈(1469), 오디오 재생 모듈(1470) 등으로 분류될 수 있다.
각 모듈들은 해당 기능을 수행하기 위한 명령어들을 포함하며, 모듈들의 기능은 그 명칭으로부터 당업자가 직관적으로 추론할 수 있을 것이므로 여기서는 본 발명에 따라 포토 스토리를 처리하는 포토 스토리 모듈(1468)에 대해서만 설명하기로 한다.
포토 스토리 모듈(1468)은 입력 포토 이미지들의 태그들에 기초하여 생성된 포토 스토리들의 목록을 표시하고, 그 중에서 사용자 입력에 의해 선택된 포토 스토리를 재생한다.
포토 스토리들의 목록은 포토 스토리의 식별자(예를 들면 제목)들을 계층적으로 표시하며, 포토 스토리들의 목록에 포함된 포토 스토리 식별자는 해당 포토 스토리에 포함된 포토 이미지들과 함께 표시한다.
본 발명의 실시예들은 명확한 이해를 위해 서로 다른 기능적 유닛들 및 프로세스들을 참조하여 설명되었다. 그러나, 본 발명의 동일성을 해하지 않는 범위 내에서 서로 다른 기능적 유닛들이나 프로세서들 사이에 기능들이 적절히 분배될 수 있다는 것은 자명할 것이다. 예를 들면, 서로 독립적인 유닛들에 의해 수행되는 것으로 설명된 기능들은 단일한 유닛에 의해 수행될 수도 있으며 경우에 따라 유닛들이 가지는 기능들은 상호간에 교환될 수도 있다. 결국, 특정 기능 유닛들에 대한 인용은 엄격한 논리적 또는 물리적 구조나 조직을 가리키는 것이 아니라 단지 그 기능을 수행하는 적당한 수단을 언급하는 것으로 해석되어야 한다.
본 발명의 다양한 실시예들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합을 포함하여 어떤 적절한 형식으로든 구현될 수 있다. 본 발명은 몇몇 실시예들을 통해 설명되었지만, 본 발명의 기술적 사상은 여기 설명된 특정한 실시예에 한정되는 것은 아니다. 본 발명의 범위는 특허청구범위에 의해서만 한정된다. 또한, 본 발명의 특징이 일부 실시예와 관련해서만 설명된 것처럼 보일지라도, 본 발명이 속한 기술 분야에서 통상의 지식을 가진자에게 전술한 실시예들이 결합될 수 있음은 자명할 것이다. 특허청구범위에서, '포함한다'는 용어는 다른 구성 요소들이나 단계들이 더 존재할 수 있음을 배제하는 것은 아니다.
나아가, 많은 수단들, 구성 요소들, 단계들은 일일이 나열되기는 했지만 하나의 유닛이나 프로세서에 의해 구현될 수 있다. 또한, 개별적인 특징들이 서로 다른 청구항에 포함되어 있더라도 이들은 결합될 수 있으며, 서로 다른 청구항에 포함되어 있다고 하여 이 특징들을 서로 결합하는 것이 불가능하다거나 유리하지 않다는 것을 의미하지는 않는다. 또한, 클레임들 중 하나의 카테고리에만 포함된 특징은 그 카테고리에만 한정되는 것이 아니며 동등하게 다른 카테고리 클레임에도 적절한 방식으로 적용될 수 있다.

Claims (27)

  1. 포토 스토리를 생성하는 방법에 있어서,
    복수의 포토 이미지들 각각에 대해 포토 이미지의 내용에 관한 속성을 나타내는 태그들을 생성하는 단계;
    상기 생성된 태그들에 기초하여 상기 포토 이미지들이 의미하는 장면들을 예측하는 단계;
    상기 예측된 장면들에 기초하여 상기 예측된 장면들의 조합으로 구성되는 적어도 하나의 포토 스토리를 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 태그들을 생성하는 단계는,
    훈련 이미지들을 통해 학습된 시각적 패턴 인식 모델들을 이용하여 상기 포토 이미지들 상의 오브젝트들을 인지하는 단계;
    상기 인지된 오브젝트들에 기초하여 상기 포토 이미지들의 내용에 관련된 속성을 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서,
    상기 적어도 하나의 포토 스토리를 생성하는 단계는,
    포토 스토리의 구조를 정의하는 복수의 템플릿들 중 상기 예측된 장면들을 포함하는 후보 템플릿들을 검출하는 단계;
    상기 후보 템플릿들 각각에 대해 상기 예측된 장면들에 속하는 포토 이미지들이 종합적으로 해당 템플릿에 부합하는 수준을 평가하는 단계;
    상기 평가에 의한 결과에 따라 상기 후보 템플릿들 중 적어도 하나를 최종 템플릿으로 선택하는 단계;
    상기 선택된 최종 템플릿에 따라 사용자에게 최종적으로 제공할 적어도 하나의 포토 스토리를 작성하는 단계를 포함하는 것을 특징으로 하는 방법.
  4. 제3항에 있어서,
    상기 복수의 템플릿들은 미리 정해진 것이거나 또는 상기 포토 이미지들에 대한 비지도 기계 학습(unsupervised machine learning) 기법을 통해 자동적으로 생성된 것임을 특징으로 하는 방법.
  5. 제1항에 있어서,
    미리 정해진 기준에 따라 상기 복수의 포토 이미지들 중 서로 동일하거나 유사한 것으로 판단되는 중복 이미지들을 검출하는 단계를 더 포함하며,
    상기 적어도 하나의 포토 스토리를 생성하는 단계는, 상기 중복 이미지들이 함께 동일한 포토 스토리에 부합하면 중복 이미지들 중 하나를 최종적으로 해당 포토 스토리에 사용될 이미지로 선택하는 단계를 포함하는 것을 특징으로 하는 방법.
  6. 제3항에 있어서,
    상기 적어도 하나의 포토 스토리를 생성하는 단계는,
    상기 최종 템플릿에서 요구하는 장면에 필요한 이미지들 중 일부를 인터넷으로부터 다운로드하는 단계를 포함하는 것을 특징으로 하는 방법.
  7. 제1항에 있어서,
    사용자 단말, 멀티미디어 컨텐츠 공유 서비스를 제공하는 서버, 소셜 네트워크 서비스를 제공하는 서버 중 적어도 하나로부터 상기 복수의 포토 이미지들을 수집하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  8. 복수의 포토 이미지들 각각에 대해 포토 이미지의 내용에 관한 속성을 나타내는 태그들을 생성하는 태그 생성부;
    상기 생성된 태그들에 기초하여 상기 포토 이미지들이 의미하는 장면들을 예측하는 장면 예측부;
    상기 예측된 장면들에 기초하여 상기 예측된 장면들의 조합으로 구성되는 적어도 하나의 포토 스토리를 생성하는 포토 스토리 생성부를 포함하는 것을 특징으로 하는 포토 스토리 생성 장치.
  9. 제8항에 있어서,
    상기 태그 생성부는,
    훈련 이미지들을 통해 학습된 시각적 패턴 인식 모델들을 이용하여 상기 포토 이미지들 상의 오브젝트들을 인지하는 오브젝트 인지부;
    상기 인지된 오브젝트들에 기초하여 상기 포토 이미지들의 내용에 관련된 속성을 결정하는 속성 결정부를 포함하는 것을 특징으로 하는 포토 스토리 생성 장치.
  10. 제8항에 있어서,
    상기 포토 스토리 생성부는,
    포토 스토리의 구조를 정의하는 복수의 템플릿들 중 상기 예측된 장면들을 포함하는 후보 템플릿들을 검출하는 템플릿 검출부;
    상기 후보 템플릿들 각각에 대해 상기 예측된 장면들에 속하는 포토 이미지들이 종합적으로 해당 템플릿에 부합하는 수준을 평가하는 평가부;
    상기 평가에 의한 결과에 따라 상기 후보 템플릿들 중 적어도 하나를 최종 템플릿으로 선택하는 선택부;
    상기 선택된 최종 템플릿에 따라 사용자에게 최종적으로 제공할 적어도 하나의 포토 스토리를 작성하는 포토 스토리 작성부를 포함하는 것을 특징으로 하는 포토 스토리 생성 장치.
  11. 제10항에 있어서,
    상기 복수의 템플릿들은 미리 정해진 것이거나 또는 상기 포토 이미지들에 대한 비지도 기계 학습(unsupervised machine learning) 기법을 통해 자동적으로 생성된 것임을 특징으로 하는 포토 스토리 생성 장치.
  12. 제8항에 있어서,
    상기 속성 결정부는 미리 정해진 기준에 따라 상기 복수의 포토 이미지들 중 서로 동일하거나 유사한 것으로 판단되는 중복 이미지들을 검출하며,
    상기 포토 스토리 생성부는, 상기 중복 이미지들이 함께 동일한 포토 스토리에 부합하면 중복 이미지들 중 하나를 최종적으로 해당 포토 스토리에 사용될 이미지로 선택하는 것을 특징으로 하는 포토 스토리 생성 장치.
  13. 제10항에 있어서,
    상기 포토 스토리 작성부는,
    상기 최종 템플릿에서 요구하는 장면에 필요한 이미지들 중 일부를 인터넷으로부터 다운로드하는 것을 특징으로 하는 포토 스토리 생성 장치.
  14. 제8항에 있어서,
    사용자 단말, 멀티미디어 컨텐츠 공유 서비스를 제공하는 서버, 소셜 네트워크 서비스를 제공하는 서버 중 적어도 하나로부터 상기 복수의 포토 이미지들을 수신하는 네트워크 인터페이스를 더 포함하는 것을 특징으로 하는 포토 스토리 생성 장치.
  15. 사용자 단말에서 포토 스토리를 표시하는 방법에 있어서,
    복수의 포토 이미지들의 내용에 관한 속성을 나타내는 태그들에 기초하여 생성된 포토 스토리의 목록을 표시하는 단계;
    사용자 입력에 따라 상기 목록에서 선택된 포토 스토리를 재생하는 단계를 포함하는 것을 특징으로 하는 방법.
  16. 제15항에 있어서,
    상기 포토 스토리의 목록을 표시하는 단계는, 각 포토 스토리의 제목을 해당 포토 스토리에 포함된 포토 이미지들의 속성을 나타내는 태그들과 함께 표시하는 것을 특징으로 하는 방법.
  17. 제15항에 있어서,
    상기 포토 스토리의 목록을 표시하는 단계는, 복수의 제목들을 계층적으로 표시하는 것을 특징으로 하는 방법.
  18. 제15항에 있어서,
    상기 포토 이미지들의 태그들 중 미리 정해진 기준보다 높은 빈도로 검출된 태그인 선호 태그들을 표시하는 단계를 더 포함하고,
    상기 포토 스토리의 목록을 표시하는 단계는,
    상기 표시된 선호 태그들 중 사용자 입력에 의해 선택된 적어도 하나의 태그와 매핑된 포토 이미지를 포함하는 포토 스토리들의 목록을 표시하는 단계를 포함하는 것을 특징으로 하는 방법.
  19. 제15항에 있어서,
    상기 재생하는 단계는,
    상기 선택된 포토 스토리의 포토 이미지들 중 사용자가 지정한 태그와 매핑되는 포토 이미지들만을 표시하는 것을 특징으로 하는 방법.
  20. 제15항에 있어서,
    상기 재생하는 단계는,
    상기 선택된 포토 스토리의 포토 이미지들 중 다른 포토 스토리에도 포함된 포토 이미지가 표시되는 동안에는 상기 다른 포토 스토리로 점프할 수 있는 사용자 인터페이스를 제공하는 단계를 포함하는 것을 특징으로 하는 방법.
  21. 포토 스토리를 표시하는 프로그램을 저장하는 적어도 하나의 메모리; 및
    상기 적어도 하나의 메모리에 저장된 상기 프로그램을 실행하는 적어도 하나의 프로세서를 포함하며,
    상기 적어도 하나의 프로그램은,
    복수의 포토 이미지들의 내용에 관한 속성을 나타내는 태그들에 기초하여 생성된 포토 스토리의 목록을 표시하는 단계;
    사용자 입력에 따라 상기 목록에서 선택된 포토 스토리를 재생하는 단계를 수행하는 명령어들을 포함하는 것을 특징으로 하는 사용자 단말 장치.
  22. 제21항에 있어서,
    상기 포토 스토리의 목록을 표시하는 단계는, 각 포토 스토리의 제목을 해당 포토 스토리에 포함된 포토 이미지들의 속성을 나타내는 태그들과 함께 표시하는 것을 특징으로 하는 사용자 단말 장치.
  23. 제21항에 있어서,
    상기 포토 스토리의 목록을 표시하는 단계는, 복수의 제목들을 계층적으로 표시하는 것을 특징으로 하는 사용자 단말 장치.
  24. 제21항에 있어서,
    상기 포토 이미지들의 태그들 중 미리 정해진 기준보다 높은 빈도로 검출된 태그인 선호 태그들을 표시하는 단계를 더 포함하고,
    상기 포토 스토리의 목록을 표시하는 단계는,
    상기 표시된 선호 태그들 중 사용자 입력에 의해 선택된 적어도 하나의 태그와 매핑된 포토 이미지를 포함하는 포토 스토리들의 목록을 표시하는 단계를 포함하는 것을 특징으로 하는 사용자 단말 장치.
  25. 제21항에 있어서,
    상기 재생하는 단계는,
    상기 선택된 포토 스토리의 포토 이미지들 중 사용자가 지정한 태그와 매핑되는 포토 이미지들만을 표시하는 것을 특징으로 하는 사용자 단말 장치.
  26. 제21항에 있어서,
    상기 재생하는 단계는,
    상기 선택된 포토 스토리의 포토 이미지들 중 다른 포토 스토리에도 포함된 포토 이미지가 표시되는 동안에는 상기 다른 포토 스토리로 점프할 수 있는 사용자 인터페이스를 제공하는 단계를 포함하는 것을 특징으로 하는 사용자 단말 장치.
  27. 제1항 내지 제7항, 제15항 내지 제20항 중 어느 한 항에 의한 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020150006113A 2015-01-13 2015-01-13 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치 Active KR102290419B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150006113A KR102290419B1 (ko) 2015-01-13 2015-01-13 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치
US14/994,684 US10685460B2 (en) 2015-01-13 2016-01-13 Method and apparatus for generating photo-story based on visual context analysis of digital content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150006113A KR102290419B1 (ko) 2015-01-13 2015-01-13 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20160087222A true KR20160087222A (ko) 2016-07-21
KR102290419B1 KR102290419B1 (ko) 2021-08-18

Family

ID=56367788

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150006113A Active KR102290419B1 (ko) 2015-01-13 2015-01-13 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치

Country Status (2)

Country Link
US (1) US10685460B2 (ko)
KR (1) KR102290419B1 (ko)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018174314A1 (ko) * 2017-03-23 2018-09-27 스노우 주식회사 스토리영상 제작 방법 및 시스템
KR20190082270A (ko) * 2016-11-04 2019-07-09 딥마인드 테크놀로지스 리미티드 신경망을 이용한 장면 이해 및 생성
KR20190115161A (ko) * 2018-03-30 2019-10-11 (주)온넷시스템즈코리아 3차원 객체 생성 장치
KR20200075082A (ko) * 2018-12-10 2020-06-26 비비트리 주식회사 크라우드소싱 이미지의 초상권 및 재산권 등록 시스템 및 방법
KR20200093321A (ko) * 2019-01-28 2020-08-05 네이버 주식회사 이미지 검색 장치 및 방법
KR20210096749A (ko) * 2020-01-29 2021-08-06 고민규 스토리텔링 네비게이터를 이용하여 컨텐츠 제작 서비스를 제공하는 장치 및 방법
KR20220137161A (ko) * 2017-04-27 2022-10-11 스냅 인코포레이티드 지리공간적 활동 메트릭들을 표시하는 지도-기반 그래픽 사용자 인터페이스
KR102560610B1 (ko) * 2022-10-27 2023-07-27 주식회사 일만백만 동영상 자동 생성을 위한 참조 영상 데이터 추천 방법 및 이를 실행하는 장치
US11893647B2 (en) 2017-04-27 2024-02-06 Snap Inc. Location-based virtual avatars
WO2024091086A1 (ko) * 2022-10-27 2024-05-02 주식회사 일만백만 영상 스킵 기능 제공 방법 및 영상 스킵 기능 제공 장치
US12058583B2 (en) 2017-04-27 2024-08-06 Snap Inc. Selective location-based identity communication
US12316589B2 (en) 2016-10-24 2025-05-27 Snap Inc. Generating and displaying customized avatars in media overlays

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9471200B2 (en) * 2013-03-15 2016-10-18 Apple Inc. Device, method, and graphical user interface for organizing and presenting a collection of media items
US9769367B2 (en) 2015-08-07 2017-09-19 Google Inc. Speech and computer vision-based control
US9838641B1 (en) 2015-12-30 2017-12-05 Google Llc Low power framework for processing, compressing, and transmitting images at a mobile image capture device
US10732809B2 (en) 2015-12-30 2020-08-04 Google Llc Systems and methods for selective retention and editing of images captured by mobile image capture device
US10225511B1 (en) 2015-12-30 2019-03-05 Google Llc Low power framework for controlling image sensor mode in a mobile image capture device
US9836484B1 (en) * 2015-12-30 2017-12-05 Google Llc Systems and methods that leverage deep learning to selectively store images at a mobile image capture device
US9836819B1 (en) 2015-12-30 2017-12-05 Google Llc Systems and methods for selective retention and editing of images captured by mobile image capture device
US9986080B2 (en) * 2016-06-24 2018-05-29 Sandisk Technologies Llc Mobile device and method for displaying information about files stored in a plurality of storage devices
CN109716275B (zh) * 2016-09-19 2022-07-05 三星电子株式会社 基于个性化主题以多维模式来显示图像的方法
US10334254B2 (en) * 2016-09-23 2019-06-25 Apple Inc. Feed-forward and feed-back metadata exchange in image processing pipelines to improve image quality
US10152641B2 (en) * 2017-01-20 2018-12-11 Jack Cooper Logistics, LLC Artificial intelligence based vehicle dashboard analysis
US10311305B2 (en) * 2017-03-20 2019-06-04 Honeywell International Inc. Systems and methods for creating a story board with forensic video analysis on a video repository
US10380493B2 (en) * 2017-04-17 2019-08-13 Essential Products, Inc. System and method for generating machine-curated scenes
US10248891B2 (en) 2017-06-20 2019-04-02 At&T Intellectual Property I, L.P. Image prediction
US10664966B2 (en) 2018-01-25 2020-05-26 International Business Machines Corporation Anomaly detection using image-based physical characterization
US10884769B2 (en) * 2018-02-17 2021-01-05 Adobe Inc. Photo-editing application recommendations
US10664650B2 (en) * 2018-02-21 2020-05-26 Microsoft Technology Licensing, Llc Slide tagging and filtering
US11036811B2 (en) 2018-03-16 2021-06-15 Adobe Inc. Categorical data transformation and clustering for machine learning using data repository systems
US10757323B2 (en) * 2018-04-05 2020-08-25 Motorola Mobility Llc Electronic device with image capture command source identification and corresponding methods
US11605242B2 (en) 2018-06-07 2023-03-14 Motorola Mobility Llc Methods and devices for identifying multiple persons within an environment of an electronic device
CN109068070A (zh) * 2018-07-10 2018-12-21 Oppo广东移动通信有限公司 视频生成方法及相关装置
US10915606B2 (en) 2018-07-17 2021-02-09 Grupiks Llc Audiovisual media composition system and method
US11100204B2 (en) 2018-07-19 2021-08-24 Motorola Mobility Llc Methods and devices for granting increasing operational access with increasing authentication factors
US11961216B2 (en) * 2019-04-17 2024-04-16 Shutterfly, Llc Photography session assistant
JP7541816B2 (ja) * 2019-08-08 2024-08-29 キヤノン株式会社 画像処理装置、制御方法及びプログラム
KR20210067699A (ko) * 2019-11-29 2021-06-08 삼성전자주식회사 전자 장치 및 그 제어 방법
US11030240B1 (en) 2020-02-17 2021-06-08 Honeywell International Inc. Systems and methods for efficiently sending video metadata
US11681752B2 (en) 2020-02-17 2023-06-20 Honeywell International Inc. Systems and methods for searching for events within video content
US11599575B2 (en) 2020-02-17 2023-03-07 Honeywell International Inc. Systems and methods for identifying events within video content using intelligent search query
CN111444367B (zh) * 2020-03-24 2022-10-14 哈尔滨工程大学 一种基于全局与局部注意力机制的图像标题生成方法
WO2023102041A1 (en) * 2021-11-30 2023-06-08 Schlumberger Technology Corporation Property modeling using attentive neural processes
CN118511169A (zh) * 2021-12-03 2024-08-16 奥斯米公司 Ai支持的原始文件管理
US12190270B2 (en) 2022-05-16 2025-01-07 Honeywell International Inc. Methods and systems for managing an incident
EP4581554A1 (en) * 2022-09-21 2025-07-09 Samsung Electronics Co., Ltd. Method and electronic device for creating continuity in a story

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100703812B1 (ko) * 2006-02-08 2007-04-09 삼성전자주식회사 휴대용 단말기의 사진 폴더 디스플레이 방법
KR100793989B1 (ko) * 2006-07-11 2008-01-16 삼성전자주식회사 사진 카테고리 분류 방법 및 그 시스템

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020087546A1 (en) * 2000-01-31 2002-07-04 Michael Slater Apparatus, methods, and systems for digital photo management
US7289132B1 (en) 2003-12-19 2007-10-30 Apple Inc. Method and apparatus for image acquisition, organization, manipulation, and publication
US8385971B2 (en) * 2008-08-19 2013-02-26 Digimarc Corporation Methods and systems for content processing
US9600919B1 (en) * 2009-10-20 2017-03-21 Yahoo! Inc. Systems and methods for assembling and/or displaying multimedia objects, modules or presentations
US8345934B2 (en) * 2010-07-19 2013-01-01 Telefonica, S.A. Method for automatic storytelling for photo albums using social network context
JP5866728B2 (ja) * 2011-10-14 2016-02-17 サイバーアイ・エンタテインメント株式会社 画像認識システムを備えた知識情報処理サーバシステム
US9116924B2 (en) * 2013-01-14 2015-08-25 Xerox Corporation System and method for image selection using multivariate time series analysis
US20150220537A1 (en) * 2014-02-06 2015-08-06 Kibra Llc System & Method for Constructing, Augmenting & Rendering Multimedia Stories
US9507506B2 (en) * 2014-11-13 2016-11-29 Interactive Memories, Inc. Automatic target box in methods and systems for editing content-rich layouts in media-based projects
US20160188592A1 (en) * 2014-12-24 2016-06-30 Facebook, Inc. Tag prediction for images or video content items

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100703812B1 (ko) * 2006-02-08 2007-04-09 삼성전자주식회사 휴대용 단말기의 사진 폴더 디스플레이 방법
KR100793989B1 (ko) * 2006-07-11 2008-01-16 삼성전자주식회사 사진 카테고리 분류 방법 및 그 시스템

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12316589B2 (en) 2016-10-24 2025-05-27 Snap Inc. Generating and displaying customized avatars in media overlays
KR20220147154A (ko) * 2016-11-04 2022-11-02 딥마인드 테크놀로지스 리미티드 신경망을 이용한 장면 이해 및 생성
KR20190082270A (ko) * 2016-11-04 2019-07-09 딥마인드 테크놀로지스 리미티드 신경망을 이용한 장면 이해 및 생성
US11587344B2 (en) 2016-11-04 2023-02-21 Deepmind Technologies Limited Scene understanding and generation using neural networks
KR20210145297A (ko) * 2016-11-04 2021-12-01 딥마인드 테크놀로지스 리미티드 신경망을 이용한 장면 이해 및 생성
US11954142B2 (en) 2017-03-23 2024-04-09 Snow Corporation Method and system for producing story video
KR20190122860A (ko) * 2017-03-23 2019-10-30 스노우 주식회사 스토리영상 제작 방법 및 시스템
JP2020512759A (ja) * 2017-03-23 2020-04-23 スノー コーポレーション ストーリー映像制作方法およびストーリー映像制作システム
US11704355B2 (en) 2017-03-23 2023-07-18 Snow Corporation Method and system for producing story video
WO2018174314A1 (ko) * 2017-03-23 2018-09-27 스노우 주식회사 스토리영상 제작 방법 및 시스템
US12112013B2 (en) 2017-04-27 2024-10-08 Snap Inc. Location privacy management on map-based social media platforms
US12131003B2 (en) 2017-04-27 2024-10-29 Snap Inc. Map-based graphical user interface indicating geospatial activity metrics
KR20220137161A (ko) * 2017-04-27 2022-10-11 스냅 인코포레이티드 지리공간적 활동 메트릭들을 표시하는 지도-기반 그래픽 사용자 인터페이스
US12223156B2 (en) 2017-04-27 2025-02-11 Snap Inc. Low-latency delivery mechanism for map-based GUI
US12340064B2 (en) 2017-04-27 2025-06-24 Snap Inc. Map-based graphical user interface indicating geospatial activity metrics
US11995288B2 (en) 2017-04-27 2024-05-28 Snap Inc. Location-based search mechanism in a graphical user interface
US12086381B2 (en) 2017-04-27 2024-09-10 Snap Inc. Map-based graphical user interface for multi-type social media galleries
US11893647B2 (en) 2017-04-27 2024-02-06 Snap Inc. Location-based virtual avatars
US12058583B2 (en) 2017-04-27 2024-08-06 Snap Inc. Selective location-based identity communication
KR20190115161A (ko) * 2018-03-30 2019-10-11 (주)온넷시스템즈코리아 3차원 객체 생성 장치
KR20200075082A (ko) * 2018-12-10 2020-06-26 비비트리 주식회사 크라우드소싱 이미지의 초상권 및 재산권 등록 시스템 및 방법
JP2020119566A (ja) * 2019-01-28 2020-08-06 ネイバー コーポレーションNAVER Corporation イメージ検索装置及びその方法
JP7282218B2 (ja) 2019-01-28 2023-05-26 ネイバー コーポレーション イメージ検索方法及び装置
JP2022044687A (ja) * 2019-01-28 2022-03-17 ネイバー コーポレーション イメージ検索方法及び装置
JP7013497B2 (ja) 2019-01-28 2022-01-31 ネイバー コーポレーション イメージ検索装置及びその方法
KR20200093321A (ko) * 2019-01-28 2020-08-05 네이버 주식회사 이미지 검색 장치 및 방법
KR20210096749A (ko) * 2020-01-29 2021-08-06 고민규 스토리텔링 네비게이터를 이용하여 컨텐츠 제작 서비스를 제공하는 장치 및 방법
WO2024091084A1 (ko) * 2022-10-27 2024-05-02 주식회사 일만백만 동영상 자동 생성을 위한 참조 장면 추천 방법 및 참조 장면 추천 장치
WO2024091086A1 (ko) * 2022-10-27 2024-05-02 주식회사 일만백만 영상 스킵 기능 제공 방법 및 영상 스킵 기능 제공 장치
KR102560610B1 (ko) * 2022-10-27 2023-07-27 주식회사 일만백만 동영상 자동 생성을 위한 참조 영상 데이터 추천 방법 및 이를 실행하는 장치

Also Published As

Publication number Publication date
US20160203386A1 (en) 2016-07-14
KR102290419B1 (ko) 2021-08-18
US10685460B2 (en) 2020-06-16

Similar Documents

Publication Publication Date Title
KR102290419B1 (ko) 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치
US10979761B2 (en) Intelligent video interaction method
US9870798B2 (en) Interactive real-time video editor and recorder
US9779775B2 (en) Automatic generation of compilation videos from an original video based on metadata associated with the original video
US10192583B2 (en) Video editing using contextual data and content discovery using clusters
JP5791605B2 (ja) メタデータのタグ付けシステム、イメージ検索方法、デバイス及びそれに適用されるジェスチャーのタグ付け方法
EP2710594B1 (en) Video summary including a feature of interest
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
US20160080835A1 (en) Synopsis video creation based on video metadata
CN111930994A (zh) 视频编辑的处理方法、装置、电子设备及存储介质
US20160099023A1 (en) Automatic generation of compilation videos
US20160071549A1 (en) Synopsis video creation based on relevance score
CN113709561A (zh) 视频剪辑方法、装置、设备及存储介质
CN105302315A (zh) 图片处理方法及装置
US11880918B2 (en) Method for dynamic creation of collages from mobile video
KR102072022B1 (ko) 관심영역 기반의 영상요약 장치와 그를 위한 컴퓨터로 읽을 수 있는 기록 매체
US9449646B2 (en) Methods and systems for media file management
KR20160065670A (ko) 컨텐트를 제공하는 방법 및 디바이스
WO2014179749A1 (en) Interactive real-time video editor and recorder
CN113992973A (zh) 视频摘要生成方法、装置、电子设备和存储介质
JPWO2008136466A1 (ja) 動画編集装置
Husa et al. HOST-ATS: automatic thumbnail selection with dashboard-controlled ML pipeline and dynamic user survey
CN113709545A (zh) 视频的处理方法、装置、计算机设备和存储介质
CN112165626B (zh) 图像处理方法、资源获取方法、相关设备及介质
KR20140033667A (ko) 객체 기반 동영상 편집 장치 및 방법

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20150113

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20200113

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 20150113

Comment text: Patent Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20201127

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20210514

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20210810

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20210811

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20240730

Start annual number: 4

End annual number: 4