KR102762246B1

KR102762246B1 - 사용자 입력 기반 자동 영상 컨텐츠 제작방법

Info

Publication number: KR102762246B1
Application number: KR1020240067571A
Authority: KR
Inventors: 권택순; 배영하
Original assignee: (주)이스트소프트
Priority date: 2024-05-24
Filing date: 2024-05-24
Publication date: 2025-02-04
Anticipated expiration: 2044-05-24

Abstract

본 발명은 사용자 입력 기반 자동 영상 컨텐츠 제작방법으로서, 더 구체적으로는, 서비스서버가 사용자단말로부터 수신한 사용자텍스트를 거대언어모델에 입력하여 타이틀, 복수의 서브타이틀, 및 복수의 서브텍스트를 추출하여 복수의 서브타이틀 및 복수의 서브텍스트 각각에 상응하는 1 이상의 이미지를 생성한 뒤, 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지를 포함하는 복수의 슬라이드를 생성하고, 사용자단말을 통해 AI휴먼영상의 레이아웃 및 AI휴먼캐릭터가 설정되면 AI휴먼이 상기 서브텍스트를 발화하고 상기 복수의 슬라이드를포함하는 AI휴먼영상 및 AI휴먼영상 생성을 위한 편집인터페이스를 사용자단말로 제공하는, 사용자 입력 기반 자동 영상 컨텐츠 제작방법에 관한 것이다.

Description

사용자 입력 기반 자동 영상 컨텐츠 제작방법{The Method Of Producing Automatic Video Content Based On User Input}

본 발명은 사용자 입력 기반 자동 영상 컨텐츠 제작방법으로서, 더 구체적으로는, 서비스서버가 사용자단말로부터 수신한 사용자텍스트를 거대언어모델에 입력하여 타이틀, 복수의 서브타이틀, 및 복수의 서브텍스트를 추출하여 복수의 서브타이틀 및 복수의 서브텍스트 각각에 상응하는 1 이상의 이미지를 생성한 뒤, 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지를 포함하는 복수의 슬라이드를 생성하고, 사용자단말을 통해 AI휴먼영상의 레이아웃 및 AI휴먼캐릭터가 설정되면 AI휴먼이 상기 서브텍스트를 발화하고 상기 복수의 슬라이드를 포함하는 AI휴먼영상 및 AI휴먼영상 생성을 위한 편집인터페이스를 사용자단말로 제공하는, 사용자 입력 기반 자동 영상 컨텐츠 제작방법에 관한 것이다.

모바일 빅데이터 플랫폼 ‘모바일 인덱스’의 조사에 따르면, 2023년 12월부터 2024년 3월까지 한국인이 가장 많이 사용하는 어플은 유튜브로 집계되었고, 2023년 12월 유튜브의 월 순이용자는 4,565만 명으로 나타났다. 이처럼 최근 SNS에서는 영상 컨텐츠가 많은 인기를 끌고 있으며, 기업의 광고나 선거에 대한 홍보에 있어서도 영상 컨텐츠를 제작하여 SNS에 올리기도 한다. 이처럼, 영상 컨텐츠는 시청자의 집중력과 흥미를 일으켜 효과적으로 메시지를 전달하거나 기억에 남길 수 있다.

한편, 현재 영상을 제작하는 과정에는 시간이 많이 소요되고 전문적인 지식 및 연습이 필요할 수 있다. 따라서, 비전문가는 영상 제작에 대한 큰 어려움을 느낄 수 있다. 이러한 상황에서, 사용자가 간단한 내용만 입력하면 자동으로 전문적인 영상 컨텐츠를 제작해주는서비스가 필요한 상황이다. 따라서, 사용자가 텍스트를 입력하면 AI를 통해 관련 이미지를 자동으로 생성하고, 해당 이미지를 포함하여 AI휴먼이 스크립트를 발화하는 영상을 자동으로 제작한 후 사용자에게 제공하면 사용자가 해당 영상의 레이아웃이나 영상에 포함된 각각의 요소를 자유롭게 조정할 수 있는 서비스를 제공할 수 있는 기술이 요구되고 있다.

해당 분야의 종래기술로는 대한민국 등록특허 제10-2267673호와 같이, 사용자 체험형 동영상 컨텐츠 자동제작방법 및 시스템에 관한 기술이 있다. 그러나, 상기 종래기술의 경우, 사용자가 템플릿을 선택하면 사용자로부터 사진, 텍스트, 및 음악을 입력 받아 영상을 제작하여 사용자에게 제공하는 방법에 대해 시사하고 있으나, 전술한 바와 같이, AI를 통해 생성된 이미지를 포함하고 AI휴먼이 스크립트를 발화하는 영상을 자동적으로 제작하고 사용자가 자유롭게 편집할 수 있는 서비스를 제공하는 방안에 대해서는 전혀 개시하고 있지 않아, 이를 해결할 수 있는 기술이 요구되는 실정이다.

대한민국 등록특허 제10-2267673호 (2021.06.16.)

본 발명은 사용자 입력 기반 자동 영상 컨텐츠 제작방법으로서, 더 구체적으로는, 서비스서버가 사용자단말로부터 수신한 사용자텍스트를 거대언어모델에 입력하여 타이틀, 복수의 서브타이틀, 및 복수의 서브텍스트를 추출하여 복수의 서브타이틀 및 복수의 서브텍스트 각각에 상응하는 1 이상의 이미지를 생성한 뒤, 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지를 포함하는 복수의 슬라이드를 생성하고, 사용자단말을 통해 AI휴먼영상의 레이아웃 및 AI휴먼캐릭터가 설정되면 AI휴먼이 상기 서브텍스트를 발화하고 상기 복수의 슬라이드를포함하는 AI휴먼영상 및 AI휴먼영상 생성을 위한 편집인터페이스를 사용자단말로 제공하는, 사용자 입력 기반 자동 영상 컨텐츠 제작방법을 제공하는것을 목적으로 한다.

상기와 같은 과제를 해결하기 위하여, 본 발명의 일 실시예에서는, 1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅시스템에서 수행되는 사용자 입력 기반 자동 영상 컨텐츠 제작방법으로서, 사용자단말로부터 입력된 사용자텍스트에 기초하여 타이틀, 복수의 서브타이틀 및 복수의 서브텍스트를 추출하고 상기 복수의 서브타이틀 및 상기 복수의 서브텍스트와 관련된 1 이상의 생성이미지를 생성하는 데이터자동생성단계; 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지를 포함하는 복수의 슬라이드를 생성하는 슬라이드자동생성단계; 및 상기 서브텍스트를 발화하는 AI휴먼 및 상기 슬라이드를 포함하는 AI휴먼영상을 생성하고, 편집인터페이스를 사용자단말로 제공하는 AI휴먼영상생성단계;를 포함하는, 사용자 입력 기반 자동 영상 컨텐츠 제작방법을 제공한다.

본 발명의 일 실시예에서는, 상기 AI휴먼영상생성단계는, AI휴먼영상에 포함되는 타이틀, 서브타이틀, 및 생성이미지의 크기 및 위치를 조정하는 레이아웃조정인터페이스를 사용자단말로 제공하는 레이아웃설정단계; 사용자의 입력에 따라 복수의 영상으로 구현될 AI휴먼캐릭터에 정보가 설정되는 AI휴먼캐릭터설정단계; 및 사용자단말로 AI휴먼영상 생성을 위한 편집인터페이스를 제공하는 편집인터페이스제공단계;를 포함할수 있다.

본 발명의 일 실시예에서는, 상기 레이아웃조정인터페이스는, 전체 동영상에 대한 타이틀을 표시하는 타이틀레이어; 각각의 슬라이드에 대한 서브타이틀을 표시하는 서브타이틀레이어; 각각의 슬라이드에 자동적으로 배치된 생성이미지를 표시하는 생성이미지레이어; 각각의 슬라이드의 서브텍스트를 발화하는 AI휴먼이 표시되는 AI휴먼레이어; 및 상기 서브텍스트를 AI휴먼영상의 자막으로 표시하는 자막레이어;를 포함하고, 상기 레이아웃조정인터페이스를 통해 타이틀레이어, 서브타이틀레이어, 생성이미지레이어, AI휴먼레이어, 및 자막레이어의 위치 및 크기를 조정할 수 있다.

본 발명의 일 실시예에서는, 상기 데이터자동생성단계는, AI휴먼영상의 제목이나 주제와 관련된 사용자텍스트를 사용자단말로부터 수신하는 사용자텍스트수신단계; 상기 사용자텍스트를 서비스서버의 내부 혹은 외부의 거대언어모델에 입력하여, AI휴먼영상의 슬라이드에 포함될 타이틀, 복수의 서브타이틀 및 복수의 서브텍스트를 추출하는 서브텍스트추출단계; 및 상기 복수의 서브타이틀 및 복수의 서브텍스트 각각을 서비스서버의 내부 혹은 외부의 딥러닝 기반의 이미지생성모델에 입력하여, 상기 복수의 서브타이틀 및 복수의 서브텍스트 각각에 상응하는 1 이상의 생성이미지를 생성하는 이미지생성단계;를 포함할 수 있다.

본 발명의 일 실시예에서는, 상기 슬라이드자동생성단계는, 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지가 상이한 레이아웃으로 배치된 복수의 레이아웃템플릿을 사용자단말로 제공하고, 상기 사용자단말로부터 선택된 레이아웃템플릿의 형태로 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지를 배치하여 복수의 슬라이드를 생성할 수 있다.

본 발명의 일 실시예에서는, 상기 서브텍스트는 AI휴먼이 발화할 스크립트이고, 상기 편집인터페이스는, 상기 생성된 AI휴먼영상에 대한 프리뷰를 제공하는, 프리뷰레이어; 및 상기 서브텍스트에 대한 편집기능을 제공하는 스크립트레이어;를 포함하고, 상기 스크립트레이어는, 복수의 서브텍스트 각각이표시되고, 해당 서브텍스트에 대한 편집기능을 제공하는, 상기 서브텍스트 각각에 상응하는 복수의서브텍스트레이어;를 포함하고, 상기 서브텍스트레이어에는, 해당 서브텍스트레이어에 포함된 서브텍스트가 TTS로 음성으로 변환되는 경우, 음성의재생시간이 표시될 수 있다.

본 발명의 일 실시예에서는, 상기 서브텍스트레이어에는 제스처입력레이어가 표시될수 있고, 상기 제스처입력레이어는, 해당 서브텍스트레이어에 포함된 서브텍스트에 대한 AI휴먼영상에서의 상기 AI휴먼캐릭터의 제스처 종류, 및 발현위치를 설정할수 있는 제스처설정인터페이스를 포함하고, 상기 제스처입력레이어에 의하여, 해당 서브텍스트레이어에 포함된 서브텍스트에 대한 제스처 종류 및 발현위치가 설정되는 경우에, 해당 서브텍스트에 대한 요약블록에는, 설정된 발현위치에 상응하는 요약블록의 세부위치에 해당 제스처에 대한 정보가 오버레이되어 표시될 수 있다.

본 발명의 일 실시예에서는, 상기 프리뷰레이어는, AI휴먼영상의 재생, 정지를 포함하는 재생동작과 관련된 아이콘이 디스플레이되는 프리뷰재생레이어; 상기 프리뷰재생레이어에서 표시되는 AI휴먼영상의 시계열에 따른 정보를 요약하여 표시하는 시계열요약레이어;를 포함하고, 상기 시계열요약레이어는, 포함된 조작축엘리먼트를 이동에 따라, 프리뷰재생레이어의 영상의 시점이 이동하는 타임라인레이어를 포함할 수 있다.

본 발명의 일 실시예에서는, 상기 편집인터페이스는, 상기 AI휴먼영상에서의 AI휴먼캐릭터의 수 및 모델을선택할 수 있는 AI휴먼캐릭터선택레이어; 및 각각의 AI휴먼캐릭터에 대한 스타일, 앵글, 포즈, 크기, 및 위치를 설정할 수 있는 AI휴먼캐릭터설정레이어;를 더 포함하고, 상기 AI휴먼캐릭터설정레이어는,상기 프리뷰재생레이어에서 재생되는 AI휴먼영상에 표시되는 AI휴먼캐릭터의 선택입력 혹은, 서브텍스트에 상응하는 요약블록에서의 선택입력에 따라 표시될 수 있다.

본 발명의 일 실시예에 따르면, 사용자는 텍스트만 입력하면 AI휴먼영상을 제공받을 수 있는 효과를 발휘할 수 있다.

본 발명의 일 실시예에 따르면, 사용자단말로부터 입력 받은 사용자텍스트를 거대언어모델에 입력하여 서브타이틀 및 서브텍스트를 생성할 수 있는 효과를 발휘할 수 있다.

본 발명의 일 실시예에 따르면, 딥러닝 기반의 이미지생성모델을 통해 서브타이틀 및 서브텍스트 각각에 상응하는 이미지를 자동적으로 생성할 수 있는 효과를 발휘할 수 있다.

본 발명의 일 실시예에 따르면, 사용자단말로 제공되는 레이아웃템플릿을 통해 사용자는 AI휴먼영상에 포함되는 타이틀, 서브타이틀, 및 생성이미지에 대한 레이아웃을 설정할 수 있는 효과를 발휘할 수 있다.

본 발명의 일 실시예에 따르면, 레이아웃조정인터페이스를 통해 사용자는 AI휴먼영상에 포함되는 타이틀, 서브타이틀, 생성이미지, AI휴먼, 및 자막의 위치 및 크기를 편집할 수 있는 효과를 발휘할 수 있다.

본 발명의 일 실시예에 따르면, 편집인터페이스를 통해 사용자는 AI휴먼영상에 포함되는 각각의 레이어를 편집할 수 있는 효과를 발휘할 수 있다.

본 발명의 일 실시예에 따르면, 서브텍스트를TTS 변환하여 AI휴먼이 서브텍스트를 발화하는 AI휴먼영상을 생성할 수 있는 효과를 발휘할 수 있다.

본 발명의 일 실시예에 따르면, 타이틀, 서브타이틀 및 생성이미지를 포함하는 복수의 슬라이드가 자동적으로 생성되고, 편집인터페이스를 통해 사용자가 각각의 슬라이드를 편집할 수 있는 효과를 발휘할 수 있다.

본 발명의 일 실시예에 따르면, 타이틀, 서브타이틀, 자막, 생성이미지, 및 AI휴먼을 포함하는 AI휴먼영상을 자동적으로 생성할 수 있는 효과를 발휘할 수 있다.

본 발명의 일 실시예에 따르면, AI휴먼캐릭터의 정보에 대한 사용자의 입력에 따라 AI휴먼을 생성할 수 있는 효과를 발휘할 수 있다.

본 발명의 일 실시예에 따르면, 사용자는 AI휴먼영상에서 복수의 AI휴먼캐릭터 각각에 대한 제스처를 설정할 수 있고, 해당 AI휴먼영상에 대한 요약블록에 사용자에 의해 설정된 제스처에 대한 정보가 표시될 수 있는 효과를 발휘할 수 있다.

본 발명의 일실시예에 따르면, 사용자는 시간축상에 표시되는 엘리먼트를 이동조작하여 AI휴먼영상의 재생시점을 변경할 수 있는 효과를 발휘할 수 있다.

본 발명의 일실시예에 따르면, 서브텍스트 각각에 대한 스크립트, 및 AI휴먼캐릭터에 대한 정보를 입력 및 수정할 수 있고, 입력 및 수정된 정보가 반영되어 재생성된 AI휴먼영상을 실시간으로 확인할 수 있는 효과를 발휘할 수 있다.

본 발명의 일실시예에 따르면, 사용자는 AI휴먼영상에서의 배경이미지, 배경동영상, 및 배경음원을 설정할 수 있고, 설정된 배경이 반영되어 재생성된 AI휴먼영상을 실시간으로 확인할 수 있는 효과를 발휘할 수 있다.

도 1은 본 발명의 일 실시예에 따른 서비스서버의 내부구성을 개략적으로 도시한다.
도 2는 본 발명의 일 실시예에 따른 데이터자동생성부의 내부구성을 개략적으로 도시한다.
도 3은 본 발명의 일 실시예에 따른 데이터자동생성단계의 수행과정을 개략적으로 도시한다.
도 4는 본 발명의 일 실시예에 따른 데이터자동생성단계, 슬라이드자동생성단계, 및 AI휴먼영상생성단계의 수행과정을 개략적으로 도시한다.
도 5는 본 발명의 일 실시예에 따른 사용자 입력 기반 자동 영상 컨텐츠 제작방법의 수행과정을 개략적으로 도시한다.
도 6은 본 발명의 일 실시예에 따른 레이아웃템플릿을 개략적으로 도시한다.
도 7 내지 14는 본 발명의 일 실시예에 따른 AI휴먼영상을 편집할 수 있는 편집인터페이스를 도시한다.
도 15는 본 발명의 일 실시예에 따른 컴퓨팅장치의 내부 구성을 예시적으로 도시한다.

이하에서는, 다양한 실시예들 및/또는 양상들이 이제 도면들을 참조하여 개시된다. 하기 설명에서는 설명을 목적으로, 하나 이상의 양상들의 전반적 이해를 돕기 위해 다수의 구체적인 세부사항들이 개시된다. 그러나, 이러한 양상(들)은 이러한 구체적인 세부사항들 없이도 실행될 수 있다는 점 또한 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 인식될 수 있을 것이다. 이후의 기재 및 첨부된 도면들은 하나 이상의 양상들의 특정한 예시적인 양상들을 상세하게 기술한다. 하지만, 이러한 양상들은 예시적인 것이고 다양한 양상들의 원리들에서의 다양한 방법들 중 일부가 이용될 수 있으며, 기술되는 설명들은 그러한 양상들 및 그들의 균등물들을 모두 포함하고자 하는 의도이다.

또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

또한, 본 발명의 실시예들에서, 별도로 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명의 실시예에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하에서 언급되는 "사용자단말"은 네트워크를 통해 서버나 타 단말에 접속할 수 있는 컴퓨터나 휴대용 단말기로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신장치로서, 스마트폰, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet), BLE 비콘(Bluetooth Low Energy Beacon) 단말 등과 같은 모든 종류의 핸드헬드 (Handheld) 기반의 무선 통신 장치를 포함할 수 있다. 또한, "네트워크"는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN) 또는 부가가치 통신망(Value Added Network; VAN) 등과 같은 유선네트워크나 이동 통신망(mobile radio communication network) 또는 위성 통신망 등과 같은 모든 종류의 무선 네트워크로 구현될 수 있다.

1. 사용자 입력 기반 자동 영상 컨텐츠 제작방법

이하에서는 사용자 입력 기반 자동 영상 컨텐츠 제작방법의 구성과 각각의 구성에 의하여 수행되는 수행단계들에 대해 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 서비스서버(1)의 내부구성을 개략적으로 도시한다.

도 1에 도시된 바와 같이, 상기 서비스서버(1)는, 사용자단말로부터 입력된 사용자텍스트에 기초하여 타이틀, 복수의 서브타이틀 및 복수의 서브텍스트를 추출하고 상기 복수의 서브타이틀 및 상기 복수의 서브텍스트와 관련된 1 이상의 생성이미지를 생성하는 데이터자동생성단계를 수행하는 데이터자동생성부(100); 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지를 포함하는 복수의 슬라이드를 생성하는 슬라이드자동생성단계를 수행하는 슬라이드자동생성부(200); 및 상기 서브텍스트를 발화하는 AI휴먼 및 상기 슬라이드를 포함하는 AI휴먼영상을 생성하고, 편집인터페이스를 사용자단말로 제공하는 AI휴먼영상생성단계를 수행하는 AI휴먼영상생성부(300);를 포함한다.

구체적으로, 도 1에 도시된 서비스서버(1)에 포함되는 각각의 구성은, 본 발명의 1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅시스템에서 수행되는 사용자 입력 기반 자동 영상 컨텐츠 제작방법을 수행하는 서비스서버(1)의 동작을 제어하는 역할을 수행한다.

더 구체적으로, 상기 서비스서버(1)의 데이터자동생성부(100)는, 사용자단말로부터 입력된 사용자텍스트에 기초하여 타이틀, 복수의 서브타이틀 및 복수의 서브텍스트를 추출하고 상기 복수의 서브타이틀 및 상기 복수의 서브텍스트와 관련된 1 이상의 생성이미지를 생성할 수 있다. 본 발명의 일 실시예에서는, 상기 사용자텍스트는 AI휴먼영상의 제목이나 주제와 관련하여 사용자단말로부터 수신한 텍스트를 포함하고, 상기 타이틀은 AI휴먼영상 전체에 대한 타이틀을 포함하고, 상기 서브타이틀은 AI휴먼영상에 포함되는 복수의 슬라이드에 대하여, 각각의 슬라이드를 요약하는 서브타이틀을 포함하고, 상기 서브텍스트는 상기 각각의 슬라이드 또는 AI휴먼영상에서 AI휴먼이 발화할 스크립트 및 AI휴먼영상의 자막에 표시되는 내용을 포함하며, 상기 생성이미지는 상기 복수의 서브타이틀 및 상기 복수의 서브텍스트 각각과 관련된 이미지를 포함할 수 있다. 바람직하게는, 서브타이틀 및 서브텍스트 하나 당 상기 생성이미지는 하나씩 도출될 수 있다. 또한, 상기 데이터자동생성단계는, AI휴먼영상의 제목이나 주제와 관련된 사용자텍스트를 사용자단말로부터 수신하는 사용자텍스트수신단계; 상기 사용자텍스트를 서비스서버(1)의 내부 혹은 외부의 거대언어모델에 입력하여, AI휴먼영상의 슬라이드에 포함될 타이틀, 복수의 서브타이틀 및 복수의 서브텍스트를 추출하는 서브텍스트추출단계; 및 상기 복수의 서브타이틀 및 복수의 서브텍스트 각각을 서비스서버(1)의 내부 혹은 외부의 딥러닝 기반의 이미지생성모델에 입력하여, 상기 복수의 서브타이틀 및 복수의 서브텍스트 각각에 상응하는 1 이상의 생성이미지를 생성하는 이미지생성단계;를 포함한다.

상기 서비스서버(1)의 슬라이드자동생성부(200)는, 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지를 포함하는 복수의 슬라이드를 생성할 수 있다. 본 발명의 일 실시예에서는, 상기 슬라이드자동생성단계는, 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지가 상이한 레이아웃으로 배치된 복수의 레이아웃템플릿을 사용자단말로 제공하고, 상기 사용자단말로부터 선택된 레이아웃템플릿의 형태로 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지를 배치하여 복수의 슬라이드를 생성할 수 있다.

상기 서비스서버(1)의 AI휴먼영상생성부(300)는, 상기 서브텍스트를 발화하는 AI휴먼 및 상기 슬라이드를 포함하는 AI휴먼영상을 생성하고, 편집인터페이스를 사용자단말로 제공할 수 있다. 상기 AI휴먼영상생성부(300)는, AI휴먼영상에 포함되는 타이틀, 서브타이틀, 및 생성이미지의 크기 및 위치를 조정하는 레이아웃조정인터페이스를 사용자단말로 제공하는 레이아웃설정단계를 수행하는 레이아웃설정부(11); 사용자의 입력에 따라 복수의 영상으로 구현될 AI휴먼캐릭터에 정보가 설정되는 AI휴먼캐릭터설정단계를 수행하는 AI휴먼캐릭터설정부(12); 사용자단말로 AI휴먼영상 생성을 위한 편집인터페이스를 제공하는 편집인터페이스제공단계를 수행하는 편집인터페이스제공부(13); 및 상기 편집인터페이스를 통해 사용자단말로부터 편집된 AI휴먼영상을 영상컨텐츠로 제작하여 사용자단말로 최종AI휴먼영상을 제공하는 영상컨텐츠제작단계를 수행하는 영상컨텐츠제작부(14);를 포함한다.

본 발명의 일 실시예에서는, 상기 레이아웃조정인터페이스는, 전체 동영상에 대한 타이틀을 표시하는 타이틀레이어; 각각의 슬라이드에 대한 서브타이틀을 표시하는 서브타이틀레이어; 각각의 슬라이드에 자동적으로 배치된 생성이미지를 표시하는 생성이미지레이어; 각각의 슬라이드의 서브텍스트를 발화하는 AI휴먼이 표시되는 AI휴먼레이어; 및 상기 서브텍스트를 AI휴먼영상의 자막으로 표시하는 자막레이어;를 포함할 수 있다. 또한, 상기 편집인터페이스는, 상기 생성된AI휴먼영상에 대한 프리뷰를 제공하는, 프리뷰레이어; 및 상기 서브텍스트에 대한 편집기능을 제공하는 스크립트레이어;를 포함하고, 상기 스크립트레이어는, 복수의 서브텍스트 각각이표시되고, 해당 서브텍스트에 대한 편집기능을 제공하는, 상기 서브텍스트 각각에 상응하는 복수의서브텍스트레이어;를 포함하고, 상기 서브텍스트레이어에는, 해당 서브텍스트레이어에 포함된 서브텍스트가 TTS로 음성으로 변환되는 경우, 음성의재생시간이 표시될 수 있다.

본 발명의 일 실시예에서는, 상기 사용자단말은 상기 사용자 입력 기반 자동 영상 컨텐츠 제작방법과 관련된 기능을 이용하는 사용자가 사용하는 단말에해당할 수 있고, 사용자는 상기 사용자단말을 통해 서비스서버(1)에 접속하여 서비스서버(1)에서 제공하는 기능 또는 서비스를 이용할수 있다. 이 때, 상기 사용자단말은 1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅장치로서, 노트북, 태블릿, 스마트폰, 데스크탑 중 1 이상을 포함할 수 있다. 또한, 상술한 서비스서버(1)의 구성요소들은 본 발명을 구현하기 위한 필수적인 요소로서, 이에 한정하지 않고 데이터베이스 등을 더 포함할 수 있다.

도 2는 본 발명의 일 실시예에 따른 데이터자동생성부(100)의 내부구성을 개략적으로 도시한다.

도 2에 도시된 바와 같이, 상기 데이터자동생성부(100)는, AI휴먼영상의 제목이나 주제와 관련된 사용자텍스트를 사용자단말로부터 수신하는 사용자텍스트수신단계를 수행하는 사용자텍스트수신부(110); 상기 사용자텍스트를 서비스서버(1)의 내부 혹은 외부의 거대언어모델에 입력하여, AI휴먼영상의 슬라이드에 포함될 타이틀, 복수의 서브타이틀 및 복수의 서브텍스트를 추출하는 서브텍스트추출단계를 수행하는 서브텍스트추출부(120); 및 상기 복수의 서브타이틀 및 복수의 서브텍스트 각각을 서비스서버(1)의 내부 혹은 외부의 딥러닝 기반의 이미지생성모델에 입력하여, 상기 복수의 서브타이틀 및 복수의 서브텍스트 각각에 상응하는 1 이상의 생성이미지를 생성하는 이미지생성단계를 수행하는 이미지생성부(130);를 포함한다.

바람직하게는, 상기 사용자텍스트수신단계는, 사용자가 사용자단말을 통해 AI휴먼영상으로 제작하고자 하는 동영상의 제목 혹은 주제를 포함하는 사용자텍스트를 상기 서비스서버(1)로 송신하면 상기 서비스서버(1)는 상기 사용자텍스트를 수신하여 해당 사용자텍스트와 관련된 AI휴먼영상을 자동적으로 생성하여 사용자단말로 해당 AI휴먼영상 및 편집인터페이스를 제공할 수 있고, 사용자는 상기 편집인터페이스를 통해 상기 AI휴먼영상을 편집하여 최종 AI휴먼영상을 생성할 수 있다.

상기 서브텍스트추출부(120)는, 사용자단말로부터 수신한 상기 사용자텍스트를 서비스서버(1)의 내부 혹은 외부의 거대언어모델에 입력하여 타이틀, 복수의 서브타이틀, 및 복수의 서브텍스트를 추출할 수 있다. 상기 타이틀 및 상기 복수의 서브타이틀은 AI휴먼영상의 슬라이드에 포함될 타이틀 및 서브타이틀에 해당할 수 있고, 상기 복수의 서브텍스트는 AI휴먼영상에 포함되는 AI휴먼이 발화할 스크립트에 해당할 수 있고, 본 발명의 일 실시예에서는, 상기 복수의 서브텍스트는 AI휴먼영상에 표시되는 자막으로 이용될 수 있다.

상기 이미지생성부(130)는, 상기 거대언어모델로부터 추출된 상기 복수의 서브타이틀 및 복수의 서브텍스트 각각을 서비스서버(1)의 내부 혹은 외부의 딥러닝 기반의 이미지생성모델에 입력하여 1 이상의 생성이미지를 생성할 수 있다. 상기 생성이미지는 상기 복수의 서브타이틀 및 복수의 서브텍스트 각각에 상응하는 이미지에 해당하고, 바람직하게는, 서브타이틀 및 서브텍스트 하나 당 상기 생성이미지는 하나씩 도출될 수 있고, AI휴먼영상 내에서 하나의 슬라이드에는, 하나의 내용에 대한 서브타이틀, 서브텍스트, 및 생성이미지가 각각 하나씩 포함될 수 있다.

도 3은 본 발명의 일 실시예에 따른 데이터자동생성단계의 수행과정을 개략적으로 도시한다.

도 3에 도시된 바와 같이, 사용자텍스트를 거대언어모델에 입력하여 서브타이틀 및 서브텍스트를 추출할 수 있고, 상기 서브타이틀 및 상기 서브텍스트를 이미지생성모델에 입력하여 생성이미지를 생성할 수 있다.

구체적으로, 사용자단말로부터 수신한 사용자텍스트를 서비스서버(1)의 내부 혹은 외부의 거대언어모델에 입력하여 복수의 서브타이틀 및 복수의 서브텍스트를 추출할 수 있고, 바람직하게는, 타이틀, 복수의서브타이틀, 및 복수의 서브텍스트를 추출할 수 있다. 만약, 상기 사용자텍스트가 하나의문장일 경우에는, 해당 사용자텍스트에서 컨텐츠를 확장하여 AI휴먼영상에 포함될 내용을 추출할수 있고, 상기 사용자텍스트가 복수의 문장 또는 문서에해당할 경우에는, 해당 사용자텍스트에 포함되는 내용을요약하거나 정리하여 AI휴먼영상에 포함될 내용을 추출할 수 있다. 본 발명의 일 실시예에서는, 상기 서비스서버(1)가 상기 거대언어모델에 상기 사용자텍스트를 입력할 때, AI휴먼영상의 타이틀, AI휴먼영상에 포함되는 각각의 슬라이드의 서브타이틀 및 상기 각각의 슬라이드에 대하여 AI휴먼이 발화할 서브텍스트를 각각 추출할 것을 요청할 수 있다.

또한, 상기 거대언어모델을 통해 추출된 상기 복수의 서브타이틀 및 상기 복수의 서브텍스트 각각을 서비스서버(1)의 내부 혹은 외부의 딥러닝 기반의 이미지생성모델에 입력하여 상기 복수의 서브타이틀 및 상기 복수의 서브텍스트 각각에 상응하는 1 이상의 생성이미지를 생성할 수 있다. 바람직하게는, 서브타이틀 및 서브텍스트 하나 당 상기 생성이미지는 하나씩 도출될 수 있고, 본 발명의 일 실시예에서는, 상기 서비스서버(1)가 상기 이미지생성모델에 상기 서브타이틀 및 상기 서브텍스트 각각을 입력할 때, 서브타이틀 및 서브텍스트 하나 당 하나의 이미지를 생성할 것을 요청할 수 있다. 상기 거대언어모델을 통해 추출된 상기 타이틀, 상기 복수의 서브타이틀, 및 상기 복수의 서브텍스트와 상기 이미지생성모델을 통해 생성된 상기 1 이상의 생성이미지는 복수의 슬라이드에 각각 포함되어 AI휴먼영상에서 표시될 수 있다. 따라서, 데이터자동생성부(100)는 상기 거대언어모델 및 상기 이미지생성모델을 통해 데이터를 자동적으로 생성할 수 있다.

만약, AI휴먼영상에 포함되는 데이터를 자동적으로 생성할 수 없다면, 사용자는영상 컨텐츠에 포함될 타이틀, 스크립트, 및 이미지를 직접 입력해야 하는 어려움이 있을 수 있다. 하지만, 본 발명의 사용자 입력 기반 자동 영상 컨텐츠 제작방법에서는, 데이터자동생성단계를 통해 AI휴먼영상의 타이틀, 복수의 서브타이틀, 복수의 서브텍스트, 및 1 이상의 이미지를 자동적으로 생성할 수 있기 때문에, 사용자는 제작하고자 하는 영상 컨텐츠에 대한 간단한 주제만 입력하더라도 보다 퀄리티가 높은 영상 컨텐츠를 제공받을 수 있다.

도 4는 본 발명의 일 실시예에 따른 데이터자동생성단계, 슬라이드자동생성단계, 및 AI휴먼영상생성단계의 수행과정을 개략적으로 도시한다.

개략적으로, 도 4의 (a)는 데이터자동생성단계를 수행하는 데이터자동생성부(100)의 수행과정을 도시하고, 도 4의 (b)는 슬라이드자동생성단계를 수행하는 슬라이드자동생성부(200)의 수행과정을 도시하고, 도 4의 (c)는 AI휴먼영상생성단계를 수행하는 AI휴먼영상생성부(300)의 수행과정을 도시한다.

구체적으로, 도 4의 (a)에 도시된 데이터자동생성부(100)는, 사용자단말로부터 입력된 사용자텍스트에 기초하여 타이틀, 복수의 서브타이틀 및 복수의 서브텍스트를 추출하고 상기 복수의 서브타이틀 및 상기 복수의 서브텍스트와 관련된 1 이상의 생성이미지를 생성하는 데이터자동생성단계를 수행한다. 사용자단말로부터 사용자텍스트를 수신하면 상기 데이터자동생성부(100)는 AI휴먼영상에 포함될 타이틀, 복수의 서브타이틀, 복수의 서브텍스트, 및 1 이상의 생성이미지를 자동적으로 생성할 수 있다.

더 구체적으로, 상기 사용자텍스트를 서비스서버(1)의 내부 혹은 외부의 거대언어모델에 입력하여, 상기 타이틀, 상기 복수의 서브타이틀 및 상기 복수의 서브텍스트를 추출할 수 있고, 상기 복수의 서브타이틀 및 복수의 서브텍스트 각각을 서비스서버(1)의 내부 혹은 외부의 딥러닝 기반의 이미지생성모델에 입력하여, 상기 복수의 서브타이틀 및 복수의 서브텍스트 각각에 상응하는 1 이상의 생성이미지를 생성할 수 있다.

도 4의 (b)에 도시된 슬라이드자동생성부(200)는, 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지를 포함하는 복수의 슬라이드를 생성하는 슬라이드자동생성단계를 수행한다. 상기 슬라이드자동생성부(200)는 상기 데이터자동생성부(100)에서 생성된 상기 타이틀, 상기 복수의 서브타이틀, 및 상기 1 이상의 생성이미지를 포함하는 복수의 슬라이드를 자동적으로 생성할 수 있다.

더 구체적으로, 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지가 상이한 레이아웃으로 배치된 복수의 레이아웃템플릿을 사용자단말로 제공하고, 상기 사용자단말로부터 선택된 레이아웃템플릿의 형태로 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지를 배치하여 복수의 슬라이드를 생성할 수 있다. 바람직하게는, 상기 슬라이드자동생성부(200)에서 상기 레이아웃템플릿을 통해 슬라이드에 배치된 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지 각각은 이후 AI휴먼영상생성단계에 포함되는 레이아웃설정단계에 사용자단말로 제공되는 레이아웃조정인터페이스를 통해 사용자가 직접 위치 및 크기를 조정할 수 있다.

바람직하게는, 상기 슬라이드는 AI휴먼영상에서 화면이 전환되면서 화면에 표시되는 서브타이틀 및 생성이미지가 변화하는 각각의 슬라이드를 포함할 수 있고, 각각의 슬라이드에는 서브타이틀, 생성이미지, 및 AI휴먼이 포함되어 해당 서브타이틀과 관련된 생성이미지가 표시될 수 있고 해당 서브타이틀과 관련된 스크립트를 AI휴먼이 발화할 수 있다. 또한, 해당 AI휴먼이 발화하는 스크립트의 내용을 그대로 화면에 표시하여 AI휴먼영상의 자막으로 활용할 수 있다.

도 4의 (c)에 도시된 AI휴먼영상생성부(300)는, 상기 서브텍스트를 발화하는 AI휴먼 및 상기 슬라이드를 포함하는 AI휴먼영상을 생성하고, 편집인터페이스를 사용자단말로 제공하는 AI휴먼영상생성단계를 수행한다. 상기 AI휴먼영상생성부(300)는 상기 슬라이드자동생성부(200)에서 생성된 복수의 슬라이드를 포함하는 AI휴먼영상을 생성할 수 있다.

더 구체적으로, AI휴먼영상에 포함되는 타이틀, 서브타이틀, 및 생성이미지의 크기 및 위치를 조정하는 레이아웃조정인터페이스를 사용자단말로 제공하면 사용자는 상기 레이아웃템플릿에 따라 배치된 상기 슬라이드의 타이틀, 서브타이틀, 및 생성이미지의 크기 및 위치를 조정할 수 있다. 또한, 사용자의 입력에 따라 AI휴먼캐릭터에 대한 정보가 설정되어 AI휴먼영상에 포함될 AI휴먼이 생성될 수 있고, 사용자단말로 AI휴먼영상 생성을 위한 편집인터페이스를 제공하여 사용자는 AI휴먼영상의 각각의 레이어에 대한 편집이 가능할 수 있고, 편집인터페이스를 통해 사용자단말로부터 편집된 최종AI휴먼영상이 생성될수 있다.

본 발명의 일 실시예에서는, 상기 편집인터페이스는, 상기 생성된 AI휴먼영상에 대한 프리뷰를 제공하는, 프리뷰레이어; 및 상기 서브텍스트에 대한 편집기능을 제공하는 스크립트레이어;를 포함한다. 상기 스크립트레이어는, 복수의 서브텍스트 각각이표시되고, 해당 서브텍스트에 대한 편집기능을 제공하는, 상기 서브텍스트 각각에 상응하는 복수의서브텍스트레이어;를 포함하고, 상기 서브텍스트레이어에는, 해당 서브텍스트레이어에 포함된 서브텍스트가 TTS로 음성으로 변환되는 경우, 음성의재생시간이 표시될 수 있다. 또한, 상기 서브텍스트레이어에는 제스처입력레이어가 표시될 수 있고, 상기 제스처입력레이어는, 해당 서브텍스트레이어에 포함된 서브텍스트에 대한 AI휴먼영상에서의 상기 AI휴먼캐릭터의 제스처 종류, 및 발현위치를 설정할수 있는 제스처설정인터페이스를 포함할수 있으며, 상기 제스처입력레이어에 의하여, 해당 서브텍스트레이어에 포함된 서브텍스트에 대한 제스처 종류 및 발현위치가 설정되는 경우에, 해당 서브텍스트에 대한 요약블록에는, 설정된발현위치에 상응하는 요약블록의 세부위치에 해당 제스처에 대한 정보가 오버레이되어 표시될수 있다. 상기 프리뷰레이어는, AI휴먼영상의 재생, 정지를 포함하는 재생동작과 관련된 아이콘이 디스플레이되는 프리뷰재생레이어; 상기 프리뷰재생레이어에서 표시되는 AI휴먼영상의 시계열에 따른 정보를 요약하여 표시하는 시계열요약레이어;를 포함하고, 상기 시계열요약레이어는, 포함된 조작축엘리먼트를 이동에 따라, 프리뷰재생레이어의 영상의 시점이 이동하는 타임라인레이어를 포함할 수 있다. 또한, 상기 편집인터페이스는, 상기 AI휴먼영상에서의 AI휴먼캐릭터의 수 및 모델을 선택할 수 있는 AI휴먼캐릭터선택레이어; 및 각각의 AI휴먼캐릭터에 대한 스타일, 앵글, 포즈, 크기, 및 위치를 설정할수 있는 AI휴먼캐릭터설정레이어;를 더 포함할수 있다. 상기 AI휴먼캐릭터설정레이어는, 상기 프리뷰재생레이어에서 재생되는 AI휴먼영상에 표시되는 AI휴먼캐릭터의 선택입력 혹은, 서브텍스트에 상응하는 요약블록에서의선택입력에 따라 표시될 수 있다.

도 5는 본 발명의 일 실시예에 따른 사용자 입력 기반 자동 영상 컨텐츠 제작방법의 수행과정을 개략적으로 도시한다.

도 5에 도시된 바와 같이, 상기 서비스서버(1)는 사용자단말로부터 사용자텍스트를 수신하여 AI휴먼영상을 생성한 뒤 다시 사용자단말로 해당 AI휴먼영상을 제공할 수 있다.

구체적으로, 서비스서버(1)는 사용자단말로부터 수신한 사용자텍스트를 서비스서버(1)의 내부 혹은 외부의 거대언어모델에 입력하여 서브타이틀 및 서브텍스트를 추출할 수 있다. 이 때, 본 발명의 일 실시예에서는, AI휴먼영상의 타이틀도 함께 추출할 수 있다. 이후, 상기 서브타이틀 및 상기 서브텍스트를 다시 이미지생성모델에 입력하여, 상기 서브타이틀 및 상기 서브텍스트 각각에 상응하는 1 이상의 생성이미지를 생성할 수 있다. 이 때, 본 발명의 일 실시예에서는, 상기 이미지생성모델은 서비스서버(1)의 내부 혹은 외부의 딥러닝 기반의 이미지생성모델에 해당할 수 있다. 이후, 상기 서브타이틀 및 상기 생성이미지를 포함하는 복수의 슬라이드를 생성하여, 해당 복수의 슬라이드에 기초한 AI휴먼영상을 생성할 수 있다. 이 때, 상기 복수의 슬라이드를 생성하는 단계에서, 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지가 상이한 레이아웃으로 배치된 복수의 레이아웃템플릿을 사용자단말로 제공한 뒤, 사용자단말로부터 선택된 레이아웃템플릿의 형태로 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지를 배치하여 복수의 슬라이드를 생성할 수 있다. 또한, 상기 AI휴먼영상을 생성하는 단계에서, AI휴먼영상에 포함되는 타이틀, 서브타이틀, 및 생성이미지의 크기 및 위치를 조정하는 레이아웃조정인터페이스를 사용자단말로 제공한 뒤, 사용자단말로부터 조정된 레이아웃의 형태로 상기 복수의 슬라이드가 수정될 수 있고, 사용자단말의 입력에 따라 AI휴먼캐릭터의 정보가 설정되면 해당 AI휴먼이 생성되어 각각의 슬라이드에 포함될 수 있다. 수정된 복수의 슬라이드 및 상기 AI휴먼에 기초하여 AI휴먼영상을 생성한 뒤, 해당 AI휴먼영상 및 AI휴먼영상 생성을 위한 편집인터페이스를 사용자단말로 제공하면, 사용자단말에서 AI휴먼영상에 대한 편집을 수행할 수 있고, 상기 편집인터페이스를 통해 사용자단말로부터 편집된 AI휴먼영상을 영상컨텐츠로 제작하여 사용자단말로 최종AI휴먼영상을 제공할 수 있다.

도 6은 본 발명의 일 실시예에 따른 레이아웃템플릿을 개략적으로 도시한다.

개략적으로, 도 6의 (a), (b), (c), 및 (d)는 레이아웃템플릿의 예시를 도시한다.

구체적으로, 상기 레이아웃템플릿은, 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지가 상이한 레이아웃으로 배치된 복수의 레이아웃템플릿을 포함하고, 레이아웃템플릿이 사용자단말로 제공된 후, 상기 사용자단말로부터 선택된 레이아웃템플릿의 형태로 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지를 배치하여 복수의 슬라이드를 생성할 수 있다.

도 6에 도시된 바와 같이, 도 6의 (a), (b), 및 (c)는 화면이 가로 방향으로 긴 형태의 레이아웃템플릿에 해당하고, 도 6의 (d)는 화면이 세로 방향으로 긴 형태의 레이아웃템플릿에 해당한다. 바람직하게는, 상기 레이아웃템플릿에는 타이틀, 서브타이틀, 생성이미지, AI휴먼, 및 자막이 포함될 수 있지만, 본 발명의 일 실시예에서는, 도 6의 (c)와 같이, AI휴먼이 표시되지 않고 생성이미지가 AI휴먼영상의 배경이미지가 되어 표시될 수 있으며, 도 6의 (d)와 같이, 생성이미지가 표시되지 않고 스크립트를 발화하는 AI휴먼이 AI휴먼영상의 가운데에서 발표자의 역할을 할 수도 있다. 또한, AI휴먼영상에서는 AI휴먼 및 생성이미지 뿐만 아니라 타이틀, 서브타이틀, 또는 자막이 표시되지 않을 수 있다.

본 발명의 일 실시예에서는, 레이아웃조정인터페이스는, 도 6에 도시된 레이아웃템플릿과 유사한 형태로 사용자단말로 제공될 수 있다. 상기 레이아웃조정인터페이스는 전체 동영상에 대한 타이틀을 표시하는 타이틀레이어; 각각의 슬라이드에 대한 서브타이틀을 표시하는 서브타이틀레이어; 각각의 슬라이드에 자동적으로 배치된 생성이미지를 표시하는 생성이미지레이어; 각각의 슬라이드의 서브텍스트를 발화하는 AI휴먼이 표시되는 AI휴먼레이어; 및 상기 서브텍스트를 AI휴먼영상의 자막으로 표시하는 자막레이어;를 포함하고, 상기 레이아웃조정인터페이스를 통해 타이틀레이어, 서브타이틀레이어, 생성이미지레이어, AI휴먼레이어, 및 자막레이어의 위치 및 크기를 조정할 수 있다. 예를 들어, 도 6의 (a)를 참고하여, 레이아웃조정인터페이스에서 타이틀은 타이틀레이어, 서브타이틀은 서브타이틀레이어, 생성이미지는 생성이미지레이어, AI휴먼은 AI휴먼레이어, 자막은 자막레이어에 해당할 수 있다.

바람직하게는, 타이틀, 서브타이틀, 생성이미지, AI휴먼, 및 자막이 표시되는 AI휴먼영상의 레이아웃템플릿은 도 6의 (a), (b), (c), 및 (d) 뿐만 아니라 다양한 형태로 제작되어 사용자단말로 제공될 수 있고, 사용자단말에서는 레이아웃템플릿을 통해 타이틀, 서브타이틀, 생성이미지, AI휴먼, 및 자막의 배치를 설정한 뒤, 이후 제공되는 레이아웃조정인터페이스를 통해 다시 타이틀, 서브타이틀, 생성이미지, AI휴먼, 및 자막의 크기 및 형태를 조정할 수 있다.

2. AI휴먼영상생성 인터페이스 제공방법

전술한 도 1 내지 도 6에 대한 설명에서는 사용자 입력 기반 자동 영상 컨텐츠 제작방법의 구성과 각각의 구성에 의하여 수행되는수행단계들에 대해 서술하였다. 이하에서는 AI휴먼영상생성 인터페이스 제공방법을 통해 상기 서비스서버(1)에 포함되는 편집인터페이스제공부(13)에서 사용자단말로 제공하는 편집인터페이스의 실시예에 대해 상세히 설명하도록 한다.

도 7 내지 14는 본 발명의 일 실시예에 따른 AI휴먼영상을 편집할 수 있는 편집인터페이스를 도시한다.

도 7 내지 14에 도시된 바와 같이 상기 편집인터페이스는, 상기 생성된 AI휴먼영상에 대한 프리뷰를 제공하는, 프리뷰레이어(L1); 및 상기 서브텍스트에 대한 편집기능을 제공하는 스크립트레이어(L2);를 포함하고, 상기 스크립트레이어(L2)는, 분할한 복수의 상기 서브텍스트 각각이 표시되고, 해당 서브텍스트에 대한 편집기능을 제공하는, 상기 서브텍스트 각각에 상응하는 복수의 서브텍스트레이어(L3);를 포함하고, 상기 서브텍스트레이어(L3)에는, 해당 서브텍스트레이어(L3)에 포함된 서브텍스트가 TTS로 음성으로 변환되는 경우, 음성의 재생시간이 표시될 수 있다.

또한 상기 편집인터페이스는, 상기 AI휴먼영상에서의 AI휴먼캐릭터의 수 및 모델을 선택할 수 있는 AI휴먼캐릭터선택레이어(L6); 및 각각의 AI휴먼캐릭터에 대한 스타일, 앵글, 포즈, 크기, 및 위치를 설정할 수 있는 AI휴먼캐릭터설정레이어(L7);를 더 포함하고, 상기 AI휴먼캐릭터설정레이어(L7)는, 상기 프리뷰재생레이어(L8)에서 재생되는 AI휴먼영상에 표시되는 AI휴먼캐릭터의 선택입력 혹은, 서브텍스트에 상응하는 요약블록에서의 선택입력에 따라 표시될 수 있다.

또한 상기 서브텍스트레이어(L3)에는 제스처입력레이어가 표시될 수 있고, 상기 제스처입력레이어는, 해당 서브텍스트레이어(L3)에 포함된 서브텍스트에 대한 AI휴먼영상에서의 상기 AI휴먼캐릭터의 제스처 종류, 및 발현위치를 설정할 수 있는 제스처설정인터페이스를 포함할 수 있다.

또한 상기 프리뷰레이어(L1)는 AI휴먼영상의 재생, 정지를 포함하는 재생동작과 관련된 아이콘이 디스플레이되는 프리뷰재생레이어(L8); 상기 프리뷰재생레이어(L8)에서 표시되는 AI휴먼영상의 시계열에 따른 정보를 요약하여 표시하는 시계열요약레이어(L9);를 포함하고, 상기 시계열요약레이어(L9)는, 포함된 조작축엘리먼트를 이동에 따라, 프리뷰재생레이어(L8)의 영상의 시점이 이동하는 타임라인레이어(L10)를 포함할 수 있다.

또한 상기 시계열요약레이어(L9)는, 시계열에 따라 해당 시점에서의 AI휴먼영상에 대한 정보를 표시하는 스크립트요약정보레이어를 포함하고, 상기 스크립트요약정보레이어는, 각각의 서브텍스트에 상응하는 각각의 요약블록을 포함하고, 상기 각각의 요약블록은, 해당 서브텍스트에 대한 AI휴먼캐릭터, 및 스크립트에 대한 정보를 포함할 수 있다.

또한 상기 제스처입력레이어에 의하여, 해당 서브텍스트레이어(L3)에 포함된 서브텍스트에 대한 제스처 종류 및 발현위치가 설정되는 경우에, 해당 서브텍스트에 대한 요약블록에는, 설정된 발현위치에 상응하는 요약블록의 세부위치에 해당 제스처에 대한 정보가 오버레이되어 표시될 수 있다.

또한 상기 편집인터페이스는, 상기 AI휴먼영상의 배경이미지, 배경동영상, 배경음원 중 1 이상을 배경정보를 설정할 수 있는 배경설정레이어를 더 포함하고, 상기 프리뷰재생레이어(L8)에서는, 상기 배경설정레이어에 의해 설정된 배경정보가 반영된 AI휴먼영상이 표시될 수 있다.

도 7에 도시된 바와 같이, 편집인터페이스는 L1레이어 해당하는 프리뷰레이어(L1) 및 L2레이어에 해당하는 스크립트레이어(L2)를 포함할 수 있다. 구체적으로 프리뷰레이어(L1)에는 AI휴먼영상에 대한 프리뷰를 제공할 수 있고, 스크립트레이어(L2)는 AI휴먼영상을 생성하는 복수의 서브텍스트 각각에 대한 정보를 표시하면서, 편집할 수 있는 기능을 제공할 수 있다.

또한, AI휴먼영상에는 타이틀, 서브타이틀, 및 생성이미지가 포함될 수 있고, 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지의 레이아웃은 상기 슬라이드자동생성단계에서 복수의 레이아웃템플릿에 대한 사용자단말의 선택에 기초하여 설정될 수 있다. 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지는 상기 데이터자동생성단계를 통해 생성된 타이틀, 복수의 서브타이틀, 및 복수의 생성이미지에 포함되고, 바람직하게는, 하나의 슬라이드에는 하나의 타이틀, 하나의 서브타이틀, 및 하나의 생성이미지가 표시될 수 있다. 또한, AI휴먼영상에는 자막이 더 표시될 수 있고, 상기 타이틀, 상기 서브타이틀, 상기 생성이미지, 및 상기 자막의 레이아웃은 상기 슬라이드자동생성단계에서 복수의 레이아웃템플릿에 대한 사용자단말의 선택에 기초하여 설정될 수 있다. 바람직하게는, 상기 데이터자동생성단계에서 추출된 서브텍스트 각각은 AI휴먼영상 내에서 자막 형식으로 표시될 수 있고, 도 7에 도시된 서브텍스트레이어(L3)에 표시된 서브텍스트는 AI휴먼영상에서 AI휴먼이 발화하는 스크립트에 해당할 수 있고, 동시에 AI휴먼영상의 하단에 표시되는 자막에 해당할 수 있다.

도 8의 L2레이어는 스크립트레이어(L2)를 도시한다. 도시된 바와 같이 스크립트레이어(L2)는 텍스트가 분할된 복수의 서브텍스트 각각을 표시하면서, 해당 서브텍스트에 대한 편집기능을 제공하는 복수의 서브텍스트레이어(L3)를 포함할 수 있다.

서브텍스트레이어(L3)는 해당 서브텍스트에 대한 서브텍스트를 표시하는 서브텍스트표시레이어(L4)를 포함할 수 있고, 사용자는 서브텍스트표시레이어(L4)에 표시되는 서브텍스트를 수정함으로써, 해당 서브텍스트에 대한 AI휴먼영상을 수정할 수 있다. 예를 들어, 서브텍스트는 AI휴먼영상에서 AI휴먼캐릭터가 발화하는 스크립트에 해당할 수 있고, 사용자는 서브텍스트를 수정함으로써, AI휴먼캐릭터가 발화하는 스크립트의 내용을 수정할 수 있다.

한편, 사용자단말에 의해 서브텍스트에 대한 수정이 이루어지는 경우에, 서비스서버(1)는 수정된 서브텍스트를 TTS로 변환했을 때의 음성을 재생성하고, 해당 음성에 기반하여 AI휴먼영상을 재생성하여 표시할 수 있다.

또한 서비스서버(1)는 재생성된 음성의 재생시간에 대한 정보를 수정된 서브텍스트에 대한 서브텍스트레이어(L3)에 표시할 수 있다.

본 발명의 일 실시예에서, 사용자에 의해 수정된 서브텍스트에 대한 음성의 재생시간이 기설정된 시간간격을 초과하는 경우에, 서비스서버(1)는 수정된 서브텍스트는 복수 개로 분할하여, 분할된 서브텍스트 각각에 대한 AI휴먼영상을 재생성할 수 있다.

한편, 복수의 서브텍스트 각각에 대한 서브텍스트레이어(L3)는 해당 서브텍스트에 대한 음성을 재생할 수 있는 E2엘리먼트를 더 포함할 수 있다. 구체적으로 사용자는 E2엘리먼트를 선택입력함으로써, 서브텍스트에 대한 음성을 청취해볼 수 있다.

전술한 바와 같이, 서브텍스트는 대상문서파일에서 추출된 텍스트를 TTS로 변환했을 때의 음성의 재생시간을 기설정된 시간간격으로 분할하여 생성될 수 있고, E2엘리먼트는 이와 같이 생성된 서브텍스트를 TTS로 변환했을 때의 음성의 재생시간을 표시하는 엘리먼트일 수 있다.

달리 말하자면, E2엘리먼트가 표시하는 음성의 재생시간에 대한 정보는 해당 서브텍스트에 기초하여 AI휴먼영상을 생성했을 때, 해당 AI휴먼영상의 재생시간과 상응할 수 잇다.

이와 같이, 사용자는 복수의 서브텍스트 각각에 대한 AI휴먼영상의 재생시간을 직관적이고 용이하게 확인할 수 있다.

본 발명의 일 실시예에서, 텍스트를 서브텍스트로 분할하기 위한 기설정된 시간간격은 서비스서버(1)가 생성할 수 있는 하나의 AI휴먼영상에 대한 최대 재생시간에 해당할 수 있다. 즉 서비스서버(1)가 텍스트를 TTS로 음성으로 변환했을 때 음성의 재생시간을 1분 간격으로 분할하여 복수의 서브텍스트를 생성하는 경우에, 서비스서버(1)는 최대 1분 길이의 AI휴먼영상을 생성할 수 있다.

서비스서버(1)는 사용자단말에 서브텍스트에 대한 음성의 재생시간을 표시함으로써, 사용자가 하나의 서브텍스트가 기설정된 시간간격(1분)을 초과하지 않게 할 수 있다.

한편 스크립트레이어(L2)는 해당 스크립트에 포함되는 복수의 서브텍스트레이어(L3) 각각에 대한 서브텍스트에 기초하여, 생성된 AI휴먼영상에 대한 음성을 청취할 수 있는 L5레이어를 더 포함할 수 있다.

전술한 바와 같이 대상문서파일에서 추출된 텍스트를 음성으로 변환했을 때 기설정된 간격 이하의 재생시간을 가지는 복수의 서브텍스트 각각에 대한 AI휴먼영상이 생성될 수 있고, 각각의 서브텍스트에 대한 음성의 청취는 해당 서브텍스트에 대한 서브텍스트레이어(L3)에 포함되는 E2엘리먼트를 통해 청취할 수 있다.

서비스서버(1)는 상술한 E2엘리먼트를 통해 구현되는 복수의 서브텍스트 각각에 대한 음성을 청취할 수 있는 기능과 더불어, 복수의 서브텍스트 각각에 대한 음성을 병합했을 때의 전체 음성을 청취할 수 있는 기능을 L5레이어를 통해 구현할 수 있다.

도 9의 (a)는 AI휴먼영상에서의 AI휴먼캐릭터의 수 및 모델을 선택할 수 있는 AI휴먼캐릭터선택레이어(L6)를 도시한다. 도시된 바와 같이 AI휴먼캐릭터선택레이어(L6)에서 사용자는 AI휴먼영상에서 적용되는 AI휴먼캐릭터의 숫자와 모델 유형을 선택할 수 있다.

도 9의 (b)는 AI휴먼영상에서의 AI휴먼캐릭터에 대한 스타일, 앵글, 포즈, 크기, 및 위치를 설정할수 있는 AI휴먼캐릭터설정레이어(L7)을 도시한다. 도시된 바와 같이 AI휴먼캐릭터설정레이어(L7)는 AI휴먼캐릭터선택레이어(L6)에서 선택된AI휴먼캐릭터에 대한 숨김(가리기)여부, 스타일, 앵글, 포즈, 크기, 및 위치 중 1 이상에 대한 정보를 설정하기 위해 제공되는 레이어일 수 있다.

AI휴먼캐릭터설정레이어(L7)는 해당 서브텍스트에 대한 AI휴먼영상에 대한 AI휴먼캐릭터를 변경할 수 있는 E3엘리먼트를 더 포함하고, 상기 E3엘리먼트가 선택입력되는 경우에AI휴먼캐릭터선택레이어(L6)가 사용자단말에 표시될 수 있다.

AI휴먼캐릭터설정레이어(L7)는 프리뷰재생레이어(L8)에서 재생되는 AI휴먼영상에 표시되는 AI휴먼캐릭터를 선택입력하거나, 서브텍스트에 상응하는 요약블록을 선택입력하는 경우에 표시될 수 있다.

구체적으로 전술한 바와 같이, AI휴먼영상은 AI휴먼캐릭터가 서브텍스트를 발화하는 영상으로서 프리뷰재생레이어(L8)에서 재생될 수 있다. 이와 같이 프리뷰재생레이어(L8)에서 재생되는 AI휴먼영상에 표시되는 AI휴먼캐릭터를 선택입력하는 경우에, 사용자단말에는 AI휴먼캐릭터설정레이어(L7)가 표시될 수 있고, 사용자는 해당 AI휴먼캐릭터에 대한 세부적인 정보를 설정 및 변경할 수 있다.

또한 AI휴먼영상은 복수의 서브텍스트 각각에 대해 생성되고 복수의 서브텍스트 각각에 상응하는 요약블록이 표시될 수 있고, 서브텍스트에 대한 요약블록에서의 선택입력에 따라 AI휴먼캐릭터설정레이어(L7)가 표시될 수 있다.

예를 들어, 사용자가 요약블록에 표시되는 AI휴먼캐릭터의 명칭을 선택입력하는 경우에, 사용자단말에는 해당 AI휴먼캐릭터에 대한 AI휴먼캐릭터설정레이어(L7)가 표시될 수 있고, 사용자는 해당 AI휴먼캐릭터에 대한 세부적인 정보를 설정 및 변경할 수 있다.

도 10은 AI휴먼영상에 대한 프리뷰를 제공하는 프리뷰레이어(L1)를 도시한다. 구체적으로 프리뷰레이어(L1)는 AI휴먼영상의 재생, 정지를 포함하는 재생동작과 관련된 아이콘이 디스플레이되는 프리뷰재생레이어(L8)를 포함할 수 있다.

전술한 바와 같이, 사용자단말은 서비스서버(1)로부터 대상문서파일을 업로드하고, AI휴먼캐릭터에 대한 세부적인 설정정보를 입력할수 있는 인터페이스를 제공받을 수 있고, 서비스서버(1)는 사용자단말이 입력한 정보에 기초하여, 대상문서파일의 텍스트에 대한 AI휴먼영상을 생성할수 있다.

프리뷰재생레이어(L8)는 이와 같이 생성된 AI휴먼영상이 표시되는 레이어일 수 있다. 구체적으로 프리뷰재생레이어(L8)는 AI휴먼영상의 재생, 정지와 같은 재생동작을 입력할 수 있는 아이콘을 포함하는 E4엘리먼트를 포함할 수 있다.

프리뷰레이어(L1)는 프리뷰재생레이어(L8)에서 표시되는 AI휴먼영상에 대한 정보를 시계열적으로 요약하여 디스플레이하는 시계열요약레이어(L9)를 포함할 수 있다. 구체적으로 시계열요약레이어(L9)는 프리뷰재생레이어(L8)에 표시되는 AI휴먼영상의 시점을 변경하기 위한 타임라인레이어(L10)를 포함할 수 있다. 바람직하게는 타임라인레이어(L10)는 시간축으로 표시될 수 있다.

도시된 바와 같이, 사용자는 타임라인레이어(L10)에 표시되는 조작축엘리먼트(E5)를 좌우로 이동해가면서, 프리뷰재생레이어(L8)에 표시되는 AI휴먼영상의 시점을 변경할 수 있다. 예를 들어, 조작축엘리먼트(E5)가 우측으로 이동하는 경우에 AI휴먼영상의 재생시점이 뒤로 이동할 수 있다.

프리뷰레이어(L1)의 시계열요약레이어(L9)는 시계열에 따라 해당 시점에서의 AI휴먼영상에 대한 정보를 표시하는 스크립트요약정보레이어(L11)를 포함할 수 있다. 구체적으로 스크립트요약정보레이어(L11)는 각각의 서브텍스트에 상응하는 각각의 요약블록(B1)을 포함할 수 있다.

바람직하게는 각각의 요약블록(B1)은, 해당 서브텍스트에 대한 AI휴먼캐릭터, 및 스크립트에 대한 정보를 포함할 수 있다.

전술한 바와 같이, 서비스서버(1)는 대상문서파일에서 추출된 텍스트를 복수의 서브텍스트로 분할하고, 분할된 복수의 서브텍스트 각각에 대한 AI휴먼영상을 생성할 수 있다. 요약블록은 이와 같이 생성된 복수의 서브텍스트 각각에 대한 AI휴먼영상에 대한 정보를 표시할 수 있다.

구체적으로 요약블록은 해당 서브텍스트에 대한 AI휴먼영상에서의 AI휴먼캐릭터의 명칭(모델명), 해당 서브텍스트에 대한 스크립트, 해당 서브텍스트를 TTS로 변환했을 때의 음성의 재생시간에 대한 정보를 포함할 수 있다.

예를 들어 도 10에서, 사용자는 첫번째 요약블록(B1)을 통해 00:00부터 00:17초까지 재생되는 AI휴먼영상에 대한 정보를 확인할 수 있고, 두번째 요약블록(B1)을 통해 00:17부터 00:36초까지 재생되는 AI휴먼영상에 대한 정보를 확인할 수 있다.

한편, 요약블록(B1)에 표시된 AI휴먼캐릭터의 명칭을 선택입력하는 경우에, 해당 AI휴먼캐릭터에 대한 AI휴먼캐릭터설정레이어(L7)가 사용자단말에 표시될 수 있다.

본 발명의 일 실시예에서, 복수의 요약블록 각각의 형태는 서브텍스트를 TTS로 음성으로 변환되는 경우, 음성의 재생시간에 대한 정보가 반영되면서 결정될 수 있다.

예를 들어, 복수의 요약블록 각각의 크기는 서브텍스트를 TTS로 음성으로 변환되는 경우, 음성의 재생시간에 비례하여 결정될 수 있다.

바람직하게는 타임라인레이어(L10)는 가로로 표시되는 시간축일 수 있고, 복수의 요약블록 각각의 가로길이는 서브텍스트를 TTS로 음성으로 변환되는 경우, 음성의 재생시간에 비례하여 결정됨으로써, 사용자가 요약블록 각각에 대한 가로길이를 통해 요약블록 각각에 상응하는 서브텍스트에 대한 AI휴먼영상의 재생길이를 직관적으로 인지하게 할 수 있다.

또한, 상기 프리뷰재생레이어(L8)는 AI휴먼영상이 표시되는레이어로써, 상기 프리뷰재생레이어(L8)에는 타이틀, 서브타이틀, 생성이미지, 및 AI휴먼이 포함될 수 있다. 상기 편집인터페이스를 통한 사용자단말의 입력에 따라 상기 타이틀, 상기 서브타이틀, 상기 생성이미지, 및 상기 AI휴먼의 위치 및 크기가 조정될 수 있고, 타이틀, 서브타이틀, 및 생성이미지 중 1 이상이 해당 슬라이드 및 AI휴먼영상에서 삭제될 수도 있다. 또한, 상기 프리뷰재생레이어(L8) 및 AI휴먼영상에는 자막이 더 표시될 수 있고, 바람직하게는, 상기 데이터자동생성단계에서 추출된 복수의 서브텍스트가 AI휴먼영상에서 자막 형식으로 표시될 수 있다. 본 발명의 일 실시예에서는, 상기 자막은 상기 편집인터페이스를 통한 사용자단말의 입력에 따라 자막의 삽입 및 삭제가 가능하며, 자막을 삽입한 경우에는 해당 자막의 위치 및 크기를 조정할 수 있다.

한편, 전술한 바와 같이 사용자는 복수의 서브텍스트 각각에 대해 생성된 복수의 AI휴먼영상 각각에서의 복수의 AI휴먼캐릭터 각각에 대한 정보를 설정할 수 있다. 예를 들어, 도 11에서 사용자는 복수의 서브텍스트 각각에 대한 AI휴먼영상에서의 AI휴먼캐릭터의 모델을 달리 설정함으로써, 2 이상의 AI휴먼캐릭터가 대화하는 AI휴먼영상을 생성할 수 있다.

이와 같은 경우에, 프리뷰재생레이어(L8)에는 복수의 AI휴먼캐릭터 C1, C2를 포함하는 AI휴먼영상이 표시될 수 있다.

또한, 스크립트요약정보레이어(L11)에는 복수의 AI휴먼캐릭터 C1, C2 각각에 대한 요약블록 B1, B2가 표시될 수 있다. 구체적으로 요약블록 B1은 AI휴먼캐릭터 C1에 대한 정보를 표시하고, 요약블록 B2는 AI휴먼캐릭터 C2에 대한 정보를 표시할 수 있다.

본 발명의 일 실시예에서, 복수의 서브텍스트 각각에대한 AI휴먼영상에서, 서로 동일한 AI휴먼캐릭터에 대한 서브텍스트에 대한 요약블록의 색상을동일하게 설정하고, 상이하게 설정된 AI휴먼캐릭터에 대한 서브텍스트에 대한 요약블록의 색상은 서로 상이하게 설정될 수 있다.

예를 들어, 도 11에서 서로 다른 AI휴먼캐릭터 C1, C2 각각에 대한 요약블록 B1, B2의 색상이 상이하게 표시될 수 있다. 이와 같이 서비스서버(1)는 서로 다른 AI휴먼캐릭터 C1, C2 각각에 대한 요약블록 B1, B2의 색상을 상이하게 표시함으로써, 사용자가 각각의 요약블록이 어떤 AI휴먼캐릭터에 대한 정보를 내포하는 지를 직관적으로 인지하게 할 수 있다.

한편 전술한 바와 같이, 사용자에 의하여 프리뷰재생레이어(L8)에서 재생되는 AI휴먼영상에 표시되는 AI휴먼캐릭터가 선택입력되거나, 스크립트요약정보레이어(L11)에서 해당 AI휴먼캐릭터에 대한 요약블록이 선택입력되는 경우, 해당 AI휴먼캐릭터에 대한 AI휴먼캐릭터설정레이어(L7)가 표시될 수 있다.

예를 들어, 사용자는 프리뷰재생레이어(L8)에 표시되는 AI휴먼캐릭터 C1을 선택하거나, 스크립트요약정보레이어(L11)에서 AI휴먼캐릭터 C1에 대한 요약블록 B1(바람직하게는 요약블록 B1에 표시되는 AI휴먼캐릭터 C1의 명칭)을 선택입력함으로써, AI휴먼캐릭터 C1에 대한 세부적인 정보를 설정할 수 있다.

도 12에 도시된 바와 같이, 사용자는 AI휴먼영상에서 ai휴먼캐릭터의 제스처를 설정할 수 있다.

전술한 바와 같이 스크립트레이어(L2)는 복수의 서브텍스트 각각에 대한 서브텍스트레이어(L3)를 포함할 수 있고, 서비스서버(1)는 복수의 서브텍스트 각각에 대한 AI휴먼영상을 생성할 수 있다.

한편, 도 12의 (a)에 도시된 바와 같이, 복수의 서브텍스트레이어(L3) 각각은 해당 서브텍스트에 대한 AI휴먼영상에서의 AI휴먼캐릭터에 대한 제스처를 설정할 수 있는 제스처입력레이어(L12)를 표시하기 위한 E6엘리먼트를 포함할 수 있다.

사용자에 의하여 E6엘리먼트가 선택입력되는 경우에, 제스처입력레이어(L12)가 표시될 수 있고, 사용자는 해당 서브텍스트에 대한 AI휴먼캐릭터에 대한 제스처 종류, 및 발현위치를 설정할 수 있다.

구체적으로 제스처종류란 AI휴먼캐릭터가 어떤 손을 사용할 지, 혹은 어떤 행동을 표정을 지을 지 등에 대한 정보를 포함할 수 있고, 제스처의 발현위치란 해당 서브텍스트에 대한 AI휴먼영상의 어느 시점에서 AI휴먼캐릭터가 해당 제스처를 취할 지에 대한 정보를 의미할 수 있다.

예를 들어, 사용자는 서브텍스트에 대한 "문장 앞"에서 AI휴먼캐릭터가 “오른손”을 사용하도록 설정할 수 있다.

이와 같이, AI휴먼영상에서 AI휴먼캐릭터가 사용자에 의해 설정된 제스처를 구현함으로써, 보다 사실적이고 사용자 의도에 부합하는 AI영상이 구현될 수 있다.

한편, 도 12의 (b)에 도시된 바와 같이, 제스처입력레이어(L12)에서 AI휴먼캐릭터에 대한 제스처가 설정되는 경우에, 해당 서브텍스트에 대한 요약블록(B1)에 해당 제스처에 대한 정보가 표시될 수 있다.

구체적으로 해당 제스처에 대해 설정된 발현위치에 상응하는 요약블록(B1)의 세부위치에 해당 제스처에 대한 정보를 표시하는 E7엘리먼트가 오버레이되어 표시될 수 있다.

예를 들어, 도 12의 (a)에서 특정 서브텍스트에 대한 제스처의 발현위치가 "문장 앞"으로 설정되고, 제스처의 종류가 "오른손"으로 설정되는 경우에, 해당 서브텍스트에 대한 요약블록에는, E7엘리먼트가 "문장 앞"에 상응하는 요약블록의 세부위치(앞 혹은 좌측)에서 해당 제스처의 종류 "오른손"에 대한 정보가 표시될 수 있다.

이와 같이 사용자가 제스처입력레이어(L12)에서 설정한 제스처에 대한 정보가, 해당 서브텍스트에 대한 요약블록(B1)에 상응하여 표시됨으로써, 사용자는 자신이 어떤 서브텍스트에 대해서, 어떤 제스처를 어떤 발현위치에 설정하였는 지를 직관적으로 인지할 수 있다.

한편, 본 발명의 일 실시예에서 사용자는 요약블록(B1)의 E7엘리먼트를 삭제함으로써, 해당 서브텍스트에 대해 설정된 제스처에 대한 정보를 반영하지 않고 삭제할 수 있다.

이와 같이 사용자는 제스처를 삭제하고자 하는 경우에, E6엘리먼트를 선택입력하여 제스처입력레이어(L12)를 다시 불러올 필요없이, 해당 서브텍스트에 대한 요약블록(B1)에서 제스처를 바로 삭제할 수 있다.

도 13에 도시된 바와 같이, 서비스서버(1)는 사용자단말에 AI휴먼영상의 배경이미지, 배경동영상, 배경음원 중 1 이상을 포함하는 배경정보를 설정할 수 있는 배경설정레이어를 제공할 수 있다.

구체적으로 도 13의 (a)는 AI휴먼영상에서의 배경이미지를 설정하기 위해 사용자단말에 표시되는 레이어이고, 도 13의 (b)는 AI휴먼영상에서의 배경동영상을 설정하기 위해 사용자단말에 표시되는 레이어이고, 도 13의 (c)는 AI휴먼영상에서의 배경음원을 설정하기 위해 사용자단말에 표시되는 레이어이다.

이와 같이, 사용자는 AI휴먼영상에서 백그라운드로 배경이미지, 배경동영상, 배경음원 중 1 이상을 삽입할 수 있다.

도 14에 도시된 바와 같이, 배경설정레이어에서 AI휴먼영상에 대한 배경정보가 설정되는 경우에, 프리뷰재생레이어(L8)에는 해당 배경정보가 반영된 AI휴먼영상이 표시될 수 있다.

또한 사용자는 프리뷰재생레이어(L8)에 표시되는 AI휴먼영상에서 반영된 배경정보를 수정할 수 있다. 예를 들어, 사용자는 프리뷰재생레이어(L8)에 표시되는 AI휴먼영상에서 오버레이되어 표시되는 배경이미지를 선택입력하여, 해당 배경이미지를 복제, 삭제하거나위치 등을 설정할 수 있다.

도 15는 본 발명의 일 실시예에 따른 컴퓨팅장치(11000)의 내부 구성을 예시적으로 도시한다.

도 1에 대한 설명에서 언급된 서비스서버(1)는 후술하는 도 15에 도시된 컴퓨팅장치(11000)의 구성요소를 포함할 수 있다.

도 15에 도시한 바와 같이, 컴퓨팅장치(11000)은 적어도 하나의 프로세서(processor)(11100), 메모리(memory)(11200), 주변장치 인터페이스(peripheral interface)(11300), 입/출력 서브시스템(I/O subsystem)(11400), 전력 회로(11500) 및 통신 회로(11600)를 적어도 포함할 수 있다.

구체적으로, 상기 메모리(11200)는, 일례로 고속 랜덤 액세스 메모리(high-speed random access memory), 자기 디스크, 에스램(SRAM), 디램(DRAM), 롬(ROM), 플래시 메모리 또는 비휘발성 메모리를 포함할 수 있다. 상기 메모리(11200)는 상기 컴퓨팅장치(11000)의 동작에 필요한 소프트웨어 모듈, 명령어 집합 또는 그 밖에 다양한 데이터를 포함할 수 있다.

이때, 상기 프로세서(11100)나 상기 주변장치 인터페이스(11300) 등의 다른 컴포넌트에서 상기 메모리(11200)에 액세스하는 것은 상기 프로세서(11100)에 의해 제어될 수 있다. 상기 프로세서(11100)은 단일 혹은 복수로 구성될 수 있고, 연산처리속도 향상을 위하여 GPU 및 TPU 형태의 프로세서를 포함할 수 있다.

상기 주변장치 인터페이스(11300)는 상기 컴퓨팅장치(11000)의 입력 및/또는 출력 주변장치를 상기 프로세서(11100) 및 상기 메모리 (11200)에 결합시킬 수 있다. 상기 프로세서(11100)는 상기 메모리(11200)에 저장된 소프트웨어 모듈 또는 명령어 집합을 실행하여 상기 컴퓨팅장치(11000)을 위한 다양한 기능을 수행하고 데이터를 처리할 수 있다.

상기 입/출력 서브시스템(11400)은 다양한 입/출력 주변장치들을 상기 주변장치 인터페이스(11300)에 결합시킬 수 있다. 예를 들어, 상기 입/출력 서브시스템(11400)은 모니터나 키보드, 마우스, 프린터 또는 필요에 따라 터치스크린이나 센서 등의 주변장치를 상기 주변장치 인터페이스(11300)에 결합시키기 위한 컨트롤러를 포함할 수 있다. 다른 측면에 따르면, 상기 입/출력 주변장치들은 상기 입/출력 서브시스템(11400)을 거치지 않고 상기 주변장치 인터페이스(11300)에 결합될 수도 있다.

상기 전력 회로(11500)는 단말기의 컴포넌트의 전부 또는 일부로 전력을 공급할 수 있다. 예를 들어 상기 전력 회로(11500)는 전력 관리 시스템, 배터리나 교류(AC) 등과 같은 하나 이상의 전원, 충전 시스템, 전력 실패 감지 회로(power failure detection circuit), 전력 변환기나 인버터, 전력 상태 표시자 또는 전력 생성, 관리, 분배를 위한 임의의 다른 컴포넌트들을 포함할 수 있다.

상기 통신 회로(11600)는 적어도 하나의 외부 포트를 이용하여 다른 컴퓨팅장치와 통신을 가능하게 할 수 있다. 또는, 상술한 바와 같이 필요에 따라 상기 통신 회로(11600)는 RF 회로를 포함하여 전자기 신호(electromagnetic signal)라고도 알려진 RF 신호를 송수신함으로써, 다른 컴퓨팅장치와 통신을 가능하게 할 수도 있다.

이러한 도 15의 실시예는, 상기 컴퓨팅장치(11000)의 일례일 뿐이고, 상기 컴퓨팅장치(11000)는 도 15에 도시된 일부 컴포넌트가 생략되거나, 도 15에 도시되지 않은 추가의 컴포넌트를 더 구비하거나, 2 개 이상의 컴포넌트를 결합시키는 구성 또는 배치를 가질 수 있다. 예를 들어, 모바일 환경의 통신 단말을 위한 컴퓨팅장치는 도 15에 도시된 컴포넌트들 외에도, 터치스크린이나 센서 등을 더 포함할 수도 있으며, 상기 통신 회로(1160)에 다양한 통신방식(Wi-Fi, 3G, LTE, 5G, 6G, Bluetooth, NFC, Zigbee 등)의 RF 통신을 위한 회로가 포함될 수도 있다. 상기 컴퓨팅장치(11000)에 포함 가능한 컴포넌트들은 하나 이상의 신호 처리 또는 어플리케이션에 특화된 집적 회로를 포함하는 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어 양자의 조합으로 구현될 수 있다.

본 발명의 실시예에 따른 방법들은 다양한 컴퓨팅장치를 통하여 수행될 수 있는 프로그램 명령(instruction) 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 특히, 본 실시예에 따른 프로그램은 PC 기반의 프로그램 또는 모바일 단말 전용의 어플리케이션으로 구성될 수 있다. 본 발명이 적용되는 어플리케이션은 파일 배포 시스템이 제공하는 파일을 통해 이용자 단말에 설치될 수 있다. 일 예로, 파일 배포 시스템은 이용자 단말이기의 요청에 따라 상기 파일을 전송하는 파일 전송부(미도시)를 포함할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨팅장치 상에 표준편차되어서,표준편차된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅시스템에서 수행되는 사용자 입력 기반 자동 영상 컨텐츠 제작방법으로서,
사용자단말로부터 입력된 사용자텍스트에 기초하여 타이틀, 복수의 서브타이틀 및 복수의 서브텍스트를 추출하고 상기 복수의 서브타이틀 및 상기 복수의 서브텍스트와 관련된 1 이상의 생성이미지를 생성하는 데이터자동생성단계;
상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지를 포함하는 복수의 슬라이드를 생성하는 슬라이드자동생성단계; 및
상기 서브텍스트를 발화하는 AI휴먼 및 상기 슬라이드를 포함하는 AI휴먼영상을 생성하고, 편집인터페이스를 사용자단말로 제공하는 AI휴먼영상생성단계;를 포함하는, 사용자 입력 기반 자동 영상 컨텐츠 제작방법.

청구항 1에 있어서,
상기 AI휴먼영상생성단계는,
AI휴먼영상에 포함되는 타이틀, 서브타이틀, 및 생성이미지의 크기 및 위치를 조정하는 레이아웃조정인터페이스를 사용자단말로 제공하는 레이아웃설정단계;
사용자의 입력에 따라 복수의 영상으로 구현될 AI휴먼캐릭터에 정보가 설정되는 AI휴먼캐릭터설정단계; 및
사용자단말로 AI휴먼영상 생성을 위한 편집인터페이스를 제공하는 편집인터페이스제공단계;를 포함하는, 사용자 입력 기반 자동 영상 컨텐츠 제작방법.

청구항 2에 있어서,
상기 레이아웃조정인터페이스는,
전체 동영상에 대한 타이틀을 표시하는 타이틀레이어;
각각의 슬라이드에 대한 서브타이틀을 표시하는 서브타이틀레이어;
각각의 슬라이드에 자동적으로 배치된 생성이미지를 표시하는 생성이미지레이어;
각각의 슬라이드의 서브텍스트를 발화하는 AI휴먼이 표시되는 AI휴먼레이어; 및
상기 서브텍스트를 AI휴먼영상의 자막으로 표시하는 자막레이어;를 포함하고,
상기 레이아웃조정인터페이스를 통해 타이틀레이어, 서브타이틀레이어, 생성이미지레이어, AI휴먼레이어, 및 자막레이어의 위치 및 크기를 조정할 수 있는, 사용자 입력 기반 자동 영상 컨텐츠 제작방법.

청구항 1에 있어서,
상기 데이터자동생성단계는,
AI휴먼영상의 제목이나 주제와 관련된 사용자텍스트를 사용자단말로부터 수신하는 사용자텍스트수신단계;
상기 사용자텍스트를 서비스서버의 내부 혹은 외부의 거대언어모델에 입력하여, AI휴먼영상의 슬라이드에 포함될 타이틀, 복수의 서브타이틀 및 복수의 서브텍스트를 추출하는 서브텍스트추출단계; 및
상기 복수의 서브타이틀 및 복수의 서브텍스트 각각을 서비스서버의 내부 혹은 외부의 딥러닝 기반의 이미지생성모델에 입력하여, 상기 복수의 서브타이틀 및 복수의 서브텍스트 각각에 상응하는 1 이상의 생성이미지를 생성하는 이미지생성단계;를 포함하는, 사용자 입력 기반 자동 영상 컨텐츠 제작방법.

청구항 1에 있어서,
상기 슬라이드자동생성단계는,
상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지가 상이한 레이아웃으로 배치된 복수의 레이아웃템플릿을 사용자단말로 제공하고,
상기 사용자단말로부터 선택된 레이아웃템플릿의 형태로 상기 타이틀, 상기 서브타이틀, 및 상기 생성이미지를 배치하여 복수의 슬라이드를 생성하는, 사용자 입력 기반 자동 영상 컨텐츠 제작방법.

청구항 1에 있어서,
상기 서브텍스트는 AI휴먼이 발화할 스크립트이고,
상기 편집인터페이스는,
상기 생성된 AI휴먼영상에 대한 프리뷰를 제공하는, 프리뷰레이어; 및
상기 서브텍스트에 대한 편집기능을 제공하는 스크립트레이어;를 포함하고,
상기 스크립트레이어는,
복수의 서브텍스트 각각이 표시되고, 해당 서브텍스트에 대한 편집기능을 제공하는, 상기 서브텍스트 각각에 상응하는 복수의 서브텍스트레이어;를 포함하고,
상기 서브텍스트레이어에는, 해당 서브텍스트레이어에 포함된 서브텍스트가 TTS로 음성으로 변환되는 경우, 음성의 재생시간이 표시되는, 사용자 입력 기반 자동 영상 컨텐츠 제작방법.

청구항 6에 있어서,
상기 서브텍스트레이어에는 제스처입력레이어가 표시될수 있고,
상기 제스처입력레이어는,
해당 서브텍스트레이어에 포함된서브텍스트에 대한 AI휴먼영상에서의 AI휴먼캐릭터의 제스처 종류, 및 발현위치를 설정할수 있는 제스처설정인터페이스를 포함하고,
상기 제스처입력레이어에 의하여, 해당 서브텍스트레이어에 포함된 서브텍스트에 대한 제스처 종류 및 발현위치가 설정되는 경우에,
해당 서브텍스트에 대한 요약블록에는,
설정된 발현위치에 상응하는 요약블록의 세부위치에 해당 제스처에 대한 정보가 오버레이되어 표시되는, 사용자 입력 기반 자동 영상 컨텐츠 제작방법.

청구항 6에 있어서,
상기 프리뷰레이어는,
AI휴먼영상의 재생, 정지를 포함하는 재생동작과 관련된 아이콘이 디스플레이되는 프리뷰재생레이어; 및
상기 프리뷰재생레이어에서 표시되는 AI휴먼영상의 시계열에 따른 정보를 요약하여 표시하는 시계열요약레이어;를 포함하고,
상기 시계열요약레이어는,
포함된 조작축엘리먼트를 이동에 따라, 프리뷰재생레이어의 영상의 시점이 이동하는 타임라인레이어를 포함하는, 사용자 입력 기반 자동 영상 컨텐츠 제작방법.

청구항 1에 있어서,
상기 편집인터페이스는,
상기 AI휴먼영상에서의 AI휴먼캐릭터의 수 및 모델을선택할 수 있는 AI휴먼캐릭터선택레이어; 및
각각의 AI휴먼캐릭터에 대한 스타일, 앵글, 포즈, 크기, 및 위치 중 1 이상을 설정할 수 있는 AI휴먼캐릭터설정레이어;를 더 포함하고,
상기 AI휴먼캐릭터설정레이어는,
프리뷰재생레이어에서 재생되는 AI휴먼영상에 표시되는 AI휴먼캐릭터의 선택입력 혹은, 서브텍스트에 상응하는 요약블록에서의 선택입력에 따라 표시될 수 있는, 사용자 입력 기반 자동 영상 컨텐츠 제작방법.