[go: up one dir, main page]

KR102116315B1 - 캐릭터의 음성과 모션 동기화 시스템 - Google Patents

캐릭터의 음성과 모션 동기화 시스템 Download PDF

Info

Publication number
KR102116315B1
KR102116315B1 KR1020180162733A KR20180162733A KR102116315B1 KR 102116315 B1 KR102116315 B1 KR 102116315B1 KR 1020180162733 A KR1020180162733 A KR 1020180162733A KR 20180162733 A KR20180162733 A KR 20180162733A KR 102116315 B1 KR102116315 B1 KR 102116315B1
Authority
KR
South Korea
Prior art keywords
motion
character
voice
information
time information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020180162733A
Other languages
English (en)
Inventor
김대승
Original Assignee
주식회사 인공지능연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 인공지능연구원 filed Critical 주식회사 인공지능연구원
Priority to KR1020180162733A priority Critical patent/KR102116315B1/ko
Priority to US16/234,462 priority patent/US20200193961A1/en
Application granted granted Critical
Publication of KR102116315B1 publication Critical patent/KR102116315B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명의 캐릭터의 음성과 모션 동기화 시스템은 입력되는 발화 문장으로부터 음성의 재생 시간 정보와 발화 문장에 부합되는 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성하고, 생성된 음성의 재생 시간 정보와 모션의 실행 시간 정보를 기초로 변형된 모션의 실행 시간 정보와 변형된 모션의 실행 시간 정보에 동기화되어 변형된 음성의 재생 시간 정보를 생성하고, 변형된 시간 정보에 따라 캐릭터의 모션을 실행하는 영상과 음성을 생성하여 재생한다.

Description

캐릭터의 음성과 모션 동기화 시스템{SYSTEM FOR SYNCHRONIZING VOICE AND MOTION OF CHARACTER}
본 발명은 캐릭터의 음성과 모션을 동기화는 시스템에 관한 것으로, 더욱 상세하게는 입력되는 문장에 부합하는 캐릭터의 동작을 생성하고, 캐릭터의 동작을 기준으로 캐릭터의 발화와 동작을 동기화하여 영상과 음성을 출력하는 시스템에 관한 것이다.
행사장 등에서 2D 또는 3D 애니메이션을 활용한 가상의 캐릭터가 행사의 주요 내용과 행사장을 소개하는 등 가상 안내요원으로 활용되고 있다. 또한 은행, 마트 등에서도 이러한 가상의 캐릭터가 상품을 소개하거나 고객의 질문에 응대하는 등 그 활용범위가 확대되고 있다.
가상의 캐릭터가 인공 신경망을 기반으로 하는 학습을 통해 지능을 갖추고 주어진 문장의 문맥으로부터 감정 등을 파악하여 음성이나 표정 또는 동작으로 표출하는 기술도 등장하고 있다.
가상의 캐릭터가 음성을 출력할 때 자연스러운 입 모양과 표정 그리고 동작을 생성하기 위해 많은 기술들이 개발되어 왔다. 하지만 종래의 기술들은 주로 소리를 먼저 합성하고 소리 출력에 동기화하여 캐릭터의 동작을 제어하여 음성과 캐릭터의 동작이 부자연스럽게 합성되는 현상이 빈번하게 발생되는 문제가 있다.
본 발명은 제공되는 발화 문장으로부터 생성된 음성과 캐릭터의 모션을 캐릭터의 모션이 실행되는데 필요한 시간을 기준으로 동기화하기 위해 음성을 변형하여 자연스럽게 음성과 캐릭터의 모션을 출력하는 시스템을 제공하는 것을 목적으로 한다.
또한, 본 발명은 제공되는 발화 문장으로부터 생성된 음성과 캐릭터의 모션을 동기화하는 다양한 변형을 지원하여 상황에 따라 다양하게 표현된 음성과 캐릭터의 모션을 출력하는 시스템을 제공하는 것을 또 다른 목적으로 한다.
발명의 일 양상에 따른 캐릭터의 음성과 모션 동기화 시스템은 음성엔진부와, 모션엔진부와, 제어부와, 모션실행부와, 음성출력부를 포함한다.
음성엔진부는 입력되는 발화 문장으로부터 음성의 재생 시간 정보를 생성한다.
캐릭터 모션엔진부는 입력되는 발화 문장으로부터 발화 문장에 부합되는 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성한다.
생성된 음성의 재생 시간 정보와 모션의 실행 시간 정보는 제어부로 전달되며, 이를 수신한 제어부는 발화 문장과 음성 및 모션의 시간 정보를 기초로 변형된 모션의 실행 시간 정보와 변형된 모션의 실행 시간 정보에 동기화되어 변형된 음성의 재생 시간 정보를 생성한다.
모션실행부는 제어부가 제공하는 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 따라 캐릭터의 모션을 실행하는 영상을 생성하여 재생한다.
음성출력부는 제어부가 제공하는 변형된 음성의 재생 시간 정보에 따라 음성을 생성하여 재생한다.
발명의 또 다른 양상에 따르면, 음성엔진부와 캐릭터 모션엔진부는 발화 문장외에 발화 유형 정보를 추가로 입력 받을 수 있다. 이때 발화 유형 정보는 발화 문장에서 강조할 영역과 강조의 정도를 나타내는 강조 정보와 음절의 강약 정보와 음절의 장단 정보 중 적어도 하나 이상을 포함하고, 음성엔진부는 발화 유형 정보를 이용하여 발화 문장으로부터 음성의 재생 시간 정보를 생성하고, 캐릭터 모션엔진부는 발화 유형 정보를 이용하여 발화 문장으로부터 발화 문장에 부합되는 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성할 수 있다.
발명의 또 다른 양상에 따르면, 캐릭터 모션엔진부가 발화 문장에 포함된 어절, 어절 사이의 공백 또는 단어 중 어느 하나에 부합되는 복수의 캐릭터 모션 정보와 각 모션의 실행 시간 정보를 생성할 수 있다.
발명의 또 다른 양상에 따르면, 음성엔진부는 발화 문장에 대한 음성을 생성하여 전달하고, 이 경우 음성출력부는 제어부가 제공하는 변형된 음성의 재생 시간 정보에 따라 음성엔진부가 생성한 음성을 변형하여 재생할 수 있다.
발명의 또 다른 양상에 따르면, 캐릭터 모션엔진부는 생성된 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 따라 캐릭터의 모션을 실행하는 캐릭터 뼈대의 동작 정보를 생성하여 전달하고, 이 경우 모션실행부는 제어부가 제공하는 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 따라 캐릭터 모션엔진부가 생성한 캐릭터 뼈대의 동작 정보를 변형하여 캐릭터의 모션을 실행하는 영상을 생성하여 재생할 수 있다.
발명의 또 다른 양상에 따르면, 제어부는 음절의 발음 시간을 변형(길게하거나 짧게하는 방법을 통해)하거나 음절 사이의 간격을 변형(간격의 시간을 늘리거나 줄이는 방법을 통해)하는 방법으로 음성의 재생 시간 정보를 변형할 수 있다.
발명의 또 다른 양상에 따르면, 캐릭터 모션엔진부가 생성하는 모션의 실행 시간 정보는 모션에 대한 최소 실행 시간과 최대 실행 시간을 포함하고, 제어부는 모션의 최소 실행 시간과 최대 실행 시간 범위에서 음성의 재생시간 정보에 따라 모션의 실행 시간을 결정하는 방법으로 모션의 실행 시간 정보를 변형할 수 있다.
발명의 추가적 양상에 따르면, 캐릭터의 음성과 모션 동기화 시스템은 합성부를 더 포함할 수 있다.
합성부는 모션실행부가 출력하는 영상과 음성출력부가 출력하는 음성을 합성하여 캐릭터 애니메이션을 생성할 수 있다.
본 발명의 캐릭터의 음성과 모션 동기화 시스템에 의하면 발화 문장으로부터 생성된 음성과 캐릭터의 모션이 캐릭터의 모션이 실행되는데 필요한 시간을 기준으로 동기화하여 변형한 음성을 캐릭터의 모션과 함께 출력할 수 있다.
또한, 본 발명의 캐릭터의 음성과 모션 동기화 시스템에 의하면 발화 문장으로부터 생성된 음성과 캐릭터의 모션을 동기화하는 다양한 변형을 지원하여 상황에 따라 다양하게 표현된 음성과 캐릭터의 모션을 출력할 수 있다.
도 1은 일 양상에 따른 캐릭터의 음성과 모션 동기화 시스템을 도시한 블록도이다.
도 2는 또 다른 양상에 따라 캐릭터 애니메이션을 생성하는 합성부가 추가된 캐릭터의 음성과 모션 동기화 시스템을 도시한 블록도이다.
도 3은 일 실시예에 따른 캐릭터의 음성과 모션 동기화 시스템이 음성과 캐릭터 모션을 동기화하는 절차를 나타내는 절차도이다.
도 4는 또 다른 실시예에 따른 캐릭터의 음성과 모션 동기화 시스템의 절차로 동기화전 음성과 영상을 미리 생성하고, 동기화에 따라 생성된 음성과 영상을 변형하여 출력하는 절차를 나타내는 절차도이다.
전술한, 그리고 추가적인 양상들은 첨부된 도면을 참조하여 설명하는 실시 예들을 통해 구체화된다. 각 실시 예들의 구성 요소들은 다른 언급이나 상호간에 모순이 없는 한 실시 예 내에서 다양한 조합이 가능한 것으로 이해된다. 블록도의 각 블록은 어느 경우에 있어서 물리적인 부품을 표현할 수 있으나 또 다른 경우에 있어서 하나의 물리적인 부품의 기능의 일부 혹은 복수의 물리적인 부품에 걸친 기능의 논리적인 표현일 수 있다. 때로는 블록 혹은 그 일부의 실체는 프로그램 명령어들의 집합(set)일 수 있다. 이러한 블록들은 전부 혹은 일부가 하드웨어, 소프트웨어 혹은 이들의 결합에 의해 구현될 수 있다.
사람이 의사 소통을 함에 있어서 음성뿐만 아니라 동작 또한 매우 중요한 요소가 된다. 따라서, 사람은 다른 사람과 대화를 할 때 음성과 함께 음성과 부합하는 적절한 동작을 하여 매우 뚜렷하게 의사 표현을 한다. 이때의 동작은 인간의 언어를 보완하거나 강조하는 등의 중요한 역할을 수행한다.
사람과 의사 소통을 하는 가상의 캐릭터 또한 음성과 함께 캐릭터의 모션이 중요한 것은 사람의 경우와 동일하다. 이때 음성의 내용과 캐릭터의 모션이 부합되는 것도 중요하지만 음성과 캐릭터의 모션이 동기화 되어야 하는 것 또한 중요하다.
예를 들어, 사람은 "사랑해"라는 말을 하면서 몸짓으로 하트모양을 그리기도 한다. 이때 사람은 "사"라는 발음과 함께 하트모양을 그리기 시작하여 "해"라는 발음과 함께 하트모양 그리기를 끝낼 수 있다. 또는 사람은 "사랑해"라는 말을 한 후 몸짓으로 하트모양을 그릴 수도 있다. 또한, 상황에 따라서는 하트모양을 아주 느리게 그리면서 말 또한 그리기 동작에 맞춰 느리게 "사랑해"를 말할 수도 있다. 이처럼 발화와 몸짓의 동기화는 다양한 형태로 나타날 수 있다.
캐릭터가 주어진 문장을 발화하는 데 사람처럼 음성과 모션을 동기화함에 있어 다양한 형태의 동기화를 수행할 수 있으면 캐릭터가 효과적인 의사 소통을 실현할 수 있게 될 것이다.
도 1은 일 양상에 따른 캐릭터의 음성과 모션 동기화 시스템을 도시한 블록도이다. 일 양상에 따르면, 캐릭터의 음성과 모션을 동기화하는 시스템은 음성엔진부(110)와, 모션엔진부와, 제어부(130)와, 모션실행부(150)와, 음성출력부(140)를 포함한다.
캐릭터의 음성과 모션 동기화 시스템(100)은 입출력 장치를 구비한 하나의 컴퓨팅 장치 또는 복수의 컴퓨팅 장치로 구성될 수 있다. 입력 장치는 텍스트의 입력을 위한 키보드일 수 있으며 음성을 입력으로 받을 때는 마이크 장치가 될 수 있다. 출력 장치는 음성의 출력을 위한 스피커, 영상 출력을 위한 디스플레이 장치가 될 수 있다. 컴퓨팅 장치는 메모리와 CPU와 스토리지 장치를 구비한 장치이다. 캐릭터의 음성과 모션 동기화 시스템(100)은 로봇에 적용될 수 있다. 특히 적용되는 로봇이 휴머노이드 로봇일 경우에는 영상 출력 대신 음성과 로봇의 동작이 동기화될 수 있다.
음성엔진부(110)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 음성엔진부(110)는 입력되는 발화 문장으로부터 음성의 재생 시간 정보를 생성한다. 발화 문장은 음성으로 변환할 텍스트이다. 발화 문장은 사용자가 키보드 입력장치를 통해 실시간으로 타이핑하여 입력한 문장 또는 마이크 입력장치를 통해 입력한 말에 대응하기 위해 미리 생성되어 저장되어 있다. 즉, 발화 문장은 사용자가 타이핑하거나 말한 내용에 대한 캐릭터의 대응이다. 상황에 따른 발화 문장은 인공 신경망으로 학습된 모델을 통해 선택될 수 있다.
음성엔진부(110)는 많은 발화 문장을 입력 데이터로 하여 발음 단위로 음성의 재생 시간 정보를 생성하도록 인공 신경망 알고리즘으로 학습된 모델일 수 있다. 따라서, 음성엔진부(110)는 입력된 발화 문장을 인공 신경망 알고리즘을 이용하여 발음 단위로 음성의 재생 시간 정보를 생성한다. 발명의 양상에 따라서는 음성엔진부(110)가 음성의 재생 시간 정보 생성을 쉽게 하기 위해 임시의 음성 파일을 생성할 수도 있다.
음성엔진부(110)는 발화 문장 외에 발화 유형 정보를 입력으로 받을 수 있다. 발화 유형 정보는 발화 문장에서 강조할 영역과 강조의 정도를 나타내는 강조 정보와 음절의 강약 정보와 음절의 장단 정보 등과 같은 정보를 적어도 하나 이상을 포함할 수 있다. 발화 유형 정보는 특정 정보가 음성에만 적용되는 유형임을 표시하는 정보를 포함할 수도 있다. 강조 정보의 강조할 영역은 강조하여 발음할 어절 또는 단어 또는 글자를 표시한 것이며, 강조의 정도는 수치로 표현될 수 있다. 예를 들어, 강조 정보는 발화 문장 안에 강조할 단어와 수치로 표현된 강조의 정도로 구성될 수 있다. 강약 정보는 강하게 발음할 음절과 약하게 발음할 음절을 표시하는 정보이고, 장단 정보는 길게 발음할 음절과 짧게 발음할 음절을 표시하는 정보이다. 발화 유형 정보를 입력 받은 음성엔진부(110)는 발화 유형 정보를 이용하여 발화 문장으로부터 음성의 재생 시간 정보를 생성한다. 예를 들어, 음성엔진부(110)는 발화 문장으로부터 임시로 음성의 재생 시간 정보를 생성한 후 발화 유형 정보를 반영하여 최종의 음성의 재생 시간 정보로 수정하는 방식으로 발화 유형 정보를 이용하여 발화 문장으로부터 음성의 재생 시간 정보를 생성할 수 있다. 또 다른 예로 음성엔진부(110)가 발화 문장과 발화 유형 정보를 입력 데이터로 하여 발음 단위로 음성의 재생 시간 정보를 생성하도록 인공 신경망 알고리즘으로 학습되어 입력된 발화 문장과 발화 유형 정보를 인공 신경망 알고리즘을 이용하여 발음 단위로 음성의 재생 시간 정보를 생성할 수 있다.
발명의 양상에 따라서는 음성엔진부(110)는 발화 문장에 대한 음성 데이터를 생성하여 전달할 수 있다. 이 경우 후술할 음성출력부(140)가 캐릭터 모션의 실행 시간 정보에 동기화된 음성의 재생 시간 정보에 따라 생성된 음성 데이터를 변형하여 출력할 수 있다.
캐릭터 모션엔진부(120)는 입력되는 발화 문장으로부터 발화 문장에 부합되는 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성한다.
캐릭터 모션엔진부(120)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 캐릭터 모션엔진부(120)는 입력되는 발화 문장으로부터 발화 문장에 부합되는 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성한다. 발화 문장은 음성으로 변환할 텍스트로 캐릭터 모션엔진부(120)는 음성과 동기화될 캐릭터 모션을 생성하는 데 사용한다. 발화 문장은 사용자가 키보드 입력장치를 통해 실시간으로 타이핑하여 입력한 문장 또는 마이크 입력장치를 통해 입력한 말에 대응하기 위해 미리 생성되어 저장되어 있다. 발화 문장을 발음한 음성 파일 형태로 입력될 수 있다. 즉, 발화 문장은 사용자가 타이핑하거나 말한 내용에 대한 캐릭터의 대응이다. 상황에 따른 발화 문장은 인공 신경망으로 학습된 모델을 통해 선택될 수 있다.
캐릭터 모션엔진부(120)는 많은 발화 문장을 입력 데이터로 하여 문장 단위 또는 어절 단위 또는 단어 단위로 부합되는 캐릭터의 모션에 대한 정보를 생성하고 발화 문장에 음절 단위로 매핑되는 모션의 실행 시간 정보를 생성하도록 인공 신경망 알고리즘으로 학습된 모델일 수 있다. 따라서, 캐릭터 모션엔진부(120)는 입력된 발화 문장을 인공 신경망 알고리즘을 이용하여 문장 단위 또는 어절 단위 또는 단어 단위로 부합되는 캐릭터의 모션에 대한 정보를 생성한다. 이때 캐릭터 모션엔진부(120)는 발화 문장에 포함된 어절이나 단어뿐만 아니라 어절 사이의 공백에 대해서도 캐릭터의 모션 정보를 생성할 수 있다. 캐릭터 모션엔진부(120)가 생성하는 캐릭터의 모션 정보는 발화 문장에 따라 복수 개가 생성될 수 있으며, 각각의 모션에 대하여 모션의 실행 시간 정보도 생성한다.
예를 들어, 캐릭터 모션엔진부(120)는 발화 문장으로 "사랑해"가 입력되면 모션 정보를 하트 모양을 그리기로 생성하고, 모션의 실행 시작 시간을 "사" 음절에 매핑하고 모션의 실행 종료 시간을 "해"에 매핑한 모션 실행 시간 정보를 생성할 수 있다.
캐릭터 모션엔진부(120)가 생성하는 모션의 실행 시간 정보는 모션에 대한 최소 실행 시간과 최대 실행 시간을 포함할 수 있다.
캐릭터 모션엔진부(120)는 발화 문장 외에 발화 유형 정보를 입력으로 받을 수 있다. 발화 유형 정보는 발화 문장에서 강조할 영역과 강조의 정도를 나타내는 강조 정보와 음절의 강약 정보와 음절의 장단 정보 등과 같은 정보를 적어도 하나 이상을 포함할 수 있다. 강조 정보의 강조할 영역은 강조하여 표현할 어절 또는 단어 또는 글자를 표시한 것이며, 강조의 정도는 수치로 표현될 수 있다. 예를 들어, 강조 정보는 발화 문장 안에 강조할 단어와 수치로 표현된 강조의 정도로 구성될 수 있다. 강약 정보는 강하게 표현할 어절 또는 단어와 약하게 표현할 어절 또는 단어를 표시하는 정보이고, 장단 정보는 길게 즉, 느리게 표현할 어절 또는 단어와 짧게 즉, 빠르게 표현할 어절 또는 단어를 표시하는 정보이다. 만약 발화 유형 정보 중 음성에만 적용되는 발화 유형으로 표시된 정보는 캐릭터 모션엔진부(120)가 적용하지 않는다. 발화 유형 정보를 입력 받은 캐릭터 모션엔진부(120)는 발화 유형 정보를 이용하여 발화 문장으로부터 모션의 실행 시간 정보를 생성한다. 예를 들어, 캐릭터 모션엔진부(120)는 발화 문장으로부터 임시로 모션의 실행 시간 정보를 생성한 후 발화 유형 정보를 반영하여 최종의 모션의 실행 시간 정보로 수정하는 방식으로 발화 유형 정보를 이용하여 발화 문장으로부터 모션의 실행 시간 정보를 생성할 수 있다. 또 다른 예로 캐릭터 모션엔진부(120)가 발화 문장과 발화 유형 정보를 입력 데이터로 하여 문장 단위 또는 어절 단위 또는 단어 단위로 부합되는 캐릭터의 모션에 대한 정보를 생성하고, 발화 문장에 음절 단위로 매핑되는 모션의 실행 시간 정보를 생성하도록 학습된 인공 신경망 알고리즘을 이용하여 입력된 발화 문장과 발화 유형 정보로부터 문장 단위 또는 어절 단위 또는 단어 단위로 부합되는 캐릭터의 모션에 대한 정보를 생성하고, 발화 문장에 음절 단위로 매핑되는 모션의 실행 시간 정보를 생성할 수 있다.
발명의 양상에 따라서는 캐릭터 모션엔진부(120)는 발화 문장에 대한 캐릭터의 모션을 실행하는 캐릭터 뼈대의 동작 정보를 생성하여 전달할 수 있다. 이 경우 후술할 모션실행부(150)가 변형된 캐릭터 모션의 실행 시간 정보에 따라 생성된 캐릭터 뼈대의 동작 정보를 변형하고 이를 기초로 배경 등과 함께 렌더링하여 영상을 생성하여 출력할 수 있다. 캐릭터 뼈대는 영상 프레임을 생성할 때 캐릭터의 모습을 렌더링할 때 사용되는 정보로, 캐릭터 뼈대 동작 정보는 렌더링될 캐릭터의 동작의 기본 형태를 갖고 있다.
제어부(130)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 제어부(130)는 음성엔진부(110)로부터 생성된 음성의 재생 시간 정보를 전달 받고, 캐릭터 모션엔진부(120)로부터 모션 정보와 모션의 실행 시간 정보를 전달 받는다. 또한, 입력된 발화 문장도 음성엔진부(110) 또는 캐릭터 모션엔진부(120)로부터 전달 받는다.
제어부(130)는 먼저 발화 문장과 음성의 재생 시간 정보와 모션의 실행 시간 정보를 기초로 모션의 실행 시간 정보를 변형한다. 발화 문장으로부터 각각 독립적으로 생성된 음성의 재생 시간 정보와 모션을 실행 시간 정보를 동기화하기 위해 음성의 재생 시간 정보를 기준으로 모션의 실행 시간 정보를 변형한다. 예를 들어, 음성만 길게 발음하도록 발화 유형 정보가 입력되어 모션의 실행 시간과 부자연스럽게 되는 경우 모션의 최대 실행 시간을 벗어나지 않는 범위에서 모션의 실행 시간 정보를 변경한다. 이후 제어부(130)는 변형된 모션의 실행 시간 정보를 기준으로 음성의 재생 시간 정보를 동기화하여 변형된 음성의 재생 시간 정보를 생성한다. 이때 음성의 변형 방법은 음절의 발음 시간을 길게 또는 짧게 변형하거나 음절 사이의 간격을 늘리거나 줄이는 방식으로 변형하는 방법을 사용할 수 있다. 또는 모션의 실행 시간이 너무 길어 음성의 재생 시간을 맞추면 음성이 심하게 왜곡될 수 있는 경우에는 모션의 실행이 먼저 시작되도록 즉, 음성의 재생이 모션 중간에 시작되도록 음성의 재생 시간을 변경할 수 있다.
모션실행부(150)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 모션실행부(150)는 제어부(130)가 제공하는 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 기초하여 캐릭터의 모션을 실행하는 영상을 생성하여 재생한다. 캐릭터의 음성과 모션 동기화 시스템(100)이 휴머노이드 로봇에 적용된 경우에는 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 기초하여 로봇이 움직이도록 할 수 있다. 발명의 다른 양상에서는 캐릭터 모션엔진부(120)가 캐릭터의 모션을 실행하는 캐릭터 뼈대의 동작 정보를 생성하고, 모션실행부(150)는 이를 전달받아 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보를 이용하여 캐릭터 뼈대의 동작 정보를 변형하고 이를 기초로 영상을 생성하여 재생할 수 있다.
음성출력부(140)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 음성출력부(140)는 제어부(130)가 제공하는 변형된 음성의 재생 시간 정보에 따라 음성을 생성하여 재생한다. 발명의 다른 양상에서는 음성엔진부(110)가 음성 데이터를 생성하고, 음성출력부(140)는 이를 전달받아 변형된 음성의 재생 시간 정보를 이용하여 변형된 음성을 재생할 수 있다.
도 2는 또 다른 양상에 따라 캐릭터 애니메이션을 생성하는 합성부(160)가 추가된 캐릭터의 음성과 모션 동기화 시스템을 도시한 블록도이다. 또 다른 양상에 따르면, 캐릭터의 음성과 모션을 동기화하는 시스템은 음성엔진부(110)와, 모션엔진부와, 제어부(130)와, 모션실행부(150)와, 음성출력부(140)를 포함하고, 합성부(160)를 더 포함할 수 있다.
이 양상에서 추가되는 합성부(160)는 모션실행부(150)가 출력하는 영상과 음성출력부(140)가 출력하는 음성을 합성하여 캐릭터 애니메이션을 생성할 수 있다. 생성된 캐릭터 애니메이션을 파일행태로 작성하여 스토리지에 저장하거나 외부로 전송할 수 있다.
발명의 양상에 따라서는 모션실행부(150)가 캐릭터의 모션을 실행하는 캐릭터 뼈대 동작 정보만을 제공하고 합성부(160)가 실제 캐릭터의 모습 및 배경 정보 등을 렌더링하여 캐릭터 애니메이션을 생성할 수도 있다.
도 3은 일 실시예에 따른 캐릭터의 음성과 모션 동기화 시스템이 음성과 캐릭터 모션을 동기화하는 절차를 나타내는 절차도이다. 도 3을 참고하여 설명하면, 캐릭터의 음성과 모션 동기화 시스템(100)은 발화 문장과 발화 유형 정보를 입력 받아 음성엔진부(110)와 캐릭터 모션엔진부(120)에 전달하고(S1000), 음성엔진부(110)는 입력된 발화 문자와 발화 유형 정보를 기초로 음성의 재생 시간 정보를 생성하고(S1010), 캐릭터 모션엔진부(120)는 입력된 발화 문자와 발화 유형 정보를 기초로 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성한다(S1020). 생성된 음성의 재생 시간 정보와 캐릭터의 모션 정보와 모션의 실행 시간 정보는 제어부(130)로 전달되고, 제어부(130)는 음성의 재생 시간 정보와 캐릭터의 모션 정보와 모션의 실행 시간 정보를 기초로 변형된 모션의 실행 시간 정보를 생성하고(S1040), 이 변형된 모션의 실행 시간 정보를 기초로 동기화되어 변형된 음성의 재생 시간 정보를 생성한다(S1060). 음성출력부(140)는 변형된 음성의 재생 시간 정보에 따라 변형된 음성을 생성하여 재생하고(S1070), 모션실행부(150)는 캐릭터의 모션 정보와 변형된 캐릭터 모션의 실행 시간 정보에 따라 변형된 캐릭터 모션을 실행하는 영상을 생성하여 재생한다(S1080).
도 4는 또 다른 실시예에 따른 캐릭터의 음성과 모션 동기화 시스템의 절차로 동기화전 음성과 영상을 미리 생성하고, 동기화에 따라 생성된 음성과 영상을 변형하여 출력하는 절차를 나타내는 절차도이다. 도 4를 참고하여 설명하면, 캐릭터의 음성과 모션 동기화 시스템(100)은 발화 문장과 발화 유형 정보를 입력 받아 음성엔진부(110)와 캐릭터 모션엔진부(120)에 전달하고(S2000), 음성엔진부(110)는 입력된 발화 문자와 발화 유형 정보를 기초로 음성의 재생 시간 정보와 음성 데이터를 생성하고(S2010), 캐릭터 모션엔진부(120)는 입력된 발화 문자와 발화 유형 정보를 기초로 캐릭터의 모션 정보와 모션의 실행 시간 정보와 캐릭터의 모션을 실행하는 캐릭터 뼈대의 동작 정보를 생성한다(S2020). 생성된 음성의 재생 시간 정보와 캐릭터의 모션 정보와 모션의 실행 시간 정보는 제어부(130)로 전달되고, 제어부(130)는 음성의 재생 시간 정보와 캐릭터의 모션 정보와 모션의 실행 시간 정보를 기초로 변형된 모션의 실행 시간 정보를 생성하고(S2040), 이 변형된 모션의 실행 시간 정보를 기초로 동기화되어 변형된 음성의 재생 시간 정보를 생성한다(S2060). 음성출력부(140)는 변형된 음성의 재생 시간 정보에 따라 음성엔진부(110)가 생성한 음성을 변형하여 재생하고(S2070), 모션실행부(150)는 캐릭터의 모션 정보와 변형된 캐릭터 모션의 실행 시간 정보에 따라 캐릭터 모션엔진부(120)가 생성한 캐릭터 뼈대의 동작 정보를 변형하고 이를 기초로 영상을 생성하여 재생한다(S2080).
이상에서 본 발명을 첨부된 도면을 참조하는 실시 예들을 통해 설명하였지만 이에 한정되는 것은 아니며, 이들로부터 당업자라면 자명하게 도출할 수 있는 다양한 변형 예들을 포괄하도록 해석되어야 한다. 특허청구범위는 이러한 변형 예들을 포괄하도록 의도되었다.
100: 캐릭터의 음성과 모션 동기화 시스템
110: 음성엔진부
120: 캐릭터 모션엔진부
130: 제어부
140: 음성출력부
150: 모션실행부
160: 합성부

Claims (8)

  1. 입력되는 발화 문장으로부터 음성의 재생 시간 정보를 생성하는 음성엔진부;
    입력되는 발화 문장으로부터 발화 문장에 부합되는 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성하는 캐릭터 모션엔진부;
    발화 문장과 발화 문장으로부터 각각 독립적으로 생성되는 음성의 재생 시간 정보 및 모션의 실행 시간 정보를 기초로 변형된 모션의 실행 시간 정보와 변형된 모션의 실행 시간 정보에 동기화되어 변형된 음성의 재생 시간 정보를 생성하는 제어부;
    제어부가 제공하는 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 따라 캐릭터의 모션을 실행하는 영상을 생성하여 재생하는 모션실행부; 및
    제어부가 제공하는 변형된 음성의 재생 시간 정보에 따라 음성을 생성하여 재생하는 음성출력부;
    를 포함하는 캐릭터의 음성과 모션 동기화 시스템.
  2. 제 1 항에 있어서,
    음성엔진부 및 캐릭터 모션엔진부에 발화 유형 정보가 더 입력되며,
    발화 유형 정보는 발화 문장에서 강조할 영역과 강조의 정도를 나타내는 강조 정보와 음절의 강약 정보와 음절의 장단 정보 중 적어도 하나 이상을 포함하고,
    음성엔진부는 발화 유형 정보를 이용하여 발화 문장으로부터 음성의 재생 시간 정보를 생성하고,
    캐릭터 모션엔진부는 발화 유형 정보를 이용하여 발화 문장으로부터 발화 문장에 부합되는 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성하는 캐릭터의 음성과 모션 동기화 시스템.
  3. 제 1 항에 있어서,
    캐릭터 모션엔진부가 발화 문장에 포함된 어절, 어절 사이의 공백 또는 단어 중 어느 하나에 부합되는 복수의 캐릭터 모션 정보와 각 모션의 실행 시간 정보를 생성하는 캐릭터의 음성과 모션 동기화 시스템.
  4. 제 1 항 또는 제 2 항에 있어서,
    음성엔진부는 발화 문장에 대한 음성을 생성하여 전달하고,
    음성출력부는 제어부가 제공하는 변형된 음성의 재생 시간 정보에 따라 음성엔진부가 생성한 음성을 변형하여 재생하는 캐릭터의 음성과 모션 동기화 시스템.
  5. 제 1 항 또는 제 2 항에 있어서,
    캐릭터 모션엔진부는 생성된 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 따라 캐릭터의 모션을 실행하는 캐릭터 뼈대의 동작 정보를 생성하여 전달하고,
    모션실행부는 제어부가 제공하는 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 따라 캐릭터 모션엔진부가 생성한 캐릭터 뼈대의 동작 정보를 변형하여 캐릭터의 모션을 실행하는 영상을 생성하는 캐릭터의 음성과 모션 동기화 시스템.
  6. 제 1 항에 있어서,
    제어부가 음성의 재생 시간 정보를 변형하는 방법은 음절의 발음 시간을 변형하거나 음절 사이의 간격을 변형하는 방법인 캐릭터의 음성과 모션 동기화 시스템.
  7. 제 1 항에 있어서,
    캐릭터 모션엔진부가 생성하는 모션의 실행 시간 정보는 모션에 대한 최소 실행 시간과 최대 실행 시간을 포함하고,
    제어부가 모션의 실행 시간 정보를 변형하는 방법은 모션의 최소 실행 시간과 최대 실행 시간 범위에서 음성의 재생시간 정보에 따라 모션의 실행 시간을 결정하는 방법인 캐릭터의 음성과 모션 동기화 시스템.
  8. 제 1 항에 있어서,
    모션실행부가 출력하는 영상과 음성출력부가 출력하는 음성을 합성하여 캐릭터 애니메이션을 생성하는 합성부;
    를 더 포함하는 캐릭터의 음성과 모션 동기화 시스템.
KR1020180162733A 2018-12-17 2018-12-17 캐릭터의 음성과 모션 동기화 시스템 Active KR102116315B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180162733A KR102116315B1 (ko) 2018-12-17 2018-12-17 캐릭터의 음성과 모션 동기화 시스템
US16/234,462 US20200193961A1 (en) 2018-12-17 2018-12-27 System for synchronizing speech and motion of character

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180162733A KR102116315B1 (ko) 2018-12-17 2018-12-17 캐릭터의 음성과 모션 동기화 시스템

Publications (1)

Publication Number Publication Date
KR102116315B1 true KR102116315B1 (ko) 2020-05-28

Family

ID=70920111

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180162733A Active KR102116315B1 (ko) 2018-12-17 2018-12-17 캐릭터의 음성과 모션 동기화 시스템

Country Status (2)

Country Link
US (1) US20200193961A1 (ko)
KR (1) KR102116315B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102254193B1 (ko) * 2020-08-12 2021-06-02 주식회사 오텀리브스 3차원 캐릭터를 생성하는 캐릭터 생성 시스템 및 그 방법
WO2023096275A1 (ko) * 2021-11-23 2023-06-01 네이버 주식회사 텍스트 기반 아바타 생성 방법 및 시스템
KR20230108599A (ko) * 2022-01-11 2023-07-18 한국과학기술연구원 사용자 명령에 기초한 캐릭터 행동 생성 시스템 및 방법과 이를 위한 컴퓨터 프로그램

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933110B (zh) * 2020-08-12 2021-10-29 北京字节跳动网络技术有限公司 视频生成方法、生成模型训练方法、装置、介质及设备
WO2024053848A1 (en) * 2022-09-06 2024-03-14 Samsung Electronics Co., Ltd. A method and a system for generating an imaginary avatar of an object

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5111409A (en) * 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
KR100953979B1 (ko) * 2009-02-10 2010-04-21 김재현 수화 학습 시스템
JP2015148932A (ja) * 2014-02-06 2015-08-20 Psソリューションズ株式会社 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム
US20180336891A1 (en) * 2015-10-29 2018-11-22 Hitachi, Ltd. Synchronization method for visual information and auditory information and information processing device

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6332123B1 (en) * 1989-03-08 2001-12-18 Kokusai Denshin Denwa Kabushiki Kaisha Mouth shape synthesizing
US5938447A (en) * 1993-09-24 1999-08-17 Readspeak, Inc. Method and system for making an audio-visual work with a series of visual word symbols coordinated with oral word utterances and such audio-visual work
US5983190A (en) * 1997-05-19 1999-11-09 Microsoft Corporation Client server animation system for managing interactive user interface characters
US6307576B1 (en) * 1997-10-02 2001-10-23 Maury Rosenfeld Method for automatically animating lip synchronization and facial expression of animated characters
US6636219B2 (en) * 1998-02-26 2003-10-21 Learn.Com, Inc. System and method for automatic animation generation
US6181351B1 (en) * 1998-04-13 2001-01-30 Microsoft Corporation Synchronizing the moveable mouths of animated characters with recorded speech
US6250928B1 (en) * 1998-06-22 2001-06-26 Massachusetts Institute Of Technology Talking facial display method and apparatus
US7630897B2 (en) * 1999-09-07 2009-12-08 At&T Intellectual Property Ii, L.P. Coarticulation method for audio-visual text-to-speech synthesis
GB0008537D0 (en) * 2000-04-06 2000-05-24 Ananova Ltd Character animation
AU2002232928A1 (en) * 2000-11-03 2002-05-15 Zoesis, Inc. Interactive character system
AU2002950502A0 (en) * 2002-07-31 2002-09-12 E-Clips Intelligent Agent Technologies Pty Ltd Animated messaging
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
JP5178607B2 (ja) * 2009-03-31 2013-04-10 株式会社バンダイナムコゲームス プログラム、情報記憶媒体、口形状制御方法及び口形状制御装置
US9082400B2 (en) * 2011-05-06 2015-07-14 Seyyer, Inc. Video generation based on text
US10262644B2 (en) * 2012-03-29 2019-04-16 Smule, Inc. Computationally-assisted musical sequencing and/or composition techniques for social music challenge or competition
US9280844B2 (en) * 2013-03-12 2016-03-08 Comcast Cable Communications, Llc Animation
US10360716B1 (en) * 2015-09-18 2019-07-23 Amazon Technologies, Inc. Enhanced avatar animation
US11145100B2 (en) * 2017-01-12 2021-10-12 The Regents Of The University Of Colorado, A Body Corporate Method and system for implementing three-dimensional facial modeling and visual speech synthesis
US10467792B1 (en) * 2017-08-24 2019-11-05 Amazon Technologies, Inc. Simulating communication expressions using virtual objects
US10580046B2 (en) * 2017-10-18 2020-03-03 Criteo S.A. Programmatic generation and optimization of animation for a computerized graphical advertisement display
US10521946B1 (en) * 2017-11-21 2019-12-31 Amazon Technologies, Inc. Processing speech to drive animations on avatars
US10586369B1 (en) * 2018-01-31 2020-03-10 Amazon Technologies, Inc. Using dialog and contextual data of a virtual reality environment to create metadata to drive avatar animation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5111409A (en) * 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
KR100953979B1 (ko) * 2009-02-10 2010-04-21 김재현 수화 학습 시스템
JP2015148932A (ja) * 2014-02-06 2015-08-20 Psソリューションズ株式会社 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム
US20180336891A1 (en) * 2015-10-29 2018-11-22 Hitachi, Ltd. Synchronization method for visual information and auditory information and information processing device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102254193B1 (ko) * 2020-08-12 2021-06-02 주식회사 오텀리브스 3차원 캐릭터를 생성하는 캐릭터 생성 시스템 및 그 방법
WO2023096275A1 (ko) * 2021-11-23 2023-06-01 네이버 주식회사 텍스트 기반 아바타 생성 방법 및 시스템
KR20230108599A (ko) * 2022-01-11 2023-07-18 한국과학기술연구원 사용자 명령에 기초한 캐릭터 행동 생성 시스템 및 방법과 이를 위한 컴퓨터 프로그램
KR102643796B1 (ko) * 2022-01-11 2024-03-06 한국과학기술연구원 사용자 명령에 기초한 캐릭터 행동 생성 시스템 및 방법과 이를 위한 컴퓨터 프로그램

Also Published As

Publication number Publication date
US20200193961A1 (en) 2020-06-18

Similar Documents

Publication Publication Date Title
KR102116315B1 (ko) 캐릭터의 음성과 모션 동기화 시스템
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
KR102116309B1 (ko) 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템
US6813607B1 (en) Translingual visual speech synthesis
CN113454708A (zh) 语言学风格匹配代理
KR102035596B1 (ko) 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법
KR102360839B1 (ko) 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
US6661418B1 (en) Character animation system
CN111276120A (zh) 语音合成方法、装置和计算机可读存储介质
JP2001209820A (ja) 感情表出装置及びプログラムを記録した機械読み取り可能な記録媒体
JP2022518721A (ja) 発話アニメーションのリアルタイム生成
JP7227395B2 (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体
GB2516965A (en) Synthetic audiovisual storyteller
KR102346755B1 (ko) 음성 신호를 이용한 발화 동영상 생성 방법 및 장치
JPH11339058A (ja) 人物像対話装置及び人物像対話プログラムを記録した記録媒体
KR20190114150A (ko) 비디오 번역 및 립싱크 방법 및 시스템
KR102489498B1 (ko) 음성 합성 및 영상 합성 기술을 통해 고인을 모사하는 가상 인물과 커뮤니케이션을 수행하는 방법 및 시스템
WO2021182199A1 (ja) 情報処理方法、情報処理装置及び情報処理プログラム
KR101089184B1 (ko) 캐릭터의 발화와 감정표현 제공 시스템 및 방법
KR20220163623A (ko) 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치
KR102778688B1 (ko) 사람 음성에 따른 실사인물의 발화 영상 합성 시스템
KR102360840B1 (ko) 텍스트를 이용한 발화 동영상 생성 방법 및 장치
Karpov et al. Multimodal synthesizer for Russian and Czech sign languages and audio-visual speech
JP5531654B2 (ja) 制御情報生成装置および形状制御装置
WO2024060873A1 (zh) 动态影像的生成方法和装置

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20181217

PA0201 Request for examination
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20190928

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20200427

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20200522

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20200522

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20230522

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20240206

Start annual number: 5

End annual number: 5