KR102116315B1

KR102116315B1 - 캐릭터의 음성과 모션 동기화 시스템

Info

Publication number: KR102116315B1
Application number: KR1020180162733A
Authority: KR
Inventors: 김대승
Original assignee: 주식회사 인공지능연구원
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2020-05-28
Anticipated expiration: 2038-12-17
Also published as: US20200193961A1

Abstract

본 발명의 캐릭터의 음성과 모션 동기화 시스템은 입력되는 발화 문장으로부터 음성의 재생 시간 정보와 발화 문장에 부합되는 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성하고, 생성된 음성의 재생 시간 정보와 모션의 실행 시간 정보를 기초로 변형된 모션의 실행 시간 정보와 변형된 모션의 실행 시간 정보에 동기화되어 변형된 음성의 재생 시간 정보를 생성하고, 변형된 시간 정보에 따라 캐릭터의 모션을 실행하는 영상과 음성을 생성하여 재생한다.

Description

캐릭터의 음성과 모션 동기화 시스템{SYSTEM FOR SYNCHRONIZING VOICE AND MOTION OF CHARACTER}

본 발명은 캐릭터의 음성과 모션을 동기화는 시스템에 관한 것으로, 더욱 상세하게는 입력되는 문장에 부합하는 캐릭터의 동작을 생성하고, 캐릭터의 동작을 기준으로 캐릭터의 발화와 동작을 동기화하여 영상과 음성을 출력하는 시스템에 관한 것이다.

행사장 등에서 2D 또는 3D 애니메이션을 활용한 가상의 캐릭터가 행사의 주요 내용과 행사장을 소개하는 등 가상 안내요원으로 활용되고 있다. 또한 은행, 마트 등에서도 이러한 가상의 캐릭터가 상품을 소개하거나 고객의 질문에 응대하는 등 그 활용범위가 확대되고 있다.

가상의 캐릭터가 인공 신경망을 기반으로 하는 학습을 통해 지능을 갖추고 주어진 문장의 문맥으로부터 감정 등을 파악하여 음성이나 표정 또는 동작으로 표출하는 기술도 등장하고 있다.

가상의 캐릭터가 음성을 출력할 때 자연스러운 입 모양과 표정 그리고 동작을 생성하기 위해 많은 기술들이 개발되어 왔다. 하지만 종래의 기술들은 주로 소리를 먼저 합성하고 소리 출력에 동기화하여 캐릭터의 동작을 제어하여 음성과 캐릭터의 동작이 부자연스럽게 합성되는 현상이 빈번하게 발생되는 문제가 있다.

본 발명은 제공되는 발화 문장으로부터 생성된 음성과 캐릭터의 모션을 캐릭터의 모션이 실행되는데 필요한 시간을 기준으로 동기화하기 위해 음성을 변형하여 자연스럽게 음성과 캐릭터의 모션을 출력하는 시스템을 제공하는 것을 목적으로 한다.

또한, 본 발명은 제공되는 발화 문장으로부터 생성된 음성과 캐릭터의 모션을 동기화하는 다양한 변형을 지원하여 상황에 따라 다양하게 표현된 음성과 캐릭터의 모션을 출력하는 시스템을 제공하는 것을 또 다른 목적으로 한다.

발명의 일 양상에 따른 캐릭터의 음성과 모션 동기화 시스템은 음성엔진부와, 모션엔진부와, 제어부와, 모션실행부와, 음성출력부를 포함한다.

음성엔진부는 입력되는 발화 문장으로부터 음성의 재생 시간 정보를 생성한다.

캐릭터 모션엔진부는 입력되는 발화 문장으로부터 발화 문장에 부합되는 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성한다.

생성된 음성의 재생 시간 정보와 모션의 실행 시간 정보는 제어부로 전달되며, 이를 수신한 제어부는 발화 문장과 음성 및 모션의 시간 정보를 기초로 변형된 모션의 실행 시간 정보와 변형된 모션의 실행 시간 정보에 동기화되어 변형된 음성의 재생 시간 정보를 생성한다.

모션실행부는 제어부가 제공하는 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 따라 캐릭터의 모션을 실행하는 영상을 생성하여 재생한다.

음성출력부는 제어부가 제공하는 변형된 음성의 재생 시간 정보에 따라 음성을 생성하여 재생한다.

발명의 또 다른 양상에 따르면, 음성엔진부와 캐릭터 모션엔진부는 발화 문장외에 발화 유형 정보를 추가로 입력 받을 수 있다. 이때 발화 유형 정보는 발화 문장에서 강조할 영역과 강조의 정도를 나타내는 강조 정보와 음절의 강약 정보와 음절의 장단 정보 중 적어도 하나 이상을 포함하고, 음성엔진부는 발화 유형 정보를 이용하여 발화 문장으로부터 음성의 재생 시간 정보를 생성하고, 캐릭터 모션엔진부는 발화 유형 정보를 이용하여 발화 문장으로부터 발화 문장에 부합되는 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성할 수 있다.

발명의 또 다른 양상에 따르면, 캐릭터 모션엔진부가 발화 문장에 포함된 어절, 어절 사이의 공백 또는 단어 중 어느 하나에 부합되는 복수의 캐릭터 모션 정보와 각 모션의 실행 시간 정보를 생성할 수 있다.

발명의 또 다른 양상에 따르면, 음성엔진부는 발화 문장에 대한 음성을 생성하여 전달하고, 이 경우 음성출력부는 제어부가 제공하는 변형된 음성의 재생 시간 정보에 따라 음성엔진부가 생성한 음성을 변형하여 재생할 수 있다.

발명의 또 다른 양상에 따르면, 캐릭터 모션엔진부는 생성된 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 따라 캐릭터의 모션을 실행하는 캐릭터 뼈대의 동작 정보를 생성하여 전달하고, 이 경우 모션실행부는 제어부가 제공하는 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 따라 캐릭터 모션엔진부가 생성한 캐릭터 뼈대의 동작 정보를 변형하여 캐릭터의 모션을 실행하는 영상을 생성하여 재생할 수 있다.

발명의 또 다른 양상에 따르면, 제어부는 음절의 발음 시간을 변형(길게하거나 짧게하는 방법을 통해)하거나 음절 사이의 간격을 변형(간격의 시간을 늘리거나 줄이는 방법을 통해)하는 방법으로 음성의 재생 시간 정보를 변형할 수 있다.

발명의 또 다른 양상에 따르면, 캐릭터 모션엔진부가 생성하는 모션의 실행 시간 정보는 모션에 대한 최소 실행 시간과 최대 실행 시간을 포함하고, 제어부는 모션의 최소 실행 시간과 최대 실행 시간 범위에서 음성의 재생시간 정보에 따라 모션의 실행 시간을 결정하는 방법으로 모션의 실행 시간 정보를 변형할 수 있다.

발명의 추가적 양상에 따르면, 캐릭터의 음성과 모션 동기화 시스템은 합성부를 더 포함할 수 있다.

합성부는 모션실행부가 출력하는 영상과 음성출력부가 출력하는 음성을 합성하여 캐릭터 애니메이션을 생성할 수 있다.

본 발명의 캐릭터의 음성과 모션 동기화 시스템에 의하면 발화 문장으로부터 생성된 음성과 캐릭터의 모션이 캐릭터의 모션이 실행되는데 필요한 시간을 기준으로 동기화하여 변형한 음성을 캐릭터의 모션과 함께 출력할 수 있다.

또한, 본 발명의 캐릭터의 음성과 모션 동기화 시스템에 의하면 발화 문장으로부터 생성된 음성과 캐릭터의 모션을 동기화하는 다양한 변형을 지원하여 상황에 따라 다양하게 표현된 음성과 캐릭터의 모션을 출력할 수 있다.

도 1은 일 양상에 따른 캐릭터의 음성과 모션 동기화 시스템을 도시한 블록도이다.
도 2는 또 다른 양상에 따라 캐릭터 애니메이션을 생성하는 합성부가 추가된 캐릭터의 음성과 모션 동기화 시스템을 도시한 블록도이다.
도 3은 일 실시예에 따른 캐릭터의 음성과 모션 동기화 시스템이 음성과 캐릭터 모션을 동기화하는 절차를 나타내는 절차도이다.
도 4는 또 다른 실시예에 따른 캐릭터의 음성과 모션 동기화 시스템의 절차로 동기화전 음성과 영상을 미리 생성하고, 동기화에 따라 생성된 음성과 영상을 변형하여 출력하는 절차를 나타내는 절차도이다.

전술한, 그리고 추가적인 양상들은 첨부된 도면을 참조하여 설명하는 실시 예들을 통해 구체화된다. 각 실시 예들의 구성 요소들은 다른 언급이나 상호간에 모순이 없는 한 실시 예 내에서 다양한 조합이 가능한 것으로 이해된다. 블록도의 각 블록은 어느 경우에 있어서 물리적인 부품을 표현할 수 있으나 또 다른 경우에 있어서 하나의 물리적인 부품의 기능의 일부 혹은 복수의 물리적인 부품에 걸친 기능의 논리적인 표현일 수 있다. 때로는 블록 혹은 그 일부의 실체는 프로그램 명령어들의 집합(set)일 수 있다. 이러한 블록들은 전부 혹은 일부가 하드웨어, 소프트웨어 혹은 이들의 결합에 의해 구현될 수 있다.

사람이 의사 소통을 함에 있어서 음성뿐만 아니라 동작 또한 매우 중요한 요소가 된다. 따라서, 사람은 다른 사람과 대화를 할 때 음성과 함께 음성과 부합하는 적절한 동작을 하여 매우 뚜렷하게 의사 표현을 한다. 이때의 동작은 인간의 언어를 보완하거나 강조하는 등의 중요한 역할을 수행한다.

사람과 의사 소통을 하는 가상의 캐릭터 또한 음성과 함께 캐릭터의 모션이 중요한 것은 사람의 경우와 동일하다. 이때 음성의 내용과 캐릭터의 모션이 부합되는 것도 중요하지만 음성과 캐릭터의 모션이 동기화 되어야 하는 것 또한 중요하다.

예를 들어, 사람은 "사랑해"라는 말을 하면서 몸짓으로 하트모양을 그리기도 한다. 이때 사람은 "사"라는 발음과 함께 하트모양을 그리기 시작하여 "해"라는 발음과 함께 하트모양 그리기를 끝낼 수 있다. 또는 사람은 "사랑해"라는 말을 한 후 몸짓으로 하트모양을 그릴 수도 있다. 또한, 상황에 따라서는 하트모양을 아주 느리게 그리면서 말 또한 그리기 동작에 맞춰 느리게 "사랑해"를 말할 수도 있다. 이처럼 발화와 몸짓의 동기화는 다양한 형태로 나타날 수 있다.

캐릭터가 주어진 문장을 발화하는 데 사람처럼 음성과 모션을 동기화함에 있어 다양한 형태의 동기화를 수행할 수 있으면 캐릭터가 효과적인 의사 소통을 실현할 수 있게 될 것이다.

도 1은 일 양상에 따른 캐릭터의 음성과 모션 동기화 시스템을 도시한 블록도이다. 일 양상에 따르면, 캐릭터의 음성과 모션을 동기화하는 시스템은 음성엔진부(110)와, 모션엔진부와, 제어부(130)와, 모션실행부(150)와, 음성출력부(140)를 포함한다.

캐릭터의 음성과 모션 동기화 시스템(100)은 입출력 장치를 구비한 하나의 컴퓨팅 장치 또는 복수의 컴퓨팅 장치로 구성될 수 있다. 입력 장치는 텍스트의 입력을 위한 키보드일 수 있으며 음성을 입력으로 받을 때는 마이크 장치가 될 수 있다. 출력 장치는 음성의 출력을 위한 스피커, 영상 출력을 위한 디스플레이 장치가 될 수 있다. 컴퓨팅 장치는 메모리와 CPU와 스토리지 장치를 구비한 장치이다. 캐릭터의 음성과 모션 동기화 시스템(100)은 로봇에 적용될 수 있다. 특히 적용되는 로봇이 휴머노이드 로봇일 경우에는 영상 출력 대신 음성과 로봇의 동작이 동기화될 수 있다.

음성엔진부(110)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 음성엔진부(110)는 입력되는 발화 문장으로부터 음성의 재생 시간 정보를 생성한다. 발화 문장은 음성으로 변환할 텍스트이다. 발화 문장은 사용자가 키보드 입력장치를 통해 실시간으로 타이핑하여 입력한 문장 또는 마이크 입력장치를 통해 입력한 말에 대응하기 위해 미리 생성되어 저장되어 있다. 즉, 발화 문장은 사용자가 타이핑하거나 말한 내용에 대한 캐릭터의 대응이다. 상황에 따른 발화 문장은 인공 신경망으로 학습된 모델을 통해 선택될 수 있다.

음성엔진부(110)는 많은 발화 문장을 입력 데이터로 하여 발음 단위로 음성의 재생 시간 정보를 생성하도록 인공 신경망 알고리즘으로 학습된 모델일 수 있다. 따라서, 음성엔진부(110)는 입력된 발화 문장을 인공 신경망 알고리즘을 이용하여 발음 단위로 음성의 재생 시간 정보를 생성한다. 발명의 양상에 따라서는 음성엔진부(110)가 음성의 재생 시간 정보 생성을 쉽게 하기 위해 임시의 음성 파일을 생성할 수도 있다.

음성엔진부(110)는 발화 문장 외에 발화 유형 정보를 입력으로 받을 수 있다. 발화 유형 정보는 발화 문장에서 강조할 영역과 강조의 정도를 나타내는 강조 정보와 음절의 강약 정보와 음절의 장단 정보 등과 같은 정보를 적어도 하나 이상을 포함할 수 있다. 발화 유형 정보는 특정 정보가 음성에만 적용되는 유형임을 표시하는 정보를 포함할 수도 있다. 강조 정보의 강조할 영역은 강조하여 발음할 어절 또는 단어 또는 글자를 표시한 것이며, 강조의 정도는 수치로 표현될 수 있다. 예를 들어, 강조 정보는 발화 문장 안에 강조할 단어와 수치로 표현된 강조의 정도로 구성될 수 있다. 강약 정보는 강하게 발음할 음절과 약하게 발음할 음절을 표시하는 정보이고, 장단 정보는 길게 발음할 음절과 짧게 발음할 음절을 표시하는 정보이다. 발화 유형 정보를 입력 받은 음성엔진부(110)는 발화 유형 정보를 이용하여 발화 문장으로부터 음성의 재생 시간 정보를 생성한다. 예를 들어, 음성엔진부(110)는 발화 문장으로부터 임시로 음성의 재생 시간 정보를 생성한 후 발화 유형 정보를 반영하여 최종의 음성의 재생 시간 정보로 수정하는 방식으로 발화 유형 정보를 이용하여 발화 문장으로부터 음성의 재생 시간 정보를 생성할 수 있다. 또 다른 예로 음성엔진부(110)가 발화 문장과 발화 유형 정보를 입력 데이터로 하여 발음 단위로 음성의 재생 시간 정보를 생성하도록 인공 신경망 알고리즘으로 학습되어 입력된 발화 문장과 발화 유형 정보를 인공 신경망 알고리즘을 이용하여 발음 단위로 음성의 재생 시간 정보를 생성할 수 있다.

발명의 양상에 따라서는 음성엔진부(110)는 발화 문장에 대한 음성 데이터를 생성하여 전달할 수 있다. 이 경우 후술할 음성출력부(140)가 캐릭터 모션의 실행 시간 정보에 동기화된 음성의 재생 시간 정보에 따라 생성된 음성 데이터를 변형하여 출력할 수 있다.

캐릭터 모션엔진부(120)는 입력되는 발화 문장으로부터 발화 문장에 부합되는 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성한다.

캐릭터 모션엔진부(120)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 캐릭터 모션엔진부(120)는 입력되는 발화 문장으로부터 발화 문장에 부합되는 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성한다. 발화 문장은 음성으로 변환할 텍스트로 캐릭터 모션엔진부(120)는 음성과 동기화될 캐릭터 모션을 생성하는 데 사용한다. 발화 문장은 사용자가 키보드 입력장치를 통해 실시간으로 타이핑하여 입력한 문장 또는 마이크 입력장치를 통해 입력한 말에 대응하기 위해 미리 생성되어 저장되어 있다. 발화 문장을 발음한 음성 파일 형태로 입력될 수 있다. 즉, 발화 문장은 사용자가 타이핑하거나 말한 내용에 대한 캐릭터의 대응이다. 상황에 따른 발화 문장은 인공 신경망으로 학습된 모델을 통해 선택될 수 있다.

캐릭터 모션엔진부(120)는 많은 발화 문장을 입력 데이터로 하여 문장 단위 또는 어절 단위 또는 단어 단위로 부합되는 캐릭터의 모션에 대한 정보를 생성하고 발화 문장에 음절 단위로 매핑되는 모션의 실행 시간 정보를 생성하도록 인공 신경망 알고리즘으로 학습된 모델일 수 있다. 따라서, 캐릭터 모션엔진부(120)는 입력된 발화 문장을 인공 신경망 알고리즘을 이용하여 문장 단위 또는 어절 단위 또는 단어 단위로 부합되는 캐릭터의 모션에 대한 정보를 생성한다. 이때 캐릭터 모션엔진부(120)는 발화 문장에 포함된 어절이나 단어뿐만 아니라 어절 사이의 공백에 대해서도 캐릭터의 모션 정보를 생성할 수 있다. 캐릭터 모션엔진부(120)가 생성하는 캐릭터의 모션 정보는 발화 문장에 따라 복수 개가 생성될 수 있으며, 각각의 모션에 대하여 모션의 실행 시간 정보도 생성한다.

예를 들어, 캐릭터 모션엔진부(120)는 발화 문장으로 "사랑해"가 입력되면 모션 정보를 하트 모양을 그리기로 생성하고, 모션의 실행 시작 시간을 "사" 음절에 매핑하고 모션의 실행 종료 시간을 "해"에 매핑한 모션 실행 시간 정보를 생성할 수 있다.

캐릭터 모션엔진부(120)가 생성하는 모션의 실행 시간 정보는 모션에 대한 최소 실행 시간과 최대 실행 시간을 포함할 수 있다.

캐릭터 모션엔진부(120)는 발화 문장 외에 발화 유형 정보를 입력으로 받을 수 있다. 발화 유형 정보는 발화 문장에서 강조할 영역과 강조의 정도를 나타내는 강조 정보와 음절의 강약 정보와 음절의 장단 정보 등과 같은 정보를 적어도 하나 이상을 포함할 수 있다. 강조 정보의 강조할 영역은 강조하여 표현할 어절 또는 단어 또는 글자를 표시한 것이며, 강조의 정도는 수치로 표현될 수 있다. 예를 들어, 강조 정보는 발화 문장 안에 강조할 단어와 수치로 표현된 강조의 정도로 구성될 수 있다. 강약 정보는 강하게 표현할 어절 또는 단어와 약하게 표현할 어절 또는 단어를 표시하는 정보이고, 장단 정보는 길게 즉, 느리게 표현할 어절 또는 단어와 짧게 즉, 빠르게 표현할 어절 또는 단어를 표시하는 정보이다. 만약 발화 유형 정보 중 음성에만 적용되는 발화 유형으로 표시된 정보는 캐릭터 모션엔진부(120)가 적용하지 않는다. 발화 유형 정보를 입력 받은 캐릭터 모션엔진부(120)는 발화 유형 정보를 이용하여 발화 문장으로부터 모션의 실행 시간 정보를 생성한다. 예를 들어, 캐릭터 모션엔진부(120)는 발화 문장으로부터 임시로 모션의 실행 시간 정보를 생성한 후 발화 유형 정보를 반영하여 최종의 모션의 실행 시간 정보로 수정하는 방식으로 발화 유형 정보를 이용하여 발화 문장으로부터 모션의 실행 시간 정보를 생성할 수 있다. 또 다른 예로 캐릭터 모션엔진부(120)가 발화 문장과 발화 유형 정보를 입력 데이터로 하여 문장 단위 또는 어절 단위 또는 단어 단위로 부합되는 캐릭터의 모션에 대한 정보를 생성하고, 발화 문장에 음절 단위로 매핑되는 모션의 실행 시간 정보를 생성하도록 학습된 인공 신경망 알고리즘을 이용하여 입력된 발화 문장과 발화 유형 정보로부터 문장 단위 또는 어절 단위 또는 단어 단위로 부합되는 캐릭터의 모션에 대한 정보를 생성하고, 발화 문장에 음절 단위로 매핑되는 모션의 실행 시간 정보를 생성할 수 있다.

발명의 양상에 따라서는 캐릭터 모션엔진부(120)는 발화 문장에 대한 캐릭터의 모션을 실행하는 캐릭터 뼈대의 동작 정보를 생성하여 전달할 수 있다. 이 경우 후술할 모션실행부(150)가 변형된 캐릭터 모션의 실행 시간 정보에 따라 생성된 캐릭터 뼈대의 동작 정보를 변형하고 이를 기초로 배경 등과 함께 렌더링하여 영상을 생성하여 출력할 수 있다. 캐릭터 뼈대는 영상 프레임을 생성할 때 캐릭터의 모습을 렌더링할 때 사용되는 정보로, 캐릭터 뼈대 동작 정보는 렌더링될 캐릭터의 동작의 기본 형태를 갖고 있다.

제어부(130)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 제어부(130)는 음성엔진부(110)로부터 생성된 음성의 재생 시간 정보를 전달 받고, 캐릭터 모션엔진부(120)로부터 모션 정보와 모션의 실행 시간 정보를 전달 받는다. 또한, 입력된 발화 문장도 음성엔진부(110) 또는 캐릭터 모션엔진부(120)로부터 전달 받는다.

제어부(130)는 먼저 발화 문장과 음성의 재생 시간 정보와 모션의 실행 시간 정보를 기초로 모션의 실행 시간 정보를 변형한다. 발화 문장으로부터 각각 독립적으로 생성된 음성의 재생 시간 정보와 모션을 실행 시간 정보를 동기화하기 위해 음성의 재생 시간 정보를 기준으로 모션의 실행 시간 정보를 변형한다. 예를 들어, 음성만 길게 발음하도록 발화 유형 정보가 입력되어 모션의 실행 시간과 부자연스럽게 되는 경우 모션의 최대 실행 시간을 벗어나지 않는 범위에서 모션의 실행 시간 정보를 변경한다. 이후 제어부(130)는 변형된 모션의 실행 시간 정보를 기준으로 음성의 재생 시간 정보를 동기화하여 변형된 음성의 재생 시간 정보를 생성한다. 이때 음성의 변형 방법은 음절의 발음 시간을 길게 또는 짧게 변형하거나 음절 사이의 간격을 늘리거나 줄이는 방식으로 변형하는 방법을 사용할 수 있다. 또는 모션의 실행 시간이 너무 길어 음성의 재생 시간을 맞추면 음성이 심하게 왜곡될 수 있는 경우에는 모션의 실행이 먼저 시작되도록 즉, 음성의 재생이 모션 중간에 시작되도록 음성의 재생 시간을 변경할 수 있다.

모션실행부(150)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 모션실행부(150)는 제어부(130)가 제공하는 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 기초하여 캐릭터의 모션을 실행하는 영상을 생성하여 재생한다. 캐릭터의 음성과 모션 동기화 시스템(100)이 휴머노이드 로봇에 적용된 경우에는 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 기초하여 로봇이 움직이도록 할 수 있다. 발명의 다른 양상에서는 캐릭터 모션엔진부(120)가 캐릭터의 모션을 실행하는 캐릭터 뼈대의 동작 정보를 생성하고, 모션실행부(150)는 이를 전달받아 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보를 이용하여 캐릭터 뼈대의 동작 정보를 변형하고 이를 기초로 영상을 생성하여 재생할 수 있다.

음성출력부(140)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 음성출력부(140)는 제어부(130)가 제공하는 변형된 음성의 재생 시간 정보에 따라 음성을 생성하여 재생한다. 발명의 다른 양상에서는 음성엔진부(110)가 음성 데이터를 생성하고, 음성출력부(140)는 이를 전달받아 변형된 음성의 재생 시간 정보를 이용하여 변형된 음성을 재생할 수 있다.

도 2는 또 다른 양상에 따라 캐릭터 애니메이션을 생성하는 합성부(160)가 추가된 캐릭터의 음성과 모션 동기화 시스템을 도시한 블록도이다. 또 다른 양상에 따르면, 캐릭터의 음성과 모션을 동기화하는 시스템은 음성엔진부(110)와, 모션엔진부와, 제어부(130)와, 모션실행부(150)와, 음성출력부(140)를 포함하고, 합성부(160)를 더 포함할 수 있다.

이 양상에서 추가되는 합성부(160)는 모션실행부(150)가 출력하는 영상과 음성출력부(140)가 출력하는 음성을 합성하여 캐릭터 애니메이션을 생성할 수 있다. 생성된 캐릭터 애니메이션을 파일행태로 작성하여 스토리지에 저장하거나 외부로 전송할 수 있다.

발명의 양상에 따라서는 모션실행부(150)가 캐릭터의 모션을 실행하는 캐릭터 뼈대 동작 정보만을 제공하고 합성부(160)가 실제 캐릭터의 모습 및 배경 정보 등을 렌더링하여 캐릭터 애니메이션을 생성할 수도 있다.

도 3은 일 실시예에 따른 캐릭터의 음성과 모션 동기화 시스템이 음성과 캐릭터 모션을 동기화하는 절차를 나타내는 절차도이다. 도 3을 참고하여 설명하면, 캐릭터의 음성과 모션 동기화 시스템(100)은 발화 문장과 발화 유형 정보를 입력 받아 음성엔진부(110)와 캐릭터 모션엔진부(120)에 전달하고(S1000), 음성엔진부(110)는 입력된 발화 문자와 발화 유형 정보를 기초로 음성의 재생 시간 정보를 생성하고(S1010), 캐릭터 모션엔진부(120)는 입력된 발화 문자와 발화 유형 정보를 기초로 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성한다(S1020). 생성된 음성의 재생 시간 정보와 캐릭터의 모션 정보와 모션의 실행 시간 정보는 제어부(130)로 전달되고, 제어부(130)는 음성의 재생 시간 정보와 캐릭터의 모션 정보와 모션의 실행 시간 정보를 기초로 변형된 모션의 실행 시간 정보를 생성하고(S1040), 이 변형된 모션의 실행 시간 정보를 기초로 동기화되어 변형된 음성의 재생 시간 정보를 생성한다(S1060). 음성출력부(140)는 변형된 음성의 재생 시간 정보에 따라 변형된 음성을 생성하여 재생하고(S1070), 모션실행부(150)는 캐릭터의 모션 정보와 변형된 캐릭터 모션의 실행 시간 정보에 따라 변형된 캐릭터 모션을 실행하는 영상을 생성하여 재생한다(S1080).

도 4는 또 다른 실시예에 따른 캐릭터의 음성과 모션 동기화 시스템의 절차로 동기화전 음성과 영상을 미리 생성하고, 동기화에 따라 생성된 음성과 영상을 변형하여 출력하는 절차를 나타내는 절차도이다. 도 4를 참고하여 설명하면, 캐릭터의 음성과 모션 동기화 시스템(100)은 발화 문장과 발화 유형 정보를 입력 받아 음성엔진부(110)와 캐릭터 모션엔진부(120)에 전달하고(S2000), 음성엔진부(110)는 입력된 발화 문자와 발화 유형 정보를 기초로 음성의 재생 시간 정보와 음성 데이터를 생성하고(S2010), 캐릭터 모션엔진부(120)는 입력된 발화 문자와 발화 유형 정보를 기초로 캐릭터의 모션 정보와 모션의 실행 시간 정보와 캐릭터의 모션을 실행하는 캐릭터 뼈대의 동작 정보를 생성한다(S2020). 생성된 음성의 재생 시간 정보와 캐릭터의 모션 정보와 모션의 실행 시간 정보는 제어부(130)로 전달되고, 제어부(130)는 음성의 재생 시간 정보와 캐릭터의 모션 정보와 모션의 실행 시간 정보를 기초로 변형된 모션의 실행 시간 정보를 생성하고(S2040), 이 변형된 모션의 실행 시간 정보를 기초로 동기화되어 변형된 음성의 재생 시간 정보를 생성한다(S2060). 음성출력부(140)는 변형된 음성의 재생 시간 정보에 따라 음성엔진부(110)가 생성한 음성을 변형하여 재생하고(S2070), 모션실행부(150)는 캐릭터의 모션 정보와 변형된 캐릭터 모션의 실행 시간 정보에 따라 캐릭터 모션엔진부(120)가 생성한 캐릭터 뼈대의 동작 정보를 변형하고 이를 기초로 영상을 생성하여 재생한다(S2080).

이상에서 본 발명을 첨부된 도면을 참조하는 실시 예들을 통해 설명하였지만 이에 한정되는 것은 아니며, 이들로부터 당업자라면 자명하게 도출할 수 있는 다양한 변형 예들을 포괄하도록 해석되어야 한다. 특허청구범위는 이러한 변형 예들을 포괄하도록 의도되었다.

100: 캐릭터의 음성과 모션 동기화 시스템
110: 음성엔진부
120: 캐릭터 모션엔진부
130: 제어부
140: 음성출력부
150: 모션실행부
160: 합성부

Claims

입력되는 발화 문장으로부터 음성의 재생 시간 정보를 생성하는 음성엔진부;
입력되는 발화 문장으로부터 발화 문장에 부합되는 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성하는 캐릭터 모션엔진부;
발화 문장과 발화 문장으로부터 각각 독립적으로 생성되는 음성의 재생 시간 정보 및 모션의 실행 시간 정보를 기초로 변형된 모션의 실행 시간 정보와 변형된 모션의 실행 시간 정보에 동기화되어 변형된 음성의 재생 시간 정보를 생성하는 제어부;
제어부가 제공하는 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 따라 캐릭터의 모션을 실행하는 영상을 생성하여 재생하는 모션실행부; 및
제어부가 제공하는 변형된 음성의 재생 시간 정보에 따라 음성을 생성하여 재생하는 음성출력부;
를 포함하는 캐릭터의 음성과 모션 동기화 시스템.
제 1 항에 있어서,
음성엔진부 및 캐릭터 모션엔진부에 발화 유형 정보가 더 입력되며,
발화 유형 정보는 발화 문장에서 강조할 영역과 강조의 정도를 나타내는 강조 정보와 음절의 강약 정보와 음절의 장단 정보 중 적어도 하나 이상을 포함하고,
음성엔진부는 발화 유형 정보를 이용하여 발화 문장으로부터 음성의 재생 시간 정보를 생성하고,
캐릭터 모션엔진부는 발화 유형 정보를 이용하여 발화 문장으로부터 발화 문장에 부합되는 캐릭터의 모션 정보와 모션의 실행 시간 정보를 생성하는 캐릭터의 음성과 모션 동기화 시스템.
제 1 항에 있어서,
캐릭터 모션엔진부가 발화 문장에 포함된 어절, 어절 사이의 공백 또는 단어 중 어느 하나에 부합되는 복수의 캐릭터 모션 정보와 각 모션의 실행 시간 정보를 생성하는 캐릭터의 음성과 모션 동기화 시스템.
제 1 항 또는 제 2 항에 있어서,
음성엔진부는 발화 문장에 대한 음성을 생성하여 전달하고,
음성출력부는 제어부가 제공하는 변형된 음성의 재생 시간 정보에 따라 음성엔진부가 생성한 음성을 변형하여 재생하는 캐릭터의 음성과 모션 동기화 시스템.
제 1 항 또는 제 2 항에 있어서,
캐릭터 모션엔진부는 생성된 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 따라 캐릭터의 모션을 실행하는 캐릭터 뼈대의 동작 정보를 생성하여 전달하고,
모션실행부는 제어부가 제공하는 캐릭터의 모션 정보와 변형된 모션의 실행 시간 정보에 따라 캐릭터 모션엔진부가 생성한 캐릭터 뼈대의 동작 정보를 변형하여 캐릭터의 모션을 실행하는 영상을 생성하는 캐릭터의 음성과 모션 동기화 시스템.
제 1 항에 있어서,
제어부가 음성의 재생 시간 정보를 변형하는 방법은 음절의 발음 시간을 변형하거나 음절 사이의 간격을 변형하는 방법인 캐릭터의 음성과 모션 동기화 시스템.
제 1 항에 있어서,
캐릭터 모션엔진부가 생성하는 모션의 실행 시간 정보는 모션에 대한 최소 실행 시간과 최대 실행 시간을 포함하고,
제어부가 모션의 실행 시간 정보를 변형하는 방법은 모션의 최소 실행 시간과 최대 실행 시간 범위에서 음성의 재생시간 정보에 따라 모션의 실행 시간을 결정하는 방법인 캐릭터의 음성과 모션 동기화 시스템.
제 1 항에 있어서,
모션실행부가 출력하는 영상과 음성출력부가 출력하는 음성을 합성하여 캐릭터 애니메이션을 생성하는 합성부;
를 더 포함하는 캐릭터의 음성과 모션 동기화 시스템.