KR101492816B1 - Apparatus and method for providing auto lip-synch in animation - Google Patents
Apparatus and method for providing auto lip-synch in animation Download PDFInfo
- Publication number
- KR101492816B1 KR101492816B1 KR20130052593A KR20130052593A KR101492816B1 KR 101492816 B1 KR101492816 B1 KR 101492816B1 KR 20130052593 A KR20130052593 A KR 20130052593A KR 20130052593 A KR20130052593 A KR 20130052593A KR 101492816 B1 KR101492816 B1 KR 101492816B1
- Authority
- KR
- South Korea
- Prior art keywords
- mouth shape
- pronunciation
- voice
- mouth
- animation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0356—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for synchronising with other signals, e.g. video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
Abstract
애니메이션 립싱크 자동화 장치 및 방법이 개시된다. 음성 입력부로 애니메이션 영상의 대본에 대응하고 상기 애니메이션 영상을 구성하는 프레임에 동기가 맞춰진 음성 파일이 입력된다. 음성 인식부는 음성 파일로부터 각각의 어소를 구성하는 자음, 모음 및 소리의 높낮이를 파악하여 음성 인식 결과를 출력한다. 입모양 선택부는 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정하고, 결정된 발음 분류에 대응하는 입모양을 한국어의 발음특성을 고려한 일정 개수의 입모양이 발음 분류에 대응되어 저장되는 입모양 저장부에서 선택한다. 그리고 입모양 선택부는, 묵음 구간의 입모양으로 양입술이 붙어있는 제1입모양을 선택하고, 음성이 시작되기 제1개수의 프레임 전에 양입술이 제1크기만큼 떨어져 있는 제2입모양을 선택하고, 음성이 시작되는 시점부터 각 어소에 대해 결정된 발음 분류에 대응하는 입모양을 선택하고, 음성이 종료된 시점부터 제2개수의 프레임동안 최종적인 입모양을 유지한 이후에 다음 음성이 시작될 때까지의 입모양으로 제1입모양을 선택한다. 본 발명에 따르면, 한국어의 발음 구조와 애니메이션의 제작 특성을 정확하게 반영하여 애니메이션 캐릭터의 입모양을 성우의 발음과 완벽하게 일치시킬 수 있고, 실시간으로 애니메이션 캐릭터의 립싱크를 자동으로 구현할 수 있다. An animation lip sync automation apparatus and method are disclosed. An audio file corresponding to a scenario of the animation image and synchronized with a frame constituting the animation image is input to the audio input unit. The speech recognition unit recognizes the height of consonants, vowels, and sounds constituting each associate from the speech file and outputs the speech recognition result. The mouth shape selection unit determines a pronunciation classification corresponding to each of the associations on the basis of the speech recognition result, and determines a mouth shape corresponding to the determined pronunciation classification by a predetermined number of mouth shapes considering the pronunciation characteristics of Korean Select from the shape store. The mouth shape selection unit selects a first mouth shape with both lips attached to the mouth shape of the silent section and selects a second mouth shape with both lips spaced apart by a first size before the first number of frames at which the speech starts A mouth shape corresponding to a pronunciation classification determined for each of the associations is selected from a point of time when a voice is started and a final mouth shape is maintained for a second number of frames from a point of time when a voice is terminated, The first mouth shape is selected. According to the present invention, the mouth shape of the animation character can be perfectly matched with the pronunciation of the voice actor, and lip-synching of the animation character can be automatically implemented in real time by accurately reflecting the pronunciation structure of Korean and the production characteristics of the animation.
Description
본 발명은 애니메이션 립싱크 자동화 장치 및 방법에 관한 것으로, 보다 상세하게는, 컴퓨터 그래픽으로 제작된 애니메이션 영상과 성우의 음성 사이의 동기를 자동으로 일치시켜 애니메이션 영상에 존재하는 캐릭터의 입모양을 성우의 음성에 대응하는 입모양과 동일하게 표현하기 위한 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for animating lip syncs, and more particularly, to a method and apparatus for automatically synchronizing animations of animated lip images produced by a computer graphics and a voice of a voice actor, To a mouth shape corresponding to the shape of the mouth.
미국의 메이저 영화 제작사에 의해 제작된 애니메이션 영화에서는 완벽한 립싱크 구현으로 캐릭터 연기를 완벽히 재생하여 관객의 몰입도를 향상시킨다. 이와 같이 애니메이션 영화에서 캐릭터의 입모양을 성우의 음성에 대응하는 입모양과 동일하게 표현함으로써 미국의 애니메이션 영화들은 고품질의 애니메이션이라고 불려지고 있다. 그러나 국내 애니메이션 학계와 업계에서는 립싱크에 관한 연구 및 기술이 절대적으로 부족한 상황이다. The animated film produced by the major movie production companies in the United States improves the immersion of the audience by perfectly reproducing the character 's performance with the perfect lip - sync implementation. Thus, by expressing the mouth shape of the character in the animation movie the same as the mouth shape corresponding to the voice of the voice actor, American animation films are called high quality animation. However, there is absolutely lack of research and technology in lip - syncing in Korean animation industry and industry.
일반적으로 애니메이션의 립싱크는 애니메이션을 먼저 제작한 후 성우가 영상을 시청하면서 대본을 녹음하는 방식을 취하거나 경험이 많은 작업자가 사전에 설정되어 있는 입모양 데이터베이스에서 대본의 각 단어들의 실제 발음에 대응하는 애니메이션의 캐릭터의 입모양을 선택하여 애니메이션을 제작한 후 성우가 영상을 시청하면서 대본을 녹음하는 방식을 취하고 있다. 그러나 전자의 방법은 사람의 실제 발음에 대응하는 입모양을 정확하게 반영하지 못하여 현실감이 떨어지고, 후자의 방법은 전문적인 지식과 경험을 가진 작업자에 의해 이루어져야 하므로 제작기간이 오래 걸리며 실시간으로 립싱크 화면을 제작할 수 없다는 문제가 있다.Generally, lip-syncing of an animation is performed by first creating an animation, then recording a script while a viewer watches the image, or by an experienced worker in a mouth-shaped database preset to correspond to the actual pronunciation of each word of the script After choosing the shape of the mouth of the animation character to produce the animation, Sung Woo is taking the method of recording the script while watching the video. However, since the former method does not accurately reflect the mouth shape corresponding to the actual pronunciation of the person, the reality is lowered and the latter method must be performed by a worker having a specialized knowledge and experience, so that it takes a long period of time to produce a lip- There is a problem that it can not.
한편 사람이 말할 때 입모양은 주로 모음인 "아, 에, 이, 오, 우, 어, 으"에 따라 변화함에 주목하여 음성 신호에서 모음에 대한 데이터를 추출한 후 이를 기초로 캐릭터의 입모양을 결정하는 방법이 제안된 바 있으나, 이는 받침으로 사용되는 자음이 입모양에 미치는 영향을 배제한 것으로 역시 정확한 입모양을 표현하기 어려운 문제가 있고, 각각의 모음에 대해 입모양을 대응시키기 때문에 지나치게 자주 입모양이 변화하게 되고 묵음 구간에 대한 처리를 하지 않기 때문에 실제 사람이 발음할 때 나타나는 입모양과 달라지게 되는 문제가 있다.On the other hand, when a person speaks, the shape of a mouth mainly changes according to the vowel "ah, a, e, o, ooo, ooo, ooo" and extracts the data of the vowel from the voice signal, However, since the influence of the consonant used as a support is eliminated, there is a problem that it is difficult to express a correct mouth shape. To cope with a mouth shape for each vowel, There is a problem in that the shape changes and the processing is not performed on the silent section, so that it differs from the mouth shape that appears when the person actually pronounces the sound.
본 발명이 이루고자 하는 기술적 과제는 한국어의 발음 구조와 애니메이션의 제작 특성을 정확하게 반영하여 애니메이션 캐릭터의 입모양을 성우의 발음과 완벽하게 일치시킬 수 있고, 실시간으로 애니메이션 캐릭터의 립싱크를 자동으로 구현할 수 있는 장치 및 방법을 제공하는 데 있다.SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and it is an object of the present invention to provide a method and apparatus for accurately characterizing a pronunciation structure of a Korean character and an animation, Apparatus and method.
본 발명이 이루고자 하는 기술적 과제는 한국어의 발음 구조와 애니메이션의 제작 특성을 정확하게 반영하여 애니메이션 캐릭터의 입모양을 성우의 발음과 완벽하게 일치시킬 수 있고, 실시간으로 애니메이션 캐릭터의 립싱크를 자동으로 구현할 수 있는 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and it is an object of the present invention to provide a method and apparatus for accurately characterizing a pronunciation structure of a Korean character and an animation, There is provided a computer-readable recording medium recording a program capable of causing a computer to execute the method.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 애니메이션 립싱크 자동화 장치는, 애니메이션 영상의 대본에 대응하고 상기 애니메이션 영상을 구성하는 프레임에 동기가 맞춰진 음성 파일이 입력되는 음성 입력부; 상기 음성 파일로부터 각각의 어소를 구성하는 자음, 모음 및 소리의 높낮이를 파악하여 음성 인식 결과를 출력하는 음성 인식부; 한국어의 발음특성을 고려한 일정 개수의 입모양이 발음 분류에 대응되어 저장되는 입모양 저장부; 및 상기 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정하고, 결정된 발음 분류에 대응하는 입모양을 상기 입모양 저장부에서 선택하는 입모양 선택부;를 구비하며, 상기 입모양 선택부는, 묵음 구간의 입모양으로 양입술이 붙어있는 제1입모양을 선택하고, 음성이 시작되기 제1개수의 프레임 전에 양입술이 제1크기만큼 떨어져 있는 제2입모양을 선택하고, 음성이 시작되는 시점부터 각 어소에 대해 결정된 발음 분류에 대응하는 입모양을 선택하고, 음성이 종료된 시점부터 제2개수의 프레임동안 최종적인 입모양을 유지한 이후에 다음 음성이 시작될 때까지의 입모양으로 상기 제1입모양을 선택한다.According to another aspect of the present invention, there is provided an apparatus for automating an animation lip sync, including: a voice input unit for inputting a voice file synchronized with a frame constituting the animation image, corresponding to a scenario of an animation image; A voice recognition unit for recognizing the height of consonants, vowels, and sounds constituting respective associations from the voice file and outputting voice recognition results; A mouth shape storage unit in which a predetermined number of mouth shapes considering pronunciation characteristics of Korean are stored corresponding to pronunciation categories; And a mouth shape selection unit for determining a pronunciation classification corresponding to each of the associations based on the speech recognition result and selecting a mouth shape corresponding to the determined pronunciation classification in the mouth shape storage unit, , A first mouth shape with both lips attached to the mouth of the silent section is selected and a second mouth shape where both lips are separated by a first size before the first number of frames at which speech starts, The mouth shape corresponding to the pronunciation category determined for each of the associations is selected from the point of time when the voice is terminated and the final mouth shape is maintained for the second number of frames from the end of the voice, The first mouth shape is selected.
상기의 다른 기술적 과제를 달성하기 위한, 본 발명에 따른 애니메이션 립싱크 자동화 방법은, (a) 애니메이션 영상의 대본에 대응하고 상기 애니메이션 영상을 구성하는 프레임에 동기가 맞춰진 음성 파일로부터 각각의 어소를 구성하는 자음, 모음 및 소리의 높낮이를 파악하여 음성 인식 결과를 출력하는 단계; (b) 한국어의 발음특성을 고려한 일정 개수의 입모양이 발음 분류에 대응되어 저장되어 있는 입모양 데이터베이스로부터 묵음 구간의 입모양으로 양입술이 붙어있는 제1입모양을 선택하고, 음성이 시작되기 제1개수의 프레임 전에 양입술이 제1크기만큼 떨어져 있는 제2입모양을 선택하는 단계; (c) 상기 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정하고, 결정된 발음 분류에 대응하는 입모양을 상기 입모양 데이터베이스에서 선택하는 단계; 및 (d) 음성이 종료된 시점부터 제2개수의 프레임동안 최종적인 입모양을 유지한 이후에 다음 음성이 시작될 때까지의 입모양으로 상기 제1입모양을 선택하는 단계;를 갖는다.According to another aspect of the present invention, there is provided a method for automating animation lip sync according to the present invention, comprising the steps of: (a) constructing respective associations from a voice file synchronized with a frame constituting the animation image, Recognizing the height of consonants, vowels, and sounds and outputting speech recognition results; (b) A first mouth shape with both lips is selected from a mouth shape database in which a predetermined number of mouth shapes considering Korean pronunciation characteristics are stored corresponding to pronunciation categories, Selecting a second mouth shape in which both lips are separated by a first size before a first number of frames; (c) determining a pronunciation classification corresponding to each of the associations based on the speech recognition result, and selecting a mouth shape corresponding to the determined pronunciation category in the mouth shape database; And (d) selecting the first mouth shape as a mouth shape until the next voice starts after the last mouth shape is maintained during the second number of frames from the end of the voice.
본 발명에 따른 애니메이션 립싱크 자동화 장치 및 방법에 의하면, 한국어의 발음 구조와 애니메이션의 제작 특성을 정확하게 반영하여 애니메이션 캐릭터의 입모양을 성우의 발음과 완벽하게 일치시킬 수 있고, 실시간으로 애니메이션 캐릭터의 립싱크를 자동으로 구현할 수 있다. According to the apparatus and method for animating lip-sync according to the present invention, it is possible to perfectly match the mouth shape of the animation character with the pronunciation of the voice act accurately by accurately reflecting the pronunciation structure of the Korean and the production characteristics of the animation, It can be implemented automatically.
도 1은 본 발명에 따른 애니메이션 립싱크 자동화 장치에 대한 바람직한 실시예의 구성을 도시한 도면,
도 2는 발음 분류와 그에 대응하는 입모양을 도시한 도면, 그리고,
도 3은 본 발명에 따른 애니메이션 립싱크 자동화 방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram showing a configuration of a preferred embodiment of an animation lip sync automation apparatus according to the present invention;
FIG. 2 is a diagram showing a phonetic classification and corresponding mouth shapes,
FIG. 3 is a flowchart illustrating a method of performing an animation lip sync automation method according to a preferred embodiment of the present invention.
이하에서 첨부된 도면들을 참고하여 본 발명에 따른 애니메이션 립싱크 자동화 장치 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, a preferred embodiment of an animation lip sync automation apparatus and method according to the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명에 따른 애니메이션 립싱크 자동화 장치에 대한 바람직한 실시예의 구성을 도시한 도면이다.FIG. 1 is a view showing a configuration of a preferred embodiment of an animation lip sync automation apparatus according to the present invention.
도 1을 참조하면, 발명에 따른 애니메이션 립싱크 자동화 장치는 영상 입력부(110), 음성 입력부(120), 음성 인식부(130), 입모양 저장부(140), 입모양 선택부(150), 입모양 합성부(160) 및 제어부(170)를 구비한다.1, an animation lip sync automation apparatus according to the present invention includes an
영상 입력부(110)는 애니메이션 영상을 입력받는 구성요소이다. 영상 입력부(110)로 입력된 영상은 용도, 품질 등에 따라 초당 프레임의 개수가 24개, 30개 등으로 상이하며, 이하의 설명에서는 초당 30개의 프레임으로 구성된 영상을 예로 들어 설명한다.The
음성 입력부(120)는 성우가 애니메이션의 대본에 따라 녹음한 음성 파일을 입력받는 구성요소이다. 음성 입력부(120)로 입력되는 음성 파일은 애니메이션 영상의 각 프레임에 동기가 맞춰지며, 따라서 음성 파일은 초당 30 프레임으로 설정된 디지털 파일이다.The
음성 인식부(130)는 음성 입력부(120)를 통해 입력된 음성 파일을 분석하여 각각의 어소를 구성하는 자음과 모음, 그리고 소리의 높낮이를 파악한다. 그리고 음성 인식부(130)는 음성 인식 결과를 출력하며, 이때, 음성 인식 결과는 각 어소에 대응하는 코드(예를 들면, 완성형 한글 코드, 조합형 한글 코드 등)로 출력될 수 있다.The voice recognition unit 130 analyzes the voice file inputted through the
입모양 저장부(140)에는 한국어의 발음특성을 고려한 일정 개수(예를 들면, 8개)의 입모양이 발음 분류에 대응되어 저장되어 있다. 발음 분류는 각 어소의 발음시 실제 입모양을 입모양 저장부(140)에 저장되어 있는 입모양을 기준으로 분류하여 얻어진다. 도 2에는 발음 분류와 그에 대응하는 입모양이 도시되어 있다.The mouth
입모양 선택부(150)는 음성 인식부(130)로부터 입력되는 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정한다. 표 1에는 발음 분류 기준의 예가 기재되어 있다.The mouth
표 1에는 8개의 발음 분류가 기재되어 있으나, 필요에 따라 발음 분류를 추가할 수 있으며, 발음 분류 기준 역시 보다 세밀하게 구성할 수 있다.Table 1 shows eight phonetic categories, but it is possible to add phonetic classifications as necessary, and the phonetic classifiers can be further finely structured.
이와 같이 각 어소에 대응하는 발음 분류를 결정한 이후에 입모양 선택부(150)는 다음의 기준에 따라 입모양을 선택한다. After determining the pronunciation classification corresponding to each of the associations, the mouth
1. 음성이 시작되기 제1개수의 프레임(예를 들면, 10 프레임) 전에 입모양 C를 선택한다.1. Select mouth shape C before the first number of frames (for example, 10 frames) at which voice starts.
2. 음성이 시작되는 시점부터 제2개수의 프레임(예를 들면, 4 프레임)마다 음성 인식 결과로 입력되는 어소 및 소리의 높낮이를 분석하여 해당 어소에 대응하는 입모양을 선택한다. 이와 같이 4 프레임마다 입모양을 선택하는 이유는 연산량을 줄이기 위한 목적과 사람의 시각적 변화에 대한 인식능력(즉, 입모양이 일정시간 유지되어도 발음과 입모양의 동기가 일치하는 것으로 인식됨)을 고려한 것이다. 이때 음성 인식부(130)가 4 프레임마다 음성 인식 결과를 출력하도록 구현할 수도 있다.2. From the beginning of the speech, the mouth and the sound input in the second number of frames (for example, four frames) are analyzed and the mouth shape corresponding to the corresponding position is selected. The reason why the mouth shape is selected every four frames is that the purpose of reducing the amount of calculation and the recognition ability of the human visual change (i.e., even if the mouth shape is maintained for a certain period of time, will be. At this time, the speech recognition unit 130 may output speech recognition results every four frames.
3. ㅁ, ㅂ, ㅍ 등과 같이 입술이 닫히는 소리가 날 때만 제3개수의 프레임(예를 들면, 2 프레임) 전에 입모양 A를 선택한다. 이때 소리가 나는 순간에는 모음대로 입모양을 선택하여야 하지만 그 전 2 프레임에서는 입모양 A를 선택한다.3. Select the mouth shape A before the third number of frames (for example, 2 frames) only when the lips close sound, such as ㅁ, ㅂ, In this case, the mouth should be selected as the vowel at the moment of sound, but the mouth shape A is selected in the previous 2 frames.
4. 문장과 문장 사이의 묵음에서는 묵음 바로 전의 입모양으로 제4개수의 프레임(예를 들면, 10 프레임) 정도를 유지한 후 다음 음성이 나올 때까지 입모양 C로 변경한다.4. In the silence between the sentence and the sentence, keep a fourth number of frames (for example, 10 frames) in the mouth shape just before the silence, and change to the mouth shape C until the next voice comes out.
입모양 합성부(160)는 입모양 선택부(150)에 의해 선택된 입모양을 영상 입력부(110)로부터 입력되는 애니메이션 영상에 합성하여 음성과 입모양이 동기화된 영상을 생성한다. 이때 입모양 합성부(160)는 입모양 선택부(150)에 의해 입모양이 선택된 영상 프레임의 정보(예를 들면, 프레임 번호)를 제공받으며, 애니메이션 영상을 구성하는 프레임 내에서 캐릭터의 입에 해당하는 영역을 검출하여 해당 영역에 입모양 선택부(150)에 의해 선택된 입모양을 합성한다. 이러한 입모양 합성부(160)는 별도의 장치로 구현될 수 있다.The mouth
제어부(170)는 다음 구성요소의 동작을 제어하며, 사용자로부터 설정값을 입력받는다. 사용자로부터 입력받는 설정값은 제1개수 내지 제4개수의 값이 될 수 있다. The
도 3은 본 발명에 따른 애니메이션 립싱크 자동화 방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.FIG. 3 is a flowchart illustrating a method of performing an animation lip sync automation method according to a preferred embodiment of the present invention.
도 3을 참조하면, 음성 인식부(130)는 음성 입력부(120)를 통해 입력된 음성 파일을 분석하여 각각의 어소를 구성하는 자음과 모음, 그리고 소리의 높낮이를 파악한 후 음성 인식 결과를 출력한다(S300). 다음으로, 입모양 선택부(150)는 음성 인식부(130)로부터 입력되는 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정한다(S310). 다음으로, 입모양 선택부(150)는 입모양 저장부(140)에서 묵음 구간의 입모양으로 입모양 A를 선택하고, 음성이 시작되기 10 프레임 전에 입모양 저장부(140)에서 입모양 C를 선택한다(S320). 다음으로, 입모양 선택부(150)는 입모양 저장부(140)에서 각 어소에 대해 결정된 발음 분류에 대응하는 입모양을 선택한다(S330). 이때 입모양 선택부(150)는 ㅁ, ㅂ, ㅍ 등과 같이 입술이 닫히는 소리가 날 때만 2 프레임 전에 입모양 A를 선택한 후 소리가 나는 순간에는 모음대로 입모양을 선택한다. 다음으로, 입모양 선택부(150)는 다시 묵음 구간이 시작되는 지점(즉, 음성이 종료된 시점)부터 10 프레임 정도를 최종적인 입모양을 유지하고, 다음 음성이 시작될 때까지의 입모양으로 입모양 저장부(140)에서 입모양 C를 선택한다(S340). 다음으로, 입모양 합성부(160)는 입모양 선택부(150)에 의해 선택된 입모양을 영상 입력부(110)로부터 입력되는 애니메이션 영상에 합성하여 음성과 입모양이 동기화된 영상을 생성한다(S350).Referring to FIG. 3, the speech recognition unit 130 analyzes a speech file inputted through the
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.The present invention can also be embodied as computer-readable codes on a computer-readable recording medium. A computer-readable recording medium includes all kinds of recording apparatuses in which data that can be read by a computer system is stored. Examples of the computer-readable recording medium include a ROM, a RAM, a CD-ROM, a magnetic tape, a floppy disk, an optical data storage device, and the like, and may be implemented in the form of a carrier wave (for example, transmission via the Internet) . The computer-readable recording medium may also be distributed over a networked computer system so that computer readable code can be stored and executed in a distributed manner.
이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is clearly understood that the same is by way of illustration and example only and is not to be taken by way of limitation in the embodiment in which said invention is directed. It will be understood by those skilled in the art that various changes in form and detail may be made therein without departing from the scope of the appended claims.
Claims (8)
상기 음성 파일로부터 각각의 어소를 구성하는 자음, 모음 및 소리의 높낮이를 파악하여 음성 인식 결과를 출력하는 음성 인식부;
한국어의 발음특성을 고려한 일정 개수의 입모양이 발음 분류에 대응되어 저장되는 입모양 저장부; 및
상기 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정하고, 결정된 발음 분류에 대응하는 입모양을 상기 입모양 저장부에서 선택하는 입모양 선택부;를 포함하며,
상기 입모양 선택부는, 묵음 구간의 입모양으로 양입술이 붙어있는 제1입모양을 선택하고, 음성이 시작되기 제1개수의 프레임 전에 양입술이 제1크기만큼 떨어져 있는 제2입모양을 선택하고, 음성이 시작되는 시점부터 각 어소에 대해 결정된 발음 분류에 대응하는 입모양을 선택하고, 음성이 종료된 시점부터 제2개수의 프레임동안 최종적인 입모양을 유지한 이후에 다음 음성이 시작될 때까지의 입모양으로 상기 제1입모양을 선택하고, 음성이 시작되는 시점부터 제3개수의 프레임마다 상기 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정하고 결정된 발음 분류에 대응하는 입모양을 상기 입모양 저장부에서 선택하고, 입술이 닫히는 소리가 날 때 제4개수의 프레임 전에 상기 제1입모양을 선택하는 것을 특징으로 하는 애니메이션 립싱크 자동화 장치.A voice input unit for inputting a voice file synchronized with a frame constituting the animation image, corresponding to a scenario of the animation video;
A voice recognition unit for recognizing the height of consonants, vowels, and sounds constituting respective associations from the voice file and outputting voice recognition results;
A mouth shape storage unit in which a predetermined number of mouth shapes considering pronunciation characteristics of Korean are stored corresponding to pronunciation categories; And
And a mouth shape selection unit for determining a pronunciation classification corresponding to each of the associations based on the speech recognition result and selecting a mouth shape corresponding to the determined pronunciation category in the mouth shape storage unit,
The mouth shape selecting unit selects a first mouth shape with both lips attached to the mouth shape of the silent section and selects a second mouth shape with both lips being separated by a first size before the first number of frames A mouth shape corresponding to a pronunciation classification determined for each of the associations is selected from a point of time when a voice is started and a final mouth shape is maintained for a second number of frames from a point of time when a voice is terminated, The first mouth shape is selected as the mouth shape from the beginning of the speech, and a pronunciation classification corresponding to each of the associations is determined on the basis of the speech recognition result for every third number of frames from the start of speech, Wherein the first lip shape is selected from the mouth shape storage portion and the first lip shape is selected before a fourth number of frames when a lips sound is heard. Automation devices.
상기 애니메이션 영상이 입력되는 영상 입력부; 및
상기 입모양 선택부에 의해 선택된 입모양을 상기 영상 입력부를 통해 입력되는 애니메이션 영상에 합성하여 음성과 입모양이 동기화된 영상을 생성하는 입모양 합성부를 더 포함하는 것을 특징으로 하는 애니메이션 립싱크 자동화 장치.The method according to claim 1,
An image input unit into which the animation image is input; And
Further comprising a mouth shape synthesizing unit synthesizing the mouth shape selected by the mouth shape selecting unit with an animation image input through the image input unit to generate an image in which voice and mouth shapes are synchronized.
(b) 한국어의 발음특성을 고려한 일정 개수의 입모양이 발음 분류에 대응되어 저장되어 있는 입모양 데이터베이스로부터 묵음 구간의 입모양으로 양입술이 붙어있는 제1입모양을 선택하고, 음성이 시작되기 제1개수의 프레임 전에 양입술이 제1크기만큼 떨어져 있는 제2입모양을 선택하는 단계;
(c) 상기 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정하고, 결정된 발음 분류에 대응하는 입모양을 상기 입모양 데이터베이스에서 선택하는 단계; 및
(d) 음성이 종료된 시점부터 제2개수의 프레임동안 최종적인 입모양을 유지한 이후에 다음 음성이 시작될 때까지의 입모양으로 상기 제1입모양을 선택하는 단계;를 포함하며,
상기 (c)단계에서, 음성이 시작되는 시점부터 제3개수의 프레임마다 상기 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정하고, 결정된 발음 분류에 대응하는 입모양을 선택하는 것을 특징으로 하는 애니메이션 립싱크 자동화 방법.(a) outputting a speech recognition result by grasping a height of a consonant, a vowel, and a sound constituting each association from a speech file corresponding to a scenario of the animation image and synchronized with a frame constituting the animation image;
(b) A first mouth shape with both lips is selected from a mouth shape database in which a predetermined number of mouth shapes considering Korean pronunciation characteristics are stored corresponding to pronunciation categories, Selecting a second mouth shape in which both lips are separated by a first dimension before a first number of frames;
(c) determining a pronunciation classification corresponding to each of the associations based on the speech recognition result, and selecting a mouth shape corresponding to the determined pronunciation category in the mouth shape database; And
(d) selecting the first mouth shape as a mouth shape until the next voice starts after a final mouth shape is maintained during a second number of frames from a time when a voice is terminated,
In the step (c), a pronunciation classification corresponding to each of the associations is determined on the basis of the speech recognition result for each of the third number of frames from the start of speech, and a mouth shape corresponding to the determined pronunciation classification is selected To automate the animation lip sync.
(e) 상기 선택된 입모양을 상기 애니메이션 영상에 합성하여 음성과 입모양이 동기화된 영상을 생성하는 단계를 더 포함하는 것을 특징으로 하는 애니메이션 립싱크 자동화 방법.6. The method of claim 5,
(e) synthesizing the selected mouth shape with the animation image to generate an image in which voice and mouth shapes are synchronized with each other.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20130052593A KR101492816B1 (en) | 2013-05-09 | 2013-05-09 | Apparatus and method for providing auto lip-synch in animation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20130052593A KR101492816B1 (en) | 2013-05-09 | 2013-05-09 | Apparatus and method for providing auto lip-synch in animation |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140133056A KR20140133056A (en) | 2014-11-19 |
KR101492816B1 true KR101492816B1 (en) | 2015-02-13 |
Family
ID=52453816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20130052593A Active KR101492816B1 (en) | 2013-05-09 | 2013-05-09 | Apparatus and method for providing auto lip-synch in animation |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101492816B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133709A (en) * | 2016-12-01 | 2018-06-08 | 奥林巴斯株式会社 | Speech recognition equipment and audio recognition method |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203734A (en) * | 2016-03-17 | 2017-09-26 | 掌赢信息科技(上海)有限公司 | A kind of method and electronic equipment for obtaining mouth state |
CN105959723B (en) * | 2016-05-16 | 2018-09-18 | 浙江大学 | A kind of lip-sync detection method being combined based on machine vision and Speech processing |
US10217260B1 (en) | 2017-08-16 | 2019-02-26 | Td Ameritrade Ip Company, Inc. | Real-time lip synchronization animation |
CN108922533A (en) * | 2018-07-26 | 2018-11-30 | 广州酷狗计算机科技有限公司 | Determine whether the method and apparatus sung in the real sense |
CA3108116A1 (en) * | 2019-02-13 | 2020-08-20 | The Toronto-Dominion Bank | Real-time lip synchronization animation |
CN110136698B (en) * | 2019-04-11 | 2021-09-24 | 北京百度网讯科技有限公司 | Method, apparatus, device and storage medium for determining mouth shape |
CN111951629A (en) * | 2019-05-16 | 2020-11-17 | 上海流利说信息技术有限公司 | Pronunciation correction system, method, medium and computing device |
CN110366032B (en) * | 2019-08-09 | 2020-12-15 | 腾讯科技(深圳)有限公司 | Video data processing method and device and video playing method and device |
CN111638781B (en) * | 2020-05-15 | 2024-03-19 | 广东小天才科技有限公司 | AR-based pronunciation guide method and device, electronic equipment and storage medium |
CN112331184B (en) * | 2020-10-29 | 2024-03-15 | 网易(杭州)网络有限公司 | Voice mouth shape synchronization method and device, electronic equipment and storage medium |
KR102251781B1 (en) * | 2020-12-30 | 2021-05-14 | (주)라이언로켓 | Mouth shape synthesis device and method using artificial neural network |
CN115222856B (en) * | 2022-05-20 | 2023-09-26 | 一点灵犀信息技术(广州)有限公司 | Expression animation generation method and electronic equipment |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000009490A (en) * | 1998-07-24 | 2000-02-15 | 윤종용 | Method and apparatus of lip-synchronization for voice composition |
KR20070019295A (en) * | 2005-08-12 | 2007-02-15 | 주식회사 인프라밸리 | Lip sync service providing method for mobile subscriber and system for same |
-
2013
- 2013-05-09 KR KR20130052593A patent/KR101492816B1/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000009490A (en) * | 1998-07-24 | 2000-02-15 | 윤종용 | Method and apparatus of lip-synchronization for voice composition |
KR20070019295A (en) * | 2005-08-12 | 2007-02-15 | 주식회사 인프라밸리 | Lip sync service providing method for mobile subscriber and system for same |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133709A (en) * | 2016-12-01 | 2018-06-08 | 奥林巴斯株式会社 | Speech recognition equipment and audio recognition method |
CN108133709B (en) * | 2016-12-01 | 2021-09-14 | 奥林巴斯株式会社 | Speech recognition apparatus and speech recognition method |
Also Published As
Publication number | Publication date |
---|---|
KR20140133056A (en) | 2014-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101492816B1 (en) | Apparatus and method for providing auto lip-synch in animation | |
US11436780B2 (en) | Matching mouth shape and movement in digital video to alternative audio | |
US11159597B2 (en) | Systems and methods for artificial dubbing | |
US20230156294A1 (en) | Generating revoiced media streams in a virtual reality | |
CA2956566C (en) | Custom video content | |
US20210224319A1 (en) | Artificially generating audio data from textual information and rhythm information | |
US8903723B2 (en) | Audio synchronization for document narration with user-selected playback | |
US11520079B2 (en) | Personalizing weather forecast | |
JP2015212732A (en) | Sound metaphor recognition device and program | |
US20150187112A1 (en) | System and Method for Automatic Generation of Animation | |
TW522739B (en) | System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations | |
CN109376145B (en) | Method and device for establishing movie and television dialogue database and storage medium | |
JP2009278202A (en) | Video editing device, its method, program, and computer-readable recording medium | |
Kadam et al. | A Survey of Audio Synthesis and Lip-syncing for Synthetic Video Generation. | |
CN117769739A (en) | System and method for assisted translation and lip matching of dubbing | |
JP2019097016A (en) | Corpus generation device, corpus generation method, and program | |
KR101039668B1 (en) | Facial animation output method based on text data and system | |
KR20190111642A (en) | Image processing system and method using talking head animation based on the pixel of real picture | |
JP2019213160A (en) | Video editing apparatus, video editing method, and video editing program | |
US20230245644A1 (en) | End-to-end modular speech synthesis systems and methods | |
Weiss | A Framework for Data-driven Video-realistic Audio-visual Speech-synthesis. | |
CN119172581A (en) | Method, device, equipment and storage medium for generating video from audio | |
JP2024102698A (en) | Avatar movement control device and avatar movement control method | |
KR20240126277A (en) | Electronic device and method for generating dubbing video considering lip movement of speaker | |
JP3830200B2 (en) | Human image synthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20130509 |
|
PA0201 | Request for examination | ||
N231 | Notification of change of applicant | ||
PN2301 | Change of applicant |
Patent event date: 20140310 Comment text: Notification of Change of Applicant Patent event code: PN23011R01D |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20140630 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20150130 |
|
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20150206 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20150209 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20180206 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20180206 Start annual number: 4 End annual number: 4 |
|
FPAY | Annual fee payment |
Payment date: 20190117 Year of fee payment: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20190117 Start annual number: 5 End annual number: 5 |
|
FPAY | Annual fee payment |
Payment date: 20200206 Year of fee payment: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20200206 Start annual number: 6 End annual number: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20210219 Start annual number: 7 End annual number: 7 |
|
PR1001 | Payment of annual fee |
Payment date: 20211229 Start annual number: 8 End annual number: 8 |
|
PR1001 | Payment of annual fee |
Payment date: 20221129 Start annual number: 9 End annual number: 9 |
|
PR1001 | Payment of annual fee |
Payment date: 20241231 Start annual number: 11 End annual number: 11 |