KR102114368B1 - 사용자 영상을 기반으로 하는 정보 입력 장치, 방법, 시스템 및 컴퓨터 판독 가능한 저장 매체 - Google Patents
사용자 영상을 기반으로 하는 정보 입력 장치, 방법, 시스템 및 컴퓨터 판독 가능한 저장 매체 Download PDFInfo
- Publication number
- KR102114368B1 KR102114368B1 KR1020180058183A KR20180058183A KR102114368B1 KR 102114368 B1 KR102114368 B1 KR 102114368B1 KR 1020180058183 A KR1020180058183 A KR 1020180058183A KR 20180058183 A KR20180058183 A KR 20180058183A KR 102114368 B1 KR102114368 B1 KR 102114368B1
- Authority
- KR
- South Korea
- Prior art keywords
- information
- image
- mouth shape
- time point
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 128
- 238000012360 testing method Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/002—Specific input/output arrangements not covered by G06F3/01 - G06F3/16
- G06F3/005—Input arrangements through a video camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
-
- G06K9/00281—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/01—Indexing scheme relating to G06F3/01
- G06F2203/011—Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
도 2 는 도 1 의 프로세서 상에서 구현되는 인식 모델의 예시도이다.
도 3 은 도 2 의 영상 인식 모델 및 음성 인식 모델의 개념도이다.
도 4 는 도 2 의 메모리에 저장되는 정보의 예시도이다.
도 5 는 본 발명의 일 실시예에 따른 사용자 영상을 기반으로 하는 정보 입력 시스템의 개념도이다.
도 6 은 영상 통화 데이터를 기반으로 하는 훈련 데이터 세트 생성의 개념도이다.
도 7 은 본 발명의 일 실시예에 따른 사용자 영상을 기반으로 하는 정보 입력 방법의 흐름도이다.
도 8 은 도 7 의 입력 테스트 정보 결정 단계의 상세 흐름도이다.
도 9 는 영상 통화 데이터를 기반으로 하는 훈련 데이터 세트 생성의 상세 흐름도이다.
도 10 은 사전 설정에 따른 세그먼트의 시간 길이 설정 방법의 예시도이다.
도 11 은 음성의 임계 크기에 따른 세그먼트의 시간 길이 설정 방법의 예시도이다.
도 12 는 트리거링 입 모양에 따른 세그먼트의 시간 길이 설정 방법의 예시도이다.
도 13 은 예시 텍스트 정보 기반 훈련 데이터 세트 생성의 제 1 실시예에 대한 개념도이다.
도 14 는 예시 텍스트 정보 기반 훈련 데이터 세트 생성의 제 2 실시예에 대한 개념도이다.
도 15 는 예시 텍스트 정보 기반 훈련 데이터 세트 생성의 제 1 실시예의 흐름도이다.
도 16 은 예시 텍스트 정보 기반 훈련 데이터 세트 생성의 제 2 실시예의 흐름도이다.
Claims (24)
- 프로세서 및 메모리를 포함하는 정보 입력 장치에 의해 수행되는, 사용자 영상을 기반으로 하는 정보 입력 방법으로서,
특정 사용자에 대한 입 모양 영상 정보 및 상기 입 모양 영상 정보에 대응하는 텍스트 정보를 각각 포함하는 복수의 훈련 데이터 세트들을 생성하는 단계;
상기 훈련 데이터 세트들을 기반으로, 입력된 입 모양 영상 정보에 대응하는 텍스트 정보를 출력하는 영상 인식 모델을 생성하는 단계; 및
상기 영상 인식 모델을 기반으로 상기 특정 사용자에 대한 입력 영상에 대응하는 입력 텍스트 정보를 결정하는 단계를 포함하고,
상기 훈련 데이터 세트들을 생성하는 단계는,
상기 특정 사용자의 영상 통화 데이터 - 상기 영상 통화 데이터는 통화 영상 및 통화 음성을 포함 - 를 획득하는 단계;
시간 정보를 기반으로 상기 통화 영상의 적어도 일부인 제 1 입 모양 영상 정보와 상기 통화 음성의 적어도 일부인 제 1 음성 정보를 대응시키는 단계;
음성 인식 모델을 기반으로 상기 제 1 음성 정보에 대응하는 텍스트 정보인 제 1 음성 인식 텍스트 정보를 획득하는 단계; 및
상기 제 1 입 모양 영상 정보와 상기 제 1 음성 인식 텍스트 정보를 제 1 훈련 데이터 세트로서 저장하는 단계를 포함하고,
상기 제 1 입 모양 영상 정보 및 상기 제 1 음성 정보는 제 1 시점으로부터 제 2 시점까지의 시간 길이를 가지고,
상기 제 1 시점은 상기 통화 음성이 미리 결정된 임계 크기 이하인 시점을 나타내고, 상기 제 2 시점은 상기 제 1 시점에 후속하는, 상기 통화 음성이 미리 결정된 임계 크기 이하인 시점을 나타내는, 사용자 영상을 기반으로 하는 정보 입력 방법.
- 제 1 항에 있어서,
상기 입력 텍스트 정보를 결정하는 단계는,
영상 입력부에 의해 취득된 상기 특정 사용자에 대한 입력 영상을 수신하는 단계; 및
상기 영상 인식 모델을 기반으로, 상기 입력 영상에 포함된 입 모양 영상 정보에 대응하는 텍스트 정보를 상기 입력 텍스트 정보로서 결정하는 단계를 포함하는, 사용자 영상을 기반으로 하는 정보 입력 방법.
- 제 1 항에 있어서,
상기 훈련 데이터 세트들은, i) 상기 특정 사용자의 영상 통화 데이터에 포함된 입 모양 영상 정보 및 ii) 상기 입 모양 영상 정보에 대응하는 음성에 대한 음성 인식 결과인 음성 인식 텍스트 정보를 포함하는, 사용자 영상을 기반으로 하는 정보 입력 방법.
- 삭제
- 제 1 항에 있어서,
상기 제 1 입 모양 영상 정보 및 상기 제 1 음성 정보의 시간 길이는 미리 결정된 시간 길이로서 결정되는, 사용자 영상을 기반으로 하는 정보 입력 방법.
- 삭제
- 제 1 항에 있어서,
상기 제 1 입 모양 영상 정보 및 상기 제 1 음성 정보는 제 1 시점으로부터 제 2 시점까지의 시간 길이를 가지고,
상기 제 1 시점은 상기 통화 영상에 포함된 상기 특정 사용자의 입 모양 영상 정보가 미리 결정된 제 1 트리거링 입 모양 정보와 일치하는 시점을 나타내고,
상기 제 2 시점은 상기 제 1 시점에 후속하는, 상기 특정 사용자의 입 모양 영상 정보가 미리 결정된 제 1 트리거링 입 모양 정보와 일치하는 시점을 나타내는, 사용자 영상을 기반으로 하는 정보 입력 방법.
- 제 1 항에 있어서,
상기 제 1 입 모양 영상 정보 및 상기 제 1 음성 정보는 제 1 시점으로부터 제 2 시점까지의 시간 길이를 가지고,
상기 제 1 시점은 상기 통화 영상에 포함된 상기 특정 사용자의 입 모양 영상 정보가 미리 결정된 제 1 트리거링 입 모양 정보와 일치하는 시점을 나타내고,
상기 제 2 시점은 상기 통화 영상에 포함된 상기 특정 사용자의 입 모양 영상 정보가 미리 결정된 제 2 트리거링 입 모양 정보와 일치하는 시점을 나타내는, 사용자 영상을 기반으로 하는 정보 입력 방법.
- 제 1 항에 있어서,
상기 훈련 데이터 세트들은, i) 예시 텍스트 정보 및 ii) 상기 특정 사용자가 상기 예시 텍스트 정보를 읽은 입 모양 영상 정보를 포함하는, 사용자 영상을 기반으로 하는 정보 입력 방법.
- 제 1 항에 있어서,
상기 훈련 데이터 세트들을 생성하는 단계는,
예시 텍스트 정보를 디스플레이하는 단계;
상기 특정 사용자가 상기 예시 텍스트 정보를 읽는 동안의 상기 특정 사용자에 대한 영상인 읽기 영상을 획득하는 단계; 및
상기 읽기 영상에 포함된 제 2 입 모양 영상 정보 및 상기 예시 텍스트 정보를 제 2 훈련 데이터 세트로서 저장하는 단계를 포함하는, 사용자 영상을 기반으로 하는 정보 입력 방법.
- 제 1 항에 있어서,
상기 훈련 데이터 세트들을 생성하는 단계는,
복수의 예시 텍스트 정보들을 디스플레이하는 단계;
상기 특정 사용자가 상기 예시 텍스트 정보들을 음독하는 동안 상기 특정 사용자에 대한 영상인 읽기 영상 및 상기 특정 사용자에 대한 음성인 읽기 음성을 획득하는 단계;
시간 정보를 기반으로 상기 읽기 영상의 적어도 일부인 제 3 입 모양 영상 정보와 상기 읽기 음성의 적어도 일부인 제 3 음성 정보를 대응시키는 단계;
음성 인식 모델을 기반으로 상기 제 3 음성 정보에 대응하는 텍스트 정보인 제 3 음성 인식 텍스트 정보를 획득하는 단계;
상기 제 3 음성 인식 테스트 정보와 상기 복수의 예시 텍스트 정보들 중 어느 하나인 제 3 예시 텍스트 정보와 동일하다는 결정에 응답하여, 상기 제 3 입 모양 영상 정보와 상기 제 3 예시 텍스트 정보를 제 3 훈련 데이터 세트로서 저장하는 단계를 포함하는, 사용자 영상을 기반으로 하는 정보 입력 방법.
- 사용자 영상을 기반으로 하는 정보 입력 장치로서,
영상 정보를 획득하는 영상 입력부;
음성 정보를 획득하는 음성 입력부;
영상 정보, 음성 정보 및 텍스트 정보를 저장하는 메모리; 및
프로세서를 포함하고,
상기 프로세서는,
특정 사용자에 대한 입 모양 영상 정보 및 상기 입 모양 영상 정보에 대응하는 텍스트 정보를 각각 포함하는 복수의 훈련 데이터 세트들을 생성하고,
상기 훈련 데이터 세트들을 기반으로, 입력된 입 모양 영상 정보에 대응하는 텍스트 정보를 출력하는 영상 인식 모델을 생성하고; 그리고
상기 영상 인식 모델을 기반으로 상기 특정 사용자에 대한 입력 영상에 대응하는 입력 텍스트 정보를 결정하도록 구성되고,
상기 훈련 데이터 세트들을 생성하는 것은, 상기 프로세서가,
상기 특정 사용자의 영상 통화 데이터 - 상기 영상 통화 데이터는 통화 영상 및 통화 음성을 포함 - 를 획득하고;
시간 정보를 기반으로 상기 통화 영상의 적어도 일부인 제 1 입 모양 영상 정보와 상기 통화 음성의 적어도 일부인 제 1 음성 정보를 대응시키고;
음성 인식 모델을 기반으로 상기 제 1 음성 정보에 대응하는 텍스트 정보인 제 1 음성 인식 텍스트 정보를 획득하고; 그리고
상기 제 1 입 모양 영상 정보와 상기 제 1 음성 인식 텍스트 정보를 제 1 훈련 데이터 세트로서 상기 메모리에 저장하는 것을 포함하고,
상기 제 1 입 모양 영상 정보 및 상기 제 1 음성 정보는 제 1 시점으로부터 제 2 시점까지의 시간 길이를 가지고,
상기 제 1 시점은 상기 통화 음성이 미리 결정된 임계 크기 이하인 시점을 나타내고, 상기 제 2 시점은 상기 제 1 시점에 후속하는, 상기 통화 음성이 미리 결정된 임계 크기 이하인 시점을 나타내는, 사용자 영상을 기반으로 하는 정보 입력 장치.
- 제 12 항에 있어서,
상기 입력 텍스트 정보를 결정하는 것은, 상기 프로세서가,
상기 영상 입력부에 의해 취득된 상기 특정 사용자에 대한 입력 영상을 수신하고; 그리고
상기 영상 인식 모델을 기반으로, 상기 입력 영상에 포함된 입 모양 영상 정보에 대응하는 텍스트 정보를 상기 입력 텍스트 정보로서 결정하는 것을 포함하는, 사용자 영상을 기반으로 하는 정보 입력 장치.
- 제 12 항에 있어서,
상기 훈련 데이터 세트들은, i) 상기 특정 사용자의 영상 통화 데이터에 포함된 입 모양 영상 정보 및 ii) 상기 입 모양 영상 정보에 대응하는 음성에 대한 음성 인식 결과인 음성 인식 텍스트 정보를 포함하는, 사용자 영상을 기반으로 하는 정보 입력 장치.
- 삭제
- 제 12 항에 있어서,
상기 제 1 입 모양 영상 정보 및 상기 제 1 음성 정보의 시간 길이는 미리 결정된 시간 길이를 가지는, 사용자 영상을 기반으로 하는 정보 입력 장치.
- 삭제
- 제 12 항에 있어서,
상기 제 1 입 모양 영상 정보 및 상기 제 1 음성 정보는 제 1 시점으로부터 제 2 시점까지의 시간 길이를 가지고,
상기 제 1 시점은 상기 통화 영상에 포함된 상기 특정 사용자의 입 모양 영상 정보가 미리 결정된 제 1 트리거링 입 모양 정보와 일치하는 시점을 나타내고,
상기 제 2 시점은 상기 제 1 시점에 후속하는, 상기 특정 사용자의 입 모양 영상 정보가 미리 결정된 제 1 트리거링 입 모양 정보와 일치하는 시점을 나타내는, 사용자 영상을 기반으로 하는 정보 입력 장치.
- 제 12 항에 있어서,
상기 제 1 입 모양 영상 정보 및 상기 제 1 음성 정보는 제 1 시점으로부터 제 2 시점까지의 시간 길이를 가지고,
상기 제 1 시점은 상기 통화 영상에 포함된 상기 특정 사용자의 입 모양 영상 정보가 미리 결정된 제 1 트리거링 입 모양 정보와 일치하는 시점을 나타내고,
상기 제 2 시점은 상기 통화 영상에 포함된 상기 특정 사용자의 입 모양 영상 정보가 미리 결정된 제 2 트리거링 입 모양 정보와 일치하는 시점을 나타내는, 사용자 영상을 기반으로 하는 정보 입력 장치.
- 제 12 항에 있어서,
상기 훈련 데이터 세트들은, i) 예시 텍스트 정보 및 ii) 상기 특정 사용자가 상기 예시 텍스트 정보를 읽은 입 모양 영상 정보를 포함하는, 사용자 영상을 기반으로 하는 정보 입력 장치.
- 제 12 항에 있어서,
상기 훈련 데이터 세트들을 생성하는 것은, 상기 프로세서가,
상기 사용자 영상을 기반으로 하는 정보 입력 장치에 포함된 표시부에 예시 텍스트 정보를 디스플레이하고;
상기 영상 입력부를 이용하여, 상기 특정 사용자가 상기 예시 텍스트 정보를 읽는 동안의 상기 특정 사용자에 대한 영상인 읽기 영상을 획득하고; 그리고
상기 읽기 영상에 포함된 제 2 입 모양 영상 정보 및 상기 예시 텍스트 정보를 제 2 훈련 데이터 세트로서 상기 메모리에 저장하는 것을 포함하는, 사용자 영상을 기반으로 하는 정보 입력 장치.
- 제 12 항에 있어서,
상기 훈련 데이터 세트들을 생성하는 것은, 상기 프로세서가,
상기 사용자 영상을 기반으로 하는 정보 입력 장치에 포함된 표시부에 복수의 예시 텍스트 정보들을 디스플레이하고;
상기 영상 입력부 및 음성 입력부를 이용하여, 상기 특정 사용자가 상기 예시 텍스트 정보들을 음독하는 동안 상기 특정 사용자에 대한 영상인 읽기 영상 및 상기 특정 사용자에 대한 음성인 읽기 음성을 획득하고;
시간 정보를 기반으로 상기 읽기 영상의 적어도 일부인 제 3 입 모양 영상 정보와 상기 읽기 음성의 적어도 일부인 제 3 음성 정보를 대응시키고;
음성 인식 모델을 기반으로 상기 제 3 음성 정보에 대응하는 텍스트 정보인 제 3 음성 인식 텍스트 정보를 획득하고;
상기 제 3 음성 인식 테스트 정보와 상기 복수의 예시 텍스트 정보들 중 어느 하나인 제 3 예시 텍스트 정보를 대응시키고; 그리고
상기 제 3 음성 인식 테스트 정보와 상기 복수의 예시 텍스트 정보들 중 어느 하나인 제 3 예시 텍스트 정보와 동일하다는 결정에 응답하여, 상기 제 3 입 모양 영상 정보와 상기 제 3 예시 텍스트 정보를 제 3 훈련 데이터 세트로서 상기 메모리에 저장하는 것를 포함하는, 사용자 영상을 기반으로 하는 정보 입력 장치.
- 사용자 영상을 기반으로 하는 정보 입력 시스템으로서,
특정 사용자에 대한 입 모양 영상 정보 및 상기 입 모양 영상 정보에 대응하는 텍스트 정보를 각각 포함하는 복수의 훈련 데이터 세트들을 획득하고, 상기 훈련 데이터 세트들을 기반으로, 입력된 입 모양 영상 정보에 대응하는 텍스트 정보를 출력하는 영상 인식 모델을 생성하도록 구성된, 서버; 및
상기 특정 사용자에 대한 영상 정보 및 음성 정보 중 적어도 하나를 취득하도록 구성되고, 상기 영상 인식 모델을 기반으로 상기 특정 사용자에 대한 입력 영상에 대응하는 입력 텍스트 정보를 결정하도록 구성된, 단말기를 포함하고,
상기 훈련 데이터 세트들을 획득하는 것은,
상기 특정 사용자의 영상 통화 데이터 - 상기 영상 통화 데이터는 통화 영상 및 통화 음성을 포함 - 를 획득하는 것;
시간 정보를 기반으로 상기 통화 영상의 적어도 일부인 제 1 입 모양 영상 정보와 상기 통화 음성의 적어도 일부인 제 1 음성 정보를 대응시키는 것;
음성 인식 모델을 기반으로 상기 제 1 음성 정보에 대응하는 텍스트 정보인 제 1 음성 인식 텍스트 정보를 획득하는 것; 및
상기 제 1 입 모양 영상 정보와 상기 제 1 음성 인식 텍스트 정보를 제 1 훈련 데이터 세트로서 저장하는 것을 포함하고,
상기 제 1 입 모양 영상 정보 및 상기 제 1 음성 정보는 제 1 시점으로부터 제 2 시점까지의 시간 길이를 가지고,
상기 제 1 시점은 상기 통화 음성이 미리 결정된 임계 크기 이하인 시점을 나타내고, 상기 제 2 시점은 상기 제 1 시점에 후속하는, 상기 통화 음성이 미리 결정된 임계 크기 이하인 시점을 나타내는, 사용자 영상을 기반으로 하는 정보 입력 시스템.
- 프로세서에 의해 실행 가능한 명령어들을 포함하는, 컴퓨터 판독 가능한 저장 매체로서, 상기 명령어들은 상기 프로세서에 의해 실행되었을 때,
특정 사용자에 대한 입 모양 영상 정보 및 상기 입 모양 영상 정보에 대응하는 텍스트 정보를 각각 포함하는 복수의 훈련 데이터 세트들을 생성하고;
상기 훈련 데이터 세트들을 기반으로, 입력된 입 모양 영상 정보에 대응하는 텍스트 정보를 출력하는 영상 인식 모델을 생성하고; 그리고
상기 영상 인식 모델을 기반으로 상기 특정 사용자에 대한 입력 영상에 대응하는 입력 텍스트 정보를 결정하도록 구성되고,
상기 훈련 데이터 세트들을 생성하는 것은, 상기 프로세서가,
상기 특정 사용자의 영상 통화 데이터 - 상기 영상 통화 데이터는 통화 영상 및 통화 음성을 포함 - 를 획득하고;
시간 정보를 기반으로 상기 통화 영상의 적어도 일부인 제 1 입 모양 영상 정보와 상기 통화 음성의 적어도 일부인 제 1 음성 정보를 대응시키고;
음성 인식 모델을 기반으로 상기 제 1 음성 정보에 대응하는 텍스트 정보인 제 1 음성 인식 텍스트 정보를 획득하고; 그리고
상기 제 1 입 모양 영상 정보와 상기 제 1 음성 인식 텍스트 정보를 제 1 훈련 데이터 세트로서 메모리에 저장하는 것을 포함하고,
상기 제 1 입 모양 영상 정보 및 상기 제 1 음성 정보는 제 1 시점으로부터 제 2 시점까지의 시간 길이를 가지고,
상기 제 1 시점은 상기 통화 음성이 미리 결정된 임계 크기 이하인 시점을 나타내고, 상기 제 2 시점은 상기 제 1 시점에 후속하는, 상기 통화 음성이 미리 결정된 임계 크기 이하인 시점을 나타내는, 컴퓨터 판독 가능한 저장 매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180058183A KR102114368B1 (ko) | 2018-05-23 | 2018-05-23 | 사용자 영상을 기반으로 하는 정보 입력 장치, 방법, 시스템 및 컴퓨터 판독 가능한 저장 매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180058183A KR102114368B1 (ko) | 2018-05-23 | 2018-05-23 | 사용자 영상을 기반으로 하는 정보 입력 장치, 방법, 시스템 및 컴퓨터 판독 가능한 저장 매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190133361A KR20190133361A (ko) | 2019-12-03 |
KR102114368B1 true KR102114368B1 (ko) | 2020-05-22 |
Family
ID=68837838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180058183A Active KR102114368B1 (ko) | 2018-05-23 | 2018-05-23 | 사용자 영상을 기반으로 하는 정보 입력 장치, 방법, 시스템 및 컴퓨터 판독 가능한 저장 매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102114368B1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115361481B (zh) * | 2022-08-01 | 2025-04-08 | 北京达佳互联信息技术有限公司 | 提示文本显示方法、装置、电子设备及存储介质 |
CN115373525A (zh) * | 2022-08-19 | 2022-11-22 | 西安商汤智能科技有限公司 | 一种字符选择方法、信息输入方法、终端设备及存储介质 |
KR102696396B1 (ko) * | 2022-10-14 | 2024-08-21 | (주)재능이아카데미 | 학습 지도 장치, 원격으로 학습자의 학습 상황을 모니터링하는 방법 및 컴퓨터 프로그램 |
CN118645195A (zh) * | 2024-04-29 | 2024-09-13 | 中国人民解放军空军特色医学中心 | 医学临床数据录入方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100868638B1 (ko) * | 2007-08-07 | 2008-11-12 | 에스케이 텔레콤주식회사 | 영상 통화 말풍선 제공 시스템 및 방법 |
JP2009169464A (ja) * | 2008-01-10 | 2009-07-30 | Tottori Univ | 文字入力方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100336994B1 (ko) | 1999-07-23 | 2002-05-17 | 이계철 | 다단계 음성인식을 이용한 음성인식 포탈서비스 시스템 및 그 방법 |
KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
-
2018
- 2018-05-23 KR KR1020180058183A patent/KR102114368B1/ko active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100868638B1 (ko) * | 2007-08-07 | 2008-11-12 | 에스케이 텔레콤주식회사 | 영상 통화 말풍선 제공 시스템 및 방법 |
JP2009169464A (ja) * | 2008-01-10 | 2009-07-30 | Tottori Univ | 文字入力方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20190133361A (ko) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11164568B2 (en) | Speech recognition method and apparatus, and storage medium | |
CN108986186B (zh) | 文字转化视频的方法和系统 | |
KR102114368B1 (ko) | 사용자 영상을 기반으로 하는 정보 입력 장치, 방법, 시스템 및 컴퓨터 판독 가능한 저장 매체 | |
CN111324743A (zh) | 文本关系抽取的方法、装置、计算机设备及存储介质 | |
US11037553B2 (en) | Learning-type interactive device | |
US9558741B2 (en) | Systems and methods for speech recognition | |
CN109753653B (zh) | 实体名称识别方法、装置、计算机设备和存储介质 | |
US20150179173A1 (en) | Communication support apparatus, communication support method, and computer program product | |
US20230082830A1 (en) | Method and apparatus for driving digital human, and electronic device | |
JP6866715B2 (ja) | 情報処理装置、感情認識方法、及び、プログラム | |
TW201203222A (en) | Voice stream augmented note taking | |
JP2005150841A (ja) | 情報処理方法及び情報処理装置 | |
CN111554276B (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
Bharti et al. | Automated speech to sign language conversion using Google API and NLP | |
CN112735371A (zh) | 一种基于文本信息生成说话人视频的方法及装置 | |
US20220012520A1 (en) | Electronic device and control method therefor | |
CN111785299B (zh) | 一种语音测评方法、装置、设备及计算机存储介质 | |
CN110534134A (zh) | 语音检测方法、系统、计算机设备及计算机存储介质 | |
CN110580905A (zh) | 识别装置及方法 | |
KR20130137367A (ko) | 이미지 기반 도서 관련 서비스 제공 시스템 및 방법 | |
CN114267324A (zh) | 语音生成方法、装置、设备和存储介质 | |
JP6664466B2 (ja) | 処理実行装置、処理実行装置の制御方法、および制御プログラム | |
KR20160138613A (ko) | 이모티콘을 이용한 자동통역 방법 및 이를 이용한 장치 | |
JP6674876B2 (ja) | 補正装置、補正方法及び補正プログラム | |
Chimthankar | Speech Emotion Recognition using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20180523 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20190927 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20200424 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20200518 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20200519 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20230427 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20240430 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20250429 Start annual number: 6 End annual number: 6 |