[go: up one dir, main page]

KR101092820B1 - 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 - Google Patents

립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 Download PDF

Info

Publication number
KR101092820B1
KR101092820B1 KR1020090089637A KR20090089637A KR101092820B1 KR 101092820 B1 KR101092820 B1 KR 101092820B1 KR 1020090089637 A KR1020090089637 A KR 1020090089637A KR 20090089637 A KR20090089637 A KR 20090089637A KR 101092820 B1 KR101092820 B1 KR 101092820B1
Authority
KR
South Korea
Prior art keywords
lip
recognition
lip reading
feature
command
Prior art date
Application number
KR1020090089637A
Other languages
English (en)
Other versions
KR20110032244A (ko
Inventor
김대희
김대진
이진
신종주
이진석
Original Assignee
현대자동차주식회사
포항공과대학교 산학협력단
기아자동차주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사, 포항공과대학교 산학협력단, 기아자동차주식회사 filed Critical 현대자동차주식회사
Priority to KR1020090089637A priority Critical patent/KR101092820B1/ko
Priority to US12/628,514 priority patent/US8442820B2/en
Priority to CN200910246886.7A priority patent/CN102023703B/zh
Publication of KR20110032244A publication Critical patent/KR20110032244A/ko
Application granted granted Critical
Publication of KR101092820B1 publication Critical patent/KR101092820B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3602Input other than that of destination using image analysis, e.g. detection of road signs, lanes, buildings, real preceding vehicles using a camera
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 내비게이션 조작 명령을 음성과 입술의 움직임 만으로 할 수 있어 운전자가 내비게이션 조작 중에도 전방 주시를 유지할 수 있도록 하여 운전중 내비게이션 조작에 따른 자동차 사고를 줄일 수 있는 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템에 관한 것이다.
음성인식, 립리딩, 내비게이션, HCI, 멀티모달

Description

립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템{Lipreading and Voice recognition combination multimodal interface system}
본 발명은 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템에 관한 것으로, 더욱 상세하게는 내비게이션 조작 명령을 음성과 입술의 움직임 만으로 할 수 있어 운전자가 내비게이션 조작 중에도 전방 주시를 유지할 수 있도록 하여 운전중 내비게이션 조작에 따른 자동차 사고를 줄일 수 있는 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템에 관한 것이다.
오늘날 자동차 기술이 발달하고 자동차를 이용한 생활이 점점 많아지면서 안전에 대한 관심과 요구가 증가하고 있다. 또한 전자 기술의 발달과 함께 내비게이션을 포함한 오디오, 전화 등 각종 편의 장치들이 자동차의 필수품으로 장착되고 있다.
내비게이션의 경우 종래 기술들은 터치 스크린을 통한 명령어 입력에 의해 조작되고 있다. 터치 스크린을 이용하는 방법은 입력의 오류를 최소화할 수 있으나 손과 눈을 동시에 사용해야함으로 운전 중에는 조작이 곤란하고 사용자의 주의를 분산시켜 사고의 위험이 크다. 이에 대한 대안으로 음성인식을 이용한 보조적인 명 령어 입력 방법이 연구되어 적용되고 있으나 이 방법의 가장 취약점은 오디오 소음에 매우 취약하여 소음 환경에서 인식에 오작동을 일으킬 수 있다는 것이다.
한편, 입술의 영상 정보를 이용한 립리딩(lip reading)을 이용한 음성인식 기술에 대한 연구가 진행되고 있으나 단편적인 알고리즘 연구에 머무르고 있다. 실시간 동작하는 립리딩 시스템의 구현을 위해서는 영상으로부터 안정적으로 입술을 검출하고 입술 특징점을 찾고 이를 빠르게 추적할 수 있어야 한다. 이를 위해서는 얼굴검출, 입술검출, 입술추적, 특징정의, 데이터 정규화, 발화구간 검출, 인식 등 일련의 모든 과정이 정확하게 동작해 주어야 한다. 그러나, 현재 이러한 전 프로세서에 대한 일관된 연구가 진행되지 못하고 부분적인 연구가 진행되었다.
종래에는 AAM(Active Appearance Model) 또는 ASM(Active Shape Model)과 같은 모델 기반의 입술 피팅 알고리즘이 제안되었으나 이는 초기 위치에 민감한 성능을 보이며 발화시의 입술의 빠른 움직임은 강건하게 추적하지 못해 동영상 상에서의 추적시 안정적인 특징값을 얻을 수 없다. 또한 동영상 상에서의 입술의 특징 변화를 특징값으로 얻은 후 이를 인식하기 위해서는 발화 구간을 일관성 있게 검출하여 프레임을 잘라 주는 자동화된 발화 검출 알고리즘이 필요하나 이에 대한 연구 없이 사람이 임의로 구간을 나누어 시험 데이터를 얻어 연구하였다. 또한 인식기 알고리즘으로는 HMM(Hidden Markov Model) 이나 신경망을 이용하여 연구를 하였으나 이들 알고리즘은 학습을 위해 충분한 학습 데이터를 필요로 하며 정교한 인식기 구현을 위해서는 학습에 매우 많은 데이터를 필요하다. 오디오 기반의 기존 화자 독립 음성 인식기 학습을 위해서는 단어별 2000명 이상의 학습 데이터를 필요로 한 다고 알려져 있다. 화자독립 립리딩 인식기를 구현하고자 할 때 HMM 학습에 필요한 충분한 학습 데이터 확보가 쉽지 않으며 HMM 학습에는 복잡한 수학 계산 과정이 들어가기 때문에 많은 시스템 자원과 시간이 소요되어 내비게이션과 같은 저사양 시스템에서 온 라인(On-line) 학습이 어렵다.
현재 립리딩 시스템의 단독 인식률은 40~60% 정도로 음성인식기에 비해 매우 낮다. 이는 입술 영상에서 인식할 수 있는 발음의 기본 단위 (Viseme) 개수(13개)가 오디오 기반 음성 인식의 기본 발음 단위 (Phoneme) 개수(44개)에 비해 상대적으로 70% 이상 적기 때문에 입모양이 비슷한 단어들에 대한 구분력이 현저히 떨어진다. 따라서 실제 응용 서비스 시스템에서 립리딩 단독으로 명령어 인식 시스템을 구현하기는 어려운 문제점이 있다.
본 발명은 카메라를 통한 얼굴 영상을 통해 효과적으로 입술을 검출하고 입술 움직임을 추적하여 그 특징값을 통해 음성 명령을 인식하는 립리딩 시스템을 구현하고 이를 오디오 기반 음성인식 시스템과 통합함으로써, 소음으로 인해 음성 인식기가 동작할 수 없는 환경에서 카메라 영상을 통한 립리딩 기술이 명령어를 입력받아 서비스를 수행할 수 있는 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템을 제공하는 것을 목적으로 한다.
또한, 본 발명은 내비게이션의 응용 서비스 화면을 시나리오에 따라 대화식 시스템으로 구성하고 각 서비스 화면상태에 따라 필요한 명령어만을 인식할 수 있도록 인식 대상 명령어를 제한하여 개별 명령어에 대한 인식률을 향상시키는 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템을 제공하는 것을 목적으로 한다.
또한, 본 발명은 실시간 학습이 가능한 온 라인(On-Line) 학습 가능한 인식기 알고리즘을 적용함으로써 실제 운전자가 시스템을 장기간 사용할 시 인식기가 운전자의 발화 특징에 적응하여 점차 인식률이 향상될 수 있도록 하는 적응형 학습 시스템을 구비하는 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템을 제공하는 것을 목적으로 한다.
본 발명에 따른 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템은 오디오 입력 센서에 의하여 입력된 사운드 신호를 획득하거나 또는 외부로부터 유선 또는 무선 연결에 의하여 전송되는 입력 오디오 신호를 획득하는 오디오 음성 입력부; 상기 입력 오디오 신호로부터 음성을 인식하고, 인식 추정 정확도를 계산하는 음성 인식부; 상기 음성 인식부에서 인식한 음성에 대응하는 명령어 및 인식 추정 확률 값을 출력하는 음성인식 명령어 및 추정 확률 출력부; 영상 입력 센서에 의하여 입력 영상을 획득하거나 또는 외부로부터 유선 또는 무선 연결에 의하여 전송되는 입력 영상을 획득하는 입술 비디오 영상 입력부; 상기 입력 영상을 처리하여 화자의 립리딩 명령어를 인식하는 립리딩부; 상기 립리딩부에서 인식한 립리딩 명령어를 출력하는 립리딩 인식 명령어 출력부; 및 상기 추정 확률이 임계값보다 크면, 상기 음성 인식 명령어를 출력하고, 상기 추정 확률이 임계값보다 작으면, 상기 립리딩 명령어를 출력하는 음성 인식과 립리딩 인식 결과 통합부를 포함한다.
또한, 상기 립리딩부는 상기 입술 비디오 영상 입력부로부터 입력된 상기 입력 영상을 이용하여 입술 특징을 검출하는 입술 검출부; AAM(Active appearance model) 입술 모델을 이용하여 형상(shape) 및 외관(appearance) 모델을 생성하는 입술 모델 생성부; 입술 검출 후 상기 AAM 피팅의 결과로 얻어진 입술 특징점들을 상기 입술 모델 생성부에서 기 생성한 형상(shape) 모델과 LK(Lucas-Kanade) 알고리즘을 이용하여 추적하는 입술 추적부; 연속된 입력 영상에 대해 입술 추적의 결과로 얻어진 일련의 입술 모델 파라미터들을 일정 구간 프레임 데이터를 신경 회로망(Neural Net) 인식기에 입력하여 발화 구간인지 침묵 구간인지를 판별하는 발화 구간 검출부; 입술 특징 데이터의 레이블을 알고 있는 학습 모드인지 레이블을 알지 못하는 인식 모드 인지를 판별하는 시스템 모드 판별부; 학습 모드일 경우 특징 데이터와 입력 레이블을 이용하여 K-NN(nearest neighbor) 학습기를 학습하는 립리딩 인식 학습부; 인식 모드일 경우 학습된 K-NN 인식기를 통해 특징 데이터에 가장 가까운 학습 패턴을 찾아 그 결과 명령어를 특징값으로 출력하는 명령어 인식부; 및 오프 라인(off-line) 또는 온 라인(on-line)으로 학습된 명령어별 패턴(pattern) 들이 저장되는 입술 특징 데이터베이스를 포함하고,
상기 발화 구간 검출부로부터 입력된 입력 영상으로부터 립리딩 특징을 검출하는 립리딩 특징 검출부; 상기 음성 인식 모듈에서 인식한 명령어 추정 확률이 임계값 이상일 때 상기 립리딩 특징 검출부에서 검출한 입술 영상을 입술 특징의 학습 레이블로 사용하여 학습을 수행하도록 판별하는 음성 인식 단어 추정 확률 판별부; 상기 영상 특징 데이터가 정상 검출되었는지를 판별하는 입술 특징 검출 판별부; 및 상기 립리딩 특징 검출부에서 제공한 상기 입술 특징값에 대해 상기 음성 인식 모듈에서 제공한 상기 명령어를 레이블로 삼아 k-NN 학습을 수행하여 상기 입술 특징 데이터베이스를 업데이트 하는 실시간 립리딩 학습부를 더 포함하여 화자 적응 실시간 립리딩 학습 시스템을 구현하고,
서비스 시나리오에 따라 필요한 명령어를 제한적으로 인식하는 대화형 서비스부를 더 포함하여 실시간 학습이 가능한 온라인 학습 인식 알고리즘을 구현하고,
상기 대화형 서비스부는 각 화면별로 입력 가능한 명령어 일람을 미리 정의하고, 립리딩 또는 음성 인식을 수행할 때 각 서비스화면 혹은 단계에 입력가능한 명령어 일람을 제공하는 서비스 시나리오 데이터베이스; 서비스 화면; 상기 서비스 시나리오 데이터베이스에 정의된 기능에 따라 입력 명령어에 대응하여 화면 전환을 수행하고 현재 서비스 상태 정보를 상기 서비스 화면에 제공하는 화면 전환부; 상태 변화시 각 서비스 상태 혹은 화면에 필요한 단어 일람을 상기 서비스 시나리오 데이터베이스에 기반하여 설정하는 인식 대상 단어 일람 설정부; 상기 인식 대상 단어 일람 설정부에 의해 설정된 인식 대상 단어 일람을 참조하여 립리딩과 음성 인식을 통합하여 소음에 강인한 음성인식을 수행하는 청구항 1의 멀티모달 인터페이스 시스템; 입력 명령어에 따른 화면전환, 음성안내, 정보 등록 및 기타 등록 애플리케이션 서비스를 수행하는 서비스 수행부; 및 음성인식 실패 또는 립리딩 인식 실패 등을 판별하여 입력 오디오 및 비디오 신호에 대해 서비스를 수행할지 여부를 판별하는 인식결과 판별부를 더 포함하여 실제 서비스 상에서 인식해야 할 단어를 수를 제한하여 실질적인 인식률 향상시키는 것을 특징으로 한다.
본 발명에 따른 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템은 카메라를 통한 얼굴 영상을 통해 효과적으로 입술을 검출하고 입술 움직임을 추적하여 그 특징값을 통해 음성 명령을 인식하는 립리딩 시스템을 구현하고 이를 오디오 기반 음성인식 시스템과 통합한 멀티모달 음성인식 시스템을 적용하여 오디오 소음에 영향을 받지 않음으로 실내 라디오 방송을 청취하거나 창을 내린 채 자동차가 주행할 때 등 소음으로 인해 음성 인식기가 동작할 수 없는 환경에서 카메라 영상을 통한 립리딩 기술이 명령어를 입력받아 서비스를 수행할 수 있는 효과가 있다.
또한, 본 발명에 따른 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템은 내비게이션의 응용 서비스 화면을 시나리오에 따라 대화식 시스템으로 구성하고 각 서비스 화면상태에 따라 필요한 명령어만을 인식할 수 있도록 인식 대상 명령어를 제한하여 개별 명령어에 대한 인식률을 향상시킬 수 있는 효과가 있다.
또한, 본 발명에 따른 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템은 실시간 학습이 가능한 온 라인(On-Line) 학습 가능한 인식기 알고리즘을 적용함으로써 실제 운전자가 시스템을 장기간 사용할 시 인식기가 운전자의 발화 특징에 적응하여 점차 인식률이 향상될 수 있는 효과가 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술 되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
이하, 본 발명의 실시 예들에 의하여 오디오 기반의 음성인식 시스템과 영상 기반의 립리딩 시스템을 결합한 멀티모달 음성인식 시스템 및 방법을 설명하기 위한 블록도들을 참고하여 본 발명에 대해 설명하도록 한다. 이때, 각 블록들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록들에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록들에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다. 또한, 각 블록은 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
본 실시 예에서 사용되는 '~부' 또는 '~모듈'이라는 용어는 소프트웨어 또는 FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부' 또는 '~모듈'은 어떤 역할들을 수행한다. 그렇지만 '~부' 또는 '~모듈'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부' 또는 '~모듈'은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 도 있다. 따라서, 일 예로서 '~부' 또는 '~모듈'은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함할 수 있다. 구성요소들과 '~부' 또는 '~모듈'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부' 또는 '~모듈'들로 결합하거나 추가적인 구성요소들과 '~부' 또는 '~모듈'들로 더 분리될 수 있다. 이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명하기로 한다.
본 발명은 카메라를 통한 얼굴 영상을 통해 효과적으로 입술을 검출하고 입술 움직임을 추적하여 그 특징값을 통해 음성 명령을 인식하는 립리딩 시스템을 구현하고 이를 오디오 기반 음성인식 시스템과 통합한 멀티모달 음성인식 시스템을 제안한다. 즉, 본 발명은 오디오 소음에 영향을 받지 않음으로 실내 라디오 방송을 청취하거나 창을 내린 채 자동차가 주행할 때 등 소음으로 인해 음성 인식기가 동작할 수 없는 환경에서 카메라 영상을 통한 립리딩 기술이 명령어를 입력받아 서비스를 수행하도록 한다.
또한, 본 발명에 따른 내비게이션 시스템은 입술 영상을 이용한 립리딩 시스 템에서 입력 영상으로부터 운전자의 얼굴을 검출하고 얼굴 검출 부위 중에서 입술 후보지에 대해 입술의 위치를 검출하고 검출된 입술에 대해 입술 형상 모델을 이용하여 추적을 위한 정밀한 입술 특징점 위치를 결정한 후 영상 매칭 알고리즘을 통해 영상 특징점을 추적하여 그 특징의 시간적인 변화 데이터로부터 발화 구간을 검출하고 단어별로 구분된 일련의 입술 특징값으로부터 인식기가 명령어를 인식하도록 하는 일련의 과정을 제안한다.
또한, 일반적으로 립리딩 기술이 근본적으로 인식 성능이 떨어지는 문제를 보완하기 위해, 본 발명에서는 명령어를 인식기에 등록된 모든 명령어에 대해 동시에 구분 인식하게 될 경우 정확성이 떨어지나 한번에 인식할 단어의 수를 줄였을 때 더 잘 인식하게 되는 점에 착안하여 일 실시예로서 내비게이션의 응용 서비스 화면을 시나리오에 따라 대화식 시스템으로 구성하고 각 서비스 화면상태에 따라 꼭 필요한 명령어만을 인식할 수 있도록 인식 대상 명령어를 제한하여 개별 명령어에 대한 인식률을 향상시키는 방법을 제안한다.
또한, 일반적으로 입술 특징을 이용한 음성의 인식은 사람별 특징들이 매우 달라 화자 독립적인 일관된 인식기 학습에는 많은 학습 데이터를 필요로 한다. 이에 본 발명에서는 실시간 학습이 가능한 온 라인(On-Line) 학습 가능한 인식기 알고리즘을 적용함으로써 실재 운전자가 시스템을 장기간 사용할 시 인식기가 운전자의 발화 특징에 적응하여 점차 인식률이 향상될 수 있도록 하는 적응형 학습 시스템을 제안한다. 일반적으로 학습 데이터의 확보가 제한된 상황하에서는 화자에 독립적인 인식기를 구성했을 때 낮은 인식률을 얻을 수밖에 없다. 하지만 본 발명의 실시일예가 적용된 내비게이션 시스템은 실제 서비스 운영에 있어 사용자가 많지 않아 사용자가 몇몇 운전자로 고정된 상황에서 빈번하게 특정 명령어들을 사용하게 될 경우 실시간 학습을 통해 현재 화자의 립리딩 특징 데이터를 실시간으로 학습하여 인식기에 추가함으로써 사용자가 시스템을 사용함에 따라 점차 인식률이 향상 될 수 있는 화자 적응형 실시간 립리딩 학습 알고리즘을 제안한다.
또한 음성인식 및 립 리딩(lip reading) 기술은 기본적인 기계와 사람간의 상호 소통 기술로서 자동차뿐만 텔레비전, 에어컨 등 전자제품이나 로봇 제어 등에 폭 넓게 활용할 수 있는 기반 HCI(Human Computer Interaction) 기술이다.
도 1은 본 발명의 일 실시 예에 따른 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템을 나타낸 블록도이다.
립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템(100)은 오디오 음성 입력부(110), 음성인식 모듈(120), 음성인식 명령어 및 추정 확률 출력부(130), 입술 비디오 영상 입력부(140), 립리딩 모듈(150), 립리딩 인식 명령어 출력부(160), 음성 인식과 립리딩 인식 결과 통합부(170) 및 최종 인식 명령어 출력부(180)를 포함한다. 여기서, 음성 인식과 립리딩 인식 결과 통합부(170)는 음성 인식 결과 판별부(171), 립리딩 인식 결과 판별부(172), 통합인식 명령어 (음성) 출력부(173) 및 통합인식 명령어 (립리딩) 출력부(174)를 포함한다.
오디오 음성 입력부(110)는 오디오 입력 센서에 의하여 입력된 사운드 신호를 획득하거나 또는 외부로부터 유선 또는 무선 연결에 의하여 전송되는 입력 오디오 신호를 획득할 수 있다. 예를 들어 오디오 입력 센서에 의해 입력 오디오 신호 를 획득하는 경우에는 소정의 마크로 폰을 통하여 입력되는 음파신호를 전기적 신호로 변환하여 입력 사운드 신호를 획득할 수 있다. 이와 함께 획득된 전기 신호를 디지털 신호로 변환하는 아날로그/디지털 변환기에 의해 획득된 음성 신호를 처리하는 DSP(Digital Signal Processor) 등에 의하여 소정의 입력 사운드 신호를 획득할 수 있다. 또 다른 예로서 입력 사운드가 저장매체에 저장되어 있거나 또는 유무선을 통하여 전송되어 소정의 입력 사운드 신호를 획득할 수 있다.
음성인식 모듈(120)은 고립 단어 인식을 위해 인식 단어 설정이 가능하고 화자에 독립적인 인식 기능을 가지며 인식 결과를 등록된 인식 단어와 해당 단어에 대한 인식 추정 정확도를 % 단위로 출력해 줄 수 있는 상용의 음성인식 모듈을 상정한다.
음성인식 명령어 및 추정 확률 출력부(130)에서는 음성인식기가 인식한 고립 명령어 및 해당 입력 음성 신호가 인식한 단어일 확률 값을 출력한다.
입술 비디오 영상 입력부(140)는 영상 입력 센서에 의하여 입력 영상을 획득하거나 또는 외부로부터 유선 또는 무선 연결에 의하여 전송되는 입력 영상을 획득할 수 있다. 예를 들어, 영상 입력 센서에 의하여 입력 영상을 획득하는 경우에는 소정의 렌즈를 통하여 입사되는 피사체의 영상 신호를 전기적 신호로 변환하여 입력 영상을 획득할 수 있다. 여기서, 영상 입력 센서는 CCD(Charge Coupled Device, CCD), CMOS, 기타 상용 영상 획득 수단을 포함할 수 있다. 이와 함께, 영상 입력 센서에 의해 획득된 전기적인 신호를 디지털 신호로 변환하는 아날로그/디지털 변환기 및 아날로그/디지털 변환기에 의해 변환된 디지털 신호를 입력받아 영상 신호 를 처리하는 DSP(Digital Signal Processor) 등에 의하여 소정의 입력 영상을 획득할 수 있다. 또 다른 예로서, 입력 영상은 저장매체에 저장되어 있거나 또는 유무선을 통하여 전송되어 소정의 입력 영상을 획득할 수 있다. 한편, 입술 비디오 영상 입력부(140)는 획득된 입력 영상을 단일 채널의 영상으로 변환할 수 있다. 예를 들어, 입력영상을 그레이(Gray) 스케일로 변경할 수 있다. 또는 입력 영상이 'RGB' 채널의 다채널 영상인 경우에 이를 하나의 채널 값으로 변경할 수도 있다. 따라서, 입력 영상에 대하여 하나의 채널에서의 인텐서티(Intensity) 값으로 변환함으로써 입력 영상에 대한 밝기 분포를 용이하게 나타낼 수 있다.
립리딩 모듈(150)은 입력 영상 정보의 처리를 통해 화자의 음성 명령을 인식하는 모듈이다.
립리딩 인식 명령어 출력부(160)는 립리딩 모듈(150)에서 인식한 명령어를 출력한다.
음성인식기와 립리딩 인식 결과 통합부(170)는 오디오 기반의 음성인식 결과와 영상 기반의 립리딩 결과를 통합하는 과정으로서 각각의 모달리티 특징 데이터 상에서의 통합을 하는 방법과 각각의 시스템이 인식한 결과를 통합하는 방법이 있으나, 여기서는 기존의 독립적인 음성인식기를 자유로이 사용하여 립리딩과 결합할 수 있도록 결과 단에서의 통합 방법을 제안한다. 음성인식 결과 판별부(171, 172)는 독립된 오디오 음성 입력부(110)의 음성인식 명령어 및 추정 확률 출력부(130) 결과를 받아 단어 인식에 대한 신뢰도 확률이 특정 임계값 이하인지 이상인지를 판별하여 결과를 출력한다. 여기서, 임계값은 시스템에 따라 조절과 튜닝이 가능하며 통상 실험결과 신뢰도 50%를 기준으로 했을 때 통합 인식률이 가장 좋게 나옴을 확인할 수 있다. 통합인식 명령어 출력부(173, 174)는 음성인식 결과 판별부(171, 172) 결과에서 임계값보다 높다고 판단했을 경우에는 최종 인식 명령어 출력부(180)에 음성인식기의 인식 결과 명령어를 출력하고 그렇지 않은 경우는 립리딩 인식 결과 명령어를 인식 결과로 출력한다.
이러한 음성인식 및 립리딩 결과 통합 방법은 다음 예와 같이 확장될 수 있다. 일 예로서 음성인식 결과 판별부(171, 172) 결과에서 음성인식 결과 신뢰도가 임계값보다 낮고 립리딩 모듈에서 명령어를 검출하지 못했을 때는 아무런 출력을 내보내지 않음으로써 음성인식기가 소음으로 인해 오작동하는 것을 방지할 수 있다. 상기한 일 예와 같이 각 인식 모듈이 하나만 특정 단어를 인식하고 나머지 인식기에서는 어떤 단어도 검출하지 못했을 때 각기 동작을 정의하여 통합 알고리즘을 변형할 수 있다.
도 2는 도 1에 도시된 립리딩 모듈을 나타낸 상세 블록도이다.
립리딩 모듈(150)은 입술 검출부(210), 검출 및 추적을 위한 입술 모델 생성부(220), 입술 추적부(230), 발화 구간 검출부(240), 시스템 모드 판별부(250), 립리딩 인식 학습부(260), 명령어 인식부(270) 및 입술 특징 데이터베이스(280)를 포함한다.
입술 검출부(210)는 입술 비디오 영상 입력부(140)로부터 입력된 입력 영상이 컬러 영상일 때는 흑백 영상으로 변환한다. 컬러 영상을 이용한 입술 검출 알고리즘이 연구되었으나 이는 조명에 많은 영향을 받게 되며 야간에 적외선 영상 등에 서는 역할을 할 수 없는 단점이 있다. 이에 상기한 실시예에서는 흑백 영상만을 사용하여 입술을 검출하고 추적하는 경우를 예를 들어 설명한다. 따라서, 주야간에 강건하게 입술을 검출하고 추적할 수 있게 된다. 입술 검출 단계는 먼저 LBP(Local binary pattern) 상에서 Adapboost(Adaptive boosting) 알고리즘을 이용하여 얼굴을 먼저 검출하고 얼굴 상에서 대략의 입술 위치에 대해 얼굴과 같은 방법으로 입술을 검출하게 된다. 이를 위해서는 정규화된 얼굴 이미지와 입술 이미지를 이용하여 검출기를 학습하도록 한다. Adaboost 방법으로는 립리딩을 위한 입술 특징점들의 정교한 위치를 정할 수 없다. 이에 본 발명에서는 AAM(Active appearance model) 입술 모델을 이용하여 형상(shape) 및 외관(appearance) 모델을 만들어 이를 이용해 정교한 입술의 특징점을 얻도록 한다.
입술 모델 생성부(220)에서는 학습 이미지상에서 입술 영상에 대해 손으로 매뉴얼 한 특징점을 포인팅하고 이러한 데이터를 모아 PCA(Principle component analysis)를 통해 형상(Shape) 모델과 외관(Appearance) 모델을 만들어 이들 모델을 AAM 피팅과 입술 특징 추적에 사용한다.
입술 추적부(230)에서는 입술 검출 후 AAM 피팅의 결과로 얻어진 입술 특징점들을 입술 모델 생성부(220)에서 기 생성한 형상(shape) 모델과 LK(Lucas-Kanade) 알고리즘을 이용하여 추적하도록 한다. 입술 추적 결과는 매 입력 영상마다 입술 추적 결과가 형상 파라미터(shape parameter)를 특징값으로 립리딩 시스템(200)에 제공한다.
발화 구간 검출부(240)에서는 연속된 입력 영상에 대해 입술 추적의 결과로 얻어진 일련의 입술 모델 파라미터들을 일정 구간 프레임 데이터를 신경 회로망(Neural Net) 인식기에 입력하여 발화 구간인지 침묵 구간인지를 판별한다. 판별 결과 발화 구간이 계속되다 침묵 구간으로 바뀌게 되면 발화 구간 특징 데이터를 발췌하여 출력한다.
시스템 모드 판별부(250)에서는 입술 특징 데이터의 레이블을 알고 있는 학습 모드인지 레이블을 알지 못하는 인식 모드 인지를 판별한다. 학습 모드일 경우 립리딩 인식기 학습부(260)에서 특징 데이터와 입력 레이블을 이용하여 K-NN(nearest neighbor) 학습기를 학습하도록 한다. 여기서, HMM과 달리 적은 학습 데이터로도 효율적인 학습이 가능하고 인식기는 구조가 간단하여 실시간 학습을 통해 점진적인 업데이트가 가능하다. 입력 특징값이 레이블이 없는 인식 모드일 때는 명령어 인식부(270)에서 립리딩 인식기 학습부(260)에서 학습된 K-NN 인식기를 통해 특징 데이터에 가장 가까운 학습 패턴을 찾아 그 결과 명령어를 특징값으로 립리딩 인식 결과 명령어 출력부(160)로 출력한다.
입술 특징 데이터베이스(280)에서는 오프 라인(off-line) 또는 온 라인(on-line)으로 학습된 명령어별 패턴(pattern) 들이 저장된다.
립리딩 모듈(200)을 동작을 좀더 구체적으로 설명하면 다음과 같다.
입술 검출부(210)는 주야간에 강건하도록 모노 영상에 대해 LBP 영상 변환 및 Adaboost 알고리즘을 이용한 입술의 대략적인 위치를 제공하고, 전체 입술 모델을 이용해 입술의 전체적인 위치를 구하고 입술 양끝점 모델을 이용해 입술 끝점을 검출하고, AAM 입술 모델을 이용해 입술 끝점 위치를 초기 위치로 하여 정밀한 피 팅을 수행하고 결과 특징점 좌표를 입술 추적부(230)의 초기 위치 값으로 제공한다.
입술 추적부(230)는 LK 기반의 이미지 레지스트레이션 알고리즘과 입술 형상(Shape) 모델을 이용하여 각 AAM 입술 검출 결과를 초기 특징점으로 하여 이후 입력 영상에 대해 특징점 주변 m x m 픽셀 영역에 대해 추적한다. 여기서, 픽셀수는 조정이 가능하나 통상 각 특징점 당 11x11 픽셀 영역에 대해 다음 프레임에서 가장 유사한 영역을 찾아 매칭하고 결과를 형상(Shape) 모델에 입력하여 형상(shape) 모델 파라미터를 구하여 발화 구간 검출부(240)에 제공한다.
발화 구간 검출부(240)는 입술의 형상(Shape) 모델 파라미터를 시간상의 일련의 스트림으로 입력받아 신경망(Neural Net) 인식기를 통해 매 프레임 전 일정 프레임이 발화 중인지 아닌지를 판별하고 발화로 판별되는 구간이 일정유지된 후 비 발화 구간으로 전환시 발화 구간 특징 데이터를 발췌하여 립리딩 인식 학습부(260)에 제공한다.
립리딩 인식 학습부(260)는 미리 준비된 단어별로 묶어진 입술 특징 데이터와 레이블 정보를 이용해 오프 라인(off-line)으로 k-NN 립리딩 인식기를 학습하여 립리딩 모듈(150)에 그 결과로서 초기 인식기를 제공한다.
명령어 인식부(270)는 립리딩 인식 학습부(260) 결과를 바탕으로 신규 입력 데이터에 대해 k-NN 인식 알고리즘을 통해 단어를 판별하고 결과 명령어를 립리딩 모듈(150)에 리턴한다.
도 3은 본 발명에 따른 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스 템을 대화형 서비스 시스템으로 구현한 상세 블록도이다.
대화형 서비스 시스템(300)은 서비스 시나리오 데이터베이스(310), 서비스 화면(320), 영상 및 오디오 입력부(330), 화면 전환부(340), 해당 화면별 인식 대상 단어 일람 설정부(350), 명령어 입력에 따른 서비스 수행부(360), 멀티모달 인터페이스 시스템(370) 및 인식결과 판별부(380)를 포함한다.
대화형 서비스 시스템 (300)은 립리딩 시스템 (200)이 갖고 있는 근본적인 인식률 저하 문제를 보완하기 위해 대화 시스템 혹은 시나리오 베이스 시스템을 통해 실제 서비스 상에서 인식해야 할 단어를 수를 제한하여 실질적인 인식률 향상 효과를 얻도록 한다.
서비스 시나리오 데이터베이스(310)는 본 발명의 실시 예로서 내비게이션 서비스를 가정할 수 있다. 화면은 시작화면과 메인메뉴 화면, 장소찾기 화면, 경로설정 화면, 실제 길안내 화면 등 필요한 서비스 화면으로 설계될 수 있다. 이때 서비스 시나리오 데이터베이스(310)는 각 화면별로 입력 가능한 명령어 일람을 미리 정의하고, 립리딩 또는 음성 인식을 수행할 때 각 서비스화면 혹은 단계에 입력가능한 명령어 일람을 제공한다.
서비스 화면(320)은 초기화면, 메인메뉴 화면과 같은 개별 서비스 화면을 의미한다.
화면 전환부(340)는 서비스 시나리오 데이터베이스 부(310)에 정의된 기능에 따라 입력 명령어에 대응하여 화면 전환을 수행하고 현 서비스 상태 정보를 서비스 화면(320)에 제공한다.
인식 대상 단어 일람 설정부(350)에서는 상태 변화시 각 서비스 상태 혹은 화면에 필요한 단어 일람을 서비스 시나리오 데이터베이스(310)에 기반하여 설정한다.
서비스 수행부(360)에서는 입력 명령어에 따른 화면전환, 음성안내, 정보 등록, 기타 등록 애플리케이션 서비스를 수행한다.
멀티모달 인터페이스 시스템(100)은 인식 대상 단어 일람 설정부(350)에 의해 설정된 인식 대상 단어 일람을 참조하여 립리딩과 음성 인식을 통합하여 소음에 강인한 음성인식을 수행한다.
인식결과 판별부(380)에서는 음성인식 실패 또는 립리딩 인식 실패 등을 판별하여 입력 오디오 및 비디오 신호에 대해 서비스를 수행할지 여부를 판별한다. 이는 명령어 인식에 대한 자체 추정 신뢰도로 판별하도록 한다. 인식에 성공할 시에는 서비스 수행부(360)에서 해당 명령어에 대한 서비스를 수행하고 그렇지 않을 경우는 서비스 대기 상태로 명령어 입력을 기다리도록 한다.
도 4는 화자 적응 실시간 립리딩 학습 시스템을 나타낸 상세 블록도이다.
화자 적응 실시간 립리딩 학습 시스템(400)은 립리딩 특징 검출부(410), 음성 인식 단어 추정 확률 판별부(420), 입술 특징 검출 판별부(430) 및 실시간 립리딩 학습부(440)를 포함한다. 실시간 학습이 필요한 이유는 립리딩이 개인별 특징 데이터의 편차가 큰 화자 독립적인 인식기 학습을 위해서는 매우 많은 학습 데이터가 필요하나 그러한 학습 데이터를 모으는 것이 용이하지 않아, 실시간 립리딩 학습부(440)에서 k-NN 인식기를 실시간 학습하여 개별 실제 서비스 이용자에게 적응 하는 것이 필요하기 때문이다.
립리딩 특징 검출부(410)는 립리딩 모듈(150)의 발화 구간 검출부(240)로부터 입력된 입력 영상으로부터 립리딩 특징을 검출한다.
음성 인식 단어 추정 확률 판별부(420)에서는 음성 인식 모듈(120)에서 인식한 명령어 결과를 립리딩 특징 검출부(410)에서 검출한 입술 영상 특징의 학습 레이블로 사용할 수 있는지 그 신뢰도를 평가한다. 통상 음성 인식 모듈(120)에서 인식한 명령어 신뢰도 추정치가 특정 임계값 이상일 때 학습을 수행하도록 하며 그렇지 않을 경우 학습을 수행하지 않는다.
입술 특징 검출 판별부(430)에서는 음성 인식 모듈(120)가 명령어를 인식했더라도 필요에 따라 영상 특징 데이터가 검출되지 않을 것에 대비하여 영상 특징 데이터가 정상 검출되었는지를 판별한다.
실시간 립리딩 학습부(440)에서는 실제 서비스 시스템상에서 오프 라인(off-line)과 동일하게 립리딩 특징 검출부(410)에서 제공한 입술 특징값에 대해 음성 인식 모듈(120)에서 제공한 명령어를 레이블로 삼아 k-NN 학습을 수행하여 도 2의 입술 특징 데이터베이스(280)를 업데이트 한다. 서비스 중에 매 입력에 대해 이와 같은 일련의 학습을 계속함으로써 소음이 없는 환경에서 음성 인식 모듈(120)의 높은 인식 성능을 바탕으로 립리딩 모듈(150)을 학습함으로써 점차 소음 환경에서 음성 인식 모듈(120)이 기능 하지 못하더라도 립리딩 모듈(150)이 명령어를 인식하여 서비스를 지속할 수 있다.
본 발명은 기존의 음성인식이 가지고 있는 오디오 소음환경에서의 인식률 저 하 문제를 립리딩 기술을 통해 보완함으로써 운전 중 자동차 실내와 같은 소음이 상존하는 공간에서 오디오 기반 음성인식기를 대신해 내비게이션의 기본적 명령어들을 조작할 수 있도록 하여 운전중 터치스크린 등을 통한 내비게이션 조작에 따른 주의 산만을 유발하지 않도록 함으로써 부주의로 인한 사고 위험을 미연에 방지할수 있도록 한다. 또한 오디오 기기 등과 같이 항상 소음이 상존하는 기기들의 조작에도 음성인식기를 사용할 수 있는 방법을 제공해 준다.
또한 본 발명은 특정 서비스에만 구애되지 않고 자동차, 로봇, 가전 등 현재 음성인식기가 적용되는 거의 모든 서비스에 적용이 가능하다. 이는 기존 음성 인식기가 실제 환경 즉 생활 소음 속에서 제대로 기능을 발휘하지 못해 실재 적용이 어려웠던 부분들에 대해서도 사용할 수 있게 함으로써 현재로서 사람과 가장 친숙한 음성 명령을 통한 각종 기기와의 상호 작용하는 기술의 저변 확대에 기여할 것으로 기대된다.
도 1은 본 발명의 일 실시 예에 따른 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템을 나타낸 블록도이다.
도 2는 도 1에 도시된 립리딩 모듈을 나타낸 상세 블록도이다.
도 3은 본 발명에 따른 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템을 대화형 서비스 시스템으로 구현한 상세 블록도이다.
도 4는 화자 적응 실시간 립리딩 학습 시스템을 나타낸 상세 블록도이다.
<도면의 주요 부분에 대한 부호 설명>
100: 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
110: 오디오 음성 입력부
120: 음성 인식 모듈
130: 음성 인식 명령어 및 추정 확률 출력부
140: 입술 비디오 영상 입력부
150: 립리딩 모듈
160: 립리딩 인식 명령어 출력부
170: 음성인식과 립리딩 인식 결과 통합부
180: 최종 인식 명령어 출력부
210: 입술 검출부
220: 입술 모델 생성부
230: 입술 추적부
240: 발화 구간 검출부
250: 시스템 모드 판별부
260: 립리딩 인식 학습부
270: 명령어 인식부
280: 입술 특징 데이터베이스
300: 대화형 서비스 시스템
310: 서비스 시나리오 데이터베이스
320: 서비스 화면
330: 화면 전환부
340: 인식 대상 단어 일람 설정부
350: 서비스 수행부
360: 인식 결과 판별부
400: 화자 적응 실시간 립리딩 학습 시스템
410: 립리딩 특징 검출부
420: 음성 인식 단어 추정 확률 판별부
430: 입술 특징 검출 판별부
440: 실시간 립리딩 학습부

Claims (5)

  1. 삭제
  2. 삭제
  3. 오프라인 또는 온라인으로 학습된 명령어별 패턴을 저장하는 입술 특징 데이터베이스;
    음성 인식을 수행하여 명령어를 인식하는 음성인식 모듈 및 립리딩 인식을 수행하고 영상을 제공하는 립리딩 모듈을 포함하는 멀티모달 인터페이스;
    상기 립리딩 모듈로부터 제공된 영상에서 립리딩 특징을 검출하는 립리딩 특징 검출부;
    상기 음성인식 모듈에서 인식한 명령어 추정 확률이 임계값 이상일 때, 상기립리딩 특징 검출부에 의해 검출된 립리딩 특징을 입술 특징의 학습 레이블로 사용하여 학습을 수행하도록 하는 음성 인식 단어 추정 확률 판별부; 및
    상기 립리딩 특징 검출부에 의해 검출된 립리딩 특징에 대해, 상기 음성인식모듈로부터 제공된 명령어를 레이블로 삼아 K-NN(nearest neighbor) 학습을 수행하여 상기 입술 특징 데이터베이스를 업데이트하는 실시간 립리딩 학습부를 포함하는멀티모달 인터페이스를 이용한 화자 적응 실시간 립리딩 학습 시스템.
  4. 제3항에 있어서,
    상기 립리딩 특징 검출부에 의해 립리딩 특징이 정상 검출되었는지를 판별하는 입술 특징 검출 판별부를 더 포함하는 멀티모달 인터페이스를 이용한 화자 적응 실시간 립리딩 학습 시스템.
  5. 서비스화면 또는 단계별로 입력가능한 명령어 일람을 미리 정의하여, 각 서비스화면 또는 단계에서 입력가능한 명령어 일람을 제공하는 서비스 시나리오 데이터베이스;
    상태 변화시 각 서비스화면 또는 단계에서 필요한 단어 일람을 상기 서비스시나리오 데이터베이스에 기반하여 설정하는 인식 대상 단어 일람 설정부;
    상기 인식 대상 단어 일람 설정부에 의해 설정된 인식 대상 단어 일람을 참조하여 음성인식 또는 립리딩 인식을 수행하고, 음성인식 명령어 또는 립리딩 명령어를 출력할 수 있는 멀티모달 인터페이스;
    서비스 화면;
    상기 멀티모달 인터페이스에 의해 수행되는 음성인식 또는 립리딩 인식이 성공했는지 판별하는 인식결과 판별부;
    상기 인식결과 판별부의 판별 결과, 상기 음성인식 또는 립리딩 인식이 성공한 경우, 상기 음성인식 명령어 또는 립리딩 명령어에 따른 화면전환, 음성안내,정보 등록 및 기타 등록 애플리케이션 서비스를 수행하는 서비스 수행부; 및
    상기 서비스 시나리오 데이터베이스에 정의된 명령어 일람에 따라, 상기 음성인식 명령어 또는 립리딩 명령어에 대응하여 화면 전환을 수행하고 현재 서비스상태 정보를 상기 서비스 화면에 제공하는 화면 전환부를 포함하는 멀티모달 인터페이스를 이용한 대화형 서비스 시스템.
KR1020090089637A 2009-09-22 2009-09-22 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 KR101092820B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020090089637A KR101092820B1 (ko) 2009-09-22 2009-09-22 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
US12/628,514 US8442820B2 (en) 2009-09-22 2009-12-01 Combined lip reading and voice recognition multimodal interface system
CN200910246886.7A CN102023703B (zh) 2009-09-22 2009-12-03 组合唇读与语音识别的多模式界面系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090089637A KR101092820B1 (ko) 2009-09-22 2009-09-22 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템

Publications (2)

Publication Number Publication Date
KR20110032244A KR20110032244A (ko) 2011-03-30
KR101092820B1 true KR101092820B1 (ko) 2011-12-12

Family

ID=43757401

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090089637A KR101092820B1 (ko) 2009-09-22 2009-09-22 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템

Country Status (3)

Country Link
US (1) US8442820B2 (ko)
KR (1) KR101092820B1 (ko)
CN (1) CN102023703B (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200036089A (ko) * 2018-09-20 2020-04-07 한국전자통신연구원 상호 작용 장치 및 방법
US11037552B2 (en) 2017-12-29 2021-06-15 Samsung Electronics Co., Ltd. Method and apparatus with a personalized speech recognition model

Families Citing this family (147)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209787A (ja) * 2010-03-29 2011-10-20 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
CN102298443B (zh) * 2011-06-24 2013-09-25 华南理工大学 结合视频通道的智能家居语音控制系统及其控制方法
CN102270308B (zh) * 2011-07-21 2013-09-11 武汉大学 一种基于五官相关aam模型的面部特征定位方法
CN102324035A (zh) * 2011-08-19 2012-01-18 广东好帮手电子科技股份有限公司 口型辅助语音识别术在车载导航中应用的方法及系统
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
CN103177238B (zh) * 2011-12-26 2019-01-15 宇龙计算机通信科技(深圳)有限公司 终端和用户识别方法
JP5928606B2 (ja) * 2011-12-26 2016-06-01 インテル・コーポレーション 搭乗者の聴覚視覚入力の乗り物ベースの決定
US8863042B2 (en) * 2012-01-24 2014-10-14 Charles J. Kulas Handheld device with touch controls that reconfigure in response to the way a user operates the device
US20130212501A1 (en) * 2012-02-10 2013-08-15 Glen J. Anderson Perceptual computing with conversational agent
US8925058B1 (en) * 2012-03-29 2014-12-30 Emc Corporation Authentication involving authentication operations which cross reference authentication factors
US9071892B2 (en) * 2012-05-14 2015-06-30 General Motors Llc Switching between acoustic parameters in a convertible vehicle
US9094509B2 (en) 2012-06-28 2015-07-28 International Business Machines Corporation Privacy generation
KR101992676B1 (ko) * 2012-07-26 2019-06-25 삼성전자주식회사 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
CN103869962B (zh) * 2012-12-18 2016-12-28 联想(北京)有限公司 一种数据处理方法、装置及电子设备
JP5902632B2 (ja) 2013-01-07 2016-04-13 日立マクセル株式会社 携帯端末装置及び情報処理システム
US9094576B1 (en) 2013-03-12 2015-07-28 Amazon Technologies, Inc. Rendered audiovisual communication
DE102013007964B4 (de) * 2013-05-10 2022-08-18 Audi Ag Kraftfahrzeug-Eingabevorrichtung mit Zeichenerkennung
FR3005777B1 (fr) * 2013-05-15 2015-05-22 Parrot Procede de reconnaissance vocale visuelle avec selection de groupes de points d'interet les plus pertinents
CN103366506A (zh) * 2013-06-27 2013-10-23 北京理工大学 一种驾驶员行车途中接打手机行为的自动监控装置及方法
US11199906B1 (en) 2013-09-04 2021-12-14 Amazon Technologies, Inc. Global user input management
US9406295B2 (en) 2013-11-22 2016-08-02 Intel Corporation Apparatus and method for voice based user enrollment with video assistance
US10163455B2 (en) * 2013-12-03 2018-12-25 Lenovo (Singapore) Pte. Ltd. Detecting pause in audible input to device
US9629774B2 (en) 2014-01-14 2017-04-25 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US10248856B2 (en) 2014-01-14 2019-04-02 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9915545B2 (en) 2014-01-14 2018-03-13 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9578307B2 (en) 2014-01-14 2017-02-21 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US10360907B2 (en) 2014-01-14 2019-07-23 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US10024679B2 (en) 2014-01-14 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US20150279364A1 (en) * 2014-03-29 2015-10-01 Ajay Krishnan Mouth-Phoneme Model for Computerized Lip Reading
CN103905873A (zh) * 2014-04-08 2014-07-02 天津思博科科技发展有限公司 一种基于口型识别技术的电视遥控器
CN105022470A (zh) * 2014-04-17 2015-11-04 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
CN105096935B (zh) * 2014-05-06 2019-08-09 阿里巴巴集团控股有限公司 一种语音输入方法、装置和系统
CA2950148C (en) * 2014-06-02 2022-07-12 Tethis, Inc. Modified biopolymers and methods of producing and using the same
CN105450970B (zh) * 2014-06-16 2019-03-29 联想(北京)有限公司 一种信息处理方法及电子设备
JP6276132B2 (ja) * 2014-07-30 2018-02-07 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
US10024667B2 (en) 2014-08-01 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable earpiece for providing social and environmental awareness
CN105468950B (zh) * 2014-09-03 2020-06-30 阿里巴巴集团控股有限公司 身份认证方法、装置、终端及服务器
CN105389097A (zh) * 2014-09-03 2016-03-09 中兴通讯股份有限公司 一种人机交互装置及方法
US9922236B2 (en) 2014-09-17 2018-03-20 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable eyeglasses for providing social and environmental awareness
US10024678B2 (en) 2014-09-17 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable clip for providing social and environmental awareness
US9881610B2 (en) 2014-11-13 2018-01-30 International Business Machines Corporation Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
US9626001B2 (en) * 2014-11-13 2017-04-18 International Business Machines Corporation Speech recognition candidate selection based on non-acoustic input
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
CN104409075B (zh) * 2014-11-28 2018-09-04 深圳创维-Rgb电子有限公司 语音识别方法和系统
WO2016098228A1 (ja) * 2014-12-18 2016-06-23 三菱電機株式会社 音声認識装置および音声認識方法
US9576460B2 (en) 2015-01-21 2017-02-21 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable smart device for hazard detection and warning based on image and audio data
US10490102B2 (en) 2015-02-10 2019-11-26 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for braille assistance
US9586318B2 (en) 2015-02-27 2017-03-07 Toyota Motor Engineering & Manufacturing North America, Inc. Modular robot with smart device
US9677901B2 (en) 2015-03-10 2017-06-13 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing navigation instructions at optimal times
US9811752B2 (en) 2015-03-10 2017-11-07 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable smart device and method for redundant object identification
US9972216B2 (en) 2015-03-20 2018-05-15 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for storing and playback of information for blind users
CN106157956A (zh) * 2015-03-24 2016-11-23 中兴通讯股份有限公司 语音识别的方法及装置
FR3034215B1 (fr) 2015-03-27 2018-06-15 Valeo Comfort And Driving Assistance Procede de commande, dispositif de commande, systeme et vehicule automobile comprenant un tel dispositif de commande
US10395555B2 (en) * 2015-03-30 2019-08-27 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing optimal braille output based on spoken and sign language
CN104808794B (zh) * 2015-04-24 2019-12-10 北京旷视科技有限公司 一种唇语输入方法和系统
CN106203235B (zh) * 2015-04-30 2020-06-30 腾讯科技(深圳)有限公司 活体鉴别方法和装置
US9898039B2 (en) 2015-08-03 2018-02-20 Toyota Motor Engineering & Manufacturing North America, Inc. Modular smart necklace
CN106599764A (zh) * 2015-10-20 2017-04-26 深圳市商汤科技有限公司 基于唇形特征的活体判断方法及设备
CN106651340B (zh) * 2015-11-02 2021-06-29 创新先进技术有限公司 结算方法及装置
US9959872B2 (en) 2015-12-14 2018-05-01 International Business Machines Corporation Multimodal speech recognition for real-time video audio-based display indicia application
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
US10024680B2 (en) 2016-03-11 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Step based guidance system
WO2017199486A1 (ja) * 2016-05-16 2017-11-23 ソニー株式会社 情報処理装置
CN107404381A (zh) * 2016-05-19 2017-11-28 阿里巴巴集团控股有限公司 一种身份认证方法和装置
US9958275B2 (en) 2016-05-31 2018-05-01 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for wearable smart device communications
US10561519B2 (en) 2016-07-20 2020-02-18 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable computing device having a curved back to reduce pressure on vertebrae
US10607258B2 (en) * 2016-08-02 2020-03-31 International Business Machines Corporation System, method, and recording medium for fixed-wing aircraft advertisement using locally sampled word listening
US10559312B2 (en) * 2016-08-25 2020-02-11 International Business Machines Corporation User authentication using audiovisual synchrony detection
JP2018074366A (ja) * 2016-10-28 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム
US10432851B2 (en) 2016-10-28 2019-10-01 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable computing device for detecting photography
US10012505B2 (en) 2016-11-11 2018-07-03 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable system for providing walking directions
US10521669B2 (en) 2016-11-14 2019-12-31 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing guidance or feedback to a user
CN108227904A (zh) * 2016-12-21 2018-06-29 深圳市掌网科技股份有限公司 一种虚拟现实语言交互系统与方法
CN108227903B (zh) * 2016-12-21 2020-01-10 深圳市掌网科技股份有限公司 一种虚拟现实语言交互系统与方法
US10172760B2 (en) 2017-01-19 2019-01-08 Jennifer Hendrix Responsive route guidance and identification system
US10332515B2 (en) * 2017-03-14 2019-06-25 Google Llc Query endpointing based on lip detection
US11189281B2 (en) * 2017-03-17 2021-11-30 Samsung Electronics Co., Ltd. Method and system for automatically managing operations of electronic device
CN107025439B (zh) * 2017-03-22 2020-04-24 天津大学 基于深度数据的唇部区域特征提取和规范化方法
WO2018175959A1 (en) 2017-03-23 2018-09-27 Joyson Safety Systems Acquisition Llc System and method of correlating mouth images to input commands
CN108664842B (zh) * 2017-03-27 2020-12-18 Tcl科技集团股份有限公司 一种唇动识别模型的构建方法及系统
CN106875941B (zh) * 2017-04-01 2020-02-18 彭楚奥 一种服务机器人的语音语义识别方法
CN107239139B (zh) 2017-05-18 2018-03-16 刘国华 基于正视的人机交互方法与系统
EP3639248A4 (en) * 2017-06-12 2021-03-10 The Coca-Cola Company LOW COST FLOW CONTROL
US10522147B2 (en) * 2017-12-21 2019-12-31 Motorola Solutions, Inc. Device and method for generating text representative of lip movement
JP7081164B2 (ja) * 2018-01-17 2022-06-07 株式会社Jvcケンウッド 表示制御装置、通信装置、表示制御方法および通信方法
US11455986B2 (en) * 2018-02-15 2022-09-27 DMAI, Inc. System and method for conversational agent via adaptive caching of dialogue tree
US11308312B2 (en) 2018-02-15 2022-04-19 DMAI, Inc. System and method for reconstructing unoccupied 3D space
WO2019161198A1 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for speech understanding via integrated audio and visual based speech recognition
WO2019161196A2 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for disambiguating a source of sound based on detected lip movement
CN108520741B (zh) * 2018-04-12 2021-05-04 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
CN108596107A (zh) * 2018-04-26 2018-09-28 京东方科技集团股份有限公司 基于ar设备的唇语识别方法及其装置、ar设备
EP3766065A1 (en) * 2018-05-18 2021-01-20 Deepmind Technologies Limited Visual speech recognition by phoneme prediction
KR102114368B1 (ko) * 2018-05-23 2020-05-22 카페24 주식회사 사용자 영상을 기반으로 하는 정보 입력 장치, 방법, 시스템 및 컴퓨터 판독 가능한 저장 매체
KR102777603B1 (ko) 2018-06-22 2025-03-10 현대자동차주식회사 대화 시스템 및 이를 이용한 차량
CN110767228B (zh) * 2018-07-25 2022-06-03 杭州海康威视数字技术股份有限公司 一种声音获取方法、装置、设备及系统
CN110837758B (zh) * 2018-08-17 2023-06-02 杭州海康威视数字技术股份有限公司 一种关键词输入方法、装置及电子设备
CN109558788B (zh) * 2018-10-08 2023-10-27 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质
CN109448711A (zh) * 2018-10-23 2019-03-08 珠海格力电器股份有限公司 一种语音识别的方法、装置及计算机存储介质
KR20200056754A (ko) * 2018-11-15 2020-05-25 삼성전자주식회사 개인화 립 리딩 모델 생성 방법 및 장치
TWI682325B (zh) * 2018-11-20 2020-01-11 新唐科技股份有限公司 辨識系統及辨識方法
US10863971B2 (en) * 2018-11-30 2020-12-15 Fujifilm Sonosite, Inc. Touchless input ultrasound control
CN111259711A (zh) * 2018-12-03 2020-06-09 北京嘀嘀无限科技发展有限公司 一种识别唇动的方法和系统
KR102717792B1 (ko) * 2018-12-14 2024-10-16 삼성전자 주식회사 전자 장치의 기능 실행 방법 및 이를 사용하는 전자 장치
CN111326152A (zh) * 2018-12-17 2020-06-23 南京人工智能高等研究院有限公司 语音控制方法及装置
WO2020147925A1 (de) * 2019-01-15 2020-07-23 Siemens Aktiengesellschaft System zum visualisieren einer geräuschquelle in einer umgebung eines nutzers sowie verfahren
CN109872714A (zh) * 2019-01-25 2019-06-11 广州富港万嘉智能科技有限公司 一种提高语音识别准确性的方法、电子设备及存储介质
CN111951629A (zh) * 2019-05-16 2020-11-17 上海流利说信息技术有限公司 一种发音纠正系统、方法、介质和计算设备
CN110427809B (zh) * 2019-06-21 2023-07-25 平安科技(深圳)有限公司 基于深度学习的唇语识别方法、装置、电子设备及介质
US11257493B2 (en) 2019-07-11 2022-02-22 Soundhound, Inc. Vision-assisted speech processing
US11348581B2 (en) 2019-07-12 2022-05-31 Qualcomm Incorporated Multi-modal user interface
WO2021007857A1 (zh) * 2019-07-18 2021-01-21 深圳海付移通科技有限公司 一种身份验证方法、终端设备、存储介质
WO2021007856A1 (zh) * 2019-07-18 2021-01-21 深圳海付移通科技有限公司 一种身份验证方法、终端设备、存储介质
JP6977004B2 (ja) 2019-08-23 2021-12-08 サウンドハウンド,インコーポレイテッド 車載装置、発声を処理する方法およびプログラム
CN110750152B (zh) * 2019-09-11 2023-08-29 云知声智能科技股份有限公司 一种基于唇部动作的人机交互方法和系统
CN110765868A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 唇读模型的生成方法、装置、设备及存储介质
CN110865705B (zh) * 2019-10-24 2023-09-19 中国人民解放军军事科学院国防科技创新研究院 多模态融合的通讯方法、装置、头戴设备及存储介质
US11244696B2 (en) 2019-11-06 2022-02-08 Microsoft Technology Licensing, Llc Audio-visual speech enhancement
KR102479400B1 (ko) * 2019-11-06 2022-12-21 한국과학기술원 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 인터페이스 시스템
US11375275B2 (en) 2019-11-19 2022-06-28 Charter Communications Operating, Llc Method and system for using lip sequences to control operations of a device
CN113112997A (zh) * 2019-12-25 2021-07-13 华为技术有限公司 数据采集的方法及装置
CN111462733B (zh) * 2020-03-31 2024-04-16 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN111539270A (zh) * 2020-04-10 2020-08-14 贵州合谷信息科技有限公司 一种用于语音输入法的高识别率微表情识别方法
CN111554279A (zh) * 2020-04-27 2020-08-18 天津大学 一种基于Kinect的多模态人机交互系统
CN111563244B (zh) * 2020-04-29 2024-12-13 武汉大学 身份验证方法、装置、计算机设备和存储介质
CN111739534B (zh) * 2020-06-04 2022-12-27 广东小天才科技有限公司 一种辅助语音识别的处理方法、装置、电子设备及存储介质
DE102020118967A1 (de) 2020-07-17 2022-01-20 Clinomic GmbH Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente
CN111967334B (zh) * 2020-07-20 2023-04-07 中国人民解放军军事科学院国防科技创新研究院 一种人体意图识别方法、系统以及存储介质
CN111986674B (zh) * 2020-08-13 2021-04-09 广州仿真机器人有限公司 基于三级特征采集的智能语音识别方法
CN111933174B (zh) * 2020-08-16 2024-08-30 云知声智能科技股份有限公司 语音处理方法、装置、设备和系统
CN112672021B (zh) * 2020-12-25 2022-05-17 维沃移动通信有限公司 语言识别方法、装置及电子设备
CN112817575B (zh) * 2021-01-19 2024-02-20 中科方寸知微(南京)科技有限公司 基于唇语识别的汇编语言编辑器及识别方法
CN113002461A (zh) * 2021-03-26 2021-06-22 芜湖汽车前瞻技术研究院有限公司 Ar-hud系统的虚像位置调整方法、装置及存储介质
US11996114B2 (en) 2021-05-15 2024-05-28 Apple Inc. End-to-end time-domain multitask learning for ML-based speech enhancement
KR102437760B1 (ko) 2021-05-27 2022-08-29 이충열 컴퓨팅 장치에 의한 음향의 처리 방법, 영상 및 음향의 처리 방법 및 이를 이용한 시스템들
CN113450824B (zh) * 2021-06-28 2022-08-16 武汉理工大学 一种基于多尺度视频特征融合的语音唇读方法及系统
CN113611287B (zh) * 2021-06-29 2023-09-12 深圳大学 一种基于机器学习的发音纠错方法和系统
CN113486760A (zh) * 2021-06-30 2021-10-08 上海商汤临港智能科技有限公司 对象说话检测方法及装置、电子设备和存储介质
CN115691498A (zh) * 2021-07-29 2023-02-03 华为技术有限公司 语音交互方法、电子设备及介质
CN113655938B (zh) * 2021-08-17 2022-09-02 北京百度网讯科技有限公司 一种用于智能座舱的交互方法、装置、设备和介质
CN113435421B (zh) * 2021-08-26 2021-11-05 湖南大学 一种基于跨模态注意力增强的唇语识别方法及系统
CN113963528A (zh) * 2021-10-20 2022-01-21 浙江理工大学 一种人机交互系统
CN114299418B (zh) * 2021-12-10 2025-01-03 湘潭大学 一种粤语唇读识别方法、设备以及存储介质
KR20230137814A (ko) 2022-03-22 2023-10-05 이충열 컴퓨팅 장치와 연동하는 촬영 장치로부터 획득되는 영상을 처리하는 방법 및 이를 이용한 시스템
CN114639152A (zh) * 2022-03-22 2022-06-17 平安普惠企业管理有限公司 基于人脸识别的多模态语音交互方法、装置、设备及介质
CN115050092B (zh) * 2022-05-20 2024-08-13 宁波明家智能科技有限公司 一种面向智能驾驶的唇读算法及系统
CN114708642B (zh) * 2022-05-24 2022-11-18 成都锦城学院 商务英语仿真实训装置、系统、方法及存储介质
CN116721661B (zh) * 2023-08-10 2023-10-31 深圳中检实验室技术有限公司 用于智能安全生物柜的人机交互管理系统

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0505621A3 (en) * 1991-03-28 1993-06-02 International Business Machines Corporation Improved message recognition employing integrated speech and handwriting information
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
US5537488A (en) * 1993-09-16 1996-07-16 Massachusetts Institute Of Technology Pattern recognition system with statistical classification
CN1159704C (zh) * 1994-06-13 2004-07-28 松下电器产业株式会社 信号分析装置
KR19980050096A (ko) 1996-12-20 1998-09-15 박병재 음성과 영상에 의한 차량 동작제어장치
US6219639B1 (en) * 1998-04-28 2001-04-17 International Business Machines Corporation Method and apparatus for recognizing identity of individuals employing synchronized biometrics
US6263334B1 (en) * 1998-11-11 2001-07-17 Microsoft Corporation Density-based indexing method for efficient execution of high dimensional nearest-neighbor queries on large databases
US6366885B1 (en) * 1999-08-27 2002-04-02 International Business Machines Corporation Speech driven lip synthesis using viseme based hidden markov models
US6633844B1 (en) * 1999-12-02 2003-10-14 International Business Machines Corporation Late integration in audio-visual continuous speech recognition
US6931351B2 (en) * 2001-04-20 2005-08-16 International Business Machines Corporation Decision making in classification problems
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US7165029B2 (en) * 2002-05-09 2007-01-16 Intel Corporation Coupled hidden Markov model for audiovisual speech recognition
JP4363076B2 (ja) * 2002-06-28 2009-11-11 株式会社デンソー 音声制御装置
US7587318B2 (en) * 2002-09-12 2009-09-08 Broadcom Corporation Correlating video images of lip movements with audio signals to improve speech recognition
KR100499030B1 (ko) 2002-12-16 2005-07-01 한국전자통신연구원 휴대용 단말에서 입술인식 인터페이스 입력장치 및 방법
US7472063B2 (en) * 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
US7269560B2 (en) * 2003-06-27 2007-09-11 Microsoft Corporation Speech detection and enhancement using audio/video fusion
KR100682889B1 (ko) * 2003-08-29 2007-02-15 삼성전자주식회사 영상에 기반한 사실감 있는 3차원 얼굴 모델링 방법 및 장치
US7587064B2 (en) * 2004-02-03 2009-09-08 Hrl Laboratories, Llc Active learning system for object fingerprinting
JP2005292401A (ja) * 2004-03-31 2005-10-20 Denso Corp カーナビゲーション装置
US7133048B2 (en) * 2004-06-30 2006-11-07 Mitsubishi Electric Research Laboratories, Inc. Variable multilinear models for facial synthesis
WO2007052100A2 (en) * 2005-02-15 2007-05-10 Dspv, Ltd. System and method of user interface and data entry from a video call
US20070061335A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Multimodal search query processing
KR100680278B1 (ko) 2005-12-28 2007-02-07 고려대학교 산학협력단 입술모양 추출방법 및 그 장치
JP4775961B2 (ja) 2006-12-08 2011-09-21 公立大学法人大阪府立大学 映像を用いた発音の推定方法
KR20080073933A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 객체 트래킹 방법 및 장치, 그리고 객체 포즈 정보 산출방법 및 장치
KR101373206B1 (ko) 2007-02-12 2014-03-12 삼성전자 주식회사 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성방법
KR100851981B1 (ko) * 2007-02-14 2008-08-12 삼성전자주식회사 비디오 영상에서 실 객체 판별 방법 및 장치
JP2008310382A (ja) 2007-06-12 2008-12-25 Omron Corp 読唇装置および方法、情報処理装置および方法、検出装置および方法、プログラム、データ構造、並びに、記録媒体
KR100897149B1 (ko) 2007-10-19 2009-05-14 에스케이 텔레콤주식회사 텍스트 분석 기반의 입 모양 동기화 장치 및 방법
KR100840021B1 (ko) * 2007-11-05 2008-06-20 (주)올라웍스 특성 데이터를 이용하여 디지털 데이터에 포함된 인물의얼굴에 대해 인식하는 방법 및 시스템
KR101170612B1 (ko) 2008-03-11 2012-08-03 에스케이 텔레콤주식회사 사용자 영상을 이용한 음성인식 시스템 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
3차원 확장된 AAM 모델을 이용한 얼굴 형상 추적(정보과학회)*

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037552B2 (en) 2017-12-29 2021-06-15 Samsung Electronics Co., Ltd. Method and apparatus with a personalized speech recognition model
US12236941B2 (en) 2017-12-29 2025-02-25 Samsung Electronics Co., Ltd. Method and apparatus with a personalized speech recognition model
KR20200036089A (ko) * 2018-09-20 2020-04-07 한국전자통신연구원 상호 작용 장치 및 방법
US10800043B2 (en) 2018-09-20 2020-10-13 Electronics And Telecommunications Research Institute Interaction apparatus and method for determining a turn-taking behavior using multimodel information
KR102168802B1 (ko) * 2018-09-20 2020-10-22 한국전자통신연구원 상호 작용 장치 및 방법

Also Published As

Publication number Publication date
CN102023703B (zh) 2015-03-11
CN102023703A (zh) 2011-04-20
KR20110032244A (ko) 2011-03-30
US8442820B2 (en) 2013-05-14
US20110071830A1 (en) 2011-03-24

Similar Documents

Publication Publication Date Title
KR101092820B1 (ko) 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
Shin et al. Real-time lip reading system for isolated Korean word recognition
CN109941231B (zh) 车载终端设备、车载交互系统和交互方法
CN109410957B (zh) 基于计算机视觉辅助的正面人机交互语音识别方法及系统
CN102298443B (zh) 结合视频通道的智能家居语音控制系统及其控制方法
KR102061925B1 (ko) 깊이 기반 콘텍스트 식별
US11605379B2 (en) Artificial intelligence server
CN202110564U (zh) 结合视频通道的智能家居语音控制系统
CN102324035A (zh) 口型辅助语音识别术在车载导航中应用的方法及系统
US20200005795A1 (en) Device and method for providing voice recognition service based on artificial intelligence
KR20210010270A (ko) 로봇 및 그의 기동어 인식 방법
JP2005178473A (ja) 車載機器用インターフェース
US20160267909A1 (en) Voice recognition device for vehicle
JP2024161380A (ja) コンピューティングデバイス
US11810575B2 (en) Artificial intelligence robot for providing voice recognition function and method of operating the same
US11322134B2 (en) Artificial intelligence device and operating method thereof
US20210193119A1 (en) Artificial intelligence apparatus for training acoustic model
US11501757B2 (en) Artificial intelligence apparatus
CN113963692A (zh) 一种车舱内语音指令控制方法及相关设备
Yang et al. Av-pedaware: Self-supervised audio-visual fusion for dynamic pedestrian awareness
US12094222B2 (en) Cabin monitoring and situation understanding perceiving method and system thereof
CN117995187A (zh) 一种基于深度学习的客服机器人与对话处理系统及方法
US20200051571A1 (en) Artificial intelligence device
CN111724786A (zh) 唇语识别系统及方法
CN116109673A (zh) 一种基于行人姿态估计的多帧轨迹跟踪系统及其方法

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20090922

PA0201 Request for examination
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20110309

Patent event code: PE09021S01D

PG1501 Laying open of application
N231 Notification of change of applicant
PN2301 Change of applicant

Patent event date: 20110610

Comment text: Notification of Change of Applicant

Patent event code: PN23011R01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20111104

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20111205

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20111205

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
FPAY Annual fee payment

Payment date: 20141128

Year of fee payment: 4

PR1001 Payment of annual fee

Payment date: 20141128

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20201126

Start annual number: 10

End annual number: 10

PR1001 Payment of annual fee

Payment date: 20231120

Start annual number: 13

End annual number: 13