KR101092820B1

KR101092820B1 - 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템

Info

Publication number: KR101092820B1
Application number: KR1020090089637A
Authority: KR
Inventors: 김대희; 김대진; 이진; 신종주; 이진석
Original assignee: 현대자동차주식회사; 포항공과대학교 산학협력단; 기아자동차주식회사
Priority date: 2009-09-22
Filing date: 2009-09-22
Publication date: 2011-12-12
Also published as: CN102023703B; CN102023703A; KR20110032244A; US8442820B2; US20110071830A1

Abstract

본 발명은 내비게이션 조작 명령을 음성과 입술의 움직임 만으로 할 수 있어 운전자가 내비게이션 조작 중에도 전방 주시를 유지할 수 있도록 하여 운전중 내비게이션 조작에 따른 자동차 사고를 줄일 수 있는 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템에 관한 것이다.

음성인식, 립리딩, 내비게이션, HCI, 멀티모달

Description

립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템{Lipreading and Voice recognition combination multimodal interface system}

본 발명은 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템에 관한 것으로, 더욱 상세하게는 내비게이션 조작 명령을 음성과 입술의 움직임 만으로 할 수 있어 운전자가 내비게이션 조작 중에도 전방 주시를 유지할 수 있도록 하여 운전중 내비게이션 조작에 따른 자동차 사고를 줄일 수 있는 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템에 관한 것이다.

오늘날 자동차 기술이 발달하고 자동차를 이용한 생활이 점점 많아지면서 안전에 대한 관심과 요구가 증가하고 있다. 또한 전자 기술의 발달과 함께 내비게이션을 포함한 오디오, 전화 등 각종 편의 장치들이 자동차의 필수품으로 장착되고 있다.

내비게이션의 경우 종래 기술들은 터치 스크린을 통한 명령어 입력에 의해 조작되고 있다. 터치 스크린을 이용하는 방법은 입력의 오류를 최소화할 수 있으나 손과 눈을 동시에 사용해야함으로 운전 중에는 조작이 곤란하고 사용자의 주의를 분산시켜 사고의 위험이 크다. 이에 대한 대안으로 음성인식을 이용한 보조적인 명 령어 입력 방법이 연구되어 적용되고 있으나 이 방법의 가장 취약점은 오디오 소음에 매우 취약하여 소음 환경에서 인식에 오작동을 일으킬 수 있다는 것이다.

한편, 입술의 영상 정보를 이용한 립리딩(lip reading)을 이용한 음성인식 기술에 대한 연구가 진행되고 있으나 단편적인 알고리즘 연구에 머무르고 있다. 실시간 동작하는 립리딩 시스템의 구현을 위해서는 영상으로부터 안정적으로 입술을 검출하고 입술 특징점을 찾고 이를 빠르게 추적할 수 있어야 한다. 이를 위해서는 얼굴검출, 입술검출, 입술추적, 특징정의, 데이터 정규화, 발화구간 검출, 인식 등 일련의 모든 과정이 정확하게 동작해 주어야 한다. 그러나, 현재 이러한 전 프로세서에 대한 일관된 연구가 진행되지 못하고 부분적인 연구가 진행되었다.

종래에는 AAM(Active Appearance Model) 또는 ASM(Active Shape Model)과 같은 모델 기반의 입술 피팅 알고리즘이 제안되었으나 이는 초기 위치에 민감한 성능을 보이며 발화시의 입술의 빠른 움직임은 강건하게 추적하지 못해 동영상 상에서의 추적시 안정적인 특징값을 얻을 수 없다. 또한 동영상 상에서의 입술의 특징 변화를 특징값으로 얻은 후 이를 인식하기 위해서는 발화 구간을 일관성 있게 검출하여 프레임을 잘라 주는 자동화된 발화 검출 알고리즘이 필요하나 이에 대한 연구 없이 사람이 임의로 구간을 나누어 시험 데이터를 얻어 연구하였다. 또한 인식기 알고리즘으로는 HMM(Hidden Markov Model) 이나 신경망을 이용하여 연구를 하였으나 이들 알고리즘은 학습을 위해 충분한 학습 데이터를 필요로 하며 정교한 인식기 구현을 위해서는 학습에 매우 많은 데이터를 필요하다. 오디오 기반의 기존 화자 독립 음성 인식기 학습을 위해서는 단어별 2000명 이상의 학습 데이터를 필요로 한 다고 알려져 있다. 화자독립 립리딩 인식기를 구현하고자 할 때 HMM 학습에 필요한 충분한 학습 데이터 확보가 쉽지 않으며 HMM 학습에는 복잡한 수학 계산 과정이 들어가기 때문에 많은 시스템 자원과 시간이 소요되어 내비게이션과 같은 저사양 시스템에서 온 라인(On-line) 학습이 어렵다.

현재 립리딩 시스템의 단독 인식률은 40~60% 정도로 음성인식기에 비해 매우 낮다. 이는 입술 영상에서 인식할 수 있는 발음의 기본 단위 (Viseme) 개수(13개)가 오디오 기반 음성 인식의 기본 발음 단위 (Phoneme) 개수(44개)에 비해 상대적으로 70% 이상 적기 때문에 입모양이 비슷한 단어들에 대한 구분력이 현저히 떨어진다. 따라서 실제 응용 서비스 시스템에서 립리딩 단독으로 명령어 인식 시스템을 구현하기는 어려운 문제점이 있다.

본 발명은 카메라를 통한 얼굴 영상을 통해 효과적으로 입술을 검출하고 입술 움직임을 추적하여 그 특징값을 통해 음성 명령을 인식하는 립리딩 시스템을 구현하고 이를 오디오 기반 음성인식 시스템과 통합함으로써, 소음으로 인해 음성 인식기가 동작할 수 없는 환경에서 카메라 영상을 통한 립리딩 기술이 명령어를 입력받아 서비스를 수행할 수 있는 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템을 제공하는 것을 목적으로 한다.

또한, 본 발명은 내비게이션의 응용 서비스 화면을 시나리오에 따라 대화식 시스템으로 구성하고 각 서비스 화면상태에 따라 필요한 명령어만을 인식할 수 있도록 인식 대상 명령어를 제한하여 개별 명령어에 대한 인식률을 향상시키는 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템을 제공하는 것을 목적으로 한다.

또한, 본 발명은 실시간 학습이 가능한 온 라인(On-Line) 학습 가능한 인식기 알고리즘을 적용함으로써 실제 운전자가 시스템을 장기간 사용할 시 인식기가 운전자의 발화 특징에 적응하여 점차 인식률이 향상될 수 있도록 하는 적응형 학습 시스템을 구비하는 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템을 제공하는 것을 목적으로 한다.

본 발명에 따른 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템은 오디오 입력 센서에 의하여 입력된 사운드 신호를 획득하거나 또는 외부로부터 유선 또는 무선 연결에 의하여 전송되는 입력 오디오 신호를 획득하는 오디오 음성 입력부; 상기 입력 오디오 신호로부터 음성을 인식하고, 인식 추정 정확도를 계산하는 음성 인식부; 상기 음성 인식부에서 인식한 음성에 대응하는 명령어 및 인식 추정 확률 값을 출력하는 음성인식 명령어 및 추정 확률 출력부; 영상 입력 센서에 의하여 입력 영상을 획득하거나 또는 외부로부터 유선 또는 무선 연결에 의하여 전송되는 입력 영상을 획득하는 입술 비디오 영상 입력부; 상기 입력 영상을 처리하여 화자의 립리딩 명령어를 인식하는 립리딩부; 상기 립리딩부에서 인식한 립리딩 명령어를 출력하는 립리딩 인식 명령어 출력부; 및 상기 추정 확률이 임계값보다 크면, 상기 음성 인식 명령어를 출력하고, 상기 추정 확률이 임계값보다 작으면, 상기 립리딩 명령어를 출력하는 음성 인식과 립리딩 인식 결과 통합부를 포함한다.

또한, 상기 립리딩부는 상기 입술 비디오 영상 입력부로부터 입력된 상기 입력 영상을 이용하여 입술 특징을 검출하는 입술 검출부; AAM(Active appearance model) 입술 모델을 이용하여 형상(shape) 및 외관(appearance) 모델을 생성하는 입술 모델 생성부; 입술 검출 후 상기 AAM 피팅의 결과로 얻어진 입술 특징점들을 상기 입술 모델 생성부에서 기 생성한 형상(shape) 모델과 LK(Lucas-Kanade) 알고리즘을 이용하여 추적하는 입술 추적부; 연속된 입력 영상에 대해 입술 추적의 결과로 얻어진 일련의 입술 모델 파라미터들을 일정 구간 프레임 데이터를 신경 회로망(Neural Net) 인식기에 입력하여 발화 구간인지 침묵 구간인지를 판별하는 발화 구간 검출부; 입술 특징 데이터의 레이블을 알고 있는 학습 모드인지 레이블을 알지 못하는 인식 모드 인지를 판별하는 시스템 모드 판별부; 학습 모드일 경우 특징 데이터와 입력 레이블을 이용하여 K-NN(nearest neighbor) 학습기를 학습하는 립리딩 인식 학습부; 인식 모드일 경우 학습된 K-NN 인식기를 통해 특징 데이터에 가장 가까운 학습 패턴을 찾아 그 결과 명령어를 특징값으로 출력하는 명령어 인식부; 및 오프 라인(off-line) 또는 온 라인(on-line)으로 학습된 명령어별 패턴(pattern) 들이 저장되는 입술 특징 데이터베이스를 포함하고,

상기 발화 구간 검출부로부터 입력된 입력 영상으로부터 립리딩 특징을 검출하는 립리딩 특징 검출부; 상기 음성 인식 모듈에서 인식한 명령어 추정 확률이 임계값 이상일 때 상기 립리딩 특징 검출부에서 검출한 입술 영상을 입술 특징의 학습 레이블로 사용하여 학습을 수행하도록 판별하는 음성 인식 단어 추정 확률 판별부; 상기 영상 특징 데이터가 정상 검출되었는지를 판별하는 입술 특징 검출 판별부; 및 상기 립리딩 특징 검출부에서 제공한 상기 입술 특징값에 대해 상기 음성 인식 모듈에서 제공한 상기 명령어를 레이블로 삼아 k-NN 학습을 수행하여 상기 입술 특징 데이터베이스를 업데이트 하는 실시간 립리딩 학습부를 더 포함하여 화자 적응 실시간 립리딩 학습 시스템을 구현하고,

서비스 시나리오에 따라 필요한 명령어를 제한적으로 인식하는 대화형 서비스부를 더 포함하여 실시간 학습이 가능한 온라인 학습 인식 알고리즘을 구현하고,

상기 대화형 서비스부는 각 화면별로 입력 가능한 명령어 일람을 미리 정의하고, 립리딩 또는 음성 인식을 수행할 때 각 서비스화면 혹은 단계에 입력가능한 명령어 일람을 제공하는 서비스 시나리오 데이터베이스; 서비스 화면; 상기 서비스 시나리오 데이터베이스에 정의된 기능에 따라 입력 명령어에 대응하여 화면 전환을 수행하고 현재 서비스 상태 정보를 상기 서비스 화면에 제공하는 화면 전환부; 상태 변화시 각 서비스 상태 혹은 화면에 필요한 단어 일람을 상기 서비스 시나리오 데이터베이스에 기반하여 설정하는 인식 대상 단어 일람 설정부; 상기 인식 대상 단어 일람 설정부에 의해 설정된 인식 대상 단어 일람을 참조하여 립리딩과 음성 인식을 통합하여 소음에 강인한 음성인식을 수행하는 청구항 1의 멀티모달 인터페이스 시스템; 입력 명령어에 따른 화면전환, 음성안내, 정보 등록 및 기타 등록 애플리케이션 서비스를 수행하는 서비스 수행부; 및 음성인식 실패 또는 립리딩 인식 실패 등을 판별하여 입력 오디오 및 비디오 신호에 대해 서비스를 수행할지 여부를 판별하는 인식결과 판별부를 더 포함하여 실제 서비스 상에서 인식해야 할 단어를 수를 제한하여 실질적인 인식률 향상시키는 것을 특징으로 한다.

본 발명에 따른 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템은 카메라를 통한 얼굴 영상을 통해 효과적으로 입술을 검출하고 입술 움직임을 추적하여 그 특징값을 통해 음성 명령을 인식하는 립리딩 시스템을 구현하고 이를 오디오 기반 음성인식 시스템과 통합한 멀티모달 음성인식 시스템을 적용하여 오디오 소음에 영향을 받지 않음으로 실내 라디오 방송을 청취하거나 창을 내린 채 자동차가 주행할 때 등 소음으로 인해 음성 인식기가 동작할 수 없는 환경에서 카메라 영상을 통한 립리딩 기술이 명령어를 입력받아 서비스를 수행할 수 있는 효과가 있다.

또한, 본 발명에 따른 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템은 내비게이션의 응용 서비스 화면을 시나리오에 따라 대화식 시스템으로 구성하고 각 서비스 화면상태에 따라 필요한 명령어만을 인식할 수 있도록 인식 대상 명령어를 제한하여 개별 명령어에 대한 인식률을 향상시킬 수 있는 효과가 있다.

또한, 본 발명에 따른 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템은 실시간 학습이 가능한 온 라인(On-Line) 학습 가능한 인식기 알고리즘을 적용함으로써 실제 운전자가 시스템을 장기간 사용할 시 인식기가 운전자의 발화 특징에 적응하여 점차 인식률이 향상될 수 있는 효과가 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술 되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

이하, 본 발명의 실시 예들에 의하여 오디오 기반의 음성인식 시스템과 영상 기반의 립리딩 시스템을 결합한 멀티모달 음성인식 시스템 및 방법을 설명하기 위한 블록도들을 참고하여 본 발명에 대해 설명하도록 한다. 이때, 각 블록들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록들에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록들에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다. 또한, 각 블록은 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

본 실시 예에서 사용되는 '~부' 또는 '~모듈'이라는 용어는 소프트웨어 또는 FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부' 또는 '~모듈'은 어떤 역할들을 수행한다. 그렇지만 '~부' 또는 '~모듈'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부' 또는 '~모듈'은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 도 있다. 따라서, 일 예로서 '~부' 또는 '~모듈'은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함할 수 있다. 구성요소들과 '~부' 또는 '~모듈'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부' 또는 '~모듈'들로 결합하거나 추가적인 구성요소들과 '~부' 또는 '~모듈'들로 더 분리될 수 있다. 이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명하기로 한다.

본 발명은 카메라를 통한 얼굴 영상을 통해 효과적으로 입술을 검출하고 입술 움직임을 추적하여 그 특징값을 통해 음성 명령을 인식하는 립리딩 시스템을 구현하고 이를 오디오 기반 음성인식 시스템과 통합한 멀티모달 음성인식 시스템을 제안한다. 즉, 본 발명은 오디오 소음에 영향을 받지 않음으로 실내 라디오 방송을 청취하거나 창을 내린 채 자동차가 주행할 때 등 소음으로 인해 음성 인식기가 동작할 수 없는 환경에서 카메라 영상을 통한 립리딩 기술이 명령어를 입력받아 서비스를 수행하도록 한다.

또한, 본 발명에 따른 내비게이션 시스템은 입술 영상을 이용한 립리딩 시스 템에서 입력 영상으로부터 운전자의 얼굴을 검출하고 얼굴 검출 부위 중에서 입술 후보지에 대해 입술의 위치를 검출하고 검출된 입술에 대해 입술 형상 모델을 이용하여 추적을 위한 정밀한 입술 특징점 위치를 결정한 후 영상 매칭 알고리즘을 통해 영상 특징점을 추적하여 그 특징의 시간적인 변화 데이터로부터 발화 구간을 검출하고 단어별로 구분된 일련의 입술 특징값으로부터 인식기가 명령어를 인식하도록 하는 일련의 과정을 제안한다.

또한, 일반적으로 립리딩 기술이 근본적으로 인식 성능이 떨어지는 문제를 보완하기 위해, 본 발명에서는 명령어를 인식기에 등록된 모든 명령어에 대해 동시에 구분 인식하게 될 경우 정확성이 떨어지나 한번에 인식할 단어의 수를 줄였을 때 더 잘 인식하게 되는 점에 착안하여 일 실시예로서 내비게이션의 응용 서비스 화면을 시나리오에 따라 대화식 시스템으로 구성하고 각 서비스 화면상태에 따라 꼭 필요한 명령어만을 인식할 수 있도록 인식 대상 명령어를 제한하여 개별 명령어에 대한 인식률을 향상시키는 방법을 제안한다.

또한, 일반적으로 입술 특징을 이용한 음성의 인식은 사람별 특징들이 매우 달라 화자 독립적인 일관된 인식기 학습에는 많은 학습 데이터를 필요로 한다. 이에 본 발명에서는 실시간 학습이 가능한 온 라인(On-Line) 학습 가능한 인식기 알고리즘을 적용함으로써 실재 운전자가 시스템을 장기간 사용할 시 인식기가 운전자의 발화 특징에 적응하여 점차 인식률이 향상될 수 있도록 하는 적응형 학습 시스템을 제안한다. 일반적으로 학습 데이터의 확보가 제한된 상황하에서는 화자에 독립적인 인식기를 구성했을 때 낮은 인식률을 얻을 수밖에 없다. 하지만 본 발명의 실시일예가 적용된 내비게이션 시스템은 실제 서비스 운영에 있어 사용자가 많지 않아 사용자가 몇몇 운전자로 고정된 상황에서 빈번하게 특정 명령어들을 사용하게 될 경우 실시간 학습을 통해 현재 화자의 립리딩 특징 데이터를 실시간으로 학습하여 인식기에 추가함으로써 사용자가 시스템을 사용함에 따라 점차 인식률이 향상 될 수 있는 화자 적응형 실시간 립리딩 학습 알고리즘을 제안한다.

또한 음성인식 및 립 리딩(lip reading) 기술은 기본적인 기계와 사람간의 상호 소통 기술로서 자동차뿐만 텔레비전, 에어컨 등 전자제품이나 로봇 제어 등에 폭 넓게 활용할 수 있는 기반 HCI(Human Computer Interaction) 기술이다.

도 1은 본 발명의 일 실시 예에 따른 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템을 나타낸 블록도이다.

립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템(100)은 오디오 음성 입력부(110), 음성인식 모듈(120), 음성인식 명령어 및 추정 확률 출력부(130), 입술 비디오 영상 입력부(140), 립리딩 모듈(150), 립리딩 인식 명령어 출력부(160), 음성 인식과 립리딩 인식 결과 통합부(170) 및 최종 인식 명령어 출력부(180)를 포함한다. 여기서, 음성 인식과 립리딩 인식 결과 통합부(170)는 음성 인식 결과 판별부(171), 립리딩 인식 결과 판별부(172), 통합인식 명령어 (음성) 출력부(173) 및 통합인식 명령어 (립리딩) 출력부(174)를 포함한다.

오디오 음성 입력부(110)는 오디오 입력 센서에 의하여 입력된 사운드 신호를 획득하거나 또는 외부로부터 유선 또는 무선 연결에 의하여 전송되는 입력 오디오 신호를 획득할 수 있다. 예를 들어 오디오 입력 센서에 의해 입력 오디오 신호 를 획득하는 경우에는 소정의 마크로 폰을 통하여 입력되는 음파신호를 전기적 신호로 변환하여 입력 사운드 신호를 획득할 수 있다. 이와 함께 획득된 전기 신호를 디지털 신호로 변환하는 아날로그/디지털 변환기에 의해 획득된 음성 신호를 처리하는 DSP(Digital Signal Processor) 등에 의하여 소정의 입력 사운드 신호를 획득할 수 있다. 또 다른 예로서 입력 사운드가 저장매체에 저장되어 있거나 또는 유무선을 통하여 전송되어 소정의 입력 사운드 신호를 획득할 수 있다.

음성인식 모듈(120)은 고립 단어 인식을 위해 인식 단어 설정이 가능하고 화자에 독립적인 인식 기능을 가지며 인식 결과를 등록된 인식 단어와 해당 단어에 대한 인식 추정 정확도를 % 단위로 출력해 줄 수 있는 상용의 음성인식 모듈을 상정한다.

음성인식 명령어 및 추정 확률 출력부(130)에서는 음성인식기가 인식한 고립 명령어 및 해당 입력 음성 신호가 인식한 단어일 확률 값을 출력한다.

입술 비디오 영상 입력부(140)는 영상 입력 센서에 의하여 입력 영상을 획득하거나 또는 외부로부터 유선 또는 무선 연결에 의하여 전송되는 입력 영상을 획득할 수 있다. 예를 들어, 영상 입력 센서에 의하여 입력 영상을 획득하는 경우에는 소정의 렌즈를 통하여 입사되는 피사체의 영상 신호를 전기적 신호로 변환하여 입력 영상을 획득할 수 있다. 여기서, 영상 입력 센서는 CCD(Charge Coupled Device, CCD), CMOS, 기타 상용 영상 획득 수단을 포함할 수 있다. 이와 함께, 영상 입력 센서에 의해 획득된 전기적인 신호를 디지털 신호로 변환하는 아날로그/디지털 변환기 및 아날로그/디지털 변환기에 의해 변환된 디지털 신호를 입력받아 영상 신호 를 처리하는 DSP(Digital Signal Processor) 등에 의하여 소정의 입력 영상을 획득할 수 있다. 또 다른 예로서, 입력 영상은 저장매체에 저장되어 있거나 또는 유무선을 통하여 전송되어 소정의 입력 영상을 획득할 수 있다. 한편, 입술 비디오 영상 입력부(140)는 획득된 입력 영상을 단일 채널의 영상으로 변환할 수 있다. 예를 들어, 입력영상을 그레이(Gray) 스케일로 변경할 수 있다. 또는 입력 영상이 'RGB' 채널의 다채널 영상인 경우에 이를 하나의 채널 값으로 변경할 수도 있다. 따라서, 입력 영상에 대하여 하나의 채널에서의 인텐서티(Intensity) 값으로 변환함으로써 입력 영상에 대한 밝기 분포를 용이하게 나타낼 수 있다.

립리딩 모듈(150)은 입력 영상 정보의 처리를 통해 화자의 음성 명령을 인식하는 모듈이다.

립리딩 인식 명령어 출력부(160)는 립리딩 모듈(150)에서 인식한 명령어를 출력한다.

음성인식기와 립리딩 인식 결과 통합부(170)는 오디오 기반의 음성인식 결과와 영상 기반의 립리딩 결과를 통합하는 과정으로서 각각의 모달리티 특징 데이터 상에서의 통합을 하는 방법과 각각의 시스템이 인식한 결과를 통합하는 방법이 있으나, 여기서는 기존의 독립적인 음성인식기를 자유로이 사용하여 립리딩과 결합할 수 있도록 결과 단에서의 통합 방법을 제안한다. 음성인식 결과 판별부(171, 172)는 독립된 오디오 음성 입력부(110)의 음성인식 명령어 및 추정 확률 출력부(130) 결과를 받아 단어 인식에 대한 신뢰도 확률이 특정 임계값 이하인지 이상인지를 판별하여 결과를 출력한다. 여기서, 임계값은 시스템에 따라 조절과 튜닝이 가능하며 통상 실험결과 신뢰도 50%를 기준으로 했을 때 통합 인식률이 가장 좋게 나옴을 확인할 수 있다. 통합인식 명령어 출력부(173, 174)는 음성인식 결과 판별부(171, 172) 결과에서 임계값보다 높다고 판단했을 경우에는 최종 인식 명령어 출력부(180)에 음성인식기의 인식 결과 명령어를 출력하고 그렇지 않은 경우는 립리딩 인식 결과 명령어를 인식 결과로 출력한다.

이러한 음성인식 및 립리딩 결과 통합 방법은 다음 예와 같이 확장될 수 있다. 일 예로서 음성인식 결과 판별부(171, 172) 결과에서 음성인식 결과 신뢰도가 임계값보다 낮고 립리딩 모듈에서 명령어를 검출하지 못했을 때는 아무런 출력을 내보내지 않음으로써 음성인식기가 소음으로 인해 오작동하는 것을 방지할 수 있다. 상기한 일 예와 같이 각 인식 모듈이 하나만 특정 단어를 인식하고 나머지 인식기에서는 어떤 단어도 검출하지 못했을 때 각기 동작을 정의하여 통합 알고리즘을 변형할 수 있다.

도 2는 도 1에 도시된 립리딩 모듈을 나타낸 상세 블록도이다.

립리딩 모듈(150)은 입술 검출부(210), 검출 및 추적을 위한 입술 모델 생성부(220), 입술 추적부(230), 발화 구간 검출부(240), 시스템 모드 판별부(250), 립리딩 인식 학습부(260), 명령어 인식부(270) 및 입술 특징 데이터베이스(280)를 포함한다.

입술 검출부(210)는 입술 비디오 영상 입력부(140)로부터 입력된 입력 영상이 컬러 영상일 때는 흑백 영상으로 변환한다. 컬러 영상을 이용한 입술 검출 알고리즘이 연구되었으나 이는 조명에 많은 영향을 받게 되며 야간에 적외선 영상 등에 서는 역할을 할 수 없는 단점이 있다. 이에 상기한 실시예에서는 흑백 영상만을 사용하여 입술을 검출하고 추적하는 경우를 예를 들어 설명한다. 따라서, 주야간에 강건하게 입술을 검출하고 추적할 수 있게 된다. 입술 검출 단계는 먼저 LBP(Local binary pattern) 상에서 Adapboost(Adaptive boosting) 알고리즘을 이용하여 얼굴을 먼저 검출하고 얼굴 상에서 대략의 입술 위치에 대해 얼굴과 같은 방법으로 입술을 검출하게 된다. 이를 위해서는 정규화된 얼굴 이미지와 입술 이미지를 이용하여 검출기를 학습하도록 한다. Adaboost 방법으로는 립리딩을 위한 입술 특징점들의 정교한 위치를 정할 수 없다. 이에 본 발명에서는 AAM(Active appearance model) 입술 모델을 이용하여 형상(shape) 및 외관(appearance) 모델을 만들어 이를 이용해 정교한 입술의 특징점을 얻도록 한다.

입술 모델 생성부(220)에서는 학습 이미지상에서 입술 영상에 대해 손으로 매뉴얼 한 특징점을 포인팅하고 이러한 데이터를 모아 PCA(Principle component analysis)를 통해 형상(Shape) 모델과 외관(Appearance) 모델을 만들어 이들 모델을 AAM 피팅과 입술 특징 추적에 사용한다.

입술 추적부(230)에서는 입술 검출 후 AAM 피팅의 결과로 얻어진 입술 특징점들을 입술 모델 생성부(220)에서 기 생성한 형상(shape) 모델과 LK(Lucas-Kanade) 알고리즘을 이용하여 추적하도록 한다. 입술 추적 결과는 매 입력 영상마다 입술 추적 결과가 형상 파라미터(shape parameter)를 특징값으로 립리딩 시스템(200)에 제공한다.

발화 구간 검출부(240)에서는 연속된 입력 영상에 대해 입술 추적의 결과로 얻어진 일련의 입술 모델 파라미터들을 일정 구간 프레임 데이터를 신경 회로망(Neural Net) 인식기에 입력하여 발화 구간인지 침묵 구간인지를 판별한다. 판별 결과 발화 구간이 계속되다 침묵 구간으로 바뀌게 되면 발화 구간 특징 데이터를 발췌하여 출력한다.

시스템 모드 판별부(250)에서는 입술 특징 데이터의 레이블을 알고 있는 학습 모드인지 레이블을 알지 못하는 인식 모드 인지를 판별한다. 학습 모드일 경우 립리딩 인식기 학습부(260)에서 특징 데이터와 입력 레이블을 이용하여 K-NN(nearest neighbor) 학습기를 학습하도록 한다. 여기서, HMM과 달리 적은 학습 데이터로도 효율적인 학습이 가능하고 인식기는 구조가 간단하여 실시간 학습을 통해 점진적인 업데이트가 가능하다. 입력 특징값이 레이블이 없는 인식 모드일 때는 명령어 인식부(270)에서 립리딩 인식기 학습부(260)에서 학습된 K-NN 인식기를 통해 특징 데이터에 가장 가까운 학습 패턴을 찾아 그 결과 명령어를 특징값으로 립리딩 인식 결과 명령어 출력부(160)로 출력한다.

입술 특징 데이터베이스(280)에서는 오프 라인(off-line) 또는 온 라인(on-line)으로 학습된 명령어별 패턴(pattern) 들이 저장된다.

립리딩 모듈(200)을 동작을 좀더 구체적으로 설명하면 다음과 같다.

입술 검출부(210)는 주야간에 강건하도록 모노 영상에 대해 LBP 영상 변환 및 Adaboost 알고리즘을 이용한 입술의 대략적인 위치를 제공하고, 전체 입술 모델을 이용해 입술의 전체적인 위치를 구하고 입술 양끝점 모델을 이용해 입술 끝점을 검출하고, AAM 입술 모델을 이용해 입술 끝점 위치를 초기 위치로 하여 정밀한 피 팅을 수행하고 결과 특징점 좌표를 입술 추적부(230)의 초기 위치 값으로 제공한다.

입술 추적부(230)는 LK 기반의 이미지 레지스트레이션 알고리즘과 입술 형상(Shape) 모델을 이용하여 각 AAM 입술 검출 결과를 초기 특징점으로 하여 이후 입력 영상에 대해 특징점 주변 m x m 픽셀 영역에 대해 추적한다. 여기서, 픽셀수는 조정이 가능하나 통상 각 특징점 당 11x11 픽셀 영역에 대해 다음 프레임에서 가장 유사한 영역을 찾아 매칭하고 결과를 형상(Shape) 모델에 입력하여 형상(shape) 모델 파라미터를 구하여 발화 구간 검출부(240)에 제공한다.

발화 구간 검출부(240)는 입술의 형상(Shape) 모델 파라미터를 시간상의 일련의 스트림으로 입력받아 신경망(Neural Net) 인식기를 통해 매 프레임 전 일정 프레임이 발화 중인지 아닌지를 판별하고 발화로 판별되는 구간이 일정유지된 후 비 발화 구간으로 전환시 발화 구간 특징 데이터를 발췌하여 립리딩 인식 학습부(260)에 제공한다.

립리딩 인식 학습부(260)는 미리 준비된 단어별로 묶어진 입술 특징 데이터와 레이블 정보를 이용해 오프 라인(off-line)으로 k-NN 립리딩 인식기를 학습하여 립리딩 모듈(150)에 그 결과로서 초기 인식기를 제공한다.

명령어 인식부(270)는 립리딩 인식 학습부(260) 결과를 바탕으로 신규 입력 데이터에 대해 k-NN 인식 알고리즘을 통해 단어를 판별하고 결과 명령어를 립리딩 모듈(150)에 리턴한다.

도 3은 본 발명에 따른 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스 템을 대화형 서비스 시스템으로 구현한 상세 블록도이다.

대화형 서비스 시스템(300)은 서비스 시나리오 데이터베이스(310), 서비스 화면(320), 영상 및 오디오 입력부(330), 화면 전환부(340), 해당 화면별 인식 대상 단어 일람 설정부(350), 명령어 입력에 따른 서비스 수행부(360), 멀티모달 인터페이스 시스템(370) 및 인식결과 판별부(380)를 포함한다.

대화형 서비스 시스템 (300)은 립리딩 시스템 (200)이 갖고 있는 근본적인 인식률 저하 문제를 보완하기 위해 대화 시스템 혹은 시나리오 베이스 시스템을 통해 실제 서비스 상에서 인식해야 할 단어를 수를 제한하여 실질적인 인식률 향상 효과를 얻도록 한다.

서비스 시나리오 데이터베이스(310)는 본 발명의 실시 예로서 내비게이션 서비스를 가정할 수 있다. 화면은 시작화면과 메인메뉴 화면, 장소찾기 화면, 경로설정 화면, 실제 길안내 화면 등 필요한 서비스 화면으로 설계될 수 있다. 이때 서비스 시나리오 데이터베이스(310)는 각 화면별로 입력 가능한 명령어 일람을 미리 정의하고, 립리딩 또는 음성 인식을 수행할 때 각 서비스화면 혹은 단계에 입력가능한 명령어 일람을 제공한다.

서비스 화면(320)은 초기화면, 메인메뉴 화면과 같은 개별 서비스 화면을 의미한다.

화면 전환부(340)는 서비스 시나리오 데이터베이스 부(310)에 정의된 기능에 따라 입력 명령어에 대응하여 화면 전환을 수행하고 현 서비스 상태 정보를 서비스 화면(320)에 제공한다.

인식 대상 단어 일람 설정부(350)에서는 상태 변화시 각 서비스 상태 혹은 화면에 필요한 단어 일람을 서비스 시나리오 데이터베이스(310)에 기반하여 설정한다.

서비스 수행부(360)에서는 입력 명령어에 따른 화면전환, 음성안내, 정보 등록, 기타 등록 애플리케이션 서비스를 수행한다.

멀티모달 인터페이스 시스템(100)은 인식 대상 단어 일람 설정부(350)에 의해 설정된 인식 대상 단어 일람을 참조하여 립리딩과 음성 인식을 통합하여 소음에 강인한 음성인식을 수행한다.

인식결과 판별부(380)에서는 음성인식 실패 또는 립리딩 인식 실패 등을 판별하여 입력 오디오 및 비디오 신호에 대해 서비스를 수행할지 여부를 판별한다. 이는 명령어 인식에 대한 자체 추정 신뢰도로 판별하도록 한다. 인식에 성공할 시에는 서비스 수행부(360)에서 해당 명령어에 대한 서비스를 수행하고 그렇지 않을 경우는 서비스 대기 상태로 명령어 입력을 기다리도록 한다.

도 4는 화자 적응 실시간 립리딩 학습 시스템을 나타낸 상세 블록도이다.

화자 적응 실시간 립리딩 학습 시스템(400)은 립리딩 특징 검출부(410), 음성 인식 단어 추정 확률 판별부(420), 입술 특징 검출 판별부(430) 및 실시간 립리딩 학습부(440)를 포함한다. 실시간 학습이 필요한 이유는 립리딩이 개인별 특징 데이터의 편차가 큰 화자 독립적인 인식기 학습을 위해서는 매우 많은 학습 데이터가 필요하나 그러한 학습 데이터를 모으는 것이 용이하지 않아, 실시간 립리딩 학습부(440)에서 k-NN 인식기를 실시간 학습하여 개별 실제 서비스 이용자에게 적응 하는 것이 필요하기 때문이다.

립리딩 특징 검출부(410)는 립리딩 모듈(150)의 발화 구간 검출부(240)로부터 입력된 입력 영상으로부터 립리딩 특징을 검출한다.

음성 인식 단어 추정 확률 판별부(420)에서는 음성 인식 모듈(120)에서 인식한 명령어 결과를 립리딩 특징 검출부(410)에서 검출한 입술 영상 특징의 학습 레이블로 사용할 수 있는지 그 신뢰도를 평가한다. 통상 음성 인식 모듈(120)에서 인식한 명령어 신뢰도 추정치가 특정 임계값 이상일 때 학습을 수행하도록 하며 그렇지 않을 경우 학습을 수행하지 않는다.

입술 특징 검출 판별부(430)에서는 음성 인식 모듈(120)가 명령어를 인식했더라도 필요에 따라 영상 특징 데이터가 검출되지 않을 것에 대비하여 영상 특징 데이터가 정상 검출되었는지를 판별한다.

실시간 립리딩 학습부(440)에서는 실제 서비스 시스템상에서 오프 라인(off-line)과 동일하게 립리딩 특징 검출부(410)에서 제공한 입술 특징값에 대해 음성 인식 모듈(120)에서 제공한 명령어를 레이블로 삼아 k-NN 학습을 수행하여 도 2의 입술 특징 데이터베이스(280)를 업데이트 한다. 서비스 중에 매 입력에 대해 이와 같은 일련의 학습을 계속함으로써 소음이 없는 환경에서 음성 인식 모듈(120)의 높은 인식 성능을 바탕으로 립리딩 모듈(150)을 학습함으로써 점차 소음 환경에서 음성 인식 모듈(120)이 기능 하지 못하더라도 립리딩 모듈(150)이 명령어를 인식하여 서비스를 지속할 수 있다.

본 발명은 기존의 음성인식이 가지고 있는 오디오 소음환경에서의 인식률 저 하 문제를 립리딩 기술을 통해 보완함으로써 운전 중 자동차 실내와 같은 소음이 상존하는 공간에서 오디오 기반 음성인식기를 대신해 내비게이션의 기본적 명령어들을 조작할 수 있도록 하여 운전중 터치스크린 등을 통한 내비게이션 조작에 따른 주의 산만을 유발하지 않도록 함으로써 부주의로 인한 사고 위험을 미연에 방지할수 있도록 한다. 또한 오디오 기기 등과 같이 항상 소음이 상존하는 기기들의 조작에도 음성인식기를 사용할 수 있는 방법을 제공해 준다.

또한 본 발명은 특정 서비스에만 구애되지 않고 자동차, 로봇, 가전 등 현재 음성인식기가 적용되는 거의 모든 서비스에 적용이 가능하다. 이는 기존 음성 인식기가 실제 환경 즉 생활 소음 속에서 제대로 기능을 발휘하지 못해 실재 적용이 어려웠던 부분들에 대해서도 사용할 수 있게 함으로써 현재로서 사람과 가장 친숙한 음성 명령을 통한 각종 기기와의 상호 작용하는 기술의 저변 확대에 기여할 것으로 기대된다.

도 3은 본 발명에 따른 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템을 대화형 서비스 시스템으로 구현한 상세 블록도이다.

<도면의 주요 부분에 대한 부호 설명>

100: 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템

110: 오디오 음성 입력부

120: 음성 인식 모듈

130: 음성 인식 명령어 및 추정 확률 출력부

140: 입술 비디오 영상 입력부

150: 립리딩 모듈

160: 립리딩 인식 명령어 출력부

170: 음성인식과 립리딩 인식 결과 통합부

180: 최종 인식 명령어 출력부

210: 입술 검출부

220: 입술 모델 생성부

230: 입술 추적부

240: 발화 구간 검출부

250: 시스템 모드 판별부

260: 립리딩 인식 학습부

270: 명령어 인식부

280: 입술 특징 데이터베이스

300: 대화형 서비스 시스템

310: 서비스 시나리오 데이터베이스

320: 서비스 화면

330: 화면 전환부

340: 인식 대상 단어 일람 설정부

350: 서비스 수행부

360: 인식 결과 판별부

400: 화자 적응 실시간 립리딩 학습 시스템

410: 립리딩 특징 검출부

420: 음성 인식 단어 추정 확률 판별부

430: 입술 특징 검출 판별부

440: 실시간 립리딩 학습부

Claims

삭제
삭제
오프라인 또는 온라인으로 학습된 명령어별 패턴을 저장하는 입술 특징 데이터베이스;

음성 인식을 수행하여 명령어를 인식하는 음성인식 모듈 및 립리딩 인식을 수행하고 영상을 제공하는 립리딩 모듈을 포함하는 멀티모달 인터페이스;

상기 립리딩 모듈로부터 제공된 영상에서 립리딩 특징을 검출하는 립리딩 특징 검출부;

상기 음성인식 모듈에서 인식한 명령어 추정 확률이 임계값 이상일 때, 상기립리딩 특징 검출부에 의해 검출된 립리딩 특징을 입술 특징의 학습 레이블로 사용하여 학습을 수행하도록 하는 음성 인식 단어 추정 확률 판별부; 및

상기 립리딩 특징 검출부에 의해 검출된 립리딩 특징에 대해, 상기 음성인식모듈로부터 제공된 명령어를 레이블로 삼아 K-NN(nearest neighbor) 학습을 수행하여 상기 입술 특징 데이터베이스를 업데이트하는 실시간 립리딩 학습부를 포함하는멀티모달 인터페이스를 이용한 화자 적응 실시간 립리딩 학습 시스템.
제3항에 있어서,

상기 립리딩 특징 검출부에 의해 립리딩 특징이 정상 검출되었는지를 판별하는 입술 특징 검출 판별부를 더 포함하는 멀티모달 인터페이스를 이용한 화자 적응 실시간 립리딩 학습 시스템.
서비스화면 또는 단계별로 입력가능한 명령어 일람을 미리 정의하여, 각 서비스화면 또는 단계에서 입력가능한 명령어 일람을 제공하는 서비스 시나리오 데이터베이스;

상태 변화시 각 서비스화면 또는 단계에서 필요한 단어 일람을 상기 서비스시나리오 데이터베이스에 기반하여 설정하는 인식 대상 단어 일람 설정부;

상기 인식 대상 단어 일람 설정부에 의해 설정된 인식 대상 단어 일람을 참조하여 음성인식 또는 립리딩 인식을 수행하고, 음성인식 명령어 또는 립리딩 명령어를 출력할 수 있는 멀티모달 인터페이스;

서비스 화면;

상기 멀티모달 인터페이스에 의해 수행되는 음성인식 또는 립리딩 인식이 성공했는지 판별하는 인식결과 판별부;

상기 인식결과 판별부의 판별 결과, 상기 음성인식 또는 립리딩 인식이 성공한 경우, 상기 음성인식 명령어 또는 립리딩 명령어에 따른 화면전환, 음성안내,정보 등록 및 기타 등록 애플리케이션 서비스를 수행하는 서비스 수행부; 및

상기 서비스 시나리오 데이터베이스에 정의된 명령어 일람에 따라, 상기 음성인식 명령어 또는 립리딩 명령어에 대응하여 화면 전환을 수행하고 현재 서비스상태 정보를 상기 서비스 화면에 제공하는 화면 전환부를 포함하는 멀티모달 인터페이스를 이용한 대화형 서비스 시스템.