KR100632400B1

KR100632400B1 - 음성 인식을 이용한 입출력 장치 및 그 방법

Info

Publication number: KR100632400B1
Application number: KR1020050107944A
Authority: KR
Inventors: 조관현; 한문성; 박준석; 정영규
Original assignee: 한국전자통신연구원
Priority date: 2005-11-11
Filing date: 2005-11-11
Publication date: 2006-10-11
Anticipated expiration: 2025-11-11
Also published as: US20080288260A1; US8478600B2; WO2007055470A1

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 음성 인식을 이용한 입출력 장치 및 그 방법에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은 마우스, 터치패드 등과 같은 별도의 포인팅 입력 장치(즉, 하드웨어 장치)를 구비하지 않고도 음성 인식 기술을 이용하여 사용자의 음성 명령에 따라 포인팅 입력 및 명령어 실행(예 : 응용 프로그램 제어)가 가능하도록 함으로써, 사용자 인터페이스를 향상시키기 위한, 음성 인식을 이용한 입출력 장치 및 그 방법을 제공하는데 그 목적이 있음.

3. 발명의 해결방법의 요지

본 발명은, 입출력 장치에 있어서, 외부의 음성 명령을 인식하기 위한 음성 인식 수단; 상기 음성 인식 수단으로부터 전달받은 음성 인식 결과에 해당되는 화면상의 포인팅 위치를 계산하기 위한 포인팅 제어 수단; 화면을 디스플레이하기 위한 화면 표시 수단; 및 현재 포인팅 위치와 관련된 각종 명령어를 처리하기 위한 명령어 제어 수단을 포함한다.

4. 발명의 중요한 용도

본 발명은 입출력 장치 등에 이용됨.

음성 인식, 포인팅 입력, 화면 블록, 입출력 장치

Description

음성 인식을 이용한 입출력 장치 및 그 방법{Apparatus and method for input/output using voice recognition}

도 1 은 본 발명에 따른 음성 인식을 이용한 입출력 장치의 일실시예 구성도,

도 2 는 본 발명에 따른 입출력 장치에서 음성 인식을 이용한 입출력 방법에 대한 일실시예 흐름도,

도 3 은 본 발명에 따른 입출력 장치에서 음성 인식 명령어에 매핑시키기 위한 영역별 화면 분할 상태에 대한 일실시예 설명도,

도 4 는 본 발명에 따른 입출력 장치에서의 포인팅 과정에 대한 일실시예 설명도,

도 5 는 본 발명에 따른 입출력 장치에서 응용 프로그램 제어에 대한 일실시예 설명도이다.

* 도면의 주요 부분에 대한 부호의 설명 *

10 : 음성 인식부 20 : 포인팅 제어부

30 : 화면 표시부 40 : 명령어 제어부

본 발명은 음성 인식을 이용한 입출력 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 마우스, 터치패드 등과 같은 별도의 포인팅 입력 장치(즉, 하드웨어 장치)를 구비하지 않고도 음성 인식 기술을 이용하여 사용자의 음성 명령에 따라 포인팅 입력 및 명령어 실행(예 : 응용 프로그램 제어)가 가능하도록 함으로써, 사용자 인터페이스를 향상시키기 위한, 음성 인식을 이용한 입출력 장치 및 그 방법에 관한 것이다.

본 발명에서 휴대 단말기란 무선통신 단말기, 엠피쓰리 플레이어, 휴대용 멀티미디어 플레이어(PMP) 등과 같이 개인이 휴대하면서 각종 정보를 입/출력할 수 있는 단말기를 말한다.

그리고, 본 발명에서 무선통신 단말기란 이동통신 단말기, 개인휴대통신 단말기(PCS), 개인용디지털 단말기(PDA), 스마트폰, 차세대이동통신 단말기(IMT-2000), 무선랜 단말기 등과 같이 무선통신이 가능한 단말기를 말한다.

최근 무선통신 단말기 등과 같은 소형 휴대 단말기의 소지가 증가하면서 언제 어디서나 자유롭게 통신하며 여러 가지 서비스를 사용할 수 있게 되었다. 무선통신 단말기를 예로 들면, 단순한 통화 기능을 넘어서 무선 인터넷, 멀티미디어 데이터 입출력 등과 같은 여러 부가 서비스를 제공하고 있다. 이러한 사용자의 요구에 부합하는 서비스들은 앞으로 더욱 다양해지고 사용자의 기호에 맞게 특화될 것 으로 예상된다.

이러한 상황에서, 휴대 단말기를 제어하는 방식은 여전히 메뉴를 통한 방식이 대다수를 차지하고 있어 사용자가 원하는 서비스를 사용하기까지 수차례의 키 입력을 통해 해당 메뉴를 찾아가야 하는 문제점이 있었다. 더욱이, 휴대 단말기는 마우스 등과 같은 포인팅 입력 장치를 구비할 수 없고, 그에 따라 특정 위치의 정보를 손쉽게 제어할 수 없는 한계가 있었다. 이를 극복하기 위해서 터치패드 등을 장착할 수도 있으나, 이 역시 고가의 하드웨어 지원이 필요함은 물론 휴대하기에 불편할 수 있으므로 사용자 입장에서 용이하지 않다.

한편, 생체 인식 기술이 발달하면서 음성 인식, 눈동자 움직임 등을 통해 시스템을 제어하는 인터페이스 기술이 다양하게 개발되고 있다.

제1 선행특허로서 대한민국특허 "음성인식이 가능한 컴퓨터시스템 및 그 제어방법(공개번호 10-2003-0010279호, 2003.02.05 공개)"에 대하여 살펴보면, 음성 인식 기능이 지원되지 않은 시스템에서도 사용자가 음성 인식을 통해 시스템을 제어할 수 있도록 하기 위한 기술이다. 즉, 음성 인식을 통해 입력받은 명령어를, 그에 상응하는 시스템 동작모드를 실행하기 위한 키보드 입력신호 혹은 마우스 입력신호의 형태로 변환하여 시스템에 입력하는 기술이다. 이에 의해 음성 인식 기능을 지원하지 않는 일반 응용 프로그램 역시 실행할 수 있도록 한다.

그러나, 상기 제1 선행특허의 경우 일반 응용 프로그램의 제어와 관련된 정보를 미리 습득하여야 이러한 기능을 제공할 수 있으나, 제어 정보가 응용 프로그램에 의존적인 경우가 많으므로 손쉽게 획득할 수 없는 문제점이 있었다.

제2 선행특허로서 대한민국특허 "이동통신 단말기의 메뉴 선택 인터페이스 장치(공개번호 10-2002-0082369호, 2002.10.31 공개)"에 대하여 살펴보면, 차세대 이동통신 단말기에 구비되는 카메라를 이용하여 사용자의 눈동자 움직임을 감지하고 이에 따라 메뉴를 선택할 수 있도록 하는 기술이다. 이에 따라 핸즈프리 인터페이스를 구현할 수 있고 단말기의 가용성을 높일 수 있도록 한다.

그러나, 상기 제2 선행특허의 경우 카메라를 이용하여 사용자의 눈동자를 추적하므로 사용자가 항상 카메라의 시야에 들어와야 하는 공간적 제약과, 빛과 같은 주변 환경에 의한 제약이 발생하는 문제점이 있었다. 또한, 눈동자의 움직임은 순차적이므로 많은 정보를 입력하기 위해서는 많은 눈동자의 움직임이 필요하고 이로 인해 사용자에게 피로함을 유발시키는 문제점이 있었다.

본 발명은 상기 문제점을 해결하기 위하여 제안된 것으로, 마우스, 터치 패드 등과 같은 별도의 포인팅 입력 장치를 구비하지 않고도 음성 인식 기술을 이용하여 사용자의 음성 명령에 따른 포인팅 입력 및 그에 따른 명령어 실행이 가능하도록 함으로써, 사용자 인터페이스를 향상시키기 위한, 음성 인식을 이용한 입출력 장치 및 그 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 장치는, 입출력 장치에 있어서, 외부의 음성 명령을 인식하기 위한 음성 인식 수단; 상기 음성 인식 수단으로부터 전달받은 음성 인식 결과에 해당되는 화면상의 포인팅 위치를 계산하기 위한 포인팅 제어 수단; 화면을 디스플레이하기 위한 화면 표시 수단; 및 현재 포인팅 위치와 관련된 각종 명령어를 처리하기 위한 명령어 제어 수단을 포함한다.

한편, 상기 목적을 달성하기 위한 본 발명의 방법은, 입출력 장치에서의 음성 인식을 이용한 입출력 방법에 있어서, 외부의 음성 명령을 인식하는 음성 명령 인식 단계; 상기 음성 인식된 명령어에 해당되는 화면상의 포인팅 위치를 계산하는 포인팅 위치 계산 단계; 상기 계산한 포인팅 위치를 식별 가능하도록 디스플레이하는 화면 표시 단계; 및 상기 포인팅 위치와 관련된 각종 명령어를 실행하는 명령어 처리 단계를 포함한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실 시예를 상세히 설명하기로 한다.

본 발명은, 사용자의 음성 명령을 인식하여 화면상의 포인팅 입력은 물론 각종 명령어 실행, 즉 이벤트 처리(예 : 클릭, 더블클릭, 스크롤링), 시스템 설정 및 응용 프로그램의 제어가 가능하도록 하여 별도의 입력 장치(예 : 마우스, 터치패드)를 구비하지 않고도 음성 인식을 통해 편리하게 서비스를 사용할 수 있도록 한다.

이하의 상세한 설명에서는, 마이크를 구비한 휴대 단말기에 본 발명에 따른 입출력 장치가 적용된 경우를 예로 들어 설명하기로 한다. 이때, 상기 휴대 단말기에 구비된 마이크는 사용자의 음성을 입력받는데 사용된다.

도 1 은 본 발명에 따른 음성 인식을 이용한 입출력 장치의 일실시예 구성도이다.

도 1에 도시된 바와 같이, 본 발명에 따른 음성 인식을 이용한 입출력 장치는, 사용자의 음성 명령을 인식하기 위한 음성 인식부(10), 상기 음성 인식부(10)로부터 음성 명령 인식 결과를 전달받아 해당되는 화면상의 위치로 변환하기 위한 포인팅 제어부(20), 화면을 디스플레이하기 위한 화면 표시부(30), 포인팅 위치와 관련된 이벤트 명령어, 실행 명령어를 처리하기 위한 명령어 제어부(40)를 포함한다.

여기서, 음성 인식부(10)는 마이크(도시되지 않음)를 통해 입력받은 사용자의 음성을 A/D 변환하고 특징 벡터를 추출한 후, 기 저장된 인식 모델 파라미터를 이용하여 패턴 매칭을 수행한다.

이때, 상기 특징 벡터로는 LPC(Linear Predictive Coefficients), MFCC(Mel-frequency Cepstral Coefficients), PLP(Perceptual Linear Prediction) 등이 사용될 수 있다. 그리고, 상기 인식 모델 파라미터는 DTW(Dynamic Time Warping), 지능망(Neural Network), HMM(Hidden Markov Model) 등과 같은 각종 모델링 기법을 이용하여 기 수집한 다수인의 음성을 통해 학습된 것이다.

그리고, 포인팅 제어부(20)는 음성 인식부(10)로부터 음성 명령 인식 결과를 전달받음에 따라 그에 해당되는 화면상의 위치를 계산한다. 음성 인식된 명령어로부터 화면상의 포인팅 위치를 계산하기 위하여, 화면을 일정 크기로 분할하고 각 분할된 영역을 지칭하기 위한 음성 인식 명령어를 음성 인식 후보 명령어에 매핑시켜 사용한다.

상기 분할된 각 영역(블록)은 여러 단계에 걸쳐 동일한 방식으로 재분할될 수 있는데, 이로써 보다 세밀하게 음성을 통해 포인팅할 수 있도록 한다. 이에 대해서는 도 3 및 도 4를 참조하여 후술하기로 한다.

그리고, 화면 표시부(30)는 포인팅 제어부(20)에 의해 계산된 포인팅 위치를 화면상에 디스플레이하여 사용자에게 피드백을 제공한다. 즉, 화면 표시부(30)는 상기 포인팅 제어부(20)에 의해 계산된 포인팅 위치에 해당하는 영역을 기존 화면에 중첩시켜 화면을 재구성하여 사용자에게 보여준다.

그리고, 명령어 제어부(40)는 현재의 포인팅 위치에서 요청받은 이벤트, 예를 들면 클릭, 더블클릭, 스크롤 업/다운을 위한 이벤트 명령어를 처리하거나, 혹은 일반적인 응용 프로그램(예 : Button 프로그램) 제어 및 시스템 설정을 위한 실 행 명령어를 처리한다. 포인팅 위치에서 발생하는 이벤트 명령에 대해서는 마우스와 동일하게 동작할 수 있도록 정보를 변환하여 운영체제로 전달한다. 또한, 응용 프로그램 제어 명령에 대해서는 운영체제에 적합한 형식의 정보로 변환하여 전달한다.

도 2 는 본 발명에 따른 입출력 장치에서 음성 인식을 이용한 입출력 방법에 대한 일실시예 흐름도이다.

먼저, 음성 인식부(10)가 마이크를 통해 입력받은 사용자의 음성을 음성 명령으로 인식한다(201).

그러면, 포인팅 제어부(20)가 상기 음성 인식부(10)에 의해 음성 인식된 명령어에 해당되는 화면상의 포인팅 위치를 계산한다(202). 그리고, 화면 표시부(30)가 상기 계산된 포인팅 위치에 해당되는 영역을 사용자가 식별할 수 있도록 디스플레이한다(203).

이후, 명령어 제어부(40)가 이벤트 명령어, 혹은 실행 명령어를 처리한다(204). 예를 들면, 특정 영역에 위치한 아이콘을 클릭하여 실행시키는 과정을 수행한다. 이때, 이벤트 명령어는 클릭, 더블클릭, 스크롤 업/다운 등과 같은 이벤트를 처리하기 위한 각종 명령어를 포함하고, 실행 명령어는 시스템 설정과 응용 프로그램의 제어를 위한 각종 명령어를 포함한다.

여기서, 화면 표시부(30)의 화면이 다단계로 분할되어 있어 수차례의 포인팅 입력이 요구되는 경우에는 단계별로 사용자의 음성 명령을 인식하여 그에 따라 각 구성요소가 동작하도록 구현할 수도 있다.

도 3 은 본 발명에 따른 입출력 장치에서 음성 인식 명령어에 매핑시키기 위한 영역별 화면 분할 상태에 대한 일실시예 설명도이다.

도 3에 도시된 바와 같이, 음성 인식 명령어와 매핑시키기 위해 화면을 각 영역별로 분할할 수 있는데, 키패드와 유사한 배열로 위치한 다수의 숫자를 이용하여(32) 각 영역들이 서로 중첩되도록 분할할 수 있다(31).

즉, 블록 1은 서브블록 1, 2, 5, 6을 포함하는 영역으로 구성하고, 블록 2는 서브블록 2,3,6,7을 포함하는 영역으로 구성하며, 블록 3은 3,4,7,8을 포함하는 영역으로 구성할 수 있다. 이와 동일한 방식으로 다수의 블록을 서브블록이 서로 겹치도록 구성할 수 있다.

상기와 같이 분할된 다수의 영역은 각각 해당 블록을 지칭하는 음성 인식 명령어와 매칭된다.

물론, 이러한 분할 영역 구성은 서로 중첩되지 않거나 서로 다른 모양을 갖도록 구성할 수도 있다. 또한, 일반적인 키패드와 동일한 배열로 영역을 분할하여 음성 인식을 이용한 음소 단위의 문자입력방법으로도 활용할 수 있다.

도 4는 본 발명에 따른 입출력 장치에서의 포인팅 과정에 대한 일실시예 설명도이다.

도 4에 도시된 바와 같이, 화면을 다단계로 분할하여 보다 세부적으로 포인팅하도록 할 수도 있다. 여기서는, 2단계로 분할한 경우를 보여준다.

즉, 도 3에서 설명한 바와 같은 방식으로 전체 화면을 서로 중첩되는 다수의 영역으로 한 차례 분할한 후, 각 분할 영역을 동일한 방식으로 한 차례 더 분할함 으로써(포인팅 영역 분할을 두 번 실행함으로써), 포인팅 정밀도를 높일 수 있다.

예를 들면, "41"은 첫 번째로 블록 5를 포인팅한 결과이고, "42"는 두 번째로 상기 포인팅된 블록 5 내에서 블록 2을 포인팅한 결과이다.

도 5에 도시된 바와 같이, 포인팅 입력을 통해 사용자가 원하는 응용 프로그램을 제어할 수도 있다. 이때, 포인팅 입력은 한 차례일 수도 있지만 여러 차례에 걸쳐 이루어져야 할 수도 있다. 여기서는, 세 차례의 포인팅 입력 후에 "BUTTON" 프로그램을 실행하는 경우를 예로 들어 설명하기로 한다.

사용자가 화면의 "BUTTON" 프로그램을 실행하려 할 때, 먼저 블록 1을 포인팅하고(51) 그 다음으로 상기 포인팅된 블록 1 내에서 블록 7을 포인팅한다(52). 각 포인팅 과정마다 해당 영역(블록)이 사용자에 의해 식별 가능하도록 표시된다. 상기 선택된 영역에서 "BUTTON" 아이콘은 블록 2에 위치하고 있으므로 블록 2를 포인팅하고 "클릭"과 같은 음성 명령을 통해 "BUTTON" 프로그램이 실행된다. 상기와 같은 세 차례의 포인팅은 "블록 1", "블록 7", "블록 2"와 같은 음성 명령을 통해 수행될 수 있다.

상기와 같은 본 발명은 마우스, 터치패드 등과 같은 별도의 하드웨어적 입력 장치를 구비하지 않고도 음성 명령을 통해 각종 이벤트(예 : 클릭, 더블클릭, 스크롤링) 처리, 응용 프로그램 제어, 및 시스템 설정이 가능하도록 함으로써, 사용자가 핸즈프리 상태에서 원하는 컴퓨팅 작업을 할 수 있도록 한다. 예를 들면, 손의 사용이 자유롭지 못한 장애인 사용자에게 기존보다 편리한 입출력 방안일 수 있다.

이러한 본 발명에 따른 입출력 장치는 휴대 단말기 등에 적용되어 휴대 단말기에 장착된 마이크를 통해 사용자의 음성 명령을 입력받을 수 있다. 즉, 본 발명에 따른 입출력 장치는 별도의 하드웨어를 요구하지 않으므로, 소형의 휴대 단말기에 적용되어 유용하게 사용될 수 있다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상기와 같은 본 발명은, 각종 포인팅과 응용 프로그램의 제어 등을 별도의 하드웨어 장치 없이 사용자의 음성 입력을 통해 수행할 수 있도록 함으로써, 편리한 인터페이스를 제공할 수 있는 효과가 있다.

Claims

입출력 장치에 있어서,

외부의 음성 명령을 인식하기 위한 음성 인식 수단;

상기 음성 인식 수단으로부터 전달받은 음성 인식 결과에 해당되는 화면상의 포인팅 위치를 계산하기 위한 포인팅 제어 수단;

화면을 디스플레이하기 위한 화면 표시 수단; 및

현재 포인팅 위치와 관련된 각종 명령어를 처리하기 위한 명령어 제어 수단

을 포함하는 음성 인식을 이용한 입출력 장치.
제 1 항에 있어서,

상기 명령어 제어 수단은,

클릭, 더블클릭, 스크롤링을 위한 이벤트 명령어를 처리하는 것을 특징으로 하는 음성 인식을 이용한 입출력 장치.
제 1 항에 있어서,

상기 명령어 제어 수단은,

응용 프로그램 제어, 시스템 설정을 위한 실행 명령어를 처리하는 것을 특징 으로 하는 음성 인식을 이용한 입출력 장치.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 포인팅 제어 수단은,

화면을 일정 크기로 분할하여 포인팅 위치를 계산하는 것을 특징으로 하는 음성 인식을 이용한 입출력 장치.
제 4 항에 있어서,

상기 포인팅 제어 수단은,

세부 포인팅을 위해, 각 분할 영역을 다단계로 재분할하여 포인팅 위치를 계산하는 것을 특징으로 하는 음성 인식을 이용한 입출력 장치.
입출력 장치에서의 음성 인식을 이용한 입출력 방법에 있어서,

외부의 음성 명령을 인식하는 음성 명령 인식 단계;

상기 음성 인식된 명령어에 해당되는 화면상의 포인팅 위치를 계산하는 포인팅 위치 계산 단계;

상기 계산한 포인팅 위치를 식별 가능하도록 디스플레이하는 화면 표시 단 계; 및

상기 포인팅 위치와 관련된 각종 명령어를 실행하는 명령어 처리 단계

를 포함하는 입출력 장치에서의 음성 인식을 이용한 입출력 방법.
제 6 항에 있어서,

상기 명령어 처리 단계는,

클릭, 더블클릭, 스크롤링을 위한 이벤트 명령어를 처리하는 것을 특징으로 하는 입출력 장치에서의 음성 인식을 이용한 입출력 방법.
제 6 항에 있어서,

상기 명령어 처리 단계는,

응용 프로그램 제어, 시스템 설정을 위한 실행 명령어를 처리하는 것을 특징으로 하는 입출력 장치에서의 음성 인식을 이용한 입출력 방법.
제 6 항 내지 제 8 항 중 어느 한 항에 있어서,

상기 포인팅 위치 계산 단계는,

화면을 일정 크기로 분할하여 포인팅 위치를 계산하는 것을 특징으로 하는 입출력 장치에서의 음성 인식을 이용한 입출력 방법.
제 9 항에 있어서,

상기 포인팅 위치 계산 단계는,

상기 분할 영역을 다단계로 재분할하여, 인식되는 음성 명령 차례에 따라 세부 포인팅 위치를 계산하는 것을 특징으로 하는 입출력 장치에서의 음성 인식을 이용한 입출력 방법.