[go: up one dir, main page]

KR100632400B1 - 음성 인식을 이용한 입출력 장치 및 그 방법 - Google Patents

음성 인식을 이용한 입출력 장치 및 그 방법 Download PDF

Info

Publication number
KR100632400B1
KR100632400B1 KR1020050107944A KR20050107944A KR100632400B1 KR 100632400 B1 KR100632400 B1 KR 100632400B1 KR 1020050107944 A KR1020050107944 A KR 1020050107944A KR 20050107944 A KR20050107944 A KR 20050107944A KR 100632400 B1 KR100632400 B1 KR 100632400B1
Authority
KR
South Korea
Prior art keywords
input
speech recognition
output device
pointing
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020050107944A
Other languages
English (en)
Inventor
조관현
한문성
박준석
정영규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020050107944A priority Critical patent/KR100632400B1/ko
Priority to US12/093,091 priority patent/US8478600B2/en
Priority to PCT/KR2006/003605 priority patent/WO2007055470A1/en
Application granted granted Critical
Publication of KR100632400B1 publication Critical patent/KR100632400B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 음성 인식을 이용한 입출력 장치 및 그 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 마우스, 터치패드 등과 같은 별도의 포인팅 입력 장치(즉, 하드웨어 장치)를 구비하지 않고도 음성 인식 기술을 이용하여 사용자의 음성 명령에 따라 포인팅 입력 및 명령어 실행(예 : 응용 프로그램 제어)가 가능하도록 함으로써, 사용자 인터페이스를 향상시키기 위한, 음성 인식을 이용한 입출력 장치 및 그 방법을 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 입출력 장치에 있어서, 외부의 음성 명령을 인식하기 위한 음성 인식 수단; 상기 음성 인식 수단으로부터 전달받은 음성 인식 결과에 해당되는 화면상의 포인팅 위치를 계산하기 위한 포인팅 제어 수단; 화면을 디스플레이하기 위한 화면 표시 수단; 및 현재 포인팅 위치와 관련된 각종 명령어를 처리하기 위한 명령어 제어 수단을 포함한다.
4. 발명의 중요한 용도
본 발명은 입출력 장치 등에 이용됨.
음성 인식, 포인팅 입력, 화면 블록, 입출력 장치

Description

음성 인식을 이용한 입출력 장치 및 그 방법{Apparatus and method for input/output using voice recognition}
도 1 은 본 발명에 따른 음성 인식을 이용한 입출력 장치의 일실시예 구성도,
도 2 는 본 발명에 따른 입출력 장치에서 음성 인식을 이용한 입출력 방법에 대한 일실시예 흐름도,
도 3 은 본 발명에 따른 입출력 장치에서 음성 인식 명령어에 매핑시키기 위한 영역별 화면 분할 상태에 대한 일실시예 설명도,
도 4 는 본 발명에 따른 입출력 장치에서의 포인팅 과정에 대한 일실시예 설명도,
도 5 는 본 발명에 따른 입출력 장치에서 응용 프로그램 제어에 대한 일실시예 설명도이다.
* 도면의 주요 부분에 대한 부호의 설명 *
10 : 음성 인식부 20 : 포인팅 제어부
30 : 화면 표시부 40 : 명령어 제어부
본 발명은 음성 인식을 이용한 입출력 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 마우스, 터치패드 등과 같은 별도의 포인팅 입력 장치(즉, 하드웨어 장치)를 구비하지 않고도 음성 인식 기술을 이용하여 사용자의 음성 명령에 따라 포인팅 입력 및 명령어 실행(예 : 응용 프로그램 제어)가 가능하도록 함으로써, 사용자 인터페이스를 향상시키기 위한, 음성 인식을 이용한 입출력 장치 및 그 방법에 관한 것이다.
본 발명에서 휴대 단말기란 무선통신 단말기, 엠피쓰리 플레이어, 휴대용 멀티미디어 플레이어(PMP) 등과 같이 개인이 휴대하면서 각종 정보를 입/출력할 수 있는 단말기를 말한다.
그리고, 본 발명에서 무선통신 단말기란 이동통신 단말기, 개인휴대통신 단말기(PCS), 개인용디지털 단말기(PDA), 스마트폰, 차세대이동통신 단말기(IMT-2000), 무선랜 단말기 등과 같이 무선통신이 가능한 단말기를 말한다.
최근 무선통신 단말기 등과 같은 소형 휴대 단말기의 소지가 증가하면서 언제 어디서나 자유롭게 통신하며 여러 가지 서비스를 사용할 수 있게 되었다. 무선통신 단말기를 예로 들면, 단순한 통화 기능을 넘어서 무선 인터넷, 멀티미디어 데이터 입출력 등과 같은 여러 부가 서비스를 제공하고 있다. 이러한 사용자의 요구에 부합하는 서비스들은 앞으로 더욱 다양해지고 사용자의 기호에 맞게 특화될 것 으로 예상된다.
이러한 상황에서, 휴대 단말기를 제어하는 방식은 여전히 메뉴를 통한 방식이 대다수를 차지하고 있어 사용자가 원하는 서비스를 사용하기까지 수차례의 키 입력을 통해 해당 메뉴를 찾아가야 하는 문제점이 있었다. 더욱이, 휴대 단말기는 마우스 등과 같은 포인팅 입력 장치를 구비할 수 없고, 그에 따라 특정 위치의 정보를 손쉽게 제어할 수 없는 한계가 있었다. 이를 극복하기 위해서 터치패드 등을 장착할 수도 있으나, 이 역시 고가의 하드웨어 지원이 필요함은 물론 휴대하기에 불편할 수 있으므로 사용자 입장에서 용이하지 않다.
한편, 생체 인식 기술이 발달하면서 음성 인식, 눈동자 움직임 등을 통해 시스템을 제어하는 인터페이스 기술이 다양하게 개발되고 있다.
제1 선행특허로서 대한민국특허 "음성인식이 가능한 컴퓨터시스템 및 그 제어방법(공개번호 10-2003-0010279호, 2003.02.05 공개)"에 대하여 살펴보면, 음성 인식 기능이 지원되지 않은 시스템에서도 사용자가 음성 인식을 통해 시스템을 제어할 수 있도록 하기 위한 기술이다. 즉, 음성 인식을 통해 입력받은 명령어를, 그에 상응하는 시스템 동작모드를 실행하기 위한 키보드 입력신호 혹은 마우스 입력신호의 형태로 변환하여 시스템에 입력하는 기술이다. 이에 의해 음성 인식 기능을 지원하지 않는 일반 응용 프로그램 역시 실행할 수 있도록 한다.
그러나, 상기 제1 선행특허의 경우 일반 응용 프로그램의 제어와 관련된 정보를 미리 습득하여야 이러한 기능을 제공할 수 있으나, 제어 정보가 응용 프로그램에 의존적인 경우가 많으므로 손쉽게 획득할 수 없는 문제점이 있었다.
제2 선행특허로서 대한민국특허 "이동통신 단말기의 메뉴 선택 인터페이스 장치(공개번호 10-2002-0082369호, 2002.10.31 공개)"에 대하여 살펴보면, 차세대 이동통신 단말기에 구비되는 카메라를 이용하여 사용자의 눈동자 움직임을 감지하고 이에 따라 메뉴를 선택할 수 있도록 하는 기술이다. 이에 따라 핸즈프리 인터페이스를 구현할 수 있고 단말기의 가용성을 높일 수 있도록 한다.
그러나, 상기 제2 선행특허의 경우 카메라를 이용하여 사용자의 눈동자를 추적하므로 사용자가 항상 카메라의 시야에 들어와야 하는 공간적 제약과, 빛과 같은 주변 환경에 의한 제약이 발생하는 문제점이 있었다. 또한, 눈동자의 움직임은 순차적이므로 많은 정보를 입력하기 위해서는 많은 눈동자의 움직임이 필요하고 이로 인해 사용자에게 피로함을 유발시키는 문제점이 있었다.
본 발명은 상기 문제점을 해결하기 위하여 제안된 것으로, 마우스, 터치 패드 등과 같은 별도의 포인팅 입력 장치를 구비하지 않고도 음성 인식 기술을 이용하여 사용자의 음성 명령에 따른 포인팅 입력 및 그에 따른 명령어 실행이 가능하도록 함으로써, 사용자 인터페이스를 향상시키기 위한, 음성 인식을 이용한 입출력 장치 및 그 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 장치는, 입출력 장치에 있어서, 외부의 음성 명령을 인식하기 위한 음성 인식 수단; 상기 음성 인식 수단으로부터 전달받은 음성 인식 결과에 해당되는 화면상의 포인팅 위치를 계산하기 위한 포인팅 제어 수단; 화면을 디스플레이하기 위한 화면 표시 수단; 및 현재 포인팅 위치와 관련된 각종 명령어를 처리하기 위한 명령어 제어 수단을 포함한다.
한편, 상기 목적을 달성하기 위한 본 발명의 방법은, 입출력 장치에서의 음성 인식을 이용한 입출력 방법에 있어서, 외부의 음성 명령을 인식하는 음성 명령 인식 단계; 상기 음성 인식된 명령어에 해당되는 화면상의 포인팅 위치를 계산하는 포인팅 위치 계산 단계; 상기 계산한 포인팅 위치를 식별 가능하도록 디스플레이하는 화면 표시 단계; 및 상기 포인팅 위치와 관련된 각종 명령어를 실행하는 명령어 처리 단계를 포함한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실 시예를 상세히 설명하기로 한다.
본 발명은, 사용자의 음성 명령을 인식하여 화면상의 포인팅 입력은 물론 각종 명령어 실행, 즉 이벤트 처리(예 : 클릭, 더블클릭, 스크롤링), 시스템 설정 및 응용 프로그램의 제어가 가능하도록 하여 별도의 입력 장치(예 : 마우스, 터치패드)를 구비하지 않고도 음성 인식을 통해 편리하게 서비스를 사용할 수 있도록 한다.
이하의 상세한 설명에서는, 마이크를 구비한 휴대 단말기에 본 발명에 따른 입출력 장치가 적용된 경우를 예로 들어 설명하기로 한다. 이때, 상기 휴대 단말기에 구비된 마이크는 사용자의 음성을 입력받는데 사용된다.
도 1 은 본 발명에 따른 음성 인식을 이용한 입출력 장치의 일실시예 구성도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 음성 인식을 이용한 입출력 장치는, 사용자의 음성 명령을 인식하기 위한 음성 인식부(10), 상기 음성 인식부(10)로부터 음성 명령 인식 결과를 전달받아 해당되는 화면상의 위치로 변환하기 위한 포인팅 제어부(20), 화면을 디스플레이하기 위한 화면 표시부(30), 포인팅 위치와 관련된 이벤트 명령어, 실행 명령어를 처리하기 위한 명령어 제어부(40)를 포함한다.
여기서, 음성 인식부(10)는 마이크(도시되지 않음)를 통해 입력받은 사용자의 음성을 A/D 변환하고 특징 벡터를 추출한 후, 기 저장된 인식 모델 파라미터를 이용하여 패턴 매칭을 수행한다.
이때, 상기 특징 벡터로는 LPC(Linear Predictive Coefficients), MFCC(Mel-frequency Cepstral Coefficients), PLP(Perceptual Linear Prediction) 등이 사용될 수 있다. 그리고, 상기 인식 모델 파라미터는 DTW(Dynamic Time Warping), 지능망(Neural Network), HMM(Hidden Markov Model) 등과 같은 각종 모델링 기법을 이용하여 기 수집한 다수인의 음성을 통해 학습된 것이다.
그리고, 포인팅 제어부(20)는 음성 인식부(10)로부터 음성 명령 인식 결과를 전달받음에 따라 그에 해당되는 화면상의 위치를 계산한다. 음성 인식된 명령어로부터 화면상의 포인팅 위치를 계산하기 위하여, 화면을 일정 크기로 분할하고 각 분할된 영역을 지칭하기 위한 음성 인식 명령어를 음성 인식 후보 명령어에 매핑시켜 사용한다.
상기 분할된 각 영역(블록)은 여러 단계에 걸쳐 동일한 방식으로 재분할될 수 있는데, 이로써 보다 세밀하게 음성을 통해 포인팅할 수 있도록 한다. 이에 대해서는 도 3 및 도 4를 참조하여 후술하기로 한다.
그리고, 화면 표시부(30)는 포인팅 제어부(20)에 의해 계산된 포인팅 위치를 화면상에 디스플레이하여 사용자에게 피드백을 제공한다. 즉, 화면 표시부(30)는 상기 포인팅 제어부(20)에 의해 계산된 포인팅 위치에 해당하는 영역을 기존 화면에 중첩시켜 화면을 재구성하여 사용자에게 보여준다.
그리고, 명령어 제어부(40)는 현재의 포인팅 위치에서 요청받은 이벤트, 예를 들면 클릭, 더블클릭, 스크롤 업/다운을 위한 이벤트 명령어를 처리하거나, 혹은 일반적인 응용 프로그램(예 : Button 프로그램) 제어 및 시스템 설정을 위한 실 행 명령어를 처리한다. 포인팅 위치에서 발생하는 이벤트 명령에 대해서는 마우스와 동일하게 동작할 수 있도록 정보를 변환하여 운영체제로 전달한다. 또한, 응용 프로그램 제어 명령에 대해서는 운영체제에 적합한 형식의 정보로 변환하여 전달한다.
도 2 는 본 발명에 따른 입출력 장치에서 음성 인식을 이용한 입출력 방법에 대한 일실시예 흐름도이다.
먼저, 음성 인식부(10)가 마이크를 통해 입력받은 사용자의 음성을 음성 명령으로 인식한다(201).
그러면, 포인팅 제어부(20)가 상기 음성 인식부(10)에 의해 음성 인식된 명령어에 해당되는 화면상의 포인팅 위치를 계산한다(202). 그리고, 화면 표시부(30)가 상기 계산된 포인팅 위치에 해당되는 영역을 사용자가 식별할 수 있도록 디스플레이한다(203).
이후, 명령어 제어부(40)가 이벤트 명령어, 혹은 실행 명령어를 처리한다(204). 예를 들면, 특정 영역에 위치한 아이콘을 클릭하여 실행시키는 과정을 수행한다. 이때, 이벤트 명령어는 클릭, 더블클릭, 스크롤 업/다운 등과 같은 이벤트를 처리하기 위한 각종 명령어를 포함하고, 실행 명령어는 시스템 설정과 응용 프로그램의 제어를 위한 각종 명령어를 포함한다.
여기서, 화면 표시부(30)의 화면이 다단계로 분할되어 있어 수차례의 포인팅 입력이 요구되는 경우에는 단계별로 사용자의 음성 명령을 인식하여 그에 따라 각 구성요소가 동작하도록 구현할 수도 있다.
도 3 은 본 발명에 따른 입출력 장치에서 음성 인식 명령어에 매핑시키기 위한 영역별 화면 분할 상태에 대한 일실시예 설명도이다.
도 3에 도시된 바와 같이, 음성 인식 명령어와 매핑시키기 위해 화면을 각 영역별로 분할할 수 있는데, 키패드와 유사한 배열로 위치한 다수의 숫자를 이용하여(32) 각 영역들이 서로 중첩되도록 분할할 수 있다(31).
즉, 블록 1은 서브블록 1, 2, 5, 6을 포함하는 영역으로 구성하고, 블록 2는 서브블록 2,3,6,7을 포함하는 영역으로 구성하며, 블록 3은 3,4,7,8을 포함하는 영역으로 구성할 수 있다. 이와 동일한 방식으로 다수의 블록을 서브블록이 서로 겹치도록 구성할 수 있다.
상기와 같이 분할된 다수의 영역은 각각 해당 블록을 지칭하는 음성 인식 명령어와 매칭된다.
물론, 이러한 분할 영역 구성은 서로 중첩되지 않거나 서로 다른 모양을 갖도록 구성할 수도 있다. 또한, 일반적인 키패드와 동일한 배열로 영역을 분할하여 음성 인식을 이용한 음소 단위의 문자입력방법으로도 활용할 수 있다.
도 4는 본 발명에 따른 입출력 장치에서의 포인팅 과정에 대한 일실시예 설명도이다.
도 4에 도시된 바와 같이, 화면을 다단계로 분할하여 보다 세부적으로 포인팅하도록 할 수도 있다. 여기서는, 2단계로 분할한 경우를 보여준다.
즉, 도 3에서 설명한 바와 같은 방식으로 전체 화면을 서로 중첩되는 다수의 영역으로 한 차례 분할한 후, 각 분할 영역을 동일한 방식으로 한 차례 더 분할함 으로써(포인팅 영역 분할을 두 번 실행함으로써), 포인팅 정밀도를 높일 수 있다.
예를 들면, "41"은 첫 번째로 블록 5를 포인팅한 결과이고, "42"는 두 번째로 상기 포인팅된 블록 5 내에서 블록 2을 포인팅한 결과이다.
도 5 는 본 발명에 따른 입출력 장치에서 응용 프로그램 제어에 대한 일실시예 설명도이다.
도 5에 도시된 바와 같이, 포인팅 입력을 통해 사용자가 원하는 응용 프로그램을 제어할 수도 있다. 이때, 포인팅 입력은 한 차례일 수도 있지만 여러 차례에 걸쳐 이루어져야 할 수도 있다. 여기서는, 세 차례의 포인팅 입력 후에 "BUTTON" 프로그램을 실행하는 경우를 예로 들어 설명하기로 한다.
사용자가 화면의 "BUTTON" 프로그램을 실행하려 할 때, 먼저 블록 1을 포인팅하고(51) 그 다음으로 상기 포인팅된 블록 1 내에서 블록 7을 포인팅한다(52). 각 포인팅 과정마다 해당 영역(블록)이 사용자에 의해 식별 가능하도록 표시된다. 상기 선택된 영역에서 "BUTTON" 아이콘은 블록 2에 위치하고 있으므로 블록 2를 포인팅하고 "클릭"과 같은 음성 명령을 통해 "BUTTON" 프로그램이 실행된다. 상기와 같은 세 차례의 포인팅은 "블록 1", "블록 7", "블록 2"와 같은 음성 명령을 통해 수행될 수 있다.
상기와 같은 본 발명은 마우스, 터치패드 등과 같은 별도의 하드웨어적 입력 장치를 구비하지 않고도 음성 명령을 통해 각종 이벤트(예 : 클릭, 더블클릭, 스크롤링) 처리, 응용 프로그램 제어, 및 시스템 설정이 가능하도록 함으로써, 사용자가 핸즈프리 상태에서 원하는 컴퓨팅 작업을 할 수 있도록 한다. 예를 들면, 손의 사용이 자유롭지 못한 장애인 사용자에게 기존보다 편리한 입출력 방안일 수 있다.
이러한 본 발명에 따른 입출력 장치는 휴대 단말기 등에 적용되어 휴대 단말기에 장착된 마이크를 통해 사용자의 음성 명령을 입력받을 수 있다. 즉, 본 발명에 따른 입출력 장치는 별도의 하드웨어를 요구하지 않으므로, 소형의 휴대 단말기에 적용되어 유용하게 사용될 수 있다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
상기와 같은 본 발명은, 각종 포인팅과 응용 프로그램의 제어 등을 별도의 하드웨어 장치 없이 사용자의 음성 입력을 통해 수행할 수 있도록 함으로써, 편리한 인터페이스를 제공할 수 있는 효과가 있다.

Claims (10)

  1. 입출력 장치에 있어서,
    외부의 음성 명령을 인식하기 위한 음성 인식 수단;
    상기 음성 인식 수단으로부터 전달받은 음성 인식 결과에 해당되는 화면상의 포인팅 위치를 계산하기 위한 포인팅 제어 수단;
    화면을 디스플레이하기 위한 화면 표시 수단; 및
    현재 포인팅 위치와 관련된 각종 명령어를 처리하기 위한 명령어 제어 수단
    을 포함하는 음성 인식을 이용한 입출력 장치.
  2. 제 1 항에 있어서,
    상기 명령어 제어 수단은,
    클릭, 더블클릭, 스크롤링을 위한 이벤트 명령어를 처리하는 것을 특징으로 하는 음성 인식을 이용한 입출력 장치.
  3. 제 1 항에 있어서,
    상기 명령어 제어 수단은,
    응용 프로그램 제어, 시스템 설정을 위한 실행 명령어를 처리하는 것을 특징 으로 하는 음성 인식을 이용한 입출력 장치.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 포인팅 제어 수단은,
    화면을 일정 크기로 분할하여 포인팅 위치를 계산하는 것을 특징으로 하는 음성 인식을 이용한 입출력 장치.
  5. 제 4 항에 있어서,
    상기 포인팅 제어 수단은,
    세부 포인팅을 위해, 각 분할 영역을 다단계로 재분할하여 포인팅 위치를 계산하는 것을 특징으로 하는 음성 인식을 이용한 입출력 장치.
  6. 입출력 장치에서의 음성 인식을 이용한 입출력 방법에 있어서,
    외부의 음성 명령을 인식하는 음성 명령 인식 단계;
    상기 음성 인식된 명령어에 해당되는 화면상의 포인팅 위치를 계산하는 포인팅 위치 계산 단계;
    상기 계산한 포인팅 위치를 식별 가능하도록 디스플레이하는 화면 표시 단 계; 및
    상기 포인팅 위치와 관련된 각종 명령어를 실행하는 명령어 처리 단계
    를 포함하는 입출력 장치에서의 음성 인식을 이용한 입출력 방법.
  7. 제 6 항에 있어서,
    상기 명령어 처리 단계는,
    클릭, 더블클릭, 스크롤링을 위한 이벤트 명령어를 처리하는 것을 특징으로 하는 입출력 장치에서의 음성 인식을 이용한 입출력 방법.
  8. 제 6 항에 있어서,
    상기 명령어 처리 단계는,
    응용 프로그램 제어, 시스템 설정을 위한 실행 명령어를 처리하는 것을 특징으로 하는 입출력 장치에서의 음성 인식을 이용한 입출력 방법.
  9. 제 6 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 포인팅 위치 계산 단계는,
    화면을 일정 크기로 분할하여 포인팅 위치를 계산하는 것을 특징으로 하는 입출력 장치에서의 음성 인식을 이용한 입출력 방법.
  10. 제 9 항에 있어서,
    상기 포인팅 위치 계산 단계는,
    상기 분할 영역을 다단계로 재분할하여, 인식되는 음성 명령 차례에 따라 세부 포인팅 위치를 계산하는 것을 특징으로 하는 입출력 장치에서의 음성 인식을 이용한 입출력 방법.
KR1020050107944A 2005-11-11 2005-11-11 음성 인식을 이용한 입출력 장치 및 그 방법 Active KR100632400B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020050107944A KR100632400B1 (ko) 2005-11-11 2005-11-11 음성 인식을 이용한 입출력 장치 및 그 방법
US12/093,091 US8478600B2 (en) 2005-11-11 2006-09-11 Input/output apparatus based on voice recognition, and method thereof
PCT/KR2006/003605 WO2007055470A1 (en) 2005-11-11 2006-09-11 Input/output apparatus based on voice recognition, and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050107944A KR100632400B1 (ko) 2005-11-11 2005-11-11 음성 인식을 이용한 입출력 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR100632400B1 true KR100632400B1 (ko) 2006-10-11

Family

ID=37635488

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050107944A Active KR100632400B1 (ko) 2005-11-11 2005-11-11 음성 인식을 이용한 입출력 장치 및 그 방법

Country Status (3)

Country Link
US (1) US8478600B2 (ko)
KR (1) KR100632400B1 (ko)
WO (1) WO2007055470A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10629196B2 (en) 2013-05-21 2020-04-21 Samsung Electronics Co., Ltd. Apparatus, system, and method for generating voice recognition guide by transmitting voice signal data to a voice recognition server which contains voice recognition guide information to send back to the voice recognition apparatus

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9794348B2 (en) * 2007-06-04 2017-10-17 Todd R. Smith Using voice commands from a mobile device to remotely access and control a computer
US8434153B2 (en) * 2009-08-24 2013-04-30 Microsoft Corporation Application display on a locked device
KR101474856B1 (ko) * 2013-09-24 2014-12-30 주식회사 디오텍 음성인식을 통해 이벤트를 발생시키기 위한 장치 및 방법
JP2015207181A (ja) * 2014-04-22 2015-11-19 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
US20170047065A1 (en) * 2014-05-13 2017-02-16 Nam Tae Park Voice-controllable image display device and voice control method for image display device
WO2016017978A1 (en) * 2014-07-31 2016-02-04 Samsung Electronics Co., Ltd. Device and method for performing functions
CN105100460A (zh) * 2015-07-09 2015-11-25 上海斐讯数据通信技术有限公司 一种声音操控智能终端的方法及系统
CN105653164B (zh) * 2015-07-31 2019-02-01 宇龙计算机通信科技(深圳)有限公司 一种语音输入用户事件的方法及终端
CN105677152A (zh) * 2015-12-31 2016-06-15 宇龙计算机通信科技(深圳)有限公司 一种语音触屏操作处理的方法、装置以及终端
CN105955602B (zh) * 2016-04-19 2019-07-30 深圳市全智达科技有限公司 一种移动终端操作方法及装置
CN106371801A (zh) * 2016-09-23 2017-02-01 安徽声讯信息技术有限公司 一种基于语音识别技术的语音鼠标系统
AU2018226844B2 (en) 2017-03-03 2021-11-18 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
JP2973726B2 (ja) * 1992-08-31 1999-11-08 株式会社日立製作所 情報処理装置
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
US5748974A (en) * 1994-12-13 1998-05-05 International Business Machines Corporation Multimodal natural language interface for cross-application tasks
JP3363283B2 (ja) * 1995-03-23 2003-01-08 株式会社日立製作所 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
DE69619592T2 (de) * 1995-04-11 2002-11-07 Dragon Systems Inc Bewegung eines auf dem Bildschirm gezeigten Zeigers
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
KR19990041133A (ko) * 1997-11-21 1999-06-15 윤종용 음성을 이용한 화면제어방법
KR20010009476A (ko) 1999-07-09 2001-02-05 이주섭 적외선 무선 헤드 마우스
US6542866B1 (en) * 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
KR100367590B1 (ko) 2000-04-28 2003-01-10 엘지전자 주식회사 정보 표시 장치 및 방법
KR20020030156A (ko) 2000-10-16 2002-04-24 박기범 음성인식을 이용한 컴퓨터 프로그램의 제어방법
KR100677294B1 (ko) 2001-04-23 2007-02-05 엘지전자 주식회사 이동통신 단말기의 메뉴 선택 인터페이스 장치
KR20030010279A (ko) 2001-07-26 2003-02-05 삼성전자주식회사 음성인식이 가능한 컴퓨터시스템 및 그 제어방법
US20020158827A1 (en) * 2001-09-06 2002-10-31 Zimmerman Dennis A. Method for utilization of a gyroscopic or inertial device as a user interface mechanism for headmounted displays and body worn computers
US7036080B1 (en) * 2001-11-30 2006-04-25 Sap Labs, Inc. Method and apparatus for implementing a speech interface for a GUI

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10629196B2 (en) 2013-05-21 2020-04-21 Samsung Electronics Co., Ltd. Apparatus, system, and method for generating voice recognition guide by transmitting voice signal data to a voice recognition server which contains voice recognition guide information to send back to the voice recognition apparatus
US11024312B2 (en) 2013-05-21 2021-06-01 Samsung Electronics Co., Ltd. Apparatus, system, and method for generating voice recognition guide by transmitting voice signal data to a voice recognition server which contains voice recognition guide information to send back to the voice recognition apparatus
US11869500B2 (en) 2013-05-21 2024-01-09 Samsung Electronics Co., Ltd. Apparatus, system, and method for generating voice recognition guide by transmitting voice signal data to a voice recognition server which contains voice recognition guide information to send back to the voice recognition apparatus

Also Published As

Publication number Publication date
US20080288260A1 (en) 2008-11-20
US8478600B2 (en) 2013-07-02
WO2007055470A1 (en) 2007-05-18

Similar Documents

Publication Publication Date Title
US8478600B2 (en) Input/output apparatus based on voice recognition, and method thereof
US11532306B2 (en) Detecting a trigger of a digital assistant
EP4057279B1 (en) Natural assistant interaction
US10395659B2 (en) Providing an auditory-based interface of a digital assistant
US10230841B2 (en) Intelligent digital assistant for declining an incoming call
US10789945B2 (en) Low-latency intelligent automated assistant
EP3320459B1 (en) Distributed personal assistant
US11010550B2 (en) Unified language modeling framework for word prediction, auto-completion and auto-correction
US10592601B2 (en) Multilingual word prediction
US10366158B2 (en) Efficient word encoding for recurrent neural network language models
EP3120344B1 (en) Visual indication of a recognized voice-initiated action
US20190122666A1 (en) Digital assistant providing whispered speech
EP2426598B1 (en) Apparatus and method for user intention inference using multimodal information
US7548859B2 (en) Method and system for assisting users in interacting with multi-modal dialog systems
EP4060659B1 (en) Low-latency intelligent automated assistant
EP3593350B1 (en) User interface for correcting recognition errors
DK179558B1 (en) DETECTING A TRIGGER OF A DIGITAL ASSISTANT
EP4298501B1 (en) Predictive input interface having improved robustness for processing low precision inputs
KR20090022465A (ko) 단말기 메뉴 선택 방법 및 이를 구비한 단말기
Stern et al. State-machine based approach for improving robustness in multimodal control

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20051111

PA0201 Request for examination
E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20060922

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20060928

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20060929

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20090901

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20100901

Start annual number: 5

End annual number: 5

PR1001 Payment of annual fee

Payment date: 20110831

Start annual number: 6

End annual number: 6

FPAY Annual fee payment

Payment date: 20120910

Year of fee payment: 7

PR1001 Payment of annual fee

Payment date: 20120910

Start annual number: 7

End annual number: 7

FPAY Annual fee payment

Payment date: 20130829

Year of fee payment: 8

PR1001 Payment of annual fee

Payment date: 20130829

Start annual number: 8

End annual number: 8

LAPS Lapse due to unpaid annual fee