KR101567995B1

KR101567995B1 - 인터랙션을 지원하는 사용자 인터페이스를 제공하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Info

Publication number: KR101567995B1
Application number: KR1020140135253A
Authority: KR
Inventors: 박정민; 이중재; 장효종
Original assignee: 한국과학기술연구원; 재단법인 실감교류인체감응솔루션연구단
Priority date: 2014-10-07
Filing date: 2014-10-07
Publication date: 2015-11-10
Anticipated expiration: 2034-10-07

Abstract

본 발명의 일 태양에 따르면, 전자 장치를 이용하여 사용자의 인터랙션을 인식하기 위한 방법으로서, (a) 상기 전자 장치가, 복수의 인식 알고리즘들을 사용하여 복수의 인식 결과들을 생성하는 단계, 및 (b) 상기 전자 장치가, 상기 복수의 인식 결과들을 인터랙션 타입의 정의에 따라 조합함으로써 상기 인터랙션 타입의 의미 강도를 나타내는 상기 인터랙션 타입의 확신 값을 생성하는 단계를 포함하는 방법이 제공된다. 본 발명에 의하면, 느슨하게 결합된 개발 방식을 통해, 하위 계층의 인식 알고리즘 또는 지각추론 등에 대한 구체적인 지식이 없는 일반 사용자도 인터랙션 타입의 추상적 의미 및 의미 강도 등을 이해하면, 인터랙션 타입의 조합으로써 인터랙션 어플리케이션에 응용할 수 있는 효과가 달성된다.

Description

인터랙션을 지원하는 사용자 인터페이스를 제공하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체{METHOD, APPRATUS AND COMPUTER-READABLE RECORDING MEDIUM FOR PROVIDING USER INTERFACE WHICH ENALBES INTERACTION}

본 발명은 인터랙션을 지원하는 사용자 인터페이스를 제공하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체에 관한 것으로, 보다 상세하게는, 복수의 인식 알고리즘들을 사용하여 복수의 인식 결과들을 생성하고, 생성된 복수의 인식 결과들을 인터랙션 타입의 정의에 따라 조합함으로써 인터랙션 타입의 의미 강도를 나타내는 인터랙션 타입의 확신 값을 제공할 수 있도록 하는 방법, 장치, 시스템 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.

인간 및 컴퓨팅 환경 간의 인터랙션 인터페이스에 대한 수요가 날로 증가하고 있으며, 자연스런 인터랙션 장치(Natural Interaction Device) 및 에스디케이(SDK)와 같은 인터랙션 인터페이스의 기술이 개발되고 있다.

인터랙션 인터페이스에 관련된 어플리케이션이 개발될 때, 어플리케이션에서 사용되는 인터랙션은 인식 알고리즘을 통해 정의 및 응용된다. 인식 알고리즘을 통해 인터랙션을 정의 및 응용함에 있어서, 인식 알고리즘 및 어플리케이션은 밀접하게 연계되어(Tightly-coupled) 개발되는 것이 일반적이다. 말하자면, 일반적으로 기존의 휴먼 센싱 기술은 미리 결정된 특정한 동작이 검출되었을 때 검출된 동작에 대응하는 기능이 수행되도록 구현된다. 이러한 밀접하게 연계된 형태의 개발 방식은, 인식 기술 등 핵심적인 모듈의 재사용성을 떨어뜨리는 원인이 된다. 말하자면, 밀접하게 연계된 형태의 개발 방식은, 어플리케이션에 관련된 작업 목적 또는 환경이 변경될 경우, 변경된 작업 목적 또는 변경된 환경에 맞도록 인식 알고리즘의 코드가 대폭적으로 수정되거나, 인식 알고리즘에 관련된 일련의 파라미터들이 조정되어야 한다는 비효율성의 문제를 갖는다.

예를 들면, 오픈엔아이(OpenNI) 및 인텔 인식 컴퓨팅 에스디케이(Intel Perceptual Computing SDK) 등과 같은 종래의 인식 라이브러리에서 제공되는 인식 알고리즘들은, 장치에 종속적이거나, 종류에 있어서 제한된다는 문제점을 갖는다. 또한, 종래의 인식 라이브러리는 확장성 및 재사용성의 측면에 있어서도 문제점을 갖는다. 말하자면, 종래의 인식 라이브러리는, 인식 라이브러리에서 단순하게 제공되는 인식 알고리즘 외의 합리적인 알고리즘을 적용하는 것이 어려우며, 사람의 의도를 정확하게 반영하기 어렵다는 문제점을 갖는다.

이에, 본 발명자는, 인식 알고리즘을 포함하는 기존의 인식 모듈의 계층(Layer) 위에, 새로운 추상화 계층(Abstraction Layer)을 추가하고, 인식 알고리즘들의 결과에 대한 지각추론(Perceptual Inference)을 사용함으로써 인식 알고리즘 및 어플리케이션에 관련하여 느슨하게 결합된(Loosely Coupled) 구현을 가능하게 하는 기술을 개발하기에 이르렀다.

본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.

또한, 본 발명은 인식 모듈의 계층의 상위에, 인터랙션 타입이라는 추상화 계층을 추가하고, 인식 알고리즘들의 인식 결과들에 대한 지각추론을 사용함으로써, 인식 모듈 및 인터랙션 타입의 사이에서의 느슨하게 결합된 구현과 인터랙션 타입 및 어플리케이션의 사이에서의 느슨하게 결합된 구현을 지원하는 것을 다른 목적으로 한다.

상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.

본 발명의 일 태양에 따르면, 인터랙션을 지원하는 사용자 인터페이스를 제공하기 위한 방법으로서, (a) 상기 전자 장치가, 복수의 인식 알고리즘들을 사용하여 복수의 인식 결과들을 생성하는 단계, 및 (b) 상기 전자 장치가, 상기 복수의 인식 결과들을 인터랙션 타입의 정의에 따라 조합함으로써 상기 인터랙션 타입의 의미 강도를 나타내는 상기 인터랙션 타입의 확신 값을 생성하는 단계를 포함하는 방법이 제공된다.

본 발명의 다른 태양에 따르면, 인터랙션을 지원하는 사용자 인터페이스를 제공하기 위한 전자 장치로서, 복수의 인식 알고리즘들을 사용하여 복수의 인식 결과들을 생성하는 복수의 인식부들, 및 상기 복수의 인식 결과들을 인터랙션 타입의 정의에 따라 조합함으로써 상기 인터랙션 타입의 의미 강도를 나타내는 상기 인터랙션 타입의 확신 값을 생성하는 추론부를 포함하는 전자 장치가 제공된다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 장치, 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하기 위한 컴퓨터 판독 가능한 기록 매체가 더 제공된다.

본 발명에 의하면, 느슨하게 결합된 개발 방식을 통해, 하위 계층(Layer)의 인식 알고리즘 또는 지각추론 등에 대한 구체적인 지식이 없는 일반 사용자도 인터랙션 타입의 추상적 의미 및 의미 강도 등을 이해하면, 인터랙션 타입의 조합으로써 인터랙션 어플리케이션에 응용할 수 있는 효과가 달성된다.

또한, 본 발명에 의하면, 느슨하게 결합된 개발 방식을 통해, 인식 알고리즘 또는 지각추론을 연구하는 개발자는 인터랙션 어플리케이션에 자신이 개발한 인식 알고리즘 및 추론 알고리즘을 자유롭게 추가 또는 조합함으로써 기존에 정의된 인터랙션 타입의 구성을 변경하거나 혹은 새로운 인터랙션 타입을 정의할 수 있게 되는 효과가 달성된다.

또한, 본 발명에 의하면, 추상화된 인터랙션 타입은 특정한 어플리케이션에 한정되지 않고 유사한 인터랙션을 요구하는 다수의 어플리케이션들에 중복하여 사용될 수 있으며, 따라서 재사용성이 높은 인터랙션 타입이 제공되는 효과가 달성된다.

또한, 본 발명에 의하면, 동일한 의미의 인터랙션 타입에 대하여 여러가지의 서로 상이한 인식 알고리즘들 및 추론 알고리즘들이 추가 또는 변경될 수 있으며, 따라서 확장성이 높은 인터랙션 타입이 제공되는 효과가 달성된다.

도 1은 본 발명의 일 실시예에 따른 인터랙션을 설명한다.
도 2는 본 발명의 일 실시예에 따른 인터랙션 타입의 분류를 나타낸다.
도 3은 본 발명에 따른 전자 장치의 내부 구성을 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 사용자 인터페이스 엔진을 설명한다.
도 5는 본 발명의 일 실시예에 따른 어플리케이션에서 사용되는 인터랙션 타입 및 인터랙션 타입을 위해 사용되는 인식부를 나타낸다.
도 6a는 본 발명의 일 실시예에 따른 인터랙션 타입의 확신 값의 예를 설명한다.
도 6b는 본 발명의 일 실시예에 따른 인터랙션 타입의 확신 값의 예를 설명한다.
도 7은 본 발명의 일 실시예에 따른 적응적 지각추론을 설명한다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

인터랙션 및 인터랙션 타입

도 1은 본 발명의 일 실시예에 따른 인터랙션을 설명한다.

본 발명의 일 실시예에 따르면, 인터랙션은 2개 이상의 물체들 또는 2명 이상의 사람들 사이에서 서로에게 영향을 줄 수 있는 행위(Action)을 의미할 수 있다. 인터랙션은 인간(Human) 대 세상(World)의 인간-세상(Human-World) 인터랙션(또는, 인간-물체 인터랙션)과, 인간 대 인간의 인간-인간 인터랙션으로 분류될 수 있다. 도 1에서는, 인간-세상 인터랙션의 일 예로서, 다른 사람(즉, 상대방) 및 물체(즉, 체스말)에 관련된 인터랙션이 도시되었다.

본 발명의 일 실시예에 따르면, 인터랙션 타입(Interaction type)은 인터랙션을 기술(Descript)할 수 있는 상위 레벨의 추상적 설명(High-level abstract description)을 의미할 수 있다.

일반적으로, 인터랙션에 관련하여, 기존의 어플리케이션은 인식의 레벨까지 제한적으로 접근한다. 반면, 본 발명의 일 실시예에 따르면, 의미있는 인터랙션을 위해서는 해석이 요구된다. 예를 들면, 도 1에서 도시된 것과 같이, 인간-세상 인터랙션에는 인식의 레벨뿐만 아니라, 해석, 의도 및 행동에 관련된 다른 레벨들이 포함될 수 있다.

비언어적 메시지는, 1) 언어 표현을 강조하거나 수정하고, 2) 감정 상태에 대한 정보를 전달하고, 3) 사람들 간의 관계를 정의하거나 강화하고, 4) 대화의 흐름을 조정하는 등의 기능을 수행할 수 있다. 예를 들면, 언어 표현의 강조에 있어서, 사람은 다른 사람의 말에 공감한다는 것을 강조하기 위해 '예'라고 말하며 고개를 열정적으로 끄덕일 수 있다. 또한, 언어 표현의 수정에 있어서, 사람은 어깨를 으쓱거리며 '나 정말 괜찮아'라고 말하면서, 슬픈 표정을 지음으로써 자신의 말의 의미와는 다른 상태를 암시할 수 있다. 또한, 대화의 흐름에 조정에 있어서 사람은 신호를 통해서 다른 사람들에게 자신이 할 말이 끝났음을 표시하거나 남은 할 말이 있음을 나타낼 수 있다. 말하자면, 인간 및 인간 간 또는 인간 및 물체 간에 주고 받는 메시지들을 이해함에 있어서, 기존의 음성 언어의 비중만큼이나, 또는 기존의 음성 언어의 비중의 이상으로 비언어적 단서(Nonverbal), 즉 행동 신호(Behavioral signal)가 큰 역할을 할 수 있다.

본 발명의 일 실시예에 따르면, 인간-인간 인터랙션 또는 인간-물체 인터랙션의 해석은 행동 신호의 해석으로 간주될 수 있다. 본 발명의 실시예에 따른 인터랙션 타입의 분류는 행동 신호의 분류 체계를 따라 정의될 수 있다. 아래에서, 도 2를 참조하여 인터랙션 타입의 분류가 예시된다.

도 2는 본 발명의 일 실시예에 따른 인터랙션 타입의 분류를 나타낸다.

전술된 것과 같이, 인터랙션 타입은 인간 대 물체의 인터랙션 및 인간 대 인간의 인터랙션으로 분류될 수 있다. 예를 들면, 인간 대 물체의 인터랙션의 카테고리는, 설명자(Illustrator) 및 조종자(Manipulator) 등을 포함할 수 있다. 또한, 인간 대 인간의 인터랙션의 카테고리는, 설명자, 조종자, 조절자(Regulator) 및 감정적 상태(Affective State) 등을 포함할 수 있다. 도 2에서는, 인간 대 물체의 인터랙션의 카테고리가 더 상세하게 도시되었다. 예를 들면, 설명자의 카테고리는, 가리킴(Pointing), 기호(Ideograph) 및 응시(EyeGaze) 등을 포함할 수 있다. 또한, 조종자의 카테고리는 접근(Approach), 물러남(Recede), 응시, 집기(Grasp), 이동(Translation) 및 회전(Rotation) 등을 포함할 수 있다. 도 2를 참조하여 설명된 인간 대 물체의 인터랙션의 카테고리의 예는 인간 대 인간의 인터랙션의 카테고리에도 확장하여 적용될 수 있다.

아래에서, 인터랙션의 카테고리가 상세하게 설명된다.

(i) 설명자는 구두의(Verbal) 메시지를 묘사하는 행동일 수 있다. 설명자의 예로서, 가리키는(pointing) 것 또는 그림을 그리는(Drawing) 것이 있고, '계속 계속 반복(Over and over again)'의 구절(Phrase)을 수반하는(Accompany) 원형의 손 동작(Hand Movement)이 있고, '저쪽에(Over there)'를 말할 때 특정한 방향으로 머리를 끄덕이는 것이 있다.

(ii) 조종자는 환경 내의 물체들에 대해 액션을 취하기 위해 사용되는 행동일 수 있다. 조종자의 예로서, 선택(Select), 집기, 이동 및 회전이 있다. 또한, 조종자는, 특히 적응자들(Adaptors)로 불리는, 스스로 조종하는(Manipulative) 행동들일 수 있다. 스스로 조종하는 행동들의 예로서, 긁기(Scratching), 불편한 안경의 조절(Adjusting uncomfortable glasses), 팬 두드리기(Tapping pens), 머리 꼬기(Twirling Hair) 및 장신구(Jewelry)를 가지고 놀기 등이 있고, 불안함에 손톱들을 무는 것과 같은 심리적인 필요의 표출(Represent a psychological need)이 있다.

(iii) 조절자는 우리가 다른 이들에게 대화하는 것을 유지, 요청 또는 거부하게 허용하는 행동일 수 있다. 조절자의 예로서, 시선의 교환(Exchange of a look), 머리의 끄덕임(Head nods), 머리의 흔듦(Head shake), '으응(uh-huh)' 및 '음(mm-mm)'과 같은 짧은 소리 및 흥미나 지루함의 표현들이 있다. 조절자는 다른 사람이 흥미 또는 동의의 레벨을 반영할 수 있도록 그 또는 그녀의 말에 맞추는 것을 허용할 수 있다. 많은 사람들은 피드백을 받아드리지 않는 채로는 대화를 유지하는 것이 어렵다는 것을 알 것이다.

(iv) 감정적 상태는 감정적인 상태를 묘사하는 행동일 수 있다.

아래에서, 인터랙션 타입의 예로, 체스 게임에서의 인터랙션들이 예시된다.

(i) 조종자들로서, (물체을) (똑바로) (흘겨서) '쳐다본다', (체스말을) '선택한다(잡는다)', (체스말을) '이동' 및 (체스말을) '회전' 등이 있다.

또한, 셀프-조종자들(Self-Manipulators)(말하자면, 적응자들)로서, 마스크(Mask)(손을 겹쳐 턱을 받침) 및 손톱 물기 등이 있다.

(ii) 조절자들로서, (상대를) (똑바로) (흘겨서) '쳐다본다', (고개를 위아래로) '끄덕인다' 및 (고개를 좌우로) '흔든다.' 등이 있다.

(iii) 설명자들로서, 가리킴(Pointing), (고개를 위아래로 살짝) 끄덕임 등이 있다. 끄덕임의 예로서, '저쪽으로'라고 말하면서 머리를 특정한 방향으로 끄덕이는 것이 있다.

(iv) 감정적인 상태들로서, 얼굴 표현(Facial expression)이 있다. 얼굴 표현의 예로서, 놀람(Surprise), 행복함(Happy), 슬픔(Sad), 화남(Angry), 들뜸(Exciting) 및 지루함(Boring)이 있다.

장치의 구성

도 3은 본 발명에 따른 전자 장치의 내부 구성을 나타내는 도면이다.

도 3에 도시되어 있는 바와 같이, 전자 장치(300)는 인터랙션 타입부(310), 추론부(320) 및 복수의 인식부들(330)을 포함할 수 있다. 여기서, 전자 장치(300)는 센서(340)를 더 포함할 수도 있다.

본 발명의 일 실시예에 따르면, 인터랙션 타입부(310), 추론부(320) 및 복수의 인식부들(330)은 그 중 적어도 일부가 외부 시스템과 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 전자 장치(300)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈 중 적어도 일부는 전자 장치(300)와 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트 및 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.

본 발명의 일 실시예에 따르면, 전자 장치(300)는 인터랙션 타입부(310), 추론부(320), 복수의 인식부들(330) 및 센서(340)를 사용하여 사용자의 인터랙션을 인식할 수 있다.

(i) 우선, 본 발명의 일 실시예에 따르면, 센서(340)는 영상을 촬영하는 영상 촬영 장치일 수 있다. 예를 들면, 센서(340)는 컬러 카메라, 깊이 카메라 또는 적외선 카메라일 수 있다. 센서(340)는 음향을 녹음하는 음향 녹음 장치일 수 있다. 예를 들면, 센서(340)는 마이크일 수 있다. 센서(340)는 하나 이상일 수 있으며, 하나 이상의 센서들은 각각 영상을 촬영하거나 음향을 녹음할 수 있다. 촬영된 영상 또는 녹음된 음향은 후술될 인식 알고리즘들에 의해 입력 데이터로서 사용될 수 있다.

(ii) 다음으로, 본 발명의 일 실시예에 따르면, 인터랙션 타입부(310)는 인터랙션 타입을 정의할 수 있다. 말하자면, 인터랙션 타입부(310)는 인터랙션 타입의 정의를 위해 요구되는 데이터를 관리할 수 있다.

본 발명의 일 실시예에 따르면, 인터랙션 타입부(310)는 '쳐다봄', '선택', '이동' 및 '회전' 등의 의미를 갖는 인터랙션 타입을 정의할 수 있다. 인터랙션 타입부(310)는 '쳐다봄', '선택', '이동' 및 '회전' 등과 같은 기본적인 단위로 표현된 인터랙션 타입 외에도 더 구체적으로 표현된 인터랙션 타입을 정의할 수 있다. 말하자면, 인터랙션 타입부(310)는 정의된 인터랙션 타입에 대하여 하나 이상의 하위의 인터랙션 타입들을 정의할 수 있다. 예를 들면, 인터랙션 타입부(310)는 '쳐다봄'의 의미를 갖는 인터랙션 타입에 대한 구체적인 인터랙션 타입들로서, 쳐다보는 대상 및 방식에 따라, '사람을 쳐다봄', '물체를 쳐다봄', '똑바로 쳐다봄' 및 '흘겨서 쳐다봄' 등과 같은 인터랙션 타입들을 정의할 수 있다.

본 발명의 일 실시예에 따르면, 인터랙션 타입은 인터랙션의 최소 의미 단위로 정의 및 분류될 수 있다. 추상화(Abstraction)된 인터랙션 타입은 하나 이상의 최소 의미들의 조합일 수 있으며, 정의된 인터랙션 타입은 전자 장치(300) 등에서 동작하는 어플리케이션에서 응용될 수 있다.

본 발명의 일 실시예에 따르면, 인터랙션 타입의 정의는 복수의 인식 알고리즘들의 결과들에 적응적 지각추론을 적용하는 형식으로 이루어질 수 있다.

(iii) 다음으로, 본 발명의 일 실시예에 따르면, 복수의 인식부들(330)은 복수의 인식 알고리즘들을 사용하여 복수의 인식 결과들을 생성할 수 있다. 복수의 인식부들(330)의 각 인식부는 인식 알고리즘을 사용하여 인식 결과를 생성할 수 있다. 복수의 인식부들(330)은 서로 상이한 인식 알고리즘을 사용할 수 있다.

본 발명의 일 실시예에 따르면, 각 인식 알고리즘은 센서(340)에 의해 촬영된 영상 및 녹음된 음향 중 적어도 하나를 입력 데이터로서 사용하여, 입력 데이터에 대한 인식 결과를 생성할 수 있다. 센서(340)가 복수일 경우, 복수의 인식부들(330)의 각 인식부는, 복수의 센서들 중 인식 알고리즘이 요구하는 형태의 입력 데이터를 출력하는 일부의 센서로부터 입력 데이터를 수신할 수 있다.

본 발명의 일 실시예에 따르면, 복수의 인식부들(330)는 기존의 인식 알고리즘 또는 전자 장치(300)의 사용자에 의해 개발된 인식 알고리즘을 복수의 인식 알고리즘들에 추가할 수 있다.

(vi) 다음으로, 본 발명의 일 실시예에 따르면, 추론부(320)는 복수의 인식 결과들을 인터랙션 타입의 정의에 따라 조합함으로써 인터랙션 타입의 확신(Confidence) 값을 생성할 수 있다. 말하자면, 복수의 인식부들(330)은 인터랙션 타입의 정의에 따라 인터랙션 타입의 확신 값을 생성하기 위해 요구되는 인식 결과들을 제공하는 인식 알고리즘들을 수행하는 주체들일 수 있다.

본 발명의 일 실시예에 따르면, 인터랙션 타입의 확신 값은 인터랙션 타입의 의미 강도를 나타낼 수 있다. 인터랙션 타입의 의미 강도는, 전자 장치(300)에서 사용되는 영상 및 음향 중 하나 이상이 인터랙션 타입이 의미하는 인터랙션을 나타내는 강도일 수 있으며, 영상 또는 음향이 인터랙션 타입이 의미하는 인터랙션을 나타낼 확률 또는 확률에 비례하는 값일 수 있다. 말하자면, 인터랙션 타입의 확신 값은 인터랙션에 대한 확신도를 나타내는 값일 수 있다. 여기에서, 영상은 센서(340)에 의해 촬영된 영상일 수 있고, 어플리케이션에서 사용되는 영상 또는 어플리케이션에서 출력되는 영상일 수 있다. 음향은 센서(340)에 의해 녹음된 영상일 수 있고, 어플리케이션에서 사용 또는 출력되는 음향일 수 있다. 개발자는 인터랙션 타입 및 인터랙션 타입의 확신 값을 이용하여, 인식 알고리즘의 내용 또는 결과에 대한 구체적인 이해 없이도, 인터랙션 타입의 추상적인 수준의 의미만을 사용하여 인터랙션 타입을 용이하게 어플리케이션에 적용할 수 있다.

본 발명의 일 실시예에 따르면, 확신 값은 가령 0 이상 1 이하의 값일 수 있고, 0 이상 1 이하의 값은 확신도를 나타낼 수 있다. 확신 값이 더 높을수록 영상 또는 음향이 인터랙션 타입의 의미에 부합하는 내용을 가질 가능성이 더 높다는 것을 나타낼 수 있다.

본 발명의 일 실시예에 따르면, 추론부(320)는 복수의 인식 알고리즘들에 의해 생성된 복수의 인식 결과들을 정량적으로 결합함으로써 인터랙션 타입의 확신 값을 생성할 수 있다. 또한, 추론부(320)는 복수의 인식 결과들에 적응적인 추론 결합을 적용함으로써 인터랙션 타입의 확신 값을 생성할 수 있다. 추론부(320)는 확률적 분석, 구조적 분석 및 시간적 분석 중 하나 이상에 기반하여 복수의 인식 결과들에 적응적인 추론 결합을 적용함으로써 인터랙션 타입의 확신 값을 생성할 수 있다. 말하자면, 인터랙션 타입은 복수의 인식 알고리즘들에 의해 생성된 복수의 인식 결과들의 정량적인 결합뿐만 아니라, 복수의 인식 결과들에 대한 확률적 분석, 구조적 분석 및 시간적 분석에 기반한 적응적인 추론 결합에 의해 구성될 수도 있다.

본 발명의 일 실시예에 따르면, 추론부(320)는 복수의 인식 알고리즘들에 의해 생성된 복수의 인식 결과들 중 인터랙션 타입의 정의에 따라 선택된 소정의 인식 결과들을 조합함으로써 인터랙션 타입의 확신 값을 생성할 수 있다. 말하자면, 추론부(320)는 복수의 인식 알고리즘들에 의해 생성된 전체의 인식 결과들 중 인터랙션 타입에 관련된 일부의 인식 결과들을 사용하여 인터랙션 타입의 확신 값을 생성할 수 있다. 인터랙션 타입부(310)는 인터랙션 타입에 대하여, 인터랙션 타입과 관련된 인식 결과들을 정의할 수 있고, 인식 결과들을 조합하는 방식을 정의할 수 있다.

본 발명의 일 실시예에 따르면, 확신 값을 생성하기 위해 사용되는 영상은 시간의 흐름에 따른 일련의 영상들일 수 있다. 말하자면, 영상은 하나 이상의 프레임들을 포함할 수 있다. 추론부(320)는 영상의 프레임 별로 또는 임의의 프레임 주기마다 인터랙션 타입의 확신 값을 생성할 수 있다. 추론부(320)는 영상의 하나 이상의 프레임들에 대하여, 각 프레임 별로 또는 임의의 프레임 주기마다 인터랙션 타입의 확신 값을 생성할 수 있다. 인터랙션 타입의 확신 값은 시간의 흐름에 따라 변화할 수 있다.

본 발명의 일 실시예에 따르면, 인터랙션 타입은 복수일 수 있다. 인터랙션 타입부(310)는 복수의 인터랙션 타입들을 각각 정의할 수 있고, 추론부(320)는 복수의 인터랙션 타입들의 각각에 대하여 확신 값을 생성할 수 있다. 추론부(320)는 복수의 인터랙션 타입들의 각 인터랙션 타입에 대하여, 전자 장치(300)에 가용한 복수의 인식 결과들 중 각 인터랙션 타입의 정의에 따라 선택된 인식 결과들을 조합함으로써 인터랙션 타입 별로 확신 값을 생성할 수 있다. 또한, 추론부(320)는 복수의 인터랙션 타입들의 각 인터랙션 타입에 대하여, 각 인터랙션 타입의 확신 값을 프레임 별로 또는 임의의 프레임 주기마다 생성할 수 있다.

본 발명의 일 실시예에 따르면, 인터랙션 타입부(310)는 인터랙션 타입의 정의를 변경할 수 있고, 추론부(320)는 인터랙션 타입의 정의의 변경에 따라, 복수의 인식 결과들의 조합을 변경할 수 있고, 인터랙션 타입의 확신 값의 생성을 위해 사용되는 복수의 인식 알고리즘들 및 상기 복수의 인식 알고리즘들에 대응하는 복수의 인식부들을 변경할 수 있다. 말하자면, 시간의 흐름에 따라 인터랙션 타입의 확신 값을 생성하기 위해 사용되는 인식부들의 조합(또는, 인식 알고리즘들의 조합)이 변경될 수 있다. 인터랙션 타입의 정의의 변경 및 복수의 인식 결과들의 조합의 변경을 통해, 복수의 인식 결과들의 조합은 특정한 조합에 국한되지 않을 수 있다. 또한, 인터랙션 타입부(310) 및 추론부(320)는 인터랙션 타입의 정의의 변경 및 복수의 인식 결과들의 조합의 변경을 통해, 인터랙션 타입을 확장시킬 수 있다. 예를 들면, 새로운 인식 알고리즘이 기존의 복수의 인식 알고리즘들에 추가된 경우, 인터랙션 타입부(310) 및 추론부(320)는 새로운 인식 알고리즘을 사용하도록 인터랙션 타입의 정의 및 복수의 인식 결과들의 조합을 변경할 수 있다. 또한, 인터랙션 타입의 정의 및 복수의 인식 결과들의 조합에 있어서, 경우의 수는 한정되지 않는다.

사용자 인터페이스 엔진

도 4는 본 발명의 일 실시예에 따른 사용자 인터페이스 엔진을 설명한다.

본 발명의 일 실시예에 따르면, 사용자 인터페이스 엔진(400)은 인터랙션의 유형화를 지원하는 유형화된(Typed) 인터랙션 인터페이스 엔진일 수 있다. 여기에서, 사용자 인터페이스 엔진(400)은 사용자 인터페이스와 관련된 프레임워크(Framework)일 수 있다. 전자 장치(300)는 전자 장치(300) 내부에서 동작하는 어플리케이션 또는 전자 장치(300)의 외부에서 실행되는 어플리케이션에게 사용자 인터페이스 엔진(400)을 제공할 수 있다.

도 2에서 도시된 것과 같이, 사용자 인터페이스 엔진(400)은 인터랙션 타입 계층(410), 지각추론 계층(420) 및 인식 알고리즘 계층(430)을 포함할 수 있다. 인터랙션 타입 계층(410)은 지각추론 계층(420)의 상위 계층일 수 있고, 지각추론 계층(420)은 인식 알고리즘 계층(430)의 상위 계층일 수 있다.

본 발명의 일 실시예에 따르면, 인터랙션 타입 계층(410), 지각추론 계층(420) 및 인식 알고리즘 계층(430)은 도 3을 참조하여 전술된 인터랙션 타입부(310), 추론부(320) 및 복수의 인식부들(330)에 각각 대응할 수 있다. 말하자면, 인터랙션 타입부(310), 추론부(320) 및 복수의 인식부들(330)은 인터랙션 타입 계층(410), 지각추론 계층(420) 및 인식 알고리즘 계층(430)을 각각 구현할 수 있다.

본 발명의 일 실시예에 따르면, 3개의 계층들로 구성된 사용자 인터페이스 엔진(400)은 인터랙션과 관련된 기존의 개발 방식을 개선하기 위해 사용될 수 있다. 3개의 계층들은 느슨하게 결합된 구조를 가질 수 있다. 여기에서, 3개의 계층들의 느슨하게 결합된 구조는 개념적으로 프로그래밍 언어 또는 라이브러리에서의 계층적 구조와 유사할 수 있다. 예를 들면, 라이브러리에서, 하위의 계층에서 운영 체제에 종속적인 함수들이 구현될 수 있고, 상위의 계층에서 운영 체제에 독립적인 운영 체제 추상화 계층(Operating System Abstraction Layer)의 함수들이 구현될 수 있다. 또한, 운영 체제 추상화 클래스(Operating System Abstraction Class)의 함수들은 운영 체제 추상화 계층의 함수들을 사용하여 구현될 수 있다. 어플리케이션은, 운영 체제에 종속적인 하위 계층에 무관하게 제공되는, 운영 체제 추상화 클래스의 함수들을 사용하여 구현될 수 있다. 전술된 것과 같은 라이브러리의 계층적인 계층들의 구조와 유사한 개념으로, 하위 계층에 해당하는 인식 알고리즘 및 지각추론에 독립적으로 인터랙션 타입이 제공될 수 있다.

본 발명의 일 실시예에 따르면, 사용자는 하위의 계층인 인식 알고리즘 계층(430) 및 지각추론 계층(420)에 대한 상세한 이해 없이도, 제공되는 인터랙션 타입들을 사용하여 어플리케이션을 용이하게 개발할 수 있다.

본 발명의 일 실시예에 따르면, 인식 알고리즘 계층(430)에서는 공통(Common) 인터페이스 모듈이 제공될 수 있다. 공통 인터페이스 모듈은 제안되는 가이드라인에 맞추어 인식 알고리즘으로의 입력의 형태 및 인식 알고리즘으로부터의 출력의 형태를 일원화시키는 메소드(Method)를 제공할 수 있다. 말하자면, 복수의 인식 알고리즘들은 공용 인터페이스 모듈을 통해 추론부(320)에 의해 사용될 수 있고, 복수의 인식 알고리즘들에 의해 생성된 복수의 인식 결과들은 공용 인터페이스 모듈을 통해 인터랙션 타입의 확신 값의 생성을 위해 추론부(320)에게 제공될 수 있다. 공통 인터페이스 모듈을 통해, 서로 다른 인식 알고리즘들에 의해 생성된 다양한 형태의 인식 결과가 일관된 형태로 추론부(320)에게 제공될 수 있다. 또한, 공통 인터페이스 모듈을 통해, 서로 다른 센서들에 의해 생성된 다양한 형태의 입력 데이터가 인식 알고리즘에게 제공될 수 있다. 또한, 공통 인터페이스 모듈을 통해 다양한 환경들에서 개발된 기존의 다양한 인식 알고리즘들이 전자 장치(300)에 용이하게 추가될 수 있다.

본 발명의 일 실시예에 따르면, 공통 인터페이스 모듈은 입력 데이터, 출력 데이터 및 인식 알고리즘의 파라미터에 대한 인터페이스일 수 있다. 예를 들면, 입력 데이터는 인식 알고리즘의 수행에 요구되는 데이터로서, 컬러 영상, 깊이 영상 및 음향 등을 포함할 수 있다. 출력 데이터는 인식 알고리즘의 수행의 결과를 저장하기 위해 요구되는 데이터로서, 얼굴 영역 좌표 등을 포함할 수 있다. 파라미터는 인식 알고리즘의 성능을 조절하기 위해 사용되는 값으로서, 에지 결정을 위한 임계 값 등을 포함할 수 있다.

예를 들면, 인식 알고리즘은 공통 인터페이스의 공통 함수를 갖는 추상 클래스를 상속하고, 상속된 추상 클래스를 오버라이드(Override)함으로써 사용자 인터페이스 엔진이 자동 수행되게 할 수 있다. 사용자 인터페이스 엔진이 수행됨에 따라 인식 알고리즘의 인식 결과가 추론부(320)로 제공될 수 있다.

인터랙션 타입의 정의의 예

도 5는 본 발명의 일 실시예에 따른 어플리케이션에서 사용되는 인터랙션 타입 및 인터랙션 타입을 위해 사용되는 인식부를 나타낸다.

도 5의 상단에는, 어플리케이션들의 예로서, (i) 저것을 저기에 놓을 것(Put that there), (ii) 가상 쇼핑, (iii) 가상 체스 및 (iv) 로봇 학습(Teaching robot)이 도시되었다. 또한, 각 어플리케이션에서 사용되는 인터랙션 타입이 도시되었다. 도 5에서 인터랙션 타입은 'IT'(Interaction Type)로 약술되었다. 예를 들면, 'IT 1'은 첫 번째의 인터랙션 타입을 나타낼 수 있다. 예를 들면, 가상 쇼핑 어플리케이션에서는 IT 1, IT 6, IT 7 및 IT 8이 사용될 수 있다.

도 5의 중단 및 하단에는, 각 인터랙션 타입의 의미와, 인터랙션 타입의 확신 값을 생성하기 위해 사용되는 인식부들이 도시되었다. 도 5에서 인식부는 'PU'(Perception Unit)로 약술되었다. 예를 들면, 'PU 1'은 첫 번째의 인식부를 나타낼 수 있다.

도 5에서 도시된 것과 같이, 예를 들면, IT 1의 의미는 '쳐다본다'일 수 있고, IT 1의 확신 값을 생성하기 위해 PU 7, PU 4 및 PU 5가 사용될 수 있다. 말하자면, IT 1의 확신 값을 생성하기 위해 PU 7, PU 4 및 PU 5의 인식 알고리즘들의 인식 결과들이 사용될 수 있다.

다시 도 5의 하단을 참조하면, 인식부들의 예가 도시되었다. 예를 들면, PU 1 내지 PU 7의 복수의 인식부들은 각각, 몸체(Body)를 추적(Track)하는 인식 알고리즘을 수행하는 몸체 추적부, 손을 추적하는 인식 알고리즘을 수행하는 손 추적부, 음성을 인식하는 인식 알고리즘을 수행하는 음성 인식부, 머리 자세(Headpose)를 추정(Estimate)하는 인식 알고리즘을 수행하는 머리 자세 추정부, 시선을 추적하는 인식 알고리즘을 수행하는 응시 추적부, 물체를 추적하는 인식 알고리즘을 수행하는 ?레 추적부 및 얼굴을 인식하는 인식 알고리즘을 수행하는 얼굴 인식부를 포함할 수 있다.

예를 들면, '쳐다본다'의 인터랙션 타입의 확신 값을 생성하기 위해서는 얼굴 인식, 머리 자세 추정 및 시선 추적의 인식 알고리즘들이 사용될 수 있으며, '쳐다본다'의 인터랙션 타입의 정의에 따라서, 전체의 인식부들(또는, 인식 알고리즘들) 중 얼굴 인식, 머리 자세 추정 및 시선 추적의 선택된 인식부들(또는, 선택된 인식 알고리즘들)의 인식 결과들이 '쳐다본다'의 인터랙션 타입의 확신 값을 생성하기 위해 사용될 수 있다.

확신 값의 출력의 예

도 6a는 본 발명의 일 실시예에 따른 인터랙션 타입의 확신 값의 예를 설명한다.

도 6a에서는, 도시된 영상에 대한 복수의 인터랙션 타입들의 명칭 및 확신 값들이 도시되었다.

또한, 도 6a에서는, 인터랙션 타입의 확신 값을 생성하기 위한 복수의 인식 알고리즘들은 손에 대한 손 추적의 인식 알고리즘 및 체스 조작에 대한 물체 추적의 인식 알고리즘을 포함하는 것으로 도시되었다. 또한, 조종(Manipulation)의 카테고리에 속하는 복수의 인터랙션 타입들로서, 접근, 응시(즉, 시선), 집기, 이동 및 회전의 인터랙션 타입들과, 각 인터랙션 타입의 확신 값이 도시되었다.

도 6a에서 도시된 것과 같이, 도시된 영상이 접근, 응시, 집기 및 이동을 나타낼 가능성이 상당히 높고, 상대적으로 회전을 나타낼 가능성은 낮다.

도 6b는 본 발명의 일 실시예에 따른 인터랙션 타입의 확신 값의 예를 설명한다.

도 6b에서는, 도시된 영상에 대한 복수의 인터랙션 타입들의 명칭 및 확신 값들이 도시되었다.

또한, 도 6b에서는, 인터랙션 타입의 확신 값을 생성하기 위한 복수의 인식 알고리즘들은 얼굴에 대한 얼굴 인식 알고리즘을 포함하는 것으로 도시되었다. 또한, 조종의 카테고리에 속하는 복수의 인터랙션 타입들로서, 접근, 응시, 집기, 이동 및 회전의 인터랙션 타입들과, 각 인터랙션 타입의 확신 값이 도시되었다.

도 6b에서 도시된 것과 같이, 도시된 영상이 접근 및 응시를 나타낼 가능성이 상대적으로 높고, 상대적으로 집기, 이동 및 회전을 나타낼 가능성은 거의 없다.

도 6a의 영상 및 도 6b의 영상이 일련의 영상들 중 특정한 시점(Time)에서의 영상일 때, 도 6a 및 도 6b에서 도시된 것과 같이, 하나의 영상에 대해서, 서로 다른 인터랙션 타입들의 서로 다른 확신 값들이 생성될 수 있다. 또한, 인터랙션 타입의 확신 값은 시간이 흐름에 따라 변할 수 있으며, 인터랙션 타입의 확신 값을 생성하기 위해 사용되는 인식 알고리즘(또는, 인식부) 또한 시간이 흐름에 따라 변할 수 있다.

적응적 지각추론

도 7은 본 발명의 일 실시예에 따른 적응적 지각추론을 설명한다.

본 발명의 일 실시예에 따르면, 전술된 것처럼, 복수의 인식 알고리즘들의 복수의 인식 결과들이 조합되어 하나의 인터랙션 타입의 확신 값을 계산하기 위해 사용될 때, 복수의 인식 결과들이 공통 인터페이스 모듈을 이용하여 일원화되는 것 외에도, 복수의 인식 결과들에 대해서 보다 복잡한 해석이 요구될 수 있다.

본 발명의 일 실시예에 따르면, 인터랙션 타입부(310)는 복수의 인식 알고리즘들에 의해 생성된 복수의 인식 결과들의 정량적인 결합에 상기 복수의 인식 결과들에 대한 확률적, 구조적 및 시간적인 추론 해석을 더하여, 고차원의 추상적 의미를 가지는 인터랙션 타입을 구성할 수 있다. 추론부(320)는, 인터랙션 타입의 정의에 따라, 복수의 인식 알고리즘들에 의해 생성된 복수의 인식 결과들의 정량적인 결합에 상기 복수의 인식 결과들에 대한 확률적, 구조적 및 시간적인 추론 해석을 더하여 인터랙션 타입의 확신 값을 계산할 수 있다. 예를 들면, '쳐다봄'의 의미를 갖는 인터랙션 타입을 구성하는 인식 알고리즘들의 인식 결과들은 그대로 정량적으로만 결합되지 않고, 추론부(320)의 확률적, 구조적 및 시간적인 추론 해석을 위해 사용되며, 추론 해석의 결과는 인터랙션 타입의 확신 값으로 표현될 수 있다.

본 발명의 일 실시예에 따르면, 정량적 결과는 인식부(또는, 인식 알고리즘)로부터 출력되어 추론부(320)로 입력되는 데이터일 수 있다. 예를 들면, 얼굴 인식과 관련된 인식 알고리즘은 얼굴 인식을 통해 얼굴의 중심, 눈, 코 등과 같은 얼굴의 기본 요소들의 위치 좌표들 등을 정량적 수치로 나타낼 수 있다. 또한, 머리 자세 추정과 관련된 인식 알고리즘은 머리의 중심 좌표들 및 상기 중심 좌표들을 기준으로 한 x 축, y 축 및 z 축의 각각으로 기울어진 각도 등을 정량적 수치로 나타낼 수 있다. 정량적 결과는 인식 알고리즘에서 생성되는 이러한 정량적 수치를 포함할 수 있다.

본 발명의 일 실시예에 따르면, 시간적 분석, 확률적 분석 및 계층적 분석은 베이지안(Bayesian) 기반 추론과 같은 적응적 지각 추론 내에서 서로 간에 유기적으로 연관되어 사용될 수 있다. 아래에서는, 본 발명의 일 실시예에 따른 시간적 추론, 확률적 추론 및 계층적 추론이 차례로 설명된다.

일반적으로, 인간 행동 인식 과정에서는, 순차적인 영상들에 나타난 인간의 자세를 추적해나가면서 쌓인 모델링 데이터를 이용해 인간의 행동을 분류한다. 예를 들어, 베이지안 모델 또는 히든 마르코브 모델(Hidden Markov Model)에서는, 인간 행동들의 각각을 상태(State)로 표현할 수 있고, 상태들 간의 전이(Transition)에 따라 인간의 행동을 구분할 수 있다. 이 때, 상태들은 이전의 상태 및 이후의 상태와 같은 시간의 전후 관계로 연결되어 있다. 본 발명의 일 실시예에 따르면, 시간적 분석은 시간의 전후 관계로 연결된 상태들을 포괄적으로 고려하는 추론을 포함할 수 있다.

본 발명의 일 실시예에 따르면, 전술된 시간적 분석에서 언급된 상태들은 소정의 확률로 연결될 수 있다. 말하자면, 확률적 분석은 하나의 의미를 갖는 행동을 인식함에 있어서, 상기 행동을 구성하는 각 상태들(말하자면, 소 행동들) 간의 전이의 확률을 계산 및 학습하는 것을 포함할 수 있다. 예를 들면, 확률적 분석은 하나의 영상(또는, 프레임)으로부터 획득된 특징이 다음의 영상(또는, 프레임)에서 나타날 위치를 예측하는 추론 해석을 포함할 수 있다.

본 발명의 일 실시예에 따르면, 계층적 분석은 인간의 행동에 있어서 계층적으로 나타내는 일련의 행동들을 추론하는 계층적 추론 해석을 포함할 수 있다. 예를 들면, 사람이 체스판의 체스말을 잡기 위해서 몸을 앞으로 기울이고, 어깨를 움직이고, 팔을 움직이고, 손을 움직이고, 손가락을 움직임에 따라, 최종적으로 '집기'가 이루어진다. 이러한 일련의 움직임들은 각각이 독립적인 것이 아니라, 계층적인 단계들 또는 상위의 단계로 종속되는 단계들을 가질 수 있다. 이러한 경우, 손가락의 움직임을 추적하여 '집기'라는 행동을 인식하기 위해서, 사람의 몸, 어깨, 팔 및 손을 계층적인 순서로 인식 및 추론하는 접근 방식을 취하는 계층적 추론 해석이 사용될 수 있다.

본 발명의 일 실시예에 따르면, 추론부(320)는, 규칙 기반 추론, 베이지안 기반 추론 및 퍼지 기반 추론 중 하나 이상에 기반하여 적응적인 추론 결합을 적용함으로써 인터랙션 타입의 확신 값을 생성할 수 있다.

본 발명의 일 실시예에 따르면, 규칙 기반 추론은 미리 정해진 논리적 규칙에 의해 결과를 추론하는 방법일 수 있다. 예를 들면, 규칙 기반 추론은 알고리즘의 구현에 있어서, 'A이고, B이면 C이다'와 같은 미리 정해진 논리적 규칙을 사용하며, 상기 논리적 규칙에 의하여 결과를 추론할 수 있다.

본 발명의 일 실시예에 따르면, 베이지안 기반 추론은, 통계적 추론의 한 방법으로서, 추론해야 하는 대상의 사전 확률 및 상기 대상에 대한 추가적인 관측을 통해 상기 대상의 사후 확률을 추론하는 방법일 수 있다. 베이지안 기반 추론은 시간적 추론 해석 및 확률적 추론 해석을 포함할 수 있다.

도 7에서는, 베이지안 기반 추론의 단계들을 통한 베이지안 통합에 대해 상세하게 도시되었다.

본 발명의 일 실시예에 따르면, 사전 지식은 사전 확률을 포함할 수 있으며, 복수의 인식부들(330)에 의해 생성된 복수의 인식 결과들을 포함할 수 있다. 베이지안 이론은 두 확률 변수들의 사전 확률 및 사후 확률 간의 관계를 나타내는 정리를 포함할 수 있다. 말하자면, 베이지안 이론의 정리는 새로운 근거가 제시될 때 사후 확률이 어떻게 갱신되는지를 나타낼 수 있다. 게인(Gain) 함수(또는 손실(Loss) 함수)는 플러스 오차 및 마이너스 오차를 부가하는 기능을 제공할 수 있다. 측정 함수는, 사후 확률의 값 및 게인 함수 값을 조합함으로써 결과를 도출할 수 있다. 여기에서, 결과는 인터랙션 타입의 확신 값을 포함할 수 있다. 측정 함수는 결정 규칙(Decision rule)을 포함할 수 있다.

본 발명의 일 실시예에 따르면, 추론부(320)는 베이지안 기반 추론에 기반하여 적응적인 추론 결합을 적용함에 있어서, 큐 조합(Cue combination), 계층적 추론 및 인과(Casual) 추론 중 하나 이상을 사용할 수 있다. 큐 조합은 드러난 단서들을 조합함으로써 결과를 도출하는 추론 방법일 수 있다. 인과 추론은 현재 발생한 상황들을 기반으로, 상황들 간의 인과 관계를 통하여 결과를 도출하는 추론 방법일 수 있다.

본 발명의 일 실시예에 따르면, 퍼지 기반 추론은 퍼지 이론에 기반하는 추론일 수 있다. 컴퓨터의 논리 회로가 '0' 및 '1'이라는 절대적인 기준에 의해 움직이는 것에 비하여, 퍼지 이론은 인간의 지능으로 이루어질 수 있는 사고, 학습 및 자기 개발 등이 컴퓨터에게도 가능하게 할 수 있는 방법을 연구하는 신경망의 한 갈래일 수 있다. 퍼지 이론은 확률을 포함하는 비결정적인 정보, 또는 정확한 판단이 아닌 애매한 정보 등 인간적인 감정을 이해함으로써 숙련자의 경험 및 육감 등 복잡하고 미묘한 정보를 처리해야 하는 자동화 분야에서 각종의 응용 제품들을 개발함에 있어서 가장 기초가 될 수 있는 이론일 수 있다. 예를 들어, 우리나라 남자의 평균 신장이 170cm라고 가정하면, 종래의 이론에 따르면 평균 이상의 신장을 갖는 사람은 큰 사람으로 규정될 수 있다. 즉, 키가 169.5cm인 사람은 키가 작고, 키가 170.5cm인 사람은 키가 크다고 평가될 수 있다. 그러나, 퍼지 이론은 중간 값을 고려해서 '조금 작다' 또는 '조금 크다'등과 같이 크기의 정도를 표시할 수 있다. 따라서, 퍼지 이론은 지금까지의 이분법에 의해 단정된 판단을 하는 과학 이론으로는 표시될 수 없는 여러 가지 작업들을 가능하게 할 수 있다. 인간의 말, 행동, 사고 또는 평가는 매우 주관적이어서 구체적인 수치로 규정되기에는 많은 제한 및 문제가 발생할 수 있다. 퍼지 이론은 인간의 행태를 이분법에 의해 양분하지 않고, 확률적인 이론을 도입함으로써 인간의 행태에 대하여 모호한 기준 및 표현까지도 수용하여 파악할 수 있다.

이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

300: 전자 장치
310: 인터랙션 타입부
320: 추론부
330: 복수의 인식부들
400: 사용자 인터페이스 엔진
410: 인터랙션 타입 계층
420: 지각추론 계층
430: 인식 알고리즘 계층

Claims

인터랙션을 지원하는 사용자 인터페이스를 제공하기 위한 방법으로서,
(a) 전자 장치가, 복수의 인식 알고리즘들을 사용하여 복수의 인식 결과들을 생성하는 단계; 및
(b) 상기 전자 장치가, 상기 복수의 인식 결과들을 인터랙션 타입의 정의에 따라 조합함으로써 상기 인터랙션 타입의 의미 강도를 나타내는 상기 인터랙션 타입의 확신 값을 생성하는 단계
를 포함하는 방법.
제1항에 있어서,
(a0) 상기 전자 장치가, 상기 인터랙션 타입을 정의하는 단계
를 더 포함하는 방법.
제1항에 있어서,
상기 전자 장치는, 상기 인터랙션 타입의 정의의 변경 정보가 획득되면 복수의 인식 결과들의 조합을 변경하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (b) 단계에서,
상기 전자 장치는, 상기 복수의 인식 결과들을 정량적으로 결합함으로써 상기 확신 값을 생성하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (b) 단계에서,
상기 전자 장치는, 상기 복수의 인식 결과들에 적응적인 추론 결합을 적용함으로써 상기 확신 값을 생성하는 것을 특징으로 하는 방법.
제5항에 있어서,
상기 (b) 단계에서,
상기 전자 장치는, 확률적 분석, 구조적 분석 및 시간적 분석 중 하나 이상에 기반하여 상기 복수의 인식 결과들에 적응적인 추론 결합을 적용함으로써 상기 확신 값을 생성하는 것을 특징으로 하는 방법.
제5항에 있어서,
상기 (b) 단계에서,
상기 전자 장치는, 규칙 기반 추론, 베이지안 기반 추론 및 퍼지 기반 추론 중 하나 이상에 기반하여 상기 적응적인 추론 결합을 적용함으로써 상기 확신 값을 생성하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 복수의 인식 알고리즘들은 공용 인터페이스 모듈을 통해 상기 전자 장치에 의해 사용되고, 상기 복수의 인식 결과들은 상기 공용 인터페이스 모듈을 통해 상기 확신 값의 생성을 위해 제공되는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 인터랙션 타입은 복수이고, 상기 확신 값은 상기 복수의 인터랙션 타입들의 각각에 대하여 생성되는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (b) 단계에서,
상기 확신 값은 영상의 프레임 별로 또는 임의의 프레임 주기마다 생성되는 것을 특징으로 하는 방법.
제1항 내지 제10항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
인터랙션을 지원하는 사용자 인터페이스를 제공하기 위한 전자 장치로서,
복수의 인식 알고리즘들을 사용하여 복수의 인식 결과들을 생성하는 복수의 인식부들; 및
상기 복수의 인식 결과들을 인터랙션 타입의 정의에 따라 조합함으로써 상기 인터랙션 타입의 의미 강도를 나타내는 상기 인터랙션 타입의 확신 값을 생성하는 추론부
를 포함하는 전자 장치.
제12항에 있어서,
상기 인터랙션 타입을 정의하는 인터랙션 타입부
를 더 포함하는 전자 장치.
제12항에 있어서,
상기 인터랙션 타입의 정의의 변경 정보가 획득되면,
상기 추론부는 상기 인터랙션 타입의 정의의 변경에 따라 상기 복수의 인식 결과들의 조합을 변경하는 것을 특징으로 하는 전자 장치.
제12항에 있어서,
상기 추론부는 상기 복수의 인식 결과들을 정량적으로 결합함으로써 상기 확신 값을 생성하는 것을 특징으로 하는 전자 장치.
제12항에 있어서,
상기 추론부는 상기 복수의 인식 결과들에 적응적인 추론 결합을 적용함으로써 상기 확신 값을 생성하는 것을 특징으로 하는 전자 장치.
제16항에 있어서,
상기 추론부는 확률적 분석, 구조적 분석 및 시간적 분석 중 하나 이상에 기반하여 상기 복수의 인식 결과들에 적응적인 추론 결합을 적용함으로써 상기 확신 값을 생성하는 것을 특징으로 하는 전자 장치.
제16항에 있어서,
상기 추론부는 규칙 기반 추론, 베이지안 기반 추론 및 퍼지 기반 추론 중 하나 이상에 기반하여 상기 적응적인 추론 결합을 적용함으로써 상기 확신 값을 생성하는 것을 특징으로 하는 전자 장치.
제12항에 있어서,
상기 복수의 인식 알고리즘들은 공용 인터페이스 모듈을 통해 상기 전자 장치에 의해 사용되고, 상기 복수의 인식 결과들은 상기 공용 인터페이스 모듈을 통해 상기 확신 값의 생성을 위해 제공되는 것을 특징으로 하는 전자 장치.
제12항에 있어서,
상기 인터랙션 타입은 복수이고, 상기 확신 값은 상기 복수의 인터랙션 타입들의 각각에 대하여 생성되는 것을 특징으로 하는 전자 장치.
제12항에 있어서,
상기 확신 값은 영상의 프레임 별로 또는 임의의 프레임 주기마다 생성되는 것을 특징으로 하는 전자 장치.