[go: up one dir, main page]

KR20180074152A - 보안성이 강화된 음성 인식 방법 및 장치 - Google Patents

보안성이 강화된 음성 인식 방법 및 장치 Download PDF

Info

Publication number
KR20180074152A
KR20180074152A KR1020160177941A KR20160177941A KR20180074152A KR 20180074152 A KR20180074152 A KR 20180074152A KR 1020160177941 A KR1020160177941 A KR 1020160177941A KR 20160177941 A KR20160177941 A KR 20160177941A KR 20180074152 A KR20180074152 A KR 20180074152A
Authority
KR
South Korea
Prior art keywords
electronic device
user
speech recognition
voice
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
KR1020160177941A
Other languages
English (en)
Inventor
심우철
김일주
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020160177941A priority Critical patent/KR20180074152A/ko
Priority to EP17883679.7A priority patent/EP3555883A4/en
Priority to PCT/KR2017/015168 priority patent/WO2018117660A1/en
Priority to US15/852,705 priority patent/US20180182393A1/en
Publication of KR20180074152A publication Critical patent/KR20180074152A/ko
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3231Monitoring the presence, absence or movement of users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

개시된 일 실시 예에 따른 전자 장치는, 음성 신호를 입력 받기 위한 입력부 및 음성 인식을 수행하는 제어부를 포함하고, 제어부는, 입력부의 활성화 여부에 기초해서, 음성 인식을 수행할지 여부를 결정한다.

Description

보안성이 강화된 음성 인식 방법 및 장치 {Security enhanced speech recognition method and apparatus}
보안성이 강화된 음성 인식 방법 및 장치에 관한 것으로, 구체적으로는 음성 인식을 수행하기 전에 음성 신호에 대해 인증(Authentication)을 수행하고, 인증된 음성 신호에 대해서만 음성 인식을 수행하여 보안성을 강화하는 음성 인식 방법 및 장치에 관한 것이다.
음성 인식은 입력 받은 사용자의 음성을 자동으로 텍스트로 변환하여 인식하는 기술이다. 근래에 들어 스마트폰이나 TV 등에서 키보드 입력을 대체하기 위한 인터페이스 기술로써 음성 인식이 사용되고 있다. 특히, 차량, 가정 내에서 음성 인식을 위한 편리한 인터페이스가 제공되고 있으며 음성 인식을 사용할 수 있는 환경은 급속도로 증가하고 있다. 예를 들어, 삼성사의 'S Voice', 아마존사의 '에코(Echo)', 애플사의 '시리(Siri)', 구글사의 'OK google'과 같은 음성 인식 시스템을 사용하여 사용자는 음악 재생, 물건 주문, 사이트 접속 등의 다양한 기능을 실행시킬 수 있다.
그러나, 전자 장치에 대해 정당한 권한이 없는 사용자로부터 입력된 음성 신호가 음성 인식 시스템을 통해 명령이 생성되어 보안성에 대한 문제가 발생될 수 있다. 전자 장치에 대해 정당한 권한이 없는 사용자는, 음성 인식 시스템을 통해 전자 장치에 저장된 정보를 훼손, 변조, 위조 또는 유출시킬 수 있다.
음성 신호에 대해 인증을 수행하여, 인증된 음성 신호에 대해서만 음성 인식을 수행하는 음성 인식 방법 및 장치가 제공될 수 있다.
또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 있다. 본 실시 예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 이하의 실시 예들로부터 또 다른 기술적 과제들이 유추될 수 있다.
일 실시 예에 따른 전자 장치는, 음성 신호를 입력 받기 위한 입력부 및 음성 인식을 수행하는 제어부를 포함하고, 상기 제어부는, 상기 입력부의 활성화 여부에 기초해서, 음성 인식을 수행할지 여부를 결정하는 것을 특징으로 할 수 있다.
일 실시 예에 따른 전자 장치에 의해 수행되는 음성 인식 방법은, 음성 신호를 입력 받기 위한 상기 전자 장치 내의 입력부의 활성화 여부를 판단하는 단계 및 상기 입력부가 활성화된 경우에만 음성 인식을 수행하는 단계를 포함하는 것을 특징으로 할 수 있다.
상기 음성 인식 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다.
도1은 일 실시 예에 따른 전자 장치가 음성 인식을 수행하는 환경을 나타낸다.
도2는 일 실시 예에 따른 전자 장치의 블록도를 나타낸다.
도3은 구체적 실시 예에 따른 전자 장치의 블록도를 나타낸다.
도4는 일 실시 예에 따른 음성 신호에 대한 인증을 위한 소정의 조건을 나타낸다.
도5는 일 실시 예에 따른 음성 인식 방법의 흐름도를 나타낸다.
도6는 추가적 실시 예에 따른 음성 인식 방법의 흐름도를 나타낸다.
이하에서는 첨부된 도면을 참고하여 본 발명의 바람직한 실시 예를 상세히 설명한다. 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 개시된 실시 예들은 당해 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서에서 사용되는 용어는 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 명세서 전반에 걸친 내용을 토대로 정의되어야 한다. 이하에서는 도면을 참조하여 실시 예들을 상세히 설명한다. 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
또한, 명세서에서 사용되는 "부" 또는 "모듈"이라는 용어는 FPGA 또는 ASIC과 같은 하드웨어 구성요소 또는 회로를 의미할 수 있다.
도1은 일 실시 예에 따른 전자 장치가 음성 인식을 수행하는 환경을 나타낸다.
전자 장치(100)에는 입력된 음성 신호로부터 명령을 생성하는 음성 인식 기능이 내장될 수 있다. 일 실시 예에 따른 전자 장치(100)는 텔레비전, 세탁기, 냉장고, 전등, 청소기와 같은 가전 제품, 전화, PDA, 스마트폰, 태블릿, 전자책, 손목시계(스마트 워치), 안경(스마트 글래스), 차량용 네비게이션, 차량용 오디오, 차량용 비디오, 차량용 통합 미디어 시스템, 텔레매틱스, 노트북 등의 휴대용 단말이나 텔레비젼(TV), 개인용 컴퓨터(Personal Computer), 지능형 로봇, 스피커 중 어느 하나일 수 있으나 이에 제한되지 않는다.
예를 들어, 전자 장치(100)가 가정 또는 사무실 내의 음성 인식 기능이 내장된 스피커인 경우, 사용자는 전자 장치(100)에 음악을 재생하라는 명령을 내리거나, 미리 등록해둔 일정을 물어볼 수도 있다. 또한, 사용자는 전자 장치(100)에 날씨나 스포츠 경기 일정을 물어보거나 전자책을 읽으라는 명령을 내릴 수도 있다.
일 실시 예에 따라, 음성 인식 장치(110)가 전자 장치(100)의 음성 인식 기능을 수행하기 위해 내장될 수 있다. 예를 들어, 전자 장치(100)가 스피커인 경우, 음성 인식 장치(110)는 스피커 내에 장착되어 음성 인식을 수행하기 위한 하드웨어 구성 요소를 의미할 수 있다. 도1에서 전자 장치(100)는 음성 인식 장치(110)를 포함하는 것으로 도시되었으나 이하, 설명의 편의를 위해, 전자 장치(100)는 음성 인식 장치(110) 그 자체를 의미할 수도 있다. 따라서, 사용자가 전자 장치(100)에 음성 신호를 입력한다는 의미는 전자 장치(100) 내의 음성 인식 장치(110)에 음성 신호를 입력한다는 의미와 동일하게 해석될 수 있다. 또한, 전자 장치(100)의 주변에 사용자가 위치한다는 의미는 음성 인식 장치(110)의 주변에 사용자가 위치한다는 의미와 동일하게 해석될 수 있다.
전자 장치(100)는 음성 신호를 입력 받을 수 있다. 예를 들어, 사용자는 음성 인식이 요구되는 음성 명령을 전달하기 위해, 음성 신호(또는 음성 데이터)를 발화(發話)할 수 있다. 음성 신호는 전자 장치(100)에 직접적으로 발화된 음성 신호뿐만 아니라 다른 장치, 서버 등으로부터 네트워크를 통하여 전송된 음성 신호나, 저장 매체 등을 통하여 전달받은 음성 파일, 전화 통화를 통하여 전송된 상대방의 음성 신호도 포함할 수 있다. 예를 들어, 사용자는 전자 장치(100)와 블루투스 방식으로 연결된 다른 장치(미도시)를 통해 음성 신호를 발화하고 발화된 음성 신호는 네트워크를 통해 전자 장치(100)에 전달될 수 있다.
전자 장치(100)는 입력된 음성 신호로부터 특정한 동작을 수행하는 명령을 생성할 수 있다. 일 실시 예에 따른 명령은, 음악 재생, 물건 주문, 사이트 접속, 전자 장치의 제어 등의 다양한 기능을 실행시키는 제어 명령을 포함할 수 있다. 또한, 전자 장치(100)는 음성 인식 결과에 추가적인 가공 처리를 수행할 수도 있다. 예를 들어, 전자 장치(100)는 음성 인식된 단어에 기초한 인터넷 검색 결과 제공, 음성 인식된 내용으로 메시지 전송, 음성 인식된 약속의 입력 등 일정 관리, 음성 인식된 타이틀의 오디오/비디오 재생 등을 수행할 수 있다.
일 실시 예에 따른 전자 장치(100)는 음성 모델(Acoustic Model, AM)과 언어 모델(Language Model, LM)에 기초하여 입력된 음성 신호에 대해 음성 인식을 수행할 수 있다. 음성 모델은 많은 양의 음성 신호를 수집하여 통계적인 방법을 통하여 생성될 수 있다. 언어 모델은 사용자 발화에 대한 문법적 모델로서 많은 양의 텍스트 데이터를 수집하여 통계적 학습을 통하여 획득될 수 있다.
음성 모델과 언어 모델의 성능을 보장하기 위해서는 많은 양의 데이터 수집이 필요하며, 불특정 다수의 발화로부터 모델을 구성하는 경우에 화자 독립(Speaker independent) 모델을 구성하였다고 한다. 반대로 특정한 사용자로부터 데이터를 수집하여 모델을 구성하는 경우에 화자 종속(Speaker dependent) 모델을 구성할 수 있다. 만약, 충분한 데이터를 수집할 수 있다면 화자 종속 모델은 화자 독립 모델에 비해 더 높은 성능을 가질 수 있다. 일 실시 예에 따른 전자 장치(100)는 화자 독립 모델 또는 화자 종속 모델에 기초하여 입력 받은 음성 신호에 대해 음성 인식을 수행할 수 있다.
제1사용자(120)는 전자 장치(100)에 대해 정당한 권한을 가진 사용자이다. 예를 들어, 제1사용자(120)는 전자 장치(100)가 내장된 스마트 폰의 실제 사용자일 수 있다. 제1사용자(120)는 전자 장치(100)에 자신의 사용자 계정이 등록된 사람일 수 있다. 전자 장치(100)의 정당한 사용자는 복수의 사람일 수도 있다. 제1 사용자(120)는 전자 장치(100)에 음성 신호를 입력하고, 전자 장치(100)는 입력 받은 음성 신호에 대해 음성 인식을 수행할 수 있다.
제2사용자(130)는 전자 장치(100)의 주변에 위치하지만 전자 장치(100)에 대해 정당한 권한을 가진 사용자는 아니다. 예를 들어, 제2사용자(130)는 정당한 권한 없이 전자 장치(100)에 저장된 정보를 훼손, 변조, 위조 또는 유출시키고자 하는 서드 파티(third party) 침입자일 수 있다. 만약, 제2 사용자(130)가 전자 장치(100)에 대해 자신의 음성 신호를 입력하는 경우 전자 장치(100)에서 수행되는 동작은 두 가지로 나뉠 수 있다.
먼저, 전자 장치(100)가 화자 독립 모델에 기초하여 음성 인식을 수행하는 경우, 제2사용자(130)로부터 입력된 음성 신호가 정당한 권한이 있는 사용자로부터 입력된 음성 신호인지 여부를 판단할 수 없다.
만약, 전자 장치(100)가 화자 적응 모델에 기초하여 음성 인식을 수행하는 경우라면, 전자 장치(100)는 제2사용자(130)가 정당한 권한이 없는 사용자임을 판단하고 입력 받은 음성 신호에 대해 음성 인식을 수행하지 않을 수 있다. 예를 들어, 전자 장치(100)는 제1사용자(120)로부터 발화된 음성 신호를 수집하여 모델을 구성하였으므로, 제2사용자(130)로부터 입력된 음성 신호를 명령을 생성할 수 있는 적법한 음성 신호로 판단하지 않을 수 있다.
그러나, 전자 장치(100)가 화자 적응 모델에 기초하여 음성 인식을 수행하는 경우라도, 제2사용자(130)가 제1사용자(120)의 음성 신호를 녹음하여 다시 재생하거나 제1사용자(120)의 음성 샘플을 확보하여 음성 신호를 재구성하여 재생시킨 경우에는, 전자 장치(100)는 입력 받은 음성 신호를 제1사용자(120)로부터 입력 받은 음성 신호로 판단할 수 있다. 전자 장치(100)의 주변에 위치하는 서드 파티 침입자가 자신의 음성 신호를 직접 발화하거나 다른 사용자의 음성 신호를 재생시켜서 명령을 생성하는 것을 오프라인 공격(Offline Attack)이라고 한다. 또한, 제2 사용자(130)로부터 입력된 음성 신호를 오프라인 공격 음성 신호라고 한다.
제3사용자(140) 역시 전자 장치(100)에 대해 정당한 권한을 가진 사용자가 아니다. 제3사용자(140) 역시 정당한 권한 없이 전자 장치(100)에 저장된 정보를 훼손, 변조, 위조 또는 유출시키고자 하는 서드 파티 침입자일 수 있다. 그러나, 제3사용자(140)가 제2사용자(130)와 다른 점은, 전자 장치(100)의 주변에 위치하지 않은 상태에서 전자 장치(100) 내의 음성 인식 알고리즘에 직접적으로 접근하여 음성 인식을 수행하도록 할 수 있다는 것이다. 일 실시 예에 따른 음성 인식 알고리즘은 음성 인식을 위해 호출되는 API(application programming interface)일 수 있다.
바꾸어 말하면, 제3사용자(140)는 전자 장치(100) 내의 음성 인식 알고리즘에 직접적으로 접근하여 음성 인식을 수행하도록 할 수 있으므로, 음성 신호를 전자 장치(100)를 향해 발화하거나 재생시킬 필요가 없다. 전자 장치(100)의 주변에 위치하지 않는 서드 파티의 침입자가 전자 장치(100)에 음성 신호를 전송하고, 전송된 음성 신호가 전자 장치(100) 내의 음성 인식 알고리즘에 직접적으로 접근하여 명령을 생성하는 것을 온라인 공격(Online Attack)이라고도 한다. 또한, 제3 사용자(140)로부터 전자 장치(100)에 전송되어 입력된 음성 신호를 온라인 공격 음성 신호라고 한다.
도2는 일 실시 예에 따른 전자 장치의 블록도를 나타낸다.
전자 장치(100)는 입력부(220) 및 제어부(240)를 포함할 수 있다.
입력부(220)는 음성 신호를 입력 받을 수 있다. 일 실시 예에 따른 입력부(220)는 마이크일 수 있다. 입력부(220)는 마이크를 통해 사용자의 음성 신호를 입력 받을 수 있다. 일 실시 예에 따른 입력부(220)는 사용자가 직접 발화한 음성 신호를 입력 받지 않고, 다른 장치 또는 서버 등으로부터 네트워크를 통하여 전송된 음성이나, 저장 매체 등을 통하여 전달받은 음성 파일, 전화 통화를 통하여 전송된 상대방의 음성 등을 입력으로 사용할 수도 있다.
제어부(240)는 입력부(220)의 활성화 여부에 기초하여 음성 인식을 수행할지 여부를 결정할 수 있다. 일 실시 예에 따른 제어부(240)는 ASIC(application specific integrated circuit), 임베디드 프로세서, 마이크로 프로세서, 하드웨어 제어 로직, 하드웨어 유한 상태 기계(FSM), 디지털 신호 프로세서(DSP) 또는 이들의 조합일 수 있다. 일 실시 예에서는 제어부(240)는 적어도 하나 이상의 프로세서(도시되지 않음)를 포함할 수 있다.
일 실시 예에 따른 제어부(240)는, 입력부(220)를 통하지 않고 제어부(240)로 직접 전송된 음성 신호에 대해서는 음성 인식을 수행하지 않을 수 있다. 일 실시 예에 따른 제어부(240)는, 음성 인식을 수행할지 여부를 결정하기 위해, 음성 인식을 수행하기 전에, 음성 인식을 수행할 음성 신호를 입력 받기 위한 입력부(220)가 활성화되었는지 여부를 판단할 수 있다. 온라인 공격의 경우에는 서드 파티 침입자에 의해 입력부(220)를 거치지 않고 제어부(240) 내의 음성 인식 알고리즘이 직접적으로 동작할 수 있으므로, 제어부(240)는 입력부(220)가 활성화되지 않았음에도 음성 인식을 요청하는 음성 신호가 존재할 경우, 음성 인식을 요청한 음성 신호를 입력부(220)를 통하지 않고 제어부(240)로 직접 전송된 온라인 공격 음성 신호로 판단하여, 온라인 공격 음성 신호에 음성 인식을 수행하지 않을 수 있다.
일 실시 예에 따른 제어부(240)는 음성 신호를 입력 받는 마이크가 실제로 동작하였는지 여부를 판단할 수 있다. 또한, 제어부(240)는, 입력부(220)가 다른 장치, 서버 등으로부터 네트워크를 통하여 음성 신호를 전달받은 경우, 입력부(220)가 음성 신호를 전달받기 위해 활성화되었는지 여부를 판단할 수 있다. 일 실시 예에 따른 입력부(220)가 다른 장치로부터 전달 받은 음성 신호를 입력으로 사용하는 경우, 제어부(240)는 사용자로부터 음성 신호를 직접 입력 받아 입력부(220)로 전달한 다른 장치의 마이크에 대한 동작 여부를 판단할 수도 있다. 제어부(240)는 마이크가 실제로 동작한 것으로 판단된 경우에만 음성 인식을 수행할 수 있다.
일 실시 예에 따른 제어부(240)는 정당한 권한을 가진 사용자가 전자 장치(100)의 주변에 위치하는지 판단할 수 있다. 전자 장치(100)의 주변에 정당한 권한을 가진 사용자가 위치하지 않으면, 음성 인식을 요청한 음성 신호는 오프라인 공격 또는 온라인 공격에 의해 침입된 적법하지 않은 신호일 가능성이 높기 때문이다.
일 실시 예에 따른 전자 장치(100)의 주변이란, 전자 장치(100)로부터 소정의 거리 내의 지역 또는 전자 장치(100)와 네트워크로 연결된 가상의 영역을 의미할 수 있다. 가상의 영역은 전자 장치(100)를 포함한 복수의 장치가 위치하는 가상의 영역을 의미할 수 있다. 예를 들어, 가상의 영역은 집, 사무실, 도서관, 카페와 같은 동일한 무선 공유기를 사용하는 무선 랜 서비스 영역을 의미할 수 있다.
일 실시 예에 따른 제어부(240)는 전자 장치(100)의 주변에 정당한 권한을 가진 사용자가 위치하는 것으로 판단된 경우에만 음성 인식을 수행할 수 있다. 제어부(240)는 전자 장치(100)의 주변에 정당한 권한을 가진 사용자가 위치하는지 판단하기 위해 사용자가 사용하는 하나 이상의 장치에 대한 정보를 사용할 수 있다. 사용자가 사용하는 하나 이상의 장치는 전자 장치(100)와는 다른 하나 이상의 장치를 의미할 수 있다. 예를 들어, 전자 장치(100)가 스피커인 경우, 사용자가 사용하는 하나 이상의 장치들은 스마트 폰, 태블릿 PC, 텔레비전을 포함할 수 있다.
일 실시 예에 따른 제어부(240)는 사용자가 사용하는 하나 이상의 장치의 위치 정보를 사용하여 정당한 권한을 가진 사용자가 전자 장치(100)의 주변에 위치하는지 여부를 판단할 수 있다. 예를 들어, 제어부(240)는 사용자가 사용하는 모바일 장치 또는 웨어러블 장치의 GPS (Global Positioning System)나 GMS(Global System for Mobile communications) 정보에 기초하여, 정당한 권한을 가진 사용자가 사용하는 모바일 장치 또는 웨어러블 장치가 전자 장치(100)의 주변에 위치하는지 판단할 수 있다. 일 실시 예에 따른 제어부(240)는 정당한 권한을 가진 사용자의 위치 정보를 획득하기 위해 사용자가 사용하는 하나 이상의 장치의 맥 어드레스(MAC address) 정보를 사용할 수 있다.
일 실시 예에 따른 제어부(240)는 사용자가 사용하는 하나 이상의 장치의 네트워크 연결 정보를 사용하여 정당한 권한을 가진 사용자가 전자 장치(100)의 주변에 위치하는지 여부를 판단할 수 있다. 예를 들어, 제어부(240)는 전자 장치(100)와 블루투스로 연결된 사용자의 다른 장치가 있다면 정당한 권한을 가진 사용자가 전자 장치(100)의 주변에 위치하는 것으로 판단할 수 있다. 예를 들어, 제어부(240)는, 전자 장치(100)가 스마트 폰이나 태블릿 PC와 같은 모바일 장치이고 전자 장치(100)에 무선으로 연결된 안경이나 손목시계, 밴드형 장치의 웨어러블 장치가 존재하는 경우, 전자 장치(100)의 주변에 정당한 권한을 가진 사용자가 위치하는 것으로 판단할 수 있다. 예를 들어, 제어부(240)는 사용자가 사용하는 하나 이상의 장치가 특정 AP(Access Point)에 접속해있는지 여부 또는 특정 핫스팟(Hotspot)내에 위치하는지에 대한 정보를 사용할 수 있다.
일 실시 예에 따른 제어부(240)는 사용자가 사용하는 하나 이상의 장치의 로그인 정보를 사용하여 정당한 권한을 가진 사용자가 전자 장치(100)의 주변에 위치하는지 여부를 판단할 수 있다. 예를 들어, 제어부(240)는, 정당한 권한을 가진 사용자가 자신의 TV에 로그인되어 있는지 확인하여 로그인 상태임이 확인되면, 전자 장치(100)의 주변에 정당한 권한을 가진 사용자가 위치하는 것으로 판단할 수 있다.
일 실시 예에 따른 사용자가 사용하는 하나 이상의 장치에 대한 정보는, 사물인터넷(IoT) 환경 내에서 검출된 사용자 로그 정보를 포함할 수 있다. 예를 들어, 집 안에 고정되어 위치한 전자 장치(100)의 제어부(240)는, 센서가 부착된 현관문에 사용자가 디지털 키를 사용하거나 지문 등의 방법을 사용하여 집 안으로 들어왔다는 정보를 확인한 경우에 음성 인식을 수행할 수 있다. 예를 들어, 집 안에 고정되어 위치한 전자 장치(100)의 제어부(240)는, 차고에 사용자의 자동차가 존재하는지 여부를 확인한 경우에 음성 인식을 수행할 수 있다.
도3은 구체적 실시 예에 따른 전자 장치의 블록도를 나타낸다.
도3의 전자 장치(100)는 도2의 전자 장치(100)의 구체적 실시 예를 도시한다. 따라서, 이하 생략된 내용이라 하더라도 도2의 전자 장치(100)에 관하여 기술된 내용은 도3의 전자 장치(100)에도 적용될 수 있다.
일 실시 예에 따라, 전자 장치(100)는 입력부(320) 및 제어부(340)를 포함할 수 있다. 입력부(320)와 제어부(340)은 각각 도2의 입력부(220)과 제어부(240)에 대응될 수 있다.
입력부(320)는 도2의 입력부(220)와 대응되므로 상세한 설명은 생략한다.
제어부(340)는 음성 신호에 대해 음성 인식을 수행할 수 있다. 일 실시 예에 따른 제어부(340)는 인증부(342)와 음성 인식부(344)를 포함할 수 있다.
인증부(342)는 음성 인식을 수행하기 전에, 음성 신호에 대한 인증을 수행할 수 있다.
인증부(342)는 음성 인식을 수행할 음성 신호를 입력 받기 위해 입력부 (320)가 실제로 활성화되었는지 여부를 판단할 수 있다. 인증부(342)는 마이크가 실제로 동작하였는지 여부를 판단하여 마이크가 동작하지 않았음에도 음성 인식을 요청하는 음성 신호가 존재할 경우, 음성 신호를 음성 인식부(344)에 전달하지 않을 수 있다. 또한, 인증부(342)는, 입력부(320)가 음성 신호를 다른 장치, 서버 등으로부터 네트워크를 통하여 전달받은 경우에도, 음성 신호를 전달받기 위한 입력부(320)가 활성화되었는지 여부를 판단할 수 있다.
일 실시 예에 따른 인증부(342)는 전자 장치(100)의 주변에 정당한 권한을 가진 사용자가 위치하는지 판단할 수 있다. 일 실시 예에 따른 인증부(342)는 사용자가 사용하는 하나 이상의 장치들에 대한 정보에 기초하여 전자 장치(100)의 주변에 정당한 권한을 가진 사용자가 위치하였는지 판단할 수 있다. 일 실시 예에 따른 사용자가 사용하는 하나 이상의 장치들에 대한 정보는, 사용자가 사용하는 하나 이상의 장치들의 GPS 또는 GMS 정보와 같은 위치 정보, 특정 AP에의 접속 정보, 블루투스 연결 정보와 같은 네트워크 연결 정보, 사용자 로그인 정보, 및 사물 인터넷 환경 내에서 검출된 사용자 로그 정보 중 적어도 하나를 포함할 수 있다.
인증부(342)는 입력부(320)가 활성화되지 않았거나 전자 장치(100)의 주변에 정당한 권한을 가진 사용자가 위치하는 것으로 판단되지 않으면, 음성 신호를 음성 인식부(344)에 전달하지 않을 수 있다.
음성 인식부(344)은 인증부(342)의 인증을 통과한 음성 신호에 대해 음성 인식을 수행할 수 있다. 일 실시 예에 따른 음성 인식부(344)는 음성 인식 알고리즘을 수행하기 위한 API들을 포함할 수 있다.
일 실시 예에 따른 음성 인식부(344)는 음성 신호에 대해 전처리(Pre-processing)을 수행할 수 있다. 전처리는 음성 인식을 위해 필요한 데이터, 즉, 음성 인식에 유용한 신호만을 추출하는 과정이 포함될 수 있다. 음성 인식에 유용한 신호로는 예를 들어, 잡음이 제거된 신호 등이 될 수 있다. 또한, 음성 인식에 유용한 신호로는 예를 들어, 아날로그/디지털 변환 처리된 신호, 필터 처리된 신호 등이 될 수 있다.
음성 인식부(344)는 전처리 된 음성 신호에 대해 피처를 추출(Feature Extraction)할 수 있다. 음성 인식부(344)는 추출된 피처를 사용하여 모델 기반 예측(Model-based Prediction)을 수행할 수 있다. 예를 들어, 음성 인식부(344)는 추출된 피처를 음성 모델 데이터베이스와 비교함으로써, 피처 벡터를 산출할 수 있다. 음성 인식부(344)은 산출된 피처 벡터에 기초하여 음성 인식을 수행하고 수행된 결과에 대해 후처리(Post-processing)를 수행할 수 있다.
다만, 상술한 음성 인식부(344)의 동작은 음성 인식을 수행하기 위한 하나의 실시 예일 뿐, 음성 인식부(344)는 음성 인식을 수행하기 위해 다른 어떠한 음성 인식 알고리즘도 사용할 수 있다.
도4는 일 실시 예에 따른 음성 신호에 대한 인증을 위한 소정의 조건을 나타낸다.
집(400) 안에 위치한 사용자(410)는 전자 장치(100)를 향해 음성 신호를 발화하고 음성 신호를 입력 받은 전자 장치(100)는 음성 인식을 수행할 수 있다.
전자 장치(100)는 음성 인식을 수행하기 전에, 음성 인식을 수행하기 위한 소정의 조건을 만족하는지 판단할 수 있다. 일 실시 예에 따른 전자 장치(100)는 소정의 조건을 만족하는지 판단하기 위해 조건문(conditional statement, 420)을 사용할 수 있다. 일 실시 예에 따른 전자 장치(100)는 조건문(420)을 사용하여 음성 신호가 마이크로부터 입력되었는지 여부를 판단할 수 있다. 또한, 일 실시 예에 따른 전자 장치(100)는 마이크로부터 음성 신호가 입력되었다고 판단된 경우, 맥 어드레스 정보, 블루투스 연결 정보, 사용자의 장치의 GPS 정보 중 적어도 하나를 사용하여 집(400) 안에 사용자(410)가 위치하는지 여부를 판단할 수 있다.
도5는 일 실시 예에 따른 음성 인식 방법의 흐름도를 나타낸다.
단계 510에서, 전자 장치(100)는, 전자 장치(100) 내의 입력부가 활성화되었는지 판단할 수 있다. 일 실시 예에 따른 입력부는 음성 신호를 입력 받을 수 있는 하드웨어 구성 요소 또는 회로를 의미할 수 있다. 일 실시 예에 따른 입력부는, 사용자의 음성 신호를 입력 받는 마이크를 포함할 수 있다. 또한, 일 실시 예에 따른 입력부는, 다른 장치, 서버 등으로부터 네트워크를 통하여 전송된 음성이나, 저장 매체 등을 통하여 전달받은 음성 파일, 전화 통화를 통하여 전송된 상대방의 음성 등을 입력 받을 수 있도록 하는 통신 회로를 포함할 수도 있다. 일 실시 예에 따른 전자 장치(100)는 온라인 공격의 경우에 서드 파티 침입자의 음성 신호가 입력부를 거치지 않고 음성 인식 알고리즘에 직접적으로 접근할 수 있으므로, 음성 인식이 요청된 음성 신호가 존재함에도 입력부가 실제로 활성화되지 않았다면 음성 인식을 수행하지 않을 수 있다. 판단 결과에 기초하여, 입력부가 활성화되었다고 판단된 경우, 전자 장치(100)는 단계 520에서 음성 인식을 수행한다. 판단 결과에 기초하여, 입력부가 활성화되지 않은 것으로 판단된 경우, 단계 530에서 전자 장치(100)는 음성 인식을 수행하지 않는다.
단계 520에서, 전자 장치(100)는 음성 인식을 수행할 수 있다. 일 실시 예에 따른 전자 장치(100)는 다양한 음성 인식 알고리즘을 사용하여 음성 인식을 수행하고 명령을 생성할 수 있다. 예를 들어, 전자 장치(100)는 음성 신호에 대해 전처리(Pre-processing)을 수행하고 전처리 된 음성 신호에 대해 피처를 추출(Feature Extraction)할 수 있다. 전자 장치(100)는 추출된 피처를 사용하여 모델 기반 예측(Model-based Prediction)을 수행할 수 있다. 예를 들어, 전자 장치(100)는 추출된 피처를 음성 모델 데이터베이스와 비교함으로써, 피처 벡터를 산출할 수 있다. 전자 장치(100)는 산출된 피처 벡터에 기초하여 음성 인식을 수행하여 명령을 생성할 수 있다.
단계 530에서, 전자 장치(100)는 입력부를 통하지 않고 전자 장치(100)로 직접 전송된 음성 신호에 대해서 음성 인식을 수행하지 않을 수 있다. 전자 장치(100)는 음성 인식을 요청하는 음성 신호가 존재함에도 입력부가 활성화되지 않았으므로, 음성 인식을 요청한 음성 신호를 입력부를 통하지 않고 전자 장치(100)로 직접 전송된 온라인 공격 음성 신호로 판단하여 음성 인식을 수행하지 않을 수 있다.
도6는 추가적 실시 예에 따른 음성 인식 방법의 흐름도를 나타낸다.
단계 610, 단계 630, 및 단계 640은 각각 도5의 단계 510, 530 및 520 와 대응되므로 상세한 설명은 생략한다.
단계 610에서, 전자 장치(100)는, 전자 장치(100) 내의 입력부가 활성화되었는지 판단한다. 입력부가 활성화된 것으로 판단되는 경우, 단계 620에서 전자 장치(100)는 음성 인식 수행 여부를 결정하기 위해 추가적인 인증을 수행할 수 있다. 입력부가 활성화되지 않은 것으로 판단되는 경우, 단계 630에서 전자 장치(100)는 음성 인식을 수행하지 않는다.
단계 620 에서, 전자 장치(100)는, 전자 장치(100)의 주변에 정당한 권한을 가진 사용자가 위치하는지 판단할 수 있다. 전자 장치(100)는 전자 장치(100)의 주변에 정당한 권한을 가진 사용자가 위치하는지 판단하고, 정당한 권한을 가진 사용자가 전자 장치(100)의 주변에 위치한 경우에만 음성 인식을 수행할 수 있다. 일 실시 예에 따른 전자 장치(100)는, 전자 장치(100)의 주변에 정당한 권한을 가진 사용자가 위치하는지 판단하기 위해, 사용자가 사용하는 하나 이상의 장치들에 대한 정보를 사용할 수 있다. 일 실시 예에 따른 사용자가 사용하는 하나 이상의 장치들에 대한 정보는, 사용자가 사용하는 하나 이상의 장치들의 GPS 또는 GMS 정보와 같은 위치 정보, 특정 AP에의 접속 정보, 블루투스 연결 정보와 같은 네트워크 연결 정보, 사용자 로그인 정보, 및 사물 인터넷 환경 내에서 검출된 사용자 로그 정보 중 적어도 하나를 포함할 수 있다. 전자 장치(100)는, 주변에 정당한 권한을 가진 사용자가 위치하였다고 판단되지 않으면, 전자 장치(100)는 단계 630에서 음성 인식을 수행하지 않는다.
단계 620에서 전자 장치(100)는, 주변에 정당한 권한을 가진 사용자가 위치하였다고 판단된 경우, 단계 640에서 전자 장치(100)는, 음성 인식을 수행할 수 있다.
한편, 상술한 음성 인식 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM. CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 인터넷을 통한 전송 등의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 프로세서가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
본 발명은 특정한 최상의 실시 예와 관련하여 설명되었지만, 이외에 본 발명에 대체, 변형 및 수정이 적용된 발명들은 전술한 설명에 비추어 당업자에게 명백할 것이다. 즉, 청구범위는 이러한 모든 대체, 변형 및 수정된 발명을 포함하도록 해석한다. 그러므로 이 명세서 및 도면에서 설명한 모든 내용은 예시적이고 비제한적인 의미로 해석해야 한다.

Claims (13)

  1. 음성 신호를 입력 받기 위한 입력부; 및
    음성 인식을 수행하는 제어부를 포함하고,
    상기 제어부는, 상기 입력부의 활성화 여부에 기초해서, 음성 인식을 수행할지 여부를 결정하는 것을 특징으로 하는 전자 장치.
  2. 제1항에 있어서, 상기 제어부는,
    상기 입력부를 통하지 않고 상기 제어부로 직접 전송된 음성 신호에 대해서 음성 인식을 수행하지 않는 것을 특징으로 하는 전자 장치.
  3. 제1항에 있어서,
    상기 입력부는 마이크이고,
    상기 제어부는 상기 마이크가 동작하였는지 여부를 판단하고, 상기 마이크가 동작한 것으로 판단된 경우에만 음성 인식을 수행하는 것을 특징으로 하는 전자 장치.
  4. 제1항에 있어서, 상기 제어부는,
    상기 전자 장치에 대해 정당한 권한을 가진 사용자가 상기 전자 장치의 주변에 위치하는지 여부를 판단하여, 상기 사용자가 상기 전자 장치의 주변에 위치한 것으로 판단된 경우에만 음성 인식을 수행하는 것을 특징으로 하는 전자 장치.
  5. 제4항에 있어서, 상기 제어부는,
    상기 사용자가 사용하는 하나 이상의 장치에 대한 정보에 기초하여, 상기 사용자가 상기 전자 장치의 주변에 위치하는지 여부를 판단하는 것을 특징으로 하는 전자 장치.
  6. 제5항에 있어서, 상기 사용자가 사용하는 하나 이상의 장치에 대한 정보는,
    상기 사용자가 사용하는 하나 이상의 장치의 위치 정보, 네트워크 연결 정보, 및 로그인 기록 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 전자 장치.
  7. 전자 장치에 의해 수행되는 음성 인식 방법에 있어서,
    음성 신호를 입력받기 위한 상기 전자 장치 내의 입력부의 활성화 여부를 판단하는 단계; 및
    상기 판단 결과에 기초하여 상기 입력부가 활성화된 것으로 판단된 경우에만, 음성 인식을 수행하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  8. 제7항에 있어서,
    상기 입력부를 통하지 않고 상기 전자 장치로 직접 전송된 음성 신호에 대해서 음성 인식을 수행하지 않는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
  9. 제7항에 있어서,
    상기 입력부의 활성화 여부를 판단하는 단계는, 상기 음성 신호를 입력 받기 위한 마이크가 동작하였는지 여부를 판단하는 단계를 포함하고,
    상기 음성 인식을 수행하는 단계는, 상기 마이크가 동작한 것으로 판단된 경우에만 음성 인식을 수행하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  10. 제7항에 있어서,
    상기 판단 결과에 기초하여 상기 입력부가 활성화된 것으로 판단된 경우, 상기 전자 장치에 대해 정당한 권한을 가진 사용자가 상기 전자 장치의 주변에 위치하는지 여부를 판단하는 단계를 더 포함하고,
    상기 음성 인식을 수행하는 단계는, 상기 사용자가 상기 전자 장치의 주변에 위치한 것으로 판단된 경우에만 음성 인식을 수행하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  11. 제10항에 있어서, 상기 전자 장치에 대해 정당한 권한을 가진 사용자가 상기 전자 장치의 주변에 위치하는지 여부를 판단하는 단계는,
    상기 사용자가 사용하는 하나 이상의 장치에 대한 정보에 기초하여, 상기 사용자가 상기 전자 장치의 주변에 위치하는지 여부를 판단하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  12. 제11항에 있어서, 상기 사용자가 사용하는 하나 이상의 장치에 대한 정보는,
    상기 사용자가 사용하는 하나 이상의 장치의 위치 정보, 네트워크 연결 정보, 및 로그인 기록 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인식 방법.
  13. 제 7항 내지 12항 중 어느 한 항에서 수행되는 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020160177941A 2016-12-23 2016-12-23 보안성이 강화된 음성 인식 방법 및 장치 Withdrawn KR20180074152A (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020160177941A KR20180074152A (ko) 2016-12-23 2016-12-23 보안성이 강화된 음성 인식 방법 및 장치
EP17883679.7A EP3555883A4 (en) 2016-12-23 2017-12-21 METHOD AND DEVICE FOR LANGUAGE RECOGNITION WITH IMPROVED SAFETY
PCT/KR2017/015168 WO2018117660A1 (en) 2016-12-23 2017-12-21 Security enhanced speech recognition method and device
US15/852,705 US20180182393A1 (en) 2016-12-23 2017-12-22 Security enhanced speech recognition method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160177941A KR20180074152A (ko) 2016-12-23 2016-12-23 보안성이 강화된 음성 인식 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20180074152A true KR20180074152A (ko) 2018-07-03

Family

ID=62625775

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160177941A Withdrawn KR20180074152A (ko) 2016-12-23 2016-12-23 보안성이 강화된 음성 인식 방법 및 장치

Country Status (4)

Country Link
US (1) US20180182393A1 (ko)
EP (1) EP3555883A4 (ko)
KR (1) KR20180074152A (ko)
WO (1) WO2018117660A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11024304B1 (en) * 2017-01-27 2021-06-01 ZYUS Life Sciences US Ltd. Virtual assistant companion devices and uses thereof
US20200020330A1 (en) * 2018-07-16 2020-01-16 Qualcomm Incorporated Detecting voice-based attacks against smart speakers
US11881218B2 (en) 2021-07-12 2024-01-23 Bank Of America Corporation Protection against voice misappropriation in a voice interaction system

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
GB0030918D0 (en) * 2000-12-19 2001-01-31 Hewlett Packard Co Activation of voice-controlled apparatus
JP2002335342A (ja) * 2001-05-07 2002-11-22 Nissan Motor Co Ltd 車両用通信装置
WO2010008722A1 (en) * 2008-06-23 2010-01-21 John Nicholas Gross Captcha system optimized for distinguishing between humans and machines
US8793135B2 (en) * 2008-08-25 2014-07-29 At&T Intellectual Property I, L.P. System and method for auditory captchas
US20100332236A1 (en) * 2009-06-25 2010-12-30 Blueant Wireless Pty Limited Voice-triggered operation of electronic devices
US8346562B2 (en) * 2010-01-06 2013-01-01 Csr Technology Inc. Method and apparatus for voice controlled operation of a media player
KR101917685B1 (ko) * 2012-03-21 2018-11-13 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
KR101995428B1 (ko) * 2012-11-20 2019-07-02 엘지전자 주식회사 이동 단말기 및 그 제어방법
KR102091003B1 (ko) * 2012-12-10 2020-03-19 삼성전자 주식회사 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
JP2014126600A (ja) * 2012-12-25 2014-07-07 Panasonic Corp 音声認識装置、音声認識方法、およびテレビ
US9569424B2 (en) * 2013-02-21 2017-02-14 Nuance Communications, Inc. Emotion detection in voicemail
US9367676B2 (en) * 2013-03-22 2016-06-14 Nok Nok Labs, Inc. System and method for confirming location using supplemental sensor and/or location data
US9384751B2 (en) * 2013-05-06 2016-07-05 Honeywell International Inc. User authentication of voice controlled devices
US9865253B1 (en) * 2013-09-03 2018-01-09 VoiceCipher, Inc. Synthetic speech discrimination systems and methods
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
KR102216048B1 (ko) 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
KR101728941B1 (ko) * 2015-02-03 2017-04-20 주식회사 시그널비젼 음성 인식 기반 애플리케이션 구동 장치 및 제어 방법
US9892732B1 (en) * 2016-08-12 2018-02-13 Paypal, Inc. Location based voice recognition system

Also Published As

Publication number Publication date
EP3555883A4 (en) 2019-11-20
WO2018117660A1 (en) 2018-06-28
US20180182393A1 (en) 2018-06-28
EP3555883A1 (en) 2019-10-23

Similar Documents

Publication Publication Date Title
JP6159378B2 (ja) 音声認証を用いたデバイスアクセス
JP6902136B2 (ja) システムの制御方法、システム、及びプログラム
EP3734596B1 (en) Determining target device based on speech input of user and controlling target device
CN106663430B (zh) 使用用户指定关键词的说话者不相依关键词模型的关键词检测
CN106448678B (zh) 用于在电子装置中执行语音命令的方法和设备
TWI644307B (zh) 用於操作一虛擬助理之方法,電腦可讀儲存媒體,及系統
KR101726945B1 (ko) 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
US20210034192A1 (en) Systems and methods for identifying users of devices and customizing devices to users
US9854439B2 (en) Device and method for authenticating a user of a voice user interface and selectively managing incoming communications
US10916249B2 (en) Method of processing a speech signal for speaker recognition and electronic apparatus implementing same
CN106791024A (zh) 语音信息播放方法、装置及终端
JP6662962B2 (ja) 話者検証方法及び音声認識システム
US20230362026A1 (en) Output device selection
CN108710791A (zh) 语音控制的方法及装置
CN107911386A (zh) 获取服务授权信息的方法及装置
US20190362709A1 (en) Offline Voice Enrollment
CN103077711A (zh) 电子设备及其控制方法
KR20180074152A (ko) 보안성이 강화된 음성 인식 방법 및 장치
US10102858B1 (en) Dynamically changing audio keywords
WO2016124008A1 (zh) 一种语音控制方法、装置及系统
KR102098237B1 (ko) 화자 검증 방법 및 음성인식 시스템
US20240312455A1 (en) Transferring actions from a shared device to a personal device associated with an account of a user
KR20190056699A (ko) 음성인식처리장치 및 그 동작 방법

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20161223

PG1501 Laying open of application
PC1203 Withdrawal of no request for examination