[go: up one dir, main page]

KR102135182B1 - 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템 - Google Patents

성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템 Download PDF

Info

Publication number
KR102135182B1
KR102135182B1 KR1020190039909A KR20190039909A KR102135182B1 KR 102135182 B1 KR102135182 B1 KR 102135182B1 KR 1020190039909 A KR1020190039909 A KR 1020190039909A KR 20190039909 A KR20190039909 A KR 20190039909A KR 102135182 B1 KR102135182 B1 KR 102135182B1
Authority
KR
South Korea
Prior art keywords
command
speaker
voice
caller
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020190039909A
Other languages
English (en)
Inventor
민성태
박준호
Original Assignee
주식회사 솔루게이트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔루게이트 filed Critical 주식회사 솔루게이트
Priority to KR1020190039909A priority Critical patent/KR102135182B1/ko
Priority to CN202010108315.3A priority patent/CN111798844A/zh
Priority to US16/805,601 priority patent/US11488595B2/en
Application granted granted Critical
Publication of KR102135182B1 publication Critical patent/KR102135182B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L17/005
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

소규모 그룹을 구성하는 사용자들이 사용하고, 상기 사용자들 각각의 음성을 구별하여, 이들 각각의 명령을 실행하도록 할 수 있는 성문인식장치와 상기 성문인식장치와 연동되는 데이터 프로세싱 장치를 포함하는 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템이 개시된다. 본 발명의 일 실시예에 따른 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템에 포함된 성문인식장치는, 상기 사용자들의 음성을 저장하는 저장부와, 제1 발화자가 제1 발화음성을 발화하는 경우, 상기 제1 발화음성을 수신하는 수신부와, 상기 저장부에 저장된 음성과 상기 제1 발화음성을 비교하여, 상기 제1 발화자가 등록된 사용자인지 여부를 판단하는 판단부와, 상기 제1 발화자의 제1 명령음성에 대응한 명령신호를 생성하는 실행부를 포함할 수 있다.

Description

성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템{Personalized service system optimized on AI speakers using voiceprint recognition}
본 발명은 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템에 관한 것이다. 보다 상세하게, 단일 플랫폼에서 화자 인증을 통해 다중 인공지능 비서 시스템을 사용하는 것으로, 등록된 사용자의 이용 서비스 및 패턴 등을 분석하여 개인 맞춤형 서비스를 제공할 수 있는 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템에 관한 것이다.
음성은 인간이 사용하는 가장 보편적이고 편리한 정보전달의 수단이라 할 수 있다. 음성에 의해 표현되는 말은 인간과 인간 사이의 의사소통의 수단으로서뿐만 아니라 인간의 음성을 이용하여 기계 및 사용 장치를 동작시키는 수단으로서도 중요한 역할을 한다. 최근 컴퓨터 성능의 발전, 다양한 미디어의 개발, 신호 및 정보처리 기술의 발전으로 인해 음성 인식 기술이 발전하고 있다.
음성 인식 기술은, 인간의 음성을 컴퓨터가 분석 또는 이해하는 기술로서, 발음에 따라 입 모양과 혀의 위치 변화로 특정한 주파수를 갖는 인간의 음성을 이용하여, 발성된 음성을 전기 신호로 변환한 후 음성 신호의 주파수 특성을 추출해 발음을 인식하는 기술이다.
최근 들어 다양한 AI 스피커의 보급이 급격하게 늘어남에 따라 가정에 1대 이상의 AI 스피커가 구입이 많아지고 있다. 또한 한 공간에서 2대 이상의 AI 스피커 사용이 늘어나고 있다. 이는 사용자에 따라 사용하고자 하는 인공지능 비서가 다르기 때문이다.
이러한 문제점을 해결하기 위해 단일 AI스피커에서 복수의 사용자와 복수의 AI 인공지능 비서 모듈을 설치하여 단일 플랫폼(AI 스피커)에서 다중 인공지능 비서 서비스를 구현하는 것이 필요하였다.
공개특허공보 제10-2009-0106630호
본 발명이 해결하고자 하는 과제는 단일 AI스피커에서 복수의 사용자와 복수의 AI 인공지능 비서 모듈을 설치하여 단일 플랫폼(AI 스피커)에서 다중 인공지능 비서 서비스를 구현하기 위한 것이다. 즉, 단일 플랫폼에서 화자 인증을 통해 다중 인공지능 비서 시스템을 사용하는 것으로, 등록된 사용자의 이용 서비스 및 패턴 등을 분석하여 개인 맞춤형 서비스를 제공할 수 있는 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템을 제공하는 것이다.
상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템은, 소규모 그룹을 구성하는 사용자들이 사용하고, 상기 사용자들 각각의 음성을 구별하여, 이들 각각의 명령을 실행하도록 할 수 있는 성문인식장치와 상기 성문인식장치와 연동되는 데이터 프로세싱 장치를 포함하되, 상기 상기 성문인식장치는, 상기 사용자들의 음성을 저장하는 저장부와, 제1 발화자가 제1 발화음성을 발화하는 경우, 상기 제1 발화음성을 수신하는 수신부와, 상기 저장부에 저장된 음성과 상기 제1 발화음성을 비교하여, 상기 제1 발화자가 등록된 사용자인지 여부를 판단하는 판단부와, 상기 제1 발화자의 제1 명령음성에 대응한 명령신호를 생성하는 실행부를 포함할 수 있다.
상기 수신부는 호출어수신유닛을 포함하되, 상기 제1 발화자가 상기 제1 발화음성으로 제1 호출어(wake up call)를 발화하는 경우, 상기 호출어수신유닛은 상기 제1 호출어를 수신한다.
상기 호출어수신유닛은 상기 제1 호출어를 음파신호로 변환한다.
상기 저장부는 호출어저장유닛을 포함하되, 상기 호출어저장유닛에는 상기 사용자들의 등록호출어가 저장되어 있다.
상기 판단부는 호출자인식유닛을 포함하되, 상기 호출자인식유닛은 상기 제1 호출어와 상기 등록호출어를 서로 비교하여, 상기 제1 발화자가 등록된 사용자인지 여부를 판단한다.
상기 제1 발화자가 등록된 사용자라고 판단된 경우, 상기 성문인식장치는 상기 제1 발화자를 위한 제1 명령세션을 생성한다.
상기 제1 명령세션에서 제2 발화자가 제2 발화음성으로 제2 호출어를 발화하는 경우, 상기 호출어수신유닛은 상기 제2 호출어를 수신하고, 상기 호출자인식유닛은 상기 제2 호출어와 상기 등록호출어를 서로 비교하여, 상기 제2 발화자가 등록된 사용인지 여부를 판단하고, 상기 제2 발화자가 등록된 사용자라고 판단된 경우, 상기 성문인식장치는 상기 제2 발화자를 위한 제2 명령세션을 생성한다.
상기 수신부는 명령어수신유닛을 더 포함하되, 상기 제1 발화자가 상기 제1 명령음성으로 제1 명령어를 발화하는 경우, 상기 명령어수신유닛은 상기 제1 명령어를 수신한다.
상기 명령어수신유닛은 상기 제1 명령어를 음파신호로 변환한다.
상기 저장부는 명령어저장유닛을 더 포함하되, 상기 명령어저장유닛에는 상기 사용자들의 등록명령어가 저장되어 있다.
상기 판단부는 명령어인식유닛을 더 포함하되, 상기 명령어인식유닛은 상기 제1 명령어와 상기 등록명령어를 서로 비교하여, 상기 제1 명령어가 일반명령어인지 특수명령어인지를 판단한다.
상기 제1 명령어가 일반명령어인 경우, 상기 실행부는 일반명령을 수행하는 일반명령신호를 생성한다.
상기 판단부는 호출자-명령자 인식유닛을 더 포함하되, 상기 제1 명령어가 특수명령어인 경우, 상기 호출자-명령자 인식유닛은 상기 제1 명령어의 음성과 상기 등록명령어를 서로 비교하여, 상기 제1 발화자가 등록된 사용자인지 여부를 판단한다.
상기 제1 발화자가 등록된 사용자로 판단된 경우, 상기 실행부는 특수명령을 수행할 수 있는 특수명령신호를 생성한다.
제3 발화자가 제2 명령음성으로 제2 명령어를 발화하는 경우, 상기 제2 명령어가 일반명령어이면, 상기 실행부는 일반명령을 수행하는 일반명령신호를 생성한다.
제3 발화자가 제2 명령음성으로 제2 명령어를 발화하는 경우, 상기 제2 명령어가 특수명령어이면, 상기 판단부는 상기 제1 발화자와 상기 제3 발화자의 동일성 여부를 판단하되, 상기 제1 발화자와 상기 제3 발화자가 서로 다른 사용자로 인식되는 경우, 상기 제1 명령세션이 종료된다.
상기 제1 발화자가 등록되지 않은 사용자라고 판단된 경우, 상기 호출자인식유닛은 상기 제1 발화자의 상기 제1 호출어와 상기 사용자들의 상기 등록호출어를 비교한다.
상기 제1 발화자의 상기 제1 호출어와 상기 사용자들의 상기 등록호출어 간의 벡터(i-vector)를 분석하여 유사도가 0.8이상이면, 상기 제1 발화자를 상기 그룹의 사용자로 간주하여, 상기 제1 발화자에게 사용자 등록을 요청한다.
본 발명에 의하면, 단일 AI스피커에서 복수의 사용자와 복수의 AI 인공지능 비서 모듈을 설치하여 단일 플랫폼(AI 스피커)에서 다중 인공지능 비서 서비스를 구현하기 위한 것으로, 단일 플랫폼에서 화자 인증을 통해 다중 인공지능 비서 시스템을 사용하는 것으로, 등록된 사용자의 이용 서비스 및 패턴 등을 분석하여 개인 맞춤형 서비스를 제공할 수 있는 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템이 제공된다.
본 발명의 효과는 이상에서 언급한 효과들로 제한되지 않으며 이외의 발명의 효과도 청구범위의 기재로부터 명확하게 이해될 수 있다.
도 1은 본 발명의 일 실시예에 따른 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템의 개요도이다.
도 2는 본 발명의 일 실시예에 따른 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템의 성문인식장치의 블록도이다.
도 3은 본 발명의 일 실시예에 따른 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템의 성문인식장치가 성문인식을 처리하는 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 아래 첨부된 도면을 참조하여 본 발명의 실시를 위한 구체적인 내용을 상세히 설명한다. 도면에 관계없이 동일한 부재번호는 동일한 구성요소를 지칭하며, "및/또는"은 언급된 아이템들의 각각 및 하나 이상의 모든 조합을 포함한다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 본 발명의 실시예에 따른 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템을 설명한다.
도 1은 본 발명의 일 실시예에 따른 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템의 개요도이고, 도 2는 본 발명의 일 실시예에 따른 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템의 성문인식장치의 블록도이고, 도 3은 본 발명의 일 실시예에 따른 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템의 성문인식장치가 성문인식을 처리하는 순서도이다.
도 1 내지 도 3을 참조하면, 본 발명의 일 실시예에 따른 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템(1)은 소규모 그룹을 구성하는 사용자들이 사용하고, 상기 사용자들 각각의 음성을 구별하여, 이들 각각의 명령을 실행하도록 할 수 있는 성문인식장치(10)와, 상기 성문인식장치(10)와 연동되는 데이터 프로세싱 장치(20)를 포함할 수 있다. 여기서, 소규모 그룹은 가족구성원들의 집합일 수 있다.
성문인식장치(10)는 본 발명의 핵심적인 구성으로, 사용자들의 음성을 구분하여 이들 각각이 발화한 명령을 수행할 수 있도록 한다.
도 2 및 도 3을 참조하면, 본 발명의 일 실시예에 따른 시스템의 성문인식장치(10)는, 상기 사용자들의 음성을 저장하는 저장부(301)와, 제1 발화자가 제1 발화음성을 발화하는 경우, 상기 제1 발화음성을 수신하는 수신부(101)와, 상기 저장부(301)에 저장된 음성과 상기 제1 발화음성을 비교하여, 상기 제1 발화자가 등록된 사용자인지 여부를 판단하는 판단부(201)와, 상기 제1 발화자의 제1 명령음성에 대응한 명령신호를 생성하는 실행부(401)를 포함할 수 있다.
제1 발화자는 성문인식장치(10)를 이용하기 위해 제1 발화음성을 발화한다(S101). 발화된 제1 발화음성은 수신부(101)에서 수신된다. 수신부(101)는 호출어수신유닛(110)과 명령어수신유닛(120)을 포함할 수 있다.
제1 발화자가 제1 발화음성으로 제1 호출어(wake up call)를 발화하는 경우, 호출어수신유닛(110)은 제1 호출어를 수신한다. 호출어수신유닛(110)은 수신한 제1 호출어 음성을 음파신호로 변환시켜, 제1 호출어 음성을 음성데이터화한다. 이렇게 변환된 제1 호출어는 판단부(201)로 전송된다.
한편, 저장부(301)는 호출어저장유닛(310)과 명령어저장유닛(320)을 포함할 수 있다. 호출어저장유닛(310)은 사용자들이 등록한 호출어(이하, '등록호출어'라 한다.)를 저장한다. 등록호출어는 사용자들의 개성이 포함된 음성으로, 각 사용자들을 식별할 수 있는 음성신호로 구성된다. 호출어저장유닛(310)과 명령어저장유닛(320)은 각각 등록호출어와 등록명령어를 저장하기 위하여, 비휘발성 또는 휘발성 메모리 장치나 하드디스크(Hard Disk Device, HDD) 장치와 같은 저장장치를 포함할 수 있다.
판단부(201)는 저장부(301)에 저장된 음성과 상기 제1 발화음성을 비교하여, 상기 제1 발화자가 등록된 사용자인지 여부를 판단한다. 판단부(201)는 호출자인식유닛(210), 명령어인식유닛(220), 호출자-명령자 인식유닛(230)을 포함할 수 있다.
판단부(201)의 호출자인식유닛(210)은 제1 발화자가 발화한 제1 호출어를 호출어수신유닛(110)으로부터 전송받고, 호출어저장유닛(310)에 저장된 등록호출어를 전송받는다. 호출자인식유닛(210)은 전송받은 제1 호출어와 등록호출어를 서로 비교하여 제1 발화자가 등록된 사용자인지 여부를 판단한다(S102). 예를들어, 제1 호출어의 음파신호와 사용자들의 등록호출어의 음파신호를 1:1로 매칭 및 비교하여, 복수의 등록호출어 중에 제1 호출어와 싱크로률이 90% 이상인 등록호출어가 존재하면, 제1 호출어를 발화한 제1 발화자는 등록된 사용자로 인식될 수 있다. 여기서, 호출자인식유닛(210)은 컴퓨팅 디바이스(106)에 적용되는 하나 이상의 프로세서들로 실행되는 소프트웨어로 구현될 수 있다.
호출자인식유닛(210)의 판단 결과, 제1 발화자가 등록된 사용자라고 판단된 경우(S103), 성문인식장치(10)는 상기 제1 발화자를 위한 제1 명령세션을 생성한다(S104). 제1 명령세션이 생성되면, 성문인식장치(10)는 제1 발화자의 제1 명령음성을 대기한다.
한편, 상기 제1 명령세션에서 재1 발화자와 다른 제2 발화자가 제2 발화음성으로 제2 호출어를 발화하는 경우, 상기 호출어수신유닛(110)은 상기 제2 호출어를 수신하고, 상기 호출자인식유닛(210)은 상기 제2 호출어와 사용자들의 등록호출어를 서로 비교하여, 상기 제2 발화자가 등록된 사용인지 여부를 판단하고, 상기 제2 발화자가 등록된 사용자라고 판단된 경우, 상기 성문인식장치(10)는 상기 제2 발화자를 위한 제2 명령세션을 생성한다. 이때, 이전에 활성화된 제1 명령세션은 자동으로 종료된다.
일정시간 동안 발화자의 추가 명령음성이 수신되지 않으면, 제1 및 제2 명령세션은 자동으로 종료된다. 일정시간은 사용자 설정으로 셋업될 수 있다. 예를들어, 일정시간은 30초 또는 1분 정도로 설정될 있다.
한편, 호출자인식유닛(210)의 판단 결과, 제1 발화자가 등록되지 않은 사용자라고 판단된 경우, 호출자인식유닛(210)은 제1 발화자의 호출어 음성과 등록된 사용자들의 등록호출어 음성을 서로 비교한다(S105).
비교를 통해, 제1 발화자의 상기 호출어 음성과 상기 사용자들의 등록호출어 음성 간의 벡터(i-vector)를 분석하여 예를 들어 유사도가 0.8이상이면, 상기 제1 발화자를 상기 그룹의 사용자로 간주될 수 있다. 상기 그룹의 사용자로 간주되면, 성문인식장치(10)는 제1 발화자에게 사용자 등록을 요청한다(S106). 사용자 등록을 요청받은 제1 발화자는 사용자 등록 절차를 거쳐, 본 발명의 시스템을 사용할 수 있는 권한을 획득할 수 있다.
계속해서, 제1 명령세션이 생성되면, 제1 발화자는 제1 명령음성으로 제1 명령어를 발화할 수 있다(S201). 제1 발화자가 제1 명령어를 발화하면, 수신부(101)의 명령어수신유닛(120)은 상기 제1 명령어를 수신한다. 명령어수신유닛(120)은 수신된 제1 명령어 음성을 음파신호로 변환시켜, 제1 명령어 음성을 음성데이터화한다. 이렇게 변환된 제1 명령어는 판단부(201)로 전송된다.
상술한 바와 같이, 저장부(301)는 명령어저장유닛(320)을 포함할 수 있다. 명령어저장유닛(320)은 사용자들이 등록한 명령어(이하, '등록명령어'라 한다.)를 저장한다. 등록명령어는 사용자들의 개성이 포함된 음성으로, 각 사용자들을 식별할 수 있는 음성신호로 구성된다.
등록명령어는 일반명령어와 특수명령어를 포함한다. 일반명령어는 중요도가 낮은 업무의 수행 또는 정보를 제공하는 행위 등을 포함할 수 있다. 예를 들어, 일반명령어는 시간, 날짜 및 날씨에 관한 정보 제공, TV 채널 선택, 간단한 검색 등을 수행할 수 있는 명령문으로 구성될 수 있다. 주로, 사용자의 개인정보와 관련성이 적은 명령으로 구성될 수 있다.
특수명령어는 일반명령어에 비해, 중요도가 높은 명령으로 구성될 수 있다. 즉, 특수명령어는 사용자의 개인정보와 관련성이 높은 명령으로 구성될 수 있다. 예를 들어, 특수명령어 전화, 문자, 금융업무(이체), 결제 등과 같은 명령을 포함할 수 있다. 이때, 사용자의 설정에 따라 특수명령어에는 등급이 부여될 수 있다. 예를 들어, 전화는 가장 낮은 1등급으로, 문자 전송 명령은 중간 등급인 2등급으로, 금융 업무(이체), 결제는 가장 높은 등급인 3등급으로 설정될 수 있다. 그룹 내 사용자 중에 미성년자가 있는 경우, 금융 업무(이체) 및 결제 명령에 대해서는 미성년자에게 명령권한을 제한할 수 있다.
등록명령어는 일반명령어와 특수명령어로 구분되어 저장 및 등록됨으로써, 등록명령어에 포함된 일반명령어와 특수명령어는 구분될 수 있다. 한편, 각 명령 별로 서로 다른 음성을 갖기 때문에, 각 명령어는 각각의 개성을 가지며 저장된다. 또한, 사용자마다 음성이 다르므로, 사용자 별로도 구분되어 등록명령어가 저장될 수 있다.
상술한 바와 같이, 판단부(201)는 명령어인식유닛(220)을 포함한다. 명령어인식유닛(220)은 상기 제1 명령어와 상기 등록명령어를 서로 비교한다(S202). 이를 위해 등록명령어는 명령어저장유닛(320)에서 판단부(201)로 전송된다. 전송된 제1 명령어의 음성데이터와 등록명령어의 데이터를 비교하여, 제1 명령어가 일반명령어인지 특수명령어인지를 판단한다(S203).
판단 결과, 제1 명령어가 일반명령어인 경우, 실행부(401)는 일반명령을 수행하는 일반명령신호를 생성한다. 이를 통해 일반 명령(예, 시간, 날짜 및 날씨에 관한 정보 제공, TV 채널 선택, 간단한 검색 수행)이 실행된다(S204).
한편, 판단 결과, 제1 명령어가 특수명령어인 경우, 상기 제1 명령어의 음성과 상기 등록명령어를 서로 비교하여, 상기 제1 발화자가 등록된 사용자인지 여부를 판단한다(S205, S206). 등록된 사용자인지 여부에 대한 판단은 판단부(201)의 호출자-명령자 인식유닛(230)에서 수행된다.
이때, 상기 제1 발화자가 등록된 사용자로 판단된 경우, 실행부(401)는 특수명령을 수행할 수 있는 특수명령신호를 생성한다. 생성된 특수명령신호를 바탕으로 데이터 프로세싱 장치(20)는 특수 명령을 실행한다(S208). 반면에, 제1 발화자가 등록되지 않은 사용자로 판단된 경우, 특수명령에 대한 명령을 수행하지 않고, 제1 명령세션은 종료하게 된다(S207).
한편, 제1 발화자에 의해 제1 명령세션이 활성화된 상태에서, 제1 발화자가 아닌 제3 발화자가 제2 명령음성으로 제2 명령어를 발화하는 경우, 제2 명령어가 일반명령어이면, 실행부(401)는 일반명령을 수행하는 일반명령신호를 생성한다. 즉, 제1 발화자가 아닌 제3 발화자의 일반명령어에 대해서는 성문인식장치(10)가 반응을 한다.
반면에, 제1 발화자에 의해 제1 명령세션이 활성화된 상태에서, 제1 발화자가 아닌 제3 발화자가 제2 명령음성으로 제2 명령어를 발화하는 경우, 제2 명령어가 특수명령어이면, 판단부(201)의 호출자-명령자 인식유닛(230)은 상기 제1 발화자와 상기 제3 발화자의 동일성 여부를 판단하되, 상기 제1 발화자와 상기 제3 발화자가 서로 다른 사용자로 인식되는 경우, 제2 명령어에 의한 특수명령을 수행하지 않고, 상기 제1 명령세션이 종료된다.
한편, 화자검증은 다음과 같은 방법으로 수행될 수 있다.
먼저, 검증을 위해 타겟과 평가 대상을 분류한다. 타겟은 Wtarget으로, 평가 대상은 Wtest로 표시되고, 이들의 관계를 수식으로 표현하면 다음과 같다. 화자와 등록된 가족을 분석하는 경우, 예를 들어, 최대 5회 정도를 진행할 수 있다.
Figure 112019034998681-pat00001
여기서, H0와 H1은 Wtarget, Wtest이 같은 화자(동일 인물)일 경우, Sscore의 로그 계산에 대해 다음과 같은 수식의 PLDA 기법이 적용될 수 있다.
Figure 112019034998681-pat00002
여기서,
Figure 112019034998681-pat00003
이고,
Figure 112019034998681-pat00004
이다.
B는 화자모델, G는 채널모델이다.
상기의 방법으로, 화자와 가족간의 유사한 음성을 추출하여, 등록되지 않은 가족에 대해 사용자 등록을 유도할 수 있다.
또한, 음조를 통해 화자의 의도를 파악할 수 있다. 음조를 통해 일반 명령어와 특수 명령어로 분류할 수 있고, 이에 따라, 음성을 분류하여 화자의 의도를 반영한 적절한 명령의 수행이 가능해 질 수 있다.
다음으로, 데이터 프로세싱 장치(20)는 성문인식장치(10)로부터 전달받은 명령신호를 바탕으로 특정 동작을 수행한다.
데이터 프로세싱 장치(20)는, 예시적인 프로그램 가능한 프로세서, 컴퓨터, 칩 상의 시스템 또는 다수의 것들, 또는 앞서 말한 것의 조합들을 거치는 것을 포함하여, 데이터를 처리하기 위한 장치들, 디바이스들 및 기계들의 모든 종류를 포함한다. 상기 장치는 예를 들면, FPGA(field programmable gate way array) 또는 ASIC(application-specific integrated circuit)과 같은, 특수 목적 논리 회로를 포함할 수 있다. 상기 장치는 또한, 하드웨어에 추가하여, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 작동 시스템, 크로스-플랫폼 런타임 환경(cross-platform runtime environment), 가상 기계 또는 그들의 하나 이상의 조합을 구성하는 코드와 같은, 문제되는 컴퓨터 프로그램에 대한 실행 환경을 만드는 코드를 포함한다. 상기 상치 및 실행 환경은 예컨데, 웹 서비스들, 분산된 컴퓨팅 및 그리드(grid) 컴퓨팅 기반 시설들과 같은, 다양한 서로 다른 컴퓨팅 모델 기반 시설들을 실현할 수 있다.
컴퓨터 프로그램(또한 프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 또는 코드로서 알려진)은 컴파일(compile)되거나 해석된 언어들, 서술문의 또는 절차상의 언어들을 포함하여, 프로그래밍 언어의 임의의 형태로 쓰여질 수 있고, 상기 컴퓨터 프로그램은, 독립형 프로그램 또는 모듈, 컴포넌트, 서브루틴(subroutine), 오브젝트(object) 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛을 포함하여, 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은, 필요하지는 않지만, 파일 시스템 내의 파일에 대응할 수 있다. 프로그램은 다른 프로그램들 또는 데이터를 유지하는 파일의 부분(예를 들어, 마크업 언어 문서 내에 저장된 하나 이상의 스크립트들)내, 문제되는 프로그램에 전용되는 단일 파일 내 또는 다수의 조직화된 파일들(예를 들어, 하나 이상의 모듈들, 서브-프로그램들 또는 코드의 부분들을 저장하는 파일들) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 실행될 수 있도록 전개될 수 있고, 상기 하나의 컴퓨터 또는 다수의 컴퓨터들은 하나의 사이트(site)에 위치해 있거나 또는 다수의 사이트에 걸쳐 분산되어 있고 통신 네트워크에 의해 상호 접속되어 있다.
상기 프로세스들 및 논리 흐름들은 입력 데이터를 작동하고 출력을 생성함으로써, 하나 이상의 프로그램 가능한 컴퓨터들에 의해 수행될 수 있고, 상기 프로그램 가능한 컴퓨터들은 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행한다. 상기 프로세스들 및 논리 흐름들 및 구현될 수 있는 장치는 또한 예를 들면, FPGA(field programmable gate way array) 또는 ASIC(application specific integrated circuit)과 같은, 특수 목적 논리 회로에 의해 수행될 수 있다.
컴퓨터 프로그램의 실행을 위해 적합한 프로세서들은, 예시로서, 일반 및 특수 목적 마이크로프로세서들 및 디지털 컴퓨터의 임의의 종류의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 읽기-전용 메모리 또는 랜덤 액세서 메모리 또는 모두로부터 명령어들 및 데이터를 받을 것이다. 컴퓨터의 필수 요소들은 명령들에 부합되는 동작들을 수행하기 위한 프로세서 및 명령들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 하나 이상의 대량 저장 디바이스들, 예를 들면, 자기, 자기 광학 디스크들 또는 광학 디스크들을 포함하거나, 그로부터 데이터를 수신하거나 그에 데이터를 전송하거나 또는 하나 이상의 대량 저장 디바이스들에 동작적으로 연결될 수 있다. 그러나, 컴퓨터는 이러한 디바이스들을 포함할 필요가 없다. 게다가, 컴퓨터는, 몇 가지만 예를 들자면, 예를 들어, 모바일 텔레폰, PDA, 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, Global Positioning System(GPS) 수신기 또는 휴대용 저장 장치(예를 들어, universal serial bus(USB) 플래시 드라이브)와 같은, 다른 디바이스 내에 포함될 수 있다. 컴퓨터 프로그램 명령어들 및 데이터를 저장하기 위해 적합한 디바이스들은, 예를 들면, EPROM, EEPROM 및 플래시 메모리 디바이스들, 자기 디스크들, 예를 들면, 내장 하드 디스크 또는 탈착 가능한 디스크들, 자기 광학 디스크들 및 CD-ROM 및 DVD-ROM 디스크들과 같은, 반도체 메모리 디바이스들의 예시적인 방법에 의한 것을 포함하여 비휘발성 메모리, 미디어 및 메모리 디바이스들의 모든 형태들을 포함한다. 상기 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나, 특수 목적 논리 회로에 통합될 수 있다.
본 발명의 실시 예들은 예를 들면, 데이터 서버로서, 컴퓨팅 시스템 내에서 구현될 수 있고, 상기 컴퓨팅 시스템은 백-엔드(back-end) 컴포넌트를 포함하거나 또는 예를 들면, 어플리케이션 서버와 같은, 미들웨어(middleware) 컴포넌트를 포함하거나 또는 예를 들면, 그래픽 사용자 인터페이스 또는 사용자가 본 명세서에 기술된 주제의 구현들과 상호작용하는 것을 통한 웹 브라우저를 가지는 클라이언트 컴퓨터와 같은, 프론트-엔드(front-end) 컴포넌트를 포함하거나 또는 이러한 하나 이상의 벡-엔드, 미들웨어, 또는 프론트-엔드 컴포넌트들의 임의의 조합을 포함한다. 상기 시스템의 컴포넌트들은 예를 들면, 통신 네트워크와 같은, 임의의 형태 또는 디지털 데이터 통신의 매체에 의해 상호연결 될 수 있다. 통신 네트워크들의 예시들은 local area network("LAN"), wide area network("WAN"), 인터-네트워크(예를 들어, 인터넷) 및 peer-to-peer networks(예를 들어, ad hoc peer-to-peer 네트워크)를 포함한다.
하나 이상의 컴퓨터들의 시스템은, 야기된 동작에서 또는 시스템으로 하여금 액션들을 수행하게 하는 시스템 상에 설치된 소프트웨어, 펌웨어, 하드웨어 또는 그들의 결합을 구비함으로써, 특정 동작들 또는 액션들을 수행하도록 구성될 수 있다. 하나 이상의 컴퓨터 프로그램들은, 데이터 처리 장치들에 의해 실행될 때 상기 장치들로 하여금 상기 액션들을 수행하게 하는 명령들을 포함함으로써, 특정 동작들 또는 액션들을 수행하도록 구성될 수 있다.
이상 본 발명의 실시예들을 설명하였으나, 본 발명은 상기 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 제조될 수 있으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
10: 성문인식장치 20: 데이터 프로세싱 장치
101: 수신부 201: 판단부
301: 저장부 401: 실행부

Claims (14)

  1. 그룹사용자들 각각의 음성을 구별하여, 상기 그룹사용자들 각각의 명령을 실행하도록 할 수 있는 성문인식장치와 상기 성문인식장치와 연동되는 데이터 프로세싱 장치를 포함하는 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템에 있어서,
    상기 성문인식장치는,
    상기 그룹사용자들의 음성을 저장하는 저장부;
    제1 발화자가 제1 발화음성을 발화하는 경우, 상기 제1 발화음성을 수신하는 수신부;
    상기 저장부에 저장된 음성과 상기 제1 발화음성을 비교하여, 상기 제1 발화자가 등록된 사용자인지 여부를 판단하는 판단부; 및
    상기 제1 발화자의 제1 명령음성에 대응한 명령신호를 생성하는 실행부;를 포함하되,
    상기 수신부는 호출어수신유닛을 포함하고,
    상기 판단부는 호출자인식유닛을 포함하고,
    상기 저장부는 호출어저장유닛을 포함하고,
    상기 제1 발화자가 상기 제1 발화음성으로 제1 호출어(wake up call)를 발화하는 경우, 상기 호출어수신유닛은 상기 제1 호출어를 수신하고,
    상기 호출어저장유닛에는 상기 그룹사용자들의 등록호출어가 저장되어 있고,
    상기 호출자인식유닛은 상기 제1 호출어와 상기 등록호출어를 서로 비교하여, 상기 제1 발화자가 등록된 사용자인지 여부를 판단하고,
    상기 제1 발화자가 등록된 사용자라고 판단된 경우, 상기 성문인식장치는 상기 제1 발화자를 위한 제1 명령세션을 생성하되,
    상기 제1 명령세션에서 제2 발화자가 제2 발화음성으로 제2 호출어를 발화하는 경우,
    상기 호출어수신유닛은 상기 제2 호출어를 수신하고, 상기 호출자인식유닛은 상기 제2 호출어와 상기 등록호출어를 서로 비교하여, 상기 제2 발화자가 등록된 사용인지 여부를 판단하고,
    상기 제2 발화자가 등록된 사용자라고 판단된 경우, 상기 성문인식장치는 상기 제2 발화자를 위한 제2 명령세션을 생성하고, 상기 제1명령세션을 종료하고,
    상기 수신부는 명령어수신유닛을 더 포함하되, 상기 제1 발화자가 상기 제1 명령음성으로 제1 명령어를 발화하는 경우,
    상기 명령어수신유닛은 상기 제1 명령어를 수신하고,
    상기 저장부는 명령어저장유닛을 더 포함하되,
    상기 명령어저장유닛에는 상기 사용자들의 특수명령어 및 일반명령어로 구분되는 등록명령어가 저장되어 있으며,
    상기 판단부는 명령어인식유닛을 더 포함하되,
    상기 명령어인식유닛은 상기 제1 명령어와 상기 등록명령어를 서로 비교하여, 상기 제1 명령어가 일반명령어인지 특수명령어인지를 판단하며,
    판단결과, 상기 제1 명령어가 일반명령어인 경우, 상기 실행부는 일반명령을 수행하는 일반명령신호를 생성하고,
    상기 판단부는 호출자-명령자 인식유닛을 더 포함하되,
    상기 판단결과, 상기 제1 명령어가 특수명령어인 경우, 상기 호출자-명령자 인식유닛은 상기 제1 명령어의 음성과 상기 등록명령어를 서로 비교하여, 상기 제1 발화자가 등록된 사용자인지 여부를 판단하고,
    상기 제1 발화자가 등록된 사용자로 판단된 경우, 상기 실행부는 특수명령을 수행할 수 있는 특수명령신호를 생성하는 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템.
  2. 제1 항에 있어서,
    상기 호출어수신유닛은 상기 제1 호출어를 음파신호로 변환하는 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템.
  3. 삭제
  4. 삭제
  5. 제1 항에 있어서,
    상기 명령어수신유닛은 상기 제1 명령어를 음파신호로 변환하는 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 제1 항에 있어서,
    제3 발화자가 제2 명령음성으로 제2 명령어를 발화하는 경우, 상기 제2 명령어가 일반명령어이면, 상기 실행부는 일반명령을 수행하는 일반명령신호를 생성하는 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템.
  12. 제1 항에 있어서,
    제3 발화자가 제2 명령음성으로 제2 명령어를 발화하는 경우,
    상기 제2 명령어가 특수명령어이면, 상기 판단부는 상기 제1 발화자와 상기 제3 발화자의 동일성 여부를 판단하되,
    상기 제1 발화자와 상기 제3 발화자가 서로 다른 사용자로 인식되는 경우, 상기 제1 명령세션이 종료되는 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템.
  13. 제1 항에 있어서,
    상기 제1 발화자가 등록되지 않은 사용자라고 판단된 경우, 상기 호출자인식유닛은 상기 제1 발화자의 상기 제1 호출어와 상기 사용자들의 상기 등록호출어를 비교하는 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템.
  14. 제13 항에 있어서,
    상기 제1 발화자의 상기 제1 호출어와 상기 사용자들의 상기 등록호출어 간의 벡터(i-vector)를 분석하여 유사도가 0.8이상이면,
    상기 제1 발화자를 상기 그룹의 사용자로 간주하여, 상기 제1 발화자에게 사용자 등록을 요청하는 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템.
KR1020190039909A 2019-04-05 2019-04-05 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템 Active KR102135182B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020190039909A KR102135182B1 (ko) 2019-04-05 2019-04-05 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
CN202010108315.3A CN111798844A (zh) 2019-04-05 2020-02-21 根据声纹识别的人工智能扬声器定制型个人化服务系统
US16/805,601 US11488595B2 (en) 2019-04-05 2020-02-28 User-customized AI speaker-based personalized service system using voiceprint recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190039909A KR102135182B1 (ko) 2019-04-05 2019-04-05 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템

Publications (1)

Publication Number Publication Date
KR102135182B1 true KR102135182B1 (ko) 2020-07-17

Family

ID=71832279

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190039909A Active KR102135182B1 (ko) 2019-04-05 2019-04-05 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템

Country Status (3)

Country Link
US (1) US11488595B2 (ko)
KR (1) KR102135182B1 (ko)
CN (1) CN111798844A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12148425B2 (en) 2021-04-12 2024-11-19 Samsung Electronics Co., Ltd Electronic device for processing user utterance and control method thereof

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102219189B1 (ko) * 2018-09-28 2021-02-23 주식회사 솔루게이트 버추얼 상담 시스템 및 이를 이용한 상담방법
US12045639B1 (en) * 2023-08-23 2024-07-23 Bithuman Inc System providing visual assistants with artificial intelligence

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090106630A (ko) 2001-03-28 2009-10-09 콸콤 인코포레이티드 함축적인 화자 적응을 사용하는 음성 인식 시스템
KR20180069660A (ko) * 2016-12-15 2018-06-25 삼성전자주식회사 음성 인식 방법 및 장치
KR20190012066A (ko) * 2017-07-26 2019-02-08 네이버 주식회사 화자 인증 방법 및 음성인식 시스템
KR20190030081A (ko) * 2017-09-13 2019-03-21 (주)파워보이스 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8751429B2 (en) * 2012-07-09 2014-06-10 Wine Ring, Inc. Personal taste assessment method and system
CN107220532B (zh) * 2017-04-08 2020-10-23 网易(杭州)网络有限公司 用于通过声音识别用户身份的方法及设备
CN106992009B (zh) * 2017-05-03 2020-04-24 深圳车盒子科技有限公司 车载语音交互方法、系统及计算机可读存储介质
KR102326272B1 (ko) * 2017-12-05 2021-11-15 삼성전자주식회사 외부 장치의 네트워크 셋업을 위한 전자 장치 및 그의 동작 방법
KR102513297B1 (ko) * 2018-02-09 2023-03-24 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법
CN109065038A (zh) * 2018-07-10 2018-12-21 广东九联科技股份有限公司 一种执法仪的语音控制方法及系统
KR20200067673A (ko) * 2018-12-04 2020-06-12 (주)이더블유비엠 공유 ai 스피커
KR20190104263A (ko) * 2019-07-11 2019-09-09 엘지전자 주식회사 인공지능 기반의 음성 인식 서비스 제공 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090106630A (ko) 2001-03-28 2009-10-09 콸콤 인코포레이티드 함축적인 화자 적응을 사용하는 음성 인식 시스템
KR20180069660A (ko) * 2016-12-15 2018-06-25 삼성전자주식회사 음성 인식 방법 및 장치
KR20190012066A (ko) * 2017-07-26 2019-02-08 네이버 주식회사 화자 인증 방법 및 음성인식 시스템
KR20190030081A (ko) * 2017-09-13 2019-03-21 (주)파워보이스 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12148425B2 (en) 2021-04-12 2024-11-19 Samsung Electronics Co., Ltd Electronic device for processing user utterance and control method thereof

Also Published As

Publication number Publication date
US20200320995A1 (en) 2020-10-08
US11488595B2 (en) 2022-11-01
CN111798844A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
US11887604B1 (en) Speech interface device with caching component
US12159086B2 (en) Device arbitration by multiple speech processing systems
US11222626B2 (en) System and method for a cooperative conversational voice user interface
CN107004411B (zh) 话音应用架构
US11132509B1 (en) Utilization of natural language understanding (NLU) models
US9190055B1 (en) Named entity recognition with personalized models
US9305553B2 (en) Speech recognition accuracy improvement through speaker categories
US10623246B1 (en) Device configuration by natural language processing system
US11188289B2 (en) Identification of preferred communication devices according to a preference rule dependent on a trigger phrase spoken within a selected time from other command data
US20150073802A1 (en) Dealing with switch latency in speech recognition
JP2013510341A (ja) 自然言語音声サービス環境におけるハイブリッド処理のシステム及び方法
KR102135182B1 (ko) 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
KR20200044388A (ko) 음성을 인식하는 장치 및 방법, 음성 인식 모델을 트레이닝하는 장치 및 방법
KR20190093962A (ko) 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
US12020707B2 (en) Response orchestrator for natural language interface
US20240185846A1 (en) Multi-session context
KR20200011198A (ko) 대화형 메시지 구현 방법, 장치 및 프로그램
US11646035B1 (en) Dialog management system
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
US20240212687A1 (en) Supplemental content output
JP3837061B2 (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
KR101945190B1 (ko) 음성인식 작동 시스템 및 방법
US12190877B1 (en) Device arbitration for speech processing
US11907676B1 (en) Processing orchestration for systems including distributed components
JP7177348B2 (ja) 音声認識装置、音声認識方法およびプログラム

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20190405

PA0201 Request for examination
PA0302 Request for accelerated examination

Patent event date: 20190708

Patent event code: PA03022R01D

Comment text: Request for Accelerated Examination

Patent event date: 20190405

Patent event code: PA03021R01I

Comment text: Patent Application

PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20191018

Patent event code: PE09021S01D

PE0601 Decision on rejection of patent

Patent event date: 20200217

Comment text: Decision to Refuse Application

Patent event code: PE06012S01D

Patent event date: 20191018

Comment text: Notification of reason for refusal

Patent event code: PE06011S01I

PX0901 Re-examination

Patent event code: PX09011S01I

Patent event date: 20200217

Comment text: Decision to Refuse Application

Patent event code: PX09012R01I

Patent event date: 20191213

Comment text: Amendment to Specification, etc.

Patent event code: PX09012R01I

Patent event date: 20191118

Comment text: Amendment to Specification, etc.

PX0701 Decision of registration after re-examination

Patent event date: 20200413

Comment text: Decision to Grant Registration

Patent event code: PX07013S01D

Patent event date: 20200317

Comment text: Amendment to Specification, etc.

Patent event code: PX07012R01I

Patent event date: 20200217

Comment text: Decision to Refuse Application

Patent event code: PX07011S01I

Patent event date: 20191213

Comment text: Amendment to Specification, etc.

Patent event code: PX07012R01I

Patent event date: 20191118

Comment text: Amendment to Specification, etc.

Patent event code: PX07012R01I

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20200713

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20200714

End annual number: 3

Start annual number: 1

PG1601 Publication of registration