KR102544262B1 - 사용자와 메타휴먼의 쌍방향 대화 응대 서비스를 스트리밍 기반으로 제공하는 전자 장치 - Google Patents
사용자와 메타휴먼의 쌍방향 대화 응대 서비스를 스트리밍 기반으로 제공하는 전자 장치 Download PDFInfo
- Publication number
- KR102544262B1 KR102544262B1 KR1020220103673A KR20220103673A KR102544262B1 KR 102544262 B1 KR102544262 B1 KR 102544262B1 KR 1020220103673 A KR1020220103673 A KR 1020220103673A KR 20220103673 A KR20220103673 A KR 20220103673A KR 102544262 B1 KR102544262 B1 KR 102544262B1
- Authority
- KR
- South Korea
- Prior art keywords
- user terminal
- text
- user
- artificial intelligence
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title 1
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 51
- 238000004891 communication Methods 0.000 claims abstract description 39
- 230000004044 response Effects 0.000 claims abstract description 32
- 230000008921 facial expression Effects 0.000 claims abstract description 28
- 230000008859 change Effects 0.000 claims description 6
- 230000008451 emotion Effects 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims 1
- 230000002452 interceptive effect Effects 0.000 abstract description 8
- 238000013528 artificial neural network Methods 0.000 description 20
- 238000000034 method Methods 0.000 description 18
- 238000012549 training Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000005281 excited state Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000060 site-specific infrared dichroism spectroscopy Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
도 2는 본 개시의 일 실시예에 따른 사용자 단말의 구성도이다.
도 3은 본 개시의 일 실시예에 따른 시스템의 구성도이다.
도 4는 본 개시의 일 실시예에 따른 기본 흐름도이다.
도 5 및 도 6은 본 개시의 일 실시예에 따른 스트리밍 데이터 제공 예시도이다.
110 : 메모리
120 : 통신부
130 : 프로세서
200 : 사용자 단말
210 : 통신모듈
220 : 입출력 모듈
230 : 제어모듈
Claims (7)
- 전자 장치에 있어서,
음성 인식을 수행하기 위한 제1 인공지능 모델, 질의 응답을 수행하기 위한 제2 인공지능 모델, 및 발화 내용에 매칭되는 표정과 입 모양을 생성하기 위한 제3 인공지능 모델을 포함하는, 메타휴먼(Metahuman)에 대한 데이터가 저장된 메모리;
적어도 하나의 단말과 통신하는 통신부; 및
상기 메모리 및 상기 통신부와 연결된 프로세서;를 포함하고,
상기 프로세서는,
상기 통신부를 통해, 사용자 단말로부터 휴먼 모드에 대한 서비스 요청을 수신하면, 상기 메타휴먼의 실시간 표정 및 실시간 음성을 포함하는 스트리밍(Streaming) 데이터를 상기 사용자 단말로 제공하고,
상기 통신부를 통해, 상기 사용자 단말로부터 획득된 음성 데이터를 상기 제1 인공지능 모델에 입력하여 제1 텍스트를 획득하고,
상기 제1 텍스트를 상기 제2 인공지능 모델에 입력하여 제2 텍스트를 획득하고,
상기 제2 텍스트를 상기 제3 인공지능 모델에 입력하여 표정 이미지 데이터를 획득하고,
상기 표정 이미지 데이터로 상기 스트리밍 데이터를 업데이트하고,
상기 통신부를 통해, 상기 사용자 단말로부터 AI 모드에 대한 서비스 요청을 수신하면, 상기 AI 모드에 대한 이미지 및 사용자 명령을 획득하는 UI(User Interface)를 사용자 단말로 제공하고,
상기 UI에 대해 입력된 사용자 명령을 바탕으로 획득된 질의 텍스트를 상기 제2 인공지능 모델에 입력하여 응답 정보를 획득하고,
상기 응답 정보를 상기 사용자 단말로 제공하고,
상기 스트리밍 데이터를 상기 사용자 단말로 제공함에 있어서, 상기 통신부 및 상기 사용자 단말 간의 통신 상태를 모니터링하고, 데이터 속도가 임계치 미만인 경우, AI 모드로 전환하고,
상기 AI 모드로 전환된 이후, 상기 사용자 단말로부터 휴먼 모드에 대한 서비스 요청을 수신하면, 상기 스트리밍 데이터를 상기 사용자 단말로 제공하되, 상기 휴먼 모드로 전환되면서 상기 사용자 단말을 통해 최초 출력된 응답 정보에 대한 데이터 속도가 임계치 미만인지 여부를 판단하고,
상기 최초 출력된 응답 정보에 대한 데이터 속도가 임계치 미만인 경우, 상기 사용자 단말의 사용자에 대해, 상기 최초 출력된 응답 정보에 대한 데이터 속도를 기준으로 임계치를 보정하여 저장하고,
상기 응답 정보는,
텍스트 및 음성 중 적어도 하나를 포함하는, 전자 장치. - 제1 항에 있어서,
상기 프로세서는,
상기 스트리밍 데이터를 업데이트함에 있어서, 상기 제2 텍스트를 음성으로 변화하여, 상기 업데이트된 스트리밍 데이터와 함께 상기 사용자 단말로 제공하는, 전자 장치. - 제1 항에 있어서,
상기 제1 인공지능 모델은,
사용자의 음성 데이터에 포함된 텍스트인 질의 텍스트를 추출하도록 훈련된 모델이고,
상기 제2 인공지능 모델은,
상기 질의 텍스트에 포함된 질의의 맥락을 파악하고, 이에 대한 응답인 응답 텍스트를 생성하도록 훈련된 모델이고,
상기 제3 인공지능 모델은,
상기 응답 텍스트에 포함된 단어의 속성을 바탕으로 상기 단어에 매칭되는 감정을 식별하여, 상기 응답 텍스트에 매칭되는 입 모양 이미지와 상기 식별된 감정에 매칭되는 표정 이미지를 선택하도록 훈련된 모델인, 전자 장치. - 삭제
- 삭제
- 제1 항에 있어서,
상기 프로세서는,
상기 사용자 단말을 통해 획득되는 음성 데이터를 상기 사용자 단말의 사용자에 대해 저장하고,
상기 음성 데이터에 매칭되는 시점 별 메타휴먼의 표정 이미지를 식별하고,
상기 음성 데이터에 대한 시점 별 피치를 획득하고,
피치 변화량이 임계값 미만인 시간 구간이 식별되면, 상기 식별된 시간 구간에 포함되는 적어도 하나의 메타휴먼의 표정 이미지를 상기 사용자 단말의 사용자에 대해 선호 이미지로 저장하는, 전자 장치. - 제6 항에 있어서,
상기 프로세서는,
상기 스트리밍 데이터를 사용자 단말로 제공함에 있어서, 상기 사용자 단말의 사용자에 대해 저장된 적어도 하나의 선호 이미지를 식별하고,
상기 선호 이미지 중, 가장 많이 중복된 이미지를 상기 메타휴먼의 기본 표정으로 설정하는, 전자 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220103673A KR102544262B1 (ko) | 2022-08-19 | 2022-08-19 | 사용자와 메타휴먼의 쌍방향 대화 응대 서비스를 스트리밍 기반으로 제공하는 전자 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220103673A KR102544262B1 (ko) | 2022-08-19 | 2022-08-19 | 사용자와 메타휴먼의 쌍방향 대화 응대 서비스를 스트리밍 기반으로 제공하는 전자 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102544262B1 true KR102544262B1 (ko) | 2023-06-16 |
Family
ID=86948073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220103673A Active KR102544262B1 (ko) | 2022-08-19 | 2022-08-19 | 사용자와 메타휴먼의 쌍방향 대화 응대 서비스를 스트리밍 기반으로 제공하는 전자 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102544262B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102712474B1 (ko) * | 2023-12-06 | 2024-10-02 | 주식회사 유니메오 | 간병챗봇 데이터셋 자동 업데이트 방법 및 시스템 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101558553B1 (ko) * | 2009-02-18 | 2015-10-08 | 삼성전자 주식회사 | 아바타 얼굴 표정 제어장치 |
KR101992424B1 (ko) * | 2018-02-06 | 2019-06-24 | (주)페르소나시스템 | 증강현실용 인공지능 캐릭터의 제작 장치 및 이를 이용한 서비스 시스템 |
KR20190107289A (ko) * | 2019-08-30 | 2019-09-19 | 엘지전자 주식회사 | 인공지능 로봇 및 인공지능 로봇의 음성인식 방법 |
KR102034255B1 (ko) * | 2017-06-29 | 2019-10-18 | 네이버 주식회사 | 사람-기계 간 감정 대화를 위한 방법 및 시스템 |
KR102069964B1 (ko) | 2017-03-01 | 2020-01-23 | 소니 주식회사 | 이미지 및 뎁스 데이터를 사용하여 3차원(3d) 인간 얼굴 모델을 발생시키는 가상 현실 기반 장치 및 방법 |
-
2022
- 2022-08-19 KR KR1020220103673A patent/KR102544262B1/ko active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101558553B1 (ko) * | 2009-02-18 | 2015-10-08 | 삼성전자 주식회사 | 아바타 얼굴 표정 제어장치 |
KR102069964B1 (ko) | 2017-03-01 | 2020-01-23 | 소니 주식회사 | 이미지 및 뎁스 데이터를 사용하여 3차원(3d) 인간 얼굴 모델을 발생시키는 가상 현실 기반 장치 및 방법 |
KR102034255B1 (ko) * | 2017-06-29 | 2019-10-18 | 네이버 주식회사 | 사람-기계 간 감정 대화를 위한 방법 및 시스템 |
KR101992424B1 (ko) * | 2018-02-06 | 2019-06-24 | (주)페르소나시스템 | 증강현실용 인공지능 캐릭터의 제작 장치 및 이를 이용한 서비스 시스템 |
KR20190107289A (ko) * | 2019-08-30 | 2019-09-19 | 엘지전자 주식회사 | 인공지능 로봇 및 인공지능 로봇의 음성인식 방법 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102712474B1 (ko) * | 2023-12-06 | 2024-10-02 | 주식회사 유니메오 | 간병챗봇 데이터셋 자동 업데이트 방법 및 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020135194A1 (zh) | 基于情绪引擎技术的语音交互方法、智能终端及存储介质 | |
JP6802005B2 (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
US20230018473A1 (en) | System and method for conversational agent via adaptive caching of dialogue tree | |
WO2021036644A1 (zh) | 一种基于人工智能的语音驱动动画方法和装置 | |
WO2021169431A1 (zh) | 交互方法、装置、电子设备以及存储介质 | |
US6526395B1 (en) | Application of personality models and interaction with synthetic characters in a computing system | |
WO2023284435A1 (zh) | 生成动画的方法及装置 | |
US20190251956A1 (en) | System and method for prediction based preemptive generation of dialogue content | |
KR20180108400A (ko) | 전자 장치, 그의 제어 방법 및 비일시적 컴퓨터 판독가능 기록매체 | |
CN114495927A (zh) | 多模态交互的虚拟数字人的生成方法及装置、存储介质、终端 | |
CN114995657B (zh) | 一种智能机器人的多模态融合自然交互方法、系统及介质 | |
CN114173188B (zh) | 视频生成方法、电子设备、存储介质和数字人服务器 | |
CN113948060A (zh) | 一种网络训练方法、数据处理方法及相关设备 | |
KR20200059112A (ko) | 로봇 상호작용 시스템 및 그를 위한 프로그램 | |
CN116468826B (zh) | 表情生成模型的训练方法、表情生成的方法及装置 | |
KR102544262B1 (ko) | 사용자와 메타휴먼의 쌍방향 대화 응대 서비스를 스트리밍 기반으로 제공하는 전자 장치 | |
US20220253609A1 (en) | Social Agent Personalized and Driven by User Intent | |
US11659248B1 (en) | Method, server and computer-readable medium for generating interactive content | |
CN117036556A (zh) | 虚拟形象驱动方法、装置及机器人 | |
CN115376487A (zh) | 数字人的控制方法、模型训练方法和装置 | |
KR102585761B1 (ko) | 구획 별 주소를 인식하여 음성을 텍스트로 변환하는 주소봇 서비스를 제공하는 전자 장치의 제어 방법 | |
KR102673384B1 (ko) | 딥러닝 기반 구음 장애 분류 장치, 시스템의 제어 방법, 및 컴퓨터 프로그램 | |
US11706492B1 (en) | Method, server and computer-readable medium for recommending nodes of interactive content | |
KR102576754B1 (ko) | 딥러닝 기반 구음 장애 음성 개선 변환 장치, 시스템의 제어 방법, 및 컴퓨터 프로그램 | |
KR102738804B1 (ko) | 캐릭터 통화서비스 제공방법, 이를 수행하는 컴퓨팅시스템, 및 컴퓨터-판독가능 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20220819 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20220819 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination |
|
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20221129 Patent event code: PE09021S01D |
|
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20230313 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20230612 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20230613 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |