KR20240090703A - 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 - Google Patents
사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 Download PDFInfo
- Publication number
- KR20240090703A KR20240090703A KR1020247016878A KR20247016878A KR20240090703A KR 20240090703 A KR20240090703 A KR 20240090703A KR 1020247016878 A KR1020247016878 A KR 1020247016878A KR 20247016878 A KR20247016878 A KR 20247016878A KR 20240090703 A KR20240090703 A KR 20240090703A
- Authority
- KR
- South Korea
- Prior art keywords
- automated assistant
- user
- state machine
- visual
- conversation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 28
- 230000000007 visual effect Effects 0.000 claims abstract description 123
- 230000001755 vocal effect Effects 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 60
- 230000004044 response Effects 0.000 claims description 29
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 230000007704 transition Effects 0.000 description 15
- 230000009471 action Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010438 heat treatment Methods 0.000 description 6
- 239000000463 material Substances 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000010079 rubber tapping Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 235000013550 pizza Nutrition 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 240000005561 Musa balbisiana Species 0.000 description 1
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 235000013580 sausages Nutrition 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/448—Execution paradigms, e.g. implementations of programming paradigms
- G06F9/4498—Finite state machines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
도 2는 다양한 구현에 따라 자동화된 어시스턴트의 클라이언트부에서 구현될 수 있는 컴포넌트의 예를 도시한다.
도 3 및 도 4는 본 명세서에 설명된 기술이 특정 시나리오에서 적용되는 예를 도시한다.
도 5 및 도 6은 본 명세서에 설명된 기술이 다른 시나리오에서 적용되는 예를 도시한다.
도 7은 본 명세서에 설명된 기술이 또 다른 시나리오에서 적용되는 예를 도시한다.
도 8 및 도 9는 본 명세서에 개시된 실시 예에 따른 예시적인 방법을 나타내는 흐름도를 도시한다.
도 10은 컴퓨팅 장치의 예시적인 아키텍처를 도시한다.
Claims (12)
- 하나 이상의 프로세서를 사용하여 구현되는 방법으로서,
하나 이상의 프로세서에 의해 적어도 부분적으로 구현되는 서드 파티(third party) 컴퓨팅 서비스에 의해, 자동화된 어시스턴트로부터 하나 이상의 컴퓨터 네트워크를 통해 전송된 제1 데이터를 수신하는 단계 -상기 제1 데이터는 사용자와 자동화된 어시스턴트 사이의 인간 대 컴퓨터 대화 세션의 일부로서 상기 자동화된 어시스턴트와 통신하는 컴퓨팅 장치의 사용자에 의해 제공되는 터치 입력을 나타냄-;
상기 터치 입력에 기초하여 해결(resolution) 정보를 생성하는 단계;
상기 인간 대 컴퓨터 대화 세션과 관련하여 상기 서드 파티 컴퓨팅 서비스를 위해 유지되는 시각적 대화 상태 머신을 업데이트하는 단계 -상기 업데이트하는 것은 상기 터치 입력과 상기 해결 정보 중 하나 또는 둘 다에 적어도 부분적으로 기초함-;
상기 시각적 대화 상태 머신의 하나 이상의 시각적 대화 상태와 상기 시각적 대화 상태 머신과 병렬로 상기 서드 파티 컴퓨팅 서비스를 위해 유지되는 구두 대화 상태 머신의 하나 이상의 구두 대화 상태 사이의 하나 이상의 링크에 기초하여, 상기 구두 대화 상태 머신을 특정 구두 대화 상태로 자동으로 업데이트하는 단계;
상기 서드 파티 컴퓨팅 서비스에 의해, 상기 자동화된 어시스턴트로부터 하나 이상의 컴퓨터 네트워크를 통해 전송된 제2 데이터를 수신하는 단계 -상기 제2 데이터는 상기 컴퓨팅 장치의 사용자에 의해 제공되는 음성 입력을 나타냄-;
상기 음성 입력 및 상기 업데이트된 구두 대화 상태 머신에 기초하여 추가 해결 정보를 생성하는 단계;
상기 추가 해결 정보에 기초하여 상기 시각적 대화 상태 머신을 업데이트하는 단계; 그리고
하나 이상의 컴퓨터 네트워크를 통해 제3 데이터를 상기 자동화된 어시스턴트로 전송하는 단계를 포함하며, 상기 제3 데이터는 상기 업데이트된 시각적 대화 상태 머신을 나타내고, 상기 컴퓨팅 장치에서 실행되는 어시스턴트 애플리케이션으로 하여금 상기 사용자와 어시스턴트 애플리케이션의 그래픽 사용자 인터페이스 사이의 비터치(touchless) 상호작용을 트리거하게 하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법. - 제1항에 있어서, 상기 그래픽 사용자 인터페이스는 상기 어시스턴트 애플리케이션에 임베디드된(embedded) 웹 브라우저를 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
- 제1항에 있어서, 상기 비터치 상호작용은 상기 그래픽 사용자 인터페이스의 선택 가능한 요소의 동작을 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
- 제1항에 있어서, 상기 비터치 상호작용은 상기 그래픽 사용자 인터페이스에서 렌더링된 문서의 특정 위치로 스크롤하는 것을 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
- 제1항에 있어서, 상기 비터치 상호작용은 상기 그래픽 사용자 인터페이스의 일부를 확대하는 것을 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
- 하나 이상의 프로세서와, 상기 하나 이상의 프로세서에 의한 명령의 실행에 응답하여 상기 하나 이상의 프로세서로 하여금 동작 세트를 수행하게 하는 명령어를 저장하는 메모리를 포함하는 시스템으로서, 상기 동작 세트는,
하나 이상의 프로세서에 의해 적어도 부분적으로 구현되는 서드 파티(third party) 컴퓨팅 서비스에 의해, 자동화된 어시스턴트로부터 하나 이상의 컴퓨터 네트워크를 통해 전송된 제1 데이터를 수신하는 동작 -상기 제1 데이터는 사용자와 자동화된 어시스턴트 사이의 인간 대 컴퓨터 대화 세션의 일부로서 상기 자동화된 어시스턴트와 통신하는 컴퓨팅 장치의 사용자에 의해 제공되는 터치 입력을 나타냄-;
상기 터치 입력에 기초하여 해결(resolution) 정보를 생성하는 동작;
상기 인간 대 컴퓨터 대화 세션과 관련하여 상기 서드 파티 컴퓨팅 서비스를 위해 유지되는 시각적 대화 상태 머신을 업데이트하는 동작 -상기 업데이트하는 것은 상기 터치 입력과 상기 해결 정보 중 하나 또는 둘 다에 적어도 부분적으로 기초함-;
상기 시각적 대화 상태 머신의 하나 이상의 시각적 대화 상태와 상기 시각적 대화 상태 머신과 병렬로 상기 서드 파티 컴퓨팅 서비스를 위해 유지되는 구두 대화 상태 머신의 하나 이상의 구두 대화 상태 사이의 하나 이상의 링크에 기초하여, 상기 구두 대화 상태 머신을 특정 구두 대화 상태로 자동으로 업데이트하는 동작;
상기 서드 파티 컴퓨팅 서비스에 의해, 상기 자동화된 어시스턴트로부터 하나 이상의 컴퓨터 네트워크를 통해 전송된 제2 데이터를 수신하는 동작 -상기 제2 데이터는 상기 컴퓨팅 장치의 사용자에 의해 제공되는 음성 입력을 나타냄-;
상기 음성 입력 및 상기 업데이트된 구두 대화 상태 머신에 기초하여 추가 해결 정보를 생성하는 동작;
상기 추가 해결 정보에 기초하여 상기 시각적 대화 상태 머신을 업데이트하는 동작; 그리고
하나 이상의 컴퓨터 네트워크를 통해 제3 데이터를 상기 자동화된 어시스턴트로 전송하는 동작을 포함하며, 상기 제3 데이터는 상기 업데이트된 시각적 대화 상태 머신을 나타내고, 상기 컴퓨팅 장치에서 실행되는 어시스턴트 애플리케이션으로 하여금 상기 사용자와 어시스턴트 애플리케이션의 그래픽 사용자 인터페이스 사이의 비터치(touchless) 상호작용을 트리거하게 하는 것을 특징으로 하는 시스템. - 제6항에 있어서, 상기 그래픽 사용자 인터페이스는 상기 어시스턴트 애플리케이션에 임베디드된(embedded) 웹 브라우저를 포함하는 것을 특징으로 하는 시스템.
- 제6항에 있어서, 상기 비터치 상호작용은 상기 그래픽 사용자 인터페이스의 선택 가능한 요소의 동작을 포함하는 것을 특징으로 하는 시스템.
- 제6항에 있어서, 상기 비터치 상호작용은 상기 그래픽 사용자 인터페이스에서 렌더링된 문서의 특정 위치로 스크롤하는 것을 포함하는 것을 특징으로 하는 시스템.
- 제6항에 있어서, 상기 비터치 상호작용은 상기 그래픽 사용자 인터페이스의 일부를 확대하는 것을 포함하는 것을 특징으로 하는 시스템.
- 하나 이상의 프로세서를 사용하여 구현되는 방법으로서,
하나 이상의 프로세서에 의해 적어도 부분적으로 구현되는 서드 파티 컴퓨팅 서비스에 의해, 자동화된 어시스턴트로부터 하나 이상의 컴퓨터 네트워크를 통해 전송된 제1 데이터를 수신하는 단계 -상기 제1 데이터는 사용자와 자동화된 어시스턴트 사이의 인간 대 컴퓨터 대화 세션의 일부로서 상기 자동화된 어시스턴트와 통신하는 컴퓨팅 장치의 사용자에 의해 제공되는 터치 입력을 나타냄-;
상기 터치 입력에 기초하여 해결(resolution) 정보를 생성하는 단계;
인간 대 컴퓨터 대화 세션과 관련하여 서드 파티 컴퓨팅 서비스에 대해 유지되는 디스플레이 컨텍스트를 업데이트하는 단계 -상기 업데이트하는 것은 의도와 해결 정보 중 하나 또는 둘 다에 적어도 부분적으로 기초함-;
시각적 대화 상태 머신의 하나 이상의 시각적 대화 상태와 시각적 대화 상태 머신과 병렬로 서드 파티 컴퓨팅 서비스를 위해 유지되는 구두 대화 상태 머신의 하나 이상의 구두 대화 상태 사이의 하나 이상의 링크에 기초하여, 상기 구두 대화 상태 머신을 특정 구두 대화 상태로 자동으로 업데이트하는 단계;
상기 서드 파티 컴퓨팅 서비스에 의해, 상기 자동화된 어시스턴트로부터 하나 이상의 컴퓨터 네트워크를 통해 전송된 제2 데이터를 수신하는 단계 -상기 제2 데이터는 상기 컴퓨팅 장치의 사용자에 의해 제공되는 음성 입력을 나타냄-;
상기 음성 입력 및 상기 업데이트된 구두 대화 상태 머신에 기초하여 추가 해결 정보를 생성하는 단계;
상기 추가 해결 정보에 기초하여 상기 구두 대화 상태 머신을 업데이트하는 단계; 그리고
하나 이상의 컴퓨터 네트워크를 통해 제3 데이터를 상기 자동화된 어시스턴트로 전송하는 단계를 포함하며, 상기 제3 데이터는 상기 업데이트된 구두 대화 상태 머신을 나타내는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법. - 제11항에 있어서, 상기 그래픽 사용자 인터페이스는 상기 어시스턴트 애플리케이션에 임베디드된 웹 브라우저를 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020227042846A KR102669152B1 (ko) | 2018-05-07 | 2018-05-07 | 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 |
PCT/US2018/031444 WO2019216875A1 (en) | 2018-05-07 | 2018-05-07 | Multi-modal interaction between users, automated assistants, and other computing services |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020227042846A Division KR102669152B1 (ko) | 2018-05-07 | 2018-05-07 | 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20240090703A true KR20240090703A (ko) | 2024-06-21 |
KR102735643B1 KR102735643B1 (ko) | 2024-11-29 |
Family
ID=62555178
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020227042846A Active KR102669152B1 (ko) | 2018-05-07 | 2018-05-07 | 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 |
KR1020247016878A Active KR102735643B1 (ko) | 2018-05-07 | 2018-05-07 | 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 |
KR1020207033522A Active KR102476621B1 (ko) | 2018-05-07 | 2018-05-07 | 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020227042846A Active KR102669152B1 (ko) | 2018-05-07 | 2018-05-07 | 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207033522A Active KR102476621B1 (ko) | 2018-05-07 | 2018-05-07 | 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10984786B2 (ko) |
EP (1) | EP3586332A1 (ko) |
JP (2) | JP7203865B2 (ko) |
KR (3) | KR102669152B1 (ko) |
CN (2) | CN112868060B (ko) |
WO (1) | WO2019216875A1 (ko) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112868060B (zh) | 2018-05-07 | 2024-07-12 | 谷歌有限责任公司 | 用户、自动化助理和其它计算服务之间的多模态交互 |
US12125486B2 (en) | 2018-05-07 | 2024-10-22 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
US11200893B2 (en) * | 2018-05-07 | 2021-12-14 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
US20220148574A1 (en) * | 2019-02-25 | 2022-05-12 | Faurecia Clarion Electronics Co., Ltd. | Hybrid voice interaction system and hybrid voice interaction method |
US11615786B2 (en) * | 2019-03-05 | 2023-03-28 | Medyug Technology Private Limited | System to convert phonemes into phonetics-based words |
US20220091707A1 (en) | 2020-09-21 | 2022-03-24 | MBTE Holdings Sweden AB | Providing enhanced functionality in an interactive electronic technical manual |
US11381713B2 (en) | 2020-11-10 | 2022-07-05 | Warner Bros. Entertainment Inc. | Perfless and cadenceless scanning and digitization of motion picture film |
US20220157323A1 (en) * | 2020-11-16 | 2022-05-19 | Bank Of America Corporation | System and methods for intelligent training of virtual voice assistant |
US12008048B2 (en) * | 2021-01-04 | 2024-06-11 | Oracle International Corporation | Drill back to original audio clip in virtual assistant initiated lists and reminders |
US20220261817A1 (en) * | 2021-02-18 | 2022-08-18 | Elemental Cognition Inc. | Collaborative user support portal |
US11967317B2 (en) | 2021-02-18 | 2024-04-23 | MBTE Holdings Sweden AB | Providing enhanced functionality in an interactive electronic technical manual |
CN113297359B (zh) * | 2021-04-23 | 2023-11-28 | 阿里巴巴新加坡控股有限公司 | 交互信息的方法以及装置 |
US11947906B2 (en) | 2021-05-19 | 2024-04-02 | MBTE Holdings Sweden AB | Providing enhanced functionality in an interactive electronic technical manual |
US12242711B2 (en) | 2021-05-19 | 2025-03-04 | MBTE Holdings Sweden AB | Providing enhanced functionality in an interactive electronic technical manual |
KR102510892B1 (ko) * | 2021-06-16 | 2023-03-27 | 주식회사 딥브레인에이아이 | 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
US12148421B2 (en) * | 2021-09-07 | 2024-11-19 | Google Llc | Using large language model(s) in generating automated assistant response(s |
US12229496B2 (en) * | 2021-12-03 | 2025-02-18 | International Business Machines Corporation | Conversational agent counterfactual simulation |
US20230334071A1 (en) * | 2022-04-13 | 2023-10-19 | Sauce Labs Inc. | Generating synthesized user data |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011088053A2 (en) * | 2010-01-18 | 2011-07-21 | Apple Inc. | Intelligent automated assistant |
KR20160003138A (ko) * | 2013-06-08 | 2016-01-08 | 애플 인크. | 핸즈 프리 상호작용을 위한 사용자 인터페이스 자동 적응 |
Family Cites Families (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002318132A (ja) * | 2001-04-23 | 2002-10-31 | Hitachi Ltd | 音声対話型ナビゲーションシステムおよび移動端末装置および音声対話サーバ |
US7019749B2 (en) | 2001-12-28 | 2006-03-28 | Microsoft Corporation | Conversational interface agent |
EP2017828A1 (en) * | 2002-12-10 | 2009-01-21 | Kirusa, Inc. | Techniques for disambiguating speech input using multimodal interfaces |
US8793602B2 (en) | 2004-01-15 | 2014-07-29 | The Mathworks, Inc. | System and method for scheduling the execution of model components using model events |
EP1615124A1 (en) * | 2004-07-07 | 2006-01-11 | Alcatel Alsthom Compagnie Generale D'electricite | A method for handling a multi-modal dialog |
US9436820B1 (en) | 2004-08-02 | 2016-09-06 | Cisco Technology, Inc. | Controlling access to resources in a network |
US9224394B2 (en) * | 2009-03-24 | 2015-12-29 | Sirius Xm Connected Vehicle Services Inc | Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same |
US7409344B2 (en) | 2005-03-08 | 2008-08-05 | Sap Aktiengesellschaft | XML based architecture for controlling user interfaces with contextual voice commands |
US7885388B2 (en) * | 2006-01-17 | 2011-02-08 | General Motors Llc | Method and apparatus for initiating communication via a multi-mode system in a vehicle |
ES2302640B1 (es) * | 2006-12-21 | 2009-05-21 | Juan Jose Bermudez Perez | Sistema para la interaccion mediante voz en paginas web. |
DE102008051757A1 (de) * | 2007-11-12 | 2009-05-14 | Volkswagen Ag | Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen |
US8370160B2 (en) * | 2007-12-31 | 2013-02-05 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8952987B2 (en) | 2011-05-19 | 2015-02-10 | Qualcomm Incorporated | User interface elements augmented with force detection |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
JP5710464B2 (ja) * | 2011-12-27 | 2015-04-30 | 株式会社東芝 | 電子機器、表示方法、およびプログラム |
US20130275873A1 (en) * | 2012-04-13 | 2013-10-17 | Qualcomm Incorporated | Systems and methods for displaying a user interface |
US9223537B2 (en) * | 2012-04-18 | 2015-12-29 | Next It Corporation | Conversation user interface |
US10276157B2 (en) * | 2012-10-01 | 2019-04-30 | Nuance Communications, Inc. | Systems and methods for providing a voice agent user interface |
US20150314454A1 (en) * | 2013-03-15 | 2015-11-05 | JIBO, Inc. | Apparatus and methods for providing a persistent companion device |
US9378065B2 (en) | 2013-03-15 | 2016-06-28 | Advanced Elemental Technologies, Inc. | Purposeful computing |
US9292254B2 (en) | 2013-05-15 | 2016-03-22 | Maluuba Inc. | Interactive user interface for an intelligent assistant |
US9600227B2 (en) | 2013-11-21 | 2017-03-21 | Google Technology Holdings LLC | System and method for speech-based navigation and interaction with a device's visible screen elements using a corresponding view hierarchy |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
SG11201702029PA (en) * | 2014-09-14 | 2017-04-27 | Speaktoit Inc | Platform for creating customizable dialog system engines |
US10317992B2 (en) * | 2014-09-25 | 2019-06-11 | Microsoft Technology Licensing, Llc | Eye gaze for spoken language understanding in multi-modal conversational interactions |
CN107112016B (zh) * | 2015-01-05 | 2020-12-29 | 谷歌有限责任公司 | 多模态状态循环 |
US10050868B2 (en) | 2015-01-16 | 2018-08-14 | Sri International | Multimodal help agent for network administrator |
US10762143B2 (en) * | 2015-02-13 | 2020-09-01 | Microsoft Technology Licensing, Llc | Extension of third party application functionality for intent determination |
US20170277364A1 (en) | 2016-03-22 | 2017-09-28 | Amazon Technologies, Inc. | User interface with dynamic refinement of filtered results |
US10304444B2 (en) | 2016-03-23 | 2019-05-28 | Amazon Technologies, Inc. | Fine-grained natural language understanding |
EP3465392B1 (en) * | 2016-06-06 | 2021-02-17 | Nureva Inc. | Time-correlated touch and speech command input |
EP3502840B1 (en) * | 2016-08-16 | 2020-11-04 | Sony Corporation | Information processing device, information processing method, and program |
US20180131642A1 (en) | 2016-11-04 | 2018-05-10 | Microsoft Technology Licensing, Llc | Conversation runtime |
US10311875B2 (en) | 2016-12-22 | 2019-06-04 | Soundhound, Inc. | Full-duplex utterance processing in a natural language virtual assistant |
US10832666B2 (en) | 2017-04-19 | 2020-11-10 | Verizon Patent And Licensing Inc. | Advanced user interface for voice search and results display |
US10796088B2 (en) | 2017-04-21 | 2020-10-06 | International Business Machines Corporation | Specifying a conversational computer agent and its outcome with a grammar |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US11423879B2 (en) | 2017-07-18 | 2022-08-23 | Disney Enterprises, Inc. | Verbal cues for high-speed control of a voice-enabled device |
US10515625B1 (en) * | 2017-08-31 | 2019-12-24 | Amazon Technologies, Inc. | Multi-modal natural language processing |
US11410648B2 (en) | 2017-10-03 | 2022-08-09 | Google Llc | Multiple digital assistant coordination in vehicular environments |
US10453454B2 (en) | 2017-10-26 | 2019-10-22 | Hitachi, Ltd. | Dialog system with self-learning natural language understanding |
US10896457B2 (en) * | 2017-12-12 | 2021-01-19 | Amazon Technologies, Inc. | Synchronized audiovisual responses to user requests |
US20190278562A1 (en) | 2018-03-07 | 2019-09-12 | John Hien Tang | System and method for voice control of a computing device |
CN111868824B (zh) * | 2018-04-05 | 2024-12-31 | 辛纳普蒂克斯公司 | 用于情境感知控制的设备和方法 |
US10573298B2 (en) | 2018-04-16 | 2020-02-25 | Google Llc | Automated assistants that accommodate multiple age groups and/or vocabulary levels |
US10803860B2 (en) | 2018-04-19 | 2020-10-13 | Google Llc | Dependency graph conversation modeling for use in conducting human-to-computer dialog sessions with a computer-implemented automated assistant |
EP3982236B1 (en) | 2018-05-04 | 2023-10-11 | Google LLC | Invoking automated assistant function(s) based on detected gesture and gaze |
KR102677096B1 (ko) | 2018-05-04 | 2024-06-21 | 구글 엘엘씨 | 감지된 입 움직임 및/또는 시선을 기반으로 자동화된 어시스턴트 적응 |
KR20230148270A (ko) | 2018-05-04 | 2023-10-24 | 구글 엘엘씨 | 자동 어시스턴트를 위한 시각적 단서들의 선택적 검출 |
CN112868060B (zh) | 2018-05-07 | 2024-07-12 | 谷歌有限责任公司 | 用户、自动化助理和其它计算服务之间的多模态交互 |
US11347801B2 (en) | 2018-05-07 | 2022-05-31 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
US11200893B2 (en) | 2018-05-07 | 2021-12-14 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
US10628987B2 (en) | 2018-05-08 | 2020-04-21 | Google Llc | Condensed transitions of graphical elements presented in graphical user interfaces |
-
2018
- 2018-05-07 CN CN201880094239.6A patent/CN112868060B/zh active Active
- 2018-05-07 WO PCT/US2018/031444 patent/WO2019216875A1/en unknown
- 2018-05-07 JP JP2020562767A patent/JP7203865B2/ja active Active
- 2018-05-07 CN CN202410852348.7A patent/CN118865965A/zh active Pending
- 2018-05-07 US US15/774,950 patent/US10984786B2/en active Active
- 2018-05-07 KR KR1020227042846A patent/KR102669152B1/ko active Active
- 2018-05-07 KR KR1020247016878A patent/KR102735643B1/ko active Active
- 2018-05-07 EP EP18729841.9A patent/EP3586332A1/en active Pending
- 2018-05-07 KR KR1020207033522A patent/KR102476621B1/ko active Active
-
2021
- 2021-03-04 US US17/192,230 patent/US11735182B2/en active Active
-
2022
- 2022-11-10 JP JP2022180485A patent/JP7513684B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011088053A2 (en) * | 2010-01-18 | 2011-07-21 | Apple Inc. | Intelligent automated assistant |
KR20160003138A (ko) * | 2013-06-08 | 2016-01-08 | 애플 인크. | 핸즈 프리 상호작용을 위한 사용자 인터페이스 자동 적응 |
Also Published As
Publication number | Publication date |
---|---|
KR20230003281A (ko) | 2023-01-05 |
CN112868060A (zh) | 2021-05-28 |
EP3586332A1 (en) | 2020-01-01 |
JP2021523467A (ja) | 2021-09-02 |
CN112868060B (zh) | 2024-07-12 |
US10984786B2 (en) | 2021-04-20 |
WO2019216875A1 (en) | 2019-11-14 |
KR20210002599A (ko) | 2021-01-08 |
CN118865965A (zh) | 2024-10-29 |
JP7513684B2 (ja) | 2024-07-09 |
US20200294497A1 (en) | 2020-09-17 |
KR102476621B1 (ko) | 2022-12-12 |
KR102735643B1 (ko) | 2024-11-29 |
JP2023017956A (ja) | 2023-02-07 |
US11735182B2 (en) | 2023-08-22 |
JP7203865B2 (ja) | 2023-01-13 |
US20210193146A1 (en) | 2021-06-24 |
KR102669152B1 (ko) | 2024-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102669152B1 (ko) | 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 | |
US11347801B2 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
US11200893B2 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
JP7418526B2 (ja) | 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード | |
JP6888125B2 (ja) | ユーザプログラマブル自動アシスタント | |
CN111033492B (zh) | 为自动化助手提供命令束建议 | |
KR102498811B1 (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드 | |
KR102364400B1 (ko) | 다수의 코퍼스들로부터 응답 정보 획득 | |
KR102508338B1 (ko) | 제2 세션 인터럽트 중단시 제1 자동화 어시스턴트 세션 자동 재개 여부 결정 | |
CN115004190A (zh) | 分析图形用户界面以促进自动交互 | |
US20240428793A1 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
CN112236737A (zh) | 自动化助理的视觉提示的选择性检测 | |
CN113767379B (zh) | 使用内容代理和/或存储的内容参数来渲染内容 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
PA0104 | Divisional application for international application |
Comment text: Divisional Application for International Patent Patent event code: PA01041R01D Patent event date: 20240521 Application number text: 1020227042846 Filing date: 20221206 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20240626 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20240905 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20241125 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20241126 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |