CN109144458A - 用于执行与语音输入相对应的操作的电子设备 - Google Patents
用于执行与语音输入相对应的操作的电子设备 Download PDFInfo
- Publication number
- CN109144458A CN109144458A CN201810667208.7A CN201810667208A CN109144458A CN 109144458 A CN109144458 A CN 109144458A CN 201810667208 A CN201810667208 A CN 201810667208A CN 109144458 A CN109144458 A CN 109144458A
- Authority
- CN
- China
- Prior art keywords
- application program
- application
- user
- electronic equipment
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
提供了一种电子设备。该电子设备包括壳体、扬声器、麦克风、显示器、通信电路、有效连接到扬声器、麦克风、显示器和通信电路的至少一个处理器、以及有效连接到至少一个处理器的存储器,并且存储器存储指令,以使至少一个处理器:通过麦克风来接收包括用于通过使用应用程序去执行任务的请求在内的第一用户话语,向外部服务器发送与第一用户话语相关联的第一数据,从外部服务器接收包括由自动语音识别(ASR)模块生成的文本在内的第二数据,基于第二数据来识别应用程序,从外部服务器接收包括电子设备的状态序列的信息在内的第一响应以执行任务的至少一部分,以及通过使用应用程序控制电子设备进入状态序列来执行任务的至少一部分。
Description
相关申请的交叉引用
本申请基于并要求于2017年6月27日在韩国知识产权局提交的韩国专利申请No.10-2017-0081421的优先权,并通过全文引用将其公开内容并入本文中。
技术领域
本公开涉及用于处理输入到电子设备中的语音输入的技术。更具体地,本公开涉及被配置为绑定应用程序(app)的电子设备,使得电子设备执行与用户的话语相对应的语音识别服务。
背景技术
除了使用键盘或鼠标的输入方案之外,电子设备最近还支持诸如语音输入等的各种输入方案。例如,在执行语音识别服务的状态下,诸如智能电话或平板电脑之类的电子设备可以识别用户的语音输入。当识别出用户的语音输入时,电子设备可以执行与语音输入相对应的操作。
提出以上信息作为背景信息仅仅是为了辅助理解本公开。不确定也不断言以上任何内容可用作有关本公开的现有技术。
发明内容
电子设备可以与外部服务器进行通信以执行操作。例如,电子设备可以向外部服务器发送语音输入。外部服务器可以将语音输入变为文本数据,并且可以基于文本数据来生成路径规则。可以向电子设备发送所生成的路径规则,并且电子设备可以绑定与该路径规则相对应的应用(或应用程序)。电子设备可以执行绑定的应用或者可以向绑定的应用发送与路径规则相对应的命令,以执行与语音输入相对应的操作。
基于上述操作,电子设备可能需要预定时间来绑定应用。因此,从电子设备接收到语音输入的时刻到执行与语音输入相对应的操作的时刻可能需要很长时间。当执行与语音输入相对应的操作需要很长时间时,用户可能在使用语音识别服务时感觉到不便。
本公开的各个方面是为了至少解决上述问题和/或缺点,并且至少提供以下描述的优点。因此,本公开的一个方面是提供一种绑定应用的方法,使得电子设备执行与用户话语相对应的语音识别服务。
根据本公开的一个方面,提供了一种电子设备。该电子设备包括壳体、布置在壳体的第一区域中的扬声器、布置在壳体的第二区域中的麦克风、布置在壳体的第三区域中的显示器、布置在壳体内部或连接到壳体的通信电路、布置在壳体内部并且有效连接到扬声器、麦克风、显示器和通信电路的至少一个处理器、以及布置在壳体内部并且有效连接到至少一个处理器的存储器,该存储器存储多个应用程序和指令。该指令在被执行时使至少一个处理器:通过麦克风来接收包括用于通过使用至少一个应用程序执行任务的请求在内的第一用户话语;通过通信电路向至少一个外部服务器发送与第一用户话语相关联的第一数据;通过通信电路从外部服务器接收包括由自动语音识别(ASR)模块生成的文本在内的第二数据;基于第二数据的至少一部分来识别至少一个应用程序;在识别至少一个应用程序后,通过通信电路从外部服务器接收包括与电子设备的状态序列相关联的信息在内的第一响应以执行任务的至少一部分;并且通过使用至少一个应用程序去控制电子设备进入状态序列来执行任务的至少一部分。
根据本公开的另一方面,提供了一种电子设备。该电子设备包括壳体、布置在壳体的第一区域中的扬声器、布置在壳体的第二区域中的麦克风、布置在壳体的第三区域中的显示器、布置在壳体内部或连接到壳体的通信电路、布置在壳体内部并且有效连接到扬声器、麦克风、显示器和通信电路的至少一个处理器、以及布置在壳体内部并且有效连接到至少一个处理器的存储器,该存储器存储多个应用程序和指令。指令在被执行时使至少一个处理器:通过麦克风接收用户话语;通过通信电路向外部服务器发送用户话语;通过通信电路从外部服务器接收与用户话语相对应的文本数据;基于文本数据的至少一部分来识别应用程序中的第一应用程序;在第一应用程序和能够执行应用程序的控制程序之间建立通信;从外部服务器接收电子设备的状态序列;比较第一应用程序和基于序列可执行的第二应用程序,并且基于比较结果来执行第一应用程序或第二应用程序。
根据本公开的另一方面,提供了一种电子设备。该电子设备包括壳体、布置在壳体的第一区域中的扬声器、布置在壳体的第二区域中的麦克风、布置在壳体的第三区域中的显示器、布置在壳体内部或连接到壳体的通信电路、布置在壳体内部并且有效连接到扬声器、麦克风、显示器和通信电路的至少一个处理器、以及布置在壳体内部并且有效连接到至少一个处理器的存储器,该存储器存储多个应用程序和指令。该指令在被执行时使至少一个处理器:通过使用至少一个应用程序通过麦克风接收包括用于通过使用至少一个应用程序执行任务的请求在内的第一用户话语,比较第一用户话语和存储器中存储的第二用户话语,以及当比较结果指示第一用户话语与第二用户话语之间的匹配程度至少是指定水平时,基于与第二用户话语相对应的电子设备的状态序列来执行任务的至少一部分。
根据本公开的各种实施例,由此可以减少处理语音输入所需的时间。
此外,还可以提供通过本公开直接或间接理解的各种效果。
通过以下结合附图公开了本公开各种实施例的详细描述,本公开的其他方面、优点和显著特征对于本领域技术人员将变得清楚明白。
附图说明
根据结合附图的以下描述,本公开的特定实施例的上述和其它方面、特征以及优点将更清楚,在附图中:
图1是示出了根据相关技术的集成智能系统的视图;
图2是示出了根据本公开实施例的集成智能系统的用户终端的框图;
图3是示出了根据本公开实施例的集成智能系统的智能服务器的框图;
图4是根据本公开实施例的智能代理的框图;
图5示出了根据本公开实施例的自动语音识别(ASR)模块和用户终端的框图;
图6示出了根据本公开实施例的用户终端和智能服务器的操作流程图;
图7示出了根据本公开实施例的用户终端的操作流程图;
图8示出了根据本公开实施例的用户终端和智能服务器的框图;
图9示出了根据本公开实施例的用户终端和智能服务器的框图;
图10示出了根据本公开实施例的用户终端的操作流程图;
图11示出了根据本公开实施例的用户终端的操作流程图;
图12示出了根据本公开实施例的用户终端的操作流程图;
图13A示出了根据本公开实施例的系统服务进程和应用进程;
图13B示出了根据本公开实施例的系统服务进程和应用进程;以及
图14示出了根据本公开实施例的用户终端和智能服务器的框图。
应注意,在整个附图中,相似的附图标记用于描述相同或相似的元素、特征和结构。
具体实施方式
提供参考附图的以下描述用于帮助全面理解由权利要求及其等价物限定的本公开的各实施例。以下描述包括各种具体细节以帮助理解,但这些具体细节应被视为仅仅是示例性的。因此,本领域普通技术人员将认识到:在不脱离本公开的范围和精神的情况下,可以对本文所述的各种实施例进行各种改变和修改。另外,为了清楚和简洁起见,可以省略对已知功能和结构的描述。
以下描述和权利要求中使用的术语和词语不限于字面含义,而是仅由发明人用来实现对本公开的清楚一致的理解。因此,本领域技术人员应该清楚,提供以下对本公开的各种实施例的描述仅为了说明的目的,而不用于限制由所附权利要求及其等同物限定的本公开的目的。
应当理解的是,除非上下文中另有清楚指示,否则单数形式“一”、“一个”和“所述”包括复数指示物。因此,例如,对“组件表面”的引用包括对这样的表面中的一个或多个表面的引用。
在描述本公开的实施例之前,将描述应用本公开的实施例的集成智能系统。
图1是示出了根据本公开各种实施例的集成智能系统的视图。
参考图1,集成智能系统10可以包括用户终端100、智能服务器200、个人信息服务器300或建议服务器400。
用户终端100可以通过用户终端100中存储的应用程序(app)(例如,闹钟应用、消息应用、图片(图库)应用等)来提供用户所需的服务。例如,用户终端100可以通过用户终端100中存储的智能应用(或语音识别应用)来执行和操作其他应用。可以接收用于通过用户终端100的智能应用来启动和操作其他应用的用户输入。例如,可以通过物理按钮、触摸板、语音输入、远程输入等来接收用户输入。根据实施例,与互联网连接的各种类型的终端设备(或电子设备)(例如,移动电话、智能电话、个人数字助理(PDA)、笔记本计算机等)可以与用户终端100相对应。
根据实施例,用户终端100可以接收用户话语作为用户输入。用户终端100可以接收用户话语并且可以基于用户话语来生成用于操作应用的指令。这样,用户终端100可以通过使用该指令来操作应用。
智能服务器200可以通过通信网络从用户终端100接收用户的语音输入,并且可以将语音输入转变为文本数据。在另一个实施例中,智能服务器200可以基于文本数据来生成(或选择)路径规则。路径规则可以包括与用于执行应用的功能的动作(或操作、任务)有关的信息或者与执行该动作所需的参数有关的信息。另外,路径规则可以包括应用的动作的顺序。用户终端100可以接收路径规则,可以根据路径规则来选择应用,并且可以执行所选择的应用中的路径规则包括的动作。
通常,本公开的术语“路径规则”可以指示(但不限于)电子设备执行用户所请求的任务的状态序列。换句话说,路径规则可以包括与状态序列有关的信息。例如,该任务可以是智能应用提供的特定动作。该任务可以包括生成日程表、向期望的对手发送图片或提供天气信息。用户终端100可以通过顺序地具有至少一个或多个状态(例如,用户终端100的操作状态)来执行任务。
根据实施例,可以由人工智能(AI)系统来提供或生成路径规则。AI系统可以是基于规则的系统,或者可以是基于神经网络的系统(例如,前馈神经网络(FNN)或递归神经网络(RNN))。备选地,AI系统可以是上述系统的组合或不同于上述系统的AI系统。根据实施例,可以从预定义路径规则集合中选择路径规则,或者可以响应于用户请求来实时生成路径规则。例如,AI系统可以至少选择预定义的多个路径规则中的路径规则,或者可以动态地(或实时地)生成路径规则。此外,用户终端100可以使用混合系统来提供路径规则。
例如,用户终端100可以执行动作并且可以在显示器中显示与执行动作的用户终端100的状态相对应的屏幕。根据另一个实施例,用户终端100可以执行动作,并且可以不在显示器中显示通过执行动作所获得的结果。例如,用户终端100可以执行多个动作,并且可以仅在显示器中显示多个动作中的一部分动作的结果。例如,用户终端100可以在显示器中仅显示通过执行最后动作所获得的结果。又例如,用户终端100可以接收用户输入以在显示器中显示通过执行动作所获得的结果。
个人信息服务器300可以包括存储用户信息的数据库。例如,个人信息服务器300可以从用户终端100接收用户信息(例如,上下文信息、与执行应用有关的信息等),并且可以将用户信息存储在数据库中。智能服务器200可以用于通过通信网络从个人信息服务器300接收用户信息并且生成与用户输入相关联的路径规则。根据实施例,用户终端100可以通过通信网络从个人信息服务器300接收用户信息,并且可以使用用户信息作为用于管理数据库的信息。
建议服务器400可以包括存储与终端中的功能、应用的介绍或要提供的功能有关的信息的数据库。例如,建议服务器400可以包括与以下功能相关联的数据库:用户通过从个人信息服务器300接收用户终端100的用户信息而使用的功能。用户终端100可以通过通信网络从建议服务器400接收与要提供的功能有关的信息,并且可以向用户提供该信息。
图2是示出了根据本公开实施例的集成智能系统的用户终端的框图。
参考图2,用户终端100可以包括输入模块110、显示器120、扬声器130、存储器140或处理器150。用户终端100还可以包括壳体,并且用户终端100的元件可以坐于壳体中或者可以位于壳体上。
根据实施例,输入模块110可以从用户接收用户输入。例如,输入模块110可以从连接的外部设备(例如,键盘或耳机)接收用户输入。又例如,输入模块110可以包括耦合到显示器120的触摸屏(例如,触摸屏显示器)。又例如,输入模块110可以包括放置在用户终端100(或用户终端100的壳体)中的硬件按键(或物理按键)。
根据实施例,输入模块110可以包括能够接收用户话语作为语音信号的麦克风。例如,输入模块110可以包括语音输入系统,并且可以通过语音输入系统接收用户的话语作为语音信号。
根据实施例,显示器120可以显示图像、视频和/或应用的执行屏幕。例如,显示器120可以显示应用的图形用户界面(GUI)。
根据实施例,扬声器130可以输出语音信号。例如,扬声器130可以向外部输出用户终端100中生成的语音信号。
根据实施例,存储器140可以存储多个应用141和143(或者应用程序)。可以根据用户输入来选择、启动和执行存储器140中存储的多个应用141和143。
根据实施例,存储器140可以包括能够存储为了识别用户输入所需要的信息的数据库。例如,存储器140可以包括能够存储日志信息的日志数据库。又例如,存储器140可以包括能够存储用户信息的角色数据库。
根据实施例,存储器140可以存储多个应用141和143,并且多个应用141和143可以被加载以进行操作。例如,存储器140中存储的多个应用141和143可以被处理器150的执行管理器模块153加载以进行操作。多个应用141和143可以包括多个执行服务模块141a和143a。根据实施例,多个应用141和143可以通过执行服务模块141a和143a来执行多个动作141b和143b(例如,状态序列)。也就是说,执行服务模块141a和143a可以被执行管理器模块153激活并且可以执行多个动作141b和143b。
根据实施例,当执行应用141和143的动作141b和143b时,可以在显示器120中显示根据动作141b和143b的执行的执行状态屏幕。例如,执行状态屏幕可以是在完成动作141b和143b的状态下的屏幕。又例如,执行状态屏幕可以是在动作141b和143b的执行处于部分着陆(例如,在没有输入动作141b和143b所需的参数的情况下)的状态下的屏幕。
根据实施例,执行服务模块141a和143a可以根据路径规则来执行动作141b和143b。例如,执行服务模块141a和143a可以由执行管理器模块153激活,可以根据路径规则从执行管理器模块153接收执行请求,并且可以根据执行请求来执行应用141和143的动作141b和143b。当完成对动作141b和143b的执行时,执行服务模块141a和143a可以向执行管理器模块153发送完成信息。
根据实施例,在多个动作141b和143b分别在应用141和143中执行的情况下,可以顺序地执行多个动作141b和143b。当完成对一个动作(例如,第一应用141的动作1或第二应用143的动作1)的执行时,执行服务模块141a和143a可以打开下一动作(例如,第一应用141的动作2或第二应用143的动作2)并且可以向执行管理器模块153发送完成信息。这里应当理解的是:打开任意动作是将任意动作的状态变为可执行状态或准备对任意动作的执行。换句话说,当任意动作未被打开时,相应的动作可以不被执行。当接收到完成信息时,执行管理器模块153可以向执行服务发送针对接下来的动作141b和143b的执行请求(例如,动作2)。根据实施例,在执行多个应用141和143的情况下,可以顺序地执行多个应用141和143。例如,当在执行了对第一应用141的最后动作(例如,第一应用141的动作3)的执行之后接收到完成信息时,执行管理器模块153可以向执行服务143a发送对第二应用143的第一动作(例如,第二应用143的动作1)的执行请求。
根据实施例,在多个动作141b和143b在应用141和143中执行的情况下,可以在显示器120中显示根据对所执行的多个动作141b和143b中的每一个动作的执行的结果屏幕。根据实施例,可以在显示器120中仅显示根据所执行的多个动作141b和143b的多个结果屏幕的一部分。
根据实施例,存储器140可以存储结合智能代理151来操作的智能应用(例如,语音识别应用)。结合智能代理151操作的应用可以接收和处理用户的话语作为语音信号。根据实施例,结合智能代理151操作的应用可以通过输入模块110输入的特定输入(例如,通过硬件按键的输入、通过触摸屏的输入或特定的语音输入)来操作。
根据实施例,处理器150可以控制用户终端100的整体动作。例如,处理器150可以控制输入模块110接收用户输入。处理器150可以控制显示器120显示图像。处理器150可以控制扬声器130输出语音信号。处理器150可以控制存储器140读取或存储所需的信息。
根据实施例,处理器150可以包括智能代理151、执行管理器模块153或智能服务模块155。在实施例中,处理器150可以通过执行存储器140中存储的指令来驱动智能代理151、执行管理器模块153或智能服务模块155。本公开的各种实施例中描述的模块可以通过硬件或通过软件来实现。在本公开的各种实施例中,应当理解:由智能代理151、执行管理器模块153或智能服务模块155执行的动作是由处理器150执行的动作。
根据实施例,智能代理151可以基于作为用户输入接收的语音信号来生成用于操作应用的指令。根据实施例,执行管理器模块153可以从智能代理151接收所生成的指令,并且可以选择、启动并操作存储器140中存储的应用141和143。根据实施例,智能服务模块155可以管理用户的信息并且可以使用用户的信息来处理用户输入。
智能代理151可以向智能服务器200发送并处理通过输入模块110接收的用户输入。
根据实施例,在向智能服务器200发送用户输入之前,智能代理151可以预处理用户输入。根据实施例,为了预处理用户输入,智能代理151可以包括自适应回声消除器(AEC)模块、噪声抑制(NS)模块、端点检测(EPD)模块或自动增益控制(AGC)模块。AEC可以移除用户输入中包括的回声。NS模块可以抑制用户输入中包括的背景噪声。EPD模块可以检测用户输入中包括的用户语音的端点以搜索用户语音存在于其中的部分。AGC模块可以调整用户输入的音量,以适于识别和处理用户输入。根据实施例,智能代理151可以包括用于性能的所有预处理元件。然而,在另一个实施例中,智能代理151可以包括预处理元件的一部分以在低功率操作。
根据实施例,智能代理151可以包括识别用户的呼叫的唤醒识别模块。唤醒识别模块可以通过语音识别模块来识别用户的唤醒指令。在唤醒识别模块接收到唤醒指令的情况下,唤醒识别模块可以激活智能代理151以接收用户输入。根据实施例,智能代理151的唤醒识别模块可以用低功率处理器(例如,音频编解码器中包括的处理器)来实现。根据实施例,智能代理151可以根据通过硬件按键输入的用户输入而被激活。在智能代理151被激活的情况下,可以执行结合智能代理151操作的智能应用(例如,语音识别应用)。
根据实施例,智能代理151可以包括用于执行用户输入的语音识别模块。语音识别模块可以识别用于执行应用中的动作的用户输入。例如,语音识别模块可识别用于执行动作(例如,应用141和143中的唤醒指令)的有限的用户(语音)输入(例如,诸如当正在执行相机应用时用于执行捕捉动作的“点击”之类的话语)。例如,用于在协助智能服务器200的同时识别用户输入的语音识别模块可以识别并快速处理能够在用户终端100中处理的用户指令。根据实施例,用于执行智能代理151的用户输入的语音识别模块可以在应用处理器中实现。
根据实施例,智能代理151的语音识别模块(包括唤醒模块的语音识别模块)可以通过使用用于识别语音的算法来识别用户输入。例如,用于识别语音的算法可以是隐马尔可夫模型(HMM)算法、人工神经网络(ANN)算法或动态时间规整(dynamic time warping,即DTW)算法中的至少一个。
根据实施例,智能代理151可以将用户的语音输入变为文本数据。根据实施例,智能代理151可以向智能服务器200发送用户的语音以接收经改变的文本数据。如此,智能代理151可以在显示器120中显示该文本数据。
根据实施例,智能代理151可以从智能服务器200接收路径规则。根据实施例,智能代理151可以向执行管理器模块153发送路径规则。
根据实施例,智能代理151可以根据从智能服务器200接收的路径规则,向智能服务模块155发送执行结果日志,并且可以在角色模块155b的用户的偏好信息中累积和管理所发送的执行结果日志。
根据实施例,执行管理器模块153可以从智能代理151接收路径规则以执行应用141和143,并且可以允许应用141和143执行路径规则中包括的动作141b和143b。例如,执行管理器模块153可以向应用141和143发送用于执行动作141b和143b的指令信息(例如,路径规则信息),并且可以从应用141和143接收动作141b和143b的完成信息。
根据实施例,执行管理器模块153可以发送或接收用于执行智能代理151与应用141和143之间的应用141和143的动作141b和143b的指令信息(例如,路径规则信息)。执行管理器模块153可以根据路径规则来绑定要执行的应用141和143,并且可以向应用141和143发送路径规则中包括的动作141b和143b的指令信息(例如,路径规则信息)。例如,执行管理器模块153可以向应用141和143顺序发送路径规则中包括的动作141b和143b,并且可以根据路径规则来顺序执行应用141和143的动作141b和143b。
根据实施例,执行管理器模块153可以管理应用141和143的动作141b和143b的执行状态。例如,执行管理器模块153可以从应用141和143接收与动作141b和143b的执行状态有关的信息。例如,在动作141b和143b的执行状态处于部分着陆的情况下(例如,在没有输入动作141b和143b所需的参数的情况下),执行管理器模块153可以向智能代理151发送与部分着陆有关的信息。智能代理151可以通过使用所接收的信息来向用户发出输入所需信息(例如,参数信息)的请求。又例如,在动作141b和143b的执行状态处于操作状态的情况下,可以从用户接收话语,并且执行管理器模块153可以向智能代理151发送与正在执行的应用141和143有关的信息以及应用141和143的执行状态。智能代理151可以通过智能服务器200接收用户话语的参数信息,并且可以向执行管理器模块153发送所接收到的参数信息。执行管理器模块153可以通过使用所接收的参数信息将动作141b和143b中的每一个动作的参数变为新的参数。
根据实施例,执行管理器模块153可以向应用141和143发送路径规则中包括的参数信息。在根据路径规则顺序执行多个应用141和143的情况下,执行管理器模块153可以从一个应用向另一个应用发送路径规则中包括的参数信息。
根据实施例,执行管理器模块153可以接收多个路径规则。执行管理器模块153可以基于用户的话语来选择多个路径规则。例如,在用户话语指定应用141执行动作141b的一部分但未指定应用143执行任何其他动作143b的情况下,执行管理器模块153可以接收多个不同的路径规则,其中,执行动作141b的一部分的相同的应用141(例如,图库应用)被执行,并且不同的应用143(例如,消息应用或电报应用)执行另一个动作143b。例如,执行管理器模块153可以执行多个路径规则中的相同动作141b和143b(例如,相同的连续动作141b和143b)。在执行管理器模块153执行相同的动作的情况下,执行管理器模块153可以在显示器120中显示用于选择多个路径规则中包括的不同应用141和143的状态屏幕。
根据实施例,智能服务模块155可以包括上下文模块155a、角色模块155b或建议模块155c。
上下文模块155a可以从应用141和143收集应用141和143的当前状态。例如,上下文模块155a可以接收指示应用141和143的当前状态的上下文信息以收集应用141和143的当前状态。
角色模块155b可以管理利用用户终端100的用户的个人信息。例如,角色模块155b可以收集用户终端100的使用信息和执行结果以管理用户的个人信息。
建议模块155c可以预测用户的意图以向用户推荐指令。例如,建议模块155c可以在考虑用户的当前状态(例如,时间、地点、上下文或应用)的情况下向用户推荐指令。
图3是示出了根据本公开实施例的集成智能系统的智能服务器的框图。
参考图3,智能服务器200可以包括自动语音识别(ASR)模块210、自然语言理解(NLU)模块220、路径规划器模块230、对话管理器(DM)模块240、自然语言生成器(NLG)模块250或文本到语音(TTS)模块260。
智能服务器200的NLU模块220或路径规划器模块230可以生成路径规则。
根据实施例,ASR模块210可以将从用户终端100接收到的用户输入变为文本数据。
例如,ASR模块210可以包括话语识别模块。话语识别模块可以包括声学模型和语言模型。例如,声学模型可以包括与话语相关联的信息,并且语言模型可以包括单位音素信息和与单位音素信息的组合有关的信息。话语识别模块可以通过使用与话语和单位音素信息相关联的信息将用户话语变为文本数据。例如,与声学模型和语言模型有关的信息可被存储在自动语音识别数据库(ASR DB)211中。
根据实施例,NLU模块220可以通过执行句法分析或语义分析来掌握用户意图。句法分析可以将用户输入划分为句法单元(例如,单词、短语、词素等)并确定所划分的单元具有哪些句法元素。语义分析可以通过使用语义匹配、规则匹配、公式匹配等来执行。这样,NLU模块220可以获得让用户输入表达意图所需的域、意图或参数(或时隙)。
根据实施例,NLU模块220可以通过使用被划分为掌握意图所需的域、意图和参数(或时隙)的匹配规则来确定用户的意图和参数。例如,一个域(例如,警报)可以包括多个意图(例如,警报设置、警报取消等),并且一个意图可以包括多个参数(例如,时间、迭代次数、警报声等)。例如,多个规则可以包括一个或多个所需参数。匹配规则可被存储在自然语言理解数据库(NLU DB)221中。
根据实施例,NLU模块220可以通过使用诸如词素、短语等语言特征(例如,语法元素)来掌握从用户输入中提取的词的含义,并且可以将所掌握的词的含义与域和意图进行匹配以确定用户意图。例如,为了确定用户意图,NLU模块220可以计算从用户输入中提取的多少个词被包括在每个域和意图中。根据实施例,NLU模块220可以通过使用作为掌握意图的基础的词来确定用户输入的参数。根据实施例,NLU模块220可以通过使用存储用于掌握用户输入的意图的语言特征的NLU DB 221来确定用户意图。根据另一个实施例,NLU模块220可以通过使用个人语言模型(PLM)来确定用户意图。例如,NLU模块220可以通过使用个性化信息(例如,联系人列表或音乐列表)来确定用户意图。例如,PLM可被存储在NLU DB221中。根据实施例,ASR模块210以及NLU模块220可以参考NLU DB 221中存储的PLM来识别用户的语音。
根据实施例,NLU模块220可以基于用户输入的意图和参数来生成路径规则。例如,NLU模块220可以基于用户输入的意图来选择要执行的应用,并且可以在所选择的应用中确定要执行的动作。NLU模块220可以确定与所确定的动作相对应的参数以生成路径规则。根据实施例,由NLU模块220生成的路径规则可以包括与要被执行的应用有关的信息、要在应用中执行的动作(例如,至少一个或多个状态)以及执行动作所需的参数。
根据实施例,NLU模块220可以基于用户输入的意图和参数来生成一个路径规则或多个路径规则。例如,NLU模块220可以从路径规划器模块230接收与用户终端100相对应的路径规则集,并且为了确定路径规则,可以将用户输入的意图和参数映射到所接收的路径规则集。
根据另一个实施例,为了生成一个路径规则或者生成多个路径规则,NLU模块220可以基于用户输入的意图和参数来确定要执行的应用、应用中要执行的动作以及执行动作所需的参数。例如,为了生成路径规则,NLU模块220可以根据具有本体或图模型的形式的用户输入的意图通过使用用户终端100的信息来安排要执行的应用和要在应用中执行的动作。例如,所生成的路径规则可以通过路径规划器模块230被存储在路径规则数据库(PRDB)231中。所生成的路径规则可被添加到PR DB 231的路径规则集中。
根据实施例,NLU模块220可以选择所生成的多个路径规则中的至少一个路径规则。例如,NLU模块220可以选择多个路径规则中的最佳路径规则。又例如,在基于用户话语仅指定动作的一部分的情况下,NLU模块220可选择多个路径规则。NLU模块220可以根据用户的附加输入来确定多个路径规则中的一个路径规则。
根据实施例,NLU模块220可以响应于对用户输入的请求而向用户终端100发送路径规则。例如,NLU模块220可以向用户终端100发送与用户输入相对应的一个路径规则。又例如,NLU模块220可以向用户终端100发送与用户输入相对应的多个路径规则。例如,在基于用户话语仅指定动作的一部分的情况下,可以由NLU模块220生成多个路径规则。
根据实施例,路径规划器模块230可以选择多个路径规则中的至少一个路径规则。
根据实施例,路径规划器模块230可以向NLU模块220发送包括多个路径规则在内的路径规则集。路径规则集中的多个路径规则可以以表的形式存储在连接到路径规划器模块230的PR DB 231中。例如,路径规划器模块230可以向NLU模块220发送从智能代理151接收的与用户终端100的信息(例如,OS信息或应用信息)相对应的路径规则集。例如,PR DB231中存储的表可以是针对每个域或针对域的每个版本来存储的。
根据实施例,路径规划器模块230可以从路径规则集中选择一个路径规则或多个路径规则,以向NLU模块220发送所选择的一个路径规则或所选择的多个路径规则。例如,路径规划器模块230可以将用户意图和参数与对应于用户终端100的路径规则集相匹配,以选择一个路径规则或多个路径规则,并且可以向NLU模块220发送所选择的一个路径规则或所选择的多个路径规则。
根据实施例,路径规划器模块230可以通过使用用户意图和参数来生成一个路径规则或多个路径规则。例如,为了生成一个路径规则或者生成多个路径规则,路径规划器模块230可以基于用户意图和参数来确定要执行的应用和要在应用中执行的动作。根据实施例,路径规划器模块230可以将生成的路径规则存储在PR DB 231中。
根据实施例,路径规划器模块230可以将由NLU模块220生成的路径规则存储在PRDB 231中。所生成的路径规则可被添加到PR DB 231中存储的路径规则集中。
根据实施例,PR DB 231中存储的表可以包括多个路径规则或多个路径规则集。多个路径规则或多个路径规则集可以反映执行每个路径规则的设备的种类、版本、类型或特性。
根据实施例,DM模块240可以确定NLU模块220掌握的用户意图是否清楚。例如,DM模块240可以基于参数的信息是否足够来确定用户意图是否清楚。DM模块240可以确定NLU模块220掌握的参数是否足以执行任务。根据实施例,在用户意图不清楚的情况下,DM模块240可以执行用于向用户发出对所需信息的请求的反馈。例如,DM模块240可以执行用于发出与用于掌握用户意图的参数有关的信息的请求的反馈。
根据实施例,DM模块240可以包括内容提供商模块。在内容提供商模块基于NLU模块220所掌握的意图和参数来执行动作的情况下,内容提供商模块可以生成通过执行与用户输入相对应的任务而获得的结果。根据实施例,DM模块240可以向用户终端100发送内容提供商模块生成的结果作为对用户输入的响应。
根据实施例,自然语言生成模块NLG 250可以将指定的信息变为文本形式。变为文本形式的信息可以是自然语言话语的一种形式。例如,所指定的信息可以是与附加输入有关的信息、用于指导完成与用户输入相对应的动作的信息、或者用于指导用户的附加输入的信息(例如,与用户输入有关的反馈信息)。变为文本形式的信息可以在被发送到用户终端100之后被显示在显示器120中,或者可以在被发送到TTS模块260之后被变为语音形式。
根据实施例,TTS模块260可以将文本形式的信息变为语音形式的信息。TTS模块260可以从NLG模块250接收文本形式的信息,可以将文本形式的信息变为语音形式的信息,并且可以向用户终端100发送语音形式的信息。用户终端100可以向扬声器130输出语音形式的信息。
根据实施例,NLU模块220、路径规划器模块230和DM模块240可以用一个模块来实现。例如,NLU模块220、路径规划器模块230和DM模块240可以用一个模块来实现,可以确定用户意图和参数,并且可以生成与所确定的用户意图和参数相对应的响应(例如,路径规则)。这样,可以向用户终端100发送所生成的响应。
图4是根据本公开实施例的智能代理的框图。
参考图4,智能代理151可以包括用户界面(UI)410、音频模块151a和识别器模块151b。
为了接收用户话语,智能代理151可以执行UI 410。可以通过显示器来输出UI410。例如,当按下用户终端100的侧面上设置的硬件按键时,可以执行UI410。当用户在执行UI 410的状态下讲话时,UI 410可以通过麦克风来接收用户话语。
音频模块151a可以记录通过UI 410接收的用户话语。根据实施例,音频模块151a可以向UI 410发回记录的用户话语,或者可以向识别器模块151b发送记录的用户话语。
识别器模块151b可以向智能服务器200发送用户话语。例如,识别器模块151b可以从UI 410接收用户话语并且可以向智能服务器200发送用户话语。再例如,识别器模块151b可以向智能服务器200发送音频模块151a中记录的用户话语。
在本公开中,参考图1至图4给出的描述可以相同地应用于具有与参考图1至图4所示的用户终端100、智能服务器200、个人信息服务器300和建议服务器400相同的参考标记的元素。
图5示出了根据本公开实施例的ASR模块和用户终端的框图。
参考图5,智能代理151可以接收用户话语。例如,智能代理151可以通过麦克风来接收用户话语。
智能代理151可以向ASR模块210发送通过麦克风输入的用户话语。ASR模块210可以将用户话语转换为文本数据,并且可以向智能代理151发回文本数据。智能代理151可以向执行管理器模块153发送从ASR模块210接收的文本数据。
根据实施例,智能代理151可以将语言信息与文本数据一起向执行管理器模块153发送。例如,智能代理151可以向执行管理器模块153发送用户话语是韩语还是英语。
执行管理器模块153可以基于文本数据来识别存储器中存储的应用程序之一(以下称为“应用”)。例如,执行管理器模块153可以通过将文本数据与应用表510中存储的文本进行比较来识别应用。例如,应用表510可被存储在存储器140中,作为其中分别映射文本和应用的表。
表1
文本 | 应用程序 |
互联网、浏览器、资源管理器等 | 互联网应用 |
图库、图片、视频等 | 图库应用 |
表1示出了根据实施例的应用表。参考表1,在用户说出“在互联网上搜索天气”的情况下,由于用户话语包括“互联网”,执行管理器模块153可以识别“互联网应用”。另外,在用户说出“在图库中查找图片”的情况下,由于用户话语包括“图库”,执行管理器模块153可以识别“图库应用”。
根据实施例,执行管理器模块153可以基于语言信息来识别应用。例如,在用户话语是“find a picture in the gallery(在图库中查找图片)”的情况下,可以基于作为后置词的“in(在...中)”后面(之中)的单词来识别该应用。又例如,在用户话语是英语的情况下,例如,可以基于作为动词的“open(打开)”后面的单词来识别应用。
在应用被识别之后,执行管理器模块153可以绑定所识别的应用。例如,当文本数据是“在图库中查找图片”时,执行管理器模块153可以绑定“图库应用”。在本公开中,绑定可以指以下操作:将执行管理器模块153与特定应用连接,以使得当满足指定条件时,执行管理器模块153能够执行该特定应用。
根据实施例,智能代理151可以从ASR模块210接收路径规则。此时,路径规则可以是由智能服务器200基于用户话语生成的路径规则。当接收到路径规则时,智能代理151可向执行管理器模块153发送该路径规则。
根据实施例,执行管理器模块153可以确定可由路径规则执行的应用是否与绑定应用相同。当可由路径规则执行的应用与绑定应用相同时,执行管理器模块153可以执行绑定应用。例如,当可由路径规则执行的应用与作为“图库应用”的绑定应用相同时,执行管理器模块153可以执行“图库应用”。
根据本公开的实施例,可以通过在接收到路径规则之前绑定特定应用来减少执行与用户话语相对应的操作所需的时间。也就是说,根据比较示例,在接收到针对用户话语的路径规则之后,可以绑定应用,然后可以执行绑定应用,或者可以向绑定应用发送基于路径规则的命令。然而,根据本公开的实施例,可以在接收到路径规则之前绑定应用。这样,一旦接收到路径规则,可以执行绑定应用或者可以向绑定应用发送基于路径规则的命令,并且因此可以减少执行与用户话语相对应的操作所需的时间。
图6示出了根据本公开实施例的用户终端和智能服务器的操作流程图。图6是示出了由用户终端100和智能服务器200一起执行的操作的图。
参考图6,在操作601中,用户终端100(例如,图5的智能代理151)可以接收用户话语(或音频信号)。
在操作603中,用户终端100(例如,图5的智能代理151)可以通过通信电路向智能服务器200发送第一数据。第一数据可以是用户话语,或者可以是与用户的话语相关联的数据。例如,第一数据可以是以能够向智能服务器200发送用户话语的形式而改变的数据。
在操作605中,智能服务器200(例如,图5的ASR模块210)可以接收由用户终端100发送的第一数据。
在操作607中,智能服务器200(例如,图5的ASR模块210)可以将第一数据变为第二数据,然后可以向用户终端100发送第二数据。第二数据可以是通过以文本形式改变第一数据而获得的数据。例如,当用户说出“通过使用消息向Suzy发送图片”时,智能服务器200可以将话语转换为文本数据,并且可以向用户终端100发送该文本数据。
根据实施例,第二数据可以包括逐渐完成的文本数据以及用户话语是否终止。例如,当用户说出“find a Hawaii picture in the gallery and send it to Suzy byusing a message(在图库中查找夏威夷图片并通过使用消息向Suzy发送该图片)”时,智能服务器200可以向用户终端发送正逐渐完成的文本数据,例如“in the gallery(在图库中)”、“Hawaii in the gallery(在图库中的夏威夷)”、“find a Hawaii picture in thegallery(在图库中查找夏威夷图片)”、“find a Hawaii picture in the gallery byusing a message(通过使用消息在图库中查找夏威夷图片)”、“find a Hawaii picturein the gallery and to Suzy by using a message(在图库中查找夏威夷图片并通过使用消息向Suzy)”、“find a Hawaii pictute in the gallery and send it to Suzy byusing a message(在图库中查找夏威夷图片并通过使用消息向Suzy发送该图片)”等。此时,智能服务器200可以将与用户话语是否结束相关的数据一起向用户终端100发送。
在操作609中,用户终端100(例如,图5的智能代理151)可以接收第二数据。例如,用户终端100可以通过通信电路从智能服务器200接收第二数据。
在操作611中,用户终端100(例如,图5的执行管理器模块153)可以基于第二数据来绑定应用。例如,用户终端100可以将存储器中存储的应用表510与第二数据进行比较,并且可以绑定映射的应用。例如,当第二数据是“通过使用消息向Suzy发送图片”并且“消息”和“消息应用”被映射在应用表510中时,用户终端100可以绑定“消息应用”。
在操作613中,智能服务器200(例如,图3的NLU模块220或路径规划器模块230)可基于第二数据来生成路径规则。例如,当第二数据是“通过使用消息向Suzy发送图片”时,智能服务器200可以生成能够执行“消息应用”的路径规则。在图6中举例说明操作613在操作611之后执行的实施例。然而,本公开的实施例可以不限于此。例如,可以同时执行操作611和操作613。
在操作615中,智能服务器200可以向用户终端100发送所生成的路径规则。
在操作617中,用户终端100(例如,图5的智能代理151)可以从智能服务器200接收路径规则。例如,用户终端100可以通过通信电路来接收路径规则。
在操作619中,用户终端100(例如,图5的执行管理器模块153)可以将可由路径规则执行的应用与绑定应用进行比较。当可由路径规则执行的应用与绑定应用相同时,用户终端100可以执行绑定应用。例如,当绑定应用是“消息应用”并且可由路径规则执行的应用是“消息应用”时,用户终端100可以执行“消息应用”。
图7示出了根据本公开实施例的用户终端的操作流程图。图7是示出了由用户终端100执行的操作的图。
参考图7,在操作701中,用户终端100(例如,图5的智能代理151)可以接收用户话语。例如,当用户按下用户终端100的侧面上设置的硬件按键时,可以执行智能代理151。当用户在执行智能代理151的状态下讲话时,智能代理151可以通过麦克风来接收用户话语。
在操作703中,用户终端100(例如,图5的智能代理151)可以向外部服务器发送第一数据。第一数据可以是与用户的话语相关联的数据,例如,以能够向外部服务器发送用户的话语的形式所改变的数据。外部服务器可以是图1所示的智能服务器200、个人信息服务器300和建议服务器400中的至少一个。
在操作705中,用户终端100(例如,图5的智能代理151)可以从外部服务器接收第二数据。第二数据可以是包括由外部服务器生成的文本在内的数据。也就是说,第二数据可以是通过将用户话语转换为文本格式而获得的数据。
在操作707中,用户终端100(例如,图5的执行管理器模块153)可以基于第二数据的至少一部分来识别第一应用。例如,用户终端100可以将第二数据与应用表510进行比较以识别第一应用。例如,应用表510可被存储在存储器中,作为通过将文本映射到应用而获得的数据。也就是说,在第二数据是“在图库中查找夏威夷图片”并且“图库”和“图库应用”在表中被映射的情况下,用户终端100可以将“图库应用”识别为第一应用。
在操作709中,用户终端100(例如,图5的执行管理器模块153)可以绑定第一应用。也就是说,当满足指定条件时,用户终端100可以允许执行管理器模块153立即执行第一应用。
在操作711中,用户终端100(例如,图5的智能代理151)可以接收路径规则。例如,用户终端100可以从智能服务器200、个人信息服务器300和建议服务器400中的至少一个接收路径规则。
在操作713中,用户终端100(例如,图5的执行管理器模块153)可以确定第一应用是否与第二应用相同。第二应用可以意味着基于在操作711中所接收的路径规则而可执行的应用。
当第一应用与第二应用相同时,在操作715中,用户终端100(例如,图5的执行管理器模块153)可以执行第一应用。例如,在“图库应用”被设置为第一应用的状态下,在基于路径规则而可执行的应用也是“图库应用”的情况下,用户终端100可以执行“图库应用”。
当第一应用与第二应用不同时,在操作717中,用户终端100(例如,图5的执行管理器模块153)可以绑定第二应用。当第二应用被绑定时,在操作719中,用户终端100(例如,图5的执行管理器模块153)可以执行第二应用。例如,在“图库应用”被设置为第一应用的状态下在基于路径规则而可执行的应用是“消息应用”的情况下,用户终端100可以绑定“消息应用”。当“消息应用”被绑定时,用户终端100可以执行“消息应用”或可以发送基于由“消息应用”接收的路径规则的命令。
图8示出了根据本公开实施例的用户终端和智能服务器的框图。
图8示出了在执行应用之前存储各种数据的过程。
参考图8,在接收到用户话语之后,智能代理151可以向ASR模块210发送用户话语。在将用户话语变为文本数据之后,ASR模块210可以向智能代理151发回文本数据。
根据实施例,智能代理151可以将语音数据、文本数据和上下文信息存储在数据库810中。语音数据可以是与用户话语相关联的脉冲编码调制(PCM)数据。上下文信息可以是与电子设备的状态有关的信息,并且例如可以包括在电子设备中执行的应用的类型。
NLU模块220和/或路径规划器模块230可以基于文本数据来生成路径规则。可以向ASR模块210发送由NLU模块220和/或路径规划器模块230生成的路径规则。ASR模块210可以向智能代理151发回路径规则。
根据实施例,智能代理151可以向执行管理器模块153发送路径规则。执行管理器模块153可以基于路径规则来执行与路径规则相对应的应用。在用户终端100成功执行应用的情况下,执行管理器模块153可以将路径规则、执行的应用和语音数据相互关联,以将路径规则、执行的应用和语音数据存储在数据库中。
图9示出了根据本公开实施例的用户终端和智能服务器的框图。图9示出了通过使用图8中存储的各种数据来执行应用的过程。
参考图9,智能代理151可以接收用户话语。在接收到用户话语之后,智能代理151可以向执行管理器模块153发送语音数据。
语音数据分析器910可以将向执行管理器模块153发送的语音数据与数据库中存储的语音数据进行比较。当比较结果指示发送的语音数据与存储的语音数据相同时,执行管理器模块153可以确定与存储的语音数据相对应的路径规则,并且可以向智能代理151发送所确定的路径规则的ID。
智能代理151可以向智能服务器200发送所确定的路径规则的ID以确定所确定的路径规则是否被细化。在所确定的路径规则未被细化的情况下,智能代理151可以向执行管理器模块153发送指示路径规则未被细化的数据。执行管理器模块153可以基于所确定的路径规则来执行该应用。
例如,数据库810可以存储“在图库中查找图片”的语音数据以及能够执行“图库应用”的路径规则。此时,当用户说出“在图库中查找图片”时,用户终端100可以确定能够执行“图库应用”的路径规则是否被细化。当路径规则未被细化时,用户终端100可以执行“图库应用”。
图10示出了根据本公开实施例的用户终端的操作流程图。
参考图10,在操作1001中,用户终端100(例如,图9的智能代理151)可以接收用户话语。例如,用户终端100可以接收说出“在图库中查找图片”的用户话语。
在操作1003中,用户终端100(例如,图9的语音数据分析器910)可以确定第一数据是否与第二数据相同。第一数据可以是数据库中存储的语音数据,且第二数据可以是通过麦克风接收的语音数据。
当第一数据与第二数据相同时,在操作1005中,用户终端100(例如,图9的执行管理器模块153)可以基于第一路径规则来执行第一应用。第一路径规则和第一应用可以被存储在数据库中,作为与第一数据相关联的路径规则和应用。例如,当第一数据和第二数据与“在图库中查找图片”相同时,用户终端100可以执行“图库应用”。
当第一数据和第二数据彼此不相同时,在操作1007中,用户终端100(例如,图9的智能代理151)可以从智能服务器200接收第二路径规则。第二路径规则可以是由智能服务器200新生成的路径规则,作为与第二数据相关联的路径规则。
在操作1009中,用户终端100(例如,图9的执行管理器模块153)可以基于第二路径规则来执行第二应用。第二应用可以是与第二路径规则相关联的应用。例如,当第一数据是“在图库中查找图片”并且第二数据是“通过使用消息发送图片”时,用户终端100可以接收能够执行“消息应用”的路径规则。接下来,用户终端100可以绑定“消息应用”并且可以执行“消息应用”或者可以发送基于由“消息应用”接收的路径规则的命令。
图11示出了根据本公开实施例的用户终端的操作流程图。图11示出了在找到待绑定应用的情况下以及未找到待绑定应用的情况下用户终端100的操作流程图。
参考图11,在操作1101中,用户终端100(例如,图5的智能代理151)可以接收文本数据。例如,用户终端100可以连续地从ASR模块210接收文本数据。
在操作1103中,用户终端100(例如,图5的执行管理器模块153)可以搜索与文本数据相对应的应用。例如,当文本数据是“在图库中查找图片”时,用户终端100可以搜索“图库应用”。
当找到与文本数据相对应的应用时,在操作1105中,用户终端100(例如,图5的执行管理器模块153)可以绑定找到的应用。在该实施例中,当找到“图库应用”时,用户终端100可以绑定“图库应用”。
当没有找到与文本数据相对应的应用时,在操作1107中,用户终端100(例如,图5的执行管理器模块153)可以确定文本数据是否是用户终端100能够接收的最后文本数据。当文本数据不是最后文本数据时,用户终端100(例如,图5的智能代理151)可以接收另一文本数据。当文本数据是最后文本数据时,用户终端100(例如,图5的执行管理器模块153)可以确定不存在待绑定的应用并且可以终止应用绑定过程。
图12示出了根据本公开实施例的用户终端的操作流程图。图12示出了训练应用绑定结果的用户终端100的操作流程图。
参考图12,在操作1201中,用户终端100(例如,图5的执行管理器模块153)可以将第一应用设置为“A”集合中首先绑定的应用。“A”集合可以意味着应用程序集合。例如,当从ASR模块210接收的文本数据是“在图库中查找图片并通过使用消息发送该图片”时,用户终端100需要绑定的应用可以是“图库应用”和“消息应用”。在这种情况下,用户终端100可以将“图库应用”设置为首先要绑定的第一应用。“图库应用”和“消息应用”可以被包括在“A”集合中。
在操作1203中,用户终端100(例如,图5的执行管理器模块153)可以确定第一应用是否与第二应用相同。第二应用可以是实际上被用户终端100绑定的应用。
当第一应用与第二应用相同时,在操作1205中,用户终端100(例如,图5的执行管理器模块153)可训练第一情况。第一情况可意味着待绑定的应用与实际绑定的应用相同的情况。可以通过通信电路向外部服务器或外部设备发送训练结果。
当第一应用与第二应用不同时,在操作1207中,用户终端100(例如,图5的执行管理器模块153)可以训练第二情况。第二情况可意味着待绑定的应用与实际绑定的应用不同的情况。
根据实施例,第二情况可以分为第二-第一情况和第二-第二情况。第二-第一情况可以是绑定应用的顺序错误的情况。例如,当从ASR模块210接收的文本数据是“在图库中查找图片并通过使用消息发送该图片”时,即使需要将“图库应用”设置为第一应用,但是第二-第一情况可以是将“消息应用”设置为第一应用的情况。第二-第二情况可以是错误地绑定应用的情况。在该实施例中,第二-第二情况可以是其中将“天气应用”设置为第一应用的情况。
在操作1209中,用户终端100(例如,图5的执行管理器模块153)可以确定第二应用是否被包括在“A”集合中。当第二应用被包括在“A”集合中时,在操作1211中,用户终端100可以训练第二-第一情况。也就是说,即使待绑定的应用与实际绑定的应用不同,当绑定应用被包扩在“A”集合中时,可以确定绑定应用的顺序是错误的。
当第二应用未被包括在“A”集合中时,在操作1213中,用户终端100(例如,图5的执行管理器模块153)可以训练第二-第二情况。也就是说,当待绑定的应用与实际绑定的应用不同时,并且绑定应用未被包括在“A”集合中时,用户终端100可以确定应用被错误地绑定。
图13A示出了根据本公开实施例的系统服务进程和应用进程。图13B示出了根据本公开实施例的系统服务进程和应用进程。图13A和13B示出了用于更具体地描述绑定的概念的视图。
参考图13A,用户终端100可以设置机制,使得系统服务进程1310和应用进程1320能够相互发送和接收请求和响应。例如,可以设置该机制,使得第一进程1311和第三进程1321相互发送和接收请求和响应,并且使得第二进程1312和第四进程1322相互发送和接收请求和响应。在本公开中,如图13A所示,绑定可以意味着在系统服务进程1310和应用进程1320之间设置该机制的操作。
在用户终端100的制造期间,系统服务进程1310可以意味着用户终端100中存储或安装的应用、程序等。应用进程1320可以意味着用户在用户终端100中已经直接安装或存储的应用、程序等。
参考图13B,位置服务1313和应用程序1323可以被绑定,并且相机服务1314和应用程序1323可以被绑定。因此,当用户终端100调用应用程序1323时,可以一起调用位置服务1313。另外,当用户终端100调用应用程序1323时,可以一起调用相机服务1314。
图14示出了根据本公开实施例的用户终端和智能服务器的框图。
参考图14,用户终端100可以包括执行管理器模块153、执行代理(EA)1410、行动者模块1420、应用UI 1430和无障碍(accessibjlity)服务模块1440。
执行管理器模块153可以连接到EA 1410并且可以控制EA 1410。EA 1410可以通过使用行动者模块1420中存储的行动者和无障碍服务模块1440来执行应用。可以通过应用UI1430来输出所执行的应用。
在本公开中,行动者可以是基于路径规则来控制应用的程序,或者是应用编程接口(API)集合。例如,用户终端100可以存储第一类型应用和第二类型应用。第一类型应用可以是由与用户终端100的生产者或制造者相同的生产者或制造者来编程的应用。第二类型应用可以是由与用户终端100的生产者或制造者不同的生产者或制造者来编程的应用。行动者可意味着用于控制第二类型应用或API集合的程序。
根据实施例,执行管理器模块153可以从服务器1400接收行动者。例如,当在用户终端100中安装Twitter、Facebook等时,执行管理器模块153可以确定服务器1400是否存储与Twitter和Facebook相关联的行动者。当服务器1400存储与Twitter和Facebook相关联的行动者时,执行管理器模块153可以接收与Twitter和Facebook相关联的行动者。又例如,执行管理器模块153可以通过周期性地与服务器1400进行通信来确定行动者是否被细化或添加。当行动者被细化或添加时,执行管理器模块153可以接收被细化或添加的行动者。服务器1400可以是图1所示的智能服务器200、个人信息服务器300和建议服务器400中的一个,或者可以是存储行动者的服务器。
根据实施例,在执行管理器模块153绑定与用户话语相对应的应用之后,EA 1410可以将与该应用相对应的行动者加载到存储器中。例如,在用户说出“附加来自Facebook的昨天捕捉的图片”的情况下,执行管理器模块153可以预先绑定Facebook应用。EA 1410可以将与Facebook应用相对应的行动者加载到存储器上以控制Facebook应用。当行动者被加载到存储器上时,可以向用户终端100发送与Facebook相对应的路径规则。由于行动者被加载到存储器上,一旦用户终端100接收到路径规则时,用户终端100可以立即执行Facebook应用,或者可以基于路径规则向Facebook应用发送操作执行命令。
根据本公开的实施例,一种电子设备可以包括:壳体、位于壳体的第一区域中的扬声器、位于壳体的第二区域中的麦克风、位于壳体的第三区域中的显示器、位于壳体内部或连接到壳体的通信电路、位于壳体内部并且有效连接到扬声器、麦克风、显示器和通信电路的处理器、以及位于壳体内部并且有效连接到处理器的存储器,该存储器存储多个应用程序和指令。该指令在被执行时可以使处理器:通过麦克风来接收包括用于通过使用至少一个应用程序执行任务的请求在内的第一用户话语;通过通信电路向至少一个外部服务器发送与第一用户话语相关联的第一数据;通过通信电路从外部服务器接收包括由ASR模块生成的文本在内的第二数据;基于第二数据的至少一部分来识别至少一个应用程序;在识别至少一个应用程序后,通过通信电路从外部服务器接收包括与电子设备的状态序列相关联的信息在内的第一响应以执行任务的至少一部分;并且通过使用至少一个应用程序以允许电子设备具有状态序列来执行任务的至少一部分。
根据本公开的实施例,存储器可以存储与智能助手相关联的服务组件,并且指令可以使处理器:在接收到第一响应之前,建立所识别的至少一个应用程序和服务组件之间的通信。
根据本公开的实施例,通信可以包括进程间通信(IPC)。
根据本公开的实施例,指令可以包括操作系统,并且指令可以使处理器:通过使用绑定器机制或框架来开始通信。
根据本公开的实施例,应用程序可以包括第一类型应用程序和第二类型应用程序,并且指令可以使处理器:当所识别的应用程序是第一类型应用程序时,基于序列来执行任务的至少一部分;以及当所识别的应用程序是第二类型应用程序时,基于从外部服务器接收的行动者来执行任务的至少一部分。
根据本公开的实施例,指令可以使处理器:基于其中包括第一用户话语的类别来识别至少一个应用程序。
根据本公开的实施例,指令可以使处理器:基于与文本的指定部分相邻的另一部分来识别至少一个应用程序。
根据本公开的实施例,一种电子设备可以包括:壳体、位于壳体的第一区域中的扬声器、位于壳体的第二区域中的麦克风、位于壳体的第三区域中的显示器、位于壳体内部或连接到壳体的通信电路、位于壳体内部并且连接到扬声器、麦克风、显示器和通信电路的处理器、以及位于壳体内部并且连接到处理器的存储器,该存储器存储多个应用程序和指令。该指令在被执行时可以使处理器:通过麦克风接收用户话语;通过通信电路向外部服务器发送用户话语;通过通信电路从外部服务器接收与用户话语相对应的文本数据;基于文本数据的至少一部分来识别应用程序中的第一应用程序;在第一应用程序和能够执行应用程序的控制程序之间建立通信;从外部服务器接收电子设备的状态序列;比较第一应用程序和基于序列可执行的第二应用程序,并且基于比较结果来执行第一应用程序或第二应用程序。
根据本公开的实施例,指令可以使处理器:当第一应用程序与第二应用程序相对应时,执行第一应用程序。
根据本公开的实施例,指令可以使处理器:当第一应用程序不与第二应用程序相对应时,建立第二应用程序和控制程序之间的通信。
根据本公开的实施例,指令可以使处理器:当建立了第二应用程序与控制程序之间的通信时,执行第二应用程序。
根据本公开的实施例,指令可以使处理器:通过通信电路来接收指示用户话语是否被终止的数据。
根据本公开的实施例,指令可以使处理器:通过通信电路来顺序接收基于用户话语被输入到电子设备中的顺序而生成的各条文本数据。
根据本公开的实施例,文本数据可以包括能够识别每个应用程序的身份数据。指令可以使处理器:基于身份数据来识别第一应用程序。
根据本公开的实施例,指令可以使处理器:基于其中包括用户话语的类别来识别至少一个应用程序。
根据本公开的实施例,一种电子设备可以包括:壳体、位于壳体的第一区域中的扬声器、位于壳体的第二区域中的麦克风、位于壳体的第三区域中的显示器、位于壳体内部或连接到壳体的通信电路、位于壳体内部并且连接到扬声器、麦克风、显示器和通信电路的处理器、以及位于壳体内部并且连接到处理器的存储器,该存储器存储多个应用程序和指令。该指令在被执行时可以使处理器:通过使用至少一个应用程序通过麦克风接收包括用于通过使用至少一个应用程序来执行任务的请求在内的第一用户话语;比较第一用户话语和存储器中存储的第二用户话语;当比较结果指示第一用户话语与第二用户话语之间的匹配程度不小于指定水平时,基于与第二用户话语相对应的电子设备的状态序列来执行任务的至少一部分。
根据本公开的实施例,指令可以使处理器:从外部服务器接收指示序列是否被细化的数据;并且,当没有进行细化时,基于序列来执行任务的至少一部分。
根据本公开的实施例,指令可以使处理器:当进行了细化时,从外部服务器接收电子设备的细化的状态序列,并且基于电子设备的细化的状态序列来执行任务的至少一部分。
根据本公开的实施例,第一用户话语可以包括与第一用户话语相对应的第一PCM数据。第二用户话语包括与第二用户话语相对应的第二PCM数据,并且指令可以使处理器:比较第一PCM数据与第二PCM数据。
根据本公开的实施例,指令可以使处理器:接收与第一用户话语相对应的文本数据。
尽管参考本公开的各种实施例示出并描述了本公开,然而本领域技术人员应理解,可以在不脱离由所附权利要求及其等同物限定的本公开的精神和范围的前提下,进行形式和细节上的各种改变。
Claims (15)
1.一种电子设备,包括:
壳体;
扬声器,布置在所述壳体的第一区域中;
麦克风,布置在所述壳体的第二区域中;
显示器,布置在所述壳体的第三区域中;
通信电路,布置在所述壳体内部或连接到所述壳体;
至少一个处理器,布置在所述壳体内部,并且有效连接到所述扬声器、所述麦克风、所述显示器和所述通信电路;以及
存储器,布置在所述壳体内部,有效连接到所述至少一个处理器,并且被配置为存储多个应用程序和指令,
其中,所述指令在被执行时使所述至少一个处理器:
通过所述麦克风来接收包括用于通过使用至少一个应用程序去执行任务的请求在内的第一用户话语,
通过所述通信电路向外部服务器发送与所述第一用户话语相关联的第一数据,
通过所述通信电路从所述外部服务器接收包括由自动语音识别“ASR”模块生成的文本在内的第二数据,
基于所述第二数据的至少一部分来识别所述至少一个应用程序,
在识别所述至少一个应用程序后,通过所述通信电路从所述外部服务器接收包括与所述电子设备的状态序列相关联的信息在内的第一响应,以执行所述任务的至少一部分,以及
通过使用所述至少一个应用程序控制所述电子设备进入所述状态序列来执行所述任务的所述至少一部分。
2.根据权利要求1所述的电子设备,
其中,所述存储器存储与智能助手相关联的服务组件,以及
其中,所述指令还使所述至少一个处理器:
在接收所述第一响应之前,建立所述至少一个应用程序和所述服务组件之间的通信。
3.根据权利要求2所述的电子设备,其中,所述通信包括进程间通信“IPC”。
4.根据权利要求3所述的电子设备,
其中,所述指令包括操作系统,以及
其中,所述指令还使所述至少一个处理器:
通过使用绑定器机制或框架来开始通信。
5.根据权利要求1所述的电子设备,
其中,所述应用程序包括第一类型应用程序和第二类型应用程序,以及
其中,所述指令还使所述至少一个处理器:
当所识别的应用程序是所述第一类型应用程序时,基于所述状态序列来执行所述任务的至少一部分;以及
当所识别的应用程序是所述第二类型应用程序时,基于从所述外部服务器接收的行动者来执行所述任务的至少一部分,其中,所述行动者包括用于控制所述第二类型应用的程序或者应用编程接口“API”集。
6.根据权利要求1所述的电子设备,其中,所述指令还使所述至少一个处理器:
基于包括所述第一用户话语在内的类别来识别所述至少一个应用程序。
7.根据权利要求1所述的电子设备,其中,所述指令还使所述至少一个处理器:
基于与所述文本的指定部分相邻的另一部分来识别所述至少一个应用程序。
8.一种电子设备,包括:
壳体;
扬声器,布置在所述壳体的第一区域中;
麦克风,布置在所述壳体的第二区域中;
显示器,布置在所述壳体的第三区域中;
通信电路,布置在所述壳体内部或连接到所述壳体;
至少一个处理器,布置在所述壳体内部,并且有效连接到所述扬声器、所述麦克风、所述显示器和所述通信电路;以及
存储器,布置在所述壳体内部,有效连接到所述至少一个处理器,并且被配置为存储多个应用程序和指令,
其中,所述指令在被执行时使所述至少一个处理器:
通过所述麦克风来接收用户话语,
通过所述通信电路向外部服务器发送所述用户话语,
通过所述通信电路从所述外部服务器接收与所述用户话语相对应的文本数据,
基于所述文本数据的至少一部分来识别所述应用程序中的第一应用程序,
在所述第一应用程序和能够执行所述应用程序的控制程序之间建立通信,
从所述外部服务器接收所述电子设备的状态序列,
比较所述第一应用程序和基于序列能够执行的第二应用程序,以及
基于比较结果来执行所述第一应用程序或所述第二应用程序。
9.根据权利要求8所述的电子设备,其中,所述指令还使所述至少一个处理器:
当所述第一应用程序与所述第二应用程序相对应时,执行所述第一应用程序。
10.根据权利要求8所述的电子设备,其中,所述指令还使所述至少一个处理器:
当所述第一应用程序不与所述第二应用程序相对应时,建立所述第二应用程序和所述控制程序之间的通信。
11.根据权利要求10所述的电子设备,其中,所述指令还使所述至少一个处理器:
当建立了所述第二应用程序与所述控制程序之间的通信时,执行所述第二应用程序。
12.根据权利要求8所述的电子设备,其中,所述指令还使所述至少一个处理器:
通过所述通信电路来接收指示所述用户话语是否被终止的数据。
13.根据权利要求8所述的电子设备,其中,所述指令还使所述至少一个处理器:
通过所述通信电路顺序地接收基于所述用户话语被输入到所述电子设备中的顺序而生成的各条文本数据。
14.根据权利要求8所述的电子设备,
其中,所述文本数据包括与每个应用程序相对应的识别数据,以及
其中,所述指令还使所述至少一个处理器:
基于所述识别数据来识别所述第一应用程序。
15.根据权利要求8所述的电子设备,其中,所述指令还使所述至少一个处理器:
基于包括所述用户话语在内的类别来识别所述至少一个应用程序。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2017-0081421 | 2017-06-27 | ||
KR1020170081421A KR102060775B1 (ko) | 2017-06-27 | 2017-06-27 | 음성 입력에 대응하는 동작을 수행하는 전자 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109144458A true CN109144458A (zh) | 2019-01-04 |
CN109144458B CN109144458B (zh) | 2021-04-27 |
Family
ID=62791587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810667208.7A Active CN109144458B (zh) | 2017-06-27 | 2018-06-25 | 用于执行与语音输入相对应的操作的电子设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10540973B2 (zh) |
EP (1) | EP3422344B1 (zh) |
KR (1) | KR102060775B1 (zh) |
CN (1) | CN109144458B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696534A (zh) * | 2019-03-15 | 2020-09-22 | 阿里巴巴集团控股有限公司 | 语音交互设备和系统、设备控制方法、计算设备以及介质 |
CN111880645A (zh) * | 2019-05-02 | 2020-11-03 | 三星电子株式会社 | 基于用户的语音输入确定目标设备并控制目标设备的服务器及其操作方法 |
CN112542171A (zh) * | 2019-09-04 | 2021-03-23 | 三星电子株式会社 | 使用语音识别功能执行动作的电子装置及其方法 |
US12183346B2 (en) | 2019-05-02 | 2024-12-31 | Samsung Electronics Co., Ltd. | Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102725783B1 (ko) * | 2019-03-06 | 2024-11-05 | 삼성전자주식회사 | 복수 개의 엔드 포인트가 포함된 플랜들을 처리하는 방법 및 그 방법을 적용한 전자 장치 |
KR20220072480A (ko) * | 2020-11-25 | 2022-06-02 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 작동 방법 |
CN114979355B (zh) * | 2022-05-30 | 2024-09-24 | 维沃移动通信有限公司 | 麦克风的控制方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101911064A (zh) * | 2007-12-31 | 2010-12-08 | 摩托罗拉公司 | 用于实现分布式多模态应用的方法和装置 |
CN102469159A (zh) * | 2010-10-29 | 2012-05-23 | 高思达有限公司 | 一种提供和管理互动服务的系统和方法 |
CN103456306A (zh) * | 2012-05-29 | 2013-12-18 | 三星电子株式会社 | 用于在电子装置中执行语音命令的方法和设备 |
CN104620314A (zh) * | 2012-04-26 | 2015-05-13 | 纽昂斯通讯公司 | 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统 |
CN104951077A (zh) * | 2015-06-24 | 2015-09-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法、装置和终端设备 |
US20160104484A1 (en) * | 2014-10-14 | 2016-04-14 | Samsung Electronics Co., Ltd. | Electronic device and method for spoken interaction thereof |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8516114B2 (en) | 2002-03-29 | 2013-08-20 | International Business Machines Corporation | Method and apparatus for content pre-fetching and preparation |
US8942985B2 (en) | 2004-11-16 | 2015-01-27 | Microsoft Corporation | Centralized method and system for clarifying voice commands |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7831431B2 (en) * | 2006-10-31 | 2010-11-09 | Honda Motor Co., Ltd. | Voice recognition updates via remote broadcast signal |
KR102056177B1 (ko) | 2013-02-22 | 2020-01-22 | 삼성전자 주식회사 | 음성 대화 서비스 제공 방법 및 이동 단말 |
US20140278403A1 (en) | 2013-03-14 | 2014-09-18 | Toytalk, Inc. | Systems and methods for interactive synthetic character dialogue |
US20150088525A1 (en) | 2013-09-24 | 2015-03-26 | Tencent Technology (Shenzhen) Co., Ltd. | Method and apparatus for controlling applications and operations on a terminal |
CN104461597A (zh) | 2013-09-24 | 2015-03-25 | 腾讯科技(深圳)有限公司 | 应用程序的启动控制方法及装置 |
US20150199965A1 (en) | 2014-01-16 | 2015-07-16 | CloudCar Inc. | System and method for recognition and automatic correction of voice commands |
KR20180060328A (ko) | 2016-11-28 | 2018-06-07 | 삼성전자주식회사 | 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버 |
KR102369083B1 (ko) | 2017-04-17 | 2022-03-02 | 삼성전자주식회사 | 음성 데이터 처리 방법 및 이를 지원하는 전자 장치 |
-
2017
- 2017-06-27 KR KR1020170081421A patent/KR102060775B1/ko active Active
-
2018
- 2018-05-30 US US15/992,906 patent/US10540973B2/en active Active
- 2018-06-25 CN CN201810667208.7A patent/CN109144458B/zh active Active
- 2018-06-26 EP EP18179831.5A patent/EP3422344B1/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101911064A (zh) * | 2007-12-31 | 2010-12-08 | 摩托罗拉公司 | 用于实现分布式多模态应用的方法和装置 |
CN102469159A (zh) * | 2010-10-29 | 2012-05-23 | 高思达有限公司 | 一种提供和管理互动服务的系统和方法 |
CN104620314A (zh) * | 2012-04-26 | 2015-05-13 | 纽昂斯通讯公司 | 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统 |
CN103456306A (zh) * | 2012-05-29 | 2013-12-18 | 三星电子株式会社 | 用于在电子装置中执行语音命令的方法和设备 |
CN106297802A (zh) * | 2012-05-29 | 2017-01-04 | 三星电子株式会社 | 用于在电子装置中执行语音命令的方法和设备 |
US20160104484A1 (en) * | 2014-10-14 | 2016-04-14 | Samsung Electronics Co., Ltd. | Electronic device and method for spoken interaction thereof |
CN104951077A (zh) * | 2015-06-24 | 2015-09-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法、装置和终端设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696534A (zh) * | 2019-03-15 | 2020-09-22 | 阿里巴巴集团控股有限公司 | 语音交互设备和系统、设备控制方法、计算设备以及介质 |
CN111880645A (zh) * | 2019-05-02 | 2020-11-03 | 三星电子株式会社 | 基于用户的语音输入确定目标设备并控制目标设备的服务器及其操作方法 |
US12183346B2 (en) | 2019-05-02 | 2024-12-31 | Samsung Electronics Co., Ltd. | Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same |
CN112542171A (zh) * | 2019-09-04 | 2021-03-23 | 三星电子株式会社 | 使用语音识别功能执行动作的电子装置及其方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3422344A1 (en) | 2019-01-02 |
US20180374481A1 (en) | 2018-12-27 |
KR20190001435A (ko) | 2019-01-04 |
CN109144458B (zh) | 2021-04-27 |
EP3422344B1 (en) | 2020-09-09 |
US10540973B2 (en) | 2020-01-21 |
KR102060775B1 (ko) | 2019-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109144458A (zh) | 用于执行与语音输入相对应的操作的电子设备 | |
CN100578614C (zh) | 用语音应用语言标记执行的语义对象同步理解 | |
KR101066741B1 (ko) | 컴퓨터 시스템과 동적으로 상호작용하기 위한 컴퓨터 구현 방법, 시스템, 및 컴퓨터 판독가능 기록 매체 | |
US20240256788A1 (en) | Systems and methods for dialog management | |
CN112513833A (zh) | 用于基于预先合成的对话提供人工智能服务的电子设备和方法 | |
US11574635B2 (en) | Policy authoring for task state tracking during dialogue | |
CN107111516A (zh) | 数字个人助理内的无头任务完成 | |
CN108632653A (zh) | 语音管控方法、智能电视及计算机可读存储介质 | |
WO2024160041A1 (zh) | 多模态对话方法、装置、设备及存储介质 | |
CN110308886A (zh) | 提供与个性化任务相关联的声音命令服务的系统和方法 | |
CN110047484A (zh) | 一种语音识别交互方法、系统、设备和存储介质 | |
JP2021089438A (ja) | 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 | |
JP2019040602A (ja) | 人工知能機器における連続会話機能 | |
KR102594838B1 (ko) | 사용자 발화에 응답하여 통화를 포함하는 태스크를 수행하는 전자 장치 및 그 동작 방법 | |
KR102741650B1 (ko) | 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치 | |
JP2010026686A (ja) | 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム | |
KR20210001082A (ko) | 사용자 발화를 처리하는 전자 장치와 그 동작 방법 | |
WO2014055181A1 (en) | Systems and methods for providing a voice agent user interface | |
KR20220049743A (ko) | 인공지능 디바이스와 연동하여 음성 기록을 관리하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체 | |
US20140095168A1 (en) | Systems and methods for providing a voice agent user interface | |
KR20100121072A (ko) | 휴대 단말기의 통화 기록 관리 방법 및 이를 지원하는 휴대 단말기 | |
CN119363881A (zh) | 通话方法、装置、电子设备及可读存储介质 | |
Pakucs | A human-centered approach to speech interfaces in mobile and ubiquitous computing environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |