CN103869971B

CN103869971B - 用于使用语音识别提供情境感知服务的方法和用户装置

Info

Publication number: CN103869971B
Application number: CN201310670710.0A
Authority: CN
Inventors: 朴珍; 郑智连
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-12-10
Filing date: 2013-12-10
Publication date: 2018-03-30
Anticipated expiration: 2033-12-10
Also published as: US20210056953A1; US11721320B2; CN108446022B; US20190362705A1; US20140163976A1; EP4300993A3; US20180182374A1; US11410640B2; EP2760016B1; CN103869971A; US10395639B2; US20220383852A1; KR102091003B1; CN108446022A; EP3410434C0; EP4300993A2; EP3217394B1; KR20140074549A; US9940924B2; EP2760016A3

Abstract

提供一种用于使用语音识别提供情境感知服务的方法和用户装置。所述方法包括：根据用户输入来定义用于情境感知服务的控制命令；响应于用户选择来触发回放模式和情境感知服务；在回放模式下通过麦克风接收外部音频；确定接收到的音频是否与控制命令对应；当接收到的音频与控制命令对应时，执行分配到控制命令的特定动作。

Description

用于使用语音识别提供情境感知服务的方法和用户装置

技术领域

本公开涉及提供情境感知服务的技术。更具体地讲，本公开涉及如下的方法和用户装置，即，在用户装置与耳机连接的状态下通过语音识别知道用户定义的情境，自动地执行分配到用户定义的情境的特定动作并将反馈提供给用户。

背景技术

随着数字技术的显著发展，允许在移动环境中进行通信和数据处理的各种用户装置（诸如个人数字助理（PDA）、电子记事本、智能电话、平板个人计算机（PC）等）已变得越来越普遍。这样的用户装置已超出它们的各个传统领域并且已到达融合阶段。例如，用户装置可提供许多有用的功能，包括语音/视频呼叫功能、消息传输功能（诸如短消息服务（SMS））、多媒体消息服务（MMS）、电子邮件、导航功能、数码相机功能、广播接收功能、媒体（包括视频和音乐）回放功能、互联网访问功能、信使功能、社交网络服务（SNS）功能等。

最近已开发了将个人生活记录为数字信息（例如，生活日志）的各种技术，这引起了对情境感知服务的兴趣。通常，情境感知服务根据由服务对象（例如，用户）定义的情境的变化来确定服务的内容和是否提供服务。情境表示用于确定由服务对象定义的特定服务动作的信息，并可包括提供服务的时间、是否提供服务、服务的目标、提供服务的位置等。

典型的情境感知服务基于域安装各种传感器单元以便收集个人信息。例如，现有技术的情境感知服务可包括从传感器获得数据的用户装置和从由用户装置获得的数据提取情境的服务器，现有技术的情境感知服务可分析提取的数据并可执行对于情境的合适服务。因此，为了支持情境感知服务，这样的系统可能需要用户装置具有各种传感器并还可能需要用户装置与服务器之间的交互。不幸地，这会使实现高效且结构合理的系统变得困难。

此外，现有技术的情境感知服务可能需要用户执行单独的程序并执行复杂的设置步骤。这会使用户的可用性差。此外，典型的情境感知服务的使用方案可依赖用户装置中定义的命令。然而，由于只有用户装置的用户可知道该命令，因此，可能无法合适地处理与外部事件相关联的任何情境。

可连接到用户装置的耳机也已变得普遍。在用户通过耳机接听音频的情况下，他或她可能不容易感知外部声音。由于该原因，用户应取下耳机或直接操作运行应用。

因此，存在允许用户装置在用户佩戴耳机时识别外部情境并将反馈提供给用户的方法和装置的需要。

上述信息仅被呈现为用于帮助理解本公开的背景信息。关于任何上述内容是否可用于关于本公开的现有技术，未做出任何确定，并且未做出任何断言。

发明内容

本公开的多个方面在于至少解决上述问题和/或缺点并在于至少提供下述优点。因此，本公开的一方面在于提供用于通过语音识别来识别用户定义的情境，自动地执行与识别的情境相应的特定动作并将反馈提供给用户的方法和用户装置。

本公开的另一方面在于提供用于即使在用户装置连接到耳机时也通过语音识别来识别用户定义的情境的方法和用户装置。

本公开的另一方面在于提供用于识别用于支持情境感知服务的最优环境，以此提高用户便利性和装置可用性的方法和用户装置。

根据本公开的一方面，提供一种用于提供情境感知服务的方法。所述方法包括：根据用户输入来定义用于情境感知服务的控制命令；响应于用户选择来触发回放模式和情境感知服务；在回放模式下通过麦克风接收外部音频；确定接收到的音频是否与控制命令对应；当接收到的音频与控制命令对应时，执行分配到控制命令的特定动作。

根据本公开的另一方面，提供一种用户装置。所述用户装置包括：麦克风，被构造为接收外部音频；存储单元，被构造为存储包括用户定义的控制命令、根据控制命令的特定动作和情境信息的映射关系的命令表；语音识别单元，被构造为在情境感知服务中执行语音识别以识别用户情境；控制单元，被构造为根据用户输入来定义用于情境感知服务的控制命令，并在通过麦克风接收到与控制命令相应的特定音频时执行与特定音频映射的特定动作。

根据本公开的另一方面，提供一种计算机可读介质。所述计算机可读介质在其上记录有程序，被构造为根据用户输入来定义用于情境感知服务的控制命令，并在通过麦克风接收到特定音频输入时执行映射到与控制命令相应的特定音频输入的特定动作。

根据本公开的的另一方面用于通过使用语音识别来提供情境感知服务的方法和用户装置，用户装置可设置各种用户定义的情境或规则。在本公开的各种实施例中，用户装置可通过语音识别处理来识别用户定义的情境，可自动地执行分配到用户定义的情境的特定动作，并将关于情境的反馈提供给用户。

根据本公开的另一方面，即使在用户佩戴连接到用户装置的耳机时，用户装置也可在给定条件（例如，特定分贝或更多）下执行针对外部事件的语音识别。如果识别到用户定义的情境，则用户装置可执行特定动作（例如，输出识别的语音，显示弹出消息，输出振动等），并将关于情境信息的立即反馈提供给用户。因此，用户可在不取下耳机或操作运行的应用的情况下容易地感知他或她的用户定义的情境。

根据本公开的另一方面，用户可定义与任何期望或可能的情境相关联的各种控制命令以及由用户装置的制造商定义的特定情境。因此，可扩大情境感知服务的支持范围，这可满足各种用户的可用性。

根据本公开的另一方面，这里公开的方法和用户装置可实现用于支持情境感知服务的最优环境，因此提供用户的便利性和装置可用性。可以在所有种类的用户装置或任何其它等同物中简单实现这里公开的技术。

从以下结合附图公开本公开的各种实施例的详细描述中，本公开的其它方面、优点和显著特征将对于本领域技术人员变得清楚。

附图说明

从结合附图的以下描述中，本公开的特定实施例的上述以及其它方面、特征和优点将会更加清楚，在附图中：

图1是示出根据本公开的实施例的情境感知服务的示图。

图2是示出根据本公开的实施例的用户装置的构造的框图。

图3是示出根据本公开的实施例的在用户装置中执行情境感知服务的示图。

图4是示出根据本公开的实施例的显示在用户装置上的控制命令的列表的屏幕截图。

图5是示出根据本公开的实施例的用于使用语音识别来提供情境感知服务的方法的流程图。

图6是示出根据本公开的另一实施例的使用语音识别来提供情境感知服务的方法的流程图。

图7示出根据本公开的实施例的使用语音识别来提供情境感知服务的处理。

图8示出根据本公开的另一实施例的使用语音识别来提供情境感知服务的处理。

贯穿附图，应注意，相同的标号用于描绘相同或相似的元件、特征和结构。

具体实施方式

提供以下参照附图的描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。以下描述包括各种特定细节以帮助理解，但是这些特定细节将仅被认为是示例性的。因此，本领域的普通技术人员将认识到，在不脱离本公开的范围和精神的情况下可对在此描述的实施例进行各种改变和修改。另外，为了清楚和简明，可省略公知功能和构造的描述。

在以下描述和权利要求中使用的术语和词语不限于字面含义，而是仅被发明人使用，以能够使本公开得到清楚和一致的理解。因此，对于本领域技术人员应该清楚的是，本公开的各种实施例的以下描述仅被提供用于说明目的，而不是用于限制由权利要求及其等同物限定的本公开的目的。

将理解，除非上下文明确指示，否则单数形式包括复数指代。因此，例如，参照“组件表面”包括参照一个或多个这样的表面。

本公开涉及用于提供情境感知服务的方法和用户装置。在本公开的各种实施例中，用户装置可基于用户定义的情境（或规则）执行情境感知，可自动执行分配到用户定义的情境的至少一个动作，并可将户关于情境信息的反馈提供给用户。

更具体地讲，在情境感知服务中，用户装置可执行针对从任何外部实体接收的音频的语音识别。如果语音识别的音频与控制命令对应，则用户装置可执行分配到控制命令的一个或多个动作并且还可向用户提供情境信息。根据本公开的各种实施例，用户装置可通过使用语音识别来识别用户定义的情境（或规则），并可向用户提供与识别的情境有关的情境信息。

在本公开的一些实施例中，用户可基于自然语言来定义用于文本识别的各种控制命令。例如，用户的姓名、用户的绰号、用户的昵称、任何其它称呼用语、任何位置用语等可以以文本或语音的形式被输入并可被定义为控制命令。可通过连接到用户装置的耳机在回放模式下输出任何音频，同时用户装置可记录通过麦克风接收的音频并可执行语音识别解决方案。此时，用户装置可将接收到的音频的增益与参考增益进行比较以便确定是否执行语音识别解决方案。如果语音识别解决方案被执行，则用户装置可输出情境信息，使得用户可容易地感知自动任务控制（例如，用于媒体情境的暂停功能）和识别的音频。可以以视觉（即，屏幕显示）、听觉（即，声音）和触觉（即，振动）中的至少一个的方式提供情境信息的输出。

在本公开中，情境感知服务表示如下的服务，即，用户装置通过语音识别来识别用户定义的情境（或规则），执行相应的特定动作并向用户提供关于情境信息的反馈。在该公开中，在情境感知服务中执行的动作表示由用户装置执行的任何种类的控制动作，包括通过用户装置的扬声器输出情境信息，通过耳机输出情境信息，通过耳机的右部分和左部分分别输出情境信息，通过显示单元显示情境信息，通过振动的方式输出情境信息和对当前模式的控制（例如，回放的暂停、回放的结束等）。情境信息表示根据特定动作的执行而输出的任何种类的信息，包括识别的音频、识别的文本、振动及它们的任何组合。

在该公开中，根据在情境感知服务之前运行的模式（或应用），可执行一个或多个动作。例如，如果用户装置执行音乐回放模式并通过耳机输出播放的音乐的声音，则任何识别的音频可通过耳机输出。在这种情况下，音乐可被暂停。如果用户装置执行视频回放模式并通过耳机和显示单元分别输出播放的视频的音频和图像，则任何识别的情境可显示在显示单元上。在这种情况下，视频可被暂停或可继续播放。此外，在这种情况下，任何识别的音频还可通过耳机输出并且视频可被暂停。

图1是示出根据本公开的实施例的情境感知服务的示图。

参照图1，可使用用户装置100和耳机200执行情境感知服务。用户装置100和耳机200可通过有线接口或无线接口彼此连接。

用户装置100可执行与情境感知服务相关联的总体操作。用户装置100可以是采用应用处理器（AP）、图形处理单元（GPU）和/或中央处理单元（CPU）的任何种类的电子装置。例如，用户装置100可以是各种类型的移动通信终端、平板PC、智能电话、数码相机、便携式多媒体播放器（PMP）、媒体播放器、便携式游戏机、个人数字助理（PDA）等中的一个。此外，公开于此的功能控制方法可应用于各种类型的显示装置，诸如数字TV、数字标牌（DS）、大型显示器（LFD）等。

耳机200表示可连接到用户装置100，可从用户装置100接收声音并可通过配备的扬声器输出接收到的声音的装置。

用户可连接用户装置100和耳机200并且随后通过耳机200接听用户装置100中播放的媒体内容（例如，音乐或视频文件）的声音。

此外，用户可设置用于情境感知服务的控制命令。可在用户期望的任何时间设置控制命令。例如，用户可设置各种控制命令，可在耳机200连接时设置必需的控制命令，或可在使用用户装置100时在任何时间设置期望的控制命令。

控制命令可基于自然语言（即，由用户代表性地使用的语言）而被定义和识别。可基于自然语言以各种形式设置用户的情境感知所需的任何命令。例如，为了在他或她通过耳机200接听音乐时容易地感知某人正在呼叫用户，用户可将用于呼叫他或她的各种自然语言用语（例如，用户的姓名或绰号）设置为命令。此外或可选择地，为了在使用交通工具（例如，公共汽车或地铁）期间容易地感知到达目的地，用户可将期望的目的地（例如，首尔站）设置为命令。此外，控制命令可通过在用户装置100中配备的麦克风以基于语音的输入而被输入，控制命令可通过配备在用户装置100中的输入单元或显示单元以基于文本的输入而被输入，或控制命令可由用户从用户装置100中定义的命令列表中选择。

当通过情境感知服务中的语音识别识别到特定控制命令时，用户装置100可控制声音路径和任务操作。

具体地讲，当情境感知服务被触发时，用户装置100可激活语音识别功能。例如，可在耳机200连接到用户装置100时，在任何媒体情境开始播放，或在接收到相关用户输入时，触发情境感知服务。用户装置100可识别通过麦克风接收到的外部音频（例如，语音、通知等），并将识别的语音与用户定义的控制命令进行比较。如果确定接收到与选择的用户定义的控制命令对应的特定音频，则用户装置100可将所述特定音频视为对用户定义的情境的感知。此外，用户装置100可执行与识别的情境相应的至少一个特定动作；所述特定动作与选择的控制命令映射。用户装置100还可将关于情境信息的反馈提供给用户。

在一个实施例中，用户可基于将用于呼叫他或她的自然语言用语（例如，用户的姓名或绰号）预先设置至少一个控制命令，可通过耳机200接听正在用户装置100中播放的音乐。在这种情况下，用户装置100可当在用户请求时开始播放选择的音乐文件时执行语音识别解决方案。语音识别解决方案可包括用于激活麦克风来接收外部音频的动作和用于记录接收到的音频的动作。如果在播放音乐时从通过麦克风接收到的音频检测到与用户定义的控制命令相应的特定音频（例如，用户的姓名或绰号），则用户装置100可执行与控制命令相应的特定动作并将关于情境信息的反馈提供给用户。例如，用户装置100可暂停音乐的恢复或可通过在保持音乐的回放的同时改变声音路径来停止声音输出到耳机200。随后，用户装置100可将识别的音频（例如，用户的姓名或绰号）发送到耳机200以通过耳机200输出识别的音频。因此，用户可明白音乐由于情境感知而停止，并还可适当地处理某人呼叫他或她的姓名的情况。

在一个实施例中，如果识别到音频的方向，则这可在控制命令中被反映。例如，如果某人在用户的右侧呼叫用户的姓名，则用户装置100可通过耳机200的右扬声器将反馈提供给用户，或可增加右扬声器的音量以便提高用户的感知。

在另一实施例中，用户可在地铁上使用视频讲座。在这种情况下，用户可将期望的目的地（例如，首尔的地铁站）设置为用于情境感知的控制命令。随后，用户装置100可触发情境感知服务并执行语音识别解决方案。如果在播放视频的同时，从通过麦克风输入的音频检测到与特定用户定义的控制命令相应的任何特定音频（例如，“下一站是首尔站”的通知），则用户装置100可执行与控制命令相应的特定动作并将关于情境信息的反馈提供给用户。例如，用户装置100可暂停视频的回放，可在保持视频的回放的同时显示弹出窗口，或可通过在保持视频的回放的同时改变声音路径来停止声音输出到耳机200。在暂停视频的回放或停止声音的输出的情况下，用户装置100可将识别的音频（例如，通知“下一站是首尔站”）发送到耳机200以通过耳机200输出识别的音频。在显示弹出窗口的情况下，用户装置100可创建与识别的音频相应的弹出窗口并可将弹出窗口显示在正在播放的视频上。可选择地，用户装置100可组合上述动作，即，用户可不仅输出声音而且还可显示弹出窗口。用户即使在使用用户装置100时也可感知某人呼叫他或她。

如这里所讨论的，用户装置100可知道外部情境并可将反馈提供给用户，因此提高用户的便利性。例如，通过停止耳机200的声音输出，用户装置100可允许用户不需要取下耳机200。此外，通过识别用户环境，用户装置100可以以各种方式（诸如声音输出控制、显示控制、进程控制等）将关于情境信息的立即反馈提供给用户。

同时，在图1中示出的实施例中，用户装置100通过有线接口或无线接口连接到耳机200并将声音输出到耳机200。然而，这仅为示例性的并不被视为对本公开的限制。可选择地，即使不连接耳机200，用户装置100也可触发情境感知服务，可通过语音识别来识别用户定义的情境，并可将关于情境信息的反馈提供给用户。

现在，将参照附图描述用户装置100的构造和操作。提供下面的描述作为实施例并不被视为对本公开的限制。

图2是示出根据本公开的实施例的用户装置的构造的框图。

参照图2，用户装置100可包括无线通信单元110、输入单元120、显示单元130、音频处理单元140、存储单元150、接口单元160、语音识别单元170、控制单元180和电源单元190。用户装置100的这些元件不总是必要的。可选择地，更多或更少的元件可被包括在用户装置100中。例如，用户装置100还可包括相机模块（未示出）以支持图像捕捉功能。

无线通信单元110可具有能够执行用户装置100与无线通信系统之间或用户装置100与其它用户装置之间的无线通信的一个或多个模块。例如，无线通信单元110可具有移动通信模块111、无线局域网（WLAN）模块113、短程通信模块115、位置计算模块117和广播接收模块119中的至少一个。

移动通信模块111可将无线信号发送到移动通信网络中的基站、外部装置和服务器中的至少一个，或从移动通信网络中的基站、外部装置和服务器中的至少一个接收无线信号。无线信号可包括语音呼叫信号、视频呼叫信号和文本/多媒体消息数据。移动通信模块111可在控制单元180的控制下执行对操作服务器或内容服务器的访问，并随后下载命令表，其中，在命令表中，各种控制命令和动作针对情境感知服务而相互映射。

WLAN模块113表示用于执行无线互联网访问并与其它用户装置建立无线LAN链路的模块。WLAN模块113可嵌入在用户装置100中或附着到用户装置100。对于无线互联网访问，可使用诸如Wi-Fi、无线宽带（Wibro）、全球微波互联接入（Wimax）或高速下行链路分组接入（HSDPA）的公知技术。WLAN模块113可在控制单元180的控制下执行对操作服务器或内容服务器的访问，并随后下载命令表，其中，在命令表中，各种控制命令和动作针对情境感知服务而相互映射。此外，当利用任何其它用户装置形成无线LAN链路时，WLAN模块113可将命令表发送到其它用户装置或从其它用户装置接收命令表，其中，在命令表中，用户选择的控制命令和动作相互映射。此外，WLAN模块113可通过无线LAN将命令表发送到云服务器或从云服务器接收命令表。

短程通信模块115表示为短程通信所设计的模块。蓝牙、射频识别（RFID）、红外数据协会（IrDA）、超宽带（UWB）、ZigBee、近场通信（NFC）等可用作短程通信技术。当短程通信连接到任何其它用户装置时，短程通信模块115可将命令表发送到其它用户装置或从其它用户装置接收命令表。更具体地讲，短程通信模块115可在控制单元180的控制下连接到耳机200并随后将无线信号发送到耳机200或从耳机200接收无线信号。这样的无线信号可包括声音信号和控制命令。

位置计算模块117表示用于获得用户装置100的位置的模块，例如，全球定位系统（GPS）模块。位置计算模块117可计算关于距至少三个基站的时间和距离的信息，并随后基于这样的信息，通过三角测量来计算当前位置（如果需要，包括维度、经度和高度的三维位置）。可选择地，位置计算模块117可通过从至少三个卫星接收实时数据来计算用户装置100的实时位置。可使用用于获得用户装置100的位置的任何其它技术。

广播接收模块119可通过广播信道（例如，卫星信道、陆地信道等）从任何外部广播管理服务器接收广播信号（例如，TV广播信号、无线电广播信号、数据广播信号等）和/或与广播有关的信息（例如，关于广播信道、广播节目、广播服务提供方等的信息）。

输入单元120可接收用户的操作并创建用于控制用户装置100的操作的用户数据。输入单元120可选择性地由键盘、圆顶（dome）开关、触摸板、拨动滚轮、拨动开关等构成。输入单元120可由安装在用户装置100的外侧的按钮形成，所述按钮中的一些可被实现在触摸面板。输入单元120可在接收到用于设置控制命令或触发情境感知服务时创建输入数据。

显示单元130可显示在用户装置100中处理的显示信息。例如，当用户装置100处于呼叫模式时，显示单元130可显示与呼叫模式有关的屏幕界面（诸如用户界面（UI）或图形用户界面（GUI））。当用户装置100处于视频呼叫模式或相机模式时，显示单元130可显示接收到的和/或捕捉的图像、UI或GUI。更具体地讲，显示单元130可显示与情境感知服务相关联的各种UI和/或GUI。例如，显示单元130可显示控制命令设置屏幕、情境信息反馈屏幕等。之后将描述这样的屏幕或界面的示例。

显示单元130可包括液晶显示器（LCD）、薄膜晶体管-LCD（TFT-LCD）、发光二极管（LED）、有机LED（OLED）、有源矩阵OLED（AMOLED）、柔性显示器、弯曲显示器或三维（3D）显示器。这样的显示器的部分可被实现为透明显示器。

如果采用显示单元130和触摸面板（未示出）由分层结构形成的触摸屏，则触摸面板可用作输入单元。触摸面板可被构造为从其表面或显示单元130的表面检测压力或电容的变化并将其转换为电输入信号。在实施例中，触摸面板可检测触摸位置、区域和压力。如果存在对于触摸面板的任何触摸输入，则相应的信号可被传送到触摸控制器（未示出）。触摸控制器可处理接收到的信号并将相应数据发送到控制单元180。因此，控制单元180可识别被触摸的点。

音频处理单元140可将从控制单元180接收到的音频信号发送到扬声器141，还将从麦克风143接收的音频信号（诸如语音）发送到控制单元180。在控制单元180的控制下，音频处理单元140可将音频信号转换为可听见的声音并将其输出到扬声器141，并且还可将从麦克风接收的音频信号转换为数字信号并将其输出到控制单元180。

扬声器141可在呼叫模式、记录模式、语音识别模式、广播接收模式、相机模式、情境感知服务模式等下输出从无线通信单元110接收的音频数据、从麦克风143接收的音频数据、存储在存储单元150中的音频数据。扬声器141可输出与在用户装置100中执行的特定功能（例如，情境信息的反馈、来电呼叫的到达、图像的捕捉、媒体内容（诸如音乐或视频）的回放）相关联的声音信号。

麦克风143可在呼叫模式、记录模式、语音识别模式、相机模式、情境感知服务模式等下将接收到的声音信号处理为电语音数据。在呼叫模式下，处理的语音数据被转换为合适的形式，以通过移动通信模块111发送到基站。在情境感知服务模式下，处理的语音数据可被转换为合适的形式，以通过语音识别单元170在控制单元180中进行处理。麦克风143可具有从接收的声音信号去除噪声的各种噪声去除算法。当接收到用于触发情境感知服务或设置控制命令的用户输入时，麦克风143可创建相关输入数据并将其传送到控制单元180。

存储单元150可存储与处理和控制控制单元180的操作相关联的程序并暂时存储输入或将被输出的数据（例如，控制命令、动作、电话号码、消息、音频、视频等）。存储单元150还可存储使用特定功能的频率（例如，使用控制命令、应用、电话号码、消息、多媒体等的频率）、特定功能的优先级等。此外，存储单元150可存储具有特定形式且响应于对于触摸屏的触摸输入而输出的振动和声音数据。更具体地讲，存储单元150可存储命令表，其中，所述命令表包含从用户定义的控制命令、根据控制命令的定义（例如，用户定义）的动作（或功能）、根据控制命令的情境信息、根据应用的动作执行规则等中的映射关系。

此外，存储单元150可在控制单元180的控制下缓存在情境感知服务中通过麦克风143接收的音频，并将缓存的音频存储为记录的数据。在语音识别单元170由软件形成的情况下，存储单元150可存储这样的软件。

存储单元150可包括诸如闪存、硬盘、微类型存储器、卡类型存储器、随机访问存储器（RAM）、静态RAM（SRAM）、只读存储器（ROM）、可编程ROM（PROM）、电可擦除PROM（EEPROM）、磁RAM（MRAM）、磁盘、光盘等的至少一个存储介质。用户装置100可在互联网上与执行存储单元150的存储功能的任何种类的网页存储器交互。

接口单元160可充当连接到用户装置100的外部装置的通路。接口单元160可从任何外部装置（例如，耳机200）接收数据或将用户装置100的数据发送到这样的外部装置。此外，接口单元160可从外部装置（例如，电源装置）接收电能并可将其分配到用户装置100中的各个元件。接口单元160可包括例如，但不限于，有线/无线耳机端口、充电器端口、有线/无线数据端口、存储卡端口、音频输入/输出端口、视频输入/输出端口、用于连接具有识别模块的任何装置的端口等。

语音识别单元170可在情境感知服务中执行语音识别操作，以通过使用语音识别来执行用户装置100的各种功能并知道用户情境。语音识别单元170可包括声音记录器171、引擎管理器173和语音识别引擎175。

声音记录器171可记录从麦克风143接收的音频（例如，语音、通知等）以创建记录的数据。

引擎管理器173可将从声音记录器171接收的记录的数据传送到语音识别引擎175，并可将从语音识别引擎175接收的识别结果传送到控制单元180。当从语音识别引擎175接收到被分析为控制命令的任何识别结果时，引擎管理器173可创建相关控制命令并将其传送到控制单元180。

语音识别引擎175可分析从引擎管理器173接收的记录的数据。在实施例中，语音识别引擎175可确定记录的数据是否包含定义的控制命令。如果记录的数据包含任何定义的控制命令，则语音识别引擎175可将分析结果传送到引擎管理器173。在实施例中，用于将输入信号转换为文本或语音的语音识别引擎175可包括用于将文本转换为语音的文本-语音引擎和用于将语音转换为文本的语音-文本引擎。

在实施例中，语音识别单元170可基于操作系统（OS）由软件形成，以使用语音执行与各种服务相关联的操作。由软件形成的语音识别单元170可被存储或载入在存储单元150、控制单元180或单独的控制器（未示出）中。

控制单元180可控制用户装置100的总体操作。例如，控制单元180可执行与语音呼叫、数据通信或视频呼叫相关联的控制处理。更具体地讲，控制单元180可使用语音识别控制与情境感知服务相关联的总体操作。在实施例中，控制单元180可控制设置用户定义的控制命令的处理、通过语音识别执行与控制命令对应的情境感知的处理、执行定义（例如，用户定义）的动作的处理、提供关于情境信息的反馈的处理。

控制单元180可根据用户的输入定义用于情境感知服务的控制命令，并可将其存储在存储单元150中。如果在情境感知服务中通过麦克风143接收到与控制命令对应的任何音频，则控制单元180可执行与接收到的音频对应的特定动作。此外，控制单元180可控制与执行的动作相应的情境信息的输出。在实施例中，控制单元180可分析接收到的音频的增益并将音频的增益与参考增益进行比较。如果音频的增益大于参考增益，则控制单元180可执行针对接收到的音频的语音识别。此外，控制单元180可基于特定动作控制在接收到与控制命令对应的任何音频时正在运行的当前播放模式，并控制在视觉、听觉和触觉中的至少一个方式下的情境信息的输出。在输出情境信息之后，控制单元180可继续控制当前播放模式。

之后将参照附图更充分地描述控制单元180。

电源单元190可在控制单元180的控制下提供用户装置100的操作所需的电能。

可以在任何种类的计算机可读记录介质中使用软件、硬件或它们的组合实现这里公开的各种实施例。在硬件的情况下，可使用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理装置（DSPD）、可编程逻辑装置（(PLD）、现场可编程门阵列（FPGA）、处理器、控制器、微处理器和任何其它等效电子电路中的至少一个实现这里公开的各种实施例。在任何情况下，可仅在控制单元180中实现这里公开的各种实施例。在软件的情况下，可使用均可执行这里讨论的功能中的至少一个的单独的软件模块实现这里公开的各种实施例。

在实施例中，计算机可读记录介质可响应于用户输入而记录定义用于情境感知服务的控制命令的特定程序，可在通过麦克风接收到与控制命令对应的任何音频时执行特定动作，并可处理与执行的动作相应的情境信息的输出。

参照图3，如标号310所示，用户可连接用户装置100和耳机200。例如，期望通过耳机200接听用户装置100中正在播放的媒体内容的音频的用户可通过无线接口（例如，蓝牙）或有线接口（例如，连接器）连接用户装置100和耳机200。

一旦耳机200在任何模式（例如，空闲模式、媒体内容播放模式等）下连接到用户装置100，用户装置100可将音频输出路径改变到耳机200。如标号330所示，用户装置100可在屏幕上提供与情境感知服务相关联的弹出窗口300。可根据用户的设置，可选择地提供该弹出窗口300。如果弹出窗口300被设置为提供，则弹出窗口300可在耳机200连接到用户装置100时自动显示。如果弹出窗口300被设置为不提供，即，在自动执行类型的情况下，可在耳机200连接到用户装置100时自动且在内部执行情境感知服务。

当弹出窗口300显示在屏幕上时，用户可选择弹出窗口300中的执行按钮，使得情境感知服务可被立即执行。响应于用户的选择。用户装置100可从屏幕去除弹出窗口300并可触发情境感知服务的特定任务。例如，用户装置100可开启麦克风143以接收外部音频并执行针对接收到的音频的语音识别。

用户可选择弹出窗口300中的设置按钮，以便设置用于情境感知的控制命令。在图4中示出相关屏幕截图。在实施例中，一旦从弹出窗口300选择了设置按钮，用户装置100可提供用于设置控制命令的屏幕界面。由标号330指示的用户装置100的屏幕可被转换为图4中示出的屏幕。

参照图4，用户控制命令的屏幕界面可包括布置由用户登记的控制命令的命令区域410和布置用于修改、添加或设置控制命令的菜单项的菜单区域430。在实施例中，控制命令可作为基于语音的输入而通过麦克风被输入，控制命令可作为基于文本的输入而通过输入单元120（未示出）或显示单元130被输入。可以以词、短语、或句的形式的自然语言（例如，用户的姓名（诸如“Michael”或“William”）、用户的绰号（诸如“Mike”或“Bill”）、用户的昵称（诸如“甜心”或“亲爱的”）、其它呼叫用语（诸如“你好”或“朋友”）和任何位置用语（诸如“首尔”、“首尔站”、“市政厅”或“下一站是首尔站”））的形式输入用于控制命令的这样的语音和文本。

期望立即使用情境感知服务的用户可选择屏幕界面的命令区域410中的至少一个控制命令并随后选择菜单区域430中的确认按钮。期望修改任何现有控制命令的用户可选择屏幕界面的命令区域410中的至少一个控制命令，并随后选择菜单区域430中的修改按钮。期望另外登记新的控制命令的用户可选择屏幕界面的菜单区域430中的添加按钮，并随后基于文本或语音输入新的控制命令。

尽管可根据图3中示出的步骤提供图4中示出的屏幕界面，这仅是示例性的，并不被视为限制性的。可选择地或另外，可响应于用户的操作在任何时候调用图4中示出的屏幕界面。

如果至少一个控制命令通过屏幕界面被设置，则用户装置100可触发情境感知服务并开启麦克风143以接收外部音频并执行针对接收到的音频的语音识别。

图3示出当耳机200连接到用户装置100时，用于情境感知服务的弹出窗口300被提供或者情境感知服务被自动执行。然而，这仅是示例性的并不被视为限制性的。可选择地，可响应于用户的菜单操作来执行情境感知服务而不管耳机200是否连接。另外，可在任何媒体内容开始播放时执行情境感知服务。还可响应于用户定义的情境（例如，用户定义的特定位置（例如，家、办公室、学校等））来执行情境感知服务。

参照图5，在操作501，控制单元180可触发情境感知服务。在实施例中，可在耳机200连接到用户装置100或在检测到用户定义的特定情境时，响应于用户的菜单操作执行情境感知服务。

在操作503，控制单元180可确定是否存在设置控制命令的请求。如果存在设置控制命令的请求，则在操作505，控制单元180可响应于用户的输入来设置控制命令。例如，如图4所示，控制单元180可提供设置控制命令的屏幕界面并根据通过屏幕界面的用户输入，可添加基于文本或语音的新的控制命令，或选择预登记的控制命令中的至少一个。另外，控制单元180可将添加或选择的控制命令设置为用于情境感知服务的控制命令。

如果不存在设置控制命令的请求或当完成了设置控制命令的处理时，控制单元180可在操作507激活麦克风143。在实施例中，如果麦克风143关闭，则控制单元180可开启麦克风143，并等待麦克风143接收外部音频。因此，如果麦克风143已开启，则可跳过操作507。

当在操作509，通过麦克风143接收到音频时，控制单元180可在操作511执行针对接收到的音频的语音识别。

在操作513，控制单元180可将语音识别的音频与用户定义的控制命令进行比较，并可在操作515确定语音识别的音频与特定用户定义的控制命令对应。在操作515，控制单元180可确定语音识别的音频是否与特定控制命令一致（或包含任何控制命令）。例如，在用户定义的控制命令为“首尔站”的情况下，控制单元180可确定语音识别的音频是否为“首尔站”或为包含“首尔站”的短语（例如，“下一站是首尔站”）。在操作513，可关于从语音识别的音频转换的文本执行语音识别的音频与用户定义的控制命令的比较。

如果在操作515语音识别的音频不与任何控制命令对应，则控制单元180可返回到操作509。如果在操作515语音识别的音频与特定控制命令对应，则在操作517控制单元180可识别映射到特定控制命令的特定动作。

在实施例中，在操作519，控制单元180可执行识别的特定动作，并可在操作521输出与动作的执行相关联的情境信息。例如，假设用户定义的控制命令为“首尔站”，并且与控制命令映射的特定动作为暂停媒体内容的回放或输出识别的音频（例如，“下一站是首尔站”）。随后，控制单元180可暂停媒体内容的回放，并通过扬声器141或通过耳机200（如果连接有耳机200）输出识别的音频（例如，“下一站是首尔站”）。可选择地，如果与控制命令映射的特定动作为保持媒体内容的回放和将识别的音频显示在屏幕上，则控制单元180可在保持媒体内容的回放的同时控制显示单元130以覆盖形式将识别的音频（例如，“下一站是首尔站”）显示在媒体内容的屏幕上。

图6是示出根据本公开的另一实施例的使用语音识别提供情境感知服务的方法的流程图。

参照图6，当在操作601检测到耳机200的连接时，控制单元180可在操作603触发情境感知服务。此时，控制单元180可检查麦克风143的状态，并且如果麦克风143关闭，则可开启麦克风143来接收外部音频。

在操作605，控制单元180可确定是否存在设置控制命令的用户请求。例如，控制单元180可提供如图3所示的弹出窗口300，并可确定是否通过弹出窗口300接收到用于设置控制命令的任何用户输入。

如果存在设置控制命令的请求，则在操作607控制单元180可响应于用户的输入而设置控制命令，并随后进行到操作609。如果不存在设置控制命令的请求，则控制单元180可直接进行到操作609。

在操作609，控制单元180可响应于用户的请求来执行回放模式。例如，控制单元180可播放由用户请求的媒体内容（例如，音乐文件、视频文件等）或接收和播放由用户选择的频道的广播节目。可选择地，控制单元180可执行用户请求的游戏功能，或可执行图像捕捉功能。在实施例中，在回放模式下，用户装置100可执行任何类型的可执行功能。

当在操作611通过麦克风143接收到音频时，控制单元180可在操作613分析接收到的音频的增益。在操作615，控制单元180可确定分析的音频增益是否满足给定条件（例如，参考增益）。例如，控制单元180可分析接收到的音频的增益并随后确定音频增益是否大于参考增益。在实施例中，参考增益可以是由用户定义的特定值（即，特定分贝值）或通过麦克风143接收到的音频输入的平均值（即，平均分贝值）。在后面的情况下，控制单元180可获得通过麦克风143接收到的音频输入的增益并随后计算平均值。需要该操作，以便不执行针对不期望的噪声的不必要的语音识别处理。

如果在操作615，分析的音频增益不满足给定条件（例如，当分析的音频增益不大于参考增益时），则控制单元180可返回到操作611。如果在操作615，分析的音频增益满足给定条件（例如，当分析的音频增益大于参考增益时），则控制单元180可在操作617执行语音识别。

在操作619，控制单元180可将语音识别的音频与用户识别的控制命令进行比较，并可在操作621确定语音识别的音频是否与特定用户定义的控制命令对应。此时，控制单元180可确定语音识别的音频是否与特定控制命令一致或包括如上所述的任何控制命令。

如果在操作621语音识别的音频不与任何控制命令对应，则控制单元180可返回到操作611。

如果在操作621语音识别的音频与特定控制命令对应，则控制单元180可在操作623控制回放模式。例如，控制单元180可暂停回放模式，调整耳机200的输出音量（例如，静音输出），或在保持回放模式的同时执行音频的静音输出。控制单元180可在操作625输出与控制命令映射的情境信息。例如，控制单元180可通过经由弹出显示、音频输出等输出情境信息来向用户提供反馈。

在输出情境信息之后，在操作627控制单元180可重新开始回放模式。例如，控制单元180可释放暂停的回放模式并随后重新开始播放，可将输出音量重新调整为先前的音量，或可恢复当前播放的音频的输出音量。

参照图7，在操作710，用户可预先设置用于情境感知服务的控制命令或可在期望的时间设置触发情境感知服务。例如，用户装置100可将“Michael”设置为用户定义的控制命令。在操作720，用户可将耳机200连接到用户装置100并还播放用户装置100中的选择的音乐文件。在操作730，用户装置100可通过耳机200输出选择的音乐文件的音频并可执行语音识别解决方案（包括语音记录）。

如果通过麦克风143接收到用于呼叫用户的外部音频（例如，语音指示，“Michaelblah-blah-blah”），则用户装置100可在操作740通过语音识别将接收到的音频识别为控制命令，并可在操作750暂停音乐文件的回放。此外，在操作760，用户装置100可通过耳机200输出识别的音频（或控制命令）以将反馈提供给用户。在实施例中，通过经由耳机200输出识别的音频，用户装置100可允许用户知道音乐由于预定的情境而停止。

此外，如果识别到音频的方向，则用户装置100可将其反映在将通过耳机200被输出的识别的音频（或控制命令）中。例如，如果某人从用户的右侧呼叫用户并陈述例如，“Michael blah-blah-blah”，则用户装置100可通过耳机200的右扬声器输出识别的音频（或控制命令），或可增加右扬声器的相对音量，以便提高用户的感知。

参照图8，在操作810，观看或接听视频讲座的用户可在市政厅站乘坐地铁。随后，在操作820，用户可将期望的目的地（例如，首尔站）设置为用于情境感知服务的控制命令，并可触发情境感知服务。可通过语音或文本输入来设置控制命令。在操作820，用户可仍然观看或接听视频讲座。

在操作830，用户装置100可在控制视频讲座的回放的同时执行情境感知服务。在这种状态下，可接收到与预定控制命令（例如，首尔站）相应的特定通知（“下一站是首尔站”）。随后，在操作840，用户装置100可从通知识别控制命令（例如，首尔站）。此外，在操作850，用户装置100可记录识别的音频并可将识别的音频输出在正在播放的视频上。例如，可以将作为情境信息显示的通知（例如，“下一站是首尔站”）以覆盖形式显示在当前正在播放的视频的屏幕上。

可通过计算机程序指令实现本公开的上述实施例。可将这些计算机程序指令提供到通用计算机、专用计算机的处理器、或用于产生机器的其它可编程数据处理设备，使得经由计算机的处理器或其它可编程数据处理设备执行的指令创建用于实现流程图或框图中指出的功能的装置。这些计算机程序指令还可被存储在可命令计算机或其它可编程数据处理设备以特定方式工作的计算机可用存储器或计算机可读存储器中，使得存储在计算机可用存储器或计算机可读存储器中的指令产生包括实现流程图或框图中指出的功能的指令装置的制造品。计算机程序指令还可被载入到计算机或其它可编程数据处理设备上以产生计算机实现的处理，使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图或框图中指出的功能的步骤。

流程图说明中的每个框可表示一个模块、段、代码段，其包括用于实现特定逻辑功能的一个或多个可执行指令。还应注意，在一些可替代实现方式中，在框中指出的功能可以不按顺序发生。例如，事实上，根据涉及的功能，可基本上同时执行顺序示出的两个框，或者有时可按相反顺序执行框。

如这里所使用的，术语“单元”表示诸如现场可编程门阵列（FPGA）或专用集成电路（ASIC）的软件或硬件构件，“单元”执行一些任务。然而，“单元”不总限于软件或硬件。“单元”可被构造为被存储在可编址存储介质中并充当至少一个处理器。因此，例如，“单元”包括软件构件、面向对象的软件构件、类构件、任务构件、处理、函数、属性、过程、子例程、程序代码段、驱动程序、固件、微代码、电路、数据、数据库、数据结构、表格、数组和变量。由构件和“单元”提供的功能可被结合在更少数量的构件和“单元”中，或者拆分在其它构件和“单元”之中。此外，这样的构件和“单元”可被实现，以充当装置或安全多媒体卡中的至少一个CPU。

尽管已参照本公开的各种实施例具体示出和描述了本公开，但是本领域技术人员将理解，在不脱离由权利要求及其等同物限定的本公开的精神和范围的情况下，可在形式和细节上做出各种改变。

Claims

1.一种用于控制用户装置的方法，所述方法包括：

在所述用户装置中存储一个或多个音频命令和一个或多个视觉指示器，其中，所述一个或多个音频命令和所述一个或多个视觉指示器由用户定义；

向所述一个或多个音频命令中的每个音频命令分配特定视觉指示器；

在所述用户装置播放媒体内容时通过所述用户装置的麦克风接收外部音频信号，其中，所述外部音频信号没有来自所述用户装置本身；

处理接收到的外部音频信号；

确定经处理的外部音频信号是否与所述一个或多个音频命令中的一个音频命令匹配；

响应于经处理的外部音频信号与所述一个或多个音频命令中的一个音频命令之间的匹配，从所述一个或多个视觉指示器识别分配给匹配的音频命令的视觉指示器；

执行特定动作，

其中，执行特定动作的步骤包括：

暂停媒体内容的播放；以及

将识别的视觉指示器显示在所述用户装置的屏幕上。

2.如权利要求1所述的方法，其中，识别的视觉指示器包括与匹配的音频命令对应的文本。

3.如权利要求2所述的方法，其中，处理的步骤包括：

分析接收到的外部音频信号的增益；

将接收到的外部音频信号的增益与参考增益进行比较；

当接收到的外部音频信号的增益大于参考增益时，处理接收到的外部音频信号。

4.如权利要求3所述的方法，其中，参考增益包括由用户定义的特定值和通过麦克风接收到的外部音频信号输入的平均值。

5.如权利要求2所述的方法，其中，确定的步骤包括：确定接收到的外部音频信号是否包括音频命令。

6.如权利要求2所述的方法，还包括：

输出与特定动作的执行相应的情境信息。

7.如权利要求6所述的方法，其中，输出情境信息的步骤包括重新开始暂停的媒体内容。

8.如权利要求1所述的方法，其中，基于自然语言以语音或文本输入所述一个或多个音频命令。

9.如权利要求1所述的方法，其中，在耳机连接到用户装置时执行所述方法。

10.如权利要求6所述的方法，其中，情境信息的输出被执行，以通过视觉、听觉或触觉被感知。

11.一种用户装置，包括：

显示器；

麦克风，被构造为接收外部音频；

存储器；

控制处理器，被配置为：

在存储器中存储一个或多个音频命令和一个或多个视觉指示器，其中，所述一个或多个音频命令和所述一个或多个视觉指示器由用户定义；

处理接收到的外部音频信号；

执行特定动作，

其中，特定动作的执行包括：

暂停媒体内容的播放；以及

将识别的视觉指示器显示在所述用户装置的屏幕上。

12.如权利要求11所述的用户装置，其中，识别的视觉指示器包括与匹配的音频命令对应的文本。

13.如权利要求12所述的用户装置，其中，控制处理器还被构造为控制显示器显示与特定动作的执行相应的情境信息。

14.如权利要求11所述的用户装置，其中，控制处理器还被构造为：

分析接收到的外部音频信号的增益；

将接收到的外部音频信号的增益与参考增益进行比较；以及，

15.如权利要求11所述的用户装置，其中，控制处理器还被构造为：

输出通过视觉、听觉和触觉中的至少一个感知的情境信息；以及，

在输出情境信息之后重新开始暂停的媒体内容。