CN110998717B - 自动确定通过自动化助理接口接收的口头话语的语音识别的语言 - Google Patents
自动确定通过自动化助理接口接收的口头话语的语音识别的语言 Download PDFInfo
- Publication number
- CN110998717B CN110998717B CN201880039581.6A CN201880039581A CN110998717B CN 110998717 B CN110998717 B CN 110998717B CN 201880039581 A CN201880039581 A CN 201880039581A CN 110998717 B CN110998717 B CN 110998717B
- Authority
- CN
- China
- Prior art keywords
- language
- user
- speech recognition
- automated assistant
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 abstract description 21
- 238000000034 method Methods 0.000 description 76
- 230000000875 corresponding effect Effects 0.000 description 58
- 238000012545 processing Methods 0.000 description 48
- 230000004044 response Effects 0.000 description 30
- 230000008569 process Effects 0.000 description 16
- 238000005259 measurement Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000116 mitigating effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
确定用于通过用于与自动化助理交互的自动化助理接口接收的口头话语的语音识别的语言。实施方式可以实现与自动化助理的多语言交互,而不需要用户明确指明每个交互所使用的语言。实施方式确定对应于捕获口头话语的音频数据的用户简档,并且在确定用于口头话语的语音识别的语言时利用被指派给用户简档的语言和可选地对应概率。一些实施方式仅选择被指派给用户简档的语言的子集以用于用户的给定口头话语的语音识别。一些实施方式以被指派给用户简档的多个语言中的每一个执行语音识别,并且利用标准来适当地选择语音识别中的仅一个以用于生成和提供响应于口头话语的内容。
Description
背景技术
人类可以与交互式软件应用进行人机对话,该交互式软件应用在此称为“自动化助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“会话代理”等)。例如,人类(当他们与自动化助理交互时,可以被称为“用户”)可以使用口头自然语言输入(即,话语)向自动化助理提供命令和/或请求,在某些情况下该口头自然语言输入可以被转换成文本然后被处理,和/或通过提供文本(例如,键入的)自然语言输入向自动化助理提供命令和/或请求。自动化助理通过提供响应用户接口输出来响应于请求,该用户接口输出可以包括可听和/或视觉用户接口输出。
如上所述,自动化助理可以将对应于用户口头话语的音频数据转换成对应的文本(或其他语义表示)。例如,音频数据可以基于通过客户端设备的一个或多个麦克风的对用户的口头话语的检测来生成,该客户端设备包括用于使用户能够与自动化助理交互的助理接口。自动化助理可以包括语音识别引擎,其试图识别音频数据中捕获的口头话语的各种特征,诸如口头话语产生的声音(例如音素)、产生的声音的顺序、语音节奏、语调等。此外,语音识别引擎可以标识由这些特性表示的文本词或短语。然后,在确定口头话语的响应内容时,文本可以由自动化助理(例如,使用自然语言理解(NLU)引擎和/或对话状态引擎)进一步处理。语音识别引擎可以由客户端设备和/或远离客户端设备但与客户端设备进行网络通信的一个或多个自动化助理组件来实现。
然而,许多语音识别引擎被配置为识别仅单个语言的语音。对于多语言用户和/或家庭来说,这种单个语言语音识别引擎可能不令人满意,并且当接收到不是语音识别引擎支持的单个语言的附加语言的口头话语时,这种单个语言语音识别引擎可使自动化助理故障和/或提供错误的输出。这可以渲染不可使用的自动化助理和/或导致计算和/或网络资源的过度使用。当自动化助理故障或提供错误输出时,计算和/或网络资源的过度使用可能是用户需要提供进一步的所支持的单个语言的口头话语的结果。这种进一步的口头话语必须另外由对应的客户端设备和/或远程自动化助理组件处理,从而导致各种资源的附加使用。
其他语音识别引擎可以被配置为识别多个语言的语音,但是需要用户明确指明在给定时间应该在语音识别中使用多个语言中的哪一个。例如,其他语音识别引擎中的一些可能需要用户手动指明要被用于在特定客户端设备接收的所有口头话语的语音识别中的默认语言。要将默认语言更改为另一个语言,可以要求用户与图形和/或可听接口交互,以明确更改默认语言。这种交互会在渲染接口、处理通过接口提供的用户输入等时导致过度使用计算和/或网络资源。此外,在提供不是当前默认语言的口头话语之前,用户可能经常忘记改变默认语言。如上所述,这可能导致渲染不可使用的自动化助理和/或导致计算和/或网络资源的过度使用。
发明内容
本文描述的实施方式涉及用于自动确定通过自动化助理接口接收的口头话语的语音识别的语言的系统、方法和装置。在一些实施方式中,使用给定语言的口头话语的语音识别可以包括处理捕获口头话语的音频数据,使用给定语言的一个或多个语音识别模型以便生成对应于口头话语并且使用给定语言的文本。如本文所述,多个语音识别模型可用于语音识别,并且语音识别模型中的每个可被配置以用于多个语言中的对应语言。例如,第一语音识别模型可以被配置为基于处理包括英语口头话语的音频数据来生成英语文本、第二语音识别模型可以被配置为基于处理包括法语口头话语的音频数据来生成法语文本、第三语音识别模型可以被配置为基于处理包括西班牙语口头话语的音频数据来生成西班牙语文本等。
本文描述的一些实施方式可以利用各种技术来仅选择一个语言子集,以用于给定用户的给定口头话语的语音识别。例如,给定用户可以具有用户简档,该用户简档具有被指派给用户简档的多个候选语言。多个候选语言可以由用户手动指派给用户简档和/或基于用户跨一个或多个平台上对候选语言的过去使用被自动指派。如下文更详细描述的,仅选择该语言子集可以基于例如被指派给用户简档的多个候选语言的概率度量,该概率度量可以基于用户简档的多个候选语言的过去使用,并且每个该概率度量可以对应于一个或多个场境参数(例如,给定场境参数,每个基于用户简档的对应语言的过去使用)。
作为一个特定示例,被指派给用户简档的多个语言中的单个特定语言可以针对一个或多个当前场境参数(例如,通过其检测给定口头话语的客户端设备、一天中的时间和/或一周中的一天)具有被指派的概率度量,其中概率度量指示给定用户说出该单个特定语言的非常高的可能性。基于被指派的概率度量,可以选择单个特定语言,并且仅使用该单个语言的语音识别模型来执行语音识别。执行语音识别可以产生单个语言的对应文本,然后在生成响应于给定口头话语的内容时,该文本可以由自动化助理的附加组件进一步处理。然后,响应的内容可以被提供用于在客户端设备处渲染以呈现给用户。响应的内容可以可选地使用相同的单个语言,或者被提供以使以相同的单个语言渲染。
作为另一个特定示例,被指派给用户简档的三个或更多个候选语言中的两个特定语言可以针对一个或多个当前场境参数具有对应的被指派的概率度量,其中每个概率度量至少指示给定用户说出两个特定语言中的对应一个语言的阈值可能性。基于被指派的概率度量,两个特定语言可以被选择,并且只使用这两个特定语言的语音识别模型来执行给定口头话语的语音识别。基于针对一个或多个当前场境参数,其他候选语言的对应的被指派的度量不满足阈值,该其他候选语言可能不被选择用于语音识别。
使用该两个特定语言中的第一语言的语音识别模型来执行语音识别可以产生第一语言的相应第一文本以及可选地指示第一文本表示给定口头话语的可能性的第一测量。使用该两个特定语言中的第二语言的语音识别模型执行语音识别可以产生第二语言的相应的第二文本以及且可选地指示第二文本表示给定口头话语的可能性的第二测量。然后,可以选择第一文本或第二文本中的一个作为适当的文本,用于生成和提供响应于给定口头话语的内容。
在一些实施方式中,基于第一和第二测量选择第一文本或第二文本中的一个,第一和第二测量指示它们表示给定口头话语的相应可能性。例如,如果第一测量指示第一文本表示给定口头话语的80%的可能性,并且第二测量指示第二文本表示给定口头话语的70%的可能性,则鉴于第一测量指示比第二测量更大的可能性,可以选择第一文本来代替第二文本。在那些实施方式中的一些中,可以进一步考虑两个特定语言的概率度量。例如,再次假设第一测量指示80%的可能性,第二测量指示70%的可能性,并且进一步假设第一语言的概率度量是30%(针对一个或多个场境参数),第二语言的概率度量是65%(针对一个或多个场境参数)。在这样的示例中,可以基于指示第一和第二文本表示给定口头话语的可能性的测量以及第一和第二语言的概率度量两者来选择第二文本代替第一文本。例如,第一文本的分数可以基于70%和65%(例如,基于0.7*0.65的0.455的分数),第二文本的分数可以基于80%和30%(例如,基于0.8*0.3的0.24的分数),并且第一文本基于具有更高的分数而被选择。
这些和其他仅选择用户的候选语言子集以用于用户的口头话语的语音识别的实施方式可以节省各种设备资源(例如,执行语音识别的客户端设备和/或远程自动化助理组件),因为只有对应于语言子集的语音识别模型被用于执行语音识别。此外,利用语言的概率度量和/或生成的文本的测量的这些和其他实施方式可以增加自动化助理基于适当文本生成响应内容的可能性。这样可以得到改进的自动化助理,并且还可以节省各种资源,因为它减轻了自动化助理使用不是口头话语中正在说的语言的语言基于文本识别提供错误的响应内容的风险。错误响应内容风险的这样的减轻防止在试图改正错误响应内容时对进一步的用户接口输入(以及该输入的处理)的进一步资源密集型检测。
本文描述的一些实施方式可以另外地或替代地利用各种技术以执行指派给给定用户的用户简档的多个语言中的每一个的给定用户的给定口头话语的语音识别。在那些实施方式中,多个语言的概率度量(可选地取决于当前场境参数)和/或语音识别中的每一个的测量仍然可以被用来适当地选择语音识别中的仅一个以生成和提供响应于给定口头话语的内容。作为一个特定示例,假设给定用户在给定用户的用户简档中仅指派了第一语言和第二语言。进一步假设第一语言具有60%的概率度量,第二语言具有40%的概率度量。可以使用第一语言的第一语音识别模型来执行给定口头话语的语音识别,以生成第一语言的第一文本,以及指示第一文本表示给定口头话语的70%可能性的测量。也可以使用第二语言的第二语音识别模型来执行给定口头话语的语音识别,以生成第二语言的第二文本,以及指示第二文本表示给定口头话语的70%可能性的测量。然后,可以选择第一文本或第二文本之一作为适当的文本,用于生成和提供响应于给定口头话语的内容。例如,基于第一语言概率度量(60%)高于第二语言概率度量(40%),并且基于第一和第二文本测量相同(70%),可以选择第一文本代替第二文本。
这些和其他利用语言概率度量和/或生成文本测量的实施方式可以增加自动化助理基于适当文本生成响应内容的可能性。这样可以得到改进的自动化助理,并且还可以节省各种资源,因为它减轻了自动化助理使用不是口头话语中正在说的语言的语言基于文本识别提供错误的响应内容的风险。错误响应内容风险的这样的减轻防止在试图改正错误响应内容时对进一步的用户接口输入(以及该输入的处理)的进一步资源密集型检测。
如上所述,可以确定提供口头话语的用户的用户简档,并且使用该用户简档来标识指派给该用户简档的语言和/或该语言的概率度量,以用于本文描述的各种实施方式。在一些实施方式中,基于确定捕获口头话语的音频数据的至少一部分具有与指派给用户简档的特征相对应的一个或多个特征(例如,语调、音高、音调、口音、语调和/或任何其他特征),来确定用户简档。例如,可以使用一个或多个声学模型来处理音频数据,以确定音频数据的特征,并且将这些特征与候选用户简档(例如,与通过其接收音频数据的客户端设备相关联的候选用户简档)的特征相比较,并且基于指示充分匹配的比较,将候选用户简档之一确定为音频数据的用户简档。
在这些实施方式中的一些实施方式中,被确定为具有与映射到用户简档的特征相对应的特征的音频数据的部分是对应于被配置为调用自动化助理的调用短语的部分。自动化助理的调用短语包含一个或多个热词/触发词,并且可以是例如“Hey Assitant(嘿助理)”、“OK Assitant(好的助理)”和/或“Assitant(助理)”。通常,包括助理接口的客户端设备包括一个或多个本地存储的声学模型,客户端设备利用这些声学模型来监测口头调用短语的出现。这种客户端设备可以利用本地存储的模型本地处理接收到的音频数据,并且丢弃不包括口头调用短语的任何音频数据。然而,当接收到的音频数据的本地处理指示口头调用短语的出现时,客户端设备将使该音频数据和/或随后的音频数据由自动化助理进一步处理。
例如,当本地处理指示调用短语的出现时,可以发生进一步的处理来确定用户简档,和/或可以发生进一步的处理来根据本文描述的实施方式来执行语音识别。例如,在一些实施方式中,当利用本地存储的声学模型对音频数据的一部分的本地处理指示该部分中出现口头调用短语时,来自本地存储的声学模型的输出可以指示音频数据的该部分的特征,并且可以将这些特征与候选用户简档的特征进行比较,以确定对应于口头调用短语(并且因此,对应于口头调用短语之后的音频数据的该部分)的用户简档。此外,例如,当利用本地存储的声学模型的本地处理指示在音频数据的一部分中出现口头调用短语时,附加声学模型(本地或远程)可以可选地用于处理音频数据的至少一部分,确定音频数据的至少一部分的特征,以及确定对应于这些特征的用户简档。在一些实施方式中,可以利用附加的或替代的技术来确定提供口头话语的用户的用户简档,诸如使用来自客户端设备的相机的输出来确定提供在客户端设备处检测到的口头话语的用户的用户简档的技术。
如上所述,可以为设备或应用的特定用户创建用户简档,以便尤其表征用户的语言偏好。可以向用户提供对其用户简档的控制,并且用户可以控制是否为用户创建任何用户简档。用户的用户简档可以识别用户在与设备或应用互动时可以使用的多个不同语言。在一些实施方式中,用户可以手动创建或修改用户简档,以便用户可以手动指明用户可以使用其与自动化助理互动的偏好语言。例如,用户可以提供明确的自然语言输入,诸如“Myname is Chris and I speak English(我的名字是克里斯,我说英语)”,以便使自动化助理将用户简档中的英语语言设置为用户在与自动化助理通信时最可能说出的语言。作为另一个示例,用户可以提供诸如“I speak English and Spanish(我说英语和西班牙语)”的明确自然语言输入,以便使自动化助理在他/她的用户简档中将英语和西班牙语都设置为用户的候选语言。另外地或替代地,被指派给用户的用户简档的一个或多个候选语言可以基于与用户相关联并可由自动化助理访问的信息,诸如电子邮件、联系人姓名、包括文本的图像、位置数据等。例如,用户的用户简档可以包括基于用户使用候选语言与自动化助理(和/或其他平台)的过去交互的候选语言。此外,用户的用户简档可以可选地具有被指派给候选语言中的每一个候选语言的一个或多个相应概率。对于用户的用户简档,语言的一个或多个概率可以基于用户与自动化助理的过去交互和/或与其他平台(例如,电子邮件平台、消息传递平台和/或搜索平台)的过去交互的对该语言的使用。
在一些实施方式中,由用户简档标识的每个语言可以与概率相关联,该概率可以取决于用户在其中与自动化助理交互的场境。例如,当用户提供用于初始化自动化助理以执行特定动作的调用短语时,用户简档可以标识用户将使用特定语言的概率。替代地或另外地,与特定语言相关联的概率可以是动态的,并且在用户和自动化助理之间的对话会话期间改变。语言中的每一个可以对应于一个或多个语音识别模型,用于将体现特定语言的音频输入转换成表征该输入的文本和/或其他语义表示。当选择将用于解释来自用户的输入的语言或用户简档时,自动化助理可以选择适合于特定交互的语音识别模型。
用于确定用于特定交互的语言模型的过程可以包括操作,诸如:使用一个或多个语言模型处理音频数据流,以监测用于调用自动化助理的调用短语的出现。操作还可以包括基于处理检测在音频数据的一部分中的调用短语的出现。基于该处理或使用一个或多个附加语言模型的任何附加处理,可以确定关于音频数据是否包括对应于存储的用户简档的调用短语。当音频数据包括对应于存储的用户简档的调用短语时,可以标识被指派给用户简档的语言。基于所标识的语言和/或音频数据的部分,可以选择语言模型。使用所选择的语言模型,可以处理音频数据的附加部分,并且可以基于音频数据的附加部分的处理将响应内容提供回用户。
在一些实施方式中,当用户简档与多个不同的语言相关联,并且每个语言与交互期间将使用相应语言的概率相关联时,每个语言的概率可以是动态的。例如,在开始用户和自动化助理之间的对话会话之前,用户简档可以初始地指示第一语言具有为A(例如,70%)的概率,第二语言具有为B(例如,30%)的概率。在交互期间,自动化助理可以检测到第一查询使用的是第二语言。作为响应,自动化助理可以使得与用户简档相关联地存储的一个或多个概率被修改。例如,在对话的至少剩余部分期间,用户简档可以指示第一语言的概率降低(例如,5%),第二语言的概率可以增加(例如,95%)。
多个用户简档可由自动化助理管理,该助理可通过由多个不同用户交互的计算设备访问。这样,由自动化助理选择的语言模型可以基于根据与自动化助理交互的用户而选择的用户简档。自动化助理可以标识用户简档和在用户简档中被指示为至少在即时场境中具有被用户使用的阈值可能性的一个或多个语言。在一些实施方式中,用户可以与和不同设备相关联的多个用户简档相关联,或者与标识特定设备偏好的语言的单个用户简档相关联。例如,当与车载自动化助理通信时,用户可能偏好在他们的车上说特定的语言,但是偏好在也存在说不同语言的其他人的他们的家里说不同的语言。因此,用户简档可以标识多个设备和语言以及所标识的多个设备中的每个设备的对应概率。
在一些实施方式中,为特定用户选择的语言可以基于自动化助理可用的应用数据。这种应用数据可以对应于加载到用户通过其与自动化助理交互的设备上的应用。例如,包括自动化助理接口的计算设备也可以托管包括以特定语言写的电子邮件的电子邮件应用。自动化助理可以确认特定的语言(例如法语),并确认当操作计算设备、应用和/或可以与自动化助理相关联的任何其他设备或模块时,用户偏好使用该特定语言与自动化助理交互。例如,自动化助理可以专门提示用户一个问题,诸如“I noticed used you understandFrench,would you like to interact using French?(我注意到您理解法语,您想使用法语进行交互吗?)”取决于响应,自动化助理可以修改用户简档,以指示用户对一个设备或应用使用特定语言进行交互的偏好。
在本文描述的一些另外或替代的实施方式中,语音识别模型(或其他语言模型)可以在用户调用自动化助理之前被抢先加载到客户端设备。例如,语言模型可以基于位置数据、消息数据(例如,包括旅行计划的电子邮件)、联系人数据、日历数据和/或可以用于推断用户在即将到来的事件或场境期间偏好特定语言的任何其他数据而被抢先加载到客户端设备。此外,在一些另外或替代的实施方式中,可以基于音频数据中捕获的背景噪声选择语言模型,该背景噪声可用于推断用户在特定场境中可能偏好说出的语言。例如,用户可以明确请求自动化助理翻译内容的特定部分(例如,用户将大声读出的文本、用户正在收听的音频等)。对应于该请求的音频数据可以包括背景噪声,因此自动化助理可以处理音频数据以确定用户正在请求翻译,并且还确定用户希望最终翻译成的语言。
在一些实施方式中,由用户简档标识的多个语言可以根据用户对其他语言的兴趣而改变。例如,用户简档可以标识用户的默认语言,但是当用户进一步与自动化助理交互时,自动化助理可以标识使用其与用户互动的附加的语言。结果,自动化助理可以将附加的语言包推送到用户的设备,以便当用户与自动化助理通信时,在设备上操作的语言模型可以正确地转换语音到文本。在一些实施方式中,预期用户在未来的特定时间与自动化助理交互,可以将语言包推送到设备。例如,用户可以创建对应于未来时间的日历事件,并且日历事件的标题可以用与用户简档的默认语言不同的语言编写。当日历事件接近(例如,日历事件的前一天)时,自动化助理可以使得对应于不同语言的语言包被推送到用户创建日历事件的设备。替代地,当日历事件标识一个位置,并且自动化助理知道用户通常在该位置使用的特定计算设备时,自动化助理可以使得语言包被推送到该特定计算设备。这样,可以通过当用户在更快或更易访问的网络上时而不是当用户在旅行或不在可预测地可靠的网络内时推送语言包来优化网络带宽。
以上描述是作为本公开的一些实施方式的概述而提供的。这些实施方式的进一步描述以及其他实施方式将在下面更详细地描述。
在一些实施方式中,阐述了一种由一个或多个处理器实现的方法,包括操作,诸如:使用一个或多个声学模型处理音频数据以监测被配置为调用自动化助理的调用短语的出现。音频数据可以基于在包括用于与自动化助理交互的自动化助理接口的客户端设备处对用户的口头输入的检测。该方法还可以包括基于使用一个或多个声学模型处理音频数据,检测在音频数据的一部分中的调用短语的出现,以及基于使用一个或多个声学模型处理音频数据或使用一个或多个其他声学模型处理音频数据,确定包括调用短语的音频数据的该部分对应于自动化助理可访问的用户简档。该方法还可以包括标识被指派给用户简档的语言,并选择语言的语音识别模型。语言的语音识别模型可以基于确定音频数据的该部分对应于用户简档,并且基于标识被指派给用户简档的语言。该方法还可以包括使用所选择的语音识别模型来处理在音频数据的该部分之后的音频数据的后续部分,并且使得自动化助理提供响应内容,该响应内容基于使用所选择的语音识别模型处理后续部分而确定。
在一些实施方式中,该方法可以进一步包括标识被指派给用户简档的附加语言。此外,选择语音识别模型可以包括选择语音识别模型代替附加语言的附加语音识别模型。
在一些实施方式中,选择语音识别模型代替附加语言的附加语音识别模型可以包括标识与音频数据相关联的一个或多个场境参数,并且基于在用户简档中与该语言比与附加语言更强地相关联的一个或多个场境参数来选择语音识别模型。一个或多个场境参数可以包括客户端设备的标识符。一个或多个场境参数可以包括以下中的一个或多个:一天中的时间、一周中的一天以及客户端设备的位置。
在一些实施方式中,选择语言的语音识别模型可以包括基于被指派给在用户简档中的语言的至少一个概率来选择语音识别模型,其中该至少一个概率基于与用户简档相关联的与自动化助理的先前交互。
在一些实施方式中,至少一个概率与一个或多个场境参数相关联,并且该方法可以进一步包括标识一个或多个场境参数与音频数据相关联,基于至少一个概率与被标识为与音频数据相关联的一个或多个场境参数相关联,在选择时使用至少一个概率。
在一些实施方式中,使用所选择的语音识别模型来处理在音频数据的该部分之后的音频数据的后续部分可以包括在用该语言生成对应于后续部分的文本时使用所选择的语音识别模型。此外,使自动化助理提供相应内容,该相应内容基于使用所选择的语音识别模型处理后续部分而确定,可以包括:基于文本生成响应内容,并使自动化助理接口渲染基于响应内容的输出。
在一些实施方式中,自动化助理可以被配置为访问多个不同的用户简档,该用户简档:在客户端设备处可用,并且与客户端设备的多个不同用户相关联。在一些实施方式中,多个不同的用户简档可以各自标识一个或多个对应的语言以及对应语言中的每一个的对应的语言概率。此外,对应的语言概率可以各自基于多个不同用户中对应的一个用户与自动化助理之间的先前交互。
在一些实施方式中,使用所选择的语音识别模型来处理音频数据的后续部分可以包括使用所选择的语音识别模型来生成该语言的第一文本。此外,该方法可以包括标识被指派给用户简档的附加语言,并选择附加语言的附加语音识别模型。选择附加语言的附加语音识别模型可以基于确定音频数据的部分对应于用户简档,并且可以基于标识被指派给用户简档的附加语言。此外,该方法可以包括使用所选择的附加语音识别模型来处理在音频数据的该部分之后的音频数据的后续部分。使用所选择的附加语音识别模型来处理音频数据的后续部分可以包括使用所选择的语音识别模型来生成附加语言的第二文本,并且选择该语言的第一文本,代替附加语言的第二文本。此外,使自动化助理提供基于使用所选择的语音识别模型处理后续部分的而确定的响应内容可以包括:基于选择第一语言的第一文本,使自动化助理提供基于该语言的第一文本来确定的响应内容。
在又一实施方式中,由一个或多个处理器实施的方法被阐述为包括诸如处理音频数据的操作。音频数据可以基于在客户端设备处检测用户的口头输入,并且客户端设备可以包括用于与自动化助理交互的自动化助理接口。该方法还可以包括基于音频数据的处理来确定音频数据的至少一部分匹配自动化助理可访问的用户简档,并且标识被指派给用户简档并且对应于特定语言的特定语音识别模型的至少一个概率性的度量。该方法还可以包括基于至少一个概率性的度量满足阈值:选择特定语言的特定语音识别模型,用于处理音频数据,以及使用特定语言的特定语音识别模型来处理音频数据以生成对应于口头输入的特定语言的文本。该方法还可以包括使自动化助理提供基于生成的文本确定的响应内容。
在一些实施方式中,用户简档还包括对应于不同语言的至少一个不同语音识别模型的附加概率性的度量。此外,该方法可以包括基于附加概率性的度量不满足阈值,避免使用不同的语音识别模型处理音频数据。
在一些实施方式中,该方法可以包括标识与音频数据相关联的当前场境数据。标识至少一个概率性的度量可以基于当前场境数据和至少一个概率性的度量之间的对应。在一些实施方式中,当接收到口头输入时,当前场境数据可以标识客户端设备的位置或正通过客户端设备访问的应用。在一些实施方式中,当前场境数据标识客户端设备。在一些实施方式中,概率性的度量可以基于用户和自动化助理之间过去的交互。
在又一实施方式中,由一个或多个处理器实现的方法被阐述为包括包含接收音频数据的操作。音频数据可以基于在客户端设备处检测用户的口头输入,客户端设备包括用于与自动化助理交互的自动化助理接口。该方法还可以确定音频数据对应于自动化助理可访问的用户简档,并且标识被指派给用户简档的第一语言和被指派给用户简档中的第一语言的第一概率度量。该方法还可以包括选择第一语言的第一语音识别模型。选择第一语言的第一语音识别模型可以基于标识被指派给用户简档的第一语言。该方法还可以包括使用所选择的第一语音识别模型来生成第一语言的第一文本,以及指示第一文本是口头输入的适当表示的可能性的第一测量。该方法还可以包括标识被指派给用户简档的第二语言,以及被指派给用户简档中的第二语言的第二概率度量。另外,该方法可以包括选择第二语言的第二语音识别模型。选择第二语言的第二语音识别模型可以基于标识被指派给用户简档的第二语言。该方法还可以包括使用所选择的第二语音识别模型来生成第二语言的第二文本,以及指示第二文本是口头输入的适当表示的可能性的第二测量。该方法还可以包括选择第一语言的第一文本代替第二语言的第二文本。选择第一语言的第一文本代替第二语言的第二文本可以基于:第一概率度量、第一测量、第二概率度量和第二测量。此外,该方法可以包括,响应于选择第一文本,使得自动化助理提供基于所选择的第一文本确定的响应内容。
在一些实施方式中,该方法可以包括标识与音频数据相关联的当前场境。标识第一概率度量可以基于对应于当前场境的第一概率度量。标识第二概率度量可以基于对应于当前场境的第二概率度量。在一些实施方式中,确定音频数据对应于用户简档可以基于将音频数据的特征与用户简档的特征进行比较。
本公开的各方面可以有利地减少口头话语在其期间没有被适当的语音识别模型解释的事件。因此,可以接收对用户输入的改进的响应,减少自动化助理不响应或者没有按预期操作的情况。除了改善对于用户的功能性,这还可以通过减少重复命令来减少用于实现这种助理的计算机和/或网络资源的负载,以便达到期望的结果。
其他实施方式可以包括存储指令的非暂时性计算机可读存储介质,该指令可由一个或多个处理器(例如,中央处理单元(CPU)、图形处理单元(GPU)和/或张量处理单元(TPU))执行以执行诸如上述和/或本文其他地方描述的方法中的一个或多个的方法。另外其他的实施方式可以包括一个或多个计算机的系统,该计算机包括一个或多个处理器,该处理器可操作以执行存储的指令以执行诸如上述和/或本文其他地方描述的方法中的一个或多个的方法。
应该理解,在本文更详细描述的前述概念和附加概念的所有组合都被认为是本文公开的主题的一部分。例如,出现在本公开结尾的所要求保护的主题的所有组合被认为是本文公开的主题的一部分。
附图说明
图1示出了用于为自动化助理选择语言以与用户交互的系统。
图2示出了基于用户正在与自动化助理交互或调用自动化助理的场境来选择语音识别模型的示例的示意图。
图3示出了根据基于用户简档的内容选择的语音识别模型来处理音频数据的方法。
图4示出了用于根据自动化助理可访问的场境数据来调度要抢先激活的语言模型的方法。
图5是示例计算机系统的框图。
具体实施方式
图1示出了用于为自动化助理104选择语言以与用户130交互的系统100。自动化助理104可以部分地通过在一个或多个诸如客户端计算设备118(例如,便携式计算设备132)的客户端设备处提供的自动化助理126来操作,并且部分地通过一个或多个诸如服务器设备102的远程计算设备112来操作。用户130可以通过客户端计算设备118的助理接口128与自动化助理104交互。助理接口128包括用户接口输入设备和用户接口输出设备,以供自动化助理126在与用户对接时使用。助理接口128接受用户130的指向自动化助理104的用户接口输入,并渲染来自自动化助理104的内容以呈现给用户130。助理接口128可以包括麦克风、相机、触摸屏显示器和/或客户端计算设备118的任何其他用户接口输入设备。助理接口128还可以包括显示器、投影仪、扬声器和/或可以用于渲染来自自动化助理104的内容的客户端计算设备118的任何其他用户接口输出设备。用户可以通过向助理接口128提供口语、文本或图形输入来初始化自动化助理104,以使自动化助理104执行功能(例如,提供数据、控制外围设备、访问代理等)。客户端计算设备118可以包括显示设备,该显示设备可以是包括用于接收触摸输入和/或手势的触摸接口的显示面板,以允许用户通过触摸接口控制客户端计算设备118的应用。在一些实施方式中,客户端计算设备118可缺少显示设备,从而提供可听用户接口输出,而不提供图形用户接口输出。此外,客户端计算设备118可以提供诸如麦克风的用户接口输入设备,以用于从用户130(以及从未示出的附加用户)接收口头自然语言输入。
客户端计算设备118可以通过诸如互联网的网络114与远程计算设备112通信。客户端计算设备118可以将计算任务卸载到远程计算设备112,以便例如节省客户端设备118处的计算资源和/或利用远程计算设备112处可用的更鲁棒的资源。例如,远程计算设备112可以托管自动化助理104,并且客户端计算设备118可以将在一个或多个助理接口接收的输入传输到远程计算设备112。然而,在一些实施方式中,自动化助理104可以由客户端计算设备118处的自动化助理126托管。在各种实施方式中,自动化助理104的所有方面的所有或较少可以由客户端计算设备118处的自动化助理126实现。在这些实施方式中的一些中,自动化助理104的方面通过客户端计算设备118的本地自动化助理126实现,并且与实现自动化助理104的其他方面的远程计算设备112对接。远程计算设备112可以可选地通过多线程为多个用户及其相关联的助理应用服务。在通过客户端计算设备118的本地自动化助理126实现自动化助理104的所有方面中的所有或较少的实施方式中,本地自动化助理126可以是与客户端设备118的操作系统分离的应用(例如,安装在操作系统的“上面”)——或者可以替代地由客户端设备118的操作系统直接实现(例如,被认为是操作系统的应用,但是与操作系统集成在一起)。
在一些实施方式中,远程计算设备112可以包括语音识别引擎134,其可以处理在助理接口接收的音频数据,以确定体现在音频数据中的口头话语的文本和/或其他语义表示。语音识别引擎134可以在确定体现在音频数据中的口头话语的文本和/或其他语义表示时利用一个或多个语音识别模型136。如本文所述,可以提供多个语音识别模型136,并且每个模型可以针对对应的语言。例如,第一语音识别模型可以针对英语,第二语音识别模型可以针对法语,等等。此外,如本文所述,在音频数据的处理中使用多个语音识别模型136中的哪一个可以基于例如被确定为对应于正在处理的音频数据的用户简档中包含的信息。例如,在一些实施方式中,给定的用户简档可以基于音频数据的话音特征和与用户简档相关联的话音特征的匹配来被确定为对应于正在处理的音频数据。此外,例如,在一些实施方式中,给定的用户简档可以另外地或替代地基于将来自客户端计算设备118的传感器的其他传感器数据(例如,来自相机的数据和/或来自指纹传感器的数据)与用户简档的对应数据相匹配而被确定为对应于正在处理的音频数据。继续这些示例,如果用户简档指示对于用户英语语音识别模型比法语语音识别模型更可能被使用,则英语语音识别模型可以被用来处理音频数据。可以可选地使用英语语音识别模型来代替使用法语语音识别模型(或者用于非英语语言的任何其他语音识别模型)。
另外地或替代地,用于多个不同语言的多个语音识别模型136可以用于处理音频数据,以生成多个候选语义表示(例如,每个对应于不同的语言)。在这些实施方式中的一些中,多个不同语言的概率度量(可选地取决于当前场境参数)和/或多个候选语义表示中的每一个的测量可以被用来适当地选择候选语义表示中的仅一个以用于生成和提供响应于给定口头话语的内容。
在一些实施方式中,语音识别模型136各自包括一个或多个机器学习模型(例如,神经网络模型)和/或统计模型,用于确定对应于体现在音频数据中的口头话语的文本(或其他语义表示)。在一些实施方式中,语音识别引擎134可以利用语音识别模型136之一来确定音频数据中包括的对应语言的音素,并且然后基于确定的音素生成对应语言的文本。在一些实施方式中,语音识别引擎134接收话音输入的音频记录,例如采用数字音频数据的形式,并且使用一个或多个模型将数字音频数据转换成一个或多个文本令牌。这种功能性所使用的可以统称为语音识别模型的一个或多个模型,通常对音频信号和语言中的发音单元以及语言中的单词序列之间的关系进行建模。在一些实施方式中,语音识别模型可以包括以下中的一个或多个:声学模型、语言模型、发音模型等,以及结合这样的模型中的一个或多个的功能性的模型。例如,在一些实施方式中,语音识别模型可以实现为包括多个路径或路线的有限状态解码图。
自动化助理104可以根据一个或多个语言模型同时操作,以便响应于来自用户130的自然语言输入和/或向用户130提供响应内容。例如,在一些实施方式中,自动化助理104可以同时使用调用短语模型以及与特定语言相关联的语音识别模型来操作。以这种方式,自动化助理可以处理体现调用短语和以特定语言提供的一个或多个命令的音频数据,并且响应调用短语和一个或多个命令。从音频数据转换的文本和/或文本的语义表示可以由文本解析引擎110解析,并使其作为文本数据或语义数据对自动化助理104可用,该文本数据或语义数据可以用于生成和/或标识来自用户130和/或第三方应用的命令短语。
在一些实施方式中,语言模型可以包括或指代声学模型、语音识别模型、调用短语模型、语音到文本模型、语音到语义表示模型、文本到语义表示模型和/或可用于将自然语言输入翻译成可由应用或设备处理的数据的任何其他模型。在一些实施方式中,自动化助理104用于与用户130通信的语言可以从用户简档中标识的一个或多个语言中选择。自动化助理可以从一个或多个服务器用户简档120和/或一个或多个客户端用户简档122访问用户简档。例如,当用户130正在与客户端计算设备118处的自动化助理126通信时,用户130可以向客户端计算设备118的助理接口128提供口头自然语言输入。口头自然语言输入可以被转换成音频数据,该音频数据可以被客户端语言模型124处理,该客户端语言模型124诸如用于标识音频数据是否体现用于调用自动化助理126的调用短语的调用短语模型。客户端语言模型124还可以提供用户130的话音签名。基于用户130的话音签名,自动化助理126可以选择对应于用户130的客户端用户简档122。客户端用户简档122可以根据交互的场境或者用户130和自动化助理126之间的交互的特性来标识所标识的用户130偏好用来通信的一个或多个语言。
在一些实施方式中,调用短语模型可以在客户端计算设备118处被采用,以确定用户130是否旨在调用自动化助理104。当用户向助理接口128提供自然语言输入并且自然语言输入包括用于调用自动化助理104的调用短语时,客户端计算设备118可以使得服务器设备102处的自动化助理104从用户130接收自然语言输入和/或后续自然语言输入。例如,响应于确定用户130旨在调用客户端计算设备118处的自动化助理104,可以在客户端计算设备118和服务器设备102之间建立一个或多个通信信道。此后,当用户继续向助理接口128提供自然语言输入时,自然语言输入将被转换成数据,然后该数据通过网络114传输并由服务器设备102处理。此后,自动化助理104可以分析数据,以从服务器设备102处可用的一个或多个服务器用户简档120中确定对应于用户的用户简档。可以从所选择的服务器用户简档中选择语音识别模型136用于与用户130通信。从用户简档中选择语音识别模型136可以基于用户130的场境、与由用户简档标识的一个或多个语音识别模型136相关联的一个或多个置信度分数或概率和/或可用于选择语言的任何其他信息。
在一些实施方式中,由服务器用户简档120和/或客户端用户简档122的用户简档标识的每个语言可以与静态或动态的概率或置信度分数相关联。例如,特定用户的默认语言可以由用户简档标识,并且包括与高于与由用户简档标识的其他语言相关联的其他置信度分数的置信度分数的对应。在一些实施方式中,由用户简档标识的语言可以与多个置信度分数相关联,并且多个置信度分数中的每个置信度分数可以与场境相关联。例如,用户简档可以将“家”标识为特定语言的位置场境和标识特定语言的位置场境的置信度分数。因为用户可能偏好在家中使用特定语言进行通信多过其他语言,所以用户简档可以标识不同的语言和与该不同的语言相关联的不同的置信度分数,该不同的置信度分数低于对应于“家”位置场境的置信度分数。换句话说,用户简档可以使用置信度分数和场境文数据来指示用户偏好在家里说特定的语言多过用户简档所标识的其他语言。
在一些实施方式中,特定语言和特定场境的置信度分数可以基于助理交互数据106,该助理交互数据106可以由服务器设备102或客户端计算设备118处的自动化助理访问。助理交互数据106可以基于一个或多个用户和自动化助理之间的历史交互来生成。因此,当用户使用一个或多个不同的语言与自动化助理交互时,助理交互数据106可以反映用户已经使用其通信过的一个或多个不同的语言。由用户简档标识的与不同语言相关联的置信度分数可以基于助理交互数据106如何随时间变化而动态更新。例如,由用户简档标识的场境数据可以标识联系人,用户经由自动化助理通过采用自动化助理编写要发送给该联系人的消息与该联系人通信。初始地,在编写消息时,用户简档可以标识具有第一置信度分数的特定语言。然而,如果用户后续指令自动化助理用另一个语言编写针对联系人的消息,则与另一个语言和向联系人发送消息的场境相关联的第二置信度分数可以增加到第一置信度分数之上。这样,至少当用户指令自动化助理编写针对联系人的消息时,根据用户简档,另一个语言将成为默认语言。结果,当编写对联系人的消息时,用户不必明确指定另一个语言,从而节省了在处理各种不同语言的音频时否则将会浪费的计算资源。
图2示出了基于用户214正在其中与自动化助理交互或调用自动化助理的场境来选择语言模型的示例的图200。具体地,用户214可以通过助理设备212与自动化助理交互。助理设备212可以存储或访问表220,该表220标识对应于具有自动化助理或可以与自动化助理交互的不同用户的一个或多个用户简档。例如,表220可以标识用户214(即,“1”)和不同的用户(即,“2”),每个用户可以与不同的用户简档相关联。用户简档可以标识用户的语言偏好,并且语言偏好可以基于用户与自动化助理交互的场境。在一些实施方式中,随者用户使用不同的语言与自动化助理(和/或其他平台)交互,自动化助理可以随时间调整语言偏好。
例如,助理设备212可以位于用户214的家中,用户214的家可以是也通过助理设备212与自动化助理交互的不同用户的住所。助理设备212可以根据使用助理设备212与自动化助理交互的用户在用户简档之间切换。例如,用户214可以使用英语或法语通过助理设备212与自动化助理交互,而不同的用户可以使用英语或西班牙语通过助理设备212与自动化助理交互。为了使助理设备212理解相应的用户并与相应的用户通信,助理设备212可以选择用于解释来自用户的输入的语言模型(例如,语音识别模型)。可以基于表220的内容和/或与相应用户相关联的用户简档来选择语言模型。每个语言模型可以与分数或概率相关联,分数或概率量化用户正在或将要根据特定语言与自动化助理通信的可能性。
在一些实施方式中,分数或概率可以基于用户正在与自动化助理或助理设备212交互的场境。例如,用户214可以提供口头自然语言输入218,例如“Assistant”,以便调用自动化助理。助理设备212可以包括自动化助理接口,其接收口头自然语言输入218以用于在助理设备212处进一步处理。助理设备212可以使用语言模型(例如,调用短语模型)来基于用户214的话音的特性确定话音签名。当助理设备212已经标识出用户214的话音签名时,助理设备212可以访问表220,该表220标识分别对应于多个不同话音签名的多个不同用户简档以及用户简档和不同语言模型之间的对应关系。表220还可以提供语言模型和分数或概率之间的对应关系,其可以用于确定是否使用特定的语言模型。分数可以基于用户214正在其中调用可通过助理设备212访问的自动化助理的场境。
如图2中所提供的,用户214可以通过便携式计算设备216操作应用206(即应用_1),便携式计算设备216为助理设备212选择特定语言模型提供基础。替代地或另外地,助理设备212可以基于用户214在位置210而选择语言模型。表220或对应于用户214的用户简档可以提供语言模型的分数和应用的场境和/或位置之间的对应。通过标识用户214正在其中调用自动化助理的场境,并将联系人与表220进行比较,助理设备212可以为用户214确定具有分数最高的语言模型。例如,自动化助理或助理设备212可以基于用户访问应用206并位于位置210来选择英语模型。替代地,如果用户位于通过表220标识的位置_2,但是正在访问应用_1,则自动化助理可以选择英语模型,因为应用_1的分数大于位置_2的分数。然而,如果用户位于位置_1,但是使用应用_2与联系人_2通信时,则自动化助理可以选择法语模型,因为位置_1的分数小于应用_2与联系人_2的分数总和(换句话说:0.5<(0.6+0.3))。
在一些实施方式中,如果自动化助理选择了用户214不旨在的语言模型,并且用户通过请求使用不同的语言模型来纠正自动化助理,则可以更新相应语言模型中的每一个的分数。例如,初始选择的语言模型可以降低其分数,而所请求的语言模型可以提高其分数。如果所请求的语言模型(例如斯瓦希里语)不被用户简档标识(例如,用户简档“1”不标识斯瓦希里语),则自动化助理可以使得请求被生成并通过网络202传输。该请求可以由远程设备208接收,远程设备208可以存储多个不同的语言模型,这些语言模型可以一经请求就被推送到各种设备。例如,如果用户214请求使用斯瓦希里语言模型,则自动化助理可以从远程设备208请求斯瓦希里语言模型,并修改用户简档以标识斯瓦希里语言模型。此外,自动化助理可以修改用户简档以标识用户在其中请求斯瓦希里语言模型的场境,并提供在标识的场境中(例如,用户214位于位置_1)的斯瓦希里语言模型的分数。
在一些实施方式中,针对每个模型,表220中的条目可以对应于相同的场境,但是不同的分数。例如,应用_1和应用_2可以是相同的应用,位置_1和位置_2可以是相同的位置,并且联系人_l和联系人_2可以是相同的联系人。此外,取决于所引用的模型,每个应用、位置和/或联系人可以对应于不同的分数。例如,如果用户213正在位置处使用应用,则可以选择英语模型而不是法语模型,因为英语模型的总分数将是0.13,并且法语模型的分数将是0.12。作为另一个示例,如果用户213在位置处并与联系人通信,则将选择英语模型而不是法语模型,因为英语模型的总分数将是0.14,而法语模型的分数将是0.9。
图3示出了根据基于用户简档的内容选择的语音识别模型来处理音频数据的方法300。方法300可以由一个或多个计算设备或应用和/或能够处理用户输入的任何其他装置或模块来执行。方法300可以包括使用一个或多个声学模型处理音频数据以监测被配置为调用自动化助理的调用短语的出现的操作302。音频数据可以基于在包括用于与自动化助理交互的自动化助理接口的客户端设备处接收的可听输入来生成。自动化助理接口可以是例如客户端设备的音频子系统,并且因此可以包括以下中的一个或多个:麦克风、扬声器和/或用于传输音频相关数据的任何其他装置。
在一些实施方式中,客户端设备可以存储一个或多个声学模型,和/或通过诸如互联网的网络访问一个或多个声学模型。一个或多个声学模型可以包括诸如调用短语声学模型的第一声学模型,以用于标识体现在音频数据中的调用短语。调用短语可以标识设备、自动化助理和/或可以与自动化助理相关联的任何其他特征(例如,“Assitant”)。在一些实施方式中,第一声学模型对于提供调用短语的语言可以是不可知的(agnostic),但是第一声学模型可以处理音频数据以标识音高、音调、口音、语调和/或可用于标识短语和/或用户的任何其他语音特征。第一声学模型可以被设置为始终活跃的声学模型,以便当在自动化助理接口接收到调用短语时,可以在任何时候触发自动化助理。同时,在一些实施方式中,至少根据存储在客户端设备上的用户简档或者自动化助理可用其他方式访问的用户简档,一个或多个其他声学模型可以是活跃的。
方法300还可以包括基于音频数据的处理来检测在音频数据的一部分中的调用短语的出现的操作304。例如,当调用短语是“Assitant”时,第一声学模型可以接收音频数据的该部分,并且输出单词“assitant”的语义表示或者对应于单词“assitant”的文本。然后,自动化助理可以将语义表示或文本与调用短语的一个或多个存储的表示进行比较,以确定用户是否旨在调用自动化助理。
方法300还可以包括确定包括调用短语的音频数据的该部分对应于自动化助理可访问的用户简档的操作306。该确定可以基于使用一个或多个声学模型对音频数据的处理或者使用一个或多个其他声学模型的其他处理来执行。例如,在一些实施方式中,第一声学模型可以接收音频数据的该部分作为输入,并提供指示用户旨在调用自动化助理的输出。第一声学模型还可以提供标识提供了对应于音频数据的音频输入的用户的输出。具体而言,第一声学模型可以操作以区分不同用户如何说出特定的调用短语。作为示例,第一用户可以以比第二用户提供相同调用短语更高的音高提供调用短语,因此第一声学模型可以通过分析音频数据展现的音高水平来区分第一用户和第二用户。在一些实施方式中,自动化助理可以访问话音签名表,该表标识访问自动化助理的每个用户的话音特性。这样,自动化助理可以使用一个或多个声学模型来表征话音特征,并基于来自用户的输入和与话音签名表中的用户简档相关联地存储的话音特性之间的对应度来标识用户的用户简档。
用户简档可以标识对应于用于处理来自用户的自然语言输入的一个或多个语音识别模型的一个或多个语言,该用户的语言偏好由用户简档标识。用户简档可以标识用户在其中偏好特定语言的场境、与特定语言相关联的概率或置信度分数、对应于语言的语音识别模型的可用性和/或可以用于标识用户的语言偏好的任何其他数据。由用户简档标识的场境可以包括应用、位置、设备、联系人、时间和/或可以表征用户在其中使用特定语言进行通信的场境的任何其他数据。这样,可以将提供对应于音频数据的音频输入的用户的当前场境与在用户的用户简档中标识的场境数据进行比较,以便在给定当前场境的情况下标识用户偏好的用于通信的语言。例如,如果用户在家并且用户简档指示用户在家时偏好使用西班牙语,则当用户在家调用自动化助理时,自动化助理可以选择西班牙语作为偏好语言。
方法300还可以包括标识被指派给用户简档的语言的操作308。用户简档可以包括被指派给用户简档的多个不同语言,并且在操作308标识的语言可以取决于用户简档中与语言相关联的置信度分数、用户简档中与语言相对应的场境数据和/或在用户简档中标识的适于在标识语言时处理的任何其他数据。在一些实施方式中,标识被指派给用户简档的语言可以包括在用户提供调用短语时或后续地在其后将该语言标记为自动化助理的活跃语言。
方法300还可以包括基于标识被指派给用户简档的语言来选择语言的语音识别模型的操作310。语音识别模型可以从一个或多个候选语音识别模型中选择。这样,自动化助理可以在语音识别模型之间切换,以确保尽管用户用多个不同的语言通信,自动化助理可以与用户交互。在一些实施方式中,用户简档可以提供用户简档中标识的语言和语音识别模型之间的对应。这样,当自动化助理标识用户偏好的语言时,自动化助理也将能够标识对应于偏好语言的语音识别模型。
方法300还可以包括使用所选择的语音识别模型来处理在音频数据的该部分之后的音频数据的后续部分的操作312。换句话说,包括音频输入在该处被接收到的自动化助理的客户端设备可以存储体现调用短语以及用户提供的一个或多个其他命令的音频数据的片段。自动化助理可以使音频数据的一部分由第一声学模型处理,以确定用户是否提供了调用短语。语音识别模型可以处理音频数据的不体现调用短语的任何部分。这样,在选择了该语音识别模型之后,用户不需要重复任何命令,而是可以依靠自动化助理来适应当用户与自动化助理交互时可能出现的语言变化。
方法300可以可选地包括操作314,该操作314使得自动化助理提供基于使用所选择的语音识别模型对音频数据的后续部分的处理而确定或生成的响应内容。响应内容可以是能够由计算设备提供的任何输出。例如,响应内容可以是由对应于在操作308标识的语言的语音生成模型生成的自然语言输出。因此,自然语言输出可以是音频输出、视频输出和/或可以被表征为自然语言输出的任何其他输出。当音频数据的后续部分包括来自用户的查询时,响应内容可以是以在操作308标识的语言提供的对查询的回答。
图4示出了一种用于根据自动化助理可访问的场境数据来调度要抢先激活的语言模型的方法400。该方法可以由一个或多个计算设备、应用和/或能够与自动化助理交互的任何其他装置或模块来执行。方法400可以包括确定事件将在即将到来的时间段期间发生的操作402。事件可以通过存储的日历事件或其他表征事件并阐明事件将发生的时间段的数据来描述。自动化助理可以通过访问与特定用户或用户组相关联的账户数据来确定事件将在即将到来的时间段发生。替代地,自动化助理可以至少部分地被托管在包括存储器的设备上,该存储器存储对应于与多个不同用户相关联的多个不同事件的数据。在一些实施方式中,事件可以通过诸如互联网的网络来标识,并且可以与和一个或多个不同用户相关联的公共可用数据相关联。例如,该事件可以与即将到来的可以与特定语言相关联的公共节日或公共假日相关联。
方法400还可以包括确定事件是否与特定用户相关联的操作404。该确定可以基于自动化助理可访问的事件相关数据和用户相关数据之间的比较。例如,当事件由日历条目描述并且包括用户作为参与者时,事件可以与用户相关联。此外,当与用户相关联的账户包括与事件相关联的信息时,事件可以与特定用户相关联。此外,当用户和自动化助理之间的历史交互数据标识事件或者以其他方式描述与事件相关联的信息时,事件可以与特定用户相关联。例如,如果特定用户已经请求自动化助理订购到也作为事件位置的特定目的地的票,则事件可以与特定用户相关联。
当事件不与特定用户相关联时,方法400可以返回参考监测即将到来的事件是否将发生的操作402。否则,当事件与特定用户相关联时,方法400可以前进到选择对应于特定用户的用户简档的操作406。用户简档可以在列出一个或多个用户简档并提供用户简档和一个或多个不同用户之间的对应的索引或表中被标识。例如,至少部分托管自动化助理的计算设备可以存储一个或多个用户简档,该用户简档可以指明用于与特定用户通信或解释来自特定用户的输入的特定语言模型。因此,因为事件与特定用户相关联,所以可以选择用户简档,以便为即将到来的事件标识合适的语言模型以抢先激活。
方法400还可以包括确定事件是否与由所选择的用户简档标识的场境相关联的操作408。如果事件与由用户简档标识的场境无关,则方法400可以前进到选择用户简档中标识的语言模型的默认语言模型的操作410。例如,所选择的用户简档可以标识场境,诸如位置、与事件相关联的联系人或人员、与事件相关联的应用或设备、事件的时间和/或可以标识事件可能在其中发生的场境的任何其他信息。
当事件与由用户简档标识的场境相关联时,方法400可以前进到基于场境来确定由用户简档标识的一个或多个语言模型的一个或多个分数的操作412。例如,事件可以与位置相关联,并且用户简档可以标识:第一语言模型和位置的第一分数以及第二语言模型和位置的第二分数。如果第一分数大于第二分数,则可以为即将到来的事件选择第一语言模型以抢先激活。
当为由用户简档标识的语言模型确定分数时,方法400可以前进到基于所确定的分数选择语言模型的操作404。在一些实施方式中,当两个或更多个分数相同或基本相似时,可以考虑附加的场境,以便进一步区分分数并选择合适的语言模型。例如,如果事件与用户先前使用特定语言与其通信的联系人相关联,则用户简档可以标识该联系人中的一个或多个,以便确定要考虑的附加的分数。附加的分数可以与先前考虑的分数相结合,并且可以选择与最高分数相关联的语言模型来抢先激活。
当特定语言模型已经被选择用户简档时,方法400可以前进到针对在即将到来的时间段期间的事件,抢先将所选择的语言模型配置为活跃的操作416。这样,当事件开始时,或者时间段是当前时间时,所选择的语言模型将是活跃的。当事件位于网络连接受限的区域时,这可能很有用,因为语言模型将在事件发生之前就已经下载到用户的设备上了。
图5是示例计算机系统510的框图。计算机系统510通常包括至少一个处理器514,其通过总线子系统512与多个外围设备通信。这些外围设备可以包括存储子系统524,包括例如存储器525和文件存储子系统526、用户接口输出设备520、用户接口输入设备522和网络接口子系统516。输入和输出设备允许用户与计算机系统510交互。网络接口子系统516提供到外部网络的接口,并且耦合到其他计算机系统中的对应接口设备。
用户接口输入设备522可以包括键盘、诸如鼠标、轨迹球、触摸板或图形输入板的定点设备、扫描仪、并入显示器的触摸屏、诸如语音识别系统、麦克风的音频输入设备和/或其他类型的输入设备。通常,术语“输入设备”的使用旨在包括将信息输入到计算机系统510中或输入到通信网络上的所有可能的类型的设备和方式。
用户接口输出设备520可以包括显示子系统、打印机、传真机或诸如音频输出设备的非视觉显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或用于创建可视图像的某种其他机构。显示子系统还可以诸如通过音频输出设备提供非视觉显示。通常,术语“输出设备”的使用旨在包括从计算机系统510向用户或另一机器或计算机系统输出信息的所有可能类型的设备和方式。
存储子系统524存储提供本文描述的模块中的一些或所有的功能性的编程和数据结构。例如,存储子系统524可以包括执行方法300、400的所选择方面和/或实现以下中的一个或多个的逻辑:服务器设备102、客户端计算设备118、便携式计算设备132、助理设备212和/或本文讨论的任何其他设备或操作。
这些软件模块通常由处理器514单独或与其他处理器结合执行。存储子系统524中使用的存储器525可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)530和存储固定指令的只读存储器(ROM)532。文件存储子系统526可以为程序和数据文件提供持久存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移除介质、CD-ROM驱动器、光驱或可移除介质盒。实现某些实施方式的功能性的模块可以由文件存储子系统526存储在存储子系统524中,或者存储在处理器514可访问的其他机器中。
总线子系统512提供了一种机制,用于让计算机系统510的各种组件和子系统按照预期相互通信。尽管总线子系统512示意性地示出为单个总线,但是总线子系统的替代实施方式可以使用多个总线。
计算机系统510可以是不同类型的,包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质,图5中示出的计算机系统510的描述仅旨在作为说明一些实施方式的特定示例。计算机系统510的许多其他配置可能具有比图5所示的计算机系统更多或更少的组件。
在本文描述的系统收集关于用户(或这里通常称为“参与者”)的个人信息或者可以利用个人信息的情况下,可以向用户提供控制程序或特征是否收集用户信息(例如,关于用户的社交网络、社交行为或活动、职业、用户偏好或用户当前地理位置的信息)的机会,或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容。此外,在存储或使用某些数据之前,可以以一种或多种方式对其进行处理,从而移除个人可标识信息。例如,可以处理用户的身份,使得不能确定用户的个人可标识信息,或者可以在获得地理位置信息的情况下概括用户的地理位置(诸如概括到城市、ZIP编码或州级),使得不能确定用户的具体地理位置。因此,用户可以控制如何收集和/或使用关于用户的信息。
虽然本文已经描述和示出了几个实施方式,但是可以使用用于执行功能和/或获得结果和/或本文描述的优点中的一个或多个的各种其他装置和/或结构,并且这些变化和/或修改中的每一个都被认为在本文描述的实施方式的范围内。更一般地,本文描述的所有参数、尺寸、材料和配置都是示例性的,并且实际的参数、尺寸、材料和/或配置将取决于使用教导的具体一个或多个应用。本领域技术人员将认识到或者能够仅使用例程实验来确定本文描述的具体实施方式的许多等同物。因此,应该理解的是,前述实施方式仅作为示例呈现,并且在所附权利要求及其等同物的范围内,实施方式可以以不同于具体描述和要求的方式实施。本公开的实施方式涉及本文描述的每个单独的特征、系统、物品、材料、套件和/或方法。此外,如果两个或更多个这样的特征、系统、物品、材料、套件和/或方法不是相互不一致的,则两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任何组合都包括在本公开的范围内。
Claims (11)
1.一种由一个或多个处理器实现的方法,所述方法包括:
使用一个或多个声学模型处理音频数据,以监测被配置为调用自动化助理的调用短语的出现,其中所述音频数据是基于在客户端设备处对用户的口头输入的检测,所述客户端设备包括用于与所述自动化助理进行交互的自动化助理接口;
基于使用所述一个或多个声学模型处理所述音频数据,检测在所述音频数据的部分中的所述调用短语的出现;
基于使用所述一个或多个声学模型对所述音频数据的处理或使用一个或多个其他声学模型对所述音频数据的其他处理,确定包括所述调用短语的所述音频数据的所述部分对应于所述自动化助理可访问的用户简档;
标识被指派给所述用户简档的语言;
标识所述一个或多个场境参数与所述音频数据相关联;
选择所述语言的语音识别模型,其中选择所述语言的所述语音识别模型是基于确定所述音频数据的所述部分对应于所述用户简档,并且基于标识被指派给所述用户简档的所述语言以及被指派给所述用户简档中的所述语言的至少一个概率是关联于被标识为与所述音频数据相关联的所述一个或多个场境参数,其中所述至少一个概率是基于与所述用户简档相关联的与所述自动化助理的先前交互,并且其中所述至少一个概率与一个或多个场境参数相关联;
使用所选择的语音识别模型来处理在所述音频数据的所述部分之后的所述音频数据的后续部分;以及
使所述自动化助理提供响应内容,所述响应内容是基于使用所选择的语音识别模型对所述后续部分进行处理而确定的。
2.根据权利要求1所述的方法,还包括:
标识被指派给所述用户简档的附加语言;
其中选择所述语音识别模型包括:选择所述语音识别模型代替所述附加语言的附加语音识别模型。
3.根据权利要求2所述的方法,其中选择所述语音识别模型代替所述附加语言的附加语音识别模型包括:
标识与所述音频数据相关联的一个或多个场境参数;以及
基于所述一个或多个场境参数在所述用户简档中与所述语言比与所述附加语言更强地相关联,选择所述语音识别模型。
4.根据权利要求3所述的方法,其中所述一个或多个场境参数包括所述客户端设备的标识符。
5.根据权利要求3所述的方法,其中所述一个或多个场境参数包括以下中的一个或多个:一天中的时间、一周中的一天以及所述客户端设备的位置。
6.根据权利要求1所述的方法,其中使用所选择的语音识别模型来处理在所述音频数据的所述部分之后的所述音频数据的所述后续部分包括:在生成对应于所述后续部分的所述语言的文本时使用所选择的语音识别模型;以及
其中使所述自动化助理提供响应内容、所述响应内容是基于使用所选择的语音识别模型对所述后续部分进行处理而确定的包括:
基于所述文本生成所述响应内容,以及
使所述自动化助理接口渲染基于所述响应内容的输出。
7.根据权利要求1所述的方法,其中所述自动化助理被配置为访问多个不同的用户简档,所述多个不同的用户简档:在所述客户端设备处是可用的,并且与所述客户端设备的多个不同用户相关联。
8.根据权利要求7所述的方法,其中所述多个不同的用户简档各自标识一个或多个对应的语言以及所述对应的语言中的每一个的对应语言概率,所述对应语言概率各自基于所述多个不同用户中的对应一个用户和所述自动化助理之间的先前交互。
9.根据权利要求中1-8中的任一项所述的方法,其中使用所选择的语音识别模型来处理所述音频数据的所述后续部分包括使用所选择的语音识别模型来生成所述语言的第一文本,并且所述方法还包括:
标识被指派给所述用户简档的附加语言;
选择所述附加语言的附加语音识别模型,其中选择所述附加语言的所述附加语音识别模型是基于确定所述音频数据的所述部分对应于所述用户简档,并且基于标识被指派给所述用户简档的所述附加语言;
使用所选择的附加语音识别模型以处理在所述音频数据的所述部分之后的所述音频数据的所述后续部分,其中使用所选择的附加语音识别模型以处理所述音频数据的所述后续部分包括:使用所选择的语音识别模型以生成所述附加语言的第二文本;
选择所述语言的所述第一文本代替所述附加语言的所述第二文本;
其中使所述自动化助理提供响应内容、所述响应内容是基于使用所选择的语音识别模型对所述后续部分进行处理而确定的包括:
基于选择所述语言的所述第一文本,使所述自动化助理提供基于所述语言的所述第一文本而确定的响应内容。
10.一种包括指令的非易失性计算机可读存储介质,所述指令当由一个或多个处理器执行时,使所述一个或多个处理器执行权利要求1至9中任一项所述的方法。
11.一种包括用于执行根据权利要求1至9中任一项所述的方法的一个或多个处理器的系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311315470.2A CN117392977A (zh) | 2018-04-16 | 2018-04-16 | 自动确定通过自动化助理接口接收的口头话语的语音识别的语言 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2018/027808 WO2019203794A1 (en) | 2018-04-16 | 2018-04-16 | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311315470.2A Division CN117392977A (zh) | 2018-04-16 | 2018-04-16 | 自动确定通过自动化助理接口接收的口头话语的语音识别的语言 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110998717A CN110998717A (zh) | 2020-04-10 |
CN110998717B true CN110998717B (zh) | 2023-10-31 |
Family
ID=62111241
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880039581.6A Active CN110998717B (zh) | 2018-04-16 | 2018-04-16 | 自动确定通过自动化助理接口接收的口头话语的语音识别的语言 |
CN202311315470.2A Pending CN117392977A (zh) | 2018-04-16 | 2018-04-16 | 自动确定通过自动化助理接口接收的口头话语的语音识别的语言 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311315470.2A Pending CN117392977A (zh) | 2018-04-16 | 2018-04-16 | 自动确定通过自动化助理接口接收的口头话语的语音识别的语言 |
Country Status (5)
Country | Link |
---|---|
US (6) | US10839793B2 (zh) |
EP (3) | EP4254402B1 (zh) |
CN (2) | CN110998717B (zh) |
SG (1) | SG11201912061WA (zh) |
WO (1) | WO2019203794A1 (zh) |
Families Citing this family (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
KR102516577B1 (ko) | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US12197817B2 (en) | 2016-06-11 | 2025-01-14 | Apple Inc. | Intelligent device arbitration and control |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Multi-modal interfaces |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11568863B1 (en) * | 2018-03-23 | 2023-01-31 | Amazon Technologies, Inc. | Skill shortlister for natural language processing |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
EP4254402B1 (en) | 2018-04-16 | 2025-01-01 | Google LLC | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
EP4270385B1 (en) | 2018-04-16 | 2024-12-18 | Google LLC | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
US11307880B2 (en) | 2018-04-20 | 2022-04-19 | Meta Platforms, Inc. | Assisting users with personalized and contextual communication content |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
US11676220B2 (en) | 2018-04-20 | 2023-06-13 | Meta Platforms, Inc. | Processing multimodal user input for assistant systems |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US11010179B2 (en) | 2018-04-20 | 2021-05-18 | Facebook, Inc. | Aggregating semantic information for improved understanding of users |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
KR102225984B1 (ko) * | 2018-09-03 | 2021-03-10 | 엘지전자 주식회사 | 음성 인식 서비스를 제공하는 서버 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11403463B2 (en) * | 2018-10-31 | 2022-08-02 | Microsoft Technology Licensing, Llc | Language proficiency inference system |
US12021864B2 (en) * | 2019-01-08 | 2024-06-25 | Fidelity Information Services, Llc. | Systems and methods for contactless authentication using voice recognition |
US12014740B2 (en) | 2019-01-08 | 2024-06-18 | Fidelity Information Services, Llc | Systems and methods for contactless authentication using voice recognition |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) * | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11238868B2 (en) * | 2019-05-06 | 2022-02-01 | Google Llc | Initializing non-assistant background actions, via an automated assistant, while accessing a non-assistant application |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11238221B2 (en) * | 2019-06-19 | 2022-02-01 | Microsoft Technology Licensing, Llc | Language profiling service |
KR20190114938A (ko) * | 2019-09-20 | 2019-10-10 | 엘지전자 주식회사 | 다국어 커뮤니케이션을 수행하기 위한 장치 및 방법 |
US11638049B2 (en) | 2019-10-16 | 2023-04-25 | Dish Network L.L.C. | Systems and methods for content item recognition and adaptive packet transmission |
CN111128126B (zh) * | 2019-12-30 | 2023-04-07 | 海智讯通(上海)智能科技有限公司 | 多语种智能语音对话的方法及系统 |
US11908480B1 (en) * | 2020-03-23 | 2024-02-20 | Amazon Technologies, Inc. | Natural language processing using context |
US11386887B1 (en) | 2020-03-23 | 2022-07-12 | Amazon Technologies, Inc. | Natural language processing using context |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US12198689B1 (en) * | 2020-08-10 | 2025-01-14 | Summer Institute of Linguistics, Inc. | Systems and methods for multilingual dialogue interactions using dynamic automatic speech recognition and processing |
CA3166481A1 (en) * | 2020-09-14 | 2022-03-17 | Prajakta Kalekar | Automated user language detection for content selection |
US20220108079A1 (en) * | 2020-10-06 | 2022-04-07 | Sap Se | Application-Specific Generated Chatbot |
US11557300B2 (en) * | 2020-10-16 | 2023-01-17 | Google Llc | Detecting and handling failures in other assistants |
US11514109B2 (en) * | 2020-10-29 | 2022-11-29 | Google Llc | Inferring semantic label(s) for assistant device(s) based on device-specific signal(s) |
US11823684B2 (en) * | 2020-11-19 | 2023-11-21 | Google Llc | Generating and/or utilizing voice authentication biasing parameters for assistant devices |
KR20220082577A (ko) * | 2020-12-10 | 2022-06-17 | 삼성전자주식회사 | 전자장치 및 그의 제어방법 |
US12175968B1 (en) * | 2021-03-26 | 2024-12-24 | Amazon Technologies, Inc. | Skill selection for responding to natural language inputs |
US11721324B2 (en) | 2021-06-09 | 2023-08-08 | International Business Machines Corporation | Providing high quality speech recognition |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104282307A (zh) * | 2014-09-05 | 2015-01-14 | 中兴通讯股份有限公司 | 唤醒语音控制系统的方法、装置及终端 |
CN104575493A (zh) * | 2010-05-26 | 2015-04-29 | 谷歌公司 | 使用地理信息的声学模型适配 |
CN107623614A (zh) * | 2017-09-19 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN107895578A (zh) * | 2017-11-15 | 2018-04-10 | 百度在线网络技术(北京)有限公司 | 语音交互方法和装置 |
Family Cites Families (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5515475A (en) | 1993-06-24 | 1996-05-07 | Northern Telecom Limited | Speech recognition method using a two-pass search |
US6594629B1 (en) | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US7620547B2 (en) | 2002-07-25 | 2009-11-17 | Sony Deutschland Gmbh | Spoken man-machine interface with speaker identification |
US7756708B2 (en) | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
US7873517B2 (en) | 2006-11-09 | 2011-01-18 | Volkswagen Of America, Inc. | Motor vehicle with a speech interface |
US7818176B2 (en) * | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US8909528B2 (en) * | 2007-05-09 | 2014-12-09 | Nuance Communications, Inc. | Method and system for prompt construction for selection from a list of acoustically confusable items in spoken dialog systems |
US8935147B2 (en) * | 2007-12-31 | 2015-01-13 | Sap Se | Runtime data language selection in object instance |
CN201332158Y (zh) | 2008-12-29 | 2009-10-21 | 凡甲电子(苏州)有限公司 | 电力连接器 |
US8498857B2 (en) | 2009-05-19 | 2013-07-30 | Tata Consultancy Services Limited | System and method for rapid prototyping of existing speech recognition solutions in different languages |
JP6131249B2 (ja) | 2011-06-19 | 2017-05-17 | エムモーダル アイピー エルエルシー | コンテキストアウェア認識モデルを使用した音声認識 |
US8972263B2 (en) * | 2011-11-18 | 2015-03-03 | Soundhound, Inc. | System and method for performing dual mode speech recognition |
US9129591B2 (en) * | 2012-03-08 | 2015-09-08 | Google Inc. | Recognizing speech in multiple languages |
US9767793B2 (en) * | 2012-06-08 | 2017-09-19 | Nvoq Incorporated | Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine |
US9489940B2 (en) * | 2012-06-11 | 2016-11-08 | Nvoq Incorporated | Apparatus and methods to update a language model in a speech recognition system |
US9606767B2 (en) | 2012-06-13 | 2017-03-28 | Nvoq Incorporated | Apparatus and methods for managing resources for a system using voice recognition |
US9043205B2 (en) * | 2012-06-21 | 2015-05-26 | Google Inc. | Dynamic language model |
JP6131537B2 (ja) * | 2012-07-04 | 2017-05-24 | セイコーエプソン株式会社 | 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 |
US9786281B1 (en) * | 2012-08-02 | 2017-10-10 | Amazon Technologies, Inc. | Household agent learning |
US9569421B2 (en) * | 2012-10-31 | 2017-02-14 | Excalibur Ip, Llc | Method and system for improved language identification using language tags |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9223837B2 (en) * | 2013-03-14 | 2015-12-29 | Toyota Motor Engineering & Manufacturing North America, Inc. | Computer-based method and system for providing active and automatic personal assistance using an automobile or a portable electronic device |
US11151899B2 (en) * | 2013-03-15 | 2021-10-19 | Apple Inc. | User training by intelligent digital assistant |
US20150006147A1 (en) | 2013-07-01 | 2015-01-01 | Toyota Motor Engineering & Manufacturing North America, Inc. | Speech Recognition Systems Having Diverse Language Support |
US9666188B2 (en) * | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
US9189742B2 (en) | 2013-11-20 | 2015-11-17 | Justin London | Adaptive virtual intelligent agent |
US9953634B1 (en) | 2013-12-17 | 2018-04-24 | Knowles Electronics, Llc | Passive training for automatic speech recognition |
EP3097553B1 (en) | 2014-01-23 | 2022-06-01 | Nuance Communications, Inc. | Method and apparatus for exploiting language skill information in automatic speech recognition |
CN104978015B (zh) | 2014-04-14 | 2018-09-18 | 博世汽车部件(苏州)有限公司 | 具有语种自适用功能的导航系统及其控制方法 |
US10770075B2 (en) | 2014-04-21 | 2020-09-08 | Qualcomm Incorporated | Method and apparatus for activating application by speech input |
US9418567B1 (en) * | 2014-04-23 | 2016-08-16 | Google Inc. | Selecting questions for a challenge-response test |
US20150364129A1 (en) * | 2014-06-17 | 2015-12-17 | Google Inc. | Language Identification |
WO2015196063A1 (en) * | 2014-06-19 | 2015-12-23 | Robert Bosch Gmbh | System and method for speech-enabled personalized operation of devices and services in multiple operating environments |
US9620106B2 (en) * | 2014-07-30 | 2017-04-11 | At&T Intellectual Property I, L.P. | System and method for personalization in speech recogniton |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US20160162469A1 (en) * | 2014-10-23 | 2016-06-09 | Audience, Inc. | Dynamic Local ASR Vocabulary |
CN104505091B (zh) | 2014-12-26 | 2018-08-21 | 湖南华凯文化创意股份有限公司 | 人机语音交互方法及系统 |
US10114817B2 (en) | 2015-06-01 | 2018-10-30 | Microsoft Technology Licensing, Llc | Data mining multilingual and contextual cognates from user profiles |
TWI595478B (zh) | 2016-04-21 | 2017-08-11 | 國立臺北大學 | 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法 |
CN105957516B (zh) | 2016-06-16 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
US10418026B2 (en) * | 2016-07-15 | 2019-09-17 | Comcast Cable Communications, Llc | Dynamic language and command recognition |
US10403268B2 (en) | 2016-09-08 | 2019-09-03 | Intel IP Corporation | Method and system of automatic speech recognition using posterior confidence scores |
US9786271B1 (en) * | 2016-09-28 | 2017-10-10 | International Business Machines Corporation | Voice pattern coding sequence and cataloging voice matching system |
CN106710586B (zh) | 2016-12-27 | 2020-06-30 | 北京儒博科技有限公司 | 一种语音识别引擎自动切换方法和装置 |
US10741174B2 (en) | 2017-01-24 | 2020-08-11 | Lenovo (Singapore) Pte. Ltd. | Automatic language identification for speech |
CN106997762A (zh) | 2017-03-08 | 2017-08-01 | 广东美的制冷设备有限公司 | 家用电器的语音控制方法以及装置 |
US10747817B2 (en) * | 2017-09-29 | 2020-08-18 | Rovi Guides, Inc. | Recommending language models for search queries based on user profile |
EP4254402B1 (en) | 2018-04-16 | 2025-01-01 | Google LLC | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
US10679615B2 (en) * | 2018-04-16 | 2020-06-09 | Google Llc | Adaptive interface in a voice-based networked system |
EP4270385B1 (en) | 2018-04-16 | 2024-12-18 | Google LLC | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
US11119725B2 (en) | 2018-09-27 | 2021-09-14 | Abl Ip Holding Llc | Customizable embedded vocal command sets for a lighting and/or other environmental controller |
-
2018
- 2018-04-16 EP EP23191963.0A patent/EP4254402B1/en active Active
- 2018-04-16 EP EP20195508.5A patent/EP3767622B1/en active Active
- 2018-04-16 CN CN201880039581.6A patent/CN110998717B/zh active Active
- 2018-04-16 SG SG11201912061WA patent/SG11201912061WA/en unknown
- 2018-04-16 WO PCT/US2018/027808 patent/WO2019203794A1/en unknown
- 2018-04-16 EP EP18722334.2A patent/EP3622507B1/en active Active
- 2018-04-16 US US15/769,013 patent/US10839793B2/en active Active
- 2018-04-16 CN CN202311315470.2A patent/CN117392977A/zh active Pending
- 2018-10-17 US US16/163,327 patent/US11017766B2/en active Active
-
2020
- 2020-11-16 US US17/099,367 patent/US11798541B2/en active Active
-
2021
- 2021-05-24 US US17/328,400 patent/US11735173B2/en active Active
-
2023
- 2023-07-28 US US18/361,408 patent/US12046233B2/en active Active
- 2023-10-23 US US18/382,886 patent/US20240054997A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104575493A (zh) * | 2010-05-26 | 2015-04-29 | 谷歌公司 | 使用地理信息的声学模型适配 |
CN104282307A (zh) * | 2014-09-05 | 2015-01-14 | 中兴通讯股份有限公司 | 唤醒语音控制系统的方法、装置及终端 |
CN107623614A (zh) * | 2017-09-19 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN107895578A (zh) * | 2017-11-15 | 2018-04-10 | 百度在线网络技术(北京)有限公司 | 语音交互方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US11017766B2 (en) | 2021-05-25 |
EP4254402B1 (en) | 2025-01-01 |
EP4254402A2 (en) | 2023-10-04 |
EP3622507B1 (en) | 2020-10-21 |
US20230368784A1 (en) | 2023-11-16 |
US20190318735A1 (en) | 2019-10-17 |
CN110998717A (zh) | 2020-04-10 |
WO2019203794A1 (en) | 2019-10-24 |
EP3767622B1 (en) | 2023-08-30 |
CN117392977A (zh) | 2024-01-12 |
US20210280177A1 (en) | 2021-09-09 |
US20240054997A1 (en) | 2024-02-15 |
US11798541B2 (en) | 2023-10-24 |
US20210074280A1 (en) | 2021-03-11 |
EP3622507A1 (en) | 2020-03-18 |
US12046233B2 (en) | 2024-07-23 |
US10839793B2 (en) | 2020-11-17 |
SG11201912061WA (en) | 2020-01-30 |
US11735173B2 (en) | 2023-08-22 |
EP3767622A2 (en) | 2021-01-20 |
US20200135184A1 (en) | 2020-04-30 |
EP3767622A3 (en) | 2021-04-07 |
EP4254402A3 (en) | 2023-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110998717B (zh) | 自动确定通过自动化助理接口接收的口头话语的语音识别的语言 | |
US12249319B2 (en) | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface | |
CN112262430B (zh) | 自动确定经由自动助理界面接收到的口头话语的语音识别的语言 | |
US10679615B2 (en) | Adaptive interface in a voice-based networked system | |
JP2023532395A (ja) | 環境干渉が自動アシスタントの特定のインタラクションを妨げることが予測されるときに代替インターフェースを提案すること | |
US20230252995A1 (en) | Altering a candidate text representation, of spoken input, based on further spoken input | |
US20230230578A1 (en) | Personalized speech query endpointing based on prior interaction(s) | |
KR20230153450A (ko) | 자동 스피치 인식의 로컬 실행을 위한 디바이스 중재 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |