CN114911896A - 基于语音的搜索方法及相关设备 - Google Patents
基于语音的搜索方法及相关设备 Download PDFInfo
- Publication number
- CN114911896A CN114911896A CN202110182991.XA CN202110182991A CN114911896A CN 114911896 A CN114911896 A CN 114911896A CN 202110182991 A CN202110182991 A CN 202110182991A CN 114911896 A CN114911896 A CN 114911896A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- list
- text
- candidate
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000012015 optical character recognition Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 32
- 238000012545 processing Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 229940109850 royal jelly Drugs 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的实施例提供了一种基于语音的搜索方法及相关设备。所述方法包括:接收用户的语音信息;从所述语音信息对应的至少一个实体的拼音串中提取首字母列表;根据所述首字母列表在应用程序进行内容搜索,得到候选文本列表,所述候选文本列表包括至少一个候选文本;根据所述候选文本列表中的候选文本的拼音串和所述语音信息对应的实体的拼音串,计算拼音串间的编辑距离,并从所述候选文本列表中选取输出文本。本实施例可提高搜索的准确度。
Description
技术领域
本申请的实施例涉及终端技术领域,尤其涉及一种基于语音的搜索方法及相关设备。
背景技术
自动语音识别(Automatic Speech Recognition,ASR)技术可将人的语音转换为文本,实际应用中,语音识别的准确率会受限于语音信号的多样性和复杂性。
例如,通过语音搜索应用程序的内容时,由于用户发音不准、输入语音的音量大小、输入语音的多音字、输入环境的噪音和ASR本身技术的问题,导致语音识别不准,难以搜索到匹配的结果,也无法进一步实现对应用程序的语音操控。
发明内容
本申请实施例公开了一种基于语音的搜索方法及相关设备,能够在电子设备基于语音对应用程序进行内容搜索时,提高搜索准确度。
本申请第一方面公开了一种基于语音的搜索方法,应用于电子设备中,基于语音的搜索方法包括:接收用户的语音信息;从语音信息对应的至少一个实体的拼音串中提取首字母列表;根据首字母列表在应用程序进行内容搜索,得到候选文本列表,候选文本列表包括至少一个候选文本;根据候选文本列表中的候选文本的拼音串和语音信息对应的实体的拼音串计算拼音串间的编辑距离,并从候选文本列表中选取输出文本。
本申请的实施例能够在电子设备基于语音对应用程序进行内容搜索时,提供了一种接收语音宽输入、页面搜索松匹配的应用内容搜索方法,避免由于语音识别不准确或用户发音不准确导致的语音输入与搜索结果不匹配的问题,具有更强的场景适应性和准确性。
在一些可选的实施方式中,从语音信息对应的至少一个实体的拼音串中提取首字母列表包括:确定语音信息对应的实体的第一拼音列表,第一拼音列表包括一个实体的一个拼音串或多个实体的多个拼音串;提取第一拼音列表中的每个拼音串对应的首字母串,得到第一拼音列表对应的首字母列表。
通过采用该技术方案,可以从语音信息中提取首字母串,通过首字母串进行搜索可以增加搜索范围,从而增加搜索到输出文本的可能性。
在一些可选的实施方式中,根据候选文本列表中的候选文本的拼音串和语音信息对应的实体的拼音串计算拼音串间的编辑距离,并从候选文本列表中选取输出文本包括:将候选文本列表中的每个候选文本转换为拼音串,得到候选文本列表对应的第二拼音列表,第二拼音列表包括候选文本列表中的候选文本的拼音串;根据第一拼音列表计算第二拼音列表中的拼音串的第一编辑距离;根据第二拼音列表中的拼音串的第一编辑距离从候选文本列表中选取输出文本。
通过采用该技术方案,可以实现通过拼音编辑距离计算候选文本与语音信息对应的实体的相似度,编辑距离越小,相似度越高。
在一些可选的实施方式中,接收用户的语音信息包括:监听用户的语音输入;若监听到用户的语音输入,电子设备根据语音输入的声纹和语音输入的语义判断是否响应用户的语音输入;若根据语音输入的声纹和语音输入的语义确定响应用户的语音输入,接收用户对电子设备的应用程序输入的语音信息。
通过采用该技术方案,电子设备实时监听用户的语音输入,并根据语音输入确定是否接收用户的语音信息。其中,电子设备根据用户的语音信息对应用程序进行内容搜索。提升了电子设备响应用户的准确性。
在一些可选的实施方式中,确定语音信息对应的实体的第一拼音列表包括:基于语音识别将语音信息识别为文本信息;从文本信息中确定一个或多个实体;生成各个实体的扩展拼音串;将各个实体的扩展拼音串组成第一拼音列表。
通过采用该技术方案,实现了实体识别和根据识别得到的实体生成第一拼音列表。电子设备实现语音宽输入,避免由于发音不准确或语音识别不准确导致的内容搜索不准确,扩展用于搜索的关键字。
在一些可选的实施方式中,确定语音信息对应的实体的第一拼音列表包括:基于拼音语音识别将语音信息识别为拼音串文本;从拼音串文本中确定一个或多个实体的拼音串文本;将各个实体的拼音串文本组成第一拼音列表。
通过采用该技术方案,电子设备直接将语音信息识别为拼音串文本,提升识别效率,从而提升确定第一拼音列表的效率。
在一些可选的实施方式中,根据首字母列表在应用程序进行内容搜索包括:通过模拟用户点击操作确定应用程序的搜索框;在应用程序的搜索框中输入首字母列表中的首字母串,以首字母列表中的首字母串为关键词在应用程序中进行搜索;对搜索结果进行解析或光学字符识别,得到一个或多个候选文本;将搜索得到的一个或多个候选文本组成候选文本列表。
通过采用该技术方案,实现电子设备根据首字母列表在应用程序中的内容搜索。
在一些可选的实施方式中,根据第一拼音列表计算第二拼音列表中的拼音串的第一编辑距离包括:对于第二拼音列表中的第一拼音串,计算第一拼音串与第一拼音列表中的每个拼音串的编辑距离,得到第一拼音串的多个编辑距离;从多个编辑距离中选取最小的编辑距离作为第一拼音串的第一编辑距离。
通过采用该技术方案,计算第二拼音列表中的第一拼音串到第一拼音列表的最小编辑距离。
在一些可选的实施方式中,根据第二拼音列表中的拼音串的第一编辑距离从候选文本列表中选取输出文本包括:确定第二拼音列表中的第一编辑距离最小的拼音串的数量;根据第二拼音列表中的第一编辑距离最小的拼音串的数量从候选文本列表中选取输出文本。
通过采用该技术方案,实现电子设备根据第二拼音列表中的拼音串的第一编辑距离从候选文本列表中选取输出文本,提升选取输出文本的准确性。
在一些可选的实施方式中,根据第二拼音列表中的第一编辑距离最小的拼音串的数量从候选文本列表中选取输出文本包括:若第二拼音列表中的第一编辑距离最小的拼音串包括一个拼音串,将第二拼音列表中的第一编辑距离最小的一个拼音串确定为目标拼音串;将目标拼音串对应的候选文本确定为输出文本。
通过采用该技术方案,在第二拼音列表中的第一编辑距离最小的拼音串只包括一个拼音串时,将该拼音串对应的候选文本确定为输出文本,提升确定输出文本的准确性。
在一些可选的实施方式中,将目标拼音串对应的候选文本确定为输出文本包括:获取第一编辑距离阈值;判断目标拼音串的第一编辑距离是否小于第一编辑距离阈值;若目标拼音串的第一编辑距离小于第一编辑距离阈值,将目标拼音串对应的候选文本确定为输出文本。
通过采用该技术方案,通过预设的第一编辑距离阈值控制确定输出文本的准确度。第一编辑距离阈值越小,确定输出文本的准确度越高。
在一些可选的实施方式中,根据第二拼音列表中的第一编辑距离最小的拼音串的数量从候选文本列表中选取输出文本包括:若第二拼音列表中的第一编辑距离最小的拼音串包括多个拼音串,将第二拼音列表中的第一编辑距离最小的多个拼音串确定为第三拼音列表;获取语音信息对应的实体字符长度和第三拼音列表对应的多个候选文本;基于语音信息对应的实体字符长度从第三拼音列表对应的多个候选文本中选取候选文本;将选取的候选文本确定为输出文本。
通过采用该技术方案,在第二拼音列表中的第一编辑距离最小的拼音串包括多个拼音串时,基于实体字符长度选取候选文本,并将选取的候选文本确定为输出文本,提升确定输出文本的准确性。
在一些可选的实施方式中,基于语音信息对应的实体字符长度从第三拼音列表对应的多个候选文本中选取候选文本包括:计算语音信息对应的实体字符长度与第三拼音列表对应的每个候选文本的字符长度的长度比值;从第三拼音列表对应的多个候选文本中选取与1最接近的长度比值对应的候选文本。
通过采用该技术方案,提升基于实体字符长度的长度比值从第三拼音列表对应的多个候选文本中选取候选文本的准确性。
在一些可选的实施方式中,基于语音信息对应的实体字符长度从第三拼音列表对应的多个候选文本中选取候选文本包括:计算语音信息对应的字符长度与第三拼音列表对应的每个候选文本的字符长度的长度差值;从第三拼音列表对应的多个候选文本中选取与0最接近的长度差值对应的候选文本。
通过采用该技术方案,提升基于字符长度的长度差值从第三拼音列表对应的多个候选文本中选取候选文本的准确性。
在一些可选的实施方式中,将选取的候选文本确定为输出文本包括:获取第二编辑距离阈值;判断第三拼音列表中的拼音串的第一编辑距离是否小于第二编辑距离阈值;若第三拼音列表中的拼音串的第一编辑距离小于第二编辑距离阈值,将选取的候选文本确定为输出文本。
通过采用该技术方案,在第二拼音列表中的第一编辑距离最小的拼音串包括多个拼音串时,通过预设的第二编辑距离阈值控制确定输出文本的准确度。第二编辑距离阈值越小,确定输出文本的准确度越高。
在一些可选的实施方式中,将选取的候选文本确定为输出文本包括:确定选取的候选文本的数量;根据选取的候选文本的数量将选取的候选文本确定为输出文本。
通过采用该技术方案,实现将选取的候选文本确定为输出文本。
在一些可选的实施方式中,根据选取的候选文本的数量将选取的候选文本确定为输出文本包括:若选取的候选文本包括一个候选文本,将选取的候选文本确定为输出文本。
通过采用该技术方案,直接将选取的一个候选文本确定为输出文本。
在一些可选的实施方式中,根据选取的候选文本的数量将选取的候选文本确定为输出文本包括:若选取的候选文本包括多个候选文本,在选取的多个候选文本中将与语音信息对应的实体一致的候选文本确定为输出文本;或者若选取的候选文本包括多个候选文本,确定与语音信息匹配度最高的目标实体,从选取的多个候选文本中将与目标实体对应的候选文本确定为输出文本。
通过采用该技术方案,实现从犯多个选取的候选文本中确定输出文本,提升确定输出文本的准确率。
在一些可选的实施方式中,在根据候选文本列表中的候选文本的拼音串和语音信息对应的实体的拼音串计算拼音串间的编辑距离,并从候选文本列表中选取输出文本之后,基于语音的搜索方法还包括:根据语音信息识别用户意图;根据输出文本控制应用程序执行用户意图对应的指令。
通过采用该技术方案,实现根据用户意图对应用程序进行控制,提升用户体验。
本申请第二方面公开了一种电子设备,包括处理器和存储器;存储器,用于存储指令;处理器,用于调用存储器中的指令,使得电子设备执行的基于语音的搜索方法或的基于语音的搜索方法。
本申请第三方面公开了一种计算机可读存储介质,计算机可读存储介质存储有至少一个指令,至少一个指令被处理器执行时实现的基于语音的搜索方法或的基于语音的搜索方法。
第二方面至第三方面所带来的技术效果可参见上述方法部分各涉及的方法相关的描述,此处不再赘述。
附图说明
图1A-1B是本申请实施例提供的一种基于语音的搜索方法的应用场景示意图。
图2A-2B是本申请实施例提供的另一种基于语音的搜索方法的应用场景示意图。
图3是本申请实施例提供的一种基于语音的搜索方法流程图。
图4是本申请实施例提供的一种基于语音的搜索方法的实例流程图。
图5是本申请实施例提供的电子设备的示意图。
具体实施方式
为了便于理解,示例性的给出了部分与本申请实施例相关概念的说明以供参考。
需要说明的是,本申请实施例中“至少一个”是指一个或者多个,“多个”是指两个或多于两个。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不是用于描述特定的顺序或先后次序。
基于语音的搜索方法应用于电子设备,电子设备可以包括手机、平板电脑、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)、上网本、个人数字助理(Personal Digital Assistant,PDA)等等。
为了便于理解,示例性的给出了部分与本申请实施例相关概念的说明以供参考。
实体即命名实体(Named Entity,NE),是指具有实体意义的一些特定名称,可用于表示人名、地名、机构名、歌曲名等,也可以表示时间、日期、数量短语等。
为了更好地理解本申请实施例公开的基于语音的搜索方法及相关设备,下面首先对本申请的基于语音的搜索方法的应用场景进行描述。
在一个利用语音识别技术ASR操作应用程序的场景中,用户A通过输入语音对通讯应用程序进行操作,例如,通过通讯应用程序给用户B打电话,用户A可以通过语音搜索通讯应用程序的命名实体(即用户B的名字),若用户A发音不准、输入语音的音量过大或过小、输入语音存在多音字、输入环境的噪音等问题,可能会导致ASR识别出错误的用户名,从而无法与通讯应用程序中的联系人匹配成功,也就不能正确地操作通讯应用程序给用户B打电话。需说明的是,电子设备中控制应用程序(例如,通讯应用程序)的语音助手通常不能获取通讯应用程序的全部数据,例如,用户A通过语音助手在通讯应用程序中搜索用户B的名字时,语音助手没有通讯应用程序的全部联系人数据,在语音识别的过程中,语音助手根据用户A输入的语音获得ASR识别结果,然后在通讯应用程序的搜索框中输入ASR识别结果来进行搜索,如果ASR识别不准确,也就不能搜索到用户B的名字。另一方面,通讯应用程序根据ASR识别结果对通讯录中的联系人进行严格匹配,也可能导致通讯应用程序不能搜索到用户B的名字。
基于上述提到的问题,本申请实施例提供一种基于语音的搜索方法以实现从应用程序中进行内容搜索。下文先以图1与图2的应用场景说明可在不同的应用程序中输入语音信息,并基于用户输入的语音信息对应用程序中的内容进行搜索,并根据搜索结果对应用程序进行相应的操作。下文针对图3将详细说明基于语音的搜索方法的具体实现方式。
如图1所示,为本申请实施例提供的一种基于语音的搜索方法的应用场景示意图。
以通讯应用程序为例,如图1A所示,为电子设备中的通讯应用程序界面。用户可以对通讯应用程序输入语音信息,以搜索通讯应用程序中的内容和根据搜索结果对通讯应用程序进行操作。
如图1B所示,为基于语音输入的通讯应用程序的内容搜索界面。例如,用户输入语音信息“打电话给王宁”(用户的意图是打电话给王琳,由于发音不准,将琳(lin)读为宁(ning),被电子设备语音识别为“打电话给王宁”),其中,“王宁”与“王琳”读音相近,电子设备的通讯应用程序中存在联系人“王琳”,不存在联系人“王宁”。电子设备根据语音识别结果从通讯应用程序的搜索框中搜索“WL”,基于本申请实施例的基于语音的搜索方法(详细描述请参考下文对图3的说明)从搜索结果“王琳”、“洞见未来”、“物流取件”中确定“王琳”为用户需要的联系人。再如,用户对电子设备输入语音“打电话给王琳”,电子设备将输入语音错误识别为“打电话给王宁”),其中,“王宁”与“王琳”读音相近,电子设备的通讯应用程序中存在联系人“王琳”,不存在联系人“王宁”。电子设备根据语音识别结果从通讯应用程序的搜索框中分别搜索“WN”、“WL”,基于本申请实施例的基于语音的搜索方法(详细描述请参考下文对图3的说明)从搜索结果“王琳”、“洞见未来”、“物流取件”中确定“王琳”为用户需要的联系人。
如图2所示,为本申请实施例提供的另一种基于语音的搜索方法的应用场景示意图。
以音乐播放应用程序为例,如图2A所示,为电子设备中的音乐播放应用程序界面。用户可以对音乐播放应用程序输入语音信息,以搜索音乐播放应用程序中的内容和根据搜索结果对音乐播放应用程序进行操作。
如图2B所示,为基于语音输入的音乐播放应用程序的内容搜索界面。用户输入语音信息,电子设备从音乐播放应用程序的搜索框中搜索语音信息对应的语音识别结果。
如图3所示,为本申请实施例提供的一种基于语音的搜索方法流程图,应用于电子设备中,具体地,基于语音的搜索方法包括:
S301,接收用户的语音信息。
用户可以通过语音对电子设备中的应用程序的内容进行搜索,并根据搜索结果操作应用程序。应用程序可以包括通讯应用程序、音乐播放应用程序等,应用程序的内容可以包括文本、图像、音视频数据等。
具体地,在本申请提供的实施例中,电子设备可以通过显示屏显示应用程序界面,应用程序接收用户输入的语音信息,例如,应用程序界面中可包括语音按钮,用户可通过点击或长按语音按钮进行语音输入。语音按钮可以是物理按钮,也可以是显示于电子设备的显示屏的虚拟按钮/图标,例如,麦克风图标等。响应于用户在应用程序界面对语音按钮的操作,电子设备通过麦克风接收用户输入的语音信息。
可选地,电子设备可以在显示屏处于黑屏状态时,或显示屏显示主界面时,接收用户对电子设备的应用程序输入的语音信息。例如,电子设备可以在显示屏处于黑屏状态时,接收用户对通讯应用程序A输入的语音信息为“通过通讯应用程序A打语音电话给给王宁”。
可选地,在本申请提供的其他实施例中,电子设备可以持续监听用户的语音输入,即电子设备处于录音状态;若监听到用户的语音输入,电子设备根据语音输入的声纹和语音输入的语义判断是否响应用户的语音输入;若根据语音输入的声纹和语音输入的语义确定响应用户的语音输入,接收用户对电子设备的应用程序输入的语音信息。其中,电子设备存储用户的预设声纹,电子设备根据语音输入的声纹和语音输入的语义判断是否接收用户对电子设备的应用程序输入的语音信息包括:电子设备根据语音输入的语义判断用户是否与电子设备进行语音交互;若语音输入的声纹与预设声纹一致,且根据语音输入的语义确定用户与电子设备进行语音交互,电子设备响应用户的语音输入,接收用户对电子设备的应用程序输入的语音信息;若语音输入的声纹与预设声纹不一致,或根据语音输入的语义确定用户没有与电子设备进行语音交互,电子设备不响应用户的语音输入。
可选地,在本申请提供的其他实施例中,电子设备可以响应于用户的唤醒语音输入操作,通过麦克风接收用户输入的语音信息。其中,唤醒语音输入操作可以是用户读预设语音。当电子设备监测到用户输入预设语音(例如,hi my phone)时,通过麦克风接收用户输入的语音信息。
S302,从语音信息对应的至少一个实体的拼音串中提取首字母列表。
在本申请的一个实施例中,从语音信息对应的至少一个实体的拼音串中提取首字母列表包括:(a)确定语音信息对应的实体的第一拼音列表,第一拼音列表包括一个实体的一个拼音串或多个实体的多个拼音串;(b)提取第一拼音列表中的每个拼音串对应的首字母串,得到第一拼音列表对应的首字母列表。
(a)确定语音信息对应的实体的第一拼音列表,第一拼音列表包括一个实体的一个拼音串或多个实体的多个拼音串。
在本申请的一个实施例中,电子设备可以基于语音识别将用户输入的语音信息识别为文本信息;从文本信息中确定一个或多个实体;生成各个实体的扩展拼音串;将各个实体的扩展拼音串组成第一拼音列表。例如,电子设备将用户输入的语音信息识别为文本信息“打电话给王宁”;从文本信息中确定实体“王宁”;生成实体的扩展拼音串为“wangning”、“wangling”、“wanglin”;将扩展拼音串组成第一拼音列表。第一拼音列表包括与语音信息中的实体对应的至少一个扩展拼音串。至少一个扩展拼音串可以用于提取首字母串。
可选地,文本信息可以包括多个子文本信息,电子设备可以根据多个子文本信息与语音信息的匹配度对多个子文本信息进行排序;将多个子文本信息中的前预设数量的子文本信息重新组成文本信息;从重新组成的文本信息中确定一个或多个实体;生成各个实体的扩展拼音串;将各个实体的扩展拼音串组成第一拼音列表。可选地,文本信息可以包括汉字文本或其他语音的文本。例如,当文本信息为汉字文本时,按照多个子文本信息与语音信息的匹配度从高到低的顺序,文本信息依次可以包括“打电话给王宁”、“打电话给王玲”、“打电话给王琳”、“打电话给王丽”;将多个子文本信息中的前3个子文本信息重新组成文本信息,重新组成的文本信息包括“打电话给王宁”、“打电话给王玲”、“打电话给王琳”;从重新组成的文本信息中确定实体“王宁”、“王玲”、“王琳”;生成各个实体的扩展拼音串“wangning”、“wangling”、“wanglin”、“wangnin”;将各个实体的扩展拼音串组成第一拼音列表。再如,当文本信息为英文文本时,按照多个子文本信息与语音信息的匹配度从高到低的顺序,文本信息依次可以包括“Call Wang Ning”、“Call Wang Ling”、“Call Wang Lin”、“Call Wang Li”;将多个子文本信息中的前3个子文本信息重新组成文本信息,重新组成的文本信息包括“Call Wang Ning”、“Call Wang Ling”、“Call Wang Lin”。再如,当文本信息为英文文本时,可以将英文文本翻译为汉字文本;从汉字文本中确定一个或多个实体;生成各个实体的扩展拼音串;将各个实体的扩展拼音串组成第一拼音列表。其中,在将语音信息识别为文本信息时,电子设备存储有每个子文本信息与语音信息的匹配度,以根据匹配度输出识别结果。
具体地,从文本信息中确定一个或多个实体包括:基于实体识别从文本信息中确定一个或多个实体;和/或基于槽位提取从文本信息中确定一个或多个实体。槽位提取指的是通过自然语言处理(Natural Language Processing,NLP)或者预设规则提取到实际待搜索的实体。其中,槽位可以理解为用户用来表达意图的关键信息。
在基于槽位提取从文本信息中确定一个或多个实体的一个实例中,例如,文本信息为“打电话给王宁”,电子设备可以根据识别预设词“打电话给”识别出位于预设词后的联系人槽位[person],即“打电话给[person]”。电子设备可以从“打电话给[王宁]”中提取联系人槽位的实体为[王宁]。
在基于槽位提取从文本信息中确定一个或多个实体的另一个实例中,文本信息为“打电话给王宁”,电子设备可以识别文本信息中的用户意图为打电话给联系人;电子设备中存储与用户意图匹配的联系人槽位;从文本信息中识别出实体“王宁”;计算识别出的实体相对于联系人槽位的置信度;若计算出的置信度大于或等于预设置信度,将识别出的实体“王宁”确定为联系人槽位的实体。可选地,计算识别出的实体相对于联系人槽位的置信度可以包括:从预设实体数据库中确定识别出的实体的第一数量,从预设实体数据库中确定槽位为联系人槽位的识别出的实体的第二数量,将第一数量与第二数量的比值确定为识别出的实体相对于联系人槽位的置信度。
在本申请的另一个实施例中,当文本信息为拼音串文本时,电子设备可以基于拼音语音识别将语音信息识别为拼音串文本;从拼音串文本中确定一个或多个实体的拼音串文本;将各个实体的拼音串文本组成第一拼音列表。例如,电子设备可以将语音信息识别为“da dian hua gei wang ning”;从拼音串文本中确定实体的拼音串为“wang ning”;将实体的拼音串添加至第一拼音列表,第一拼音列表包括包括“wang ning”一个拼音串。可以将拼音串文本转化为汉字文本,根据拼音串文本对应的汉字文本确定实体的拼音串。例如,将拼音串文本“da dian hua gei wang ning”转化为汉字文本“打电话给王宁”;根据“打电话给王宁”确定实体为“王宁”,进一步确定实体“王宁”的拼音串为“wang ning”。
可选地,在将各个实体的拼音串文本组成第一拼音列表之前,电子设备对各个实体的拼音串文本进行扩展。例如,在将实体的拼音串文本“wang ning”插入第一拼音列表之前,电子设备对拼音串文本“wang ning”进行扩展,得到“wangning”、“wangling”、“wanglin”;将“wangning”、“wangling”、“wanglin”都插入第一拼音列表。
本实施例中,电子设备可以通过对语音信息进行音素匹配,得到拼音串文本。
拼音即汉语拼音,是汉语普通话拉丁转写标准,主要用于给汉字注音。汉语拼音采用国际通用的26个拉丁字母,分声母和韵母。汉语的语音单位主要包括音节,汉语中一个汉字就可以是一个音节,即把声母加上韵母或者单独一个韵母就可以成为一个音节。
可选地,拼音串文本可以包括多个拼音串子文本,电子设备可以根据多个拼音串子文本与语音信息的匹配度对多个拼音串子文本进行排序;将多个拼音串子文本中的前预设数量的拼音串子文本重新组成拼音串文本;从重新组成的拼音串文本中确定一个或多个实体的拼音串文本。例如,按照多个拼音串子文本与语音信息的匹配度从高到低的顺序,拼音串文本中的多个拼音串子文本依次为“da dian hua gei wang ning”、“da dian huagei wang ling”、“da dian hua gei wang lin”、“da dian hua gei wang li”;将多个拼音串子文本中的前3个拼音串子文本重新组成拼音串文本,重新组成的拼音串文本包括“dadian hua gei wang ning”、“da dian hua gei wang ling”、“da dian hua gei wanglin”。
(b)提取第一拼音列表中的每个拼音串对应的首字母串,得到第一拼音列表对应的首字母列表。
具体地,电子设备可以提取每个拼音串的首字母,将提取的该拼音串对应的首字母组成该拼音串对应的首字母串。例如,第一拼音列表包括3个拼音串,分别为“wangning”、“wangling”、“wanglin”;拼音串“wangning”对应的首字母串为“wn”,拼音串“wangling”对应的首字母串为“wl”,拼音串“wanglin”对应的首字母串为“wl”。再如,拼音串“shangbuqu”对应的首字母串为“sbq”。
可选地,电子设备可以对首字母列表中的首字母串进行去重处理,以删除首字母列表中重复的首字母串。例如,上述三个拼音串经识别后,有两个拼音串所对应的首字母串是相同的,为“wl”、“wl”,则可对重复的首字母串进行去重处理,得到“wl”,即去重后的首字母列表包括一个“wl”。
S303,根据首字母列表在应用程序进行内容搜索,得到候选文本列表,候选文本列表包括至少一个候选文本。
例如,电子设备可以根据首字母列表中的2个首字母串“wn”、“wl”,在应用程序进行内容搜索,得到多个候选文本为“王琳”、“洞见未来”、“物流取件”,将多个候选文本组成候选文本列表。其中,在应用程序中,没有“wn”对应的候选文本,由于用户读音错误或电子设备的语音识别不准确,实体的拼音串被误确定为“wangning”,从而导致首字母列表包括“wn”。
电子设备可以逐个将首字母列表中的首字母串输入应用程序的搜索框中进行多轮搜索,得到一个或多个候选文本;电子设备将搜索得到的一个或多个候选文本组成候选文本列表。
具体地,电子设备可以通过模拟用户点击操作确定应用程序的搜索框;在应用程序的搜索框中输入首字母列表中的首字母串,以首字母列表中的首字母串为关键词在应用程序中进行搜索;对搜索结果进行解析或光学字符识别(Optical CharacterRecognition,OCR),得到一个或多个候选文本;将搜索得到的一个或多个候选文本组成候选文本列表。
具体地,电子设备可以对应用程序进行页面解析,得到搜索控件,搜索控件可以包括输入框和搜索图标;可以在输入框中逐个输入首字母列表中的首字母串,并通过模拟用户点击搜索图标的操作在应用程序中逐个搜索输入框中的首字母串;对搜索结果进行解析或光学字符识别,得到一个或多个候选文本;将搜索得到的一个或多个候选文本组成候选文本列表。其中,搜索图标可以包括放大镜图标或带有“搜索”字样的图标等。
可选地,在根据首字母列表在应用程序进行内容搜索时,电子设备可以通过在应用程序的最上层显示蒙板动效隐藏内容搜索过程,使内容搜索过程对用户不可见。若根据首字母列表在应用程序进行内容搜索完成,撤消模板动效,显示搜索结果。其中,蒙版是一个具有遮挡功能的图层,蒙版动效是蒙版上显示的动态效果,动态效果简要显示当前状态,如正在搜索状态。电子设备可以通过蒙版动效简要地向用户显示当前状态,避免用户看到繁杂的处理过程。
S304,根据候选文本列表中的候选文本的拼音串和语音信息对应的实体的拼音串计算拼音串间的编辑距离,并从候选文本列表中选取输出文本。
在本申请的一个实施例中,根据候选文本列表中的候选文本的拼音串和语音信息对应的实体的拼音串计算拼音串间的编辑距离,并从候选文本列表中选取输出文本包括:(c)将候选文本列表中的每个候选文本转换为拼音串,得到候选文本列表对应的第二拼音列表,第二拼音列表包括候选文本列表中的候选文本的拼音串;(d)根据第一拼音列表计算第二拼音列表中的拼音串的第一编辑距离;(e)根据第二拼音列表中的拼音串的第一编辑距离从候选文本列表中选取输出文本。
(c)将候选文本列表中的每个候选文本转换为拼音串,得到候选文本列表对应的第二拼音列表,第二拼音列表包括候选文本列表中的候选文本的拼音串。
具体地,电子设备可以从预设拼音数据库中查询每个候选文本的拼音串。
例如,候选文本列表中的3个候选文本为“王琳”、“洞见未来”、“物流取件”,电子设备从预设拼音数据库中查询到3个候选文本的拼音串分别为“wanglin”、“dongjianweilai”、“wuliuqujian”;将3个候选文本的拼音串文本组成第二拼音列表。
(d)根据第一拼音列表计算第二拼音列表中的拼音串的第一编辑距离。
基于编辑距离算法(Edit-distance based algorithm,EDA),电子设备可以根据第一拼音列表计算第二拼音列表中的拼音串的第一编辑距离。编辑距离算法是衡量两个字符串的匹配程度的算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符、插入一个字符或删除一个字符等。电子设备可以利用编辑距离算法来计算第二拼音列表中的各个拼音串与第一拼音列表中的各个拼音串的编辑距离。
具体地,对于第二拼音列表中的第一拼音串,计算第一拼音串与第一拼音列表中的每个拼音串的编辑距离,得到第一拼音串的多个编辑距离;从多个编辑距离中选取最小的编辑距离作为第一拼音串的第一编辑距离。
例如,第二拼音列表中的一个拼音串为“wanglin”,第一拼音列表中的拼音串为“wangning”、“wangling”、“wanglin”;基于音节的编辑距离,“wanglin”与“wangning”的编辑距离为1,“wanglin”与“wangling”的编辑距离为1,“wanglin”与“wanglin”的编辑距离为0;选取最小的编辑距离0作为该拼音串的第一编辑距离。再如,基于音素的编辑距离,“wanglin”与“wangning”的编辑距离为2,“wanglin”与“wangling”的编辑距离为1,“wanglin”与“wanglin”的编辑距离为0;选取最小的编辑距离0作为该拼音串的第一编辑距离。
(e)根据第二拼音列表中的拼音串的第一编辑距离从候选文本列表中选取输出文本。
在本申请的一个实施例中,电子设备确定第二拼音列表中的第一编辑距离最小的拼音串的数量;根据第二拼音列表中的第一编辑距离最小的拼音串的数量从候选文本列表中选取输出文本。
在本申请的一个实施例中,若第二拼音列表中的第一编辑距离最小的拼音串包括一个拼音串,将第二拼音列表中的第一编辑距离最小的一个拼音串确定为目标拼音串;将目标拼音串对应的候选文本确定为输出文本。
具体地,电子设备将目标拼音串对应的候选文本确定为输出文本包括:电子设备可以获取第一编辑距离阈值;判断目标拼音串的第一编辑距离是否小于第一编辑距离阈值;若目标拼音串的第一编辑距离小于第一编辑距离阈值,将目标拼音串对应的候选文本确定为输出文本。其中,编辑距离阈值可以为1、2等。
在本申请的另一个实施例中,若第二拼音列表中的第一编辑距离最小的拼音串包括多个拼音串,将第二拼音列表中的第一编辑距离最小的多个拼音串确定为第三拼音列表;获取语音信息对应的实体字符长度和第三拼音列表对应的多个候选文本;基于语音信息对应的实体字符长度从第三拼音列表对应的多个候选文本中选取候选文本;将选取的候选文本确定为输出文本。例如,第三拼音列表包括第一编辑距离最小的两个拼音串,分别为拼音串A和拼音串B,拼音串A对应的候选文本A的字符长度为3,拼音串B对应的候选文本B的字符长度为4;语音信息对应的实体字符长度为2,选择字符长度接近2的候选文本A,将候选文本A确定为输出文本。
具体地,电子设备将选取的候选文本确定为输出文本包括:电子设备可以获取第二编辑距离阈值;判断第三拼音列表中的拼音串的第一编辑距离是否小于第二编辑距离阈值;若第三拼音列表中的拼音串的第一编辑距离小于第二编辑距离阈值,将选取的候选文本确定为输出文本。其中,第二编辑距离阈值可以与第一编辑距离阈值相同。
可选地,基于语音信息对应的实体字符长度从第三拼音列表对应的多个候选文本中选取候选文本包括:电子设备计算语音信息对应的实体字符长度与第三拼音列表对应的每个候选文本的字符长度的长度比值;从第三拼音列表对应的多个候选文本中选取与1最接近的长度比值对应的候选文本。如上例,候选文本A的长度比值为2/3,候选文本B的长度比值为2/4,候选文本A的长度比值2/3最接近1,选取候选文本A作为输出文本。
可选地,基于语音信息对应的实体字符长度从第三拼音列表对应的多个候选文本中选取候选文本包括:电子设备计算语音信息对应的实体字符长度与第三拼音列表对应的每个候选文本的字符长度的长度差值;从第三拼音列表对应的多个候选文本中选取与0最接近的长度差值对应的候选文本。如上例,候选文本A的长度差值为-1,候选文本B的长度差值为-2,候选文本A的长度差值-1最接近0,选取候选文本A作为输出文本。
具体地,将选取的候选文本确定为输出文本包括:确定选取的候选文本的数量;若选取的候选文本包括一个候选文本,将选取的候选文本确定为输出文本;若选取的候选文本包括多个候选文本,在选取的多个候选文本中将与语音信息对应的实体一致的候选文本确定为输出文本;或者确定与语音信息匹配度最高的目标实体,从选取的多个候选文本中将与目标实体对应的候选文本确定为输出文本。
在本申请的一个实施例中,在根据第二拼音列表中的拼音串的第一编辑距离从候选文本列表中选取输出文本之后,基于语音的搜索方法还包括:
根据语音信息识别用户意图;
根据输出文本控制应用程序执行用户意图对应的指令。
例如,电子设备根据对通讯应用程序输入的语音信息“打电话给王宁”识别出用户意图为,通过通讯应用程序打电话给联系人;根据输出文本“王琳”控制通讯应用程序打电话给王琳。
进一步地,在根据输出文本控制应用程序执行用户意图对应的指令前,还可通过弹出窗口提示用户是否执行,例如,弹出窗口可包括两个功能按键:“是”与“否”,再如,弹出窗口可以包括语音确认采集提示,提示用户语音输入“是”与“否”。根据用户的确认操作来判断是否执行用户意图对应的指令。对弹出窗口的显示模式以及功能按键的说明仅为举例说明,实际应用中并不局限于此。
在电子设备基于语音对应用程序进行内容搜索时,本申请的实施例能够提高搜索准确度;针对语音输入的不确定性与应用程序中内容搜索的严格匹配性之间的不对称问题,在语音搜索的场景,提供了一种接收语音宽输入、页面搜索松匹配的应用内容搜索方法,比直接匹配方法具有更强的场景适应性和准确性。
如图4所示,为本申请实施例提供的一种基于语音的搜索方法的实例流程图。
在本申请提供的实施例中,为实现基于语音的搜索方法,电子设备提供多个功能模块进行协同操作,例如,可包括控制执行模块、语音处理模块、算法模块、内容处理模块。电子设备接收用户输入的语音控制信息“打电话给王宁”,通过语音处理模块对语音控制信息进行语音识别和槽位提取,得到3个实体和每个实体对应的拼音串。例如,3个实体包括“王宁”、“王玲”、“王琳”,3个实体对应的拼音串分别为“wnagning”、“wangling”、“wanglin”。
语音处理模块根据拼音串向算法模块发出询问通知。算法模块提取出拼音串的首字母,首字母分别为“WN”、“WL”,算法模块将首字母发送给内容处理模块。内容处理模块根据首字母在通讯应用程序中进行内容搜索,得到多个候选文本,分别为“王琳”、“洞见未来”、“物流取件”。算法模块基于编辑距离算法计算与语音控制信息最匹配的输出文本“王琳”,并将输出文本发送给控制执行模块。控制执行模块控制通讯应用程序打电话给“王琳”,并向用户返回通话界面。
如图5所示,为本申请实施例提供的电子设备的示意图。电子设备50包括存储器501、处理器502以及存储在存储器501中并可在处理器502上运行的计算机可读指令,例如基于语音的搜索程序。处理器502执行计算机可读指令时实现上述基于语音的搜索方法实施例中的步骤。
本领域技术人员可以理解,示意图5仅仅是电子设备50的示例,并不构成对电子设备50的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备50还可以包括输入输出设备、网络接入设备、总线等。
所称处理器502可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器502也可以是任何常规的处理器等,处理器502是电子设备50的控制中心,利用各种接口和线路连接整个电子设备50的各个部分。
存储器501可用于存储计算机可读指令,处理器502通过运行或执行存储在存储器501内的计算机可读指令或模块,以及调用存储在存储器501内的数据,实现电子设备50的各种功能。存储器501可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备50的使用所创建的数据等。此外,存储器501可以包括硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)或其他非易失性/易失性存储器件。
电子设备50集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机可读指令包括计算机可读指令代码,计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM)、随机存取存储器(RAM)等。
本实施例还提供一种计算机存储介质,该计算机存储介质中存储有计算机指令,当该计算机指令在电子设备上运行时,使得电子设备执行上述相关方法步骤实现上述实施例中的基于语音的搜索方法。
本实施例还提供了一种计算机程序产品,当该计算机程序产品在电子设备上运行时,使得电子设备执行上述相关步骤,以实现上述实施例中的基于语音的搜索方法。
另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的基于语音的搜索方法。
其中,本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
该作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (20)
1.一种基于语音的搜索方法,应用于电子设备中,其特征在于,所述方法包括:
接收用户的语音信息;
从所述语音信息对应的至少一个实体的拼音串中提取首字母列表;
根据所述首字母列表在应用程序进行内容搜索,得到候选文本列表,所述候选文本列表包括至少一个候选文本;
根据所述候选文本列表中的候选文本的拼音串和所述语音信息对应的实体的拼音串计算拼音串间的编辑距离,并从所述候选文本列表中选取输出文本。
2.如权利要求1所述的基于语音的搜索方法,其特征在于,所述从所述语音信息对应的至少一个实体的拼音串中提取首字母列表包括:
确定所述语音信息对应的实体的第一拼音列表,所述第一拼音列表包括一个实体的一个拼音串或多个实体的多个拼音串;
提取所述第一拼音列表中的每个拼音串对应的首字母串,得到所述第一拼音列表对应的首字母列表。
3.如权利要求2所述的基于语音的搜索方法,其特征在于,所述根据所述候选文本列表中的候选文本的拼音串和所述语音信息对应的实体的拼音串计算拼音串间的编辑距离,并从所述候选文本列表中选取输出文本包括:
将所述候选文本列表中的每个候选文本转换为拼音串,得到所述候选文本列表对应的第二拼音列表,所述第二拼音列表包括所述候选文本列表中的候选文本的拼音串;
根据所述第一拼音列表计算所述第二拼音列表中的拼音串的第一编辑距离;
根据所述第二拼音列表中的拼音串的第一编辑距离从所述候选文本列表中选取输出文本。
4.如权利要求1所述的基于语音的搜索方法,其特征在于,所述接收用户的语音信息包括:
监听所述用户的语音输入;
若监听到所述用户的语音输入,电子设备根据所述语音输入的声纹和所述语音输入的语义判断是否响应用户的语音输入;
若根据所述语音输入的声纹和所述语音输入的语义确定响应所述用户的语音输入,接收所述用户对所述电子设备的应用程序输入的语音信息。
5.如权利要求2所述的基于语音的搜索方法,其特征在于,所述确定所述语音信息对应的实体的第一拼音列表包括:
基于语音识别将所述语音信息识别为文本信息;
从所述文本信息中确定一个或多个实体;
生成各个实体的扩展拼音串;
将各个实体的扩展拼音串组成第一拼音列表。
6.如权利要求2所述的基于语音的搜索方法,其特征在于,所述确定所述语音信息对应的实体的第一拼音列表包括:
基于拼音语音识别将所述语音信息识别为拼音串文本;
从所述拼音串文本中确定一个或多个实体的拼音串文本;
将各个实体的拼音串文本组成第一拼音列表。
7.如权利要求1所述的基于语音的搜索方法,其特征在于,所述根据所述首字母列表在应用程序进行内容搜索包括:
通过模拟用户点击操作确定所述应用程序的搜索框;
在所述应用程序的搜索框中输入所述首字母列表中的首字母串,以所述首字母列表中的首字母串为关键词在所述应用程序中进行搜索;
对搜索结果进行解析或光学字符识别,得到一个或多个候选文本;
将搜索得到的一个或多个候选文本组成候选文本列表。
8.如权利要求3所述的基于语音的搜索方法,其特征在于,所述根据所述第一拼音列表计算所述第二拼音列表中的拼音串的第一编辑距离包括:
对于所述第二拼音列表中的任一第一拼音串,计算所述第一拼音串与所述第一拼音列表中的每个拼音串的编辑距离,得到所述第一拼音串的多个编辑距离;
从所述多个编辑距离中选取最小的编辑距离作为所述第一拼音串的第一编辑距离。
9.如权利要求3所述的基于语音的搜索方法,其特征在于,所述根据所述第二拼音列表中的拼音串的第一编辑距离从所述候选文本列表中选取输出文本包括:
确定所述第二拼音列表中的第一编辑距离最小的拼音串的数量;
根据所述第二拼音列表中的第一编辑距离最小的拼音串的数量从所述候选文本列表中选取输出文本。
10.如权利要求9所述的基于语音的搜索方法,其特征在于,所述根据所述第二拼音列表中的第一编辑距离最小的拼音串的数量从所述候选文本列表中选取输出文本包括:
若所述第二拼音列表中的第一编辑距离最小的拼音串包括一个拼音串,将所述第二拼音列表中的第一编辑距离最小的一个拼音串确定为目标拼音串;
将所述目标拼音串对应的候选文本确定为输出文本。
11.如权利要求10所述的基于语音的搜索方法,其特征在于,所述将所述目标拼音串对应的候选文本确定为输出文本包括:
获取第一编辑距离阈值;
判断所述目标拼音串的第一编辑距离是否小于所述第一编辑距离阈值;
若所述目标拼音串的第一编辑距离小于所述第一编辑距离阈值,将所述目标拼音串对应的候选文本确定为输出文本。
12.如权利要求9所述的基于语音的搜索方法,其特征在于,所述根据所述第二拼音列表中的第一编辑距离最小的拼音串的数量从所述候选文本列表中选取输出文本包括:
若所述第二拼音列表中的第一编辑距离最小的拼音串包括多个拼音串,将所述第二拼音列表中的第一编辑距离最小的多个拼音串确定为第三拼音列表;
获取所述语音信息对应的实体字符长度和所述第三拼音列表对应的多个候选文本;
基于所述语音信息对应的实体字符长度从所述第三拼音列表对应的多个候选文本中选取候选文本;
将所述选取的候选文本确定为输出文本。
13.如权利要求12所述的基于语音的搜索方法,其特征在于,所述基于所述语音信息对应的实体字符长度从所述第三拼音列表对应的多个候选文本中选取候选文本包括:
计算所述语音信息对应的实体字符长度与所述第三拼音列表对应的每个候选文本的字符长度的长度差值;
从所述第三拼音列表对应的多个候选文本中选取与0最接近的长度差值对应的候选文本。
14.如权利要求12所述的基于语音的搜索方法,其特征在于,所述将所述选取的候选文本确定为输出文本包括:
获取第二编辑距离阈值;
判断所述第三拼音列表中的拼音串的第一编辑距离是否小于所述第二编辑距离阈值;
若所述第三拼音列表中的拼音串的第一编辑距离小于所述第二编辑距离阈值,将所述选取的候选文本确定为输出文本。
15.如权利要求12所述的基于语音的搜索方法,其特征在于,所述将所述选取的候选文本确定为输出文本包括:
确定选取的候选文本的数量;
根据所述选取的候选文本的数量将所述选取的候选文本确定为输出文本。
16.如权利要求15所述的基于语音的搜索方法,其特征在于,所述根据所述选取的候选文本的数量将所述选取的候选文本确定为输出文本包括:
若所述选取的候选文本包括一个候选文本,将所述选取的候选文本确定为输出文本。
17.如权利要求15所述的基于语音的搜索方法,其特征在于,所述根据所述选取的候选文本的数量将所述选取的候选文本确定为输出文本包括:
若所述选取的候选文本包括多个候选文本,在所述选取的多个候选文本中将与所述语音信息对应的实体一致的候选文本确定为输出文本;或者
若所述选取的候选文本包括多个候选文本,确定与所述语音信息匹配度最高的目标实体,从所述选取的多个候选文本中将与所述目标实体对应的候选文本确定为输出文本。
18.如权利要求1所述的基于语音的搜索方法,其特征在于,在所述根据所述候选文本列表中的候选文本的拼音串和所述语音信息对应的实体的拼音串计算拼音串间的编辑距离,并从所述候选文本列表中选取输出文本之后,所述方法还包括:
根据所述语音信息识别用户意图;
根据所述输出文本控制应用程序执行所述用户意图对应的指令。
19.一种电子设备,其特征在于,包括处理器和存储器;所述存储器,用于存储指令;所述处理器,用于调用所述存储器中的指令,使得所述电子设备执行如权利要求1至18中任一项所述的基于语音的搜索方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至18中任一项所述的基于语音的搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110182991.XA CN114911896A (zh) | 2021-02-09 | 2021-02-09 | 基于语音的搜索方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110182991.XA CN114911896A (zh) | 2021-02-09 | 2021-02-09 | 基于语音的搜索方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114911896A true CN114911896A (zh) | 2022-08-16 |
Family
ID=82761204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110182991.XA Pending CN114911896A (zh) | 2021-02-09 | 2021-02-09 | 基于语音的搜索方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114911896A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598527A (zh) * | 2014-12-26 | 2015-05-06 | 盈世信息科技(北京)有限公司 | 一种语音搜索方法及装置 |
CN107016994A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
CN109785842A (zh) * | 2017-11-14 | 2019-05-21 | 蔚来汽车有限公司 | 语音识别纠错方法以及语音识别纠错系统 |
-
2021
- 2021-02-09 CN CN202110182991.XA patent/CN114911896A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598527A (zh) * | 2014-12-26 | 2015-05-06 | 盈世信息科技(北京)有限公司 | 一种语音搜索方法及装置 |
CN107016994A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
CN109785842A (zh) * | 2017-11-14 | 2019-05-21 | 蔚来汽车有限公司 | 语音识别纠错方法以及语音识别纠错系统 |
Non-Patent Citations (1)
Title |
---|
成刚: ""一本书读懂智能家居核心技术"", 31 January 2020, 北京:机械工业出版社, pages: 238 - 245 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN108847241B (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
US10192545B2 (en) | Language modeling based on spoken and unspeakable corpuses | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN110223695B (zh) | 一种任务创建方法及移动终端 | |
US10558701B2 (en) | Method and system to recommend images in a social application | |
RU2571608C2 (ru) | Создание заметок с использованием голосового потока | |
JP3962763B2 (ja) | 対話支援装置 | |
US20190027147A1 (en) | Automatic integration of image capture and recognition in a voice-based query to understand intent | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN108399914B (zh) | 一种语音识别的方法和装置 | |
US20100217581A1 (en) | Multi-Mode Input Method Editor | |
EP3405912A1 (en) | Analyzing textual data | |
CN1742273A (zh) | 多模态语音-语音语言翻译和显示 | |
CN107707745A (zh) | 用于提取信息的方法和装置 | |
US20160267902A1 (en) | Speech recognition using a foreign word grammar | |
CN112287680B (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
CN109285548A (zh) | 信息处理方法、系统、电子设备、和计算机存储介质 | |
CN112133295B (zh) | 语音识别方法、装置及存储介质 | |
CN110781329A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN113268981A (zh) | 一种信息处理方法、装置及电子设备 | |
CN113051384A (zh) | 基于对话的用户画像抽取方法及相关装置 | |
CN107797676B (zh) | 一种单字输入方法及装置 | |
CN112581297B (zh) | 基于人工智能的信息推送方法、装置及计算机设备 | |
CN114242047A (zh) | 一种语音处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |