CN111742539B - 一种语音控制命令生成方法及终端 - Google Patents
一种语音控制命令生成方法及终端 Download PDFInfo
- Publication number
- CN111742539B CN111742539B CN201880089962.5A CN201880089962A CN111742539B CN 111742539 B CN111742539 B CN 111742539B CN 201880089962 A CN201880089962 A CN 201880089962A CN 111742539 B CN111742539 B CN 111742539B
- Authority
- CN
- China
- Prior art keywords
- interface
- text
- terminal
- information
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 230000004044 response Effects 0.000 claims description 73
- 238000003860 storage Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 10
- 239000008267 milk Substances 0.000 description 61
- 210000004080 milk Anatomy 0.000 description 61
- 235000013336 milk Nutrition 0.000 description 61
- 238000004891 communication Methods 0.000 description 44
- 230000006854 communication Effects 0.000 description 44
- 230000006870 function Effects 0.000 description 42
- 238000013461 design Methods 0.000 description 28
- 238000012545 processing Methods 0.000 description 23
- 238000007726 management method Methods 0.000 description 15
- 230000001413 cellular effect Effects 0.000 description 14
- 210000004027 cell Anatomy 0.000 description 13
- 230000005236 sound signal Effects 0.000 description 11
- 210000000988 bone and bone Anatomy 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000001976 improved effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 239000000945 filler Substances 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- YOBAEOGBNPPUQV-UHFFFAOYSA-N iron;trihydrate Chemical compound O.O.O.[Fe].[Fe] YOBAEOGBNPPUQV-UHFFFAOYSA-N 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例公开了一种语音控制命令生成方法及终端,涉及语音控制技术领域,可以提高自定义语音控制的灵活性,提升用户体验。具体方案为:终端响应于第一操作,显示提示信息,该提示信息用于提示用户输入待记录操作;终端接收用户输入的一个或多个操作;终端响应于用户输入的第二操作,完成一个或多个操作对应的操作信息的记录;终端根据用户输入的第三操作,确定与操作信息对应的第一文本信息;终端接收第一语音命令;当第一语音命令的文本与第一文本信息匹配时,终端根据操作信息执行相应的操作。
Description
技术领域
本申请实施例涉及语音控制技术领域,尤其涉及一种语音控制命令生成方法及终端。
背景技术
语音助手是终端(如手机)的一项重要应用。语音助手可以与用户进行智能对话和即时问答的智能交互。其中,语音助手的自定义语音控制已成为语音助手的发展趋势。
语音助手的自定义语音控制是指:语音助手可以接收用户输入的自定义命令(语音数据或者文本信息),并将该自定义命令与用户想要通过该自定义命令控制终端执行的操作绑定起来。这样,语音助手下一次接收到该自定义命令对应的语音命令时,终端便可以自动执行与该自定义命令绑定的操作。
一些终端虽然可以提供语音助手的自定义语音控制的功能;但是,能够与自定义命令绑定的操作是预先定义好的。也就是说,用户只能从预先定义的操作中,选择该自定义命令要绑定的操作。如果用户想要通过该自定义命令控制终端执行的操作不包含在上述预定义的操作中,语音助手则无法提供自定义语音控制功能。即终端无法实现用户的个性化自定义语音控制。
为了解决上述问题,另一些终端的语音助手可以接收用户输入的自定义命令(如“淘宝买牛奶”);学习用户针对该自定义命令在终端中的操作(如点击“淘宝”应用图标、在“淘宝”首页的搜索框中输入“牛奶”);将该自定义命令与用户针对该自定义命令的操作绑定起来。如此,语音助手下一次接收到该自定义命令对应的语音命令(如“淘宝买牛奶”)时,终端便可以依次显示模拟用户执行该自定义命令对应的操作(如点击“淘宝”应用图标、在“淘宝”首页的搜索框中输入“牛奶”)的界面。最后,终端可以显示该自定义命令对应的结果界面,如用户在“淘宝”首页的搜索框中输入“牛奶”后的搜索结果界面。
但是,虽然语音助手可以通过学习用户针对自定义命令在终端中的操作,实现用户的个性化自定义语音控制。但是,一旦将自定义命令与用户针对该自定义命令的操作绑定起来,用户下一次需要一字不差的说出该自定义命令对应的语音命令(如“淘宝买牛奶”),终端才可以执行该自定义命令对应的操作。即使语音助手接收到与该自定义命令对应的语音命令相近的语音命令,终端也不会执行该自定义命令对应的操作。终端的自定义语音控制功能灵活性较差,影响用户体验。
发明内容
本申请实施例提供一种语音控制命令生成方法及终端,可以提高自定义语音控制的灵活性,提升用户体验。
第一方面,本申请实施例提供一种语音控制命令生成方法。该语音控制命令生成方法可以包括:终端响应于第一操作,显示用于提示用户输入待记录操作的提示信息;终端接收用户输入的一个或多个操作;响应于用户输入的第二操作,终端完成一个或多个操作对应的操作信息的记录;终端根据用户输入的第三操作,确定与操作信息对应的第一文本信息;终端接收第一语音命令;当第一语音命令所对应的文本与第一文本信息匹配时,终端根据操作信息执行相应的操作。
本申请实施例中,终端可以先获取一个或多个操作对应的操作信息,然后再根据用户的第三操作确定出与上述操作信息对应的第一文本信息,即上述一个或多个操作所对应的文本信息。该第一文本信息是用户选择的符合用户语言习惯的命令。终端接收到第一语音命令后,只要第一语音命令的文本与第一文本信息匹配,终端就可以根据上述操作信息执行相应的操作。而不需要用户一字不差的说出文本信息对应的语音命令,终端才会执行对应的操作。通过本方案,可以提高自定义语音控制的灵活性,提升用户体验。
结合第一方面,在一种可能的设计方式中,上述第一文本信息包括至少一个第一部分和第二部分。上述第一语音命令所对应的文本与第一文本信息匹配,包括:第一语音命令所对应的文本中的至少一个第三部分与至少一个第一部分相同,且至少一个第三部分与第一语音命令中的第四部分的位置关系,与至少一个第一部分和第二部分在第一文本信息中的位置关系相同。
其中,上述操作信息包括:第一应用标识、第一界面标识、第一查询词和操作指示信息。第一应用标识为一个或多个操作的操作对象应用的标识,第一界面标识为一个或多个操作的操作对象界面的标识,上述操作指示信息用于指示一个或多个操作在操作对象界面上所做的操作。
可以理解,至少一个第一部分包括第一应用标识和/或第一界面标识,第二部分包括第一查询词。换言之,当第一语音命令的第三部分为第一应用标识和/或第一界面标识,且第四部分与第三部分在第一语音命令中的位置关系,与第一部分和第二部分在第一文本信息中的位置关系相同时,第一语音命令与第一文本信息匹配。
结合第一方面,在另一种可能的设计方式中,上述终端响应于第一操作,显示提示信息的方法可以包括:终端响应于第一操作,在语音助手的第一界面显示提示信息。其中,第一操作可以是用户对终端的“设置”应用中的“自定义语音控制”界面中的“添加自定义命令”选项的点击操作(如单击操作)。或者,上述第一操作还可以是用户在语音助手的语音控制界面输入预设语音命令。例如,该预设语音命令可以是“跟我学”。语音助手的第一界面可以为语音助手中用于添加自定义命令的“添加自定义命令界面”。
其中,终端接收用户输入的一个或多个操作的方法可以包括:终端响应于用户在第一界面的第四操作,显示第二界面;终端接收用户在第二界面输入的一个或多个操作。第二界面用于用户输入一个或多个操作。例如,第四操作可以为用户在第一界面输入的第二预设手势,如打钩“√”手势、上滑手势、下滑手势或者圆形手势等中的任一手势。或者,第一界面中包括用于触发终端学习待记录操作的“开始学习”按钮。第四操作可以是用户对第一界面中的“开始学习”按钮的点击操作(如单击操作)。
结合第一方面,在另一种可能的设计方式中,在终端根据用户输入的第三操作,确定与操作信息对应的文本信息之前,本申请实施例的方法还包括:响应于第二操作,终端显示第三界面。第三界面中包括至少两个文本信息,至少两个文本信息是采用连接词根据预设的位置关系,将第一应用标识和/或第一界面标识,以及第一查询词连接起来组成的语句。终端根据用户输入的第三操作,确定与操作信息对应的文本信息,包括:终端接收用户对第三界面中的至少两个文本信息中第一文本信息的第三操作;响应于第三操作,终端将第一文本信息确定为操作信息对应的文本信息。其中,第三操作用于从至少两个文本信息中选择出第一文本信息。
其中,终端获取到一个或多个操作对应的操作信息后,采用连接词根据预设的位置关系,将第一应用标识和/或第一界面标识,以及第一查询词连接起来组成语句,得到多个文本信息,显示包括多个文本信息的第三界面,由用户从多个文本信息中选择符合用户语言习惯的第一文本信息。由于该第一文本信息是用户选择的符合用户语言习惯的命令。终端接收到第一语音命令后,只要第一语音命令的文本与第一文本信息匹配,终端就可以根据上述操作信息执行相应的操作。而不需要用户一字不差的说出文本信息对应的语音命令,终端才会执行对应的操作。通过本方案,可以提高自定义语音控制的灵活性,提升用户体验。
结合第一方面,在另一种可能的设计方式中,为了便于终端100在接收到第一语音命令后,可以更加快速准确的识别到该第一语音命令是与第一文本信息匹配的语音命令,然后根据上述操作信息执行相应的操作。在响应于第三操作,终端将第一文本信息确定为操作信息对应的文本信息之后,终端接收第一语音命令之前,本申请实施例的方法还可以包括:终端生成第一模板文本。该第一模板文本是将第一文本信息的第二部分替换为第一查询词的类型信息生成的。第一语音命令的文本与第一文本信息匹配,具体为:第一语音命令的文本与第一模板文本匹配。其中,第一语音命令的文本与第一模板文本匹配,包括:第一语音命令所对应的文本中的至少一个第三部分与至少一个第一部分相同;至少一个第三部分与第一语音命令中的第四部分的位置关系,与至少一个第一部分和第二部分在所述第一文本信息中的位置关系相同;且第四部分为第一模板文本中的类型信息所指示的类型的词汇。
其中,终端可以采用第一查询词的类型信息替换第一文本信息中的第一查询词,得到第一模板文本。如果终端100下次接收到与该模板文本匹配的语音命令,即使终端中没有录制该语音命令对应的操作,终端也可以模拟用户触发终端执行该语音命令对应的操作,显示对应的操作界面。如此,可以提高自定义语音控制的灵活性,提升用户体验。
结合第一方面,在另一种可能的设计方式中,在终端生成第一模板文本之后,终端接收第一语音命令之前,本申请实施例的方法还可以包括:终端显示第四界面。第四界面用于提示用户在语音助手发出与第一模板文本匹配的第一语音命令,以触发终端执行相应的操作。可选的,第四界面中还可以包括第一模板文本的说法实例。例如,第一模板文本“淘宝买**”的说法实例可以为“淘宝买钢笔”和“淘宝买牛奶”。第四界面可以向用户提示使用与第一模板文本匹配的语音命令触发终端执行相应的操作的方式,以便于用户可以在语音助手发出第四界面指示的语音命令,来触发终端执行相应的操作。
结合第一方面,在另一种可能的设计方式中,考虑到用户对同一事物的可能会有不同的称呼(或说法)。终端在显示上述第四界面之前,还可以显示包括别名输入框的第五界面。该别名输入框用于接收第二文本信息。该第二文本信息是用户为第一文本信息起的别名。这样,用户便可以在该别名输入框中,为上述第一文本信息起别名。
可选的,第五界面中还可以包括用于指示用户在别名输入框中输入第二文本信息的提示信息。例如,第五界面中还包括提示信息“提示:您可以在别名输入框输入您为上述命令起的别名”。
其中,部分用户不会在第五界面中的别名输入框中输入第二文本信息。即用户不会为上述第一文本信息起别名。在这种情况下,终端接收用户在第五界面的第五操作;响应于第五操作,终端可以直接显示第四界面。
另一部分用户会在第五界面中的别名输入框中输入第二文本信息,为上述第一文本信息起别名。这种情况下,在终端显示第五界面之后,终端可以接收到用户在别名输入框中输入的第二文本信息,并在别名输入框中显示第二文本信息。相应的,终端响应于用户在第五界面的第五操作,可以保存第二文本信息,以及第二文本信息与操作信息的对应关系。这样,终端接收到文本与第二文本信息相同的第二语音命令后,可以根据第二文本信息对应的操作信息执行该操作信息对应的操作。可选的,终端显示的第四界面中还包括第二文本信息。
结合第一方面,在另一种可能的设计方式中,终端还可以接收用户在语音助手输入的第二语音命令;当第二语音命令的文本与第二文本信息相同时,终端根据第二文本信息与操作信息的对应关系,执行操作信息对应的操作。
本申请实施例中,终端还可以提供用户为第一文本信息起的别名(即第二文本信息)的服务。并且,终端的语音助手在接收到该第二文本信息时,也可以模拟用户触发终端执行该第二语音命令对应的操作,显示对应的操作界面。这样,可以提高自定义语音控制的灵活性,提升用户体验。
第二方面,本申请实施例提供一种终端,该终端包括:显示单元、输入单元、记录单元、确定单元和执行单元。显示单元,用于响应于第一操作,显示提示信息,提示信息用于提示用户输入待记录操作。输入单元,用于接收用户输入的一个或多个操作;接收用户输入的第二操作。记录单元,用于响应于用户输入的第二操作,完成一个或多个操作对应的操作信息的记录。确定单元,用于根据用户输入的第三操作,确定与操作信息对应的第一文本信息。输入单元,还用于接收第一语音命令。执行单元,用于当输入单元接收的第一语音命令所对应的文本与确定单元确定的第一文本信息匹配时,终端根据操作信息执行相应的操作。
结合第二方面,在一种可能的设计方式中,第一文本信息包括至少一个第一部分和第二部分。第一语音命令所对应的文本与第一文本信息匹配,包括:第一语音命令所对应的文本中的至少一个第三部分与至少一个第一部分相同,且至少一个第三部分与第一语音命令中的第四部分的位置关系,与至少一个第一部分和第二部分在第一文本信息中的位置关系相同。
结合第二方面,在另一种可能的设计方式中,上述操作信息包括:第一应用标识、第一界面标识、第一查询词和操作指示信息;第一应用标识为一个或多个操作的操作对象应用的标识,第一界面标识为一个或多个操作的操作对象界面的标识,操作指示信息用于指示一个或多个操作在操作对象界面上所做的操作。至少一个第一部分包括第一应用标识和/或第一界面标识,第二部分包括第一查询词。
结合第二方面,在另一种可能的设计方式中,上述显示单元,用于响应于第一操作,显示提示信息,包括:显示单元,用于响应于第一操作,在语音助手的第一界面显示提示信息。上述显示单元,还用于显示第二界面。第二界面用于用户输入一个或多个操作。上述输入单元,用于接收用户输入的一个或多个操作,包括:输入单元,用于终端接收用户在显示单元显示的二界面输入的一个或多个操作。
结合第二方面,在另一种可能的设计方式中,上述显示单元,还用于在确定单元根据用户输入的第三操作,确定与操作信息对应的文本信息之前,响应于第二操作,终端显示第三界面。该第三界面中包括至少两个文本信息,至少两个文本信息是采用连接词根据预设的位置关系,将第一应用标识和/或第一界面标识,以及第一查询词连接起来组成的语句。上述输入单元,还用于接收用户对显示单元显示的第三界面中的至少两个文本信息中第一文本信息的第三操作。该第三操作用于从至少两个文本信息中选择出第一文本信息。上述确定单元,用于据用户输入的第三操作,确定与操作信息对应的文本信息,包括:确定单元,用于响应于输入单元接收的第三操作,将第一文本信息确定为操作信息对应的文本信息。
结合第二方面,在另一种可能的设计方式中,上述终端还可以包括:生成单元。该生成单元,用于在确定单元将第一文本信息确定为操作信息对应的文本信息之后,输入单元接收第一语音命令之前,生成第一模板文本。该第一模板文本是将第一文本信息的第二部分替换为第一查询词的类型信息生成的。上述第一语音命令的文本与第一文本信息匹配,具体可以为:第一语音命令的文本与第一模板文本匹配。其中,第一语音命令的文本与第一模板文本匹配,包括:第一语音命令所对应的文本中的至少一个第三部分与至少一个第一部分相同;至少一个第三部分与第一语音命令中的第四部分的位置关系,与至少一个第一部分和第二部分在第一文本信息中的位置关系相同;且第四部分为第一模板文本中的类型信息所指示的类型的词汇。
结合第二方面,在另一种可能的设计方式中,上述显示单元,还用于在生成单元生成第一模板文本之后,输入单元接收第一语音命令之前,显示第四界面。第四界面用于提示用户在语音助手发出与第一模板文本匹配的第一语音命令,以触发终端执行相应的操作。
结合第二方面,在另一种可能的设计方式中,上述显示单元,还用于在显示第四界面之前,显示第五界面。该第五界面包括别名输入框,别名输入框用于接收第二文本信息,第二文本信息是用户为第一文本信息起的别名。上述输入单元,还用于在显示单元显示第五界面之后,输入单元接收用户在第五界面的第五操作之前,接收用户在别名输入框中输入的第二文本信息。显示单元,还用于在别名输入框中显示输入单元接收的第二文本信息。上述输入单元,还用于接收用户在显示单元显示的第五界面的第五操作,该第五操作用于触发终端结束文本信息的录制。上述显示单元,还用于响应于第五操作,显示第四界面。
上述终端还可以包括:存储单元。存储单元,用于响应于输入单元接收的第五操作,保存第二文本信息,以及第二文本信息与操作信息的对应关系。其中,显示单元显示的第四界面中还包括第二文本信息。
结合第二方面,在另一种可能的设计方式中,上述输入单元,还用于接收用户在语音助手输入的第二语音命令。上述执行单元,还用于当输入单元接收的第二语音命令的文本与存储单元保存的第二文本信息相同时,终端根据第二文本信息与操作信息的对应关系,执行操作信息对应的操作。
第三方面,本申请实施例提供一种终端,该终端包括:一个或多个处理器和存储器和显示器。存储器、显示器与处理器耦合。显示器用于显示处理器生成的图像。存储器用于存储计算机程序代码和语音助手的相关信息。计算机程序代码包括计算机指令。当处理器执行上述计算机指令时,该处理器,用于响应于第一操作,控制显示器显示提示信息,提示信息用于提示用户输入待记录操作;处理器,还用于接收用户输入的一个或多个操作;响应于用户输入的第二操作,完成一个或多个操作对应的操作信息的记录,并在存储器中保存操作信息;处理器,还用于根据用户输入的第三操作,确定与操作信息对应的第一文本信息;接收第一语音命令;当第一语音命令所对应的文本与第一文本信息匹配时,根据操作信息执行相应的操作。
结合第三方面,在一种可能的设计方式中,上述处理器确定的第一文本信息包括至少一个第一部分和第二部分。处理器,还用于在第一语音命令所对应的文本中的至少一个第三部分与至少一个第一部分相同,且至少一个第三部分与第一语音命令中的第四部分的位置关系,与至少一个第一部分和第二部分在第一文本信息中的位置关系相同的情况下,确定第一语音命令所对应的文本与第一文本信息匹配。
结合第三方面,在另一种可能的设计方式中,上述处理器记录的操作信息包括:第一应用标识、第一界面标识、第一查询词和操作指示信息;第一应用标识为一个或多个操作的操作对象应用的标识,第一界面标识为一个或多个操作的操作对象界面的标识,操作指示信息用于指示一个或多个操作在操作对象界面上所做的操作。至少一个第一部分包括第一应用标识和/或第一界面标识,第二部分包括第一查询词。
结合第三方面,在另一种可能的设计方式中,上述处理器,用于响应于第一操作,控制显示器显示提示信息,包括:处理器,用于响应于第一操作,控制显示器在语音助手的第一界面显示提示信息。上述处理器,用于接收用户输入的一个或多个操作,包括:处理器,用于响应于用户在显示器显示的第一界面的第四操作,控制显示器显示第二界面,第二界面用于用户输入一个或多个操作;接收用户在显示器显示的第二界面输入的一个或多个操作。
结合第三方面,在另一种可能的设计方式中,上述处理器,还用于在根据用户输入的第三操作,确定与操作信息对应的文本信息之前,响应于第二操作,控制显示器显示第三界面,第三界面中包括至少两个文本信息,至少两个文本信息是采用连接词根据预设的位置关系,将第一应用标识和/或第一界面标识,以及第一查询词连接起来组成的语句。上述处理器,用于根据用户输入的第三操作,确定与操作信息对应的文本信息,包括:处理器,用于接收用户对显示器显示的第三界面中的至少两个文本信息中第一文本信息的第三操作;响应于第三操作,将第一文本信息确定为操作信息对应的文本信息。上述第三操作用于从至少两个文本信息中选择出第一文本信息。
结合第三方面,在另一种可能的设计方式中,上述处理器,还用于在响应于第三操作,将第一文本信息确定为操作信息对应的文本信息之后,接收第一语音命令之前,生成第一模板文本,第一模板文本是将第一文本信息的第二部分替换为第一查询词的类型信息生成的。处理器,还用于在第一语音命令的文本与第一模板文本匹配的情况下,确定第一语音命令的文本与第一文本信息匹配。其中,第一语音命令的文本与第一模板文本匹配,包括:第一语音命令所对应的文本中的至少一个第三部分与至少一个第一部分相同;至少一个第三部分与第一语音命令中的第四部分的位置关系,与至少一个第一部分和第二部分在第一文本信息中的位置关系相同;且第四部分为第一模板文本中的类型信息所指示的类型的词汇。
结合第三方面,在另一种可能的设计方式中,上述处理器,还用于在生成第一模板文本之后,接收第一语音命令之前,控制显示器显示第四界面,第四界面用于提示用户在语音助手发出与第一模板文本匹配的第一语音命令,以触发终端执行相应的操作。
结合第三方面,在另一种可能的设计方式中,处理器,还用于在控制显示器显示第四界面之前,控制显示器显示第五界面,第五界面包括别名输入框,别名输入框用于接收第二文本信息,第二文本信息是用户为第一文本信息起的别名。处理器,用于控制显示器显示第四界面,包括:处理器,用于接收用户在显示器显示的第五界面的第五操作,第五操作用于触发终端结束文本信息的录制;响应于第五操作,控制显示器显示第四界面。处理器,还用于响应于第五操作,在存储器中保存第二文本信息,以及第二文本信息与操作信息的对应关系。其中,显示器显示的第四界面中还包括第二文本信息。
结合第三方面,在另一种可能的设计方式中,上述处理器,还用于接收用户在语音助手输入的第二语音命令;当第二语音命令的文本与第二文本信息相同时,根据第二文本信息与操作信息的对应关系,执行操作信息对应的操作。
第四方面,本申请实施例提供一种计算机存储介质,该计算机存储介质包括计算机指令,当所述计算机指令在终端上运行时,使得所述终端执行如第一方面及其可能的设计方式所述的语音控制命令生成方法。
第五方面,本申请实施例提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第一方面及其可能的设计方式所述的语音控制命令生成方法。
另外,第二方面和第三方面及其任一种设计方式所述的终端,以及第四方面所述的计算机存储介质、第五方面所述的计算机程序产品所带来的技术效果可参见上述第一方面及其不同设计方式所带来的技术效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种终端的硬件结构示意图;
图2为本申请实施例提供的一种语音控制命令生成方法流程图一;
图3为本申请实施例提供的一种终端的显示界面实例示意图一;
图4为本申请实施例提供的一种终端的显示界面实例示意图二;
图5为本申请实施例提供的一种终端的显示界面实例示意图三;
图6为本申请实施例提供的一种终端的显示界面实例示意图四;
图7为本申请实施例提供的一种终端的显示界面实例示意图五;
图8为本申请实施例提供的一种终端的显示界面实例示意图六;
图9为本申请实施例提供的一种语音控制命令生成方法流程图二;
图10为本申请实施例提供的一种终端的显示界面实例示意图七;
图11为本申请实施例提供的一种终端的显示界面实例示意图八;
图12为本申请实施例提供的一种终端的显示界面实例示意图九;
图13为本申请实施例提供的一种终端的显示界面实例示意图十;
图14为本申请实施例提供的一种终端的结构组成示意图一;
图15为本申请实施例提供的一种终端的结构组成示意图二。
具体实施方式
为了解决终端不能对用户发出的语音命令进行语音泛化,自定义语音控制的灵活性较差的问题,本申请实施例提供一种语音控制命令生成方法。该语音控制命令生成方法可以应用于终端在语音助手中录制自定义命令和该自定义语音命令对应的操作的过程中。
本申请实施例中的终端可以为便携式计算机(如手机)、笔记本电脑、个人计算机(Personal Computer,PC)、可穿戴电子设备(如智能手表)、平板电脑、增强现实(augmentedreality,AR)\虚拟现实(virtual reality,VR)设备、车载电脑等,以下实施例对该终端的具体形式不做特殊限制。
请参考图1,其示出本申请实施例提供一种终端100的结构框图。其中,终端100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(Universal SerialBus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,射频模块150,通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(Subscriber Identification Module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
本申请实施例示意的结构并不构成对终端100的限定。可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元。例如,处理器110可以包括应用处理器(Application Processor,AP),调制解调处理器,图形处理器(Graphics ProcessingUnit,GPU),图像信号处理器(Image Signal Processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(Digital Signal Processor,DSP),基带处理器,和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
上述控制器可以是指挥终端100的各个部件按照指令协调工作的决策者。是终端100的神经中枢和指挥中心。控制器根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器,可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括接口。接口可以包括集成电路(Inter-Integrated Circuit,I2C)接口,集成电路内置音频(Inter-Integrated Circuit Sound,I2S)接口,脉冲编码调制(Pulse Code Modulation,PCM)接口,通用异步收发传输器(Universal Asynchronous Receiver/Transmitter,UART)接口,移动产业处理器接口(Mobile Industry Processor Interface,MIPI),通用输入输出(General-PurposeInput/output,GPIO)接口,SIM接口,和/或USB接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(Serial Data Line,SDA)和一根串行时钟线(Derail Clock Line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现终端100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信,两种接口的采样速率不同。
UART接口是一种通用串行数据总线,用于异步通信。该总线为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与通信模块160。例如:处理器110通过UART接口与蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(Camera Serial Interface,CSI),显示屏串行接口(DisplaySerial Interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现终端100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现终端100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以配置为控制信号,也可配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为终端100充电,也可以用于终端100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。还可以用于连接其他电子设备,例如AR设备等。
本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对终端100的结构限定。终端100可以采用本申请实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过终端100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为终端100供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收所述电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器接口120,显示屏194,摄像头193,和通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在一些实施例中,电源管理模块141也可以设置于处理器110中。在一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
终端100的无线通信功能可以通过天线1,天线2,射频模块150,通信模块160,调制解调器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将蜂窝网天线复用为无线局域网分集天线。在一些实施例中,天线可以和调谐开关结合使用。
射频模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案的通信处理模块。射频模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(Low Noise Amplifier,LNA)等。射频模块150由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调器进行解调。射频模块150还可以对经调制解调器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,射频模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,射频模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调器可以包括调制器和解调器。调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调器可以是独立的器件。在一些实施例中,调制解调器可以独立于处理器110,与射频模块150或其他功能模块设置在同一个器件中。
通信模块160可以提供应用在终端100上的包括无线局域网(Wireless LocalArea Networks,WLAN)(如无线保真(Wireless Fidelity,Wi-Fi)网络),蓝牙(Blue Tooth,BT),全球导航卫星系统(Global Navigation Satellite System,GNSS),调频(FrequencyModulation,FM),近距离无线通信技术(Near Field Communication,NFC),红外技术(Infrared,IR)等无线通信的解决方案的通信处理模块。通信模块160可以是集成至少一个通信处理模块的一个或多个器件。通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,终端100的天线1和射频模块150耦合,天线2和通信模块160耦合,使得终端100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(Global System For Mobile Communications,GSM),通用分组无线服务(General Packet Radio Service,GPRS),码分多址接入(Code Division MultipleAccess,CDMA),宽带码分多址(Wideband Code Division Multiple Access,WCDMA),时分码分多址(Time-Division Code Division Multiple Access,TD-SCDMA),长期演进(LongTerm Evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(Satellite Based Augmentation Systems,SBAS),全球导航卫星系统(GlobalNavigation Satellite System,GLONASS),北斗卫星导航系统(BeiDou NavigationSatellite System,BDS),准天顶卫星系统(Quasi-Zenith Satellite System,QZSS)和/或星基增强系统(Satellite Based Augmentation Systems,SBAS)。
终端100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(Liquid Crystal Display,LCD),有机发光二极管(Organic Light-EmittingDiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(Active-MatrixOrganic Light Emitting Diode,AMOLED),柔性发光二极管(Flex Light-EmittingDiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(Quantum Dot LightEmitting Diodes,QLED)等。在一些实施例中,终端100可以包括1个或N个显示屏194,N为大于1的正整数。
终端100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(Charge Coupled Device,CCD)或互补金属氧化物半导体(Complementary Metal-Oxide-Semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,终端100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当终端100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样,终端100可以播放或录制多种编码格式的视频,例如:动态图像专家组(Moving Picture Experts Group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(Neural-Network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展终端100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行终端100的各种功能应用以及数据处理。存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储终端100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,其他易失性固态存储器件,通用闪存存储器(Universal Flash Storage,UFS)等。
终端100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。终端100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当终端100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。终端100可以设置至少一个麦克风170C。在一些实施例中,终端100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在一些实施例中,终端100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动终端平台(Open Mobile Terminal Platform,OMTP)标准接口,美国蜂窝电信工业协会(Cellular Telecommunications Industry Association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器,电极之间的电容改变。终端100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,终端100根据压力传感器180A检测所述触摸操作强度。终端100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定终端100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定终端100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测终端100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消终端100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,终端100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。终端100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当终端100是翻盖机时,终端100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测终端100在各个方向上(一般为三轴)加速度的大小。当终端100静止时可检测出重力的大小及方向。还可以用于识别终端姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。终端100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,终端100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。通过发光二极管向外发射红外光。使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定终端100附近有物体。当检测到不充分的反射光时,可以确定终端100附近没有物体。终端100可以利用接近光传感器180G检测用户手持终端100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。终端100可以根据感知的环境光亮度自适应调节显示屏亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测终端100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。终端100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,终端100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,终端100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。
触摸传感器180K,也称“触控面板”。可设置于显示屏194。用于检测作用于其上或附近的触摸操作。可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型,并通过显示屏194提供相应的视觉输出。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。终端100接收按键190输入,产生与终端100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和终端100的接触和分离。终端100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,终端100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在终端100中,不能和终端100分离。
本申请实施例提供的更新唤醒词的方法可以在上述终端100中实现。
本申请实施例提供一种语音控制命令生成方法,终端100响应于第一操作,可以显示用于提示用户输入待记录操作的提示信息;终端100接收用户输入的一个或多个操作;终端100响应于用户输入的第二操作,完成一个或多个操作对应的操作信息的记录;终端100根据用户输入的第三操作,确定与操作信息对应的第一文本信息;终端100接收第一语音命令;当第一语音命令的文本与第一文本信息匹配时,终端100根据操作信息执行相应的操作。
其中,上述操作信息可以包括一个或多个操作对应的第一应用标识、第一界面标识、第一查询词和操作指示信息。其中,第一应用标识为一个或多个操作的操作对象应用(如第一应用)的标识。第一界面标识为一个或多个操作的操作对象界面的标识。用户可以在第一应用的不同界面进行操作,上述第一界面标识可以包括上述一个或多个操作所操作的第一应用中的一个或多个界面的标识。操作指示信息用于指示一个或多个操作在操作对象界面上所做的操作。
终端100完成一个或多个操作的操作信息的记录之后,可以根据用户输入的第三操作,确定出与上述操作信息对应的第一文本信息。该第一文本信息是由用户通过第三操作选择的、上述一个或多个操作所对应的文本信息。
本申请实施例中,第一文本信息包括至少一个第一部分和第二部分。其中,至少一个第一部分包括第一应用标识和/或第一界面标识,第二部分包括第一查询词。第一语音命令包括至少一个第三部分和第四部分。上述第一语音命令的文本与第一文本信息匹配,具体可以为:第一语音命令所对应的文本中的至少一个第三部分与至少一个第一部分相同,且至少一个第三部分与第一语音命令中的第四部分的位置关系,与至少一个第一部分和第二部分在所述第一文本信息中的位置关系相同。
也就是说,当第一语音命令中的至少一个第三部分和第四部分的位置关系,与至少一个第一部分和第二部分在第一文本信息中的位置关系相同,且第一语音命令的至少一个第三部分与第一文本信息的至少一个第一部分(即第一应用标识和/或第一界面标识)完全相同时,终端100可以确定第一语音命令所对应的文本与第一文本信息匹配。
本申请实施例提供一种语音控制命令生成方法,终端100可以先获取一个或多个操作对应的操作信息,然后再根据用户的第三操作确定出与上述操作信息对应的第一文本信息,即上述一个或多个操作所对应的文本信息。该第一文本信息是用户选择的符合用户语言习惯的命令。终端100接收到第一语音命令后,只要第一语音命令的文本与第一文本信息匹配,终端100就可以根据上述操作信息执行相应的操作。而不需要用户一字不差的说出文本信息对应的语音命令,终端100才会执行对应的操作。通过本方案,可以提高自定义语音控制的灵活性,提升用户体验。
本申请实施例提供一种语音控制命令生成方法。如图2所示,该语音控制命令生成方法可以包括S201-S206:
S201、终端100响应于第一操作,在语音助手的第一界面显示提示信息。该提示信息用于提示用户输入待记录操作。
其中,上述语音助手可以是安装在终端100中的应用程序(Application,APP),也可以是集成在终端100的操作系统中的系统功能。该语音助手可以是终端100中嵌入式应用程序(即终端的系统应用)或者可下载应用程序。其中,嵌入式应用程序是作为终端100(如手机)实现的一部分提供的应用程序。例如,嵌入式应用程序可以为“设置”应用、“短消息”应用和“相机”应用等。可下载应用程序是一个可以提供自己的因特网协议多媒体子系统(Internet Protocol Multimedia Subsystem,IMS)连接的应用程序,该可下载应用程序可以预先安装在终端中的应用或可以由用户下载并安装在终端中的第三方应用。例如,该可下载应用程序可以为“微信”应用、“支付宝”应用和“邮件”应用等。
语音助手被启动后,可以接收用户输入的语音命令(即语音控制命令),触发终端100执行该语音命令对应的操作。例如,以终端100是图3所示的手机300为例。语音助手可以为手机300中的“语音助手”应用。上述第一界面可以是语音助手(如“语音助手”应用)的显示界面中,用于添加“自定义命令”的界面。在该第一界面中,用户可以触发终端100开始记录待记录操作。
示例性的,以终端100是图3所示的手机300,语音助手为手机300中的“语音助手”应用为例。手机300可以接收用户对手机300的桌面301中的“语音助手”应用图标302的点击操作(如单击操作)。响应于用户对“语音助手”应用图标302的点击操作,手机300可以显示图3中的(b)所示的语音控制界面303。该语音控制界面303中包括“录制”按钮304和“设置”选项306。其中,手机300响应于用户对“录制”按钮304的点击操作(如长按操作),可以接收用户发出的语音命令,并触发手机300执行该语音命令对应的操作。“设置”选项306用于设置“语音助手”应用的各项功能和参数。手机300可以接收用户对语音控制界面303中的“设置”选项306的点击操作。响应于用户对“设置”选项306的点击操作,手机300可以显示图3中的(d)所示的“语音助手”界面307。可选的,语音控制界面303中还可以包括提示信息305。该提示信息305用于向用户指示该“语音助手”应用的常用功能。
可选的,手机300还可以接收用户对“设置”应用图标的点击操作(如单击操作)。响应于用户对“设置”应用图标的点击操作,手机100可以显示图3中的(c)所示的设置界面310。该设置界面110中可以包括“飞行模式”选项、“WLAN”选项、“蓝牙”选项、“移动网络”选项和“语音助手”选项311等。其中,“飞行模式”选项、“WLAN”选项、“蓝牙”选项和“移动网络”选项的具体功能可以参考常规技术中的具体描述,本申请实施例这里不予赘述。手机300可以接收用户对“语音助手”选项311的点击操作(如单击操作)。响应于用户对“语音助手”选项311的点击操作,手机100可以显示图3中的(d)所示的“语音助手”界面307。
上述“语音助手”界面307包括“语音唤醒”选项308和“自定义语音控制”选项309。其中,“语音唤醒”选项308用于设置手机300的唤醒词,该唤醒词用于唤醒“语音助手”应用。手机300接收到用户发出的与该唤醒词匹配的语音数据时,可以显示图3中的(b)所示的语音控制界面303。“自定义语音控制”选项309用于设置自定义命令(即本申请实施例中的文本信息)。具体的,手机300响应于用户对“自定义语音控制”选项309的点击操作(如单击操作),可以显示图4中的(a)所示的“自定义语音控制”界面401。
该“自定义语音控制”界面401中包括:“自定义语音控制”开关402、手机300中已添加的自定义命令(如“自定义命令1”404和“自定义命令2”405)和“添加自定义命令”选项406等。其中,“自定义语音控制”开关402用于开启自定义语音控制功能。当自定义语音控制功能开启后,手机300才可以响应于“自定义命令1”404或者“自定义命令2”405,执行对应的事件。并且,当自定义语音控制功能开启后,用户才可以通过第一预设手势(如S形手势)触发手机300显示“添加自定义命令界面”407。例如,“自定义语音控制”界面401中还可以包括提示信息403,如“功能开启后,用户通过S形手势,可以触发手机显示添加‘自定义命令’的界面”。
上述第一操作可以是用户对图4中的(a)所示的“自定义语音控制”界面401中的“添加自定义命令”选项406的点击操作(如单击操作)。或者,上述第一操作可以包括用户对图3所示的手机300的操作和用户对“添加自定义命令”选项406的点击操作。手机300响应于用户对“添加自定义命令”选项406的点击操作,可以显示图4中的(b)所示的“添加自定义命令界面”407(即第一界面)。该第一界面用于提示用户输入待记录操作。例如,“添加自定义命令界面”407中包括“开始学习”按钮408。该“开始学习”按钮408用于触发手机300学习待记录操作。其中,第一界面407中还可以包括用于提示用户输入待记录操作的提示信息。例如,第一界面407中还可以包括用于提示用户点击“开始学习”按钮408的提示信息,如“请点击按钮,触发手机学习您想要添加的自定义命令对应的操作”。
可选的,上述第一操作还可以是用户在图3中的(b)所示的语音控制界面303输入预设语音命令。例如,该预设语音命令可以是“跟我学”。响应于接收到用户在语音控制界面303输入语音命令“跟我学”,手机300可以显示图4中的(b)所示的“添加自定义命令界面”407(即第一界面)。
S202、终端100终端响应于用户在第一界面的第四操作,显示第二界面。该第二界面用于用户输入一个或多个操作。
其中,第四操作可以为用户在第一界面输入的第二预设手势,如打钩“√”手势、上滑手势、下滑手势或者圆形手势等中的任一手势。或者,第一界面中包括用于触发终端100学习待记录操作的“开始学习”按钮。第四操作可以是用户对第一界面中的“开始学习”按钮的点击操作(如单击操作)。例如,“添加文本信息界面”407中包括“开始学习”按钮408。第四操作可以是用户对“开始学习”按钮408的单击操作。
S203、终端100响应于用户输入的第二操作,完成一个或多个操作对应的操作信息的记录。
可以理解,终端100要记录的操作可以包括用户对终端100的一个操作或者多个操作。如果终端100要记录的操作是多个操作,那么这多个操作可能是用户在不同界面上的操作。也就是说,响应于上述第四操作,终端100显示的第二界面是用于接收上述多个操作的多个界面的统称。本申请实施例中,将用于接收上述多个操作的各个界面分别称为子界面(如第一子界面和第二子界面等)。用于接收用户输入的一个或多个操作的一个或多个子界面可以统称为第二界面。本申请实施例中,上述一个或多个操作可以是用户分别在不同子界面(如第一子界面和第二子界面等)的子操作的统称。例如,用户在第一子界面的操作称为第一子操作,用户在第二子界面的操作称为第二子操作。
一般而言,响应于第四操作,终端100可以先显示第一子界面。该第一子界面中包括终端100的桌面和第一提示信息。终端100的桌面中包括终端100的桌面图标。该第一提示信息用于提示用户点击桌面图标,进入待记录操作对应的应用。例如,响应于用户对图4中的(b)所示的“开始学习”按钮408的点击操作(即第四操作),手机300可以显示图4中的(c)所示的第一子界面409。该第一子界面409中包括手机300的桌面411。该桌面411中包括桌面图标,如“电子邮件”应用图标、“相机”应用图标、“设置”应用图标和“淘宝”应用图标等。该第一子界面409中还可以包括第一提示信息410,如“请点击桌面图标,进入您想要添加的自定义命令对应的APP”。其中,第一子界面409中的桌面411可以左右翻页,以显示手机300的其他桌面。可选的,第一子界面409还可以包括提示信息413,如“桌面左右滑动可翻页”。
然后,终端100可以接收用户对第一子界面中的中任一应用图标的点击操作(即第一子操作,如单击操作)。响应于用户对任一应用图标的点击操作,终端100可以显示第二子界面。该第二子界面中包括应用首页(用户点击的应用图标对应的应用的首页)和第二提示信息。其中,第二提示信息用于提示用户在应用首页输入文本信息对应的一个或多个操作。终端100还可以接收用户在第二子界面的第二子操作,显示第三子界面,直至终端100接收到用于触发终端100结束记录上述一个或多个操作的第二操作。
示例性的,假设用户点击了第一子界面409中的“淘宝”应用图标。手机300响应于用户对第一子界面409中的“淘宝”应用图标的点击操作(即第一子操作),可以显示图5中的(a)所示的第二子界面501。该第二子界面501中包括第二提示信息502和“淘宝”首页503。例如,第二提示信息502为“请在以下第三方应用的界面输入自定义命令对应的操作”。如图5中的(b)所示,用户可以在第二子界面501的搜索框504输入查询词“牛奶”。手机300响应于用户对搜索框504的搜索键的点击操作(如单击操作),可以显示图5中的(c)所示的第三子界面506。其中,用户在搜索框504输入查询词“牛奶”,以及用户对搜索框504的搜索键的点击操作,可以称为第二子操作。第三子界面506中包括上述第二提示信息和第二子操作对应的显示界面507。上述一个或多个操作可以包括:用户对上述第一子界面409中的“淘宝”应用图标的点击操作,用户在上述第二子界面501的搜索框504中输入查询词“牛奶”,以及用户对上述搜索框504的搜索键的点击操作。
可以理解,终端100响应于用户在子界面(如第一子界面和第二子界面等)的操作,可以获取上述一个或多个操作对应的操作信息。该操作信息包括上述一个或多个操作对应的第一应用标识、第一界面标识、第一查询词和操作指示信息。该操作指示信息用于指示用户在对应界面的操作。
例如,终端100响应于用户对上述第一子界面409中的“淘宝”应用图标的点击操作,可以获取“淘宝”应用的应用标识和“淘宝”首页503的界面标识。终端100响应于用户在上述第二子界面501的搜索框504中输入查询词“牛奶”,可以获取用于指示用户在“淘宝”首页503的搜索框504输入了查询词的操作指示信息a和查询词“牛奶”。终端100响应于用户对上述搜索框504的搜索键的点击操作,可以获取用于指示用户点击了搜索框504的搜索键的操作指示信息b和图5中的(c)所示的显示界面507的界面标识。
其中,本申请实施例中的应用标识可以是应用的名称,如“淘宝”应用的应用标识可以为“淘宝”。本申请实施例中的界面标识(如第一界面标识)可以是应用中界面的名称。该界面的名称可以是用户对该应用中的界面的称呼或者叫法,而不是界面的地址链接。例如,本申请实施例中,如图12中的(c)所示,其示出了“旅游”应用中用于订火车票的界面1204,本申请实施例中,可以将用于订火车票的界面1204的界面标识确定为“火车票”。
其中,终端100可以根据上述界面标识显示对应的界面。具体的,终端100可以保存每个应用中的各个界面的界面标识与对应界面的地址链接的对应关系。终端可以根据界面标识查找该界面标识对应的地址链接,然后根据查找到的地址链接显示对应的界面。
其中,上述每个子界面(如第一子界面和第二子界面等)中均包括用于触发终端100结束记录待记录操作操作的按钮,如结束按钮。上述第二操作可以是用户对结束按钮的点击操作(如单击操作、双击操作或者长按操作)。终端100响应于用户对任一子界面中的结束按钮的点击操作,可以完成一个或多个操作对应的操作信息的记录。
举例来说,图4中的(c)所示的第一子界面409中包括结束按钮412。图5中的(a)所示的第二子界面中包括结束按钮505。图5中的(b)所示的第三子界面中包括结束按钮505。图5中的(c)所示的第四子界面中包括结束按钮505。例如,手机300响应于用户对图5中的(c)所示的第四子界面507中的结束按钮505的点击操作,可以完成一个或多个操作对应的操作信息的记录。
或者,上述第三操作可以是用户在任一子界面输入的第三预设手势。例如,该第三预设手势可以为S形手势、上滑手势或者下滑手势等手势中的任意一种。终端300响应于用户在任一子界面中输入的第三预设手势,可以完成一个或多个操作对应的操作信息的记录。
S204、响应于第二操作,终端100显示第三界面。该第三界面中包括至少两个文本信息。该至少两个文本信息是采用连接词根据预设的位置关系,将第一应用标识和/或第一界面标识,以及第一查询词连接起来组成的语句。
其中,不同的连接词对应不同的用户说法模板。上述至少两个文本信息是在用户说法模板的第一填充项填充第一应用标识和/或第一界面标识,第二填充项填充第一查询词得到的。终端100中保存有多个用户说法模板。具体的,终端100可以针对不同类别的应用分别配置多个用户说法模板,以便于响应于第二操作,终端100可以在上述第一应用标识所指示的应用对应的用户说法模板中填充上述操作信息,得到至少两个文本信息。
其中,上述多个用户说法模板是统计用户使用不同类别应用时的说法习惯确定的。本申请实施例中的应用的类别可以包括:购物类应用、旅游类应用和视频类应用等。举例来说,购物类应用可以包括“淘宝”应用和“京东”应用等。旅游类应用可以包括“携程”应用、“去哪儿”应用。视频类应用可以包括“爱奇艺”应用和“优酷”应用等。
例如,以购物类应用“淘宝”为例。用户使用“淘宝”买东西(如牛奶)时,一般会说“在淘宝买牛奶”、“淘宝买牛奶”和“淘宝找牛奶”等。那么,针对购物类应用而言,终端100中可以配置如下多个用户说法模板:“(应用标识)买[查询词]”、“在(应用标识)买[查询词]”、“在(应用标识)找[查询词]”和“在(应用标识)的(界面标识)查找[查询词]”等。其中,用户说法模板“(应用标识)买[查询词]”中的连接词为“......买......”。用户说法模板“在(应用标识)买[查询词]”中的连接词为“在......买......”。用户说法模板“在(应用标识)找[查询词]”中的连接词为“在......找......”。
其中,第一文本信息的至少一个第一部分不仅包括第一应用标识和/或第一界面标识,还包括该第一文本信息中的连接词。例如,第一文本信息“淘宝买牛奶”中不仅包括第一应用标识“淘宝”,还包括连接词“买”。
以旅游类应用“携程”为例。用户使用“携程”订火车票时,一般会说“在携程订A地到B地的火车票”、“买A地到B地的火车票”和“A地到B地的火车票”等。那么,针对旅游类应用而言,终端100中可以配置如下多个用户说法模板:“(应用标识)买[查询词1]到[查询词2]的(界面标识)”、“买[查询词1]到[查询词2]的(界面标识)”、“[查询词1]到[查询词2]的(界面标识)”和“到[查询词2]的(界面标识)”等。其中,用户说法模板“(应用标识)买[查询词1]到[查询词2]的(界面标识)”中的连接词为“......买......到......的......”。
其中,本申请实施例中的用户说法模板中可以包括第一填充项和第二填充项。第一填充项用于填充终端100获取到的应用标识和/或界面标识。第二填充项用于填充终端100获取到的查询词。第一填充项对应第一文本信息中的至少一个第一部分,第二填充项对应第一文本信息中的第二部分。其中,上述用户说法模板中的“()”为第一填充项,“[]”为第二填充项。第一填充项“()”用于填充终端100获取到的应用标识和/或界面标识。第二填充项“[]”用于填充终端100获取到的查询词。
例如,假设上述操作信息包括:应用标识“淘宝”、界面标识“淘宝首页”和查询词“牛奶”。终端100将操作信息填充至购物类应用的用户说法模板中,可以得到如下文本信息:“(淘宝)买[牛奶]”、“在(淘宝)买[牛奶]”、“在(淘宝)找[牛奶]”和“在(淘宝)的(首页)查找[牛奶]”等。
假设上述操作信息包括:应用标识“旅游”、界面标识“火车票”,以及查询词1“西安”和查询词2“深圳”。终端100将操作信息填充至旅游类应用的用户说法模板中,可以得到如下文本信息:“(旅游)买[西安]到[深圳]的(火车票)”、“买[西安]到[深圳]的(火车票)”和“[西安]到[深圳]的(火车票)”等。
示例性的,手机300响应于用户对图5中的(c)所示的结束按钮505的点击操作,可以显示图6中的(a)所示的第三界面601。第三界面601中包括多个文本信息,如“(淘宝)买[牛奶]”602、“在(淘宝)买[牛奶]”、“在(淘宝)找[牛奶]”和“在(淘宝)的(首页)查找[牛奶]”等。
在S204之后,终端100可以根据用户在第三界面输入的第三操作,确定与操作信息对应的第一文本信息。具体的,在S204之后,本申请实施例的方法还可以包括S205-S206:
S205、终端100接收用户对第三界面中的至少两个文本信息中第一文本信息的第三操作。
其中,第三操作用于从所述至少两个文本信息中选择出所述第一文本信息。终端100可以接收用户对至少两个文本信息中一个或多个文本信息的选择操作,即第三操作。例如,如图6中的(a)所示,手机300可以接收用户对图6中的(a)所示的“(淘宝)买[牛奶]”602的选择操作。
S206、响应于第三操作,终端100将第一文本信息确定为操作信息对应的文本信息。
其中,第一文本信息是填充第一用户说法模板生成的。具体的,第一文本信息是在第一用户说法模板的第一填充项中填充第一应用标识和/或第一界面标识,在第一用户说法模板的第二填充项中填充第一查询词生成的。
示例性的,假设用户选择了图6中的(a)所示的第三界面601中的命令选项“(淘宝)买[牛奶]”602。手机300响应于用户对图6中的(a)所示的第三界面601中的“确定”按钮的点击操作,可以确定“(淘宝)买[牛奶]”为上述操作信息对应的文本。此后,如果终端100接收到文本与第一文本信息匹配的语音命令,便可以根据上述操作信息自动执行相应的操作。
其中,终端100生成上述第一文本信息后,可以保存该第一文本信息。以手机300为例。手机300保存第一文本信息后,相比于图4中的(a)所示的“自定义语音控制”界面401;如图7中的(a)所示,手机300所显示的“自定义语音控制”界面701中增加了一个“自定义命令3”。
S207、终端100接收第一语音命令。
以终端100是图3所示的手机300为例。手机100可以显示图3中的(b)所示的语音助手的语音控制界面303。手机300响应于用户对“录制”按钮304的长按操作,可以接收用户输入的第一语音命令。
S208、当第一语音命令的文本与第一文本信息匹配时,终端100根据操作信息执行相应的操作。
其中,第一语音命令的文本与第一文本信息匹配,包括:第一语音命令所对应的文本中的至少一个第三部分与至少一个第一部分相同,且至少一个第三部分与第一语音命令中的第四部分的位置关系,与至少一个第一部分和所述第二部分在第一文本信息中的位置关系相同。
结合上述实例,假设第一文本信息为“(淘宝)买[牛奶]”,第一应用标识为“淘宝”,第一查询词为“牛奶”。即第一文本信息的至少一个第一部分为“淘宝”,第一文本信息的第二部分为“牛奶”。如果上述第一语音命令为“淘宝买风衣”,那么终端100可以确定第一语音命令的至少一个第三部分为“淘宝”,第四部分为“风衣”。由于第一文本信息的至少一个第一部分“淘宝”与第一语音命令的至少一个第三部分“淘宝”相同,且至少一个第三部分“淘宝”与第四部分“风衣”在第一语音命令“淘宝买风衣”中的位置关系,与至少一个第一部分“淘宝”与第二部分为“牛奶”在第一文本信息“淘宝买牛奶”中的位置关系相同;因此,终端100可以确定第一语音命令“淘宝买风衣”与第一文本信息“淘宝买牛奶”匹配。
其中,至少一个第一部分包括第一应用标识和/或第一界面标识,第二部分包括第一查询词。换言之,当第一语音命令的第三部分为第一应用标识和/或第一界面标识,且第四部分与第三部分在第一语音命令中的位置关系,与第一部分和第二部分在第一文本信息中的位置关系相同时,终端100可以确定第一语音命令与第一文本信息匹配。
其中,终端100根据操作信息执行相应的操作的方法可以包括:终端100执行与第一应用标识、第一界面标识、操作指示信息和第四部分(如第二查询词)对应的操作。例如,结合上述实例,手机300响应于用户对图8中的(a)所示的语音控制界面801中“录制”按钮802的长按操作,可以接收用户输入的第一语音命令,如“淘宝买风衣”。手机300可以确定第一语音命令“淘宝买风衣”与第一文本信息“(淘宝)买[牛奶]”匹配。因此,手机300可以显示依次显示图8中的(b)-图8中的(d)所示的操作界面。具体的,手机300可以根据应用标识“淘宝”,开启“淘宝”应用,并显示图8中的(b)所示的淘宝首页804。手机300可以根据上述操作指示信息a和查询词“风衣”,模拟用户点击淘宝首页804的搜索框的操作,在图8中的(b)所示的淘宝首页804显示用户手指点击搜索框的界面,模拟用户在淘宝首页804的搜索框输入搜索词的操作,在淘宝首页804显示用户输入第二操作信息中的查询词“风衣”。手机300可以根据上述操作指示信息b(用于指示用户点击了搜索框的搜索键的指示信息),模拟用户点击搜索框的搜索键,显示图8中的(c)所示的显示界面806。随后,手机300可以响应于用户对图8中的(c)所示的搜索框的搜索按钮的点击操作,显示图8中的(d)所示的搜索结果界面808。
如图5-图6所示,虽然手机300录制的第一文本信息为“淘宝买牛奶”,但是手机300可以在接收到与该第一文本信息匹配的语音命令后,都可以根据终端100记录的与第一文本信息对应的操作信息执行相应的操作。这样,无论手机300的语音助手接收到与“淘宝买牛奶”匹配的任一语音命令,如图8中的(a)所示的“淘宝买风衣”,手机300都可以模拟用户触发手机300执行该“淘宝买风衣”对应的操作,显示图8中的(b)-图8中的(d)对应的操作界面。
其中,本申请实施例中,采用图8中的(b)所示的手指图标805和图8中的(c)所示的手指图标807,表示手机300模拟用户操作时显示的用户手指。采用图8中的(a)所示的手指图标803表示手机300接收用户实际操作时的用户手指。图8中的(b)所示的手指图标805与图8中的(a)所示的手指图标803不同。
可选的,终端100确定第一语音命令与第一文本信息匹配后,也可以直接显示该第一语音命令对应的操作结果界面。例如,手机300接收到用户在图8中的(a)所示的语音控制界面801输入的语音命令“淘宝买风衣”后,可以直接显示图8中的(d)所示的界面808。
本申请实施例提供一种语音控制命令生成方法,终端100可以先获取一个或多个操作对应的操作信息,然后采用连接词根据预设的位置关系,将第一应用标识和/或第一界面标识,以及第一查询词连接起来组成语句,得到多个文本信息,显示包括多个文本信息的第三界面,由用户从多个文本信息中选择符合用户语言习惯的第一文本信息。该第一文本信息是用户选择的符合用户语言习惯的命令。终端100接收到第一语音命令后,只要第一语音命令的文本与第一文本信息匹配,终端100就可以根据上述操作信息执行相应的操作。而不需要用户一字不差的说出文本信息对应的语音命令,终端100才会执行对应的操作。通过本方案,可以提高自定义语音控制的灵活性,提升用户体验。
进一步的,为了便于终端100在接收到第一语音命令后,可以更加快速准确的识别到该第一语音命令是与第一文本信息匹配的语音命令,然后根据上述操作信息执行相应的操作;终端100将第一文本信息确定为操作信息对应的文本信息(即S206)之后,接收第一语音命令(即S207)之前,本申请实施例的方法可以包括S901。如图9所示,在图2所示的S206之后,S207之前,本申请实施例的方法还可以包括S901:
S901、终端100生成第一模板文本。
其中,第一模板文本是将所述第一文本信息的第二部分替换为所述第一查询词的类型信息生成的。换言之,如果第一文本信息是填充第一用户说法模板生成的,那么第一模板文本是在第一用户说法模板的第一填充项中填充第一应用标识和/或第一界面标识,在第一用户说法模板的第二填充项中填充第一查询词的类型信息生成的。
终端100可以获取第一查询词的类型信息;将第一文本信息中的第一查询词替换为第一查询词的类型信息,得到第一模板命令。或者,终端100可以获取第一查询词的类型信息;在第一用户说法模板的第一填充项中填充第一应用标识和/或第一界面标识;在第二填充项中填充第一查询词的类型信息,得到第一模板文本。
例如,结合上述实例,假设第一文本信息为“(淘宝)买[牛奶]”。手机300可以获取到第一查询词“牛奶”的类型信息为商品。然后,手机300可以将“(淘宝)买[牛奶]”中的“牛奶”替换为“商品”,得到第一模板文本“(淘宝)买[商品]”。或者,假设第一文本信息为“(淘宝)买[牛奶]”,第一用户说法模板为“(应用标识)买[查询词]”。第一查询词为“牛奶”。第一应用标识为“淘宝”。手机300可以获取到第一查询词“牛奶”的类型信息为商品。然后,手机300可以将第一应用标识“淘宝”填充至第一填充项“()”,将第一查询词“牛奶”填充至第一填充项“[]”,得到第一模板文本“(淘宝)买[商品]”。
上述第一语音命令的文本与第一文本信息匹配,具体可以为:第一语音命令的文本与上述第一模板文本匹配。如图9所示,图2所示的S208可以包括S902:
S902、当第一语音命令的文本与第一模板文本匹配时,终端100根据所述操作信息执行相应的操作。
其中,第一语音命令的文本与第一模板文本匹配,可以包括:第一语音命令所对应的文本中的至少一个第三部分与至少一个第一部分相同;至少一个第三部分与第一语音命令中的第四部分的位置关系,与至少一个第一部分和第二部分在第一文本信息中的位置关系相同;且第四部分为第一模板文本中的类型信息所指示的类型的词汇。
结合上述实例,假设第一模板文本为“淘宝买[商品]”。如果上述第一语音命令为“淘宝买风衣”,那么终端100可以确定该第一语音命令“淘宝买风衣”的至少一个第三部分“淘宝”与第一模板文本的至少一个第一部分“淘宝”相同;至少一个第三部分“淘宝”与第四部分“风衣”在第一语音命令“淘宝买风衣”中的位置关系,与至少一个第一部分“淘宝”与第二部分为“牛奶”在第一文本信息“淘宝买牛奶”中的位置关系相同;并且,第四部分“风衣”为第一模板文本“淘宝买[商品]”中的“商品”所指示的商品类词汇;因此,终端100可以确定第一语音命令“淘宝买风衣”与第一文本信息“淘宝买牛奶”匹配。
或者,假设第一用户说法模板为“(应用标识)买[查询词]”,第一文本信息为“(淘宝)买[牛奶]”。那么,第一应用标识为“淘宝”、第一查询词为“牛奶”,第一查询词“牛奶”的类型信息为商品。终端100可以生成第一模板文本“淘宝买[商品]”。
如果上述第一语音命令为“淘宝买风衣”,那么终端100可以确定该第一语音命令“淘宝买风衣”符合第一用户说法模板“在(应用标识)买[查询词]”,该第一语音命令“在淘宝买风衣”中包括第一应用标识“淘宝”,该第一语音命令“淘宝买风衣”中包括的第二查询词“风衣”属商品类词汇。因此,终端100可以确定第一语音命令“淘宝买风衣”与第一模板文本“淘宝买[商品]”匹配。
其中,终端100可以在获取到上述操作信息后,便保存该操作信息(称为第一操作信息)。终端100还可以在生成上述第一模板文本后,保存第一模板文本与操作信息的对应关系。如此,终端100确定第一语音命令和第一模板文本匹配后,便可以查找到与第一模板文本对应的第一操作信息。由于第一操作信息包括:第一应用标识、第一界面标识、第一查询词和上述操作指示信息,第一语音命令中包括第二查询词;因此,终端100可以获取到包括第一应用标识、第一界面标识、第二查询词和上述操作指示信息的第二操作信息。终端100可以执行与第一应用标识、第一界面标识、操作指示信息和第二查询词(即第二操作信息)对应的操作。
例如,结合上述实例,假设第一模板文本为“在淘宝买[商品]”,第一语音命令为“在淘宝买[风衣]”。那么,第二操作信息可以包括:应用标识“淘宝”、界面标识“淘宝首页”、查询词“风衣”。手机300响应于用户对图8中的(a)所示的语音控制界面801中“录制”按钮802的长按操作,可以接收用户输入的第一语音命令,如“淘宝买风衣”。手机300可以确定第一语音命令“淘宝买风衣”与第一模板文本为“在淘宝买[商品]”匹配。因此,手机300可以显示依次显示图8中的(b)-图8中的(d)所示的操作界面。具体的,手机300可以根据第二操作信息中的应用标识“淘宝”,开启“淘宝”应用,并显示图8中的(b)所示的淘宝首页804。手机300可以根据上述操作指示信息a和查询词“风衣”,模拟用户点击淘宝首页804的搜索框的操作,在图8中的(b)所示的淘宝首页804显示用户手指点击搜索框的界面804,模拟用户在淘宝首页804的搜索框输入搜索词的操作,在淘宝首页804显示用户输入第二操作信息中的查询词“风衣”。手机300可以根据上述操作指示信息b(用于指示用户点击了搜索框的搜索键的指示信息),模拟用户点击搜索框的搜索键,显示图8中的(c)所示的显示界面。随后,手机300可以响应于用户对图8中的(c)所示的搜索框的搜索按钮的点击操作,显示图8中的(d)所示的搜索结果界面808。
如图5-图6所示,虽然手机300录制的第一文本信息为“淘宝买牛奶”,但是手机300可以生成第一文本信息的第一模板文本“淘宝买商品”。这样,无论手机300的语音助手接收到与“淘宝买商品”匹配的任一语音命令,如图8中的(a)所示的“淘宝买风衣”,手机300都可以模拟用户触发手机300执行该“淘宝买风衣”对应的事件时的操作,显示图8中的(b)-图8中的(d)对应的操作界面。
其中,本申请实施例中,采用图8中的(b)所示的手指图标805和图8中的(c)所示的手指图标807,表示手机300模拟用户操作时显示的用户手指。采用图8中的(a)所示的手指图标803表示手机300接收用户实际操作时的用户手指。图8中的(b)所示的手指图标805与图8中的(a)所示的手指图标803不同。
可选的,终端100确定第一语音命令与第一模板文本匹配后,也可以直接显示第二操作信息对应的操作结果界面。例如,手机300接收到用户在图8中的(a)所示的语音控制界面801输入的语音命令“淘宝买风衣”后,可以根据第二操作信息直接显示图8中的(d)所示的界面808。
其中,终端100生成上述第一模板文本后,可以保存该第一模板文本。以手机300为例。手机300保存第一模板文本后。相比于图4中的(a)所示的“自定义语音控制”界面401;如图7中的(b)所示,手机300所显示的“自定义语音控制”界面702中增加了一个文本信息703,如“淘宝买商品(牛奶)”。
可选的,终端100在生成第一模板文本之后,还可以显示第四界面。该第四界面用于提示用户在语音助手发出与第一模板文本匹配的第一语音命令,以触发终端100执行相应的操作。
示例性的,假设用户选择了图6中的(a)所示的第三界面601中的命令选项“(淘宝)买[牛奶]”602。手机300响应于用户对图6中的(a)所示的第三界面601中的“确定”按钮的点击操作,可以生成第一模板文本“(淘宝)买[商品]”,并显示图6中的(b)所示的第四界面603。第四界面603中可以包括第三提示信息“根据您的操作,下次您可以对语音助手这么说:淘宝买**”604。可选的,如图6中的(b)所示,第四界面603还可以包括第一模板文本“淘宝买**”的说法实例,如“淘宝买钢笔”和“淘宝买牛奶”。
本申请实施例中,终端100可以先获取一个或多个操作对应的操作信息,然后再显示包括多个文本信息的第三界面,由用户从多个文本信息中选择符合用户语音习惯的第一文本信息。其中,上述多个文本信息是在终端100保存的用户说法模板中填充操作信息生成的。终端100可以在第一用户说法模板的第一填充项中填充第一应用标识和/或第一界面标识,在第二填充项中填充第一查询词的类型信息,生成第一模板文本。如果终端100下次接收到与该模板文本匹配的语音命令,即使终端100中没有录制该语音命令对应的操作,终端100也可以模拟用户触发终端100执行该语音命令对应的操作,显示对应的操作界面。如此,可以提高自定义语音控制的灵活性,提升用户体验。
本申请实施例这里以终端录制用户对“旅游”应用的一个或多个操作为例,对本申请实例的方法进行说明:
终端100响应于用户在第一界面的第四操作,可以显示第二界面。第二界面是用于接收一个或多个操作的多个界面的统称。一般而言,响应于第四操作,终端100可以先显示第一子界面。例如,以终端100为手机300为例。手机300可以显示图4中的(c)所示的第一子界面409。
假设用户点击了第一子界面409中的“旅游”应用图标。手机300响应于用户对第一子界面409中的“旅游”应用图标的点击操作(即第一子操作),可以显示图10中的(a)所示的第二子界面1001,并获取第一应用标识“旅游”。该第二子界面1001中包括第二提示信息1002和“旅游”首页1003。例如,第二提示信息1003为“请在‘旅游’应用的界面输入文本信息对应的一个或多个操作”。手机300可以接收用户对第二子界面1001中的“火车票”选项的点击操作。响应于用户对“火车票”选项的点击操作,手机300可以显示图10中的(b)所示的第三子界面1005中包括上述第二提示信息和火车票界面1006。响应于用户对“火车票”选项的点击操作,手机300可以获取用于指示用户点击了“火车票”选项的操作指示信息c和火车票界面1006的界面标识。其中,用户可以点击火车票界面1006中的“出发地”选项,以修改出发地。如图10中的(b)所示,“出发地”选项中当前显示的出发地为上海。用户还可以点击火车票界面1006中的“目的地”选项,以修改目的地。如图10中的(b)所示,“目的地”选项中当前显示的目的地为北京。以用户修改目的地为例,如图10中的(b)所示,假设用户操作“目的地”选项,将目的地修改为深圳。手机300响应于用户对“目的地”选项的操作,可以显示图10中的(c)所示的第四子界面1007。第三子界面1005中包括上述第二提示信息和火车票界面1006。火车票界面1008中的“目的地”选项当前显示的目的地为深圳。响应于用户对“出发地”选项和“目的地”选项操作,手机300可以获取用于指示用户修改了“出发地”选项和“目的地”选项的操作指示信息d,以及用户在“出发地”选项输入的查询词“西安”和用户在“目的地”选项输入的查询词“深圳”。
综上所述,手机300获取到的操作信息可以包括:“旅游”应用的应用标识、“旅游”应用的首页标识、操作指示信息c、火车票界面1006的界面标识、操作指示信息d和“出发地”选项输入的查询词“西安”,以及“目的地”选项输入的查询词“深圳”。
其中,图10中的(a)-图10中的(c)中均包括结束按钮1004。例如,手机300响应于用户对图10中的(c)所示的结束按钮1004的点击操作(即第二操作),可以结束记录一个或多个操作,显示第三界面。
针对旅游类应用而言,终端100中可以配置如下多个用户说法模板:“在(应用标识)买[查询词1]到[查询词2]的(界面标识)”、“买[查询词1]到[查询词2]的(界面标识)”、“[查询词1]到[查询词2]的(界面标识)”和“到[查询词2]的(界面标识)”等。假设上述操作信息包括:应用标识“旅游”、火车票界面1006的界面标识、“出发地”选项输入的查询词“西安”、“目的地”选项输入的查询词“深圳”,以及火车票界面1008的界面标识。手机300将操作信息填充至旅游类应用的用户说法模板中,可以得到如下文本信息:“在(旅游)买[西安]到[深圳]的(火车票)”、“买[西安]到[深圳]的(火车票)”和“[西安]到[深圳]的(火车票)”等。
示例性的,手机300响应于用户对图10中的(c)所示的结束按钮1004的点击操作,可以显示图11中的(a)所示的第三界面1101。第三界面1101中包括多个文本信息,如“在(旅游)买[西安]到[深圳]的(火车票)”、“买[西安]到[深圳]的(火车票)”、“[西安]到[深圳]的(火车票)”1102和“到[深圳]的(火车票)”1103等。
终端100可以接收用户对第三界面中的一个或多个文本信息的选择操作。例如,手机300可以接收用户对第三界面1101中的文本信息“[西安]到[深圳]的(火车票)”1102和“到[深圳]的(火车票)”1103的选择操作。其中,手机300可以响应于用户对第三界面1101中显示的文本信息“[西安]到[深圳]的(火车票)”1102的选择操作,可以采用第一用户说法模板“[出发地]到[目的地]的(界面标识)”,生成第一模板文本“[出发地]到[目的地]的(火车票)”。手机300响应于用户对第三界面1101中显示的文本信息“到[深圳]的(火车票)”1103的选择操作,可以采用第一用户说法模板“到[目的地]的(界面标识)”生成第一模板文本“到[目的地]的(火车票)”。
响应于用户对第一文本信息“[西安]到[深圳]的(火车票)”1102和“到[深圳]的(火车票)”1103的选择操作,手机300可以显示图11中的(c)所示的第四界面1108。第四界面1108中可以包括第三提示信息“根据您的操作,下次您可以对语音助手这么说:[出发地]到[目的地]的(火车票)、到[目的地]的(火车票)。可选的,如图11中的(c)所示,第四界面1108还可以包括第一模板文本“[出发地]到[目的地]的(火车票)”的说法实例,如“上海到西安的火车票”,以及第一模板文本“到[目的地]的(火车票)”的说法实例,如“到西安的火车票”。
手机300响应于用户对图12中的(a)所示的语音控制界面1201中“录制”按钮1202的长按操作,可以接收用户输入的第一语音命令,如“上海到西安的火车票”。手机300可以确定第一语音命令“上海到西安的火车票”与第一模板文本为“[出发地]到[目的地]的(火车票)”匹配。因此,手机300可以显示依次显示图12中的(b)-图12中的(d)所示的操作界面。
由于操作信息(即第一操作信息)包括“旅游”应用的应用标识、“旅游”应用的首页标识、操作指示信息c、火车票界面1006的界面标识、操作指示信息d和“出发地”选项输入的查询词“西安”,以及“目的地”选项输入的查询词“深圳”,第一语音命令为“上海到西安的火车票”。因此,第二操作信息包括“旅游”应用的应用标识、“旅游”应用的首页标识、操作指示信息c、火车票界面的界面标识、操作指示信息d和“出发地”选项输入的查询词“上海”,以及“目的地”选项输入的查询词“西安”。
手机300响应于用户在语音控制界面1201输入第一语音命令“上海到西安的火车票”,可以根据第二操作信息中的应用标识“旅游”,开启“旅游”应用,并根据“旅游”应用的首页标识显示“旅游”应用的首页。手机300可以根据上述操作信息c(用于指示用户点击了“旅游”应用的首页的“火车票”选项的操作指示信息),模拟用户点击“旅游”应用的首页的“火车票”选项,显示图12中的(b)所示的界面1203。随后,手机300可以根据火车票界面的界面标识,显示火车票界面;并根据操作指示信息d(用于指示用户修改了“出发地”选项和“目的地”选项的操作指示信息),模拟用于修改“出发地”选项和“目的地”选项的操作指示信息,显示图12中的(c)所示的界面1204。并且,手机300可以根据“出发地”选项输入的查询词“上海”,以及“目的地”选项输入的查询词“西安”,显示图12中的(d)所示的显示界面1205。如此,用户在图12中的(a)所示的语音控制界面1201向手机300输入语音命令“上海到西安的火车票”之后,手机300便可以自动显示图12中的(b)-图12中的(d)所示的操作界面。用户只需要点击图12中的(d)所示的界面1205中的“查询”按钮,便可以触发手机300查询上海到西安的火车票。
考虑到用户对同一事物的可能会有不同的称呼(或说法)。终端100在显示上述第四界面之前,还可以显示包括别名输入框的第五界面。这样,用户便可以在该别名输入框中,为上述第一文本信息起别名。具体的,上述终端100显示第四界面可以包括:终端100显示第五界面。该第五界面包括别名输入框。该别名输入框用于接收第二文本信息,第二文本信息是用户为第一文本信息起的别名。终端100接收用户在第五界面的第五操作。该第五操作用于触发终端100结束文本信息的录制。响应于第五操作,终端100显示第四界面。
示例性的,手机300响应于用户对图11中的(a)所示的第三界面1101中的第一文本信息“[西安]到[深圳]的(火车票)”1102和“到[深圳]的(火车票)”1103的选择操作,手机300可以显示图11中的(b)所示的第五界面1104。第五界面1104中包括别名输入框1107。
手机300响应于用户对图13中的(a)所示的第三界面1301中的第一文本信息“[淘宝]买(牛奶)”1302的选择操作,手机300可以显示图13中的(b)所示的第五界面1303。第五界面1303中包括别名输入框1305。
可选的,第五界面中还可以包括用于指示用户在别名输入框中输入第二文本信息的提示信息。例如,如图13中的(b)所示第五界面1303中还包括提示信息“提示:您可以在别名输入框输入您为上述命令起的别名”。
可选的,第五界面中还可以包括第四提示信息。该第四提示信息用于指示用户选择的第一文本信息。例如,图11中的(b)所示的第五界面1104中还包括第四提示信息“[西安]到[深圳]的(火车票)”1105和“到[深圳]的(火车票)”1106。图13中的(b)所示的第五界面1303中还包括第四提示信息“[淘宝]买(牛奶)”1304。
其中,用户在第五界面的第五操作可以为用户对第五界面中的“确定”按钮的点击操作(如单击操作)。例如,第五操作可以为用户对图11中的(b)所示的“确定”按钮的点击操作。或者,用户在第五界面的第五操作可以为用户在第五界面输入的预设手势。例如,该预设手势可以为向上滑动手势或者S形手势等。
可以理解,部分用户不会在第五界面中的别名输入框中输入第二文本信息。即用户不会为上述第一文本信息起别名。在这种情况下,终端100响应于第五操作,可以直接显示第四界面。示例性的,手机300响应于用户对图11中的(b)所示的“确定”按钮的点击操作,可以显示图11中的(c)所示的第四界面1108。
另一部分用户会在第五界面中的别名输入框中输入第二文本信息,为上述第一文本信息起别名。这种情况下,在终端100显示第五界面之后,终端100可以接收到用户在别名输入框中输入的第二文本信息,并在别名输入框中显示第二文本信息。相应的,终端100响应于用户在第五界面的第五操作,可以保存第二文本信息,以及第二文本信息与操作信息的对应关系。这样,终端100接收到文本与第二文本信息相同的第二语音命令后,可以根据第二文本信息对应的操作信息执行该操作信息对应的操作。
示例性的,手机300可以接收用户在图13中的(b)所示的第五界面1303中的别名输入框1305中输入第二文本信息“淘宝牛奶”,显示图13中的(c)所示的第五界面1306。在图13中的(c)所示的第五界面1306中,别名输入框1305中显示有第二文本信息“淘宝牛奶”。手机300响应于用户对图13中的(c)所示的“确定”按钮的点击操作,可以显示图13中的(d)所示的包括第二文本信息“淘宝牛奶”1310的第四界面1308。
假设第二文本信息为“淘宝牛奶”,上述操作信息包括:应用标识“淘宝”、上述操作指示信息a、上述操作指示信息b和查询词“牛奶”。手机300可以保存第二文本信息“淘宝牛奶”与操作信息“应用标识‘淘宝’、上述操作指示信息a、上述操作指示信息b和查询词‘牛奶’”的对应关系。其中,第二文本信息与操作信息的对应关系,用于终端100接收到与第二文本信息的文本相同的第二语音命令时,指导终端100模拟用户触发终端100执行该第二语音命令对应的操作,显示对应的操作界面。
本申请实施例提供的语音控制命令生成方法中,终端100还可以提供用户为第一文本信息起的别名(即第二文本信息)的服务。并且,终端100的语音助手在接收到该第二文本信息时,也可以模拟用户触发终端100执行该第二语音命令对应的操作,显示对应的操作界面。这样,可以提高自定义语音控制的灵活性,提升用户体验。
可以理解的是,上述终端等为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
本申请实施例可以根据上述方法示例对上述终端等进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图14示出了上述实施例中所涉及的终端的一种可能的结构示意图,该终端1400包括:显示单元1401、输入单元1402、记录单元1403、确定单元1404和执行单元1405。
其中,显示单元1401用于支持终端1400执行上述方法实施例中的“响应于第一操作,显示提示信息”,S201,S202,S204,和/或用于本文所描述的技术的其它过程。
输入单元1402用于支持终端1400执行上述方法实施例中的“接收用户输入的第第一操作”,“接收用户输入的第二操作”,“接收用户在第一界面的第四操作”,S205,S207,“接收用户输入的第五操作”,“接收用户在别名输入框中的第二文本信息”,和/或用于本文所描述的技术的其它过程。记录单元1403用于支持终端1400执行上述方法实施例中的S203,和/或用于本文所描述的技术的其它过程。确定单元1404用于支持终端1400执行上述方法实施例中的S206,和/或用于本文所描述的技术的其它过程。执行单元1405用于支持终端1400执行上述方法实施例中的S208,S902,和/或用于本文所描述的技术的其它过程。
进一步的,上述终端1400还可以包括:生成单元和存储单元。生成单元用于支持终端1400执行上述方法实施例中的S901,和/或用于本文所描述的技术的其它过程。
存储单元用于保存操作信息、第一文本信息、第二文本信息、第一模板文本,以及第二文本信息与操作信息的对应关系等。
其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
当然,终端1400包括但不限于上述所列举的单元模块。例如,终端300还可以包括接收单元和发送单元。接收单元用于接收其他终端发送的数据或者指令。发送单元用于向其他终端发送数据或者指令。并且,上述功能单元的具体所能够实现的功能也包括但不限于上述实例所述的方法步骤对应的功能,终端1400的其他单元的详细描述可以参考其所对应方法步骤的详细描述,本申请实施例这里不再赘述。
在采用集成的单元的情况下,图15示出了上述实施例中所涉及的终端的一种可能的结构示意图。该终端1500包括:处理模块1501、存储模块1502和显示模块1503。处理模块1501用于对终端1500的动作进行控制管理。显示模块1503用于显示处理模块1501生成的图像。存储模块1502,用于保存终端的程序代码和数据。例如,存储模块1502中保存有操作信息、第一文本信息、第二文本信息、第一模板文本,以及第二文本信息与操作信息的对应关系等。可选的,终端1500还可以包括通信模块用于支持终端与其他网络实体的通信。终端1500包括的各个单元的详细描述可以参考上述各方法实施例中的描述,这里不再赘述。
其中,处理模块1501可以是处理器或控制器,例如可以是中央处理器(CentralProcessing Unit,CPU),通用处理器,数字信号处理器(Digital Signal Processor,DSP),专用集成电路(Application-Specific Integrated Circuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块可以是收发器、收发电路或通信接口等。存储模块1502可以是存储器。
当处理模块1501为处理器(如图1所示的处理器110),通信模块包括Wi-Fi模块和蓝牙模块(如图1所示的通信模块160)。Wi-Fi模块和蓝牙模块等通信模块可以统称为通信接口。存储模块1502为存储器(如图1所示的内部存储器121)。显示模块1503为触摸屏(包括图1所示的显示屏194)时,本申请实施例所提供的终端可以为图1所示的终端100。其中,上述处理器、通信接口、触摸屏和存储器可以通过总线耦合在一起。
本申请实施例还提供一种计算机存储介质,该计算机存储介质中存储有计算机程序代码,当上述处理器执行该计算机程序代码时,该终端执行图2或图9中的相关方法步骤实现上述实施例中的方法。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行图2或图9中的相关方法步骤实现上述实施例中的方法。
其中,本申请实施例提供的终端1400、终端1500、计算机存储介质或者计算机程序产品均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以使用硬件的形式实现,也可以使用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种语音控制命令生成方法,其特征在于,包括:
终端响应于第一操作,显示提示信息,所述提示信息用于提示用户输入待记录操作;
所述终端接收用户输入的一个或多个操作;
所述终端响应于用户输入的第二操作,完成所述一个或多个操作对应的操作信息的记录;
所述终端根据用户输入的第三操作,确定与所述操作信息对应的第一文本信息;
所述终端接收第一语音命令;
当所述第一语音命令所对应的文本与所述第一文本信息匹配时,所述终端根据所述操作信息执行相应的操作;
所述操作信息包括:第一应用标识、第一界面标识、第一查询词和操作指示信息;
在所述终端根据用户输入的第三操作,确定与所述操作信息对应的文本信息之前,所述方法还包括:
响应于所述第二操作,所述终端显示第三界面,所述第三界面中包括至少两个文本信息,所述至少两个文本信息是采用连接词根据预设的位置关系,将所述第一应用标识和/或所述第一界面标识,以及所述第一查询词连接起来组成的语句;
所述终端根据用户输入的第三操作,确定与所述操作信息对应的文本信息,包括:
所述终端接收用户对所述第三界面中的所述至少两个文本信息中所述第一文本信息的第三操作,所述第三操作用于从所述至少两个文本信息中选择出所述第一文本信息;
响应于所述第三操作,所述终端将所述第一文本信息确定为所述操作信息对应的文本信息;
在所述响应于所述第三操作,所述终端将所述第一文本信息确定为所述操作信息对应的文本信息之后,所述终端接收第一语音命令之前,所述方法还包括:
所述终端生成第一模板文本,所述第一模板文本是将所述第一文本信息的第二部分替换为所述第一查询词的类型信息生成的;
所述第一语音命令的文本与所述第一文本信息匹配,具体为:所述第一语音命令的文本与所述第一模板文本匹配;
其中,所述第一语音命令的文本与所述第一模板文本匹配,包括:所述第一语音命令所对应的文本中的至少一个第三部分与所述至少一个第一部分相同;所述至少一个第三部分与所述第一语音命令中的第四部分的位置关系,与所述至少一个第一部分和所述第二部分在所述第一文本信息中的位置关系相同;且所述第四部分为所述第一模板文本中的类型信息所指示的类型的词汇。
2.根据权利要求1所述的语音控制命令生成方法,其特征在于,所述第一文本信息包括至少一个第一部分和第二部分;
所述第一语音命令所对应的文本与所述第一文本信息匹配,包括:
所述第一语音命令所对应的文本中的至少一个第三部分与所述至少一个第一部分相同,且所述至少一个第三部分与所述第一语音命令中的第四部分的位置关系,与所述至少一个第一部分和所述第二部分在所述第一文本信息中的位置关系相同。
3.根据权利要求2所述的语音控制命令生成方法,其特征在于,所述第一应用标识为所述一个或多个操作的操作对象应用的标识,所述第一界面标识为所述一个或多个操作的操作对象界面的标识,所述操作指示信息用于指示所述一个或多个操作在所述操作对象界面上所做的操作;
所述至少一个第一部分包括所述第一应用标识和/或所述第一界面标识,所述第二部分包括所述第一查询词。
4.根据权利要求1-3中任意一项所述的语音控制命令生成方法,其特征在于,所述终端响应于第一操作,显示提示信息,包括:
所述终端响应于所述第一操作,在语音助手的第一界面显示所述提示信息;
所述终端接收用户输入的一个或多个操作,包括:
所述终端响应于用户在所述第一界面的第四操作,显示第二界面,所述第二界面用于用户输入所述一个或多个操作;
所述终端接收用户在所述第二界面输入的所述一个或多个操作。
5.根据权利要求4所述的语音控制命令生成方法,其特征在于,在所述终端生成第一模板文本之后,所述终端接收第一语音命令之前,所述方法还包括:
所述终端显示第四界面,所述第四界面用于提示用户在所述语音助手发出与所述第一模板文本匹配的第一语音命令,以触发终端执行相应的操作。
6.根据权利要求5所述的语音控制命令生成方法,其特征在于,在所述终端显示第四界面之前,所述方法还包括:
所述终端显示第五界面,所述第五界面包括别名输入框,所述别名输入框用于接收第二文本信息,所述第二文本信息是用户为所述第一文本信息起的别名;
所述终端接收用户在所述别名输入框中输入的所述第二文本信息,在所述别名输入框中显示所述第二文本信息;
所述终端显示第四界面,包括:
所述终端接收用户在所述第五界面的第五操作,所述第五操作用于触发所述终端结束文本信息的录制;
响应于所述第五操作,所述终端显示所述第四界面;
所述方法还包括:
响应于所述第五操作,所述终端保存所述第二文本信息,以及所述第二文本信息与所述操作信息的对应关系;
其中,所述终端显示的所述第四界面中还包括第二文本信息。
7.根据权利要求6所述的语音控制命令生成方法,其特征在于,所述方法还包括:
所述终端接收用户在所述语音助手输入的第二语音命令;
当所述第二语音命令的文本与所述第二文本信息相同时,所述终端根据所述第二文本信息与所述操作信息的对应关系,执行所述操作信息对应的操作。
8.一种终端,其特征在于,所述终端包括:一个或多个处理器和存储器和显示器;所述存储器、所述显示器与所述处理器耦合;所述显示器用于显示所述处理器生成的图像;所述存储器用于存储计算机程序代码和语音助手的相关信息;所述计算机程序代码包括计算机指令,当所述处理器执行上述计算机指令时,
所述处理器,用于响应于第一操作,控制所述显示器显示提示信息,所述提示信息用于提示用户输入待记录操作;
所述处理器,还用于接收用户输入的一个或多个操作;响应于用户输入的第二操作,完成所述一个或多个操作对应的操作信息的记录,并在所述存储器中保存所述操作信息;
所述处理器,还用于根据用户输入的第三操作,确定与所述操作信息对应的第一文本信息;接收第一语音命令;当所述第一语音命令所对应的文本与所述第一文本信息匹配时,根据所述操作信息执行相应的操作;
所述处理器记录的所述操作信息包括:第一应用标识、第一界面标识、第一查询词和操作指示信息;
所述处理器,还用于在根据用户输入的第三操作,确定与所述操作信息对应的文本信息之前,响应于所述第二操作,控制所述显示器显示第三界面,所述第三界面中包括至少两个文本信息,所述至少两个文本信息是采用连接词根据预设的位置关系,将所述第一应用标识和/或所述第一界面标识,以及所述第一查询词连接起来组成的语句;
所述处理器,用于根据用户输入的第三操作,确定与所述操作信息对应的文本信息,包括:
所述处理器,用于接收用户对所述显示器显示的所述第三界面中的所述至少两个文本信息中所述第一文本信息的第三操作;响应于所述第三操作,将所述第一文本信息确定为所述操作信息对应的文本信息,所述第三操作用于从所述至少两个文本信息中选择出所述第一文本信息;
所述处理器,还用于在响应于所述第三操作,将所述第一文本信息确定为所述操作信息对应的文本信息之后,接收所述第一语音命令之前,生成第一模板文本,所述第一模板文本是将所述第一文本信息的第二部分替换为所述第一查询词的类型信息生成的;
所述处理器,还用于在所述第一语音命令的文本与所述第一模板文本匹配的情况下,确定所述第一语音命令的文本与所述第一文本信息匹配;
其中,所述第一语音命令的文本与所述第一模板文本匹配,包括:所述第一语音命令所对应的文本中的至少一个第三部分与所述至少一个第一部分相同;所述至少一个第三部分与所述第一语音命令中的第四部分的位置关系,与所述至少一个第一部分和所述第二部分在所述第一文本信息中的位置关系相同;且所述第四部分为所述第一模板文本中的类型信息所指示的类型的词汇。
9.根据权利要求8所述的终端,其特征在于,所述处理器确定的所述第一文本信息包括至少一个第一部分和第二部分;
所述处理器,还用于在所述第一语音命令所对应的文本中的至少一个第三部分与所述至少一个第一部分相同,且所述至少一个第三部分与所述第一语音命令中的第四部分的位置关系,与所述至少一个第一部分和所述第二部分在所述第一文本信息中的位置关系相同的情况下,确定所述第一语音命令所对应的文本与所述第一文本信息匹配。
10.根据权利要求9所述的终端,其特征在于,所述第一应用标识为所述一个或多个操作的操作对象应用的标识,所述第一界面标识为所述一个或多个操作的操作对象界面的标识,所述操作指示信息用于指示所述一个或多个操作在所述操作对象界面上所做的操作;
所述至少一个第一部分包括所述第一应用标识和/或所述第一界面标识,所述第二部分包括所述第一查询词。
11.根据权利要求8-10中任意一项所述的终端,其特征在于,所述处理器,用于响应于所述第一操作,控制所述显示器显示所述提示信息,包括:
所述处理器,用于响应于所述第一操作,控制所述显示器在所述语音助手的第一界面显示所述提示信息;
所述处理器,用于接收用户输入的一个或多个操作,包括:
所述处理器,用于响应于用户在所述显示器显示的所述第一界面的第四操作,控制所述显示器显示第二界面,所述第二界面用于用户输入所述一个或多个操作;接收用户在所述显示器显示的所述第二界面输入的所述一个或多个操作。
12.根据权利要求8所述的终端,其特征在于,所述处理器,还用于在生成所述第一模板文本之后,接收所述第一语音命令之前,控制所述显示器显示第四界面,所述第四界面用于提示用户在所述语音助手发出与所述第一模板文本匹配的第一语音命令,以触发终端执行相应的操作。
13.根据权利要求12所述的终端,其特征在于,所述处理器,还用于在控制所述显示器显示所述第四界面之前,控制所述显示器显示第五界面,所述第五界面包括别名输入框,所述别名输入框用于接收第二文本信息,所述第二文本信息是用户为所述第一文本信息起的别名;
所述处理器,用于控制所述显示器显示所述第四界面,包括:
所述处理器,用于接收用户在所述显示器显示的所述第五界面的第五操作,所述第五操作用于触发所述终端结束文本信息的录制;响应于所述第五操作,控制所述显示器显示所述第四界面;
所述处理器,还用于响应于所述第五操作,在所述存储器中保存所述第二文本信息,以及所述第二文本信息与所述操作信息的对应关系;
其中,所述显示器显示的所述第四界面中还包括第二文本信息。
14.根据权利要求13所述的终端,其特征在于,所述处理器,还用于接收用户在所述语音助手输入的第二语音命令;当所述第二语音命令的文本与所述第二文本信息相同时,根据所述第二文本信息与所述操作信息的对应关系,执行所述操作信息对应的操作。
15.一种计算机存储介质,其特征在于,所述计算机存储介质包括计算机指令,当所述计算机指令在终端上运行时,使得所述终端执行如权利要求1-7中任意一项所述的语音控制命令生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210466616.2A CN115050358A (zh) | 2018-08-07 | 2018-08-07 | 一种语音控制命令生成方法及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2018/099253 WO2020029094A1 (zh) | 2018-08-07 | 2018-08-07 | 一种语音控制命令生成方法及终端 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210466616.2A Division CN115050358A (zh) | 2018-08-07 | 2018-08-07 | 一种语音控制命令生成方法及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111742539A CN111742539A (zh) | 2020-10-02 |
CN111742539B true CN111742539B (zh) | 2022-05-06 |
Family
ID=69413951
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210466616.2A Pending CN115050358A (zh) | 2018-08-07 | 2018-08-07 | 一种语音控制命令生成方法及终端 |
CN201880089962.5A Active CN111742539B (zh) | 2018-08-07 | 2018-08-07 | 一种语音控制命令生成方法及终端 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210466616.2A Pending CN115050358A (zh) | 2018-08-07 | 2018-08-07 | 一种语音控制命令生成方法及终端 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11848016B2 (zh) |
EP (1) | EP3826280B1 (zh) |
JP (1) | JP7173670B2 (zh) |
KR (1) | KR102527178B1 (zh) |
CN (2) | CN115050358A (zh) |
WO (1) | WO2020029094A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112447177B (zh) * | 2019-09-04 | 2022-08-23 | 思必驰科技股份有限公司 | 全双工语音对话方法及系统 |
US11474782B2 (en) * | 2020-03-31 | 2022-10-18 | Brother Kogyo Kabushiki Kaisha | Information processing apparatus, information processing method and non-transitory computer-readable medium |
US12002458B1 (en) * | 2020-09-04 | 2024-06-04 | Amazon Technologies, Inc. | Autonomously motile device with command processing |
CN114697717A (zh) * | 2020-12-28 | 2022-07-01 | 深圳Tcl新技术有限公司 | 一种文本输入方法和终端设备 |
CN114979366B (zh) * | 2021-02-24 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 一种控件提示方法、装置、终端以及存储介质 |
US12198696B2 (en) | 2021-09-28 | 2025-01-14 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
CN114115790A (zh) * | 2021-11-12 | 2022-03-01 | 上汽通用五菱汽车股份有限公司 | 语音对话提示方法、装置、设备及计算机可读存储介质 |
CN114237025A (zh) * | 2021-12-17 | 2022-03-25 | 上海小度技术有限公司 | 语音交互方法、装置、设备以及存储介质 |
CN116560515B (zh) * | 2022-01-29 | 2024-10-22 | 腾讯科技(深圳)有限公司 | 词语显示方法、装置、终端及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102510426A (zh) * | 2011-11-29 | 2012-06-20 | 安徽科大讯飞信息科技股份有限公司 | 个人助理应用访问方法及系统 |
CN106128456A (zh) * | 2016-06-16 | 2016-11-16 | 美的集团股份有限公司 | 智能家电的语音控制方法、终端及系统 |
CN107861706A (zh) * | 2017-11-07 | 2018-03-30 | 成都野望数码科技有限公司 | 一种语音指令的响应方法及装置 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4734191B2 (ja) | 2006-07-31 | 2011-07-27 | 富士通株式会社 | オペレータ支援プログラム、オペレータ支援装置およびオペレータ支援方法 |
US20080140413A1 (en) | 2006-12-07 | 2008-06-12 | Jonathan Travis Millman | Synchronization of audio to reading |
US8977255B2 (en) * | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
KR101699720B1 (ko) * | 2010-08-03 | 2017-01-26 | 삼성전자주식회사 | 음성명령 인식 장치 및 음성명령 인식 방법 |
JP5665659B2 (ja) | 2011-06-09 | 2015-02-04 | 京セラ株式会社 | 通信端末装置 |
CN202798881U (zh) | 2012-07-31 | 2013-03-13 | 北京播思软件技术有限公司 | 一种使用语音命令控制移动设备运行的装置 |
CN102855872B (zh) * | 2012-09-07 | 2015-08-05 | 深圳市信利康电子有限公司 | 基于终端及互联网语音交互的家电控制方法及系统 |
CN103685393A (zh) * | 2012-09-13 | 2014-03-26 | 大陆汽车投资(上海)有限公司 | 车载语音操控终端和语音操控系统及数据处理系统 |
US9384732B2 (en) * | 2013-03-14 | 2016-07-05 | Microsoft Technology Licensing, Llc | Voice command definitions used in launching application with a command |
KR101505127B1 (ko) * | 2013-03-15 | 2015-03-26 | 주식회사 팬택 | 음성 명령에 의한 오브젝트 실행 장치 및 방법 |
JP6360484B2 (ja) | 2013-09-03 | 2018-07-18 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声対話制御方法 |
CN104951458B (zh) | 2014-03-26 | 2019-03-01 | 华为技术有限公司 | 基于语义识别的帮助处理方法及设备 |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
CN105354199B (zh) | 2014-08-20 | 2019-10-08 | 北京羽扇智信息科技有限公司 | 一种基于场景信息的实体含义识别方法和系统 |
KR102301880B1 (ko) | 2014-10-14 | 2021-09-14 | 삼성전자 주식회사 | 전자 장치 및 이의 음성 대화 방법 |
KR102245747B1 (ko) * | 2014-11-20 | 2021-04-28 | 삼성전자주식회사 | 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 |
US10192549B2 (en) * | 2014-11-28 | 2019-01-29 | Microsoft Technology Licensing, Llc | Extending digital personal assistant action providers |
CN105869640B (zh) | 2015-01-21 | 2019-12-31 | 上海墨百意信息科技有限公司 | 识别针对当前页面中的实体的语音控制指令的方法和装置 |
US20160225369A1 (en) | 2015-01-30 | 2016-08-04 | Google Technology Holdings LLC | Dynamic inference of voice command for software operation from user manipulation of electronic device |
CN105895093A (zh) | 2015-11-02 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 语音信息处理方法及装置 |
CN106528531B (zh) | 2016-10-31 | 2019-09-03 | 北京百度网讯科技有限公司 | 基于人工智能的意图分析方法及装置 |
CN108010523B (zh) * | 2016-11-02 | 2023-05-09 | 松下电器(美国)知识产权公司 | 信息处理方法以及记录介质 |
JP6733510B2 (ja) | 2016-11-10 | 2020-08-05 | 株式会社リコー | 機器、情報処理システム、情報処理方法及びプログラム |
CN107015962A (zh) | 2017-03-16 | 2017-08-04 | 北京光年无限科技有限公司 | 面向智能机器人的自定义意图识别的实现方法及装置 |
CN107015964B (zh) | 2017-03-22 | 2021-10-19 | 北京光年无限科技有限公司 | 面向智能机器人开发的自定义意图实现方法及装置 |
CN107122179A (zh) | 2017-03-31 | 2017-09-01 | 阿里巴巴集团控股有限公司 | 语音的功能控制方法和装置 |
CN107277904A (zh) | 2017-07-03 | 2017-10-20 | 上海斐讯数据通信技术有限公司 | 一种终端及语音唤醒方法 |
CN107506434A (zh) | 2017-08-23 | 2017-12-22 | 北京百度网讯科技有限公司 | 基于人工智能分类语音输入文本的方法和装置 |
CN108364644A (zh) * | 2018-01-17 | 2018-08-03 | 深圳市金立通信设备有限公司 | 一种语音交互方法、终端及计算机可读介质 |
KR102361458B1 (ko) * | 2018-01-25 | 2022-02-10 | 삼성전자주식회사 | 사용자 발화 응답 방법 및 이를 지원하는 전자 장치 |
-
2018
- 2018-08-07 WO PCT/CN2018/099253 patent/WO2020029094A1/zh unknown
- 2018-08-07 CN CN202210466616.2A patent/CN115050358A/zh active Pending
- 2018-08-07 US US17/266,448 patent/US11848016B2/en active Active
- 2018-08-07 CN CN201880089962.5A patent/CN111742539B/zh active Active
- 2018-08-07 EP EP18929459.8A patent/EP3826280B1/en active Active
- 2018-08-07 KR KR1020217006712A patent/KR102527178B1/ko active Active
- 2018-08-07 JP JP2021506536A patent/JP7173670B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102510426A (zh) * | 2011-11-29 | 2012-06-20 | 安徽科大讯飞信息科技股份有限公司 | 个人助理应用访问方法及系统 |
CN106128456A (zh) * | 2016-06-16 | 2016-11-16 | 美的集团股份有限公司 | 智能家电的语音控制方法、终端及系统 |
CN107861706A (zh) * | 2017-11-07 | 2018-03-30 | 成都野望数码科技有限公司 | 一种语音指令的响应方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2021532500A (ja) | 2021-11-25 |
KR20210040424A (ko) | 2021-04-13 |
US20210295839A1 (en) | 2021-09-23 |
WO2020029094A1 (zh) | 2020-02-13 |
CN115050358A (zh) | 2022-09-13 |
KR102527178B1 (ko) | 2023-04-27 |
EP3826280A4 (en) | 2021-07-21 |
US11848016B2 (en) | 2023-12-19 |
EP3826280A1 (en) | 2021-05-26 |
EP3826280B1 (en) | 2023-05-24 |
CN111742539A (zh) | 2020-10-02 |
JP7173670B2 (ja) | 2022-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134316B (zh) | 模型训练方法、情绪识别方法及相关装置和设备 | |
CN112130742B (zh) | 一种移动终端的全屏显示方法及设备 | |
CN111742539B (zh) | 一种语音控制命令生成方法及终端 | |
CN110244893B (zh) | 一种分屏显示的操作方法及电子设备 | |
CN110347269B (zh) | 一种空鼠模式实现方法及相关设备 | |
CN112671976B (zh) | 电子设备的控制方法、装置及电子设备、存储介质 | |
CN110825469A (zh) | 语音助手显示方法及装置 | |
CN112231025A (zh) | Ui组件显示的方法及电子设备 | |
CN110012154A (zh) | 一种具有折叠屏的电子设备的控制方法及电子设备 | |
CN110798552A (zh) | 一种音量调节方法及电子设备 | |
CN110032307A (zh) | 一种应用图标的移动方法及电子设备 | |
CN110559645B (zh) | 一种应用的运行方法及电子设备 | |
CN113168257B (zh) | 锁定触控操作的方法及电子设备 | |
CN113573390A (zh) | 天线功率调节方法、终端设备及存储介质 | |
CN112527093A (zh) | 手势输入方法及电子设备 | |
CN113970888A (zh) | 家居设备控制方法、终端设备及计算机可读存储介质 | |
CN113641271A (zh) | 应用窗口的管理方法、终端设备及计算机可读存储介质 | |
CN111492678B (zh) | 一种文件传输方法及电子设备 | |
CN112740148A (zh) | 一种向输入框中输入信息的方法及电子设备 | |
CN113380240A (zh) | 语音交互方法和电子设备 | |
WO2022007757A1 (zh) | 跨设备声纹注册方法、电子设备及存储介质 | |
CN115730091A (zh) | 批注展示方法、装置、终端设备及可读存储介质 | |
CN115185441A (zh) | 控制方法、装置、电子设备及可读存储介质 | |
CN115393676A (zh) | 手势控制优化方法、装置、终端和存储介质 | |
CN114740986A (zh) | 手写输入显示方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |