CN111951782B - 语音问答方法及装置、计算机可读存储介质和电子设备 - Google Patents
语音问答方法及装置、计算机可读存储介质和电子设备 Download PDFInfo
- Publication number
- CN111951782B CN111951782B CN201910365034.3A CN201910365034A CN111951782B CN 111951782 B CN111951782 B CN 111951782B CN 201910365034 A CN201910365034 A CN 201910365034A CN 111951782 B CN111951782 B CN 111951782B
- Authority
- CN
- China
- Prior art keywords
- question
- voice
- information
- parsing
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004458 analytical method Methods 0.000 claims abstract description 174
- 230000004044 response Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 abstract description 21
- 238000010422 painting Methods 0.000 description 113
- 238000012545 processing Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 4
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 4
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 1
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开实施例提供了一种语音问答方法及装置、计算机可读存储介质和电子设备。该方法包括:接收问题语音信息,并根据所述问题语音信息获得问题文本信息;对所述问题文本信息做通用语义解析处理和专用语义解析处理中的至少一个语义解析处理,生成解析结果;根据所述解析结果,获得答复信息;其中,所述通用语义解析用于进行通用领域的语义解析,所述专用语义解析用于进行艺术领域的语义解析。
Description
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种语音问答方法及装置、计算机可读存储介质和电子设备。
背景技术
目前,出现了一种画屏终端,其可以向画屏用户展示各种绘画名作和艺术新品,从而能够让艺术品以数字形式走入家庭、办公空间等。随着画屏用户群体的壮大,催生了画屏用户对画屏终端实现语音问答的需求。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种语音问答方法及其装置、计算机可读存储介质和电子设备,进而至少一定程度上克服相关技术中存在的画屏终端不具备语音问答功能的问题。
根据本公开的第一方面,提供一种语音问答方法,所述方法包括:接收问题语音信息,并根据所述问题语音信息获得问题文本信息;对所述问题文本信息做通用语义解析处理和专用语义解析处理中的至少一个语义解析处理,生成解析结果;根据所述解析结果,获得答复信息;其中,所述通用语义解析用于进行通用领域的语义解析,所述专用语义解析用于进行艺术领域的语义解析。
根据本公开的一实施方式,对所述问题文本信息做通用语义解析处理和专用语义解析处理中的至少一个语义解析处理,生成解析结果,包括:将所述问题文本信息分别做所述通用语义解析处理和所述专用语义解析处理;分别生成响应于所述问题文本信息的第一解析结果和第二解析结果;根据所述第一解析结果和所述第二解析结果获得所述解析结果。
根据本公开的一实施方式,对所述问题文本信息做通用语义解析处理和专用语义解析处理中的至少一个语义解析处理,生成解析结果,包括:根据所述问题文本信息获得问题领域;根据所述问题领域选择将所述问题文本信息做所述通用语义解析处理或者所述专用语义解析处理;生成响应于所述问题文本信息的解析结果。
根据本公开的一实施方式,根据所述第一解析结果和所述第二解析结果获得所述解析结果,包括:若所述第二解析结果不为预定标识,则根据获取所述第一解析结果和所述第二解析结果的时间顺序确定所述解析结果。
根据本公开的一实施方式,根据所述解析结果,获得答复信息,包括:若先获取所述第二解析结果,则所述解析结果为所述第二解析结果;根据所述第二解析结果和当前作品信息检索针对所述问题语音信息的答复信息。
根据本公开的一实施方式,根据所述解析结果,获得答复信息,包括:若先获取所述第一解析结果,则所述解析结果为所述第一解析结果;将所述第一解析结果作为所述答复信息。
根据本公开的一实施方式,所述方法还包括:根据所述答复信息,调整显示内容。
根据本公开的一实施方式,根据所述第一解析结果和所述第二解析结果获得所述解析结果,包括:若所述第二解析结果为预定标识,则将所述第一解析结果作为所述解析结果。
根据本公开的第二方面,提供一种语音问答装置,所述装置包括:问题文本获得模块,配置为接收问题语音信息,并根据所述问题语音信息获得问题文本信息;解析结果生成模块,配置为对所述问题文本信息做通用语义解析处理和专用语义解析处理中的至少一个语义解析处理,生成解析结果;答复信息获得模块,配置为根据所述解析结果,获得答复信息;其中,所述通用语义解析用于进行通用领域的语义解析,所述专用语义解析用于进行艺术领域的语义解析。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例任一项所述的语音问答方法。
根据本公开的第四方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例任一项所述的语音问答方法。
本公开某些实施例提供的语音问答方法及装置、计算机可读存储介质和电子设备,当接收到用户向其发出的问题语音信息后,可以获得该问题语音信息的问题文本信息,并可以对该问题文本信息进行通用语义解析处理和专用语义解析处理中的至少一个语义解析处理,从而可以获得解析结果,并根据所述解析结果,可以获得针对所述问题语音信息的答复信息,其中该通用语义解析处理主要用于进行通用领域(例如,天气、聊天、音乐、百科等)的语义解析,该专用语义解析处理主要用于进行艺术领域(例如,画作)的语义解析,从而使得可以根据该通用语义解析处理的结果和/或该专用语义解析处理的结果识别该问题语音信息包含的问题意图,之后可以根据这些信息获得答复信息反馈给用户,一方面,通过采用通用语义解析处理和专用语义解析处理中的至少一个语义解析处理对问题进行语义解析,既可以解答用户提出的各种通用领域的语音问题,也可以解答专门针对艺术领域的语音问题,实现了全面的语音问答功能,保证了装置的健壮性;另一方面,通过采用专用语义解析处理还可以解决通用语义解析处理针对艺术这个垂直领域的语义解析精准度不够的问题,提高了语音问答的准确率,能够很好地满足数字艺术领域自动问答的需求。同时,本发明实施例提供的语音问答装置具有高拓展性,可以灵活接入其他语音功能。
本公开另一些实施例提供的语音问答方法及装置、计算机可读存储介质和电子设备,可以在显示终端(例如,画屏终端)上显示当前作品(例如绘画作品,简称画作),当该显示终端接收到用户向其发出的问题语音信息后,该显示终端可以获得该问题语音信息的问题文本信息,并可以将该问题文本信息和当前作品信息发送至业务服务器(例如,画屏业务服务器),该业务服务器可以同时调用通用语义解析服务器和专用语义解析服务器对该问题文本信息和该当前作品信息进行语义解析,分别获得第一解析结果和第二解析结果,其中该通用语义解析服务器主要用于识别通用领域(例如,天气、聊天、音乐、百科等)的问题意图,该专用语义解析服务器主要用于识别艺术领域(例如,画作)的问题意图,从而使得该业务服务器可以根据该第一解析结果和该第二解析结果识别该问题语音信息包含的实体和意图,之后业务服务器可以根据这些信息获得答复信息反馈给显示终端,一方面,通过同时采用通用语义解析服务器和专用语义解析服务器对问题进行语义解析,系统既可以解答用户提出的各种通用领域的语音问题,也可以解答专门针对艺术领域的语音问题,为画屏终端实现了全面的语音问答功能,保证了系统的健壮性;另一方面,通过采用专用语义解析服务器还可以解决通用语义解析服务器针对艺术这个垂直领域的语义解析精准度不够的问题,提高了语音问答的准确率,能够很好地满足数字艺术领域自动问答的需求,搭建了一个适应画屏场景的语音交互平台。同时,本发明实施例提供的语音问答系统具有高拓展性,可以灵活接入其他语音功能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
通过参照附图来详细描述其示例实施例,本公开的上述和其它特征及优点将变得更加明显。
图1为本公开示例性实施例提供的一种语音问答系统的示意图;
图2为本公开示例性实施例提供的一种语音问答方法的流程图;
图3示意性示出图2中的步骤S220在一个实施例中的流程图;
图4示意性示出图2中的步骤S220在另一个实施例中的流程图;
图5为本公开示例性实施例提供的另一种语音问答方法的流程图;
图6示意性示出图5中的步骤S510在一个实施例中的流程图;
图7示意性示出图5中的步骤S540在一个实施例中的流程图;
图8为本公开示例性实施例提供的又一种语音问答方法的流程图;
图9为本公开示例性实施例提供的一种语音问答方法的示意图;
图10为本公开示例性实施例提供的一种语音问答装置的框图;以及
图11示出了适于用来实现本发明实施例的电子设备的计算机装置的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1为本公开示例性实施例提供的一种语音问答系统的示意图。
如图1所示,本公开实施例提供的语音问答系统100可以包括显示终端(这里以画屏终端110为例进行举例说明,但本公开并不限定于此,所述显示终端可以是任意的具有显示功能的终端设备,例如平板电脑、智能手机等)、业务服务器(这里以画屏业务服务器140为例进行举例说明)、通用语义解析服务器150和专用语音解析服务器160。
其中,画屏终端110可以用于显示当前作品,这里的当前作品例如可以是任意一幅世界名画,也可以是一些新锐艺术作品,还可以是画屏用户自己绘制的作品或者拍摄的照片等,本公开对此不作限定。
例如,以画屏终端110当前显示的作品为某一幅世界名画为例,可以预先在云存储服务器120中存储丰富的世界馆藏名画,并且将各幅名画进行编号,每幅画作具有一个唯一标识(identification,ID),称之为画作ID,画作ID和相应的画作一一对应的存储到云存储服务器120中。画屏用户可以主动地向画屏终端110发送画作展示请求,画屏终端110将该画作展示请求发送至云存储服务器120,云存储服务器120根据该画作展示请求可以向画屏终端110返回相应的画作,例如《蒙娜丽莎》。云存储服务器120也可以向画屏终端110主动推送画作进行展示,本公开对此不作限定。
需要说明的是,这里虽然以云存储服务器存储画作为例,但实际上本公开并不限定于此,可以采用任何合适的存储设备存储画作或者其他作品信息。此外,画屏终端110上显示的作品并不限于是从云存储服务器120拉取的,例如还可以是从手机终端向其推送的。
本公开实施例中,通用语义解析服务器150可以用于对通用领域,例如天气领域、聊天领域、有声读物领域、故事领域、音乐领域、百科领域等的问题进行语义理解,识别画屏用户的问题意图是什么。通用语义解析服务器150例如可以采用图灵机器人,但本公开并不限定于此。专用语音解析服务器160可以用于对艺术领域,例如画作的问题进行语义理解,识别画屏用户的问题意图是什么。
继续参考图1,语音问答系统100还可以包括语音服务器130,这里的语音服务器130可以进一步包括语音识别服务器和语音合成服务器(图中未示出)。其中,画屏终端110接收到画屏用户发送的问题语音信息后,可以将该问题语音信息发送至语音服务器130,语音服务器130可以将其转换为问题文本信息,并将该问题文本信息返回至画屏终端110。当画屏终端110接收到画屏业务服务器140返回的针对该问题语音信息的答复信息时,若该答复信息中包括答复文本信息,则可以利用语音服务器130中的语音合成服务器将答复文本信息转换成答复语音信息,从而使得画屏终端110可以以语音形式播放出答复信息。
在图1的实施例中,语音问答系统100还可以包括艺术信息服务器170,艺术信息服务器170中可以预先存储各世界名画的相关信息,例如每幅世界名画的作者是谁,作者的生平介绍,创作时间,创作背景,所属博物馆,目前在何处参展,经历了什么重要的历史事件等等任意相关数据,与云存储服务器120类似的,艺术信息服务器170中也可以将各画作的画作ID与其画作相关数据一一对应的存储。
需要说明的是,虽然图1实施例中将画屏终端110、云存储服务器120、语音服务器130、画屏业务服务器140、通用语义解析服务器150、专用语义解析服务器160和艺术信息服务器170作为独立的物理部件,但实际上,也可以将其中的部分或者全部集成至同一物理部件中,本公开对此不作限定。
图2为本公开示例性实施例提供的一种语音问答方法的流程图。本公开实施例提供的方法可以由任意具备计算处理能力的电子设备执行,例如可以由图1中的画屏终端110、云存储服务器120、语音服务器130、画屏业务服务器140、通用语义解析服务器150、专用语义解析服务器160以及艺术信息服务器170中的任意一种或者几种的组合来实现,本公开对本实施例提供的方法的执行主体不作限定。
如图2所示,本公开实施例提供的语音问答方法可以包括以下步骤。
在步骤S210中,接收问题语音信息,并根据所述问题语音信息获得问题文本信息。
例如,可以由画屏终端110接收画屏用户发出的所述问题语音信息。再例如,可以利用语音服务器130将所述问题语音信息转换为所述问题文本信息,然后返回给画屏终端110。画屏终端110可以将所述问题文本信息发送至画屏业务服务器140。或者,可以由语音服务器130直接将所述问题文本信息发送至画屏业务服务器140。
在步骤S220中,对所述问题文本信息做通用语义解析处理和专用语义解析处理中的至少一个语义解析处理,生成解析结果。
其中,所述通用语义解析用于进行通用领域的语义解析,所述专用语义解析用于进行艺术领域的语义解析。
在步骤S230中,根据所述解析结果,获得答复信息。
本公开实施方式提供的语音问答方法,当接收到用户向其发出的问题语音信息后,可以获得该问题语音信息的问题文本信息,并可以对该问题文本信息进行通用语义解析处理和专用语义解析处理中的至少一个语义解析处理,从而可以获得解析结果,并根据所述解析结果,可以获得针对所述问题语音信息的答复信息,其中该通用语义解析处理主要用于进行通用领域(例如,天气、聊天、音乐、百科等)的语义解析,该专用语义解析处理主要用于进行艺术领域(例如,画作)的语义解析,从而使得可以根据该通用语义解析处理的结果和/或该专用语义解析处理的结果识别该问题语音信息包含的问题意图,之后可以根据这些信息获得答复信息反馈给用户,一方面,通过采用通用语义解析处理和专用语义解析处理中的至少一个语义解析处理对问题进行语义解析,既可以解答用户提出的各种通用领域的语音问题,也可以解答专门针对艺术领域的语音问题,实现了全面的语音问答功能,保证了装置的健壮性;另一方面,通过采用专用语义解析处理还可以解决通用语义解析处理针对艺术这个垂直领域的语义解析精准度不够的问题,提高了语音问答的准确率,能够很好地满足数字艺术领域自动问答的需求。
图3示意性示出图2中的步骤S220在一个实施例中的流程图。
如图3所示,本公开实施例中,上述步骤S220可以进一步包括以下步骤。
在步骤S221中,将所述问题文本信息分别做所述通用语义解析处理和所述专用语义解析处理。
例如,画屏业务服务器140接收到所述问题文本信息后,可以同时将所述问题文本信息发送至通用语义解析服务器150进行所述通用语义解析处理,并将所述问题文本信息发送至专用语义解析服务器160进行所述专用语义解析处理。
在步骤S222中,分别生成响应于所述问题文本信息的第一解析结果和第二解析结果。
例如,通用语义解析服务器150对所述问题文本信息进行通用语义解析处理,生成响应于所述问题文本信息的第一解析结果并发送至画屏业务服务器140。专用语义解析服务器160对所述问题文本信息进行专用语义解析处理,生成响应于所述问题文本信息的第二解析结果并发送至画屏业务服务器140。
在步骤S223中,根据所述第一解析结果和所述第二解析结果获得所述解析结果。
例如,画屏业务服务器140可以根据接收到的所述第一解析结果和所述第二解析结果进行决策,生成所述解析结果。
图4示意性示出图2中的步骤S220在另一个实施例中的流程图。
如图4所示,本公开实施例中,上述步骤S220可以进一步包括以下步骤。
在步骤S224中,根据所述问题文本信息获得问题领域。
例如,画屏业务服务器140可以预先对所述问题文本信息进行问题领域的识别,识别所述问题文本信息提出的问题属于通用领域还是艺术领域。
在步骤S225中,根据所述问题领域选择将所述问题文本信息做所述通用语义解析处理或者所述专用语义解析处理。
例如,若画屏业务服务器140识别所述问题文本信息所属的问题领域为所述通用领域,则将所述问题文本信息发送至通用语义解析服务器150进行所述通用语义解析处理。
再例如,若画屏业务服务器150识别所述问题文本信息所属的问题领域为所述艺术领域,则将所述问题文本信息发送至专用语义解析服务器160进行所述专用语义解析处理。
本公开实施例中,首先确定所述问题文本信息的问题领域,然后再根据确定的问题领域将所述问题文本信息进行相应的通用语义解析处理或者专用语义解析处理,这样,可以减少运算处理量,提高返回的解析结果的准确性。
在步骤S226中,生成响应于所述问题文本信息的解析结果。
例如,若所述问题领域为所述通用领域,则画屏业务服务器140接收通用语义解析服务器150返回的响应于所述问题文本信息的解析结果。若所述问题领域为所述艺术领域,则画屏业务服务器140接收专用语义解析服务器160返回的响应于所述问题文本信息的解析结果。
图5为本公开示例性实施例提供的一种语音问答方法的流程图。本发明实施例提供的语音问答方法可以应用于如图1所示的语音问答系统。
如图5所示,本公开实施例提供的语音问答方法可以包括以下步骤。
在步骤S510中,通过所述显示终端接收问题语音信息,并根据所述问题语音信息获得问题文本信息。
在步骤S520中,通过所述业务服务器接收所述显示终端发送的所述问题文本信息和当前作品信息,并分别发送至所述通用语义解析服务器和所述专用语义解析服务器。
其中所述通用语义解析服务器用于识别通用领域的问题意图,所述专用语义解析服务器用于识别艺术领域的问题意图。
在示例性实施例中,所述通用领域可以包括天气领域、聊天领域、有声读物领域、故事领域、音乐领域、百科领域等中的任意一种或者多种。所述艺术领域例如是画作。
本公开实施例中,所述当前作品信息例如可以是画作ID、画作名称等可以将当前显示的作品与其他作品唯一区别开来的任意相关信息。
本公开实施例中,所述业务服务器可以对所述问题文本信息进行预处理操作,例如对其进行文本纠正处理,由于语音识别的结果可能有一些不能正确识别,如果不对其进行纠正,会对后续的处理带来极大的不利,所以对语音识别的问题文本信息进行纠正,可以使得输入的问题尽可能正确,业务服务器可以从语音、字形和语义等几个角度对输入的问题进行分析处理,对问题进行矫正。
在步骤S530中,分别利用所述通用语义解析服务器和所述专用语义解析服务器向所述业务服务器返回第一解析结果和第二解析结果,其中所述第一解析结果和所述第二解析结果根据所述问题文本信息和所述当前作品信息生成的。
本公开实施例中,所述通用语义解析服务器对所述问题文本信息和所述当前作品信息进行实体识别,然后根据实体识别的结果进行领域分类,例如判断其是天气领域的问题,还是音乐领域的问题,还是聊天领域的问题,还是百科领域的问题,等等。当确定其问题领域后,可以进一步根据实体识别的结果确定画屏用户的问题意图,例如其是想要获知具体哪个地点的什么时间段的天气,还是想要播放某一首歌曲,还是想要获得有关于《蒙娜丽莎》这幅画作的相关信息,等等。
本公开实施例中,所述专用语义解析服务器可以首先对所述问题文本信息和所述当前作品信息进行实体识别,将问题和当前作品信息中的命名实体识别出来,这里的命名实体识别可以预先在用户字典中配置命名实体信息,然后在线识别时根据所述用户词典采用词法分析技术进行实体识别。然后可以根据识别的结果进行领域分类,判断画屏用户当前提出的问题是否与艺术领域相关,若与艺术领域无关,则专用语义解析服务器可以返回一个预定标识,例如“-1”作为第二解析结果返回至业务服务器;若与艺术领域相关,则专用语义解析服务器可以进一步根据识别的结果进行意图识别。本公开实施例中,专用语义解析服务器首先根据识别的结果进行问题的领域分类,若判定其是非艺术领域的,则返回一个设定的预定标识,从而使得业务服务器可以据此选择通用语义解析服务器的第一解析结果作为目标解析结果,提高了解析结果的准确性,提高了业务服务器进行决策的速度和效率,有助于实现实时地、准确地给画屏用户返回答复信息。
这里的领域分类可以利用规则过滤方式,也可以利用机器学习方式。例如,可以通过数据挖掘技术预先分类出一些规则,再通过综合分析获得过滤规则,利用过滤规则方式进行领域分类见效快且性能高。再例如,也可以标注语料,利用标注的语料训练分类器进行领域分类,这种机器学习方式的自动化程度较高。再根据画屏用户提出的问题,识别出其问题意图是什么。意图识别本质上还是分类问题,也可以采用基于规则模板和基于机器学习的方式。这里可以采用基于深度学习的循环神经网络模型,例如LSTM(Long Short-TermMemory,长短期记忆网络)、GRU(Gated Recurrent Unit,门循环单元)等任意一种或者多种的组合,对短文本的分类问题效果较好。
在步骤S540中,所述业务服务器根据所述第一解析结果和所述第二解析结果获得答复信息并返回至所述显示终端。
本公开实施例中,所述业务服务器接收到所述第一解析结果和所述第二解析结果后,可以进行决策意图选择,选择所述第一解析结果或者所述第二解析结果作为所述问题语音信息的问题意图。
本公开实施方式提供的语音问答方法,可以在显示终端(例如,画屏终端)上显示当前作品(例如绘画作品,简称画作),当该显示终端接收到用户向其发出的问题语音信息后,该显示终端可以获得该问题语音信息的问题文本信息,并可以将该问题文本信息和当前作品信息发送至业务服务器(例如,画屏业务服务器),该业务服务器可以同时调用通用语义解析服务器和专用语义解析服务器对该问题文本信息和该当前作品信息进行语义解析,分别获得第一解析结果和第二解析结果,其中该通用语义解析服务器主要用于识别通用领域(例如,天气、聊天、音乐、百科等)的问题意图,该专用语义解析服务器主要用于识别艺术领域(例如,画作)的问题意图,从而使得该业务服务器可以根据该第一解析结果和该第二解析结果识别该问题语音信息包含的实体和意图,之后业务服务器可以根据这些信息获得答复信息反馈给显示终端,一方面,通过同时采用通用语义解析服务器和专用语义解析服务器对问题进行语义解析,系统既可以解答用户提出的各种通用领域的语音问题,也可以解答专门针对艺术领域的语音问题,为画屏终端实现了全面的语音问答功能,保证了系统的健壮性;另一方面,通过采用专用语义解析服务器还可以解决通用语义解析服务器针对艺术这个垂直领域的语义解析精准度不够的问题,提高了语音问答的准确率,能够很好地满足数字艺术领域自动问答的需求,搭建了一个适应画屏场景的语音交互平台。同时,本发明实施例提供的语音问答系统具有高拓展性,可以灵活接入其他语音功能。
图6示意性示出图5中的步骤S510在一个实施例中的流程图。本公开实施例中,所述语音问答系统还可以包括语音识别服务器。
如图6所示,上述步骤S510还可以进一步包括以下步骤。
在步骤S511中,所述显示终端向所述语音识别服务器发送所述问题语音信息。
在步骤S512中,所述语音识别服务器根据所述问题语音信息向所述显示终端返回所述问题文本信息。
图7示意性示出图5中的步骤S540在一个实施例中的流程图。
如图7所示,上述步骤S540还可以进一步包括以下步骤。
在步骤S541中,所述业务服务器判断所述第二解析结果是否为预定标识;若是,则跳转到步骤S545;若否,则进入步骤S542。
例如,所述预定标识为“-1”。
在步骤S542中,所述业务服务器接着判断是否先获取所述第二解析结果;若是,则进入步骤S543;若否,则跳转到步骤S545。
在示例性实施例中,若所述第二解析结果不为预定标识,则所述业务服务器根据接收所述第一解析结果和所述第二解析结果的时间顺序确定目标解析结果;所述业务服务器根据所述目标解析结果获得所述答复信息。
本公开实施例中,业务服务器可以根据接收到该第一解析结果和该第二解析结果的时间先后顺序来确定目标解析结果,例如,若先接收到该第一解析结果,则将该第一解析结果作为该目标解析结果,从而可以提高业务服务器获取目标解析结果的速度和效率,有利于实现实时的给画屏用户返回答复信息,提高用户体验。
在步骤S543中,所述业务服务器将所述第二解析结果和所述当前作品信息发送至艺术信息服务器。
在步骤S544中,所述艺术信息服务器根据所述第二解析结果和所述当前作品信息检索针对所述问题语音信息的答复信息并返回至所述业务服务器。
在示例性实施例中,所述系统还可以包括用于存储艺术领域信息的艺术信息服务器。其中,所述业务服务器根据所述目标解析结果获得所述答复信息,可以包括:若所述目标解析结果为所述第二解析结果,则所述业务服务器将所述第二解析结果和所述当前作品信息发送至所述艺术信息服务器;所述艺术信息服务器根据所述第二解析结果和所述当前作品信息检索针对所述问题语音信息的答复信息并返回至所述业务服务器。
本公开实施例中,所述艺术信息服务器可以根据画作ID从数据库中检索出所有可能包含答案的候选数据,例如将《蒙娜丽莎》有关的数据均检索出来,然后进行答案抽取处理。根据所述专用语义解析服务器解析获得的命名实体识别的结果(包含于所述第二解析结果中)和问题意图,将实体作为意图槽位数据,组合成完整语义信息,并结合产品的业务需求,根据不同的应用场景,从检索得到的数据中,提取出答案数据,作为答复信息返回至业务服务器。
例如,预先将各幅世界名画作品及其画作ID存储至云存储服务器,在画屏终端显示其中的一幅画作,例如《蒙娜丽莎》,且其画作ID假设为1。若画屏用户向画屏终端发出语音提问“请介绍一下当前这幅作品”,画屏终端将该问题语音发送至语音服务器,语音服务器对该问题语音进行识别,并向画屏终端返回识别获得的问题文本,然后画屏终端将该问题文本以及该画作ID发送至画屏业务服务器,画屏业务服务器将该问题文本发送至通用语义解析服务器(这里例如还可以将画作名称例如《蒙娜丽莎》发送至通用语义解析服务器),同时还将该问题文本及该画作ID发送至专用语义解析服务器,通用语义解析服务器会对该问题文本进行解析,获得第一解析结果,专用语义解析服务器预先建模了一个LSTM模型,针对艺术领域的词语进行训练,专门用于解析艺术领域的问题文本,获得第二解析结果;通用语义解析服务器将所述第一解析结果返回至画屏业务服务器,专用语义解析服务器将所述第二解析结果返回至画屏业务服务器,画屏业务服务器若判定所述第二解析结果不为“-1”,即当前问题是与艺术领域相关的,则画屏业务服务器继续判断是哪个解析结果先返回的,假设是所述第二解析结果先返回至画屏业务服务器,则画屏业务服务器将所述第二解析结果发送至艺术信息服务器,艺术信息服务器相当于一个数据库,记录了各个画作ID及其对应的相关信息,例如作品介绍、作品作者等,艺术信息服务器根据画作ID和第二解析结果进行问题匹配,检索相应的回答文本和/或回答音频返回至画屏业务服务器,画屏业务服务器将其返回至画屏终端,若是回答文本则画屏业务服务器将回答文本发送至语音服务器,合成回答语音,画屏终端将回答语音和/或回答音频播放出来。
在步骤S545中,所述业务服务器将所述第一解析结果作为所述答复信息。
在示例性实施例中,所述业务服务器根据所述目标解析结果获得所述答复信息,可以包括:若所述目标解析结果为所述第一解析结果,则所述业务服务器将所述第一解析结果作为所述答复信息。
在示例性实施例中,所述业务服务器根据所述第一解析结果和所述第二解析结果获得答复信息,可以包括:若所述第二解析结果为预定标识,则所述业务服务器将所述第一解析结果作为所述答复信息。本公开实施例中,在专用语义解析服务器返回的第二解析结果为预定标识时,说明画屏用户当前提出的问题与艺术领域无关,则此时业务服务器可以直接选择通用语义解析服务器返回的第一解析结果作为所述答复信息,提高了返回答复信息的速度、时效性和准确性,减少系统运算量和处理量,能够提高用户体验。
例如,画屏用户若向画屏终端发出语音提问“请给我播放一首歌”,此时该问题与该当前显示的画作没有关系,则专用语义解析服务器会返回“-1”,若画屏业务服务器接收到专用语义解析服务器返回的“-1”,则不管是第一解析结果先到还是第二解析结果先到,均会等待通用语义解析服务器返回的第一解析结果,例如若第一解析结果包括一首歌的链接,则此时不需要使用艺术信息服务器,直接将该链接返回至画屏终端即可。
继续参考图7,所述方法还可以包括:在步骤S546中,利用所述答复信息,调整显示内容。
例如,若所述第一解析结果包括一首歌的链接,则可以在画屏终端上显示该歌的歌词,同时还可以播放该首歌。再例如,若画屏用户询问的是“请问明天XX的天气怎么样?”,则既可以以语音形式向画屏用户播报明天XX的天气,还可以同时在画屏终端上显示XX明天的天气。
图8为本公开示例性实施例提供的另一种语音问答方法的流程图。本公开实施例中,所述系统还可以包括语音合成服务器。
如图8所示,本公开实施例提供的语音问答方法与上述其他实施例的区别在于,还可以包括以下步骤。
在步骤S810中,所述显示终端判断接收到的所述答复信息中是否包括答复文本信息;若是,则进入步骤S820;若否,则跳转到步骤S840。
在步骤S820中,所述显示终端将所述答复文本信息发送至语音合成服务器。
在步骤S830中,所述语音合成服务器将所述答复文本信息合成为答复语音信息并返回至所述显示终端。
在步骤S840中,所述显示终端以语音形式播放所述答复信息。
图9为本公开示例性实施例提供的一种语音问答方法的示意图。
如图9所示,本公开实施例以画屏场景为例进行举例说明,所述语音问答方法可以包括以下步骤。
步骤S1:从云存储服务器中拉取画作显示于画屏终端。
步骤S2:画屏用户向画屏终端输入问题语音。
步骤S3:画屏终端将接收到的问题语音的音频输入至语音服务器。
步骤S4:语音服务器对接收到的问题语音进行语音识别,向画屏终端返回问题文本。
步骤S5:画屏终端将问题文本和画屏终端当前显示的画作ID输入至画屏业务服务器。
步骤S6:画屏业务服务器将问题文本输入至通用语义解析服务器。
步骤S7:通用语义解析服务器根据所述问题文本生成第一解析结果并返回至画屏业务服务器。
步骤S8:画屏业务服务器将问题文本和画作ID输入至专用语义解析服务器。
步骤S9:专用语义解析服务器根据所述问题文本和所述画作ID生成第二解析结果并返回至画屏业务服务器。
若第二解析结果不为预定标识,且画屏业务服务器先接收到所述第二解析结果,则所述方法还可以包括:步骤S10:画屏业务服务器将第二解析结果输入至艺术信息服务器。步骤S11:艺术信息服务器根据所述第二解析结果检索到匹配内容返回至所述画屏业务服务器。
步骤S12:画屏业务服务器根据所述第一解析结果和所述第二解析结果获得答复信息并返回至所述画屏终端。
具体的,若第二解析结果不为预定标识,且画屏业务服务器先接收到所述第二解析结果,则画屏业务服务器将艺术信息服务器返回的匹配内容作为所述答复信息;若第二解析结果为所述预定标识,或者画屏业务服务器先接收到所述第一解析结果,则画屏业务服务器将所述第一解析结果作为答复信息。
步骤S13:画屏终端将答复信息输入至语音服务器。
步骤S14:语音服务器对所述答复信息进行语音合成后返回至画屏终端。
步骤S15:画屏终端向画屏用户进行语音播放。
图10为本公开示例性实施例提供的一种语音问答装置的框图。
如图10所示,本公开实施例提供的语音问答装置1000可以包括问题文本获得模块1010、解析结果生成模块1020以及答复信息获得模块1030。
其中,问题文本获得模块1010可以配置为接收问题语音信息,并根据所述问题语音信息获得问题文本信息。解析结果生成模块1020可以配置为对所述问题文本信息做通用语义解析处理和专用语义解析处理中的至少一个语义解析处理,生成解析结果。答复信息获得模块1030可以配置为根据所述解析结果,获得答复信息。其中,所述通用语义解析用于进行通用领域的语义解析,所述专用语义解析用于进行艺术领域的语义解析。
在示例性实施例中,解析结果生成模块1020可以包括:双重语义解析单元,可以配置为将所述问题文本信息分别做所述通用语义解析处理和所述专用语义解析处理;双重语义获取单元,可以配置为分别生成响应于所述问题文本信息的第一解析结果和第二解析结果;解析结果获得单元,可以配置为根据所述第一解析结果和所述第二解析结果获得所述解析结果。
在示例性实施例中,解析结果生成模块1020可以包括:问题领域获得单元,可以配置为根据所述问题文本信息获得问题领域;单重语义解析单元,可以配置为根据所述问题领域选择将所述问题文本信息做所述通用语义解析处理或者所述专用语义解析处理;解析结果生成单元,可以配置为生成响应于所述问题文本信息的解析结果。
在示例性实施例中,所述解析结果获得单元可以配置为:若所述第二解析结果不为预定标识,则根据获取所述第一解析结果和所述第二解析结果的时间顺序确定所述解析结果。
在示例性实施例中,答复信息获得模块1030可以配置为:若先获取所述第二解析结果,则所述解析结果为所述第二解析结果;根据所述第二解析结果和当前作品信息检索针对所述问题语音信息的答复信息。
在示例性实施例中,答复信息获得模块1030可以配置为:若先获取所述第一解析结果,则所述解析结果为所述第一解析结果;将所述第一解析结果作为所述答复信息。
在示例性实施例中,语音问答装置1000还可以包括:显示调整模块,可以配置为根据所述答复信息,调整显示内容。
在示例性实施例中,所述解析结果获得单元可以配置为:若所述第二解析结果为预定标识,则将所述第一解析结果作为所述解析结果。
本公开实施例中的语音问答装置的其他内容可以参照上述实施例的内容,在此不再赘述。
在本发明的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
下面参考图11,其示出了适于用来实现本发明实施例的电子设备的计算机装置的结构示意图。图11示出的电子设备的计算机装置仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图11所示,计算机装置包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有装置操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的装置中限定的上述功能。
需要说明的是,本发明所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块或者单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的模块或者单元也可以设置在处理器中。其中,这些模块或者单元的名称在某种情况下并不构成对该模块或者单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的语音问答方法。
例如,所述电子设备可以实现如图2中所示的:步骤S210,接收问题语音信息,并根据所述问题语音信息获得问题文本信息;步骤S220,对所述问题文本信息做通用语义解析处理和专用语义解析处理中的至少一个语义解析处理,生成解析结果;步骤S230,根据所述解析结果,获得答复信息;其中,所述通用语义解析用于进行通用领域的语义解析,所述专用语义解析用于进行艺术领域的语义解析。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备或装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (8)
1.一种语音问答方法,其特征在于,包括:
接收问题语音信息,并根据所述问题语音信息获得问题文本信息;
将所述问题文本信息分别做通用语义解析处理和专用语义解析处理;
分别生成响应于所述问题文本信息的第一解析结果和第二解析结果;
确定所述第二解析结果是否为预定标识,若所述第二解析结果不为预定标识,则根据获取所述第一解析结果和所述第二解析结果的时间顺序确定解析结果;
根据所述解析结果,获得答复信息;
其中,所述通用语义解析用于进行通用领域的语义解析,所述专用语义解析用于进行艺术领域的语义解析。
2.如权利要求1所述的语音问答方法,其特征在于,根据所述解析结果,获得答复信息,包括:
若先获取所述第二解析结果,则所述解析结果为所述第二解析结果;
根据所述第二解析结果和当前作品信息检索针对所述问题语音信息的答复信息。
3.如权利要求1所述的语音问答方法,其特征在于,根据所述解析结果,获得答复信息,包括:
若先获取所述第一解析结果,则所述解析结果为所述第一解析结果;
将所述第一解析结果作为所述答复信息。
4.如权利要求2-3任一项所述的语音问答方法,其特征在于,所述方法还包括:
根据所述答复信息,调整显示内容。
5.如权利要求1所述的语音问答方法,其特征在于,所述方法还包括:
若所述第二解析结果为预定标识,则将所述第一解析结果作为所述解析结果。
6.一种语音问答装置,其特征在于,包括:
问题文本获得模块,配置为接收问题语音信息,并根据所述问题语音信息获得问题文本信息;
解析结果生成模块,配置为将所述问题文本信息分别做通用语义解析处理和专用语义解析处理;分别生成响应于所述问题文本信息的第一解析结果和第二解析结果;确定所述第二解析结果是否为预定标识,若所述第二解析结果不为预定标识,则根据获取所述第一解析结果和所述第二解析结果的时间顺序确定解析结果;
答复信息获得模块,配置为根据所述解析结果,获得答复信息;
其中,所述通用语义解析用于进行通用领域的语义解析,所述专用语义解析用于进行艺术领域的语义解析。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的语音问答方法。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的语音问答方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910365034.3A CN111951782B (zh) | 2019-04-30 | 2019-04-30 | 语音问答方法及装置、计算机可读存储介质和电子设备 |
PCT/CN2020/082603 WO2020220914A1 (zh) | 2019-04-30 | 2020-03-31 | 语音问答方法及其装置、计算机可读存储介质和电子设备 |
US17/254,429 US11749255B2 (en) | 2019-04-30 | 2020-03-31 | Voice question and answer method and device, computer readable storage medium and electronic device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910365034.3A CN111951782B (zh) | 2019-04-30 | 2019-04-30 | 语音问答方法及装置、计算机可读存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111951782A CN111951782A (zh) | 2020-11-17 |
CN111951782B true CN111951782B (zh) | 2024-09-10 |
Family
ID=73028594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910365034.3A Active CN111951782B (zh) | 2019-04-30 | 2019-04-30 | 语音问答方法及装置、计算机可读存储介质和电子设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11749255B2 (zh) |
CN (1) | CN111951782B (zh) |
WO (1) | WO2020220914A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210042520A (ko) * | 2019-10-10 | 2021-04-20 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN112270188B (zh) * | 2020-11-12 | 2023-12-12 | 佰聆数据股份有限公司 | 一种提问式的分析路径推荐方法、系统及存储介质 |
CN115022394A (zh) * | 2021-03-04 | 2022-09-06 | 上海大唐移动通信设备有限公司 | 信息推送方法、装置及存储介质 |
CN113435205B (zh) * | 2021-04-29 | 2024-09-27 | 北京小米移动软件有限公司 | 语义解析方法及装置 |
CN113744728B (zh) * | 2021-08-31 | 2024-11-19 | 阿波罗智联(北京)科技有限公司 | 一种语音处理方法、装置、设备及存储介质 |
CN113779972B (zh) * | 2021-09-10 | 2023-09-15 | 平安科技(深圳)有限公司 | 语音识别纠错方法、系统、装置及存储介质 |
CN114186044A (zh) * | 2021-12-06 | 2022-03-15 | 建信金融科技有限责任公司 | 问答系统的处理方法、装置、设备及存储介质 |
CN114117019B (zh) * | 2021-12-08 | 2024-12-20 | 建信金融科技有限责任公司 | 智能问答的处理方法、装置、设备及存储介质 |
CN114357133A (zh) * | 2021-12-28 | 2022-04-15 | 天翼物联科技有限公司 | 一种问答互动方法、系统、装置及存储介质 |
CN116842145B (zh) * | 2023-04-20 | 2024-02-27 | 海信集团控股股份有限公司 | 基于城市问答系统的领域识别方法及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9026431B1 (en) * | 2013-07-30 | 2015-05-05 | Google Inc. | Semantic parsing with multiple parsers |
CN106250366A (zh) * | 2016-07-21 | 2016-12-21 | 北京光年无限科技有限公司 | 一种针对问答系统的数据处理方法及系统 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7158930B2 (en) * | 2002-08-15 | 2007-01-02 | Microsoft Corporation | Method and apparatus for expanding dictionaries during parsing |
TW588816U (en) | 2002-12-18 | 2004-05-21 | Quanta Comp Inc | The ejection mechanism of stylus in mobile computer |
US20040249796A1 (en) * | 2003-06-06 | 2004-12-09 | Microsoft Corporation | Query classification |
US20070067293A1 (en) * | 2005-06-30 | 2007-03-22 | Hong Yu | System and methods for automatically identifying answerable questions |
US7958444B2 (en) * | 2006-06-15 | 2011-06-07 | Xerox Corporation | Visualizing document annotations in the context of the source document |
US9684741B2 (en) * | 2009-06-05 | 2017-06-20 | Microsoft Technology Licensing, Llc | Presenting search results according to query domains |
US9218390B2 (en) * | 2011-07-29 | 2015-12-22 | Yellowpages.Com Llc | Query parser derivation computing device and method for making a query parser for parsing unstructured search queries |
US20140279864A1 (en) * | 2013-03-14 | 2014-09-18 | Google Inc. | Generating data records based on parsing |
US9336485B2 (en) * | 2013-06-11 | 2016-05-10 | International Business Machines Corporation | Determining answers in a question/answer system when answer is not contained in corpus |
WO2016044321A1 (en) * | 2014-09-16 | 2016-03-24 | Min Tang | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US9678941B2 (en) * | 2014-12-23 | 2017-06-13 | International Business Machines Corporation | Domain-specific computational lexicon formation |
CN106326307A (zh) | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种语言交互方法 |
US20170024375A1 (en) * | 2015-07-26 | 2017-01-26 | Microsoft Technology Licensing, Llc | Personal knowledge graph population from declarative user utterances |
US10332508B1 (en) * | 2016-03-31 | 2019-06-25 | Amazon Technologies, Inc. | Confidence checking for speech processing and query answering |
EP3465487A4 (en) * | 2016-06-06 | 2020-01-22 | Purdue Research Foundation | SYSTEM AND METHOD FOR PHRASE-DIRECTED VIDEO OBJECT CODING |
JP6655835B2 (ja) * | 2016-06-16 | 2020-02-26 | パナソニックIpマネジメント株式会社 | 対話処理方法、対話処理システム、及びプログラム |
US20180018676A1 (en) * | 2016-07-15 | 2018-01-18 | Intuit Inc. | System and method for generating structured representations of compliance forms from multiple visual source compliance forms |
CN106528522A (zh) * | 2016-08-26 | 2017-03-22 | 南京威卡尔软件有限公司 | 场景化的语义理解与对话生成方法及系统 |
CN106682194B (zh) * | 2016-12-29 | 2020-05-22 | 北京百度网讯科技有限公司 | 基于深度问答的答案定位方法及装置 |
US10467510B2 (en) * | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Intelligent assistant |
CN107193973B (zh) | 2017-05-25 | 2021-07-20 | 百度在线网络技术(北京)有限公司 | 语义解析信息的领域识别方法及装置、设备及可读介质 |
CN107423364B (zh) * | 2017-06-22 | 2024-01-26 | 百度在线网络技术(北京)有限公司 | 基于人工智能的回答话术播报方法、装置及存储介质 |
CN107423363B (zh) * | 2017-06-22 | 2021-02-19 | 百度在线网络技术(北京)有限公司 | 基于人工智能的话术生成方法、装置、设备及存储介质 |
US10445423B2 (en) * | 2017-08-17 | 2019-10-15 | International Business Machines Corporation | Domain-specific lexically-driven pre-parser |
CN108320745A (zh) * | 2018-02-08 | 2018-07-24 | 北京小米移动软件有限公司 | 控制显示的方法及装置 |
CN108563633B (zh) * | 2018-03-29 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 一种语音处理方法和服务器 |
CN110727839B (zh) * | 2018-06-29 | 2024-04-26 | 微软技术许可有限责任公司 | 自然语言查询的语义解析 |
CN108920666B (zh) * | 2018-07-05 | 2021-02-26 | 苏州思必驰信息科技有限公司 | 基于语义理解的搜索方法、系统、电子设备及存储介质 |
CN109190116B (zh) * | 2018-08-15 | 2023-10-24 | 思必驰科技股份有限公司 | 语义解析方法、系统、电子设备及存储介质 |
CN110888966B (zh) * | 2018-09-06 | 2024-05-10 | 微软技术许可有限责任公司 | 自然语言问答 |
CN109271498B (zh) * | 2018-09-14 | 2022-02-22 | 南京七奇智能科技有限公司 | 面向虚拟机器人的自然语言交互方法及系统 |
CN109671421B (zh) * | 2018-12-25 | 2020-07-10 | 苏州思必驰信息科技有限公司 | 离线导航的定制和实现方法及装置 |
CN116457770A (zh) * | 2020-10-13 | 2023-07-18 | 梅林实验室公司 | 用于空中交通管制音频的语义解析的系统和/或方法 |
US12182518B2 (en) * | 2020-10-29 | 2024-12-31 | Oracle International Corporation | Relying on discourse analysis to answer complex questions by neural machine reading comprehension |
-
2019
- 2019-04-30 CN CN201910365034.3A patent/CN111951782B/zh active Active
-
2020
- 2020-03-31 WO PCT/CN2020/082603 patent/WO2020220914A1/zh active Application Filing
- 2020-03-31 US US17/254,429 patent/US11749255B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9026431B1 (en) * | 2013-07-30 | 2015-05-05 | Google Inc. | Semantic parsing with multiple parsers |
CN106250366A (zh) * | 2016-07-21 | 2016-12-21 | 北京光年无限科技有限公司 | 一种针对问答系统的数据处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2020220914A1 (zh) | 2020-11-05 |
US20210125600A1 (en) | 2021-04-29 |
CN111951782A (zh) | 2020-11-17 |
US11749255B2 (en) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111951782B (zh) | 语音问答方法及装置、计算机可读存储介质和电子设备 | |
CN116127046B (zh) | 生成式大语言模型训练方法、基于模型的人机语音交互方法 | |
CN107741976B (zh) | 智能应答方法、装置、介质和电子设备 | |
CN116127020A (zh) | 生成式大语言模型训练方法以及基于模型的搜索方法 | |
CN116343766B (zh) | 生成式大模型训练方法、基于模型的人机语音交互方法 | |
CN111883131B (zh) | 语音数据的处理方法及装置 | |
CN110162675B (zh) | 应答语句的生成方法、装置、计算机可读介质及电子设备 | |
CN111178081B (zh) | 语义识别的方法、服务器、电子设备及计算机存储介质 | |
CN116244416A (zh) | 生成式大语言模型训练方法、基于模型的人机语音交互方法 | |
CN116521841A (zh) | 用于生成回复信息的方法、装置、设备及介质 | |
CN114547274B (zh) | 多轮问答的方法、装置及设备 | |
CN111832308A (zh) | 语音识别文本连贯性处理方法和装置 | |
CN108305618A (zh) | 语音获取及搜索方法、智能笔、搜索终端及存储介质 | |
CN117312641A (zh) | 智能获取信息的方法、装置、设备及存储介质 | |
CN108153875B (zh) | 语料处理方法、装置、智能音箱和存储介质 | |
CN111324626B (zh) | 基于语音识别的搜索方法、装置、计算机设备及存储介质 | |
CN113111658B (zh) | 校验信息的方法、装置、设备和存储介质 | |
CN110111793A (zh) | 音频信息的处理方法、装置、存储介质及电子装置 | |
CN109002498B (zh) | 人机对话方法、装置、设备及存储介质 | |
Boza-Quispe et al. | A friendly speech user interface based on Google cloud platform to access a tourism semantic website | |
WO2022089546A1 (zh) | 标签生成方法、装置及相关设备 | |
CN114171016B (zh) | 语音交互的方法、装置、电子设备及存储介质 | |
CN114299955B (zh) | 语音交互的方法、装置、电子设备及存储介质 | |
CN116628264A (zh) | 一种会议信息处理方法、装置、设备和介质 | |
CN111556096B (zh) | 信息推送方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment | ||
TG01 | Patent term adjustment |