CN109522397B - 信息处理方法及装置 - Google Patents
信息处理方法及装置 Download PDFInfo
- Publication number
- CN109522397B CN109522397B CN201811358568.5A CN201811358568A CN109522397B CN 109522397 B CN109522397 B CN 109522397B CN 201811358568 A CN201811358568 A CN 201811358568A CN 109522397 B CN109522397 B CN 109522397B
- Authority
- CN
- China
- Prior art keywords
- query information
- query
- pinyin
- information
- font
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种基于语义解析的信息处理方法及装置,该方法包括:获取用户输入的第一查询信息并对所述第一查询信息进行字词预处理,得到字词预处理后的第二查询信息;对所述第二查询信息分别进行拼音正确度打分和字形正确度打分,分别得到拼音正确度分值和字形正确度分值;根据所述拼音正确度分值和/或所述字形正确度分值对所述第二查询信息进行拼音纠错和/或字形纠错,得到纠错后的第三查询信息;根据所述第三查询信息向所述用户输出所述第一查询信息对应的查询答案。采用本发明,可更加准确地理解所述用户输入的查询信息的语义并提供准确答案。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种信息处理方法及装置。
背景技术
传统的用户服务中心以电话呼叫为主,但随着互联网的发展、用户数量不断增多以及用户问题多种多样等因素的影响,传统用户服务中心已经不能满足用户的需求。大多数企业为增强用户体验,减少人工成本,使用了符合当今市场需求的智能问答系统来对用户输入的问题进行处理。能否对用户输入的信息进行处理从而正确理解用户语义以向用户输出正确信息,成为了能否满足用户对快速、准确地获取信息的需求的重要标准。
如今,大多数智能问答系统只是简单的根据用户输入的查询信息检索答案,向用户输出对应的查询答案的正确率不高,甚至是向用户输出错误答案,适用性不强。
发明内容
本发明实施例提供一种信息处理方法及装置,可提高对查询信息语义理解的准确性,提高检索答案的准确率,增强信息查询的用户体验。
第一方面,本发明实施例提供了一种信息处理方法,包括:
获取用户输入的第一查询信息并对上述第一查询信息进行字词预处理,得到字词预处理后的第二查询信息;
基于上述第二查询信息中的字词拼音和预置拼音集合中所包括的拼音对上述第二查询信息进行拼音正确度打分,得到拼音正确度分值,基于上述第二查询信息中的字词字形和预置字形集合中所包括的字形对上述第二查询信息进行字形正确度打分,得到字形正确度分值;
当上述拼音正确度分值大于第一阈值和/或上述字形正确度分值大于第二阈值时,基于上述预置拼音集合中所包括的拼音对上述第二查询信息进行拼音纠错,和/或基于上述预置字形集合中所包括的字词字形对上述第二查询信息进行字形纠错,得到纠错后的第三查询信息;
根据上述第三查询信息向上述用户输出上述第一查询信息对应的查询答案。
在本发明实施例中,通过对用户输入的第一查询信息进行字词预处理,可获取用户输入的第一查询信息的语义并得到第二查询信息。同时通过对第二查询信息进行拼音纠错和/或字形纠错,进一步理解用户输入的第一查询信息的具体表述,极大提高了系统输出的正确率和用户收到的信息质量。
结合第一方面,在一种可能的实施方式中,上述获取用户输入的第一查询信息并对上述第一查询信息进行字词预处理,得到字词预处理后的第二查询信息包括:获取用户输入的第一查询信息,对上述第一查询信息进行分词得到上述第一查询信息中的关键字和/或词序列;识别上述关键字和/或词序列的信息类型,根据上述关键字和/或词序列的信息类型,从上述关键字和/或词序列中提取上述关键字和/或词序列的语义信息;根据上述关键字和/或词序列的语义信息确定上述第一查询信息的语义;根据预置语句集合中所包括的语句将上述关键字和/或词序列按照上述第一查询信息的语义进行重组,得到第二查询信息。
其中,上述预置语句集合中包括通用语句、专用术语语句以及常用口语表达语句中的一种或多种语句。
结合第一方面,在一种可能的实施方式中,上述当上述拼音正确度分值大于第一阈值和/或上述字形正确度分值大于第二阈值时,基于上述预置拼音集合中所包括的拼音对上述第二查询信息进行拼音纠错和/或基于上述预置字形集合中所包括的字词字形对上述第二查询信息进行字形纠错,得到拼音纠错和/或字形纠错后的第三查询信息,包括:
当上述拼音正确度分值大于上述第一阈值且上述字形正确度分值大于上述第二阈值时,基于上述预置拼音集合中所包括的拼音对上述第二查询信息进行拼音纠错,得到拼音纠错后的查询信息,基于上述预置字形集合中所包括的字词字形对上述拼音纠错后的查询信息进行字形纠错,得到字形纠错后的第三查询信息。
结合第一方面,在一种可能的实施方式中,上述当上述拼音正确度分值大于第一阈值和/或上述字形正确度分值大于第二阈值时,基于上述预置拼音集合中所包括的拼音对上述第二查询信息进行拼音纠错和/或基于上述预置字形集合中所包括的字词字形对上述第二查询信息进行字形纠错,得到拼音纠错和/或字形纠错后的第三查询信息,上述方法还包括:
当上述拼音正确度分值不大于上述第一阈值且上述字形正确度分值大于上述第二阈值时,基于上述预置字形集合中所包括的字词字形对上述第二查询信息进行字形纠错,得到字形纠错后的第三查询信息。
结合第一方面,在一种可能的实施方式中,上述当上述拼音正确度分值大于第一阈值和/或上述字形正确度分值大于第二阈值时,基于上述预置拼音集合中所包括的拼音对上述第二查询信息进行拼音纠错和/或基于上述预置字形集合中所包括的字词字形对上述第二查询信息进行字形纠错,得到拼音纠错和/或字形纠错后的第三查询信息,上述方法还包括:
当上述拼音正确度分值大于上述第一阈值且上述字形正确度分值不大于上述第二阈值时,基于上述预置拼音集合中所包括的拼音对上述第二查询信息进行拼音纠错,得到拼音纠错后的第三查询信息。
结合第一方面,在一种可能的实施方式中,上述方法还包括:计算数据库中各个查询语句与上述第三查询信息的相似度以得到各个查询语句对应的查询信息相似度;将上述各个查询语句对应的查询信息相似度与第三阈值比较,确定出查询信息相似度不大于上述第三阈值的至少一个目标查询语句;按照各个目标查询语句对应的查询信息相似度的高低顺序,将上述各个目标查询语句进行排序得到排序后的查询语句集合。其中,上述查询语句集合中的各个目标查询语句用于确定上述第一查询语句对应的查询答案。
将上述各个目标查询语句按照排序顺序输出至上述用户界面,基于上述用户界面显示上述各个目标查询语句并反问上述用户上述各个目标查询语句是否与上述第三查询信息表述一致;根据上述用户确定的表述一致的目标查询语句,在上述数据库中检索对应的答案得到上述第一查询语句对应的查询答案,并向上述用户输出上述查询答案。
在本发明实例中,在保证对上述用户输入的第一查询信息可以进行纠错的前提下,对纠错后上述第三查询语句语义表述模糊或在上述数据库中检索不到对应答案的情况下,仍可基于上述第三查询语句在上述数据库中确定相似度较高的上述目标查询语句,进而反问上述用户并根据上述目标查询语句在数据库中检索到对应的答案。
结合第一方面,在一种可能的实施方式中,上述将上述各个查询语句对应的查询信息相似度与第三阈值比较后,上述方法还包括:
当上述各个查询语句对应的查询信息相似度均大于上述第三阈值时,输出上述第一查询信息表述有误的提示信息至用户界面,基于上述用户界面上显示的上述提示信息提醒上述用户选择是否更正上述第一查询信息;若上述用户选择更正上述第一查询信息,则获取上述用户输入的更正信息,并根据上述更正信息更新上述第一查询信息,并执行上述获取用户输入的第一查询信息并对上述第一查询信息进行字词预处理,得到字词预处理后的第二查询信息的步骤。
在本发明实施例中,在基于上述第三查询信息在上述数据库中检索不到答案的情况以及上述各个查询语句对应的查询信息相似度均大于上述第三阈值时的情况下,仍向用户提供了修改上述第一查询信息的选择,提高了用户体验性和信息处理的准确性。
第二方面,本发明实施例提供了一种信息处理装置,包括:
获取模块,用于获取用户输入的第一查询信息;
预处理模块,用于对上述获取模块获取的第一查询信息进行字词预处理,得到字词预处理后的第二查询信息;
后处理模块,用于基于上述预处理模块得到的上述第二查询信息中的字词拼音和预置拼音集合中所包括的拼音对上述第二查询信息进行拼音正确度打分,得到拼音正确度分值,基于上述第二查询信息中的字词字形和预置字形集合中所包括的字形对上述第二查询信息进行字形正确度打分,得到字形正确度分值;
上述后处理模块,还用于在上述拼音正确度分值大于第一阈值和/或上述字形正确度分值大于第二阈值时,基于上述预置拼音集合中所包括的拼音对上述第二查询信息进行拼音纠错,和/或基于上述预置字形集合中所包括的字词字形对上述第二查询信息进行字形纠错,得到拼音纠错和/或字形纠错后的第三查询信息;
会话管理模块,用于根据上述后处理模块得到的上述第三查询信息向上述用户输入上述第一查询信息对应的查询答案。
结合第二方面,在一种可能的实施方式中,上预处理模块用于:
对上述获取模块获取的所述第一查询信息进行分词得到上述第一查询信息中的关键字和/或词序列;识别上述关键字和/或词序列的信息类型,从不同信息类型对应的上述关键字和/或词序列中提取不同的语义信息,基于上述语义信息获取上述第一查询信息的语义;基于上述预置语言集合将上述关键字和/或词序列按照上述第一查询信息的语义进行重组,得到上述第二查询信息。
结合第二方面,在一种可能的实施方式中,上述后处理模块用于:
当上述拼音正确度分值大于上述第一阈值且上述字形正确度分值大于上述第二阈值时,基于上述预置拼音集合中所包括的拼音对上述第二查询信息进行拼音纠错,得到拼音纠错后的查询信息,基于上述预置字形集合中所包括的字词字形对上述拼音纠错后的查询信息进行字形纠错,得到字形纠错后的第三查询信息。
结合第二方面,在一种可能的实施方式中,上述后处理模块还用于:
当上述拼音正确度分值不大于上述第一阈值且上述字形正确度分值大于上述第二阈值时,基于上述预置字形集合中所包括的字词字形对上述第二查询信息进行字形纠错,得到字形纠错后的第三查询信息。
结合第二方面,在一种可能的实施方式中,上述后处理模块还用于:
当上述拼音正确度分值大于上述第一阈值且上述字形正确度分值不大于上述第二阈值时,基于上述预置拼音集合中所包括的拼音对上述第二查询信息进行拼音纠错,得到拼音纠错后的第三查询信息。
结合第二方面,在一种可能的实施方式中,上述后处理模块还用于:
计算数据库中各个查询语句与上述第三查询信息的相似度以得到各个查询语句对应的查询信息相似度;
将上述各个查询语句对应的查询信息相似度与第三阈值比较,确定出查询信息相似度不大于上述第三阈值的至少一个目标查询语句;
按照各个目标查询语句对应的查询信息相似度的高低顺序,将上述各个目标查询语句进行排序得到排序后的查询语句集合;
其中,上述查询语句集合中的各个目标查询语句用于确定上述第一查询语句对应的查询答案。
结合第二方面,在一种可能的实施方式中,上述会话管理模块用于:
将上述后处理模块得到的各个目标查询语句按照排序顺序输出至上述用户界面,基于上述用户界面显示上述各个目标查询语句并反问上述用户上述各个目标查询语句是否与上述第三查询信息表述一致;
根据上述用户确定的表述一致的目标查询语句,在上述数据库中检索对应的答案得到上述第一查询语句对应的查询答案,并向上述用户输出上述查询答案。
结合第二方面,在一种可能的实施方式中,上述会话管理模块还用于:
当上述各个查询语句对应的查询信息相似度均大于上述第三阈值时,输出上述第一查询信息表述有误的提示信息至用户界面,基于上述用户界面上显示的上述提示信息提醒上述用户选择是否更正上述第一查询信息;
若上述用户选择更正上述第一查询信息,则通过上述获取模块获取上述用户输入的更正信息,并根据上述更正信息更新上述第一查询信息。
第三方面,本发明实施例提供了一种终端设备,该终端设备包括处理器、显示器和存储器,处理器、显示器和存储器相互连接。存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序,其中计算机程序包括程序指令,处理器和显示器被配置用于调用上述程序指令,执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面的任一种可能的实施方式所提供的方法。
在本发明实施例中,通过对用户输入的第一查询信息进行字词预处理后得到的第二查询信息进行拼音正确度打分和字形正确度打分,并对第二查询信息进行拼音纠错和/或字形纠错,得到纠错后的第三查询信息。可进一步理解用户输入的第一查询信息的具体表述,提高了理解用户语义的准确率以及向用户输出对应查询答案的准确率。此外,在上述第三查询语句语义表述模糊或在上述数据库中检索不到对应答案的情况下,仍可基于上述第三查询语句在上述数据库中确定相似度较高的上述目标查询语句,进而反问上述用户并根据上述目标查询语句在数据库中检索到对应的答案,极大提高了系统输出的正确率和用户收到的信息质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的信息处理方法的流程示意图;
图2是本发明实施例提供的向用户输出第一查询信息对应的查询答案的一流程示意图;
图3是本发明实施例提供的向用户输出第一查询信息对应的查询答案的另一流程示意图;
图4是本发明实施例提供的信息处理装置的结构示意图;
图5是本发明实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的信息处理方法(为方便描述,可简称本发明实施例提供的信息处理方法和/或方法)可应用于限定领域内的问答场景中,例如在业务咨询、平台业务办理、电商客户服务等用户需要实时在线查询信息的场景中,根据不同领域内的数据库决定本发明实施例提供的方法及装置的应用领域,在此不做限制。本发明实施例提供的方法通过对用户在用户界面输入的查询信息进行多重处理,准确地对用户输入的查询信息进行语义判断,进而向用户输出准确查询结果。为方便描述,下面可以某一个领域和/或某一个行业中的某一信息处理过程为例,对本发明实施例提供的方法进行描述。
下面将结合图1至图5分别对本发明实施例提供的方法及相关装置进行说明。本发明实施例提供的方法中可包括拼音正确度分值与第一阈值比较、字形正确度分值与第二阈值比较、计算数据库中各个查询语句与第三查询信息的相似度以及将各个查询语句对应的查询信息相似度与第三阈值比较等数据处理阶段。
参见图1,图1是本发明实施例提供的信息处理方法的流程示意图。本发明实施例提供的方法可包括如下步骤S1-S4:
S1、获取用户输入的第一查询信息并对第一查询信息进行字词预处理,得到字词预处理后的第二查询信息。
在一些可行的实施方式中,用户通过用户界面输入第一查询信息。其中,用户界面可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备或其他终端上可供用户输入第一查询信息的显示界面。此外,用户输入的第一查询信息与本发明实施例提供的方法所在的应用领域相匹配,在业务咨询、平台业务办理、电商客户服务等用户需要实时在线查询信息的场景中,根据不同领域内的数据库决定了本发明实施例提供的方法的具体应用领域。在具体的某一应用场景中通过本发明实施例提供的方法处理用户输入的第一查询信息,不仅可以处理知识类咨询问题,也可处理医疗、教育、生活、科技等各种与人们生活息息相关的领域。对于本发明实施例提供的方法的具体应用领域,在此不做限制。为方便描述,下面将以某领域中客服问答系统为具体应用领域进行说明。
在一些可行的实施方式中,获取用户在用户界面输入的第一查询信息后,对第一查询信息进行分词得到第一查询信息中的关键字和/或词序列;识别关键字和/或词序列的信息类型。其中,分词可以理解为依靠分词工具使用不同的分词方法将用户输入的查询信息转换为不同的关键字和/或词序列,实现分词可由一种分词工具和/或几种分词工具并行实现。可选的,分词工具包括但不限于Stanford自然语言处理(Nature Language Process,NLP),Fudan NLP,简易分词系统(Simple Chinese Words Segmentation,SCWS),汉语词法分析系统(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)。其中不同分词工具对应不同的分词方法,分词方法包括但不限于基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法,具体方法和具体方法的具体实现步骤在此不做限制和详细说明。经过分词工具分词得到的关键字和/或词序列后,同时将关键字和/或词序列中的特殊词、词组和新的词、词组添加到系统词典并保持更新,以便再扩大基础词。其中特殊词可以是“北京大学第三医院”这样的存在嵌套现象的组织机构名称,也可以是“北医三院”这样的简化表达词,还可以是“方便”这样的在上下文可能存在不同语义的词等等。例如,在某一种分词工具的分词方法下,用户输入“北医三院XXX在深圳9月份的订单什么时候到期?”的查询信息,依靠分词工具可将该查询信息转换为“北京大学第三医院”、“XXX”、“在”、“深圳”、“9月份”、“的”、“订单”、“什么时候”、“到期”等关键字和/或词序列,其中,“北医三院”是将嵌套的医疗单位名称简化表达后呈现的词,作为特殊词加入到系统词典中,“XXX”为公司名称或人名,作为新的词汇加入到系统词典中。
在一些可行的实施方式中,分词工具将用户输入的第一查询信息进行分词得到关键字和/或词序列后,命名实体识别工具还会识别出上述关键字和/或词序列的信息类型,其中关键字和/或词序列的信息类型包括但不限于人名、机构名、地名、时间、日期、货币和百分比等类型。需要特别说明的是,命名实体识别工具必须要与分词工具相一致,也就是说可采用同时具有分词和命名实体识别功能的工具,或者在选定一种分词工具后,须采用能识别该分词工具转换得出的关键字和/或词序列的命名实体识别工具,否则将不能识别出用户输入的第一查询信息所表述的语义。例如,在采用Stanford NLP得到的关键字和/或词序列后,在选择命名实体识别工具时,可采用Stanford NLP中命名实体识别工具或可识别上述关键字和/或词序列的命名实体识别工具识别上述关键字和/或词序列的信息类型,将上述“深圳”识别为地点信息类型,将“9月份”识别为时间信息类型,以此类推,其余不再赘述。当全部关键字和/或词序列的信息类型全部被识别后,根据上述关键字和/或词序列的信息类型,从上述关键字和/或词序列中提取上述关键字和/或词序列的语义信息;根据上述关键字和/或词序列的语义信息确定上述第一查询信息的语义。根据上述第一查询信息的语义,结合预置语句集合中所包括的语句将上述关键字和/或词序列按照上述第一查询信息的语义进行重组,得到第二查询信息,此时第二查询信息所表述的语义与用户输入的第一查询信息所表述的语义一致。其中,基于预置语言集合将关键字和/或词序列按照第一查询信息的语义进行重组时,上述预置语句集合中包括通用语句、专用术语语句以及常用口语表达语句中的一种或多种语句。例如,上述预置语句集合中可包括“订单有效期限是什么时间?”这样的各种应用场景下可预知的通用语句集合,可包括“线程池中线程的响应时效是多久?”(以计算机技术产品领域为例)这样的具有专用术语语句集合,也可包括“我的订单能不能快点儿处理?”这样的常用口语表达集合。
此外,由于关键字和/或词序列由一种和/或多种分词工具处理得到,故在将关键字和/或词序列按照第一查询信息的语义进行重组时,也会用到与上述分词工具和/或与上述分词工具分词方法一致的重组工具和/或能智能识别重组的重组工具,在此不做限制。此外,由于分词工具分词经过分词得到的关键字和/或词序列可能存在复杂的序列组合情况,故在对其进行重组之前可能对关键字和/或词序列采取必要的处理过程,具体处理方法和/或采用的处理工具在此不做限制。
S2、基于预置拼音集合中所包括的拼音对第二查询信息进行拼音正确度打分,得到拼音正确度分值,基于预置字形集合中所包括的字词字形对第二查询信息进行字形正确度打分,得到字形正确度分值。
在一些可行的实施方式中,在获取用户输入的第一查询信息并对上述第一查询信息进行字词预处理,得到关键字和/或词序列后,对上述关键字和/或词序列进行注音,即对关键字和/或词序列添加拼音,用于基于预置拼音集合中所包括的拼音对得到的第二查询信息进行拼音正确度打分。在一些可行的实施方式中,上述关键字和/或词序列注音完毕后,可根据预置拼音集合中的拼音语言模型对第二查询信息的拼音正确度打分,即将拼音语言模型中拼音训练语料的注音与第二查询信息的注音进行比较计算,得出两者的相似度,该相似度分值即为拼音正确度分值。其中,拼音语言模型由拼音训练语料训练组合得到,拼音训练预料根据本发明实施例提供的方法所应用的场景由该场景下的预先设置的数据库提供,拼音训练语料的类型在此不做限制。需要说明的是,上述预置拼音集合中的拼音包括但不限于拼音语言模型、现有拼音样本以及生僻、易错拼音集合等,在此不做限制。
在一些可行的实施方式中,在获取用户输入的第一查询信息并对上述第一查询信息进行字词预处理,得到第二查询信息后,基于预置字形集合中的字形语言模型对第二查询信息的字形正确度打分。其中,字形语言模型包括口语化语言模型和限定领域语言模型,可选的,限定领域语言模型由字形训练语料训练组合得到,字形训练预料根据本发明实施例提供的方法所应用的场景由该场景下的预先设置的数据库提供,字形训练语料的类型在此不做限制。可选的,口语化语言模型由互联网语料训练组合得到,互联网语料的类型在此不做限制。需要说明的是,上述预置字形集合中所包括的字词字形包括但不限于字形语言模型、用户日志中用户常见字形错误集合以及互联网采集的易错字形集合,在此也不做限制。字形正确度的具体打分规则如下:
字形正确度分值=α×口语化语言模型得分+β×限定领域语言模型得分
其中,α为口语化语言模型打分参数,β为限定领域语言模型打分参数。
在得到拼音正确度分值和字形正确度分值后,同时存储两个分值,用于判断是否对第二查询信息进行拼音纠错和/或字形纠错。
S3、当拼音正确度分值大于第一阈值和/或字形正确度分值大于第二阈值时,基于预置拼音集合中所包括的拼音对第二查询信息进行拼音纠错和/或基于预置字形集合中所包括的字词字形对第二查询信息进行字形纠错,得到拼音纠错和/或字形纠错后的第三查询信息。
可以理解,在判断拼音正确度分值是否大于第一阈值和/或字形正确度分值是否大于第二阈值时,这里第一阈值和第二阈值可根据不同的领域、场景和语言模型由系统管理员手动调节,由于后续步骤会出现其他阈值,故在此以第一阈值、第二阈值、第三阈值等进行区分。
在一些可行的实施方式中,当第二查询信息的拼音正确度分值大于第一阈值且第二查询信息的字形正确度分值大于第二阈值时,可确定第二查询信息存在拼音错误和字形错误,进而可基于预置拼音集合中所包括的拼音对第二查询信息进行拼音纠错,得到拼音纠错后的查询信息,并基于预置字形集合中所包括的字词字形对拼音纠错后的查询信息进行字形纠错,得到字形纠错后的第三查询信息。需要说明的是,由于预置拼音集合中所包括的拼音和预置字形集合中所包括的字词字形没有对第二查询信息进行拼音正确度打分和/或字形正确度打分的打分依据做出具体限制,故在本发明中,预置拼音集合中所包括的拼音和预置字形集合中所包括的字词字形也可包括对第二查询信息进行拼音纠错和/或字形纠错的纠错依据,在此也不做出具体限制。
在一些可行的实施方式中,当第二查询信息的拼音正确度分值不大于第一阈值且第二查询信息的字形正确度分值大于第二阈值时,即第二查询信息存在字形错误,不存在拼音错误时,基于预置字形集合中所包括的字词字形对第二查询信息进行字形纠错,得到字形纠错后的第三查询信息。
在一些可行的实施方式中,当第二查询信息的拼音正确度分值大于第一阈值且第二查询信息的字形正确度分值不大于第二阈值时,即第二查询信息存在拼音错误,不存在字形错误时,基于预置拼音集合中所包括的拼音对第二查询信息进行拼音纠错,得到字形纠错后的第三查询信息。
在一些可行的实施方式中,当第二查询信息的拼音正确度分值不大于第一阈值且第二查询信息的字形正确度分值不大于第二阈值时,即第二查询信息既不存在拼音错误,也不存在字形错误时,对第二查询信息不进行任何纠错。为方便描述,此时第二查询信息和字形纠错后的第三查询信息、拼音纠错后的第三查询信息统称为第三查询信息。
其中,基于预置拼音集合中所包括的拼音对第二查询信息进行拼音纠错时,根据计算第二查询信息的拼音正确度分值时得出的拼音训练语料的注音与第二查询信息的注音相似度,对第二查询的错误拼音进行纠错,即用正确的拼音替换错误的拼音。可以理解的是,第二查询信息中错误的拼音被替换之后,第三查询信息所表述的语义与用户在用户界面输入的第一查询信息所表述的语义一致。此外,基于上述预置字形集合中所包括的字词字形对第二查询信息或者拼音纠错后的查询信息进行字形纠错时,根据口语化模型和/或限定领域语言模型的得分分值,分别对第二查询信息或者拼音纠错后的查询信息进行口语化字形纠错和/或限定领域字形纠错,即对于某个第二查询信息或者拼音纠错后的查询信息,可能存在口语化字形错误、限定领域字形错误中的一种或多种,详细纠错过程在此不做限制。可选的,在对第二查询信息或者拼音纠错后的查询信息进行口语化字形纠错和/或限定领域字形纠错之后,可根据用户日志中用户的语言使用习惯提取纠错对,对进行口语化字形纠错和/或限定领域字形纠错之后得到的查询信息进行纠错检验,进一步判断该查询信息是否还存在字形错误,在此对纠错对的提取方法不做限制。若上述查询信息仍存在字形纠错,则依靠纠错对对上述查询信息中的字形错误进行替换,替换方法在此不做限制。
S4、根据第三查询信息向用户输出第一查询信息对应的查询答案。
在一些可行的实施方式中,在得到第三查询信息后,根据第三查询信息在数据库中检索答案,并通过用户界面向用户输出对应的查询答案。可以理解的是,根据第三查询信息在数据库中检索到的查询答案即为用户通过用户界面输入的第一查询信息对应的查询答案。
在本发明实施例中,通过对用户输入的第一查询信息进行字词预处理后得到第二查询信息进行拼音纠错和/或字形纠错,可进一步理解用户输入的第一查询信息的具体表述,提高了理解用户语义的准确率以及向用户输出对应查询答案的准确率,极大提高了系统输出的正确率和用户收到的信息质量。
请一并参见图2,图2是在根据第三查询信息在数据库中检索不到答案的情况下,本发明实施例提供的向用户输出第一查询信息对应的查询答案的一流程示意图。具体包括以下步骤:
S41、计算数据库中各个查询语句与第三查询信息的相似度以得到各个查询语句对应的查询信息相似度。
在一些可行的实施方式中,当根据第三查询信息在数据库中检索不到查询答案时,可计算数据库中各个查询语句与第三查询信息的相似度。其中数据库中各个查询语句是在特定领域下的问题集合,特定领域由本实施例提供的方法所应用的领域决定。可选的,计算数据库中各个查询语句与第三查询信息的相似度时,可依靠相似度算法计算数据库中各个查询语句与第三查询信息的相似度,相似度算法包括但不限于余弦相似度算法、gensim算法、逻辑算法、向量相似度算法中的一种或几种,在此不做限制。例如,根据向量相似度算法计算数据库中各个查询语句与第三查询信息的相似度时,首先将第三查询信息转换成一个连续空间中的向量表示,不同类型的向量之间彼此间隔最大。其中,上述向量表示通过运用词向量、卷积神经网络技术训练得到,在此不做详细说明。当计算某一第三查询信息时,将该第三查询信息生成N维的问句向量,计算每一维度与数据库中各个查询信息的相似度值,最终得到数据库中各个查询语句与第三查询信息的相似度值,具体计算方法在此不做限制。
S42、将各个查询语句对应的查询信息相似度与第三阈值比较,确定出查询信息相似度不大于第三阈值的至少一个目标查询语句。
这里的第三阈值可根据不同的领域、场景和比较方法由系统管理员手动调节。例如,利用某一相似度算法计算得到的数据库中各个查询语句与第三查询信息的相似度值所在的范围是0至1,由于第三阈值是可调节参数,此时系统管理员根据数据库中各个查询语句与第三查询信息的相似度值的分布范围设置第三阈值为0.5后,数据库中与第三查询信息的相似度值不大于0.5的各个查询语句确定为目标查询语句。
S43、按照各个目标查询语句对应的查询信息相似度的高低顺序,将各个目标查询语句按照排序顺序输出至上述用户界面,基于用户界面显示各个目标查询语句并反问用户各个目标查询语句是否与第三查询信息表述一致。
在一些可行的实施方式中,按照各个目标查询语句对应的查询信息相似度的高低顺序,将各个目标查询语句按照排序顺序输出至上述用户界面时,可按照相似度的高低顺序依次在用户界面逐条显示。即在得到目标查询语句后,首先将相似度最高的目标查询语句在用户界面显示,并基于该目标查询语句反问用户该目标查询语句是否与第三查询信息表述一致。
可选的,将各个目标查询语句按照排序顺序输出至用户界面时,可按照相似度的高低顺序在用户界面显示一组目标查询语句,并基于该组目标查询语句反问用户是否存在与第三查询信息表述一致的目标查询语句。
由于用户界面可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备或其他终端上可供用户输入第一查询信息的显示界面,故目标查询语句在用户界面有多重显示方式,用户在用户界面也可以有不同的浏览方式和选择方式,在此不做限制。例如,当各个目标查询语句按照相似度高低顺序依次在常用的手机显示界面中逐条显示时,若用户通过触屏确认该目标查询语句与第三查询信息表述一致,则在手机接收到用户触屏所触发的确认指令后,确定该目标查询语句与第三查询信息表述一致。若用户通过触屏确定该目标查询语句与第三查询信息表述不一致时,在手机接收到用户触屏所触发的不一致指令后,将相似度第二高的目标查询语句在用户界面显示,并基于该相似度第二高的目标查询语句反问用户该相似度第二高的目标查询语句是否与第三查询信息表述一致,以此类推,直至确定与第三查询信息表述一致的目标查询语句为止。
S44、根据用户确定的表述一致的目标查询语句,在数据库中检索对应的答案得到第一查询语句对应的查询答案,并向用户输出对应的查询答案。
在本发明实施例中,通过对用户输入的第一查询信息进行字词预处理,可获取用户输入的第一查询信息的语义并得到第二查询信息。同时可对第二查询信息进行拼音正确度打分和字形正确度打分,基于拼音正确度打分分值和/或字形正确度打分分值对第二查询信息进行拼音纠错和/或字形纠错,得到纠错后的第三查询信息。通过对第二查询信息的多重纠错可进一步理解用户输入的第一查询信息的具体表述,提高了理解用户语义的准确率以及向用户输出对应查询答案的准确率,极大提高了系统输出的正确率和用户收到的信息质量。
参见图3,图3是在基于第三查询信息在数据库中检索不到答案的情况下或各个查询语句对应的查询信息相似度均大于第三阈值的情况下,本发明实施例提供的向用户输出第一查询信息对应的查询答案的另一流程示意图,具体包括以下步骤:
S51、当不能通过用户界面向用户输出查询答案时,输出第一查询信息表述有误的提示信息,并基于提示信息提醒上述用户选择是否更正第一查询信息。
结合图1,在一些可行的实施方式中,当基于第三查询信息在数据库中检索不到答案时,通过用户界面输出第一查询信息表述有误的提示信息,并基于提示信息提醒上述用户选择是否更正第一查询信息。
结合图2,在一些可行的实施方式中,当数据库中各个查询语句对应的查询信息相似度均大于第三阈值,即不能基于用户界面显示各个目标查询语句并反问用户各个目标查询语句是否与第三查询信息表述一致时,通过用户界面输出第一查询信息表述有误的提示信息,并基于提示信息提醒上述用户选择是否更正第一查询信息。
可选的,由于用户界面可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备或其他终端上可供用户输入第一查询信息的显示界面,故通过用户界面输出第一查询信息表述有误的提示信息可以有多种方式,用户在用户界面也可以有不同的浏览方式和选择方式,在此不做限制。例如,当第一查询信息表述有误的提示信息在常用的手机显示界面中显示时,若用户通过触屏没有确认第一查询信息表述有误,则在手机显示界面显示会话已结束。若用户通过触屏确定第一查询信息表述有误,即用户选择更正第一查询信息,在手机接收到用户输入的更正信息后,执行S52步骤。
S52、当用户选择更正第一查询信息,则获取用户输入的更正信息。
S53、根据更正信息更新第一查询信息,并执行获取用户输入的第一查询信息并对其进行字词预处理,得到字词预处理后的第二查询信息的步骤。
在一些可行的实施方式中,用户选择更正第一查询信息后,根据用户在用户界面输入的更正信息更新第一查询信息,其中用户输入的更正信息可以是但不限于重新输入的查询信息或在用户界面对第一查询信息所做出的修改。同时或区域更新后的第一查询信息,对更新后的第一查询信息进行分词得到更新后的第一查询信息中的关键字和/或词序列并识别关键字和/或词序列的信息类型,并结合语义将上述关键字和/或词序列重组为更新后的第二查询信息。
S54、向上述用户输出上述第一查询信息对应的查询答案。
在本发明实施例中,通过对第二查询信息进行拼音纠错和/或字形纠错,得到纠错后的第三查询信息。进一步理解用户输入的第一查询信息的具体表述,提高了理解用户语义的准确率以及向用户输出对应查询答案的准确率。此外,在上述第三查询语句语义表述模糊或在上述数据库中检索不到对应答案的情况下,仍可基于上述第三查询语句在上述数据库中确定相似度较高的上述目标查询语句,进而反问上述用户并根据上述目标查询语句在数据库中检索到对应的答案,不仅如此,在对用户输入的第一查询信息进行多重处理后仍得不到第一查询信息对应的查询答案的情况下,为用户提供了更正第一查询信息的机会,更加人性化,也极大提高了系统输出的正确率和用户收到的信息质量。
参见图4,图4是本发明实施例提供的信息处理装置的结构示意图。本发明实施例提供的一种信息处理装置包括:
获取模块61,用于获取用户输入的第一查询信息。
预处理模块62,用于对获取模块61获取的第一查询信息进行字词预处理,得到字词预处理后的第二查询信息。
后处理模块63,用于基于上述预处理模块62得到的上述第二查询信息中的字词拼音和预置拼音集合中所包括的拼音对上述第二查询信息进行拼音正确度打分,得到拼音正确度分值,基于上述第二查询信息中的字词字形和预置字形集合中所包括的字形对上述第二查询信息进行字形正确度打分,得到字形正确度分值;
后处理模块63,还用于在上述拼音正确度分值大于第一阈值和/或上述字形正确度分值大于第二阈值时,基于上述预置拼音集合中所包括的拼音对上述第二查询信息进行拼音纠错,和/或基于上述预置字形集合中所包括的字词字形对所述第二查询信息进行字形纠错,得到拼音纠错和/或字形纠错后的第三查询信息。
会话管理模块64,用于根据上述后处理模块63得到的上述第三查询信息向上述用户输入上述第一查询信息对应的查询答案。
在一些可行的实施方式中,上述获取模块61还用于在当基于第三查询信息在数据库中检索不到答案和/或当数据库中各个查询语句对应的查询信息相似度均大于第三阈值,即不能基于用户界面显示各个目标查询语句并反问用户各个目标查询语句是否与第三查询信息表述一致时,获取用户输入的更正信息。
在一些可行的实施方式中,上述预处理模块62还用于对获取模块61获取的上述第一查询信息进行分词得到上述第一查询信息中的关键字和/或词序列,识别上述关键字和/或词序列的信息类型,根据上述关键字和/或词序列的信息类型,从上述关键字和/或词序列中提取上述关键字和/或词序列的语义信息;根据上述关键字和/或词序列的语义信息确定上述第一查询信息的语义;根据上述第一查询信息的语义,结合预置语句集合中所包括的语句将上述关键字和/或词序列按照上述第一查询信息的语义进行重组,得到第二查询信息;其中,上述预置语句集合中包括通用语句、专用术语语句以及常用口语表达语句中的一种或多种语句。
在一些可行的实施方式中,后处理模块63还用于基于上述预处理模块62得到的上述第二查询信息中的字词拼音和预置拼音集合中所包括的拼音对上述第二查询信息进行拼音正确度打分,得到拼音正确度分值,基于上述第二查询信息中的字词字形和预置字形集合中所包括的字形对上述第二查询信息进行字形正确度打分,得到字形正确度分值;其中,根据预置拼音集合中的拼音语言模型对第二查询信息的拼音正确度打分,即将拼音语言模型中拼音训练语料的注音与第二查询信息的注音进行比较计算,得出两者的相似度,该相似度分值即为拼音正确度分值。根据字形语言模型对第二查询信息的字形正确度打分,其中,字形语言模型包括口语化语言模型和限定领域语言模型,字形正确度的具体打分规则如下:
字形正确度分值=α×口语化语言模型得分+β×限定领域语言模型得分
其中,α为口语化语言模型打分参数,β为限定领域语言模型打分参数。
在一些可行的实施方式中,后处理模块63用于:
基于上述拼音正确度分值和上述字形正确度分值,比较上述拼音正确度分值与第一阈值的大小和上述字形正确度分值与第二阈值的大小,判断第二查询信息是否需要进行拼音纠错和/或字形纠错。
在一些可行的实施方式中,后处理模块63还用于在当上述拼音正确度分值大于第一阈值和/或上述字形正确度分值大于第二阈值时,基于上述预置拼音集合中所包括的拼音对上述第二查询信息进行拼音纠错和/或基于上述预置字形集合中所包括的字词字形对上述第二查询信息进行字形纠错,得到拼音纠错和/或字形纠错后的第三查询信息。其中,当第二查询信息的拼音正确度分值大于第一阈值且第二查询信息的字形正确度分值大于第二阈值,即第二查询信息存在拼音错误和字形错误时,基于预置拼音集合中所包括的拼音对第二查询信息进行拼音纠错,得到拼音纠错后的查询信息,并基于预置字形集合中所包括的字词字形对拼音纠错后的查询信息进行字形纠错,得到字形纠错后的第三查询信息。当第二查询信息的拼音正确度分值不大于第一阈值且第二查询信息的字形正确度分值大于第二阈值时,即第二查询信息存在字形错误,不存在拼音错误时,基于预置字形集合中所包括的字词字形对第二查询信息进行字形纠错,得到字形纠错后的第三查询信息。当第二查询信息的拼音正确度分值大于第一阈值且第二查询信息的字形正确度分值不大于第二阈值时,即第二查询信息存在拼音错误,不存在字形错误时,基于预置拼音集合中所包括的拼音对第二查询信息进行拼音纠错,得到字形纠错后的第三查询信息。
在一些可行的实施方式中,后处理模块63还用于计算数据库中各个查询语句与第三查询信息的相似度以得到各个查询语句对应的查询信息相似度,将各个查询语句对应的查询信息相似度与第三阈值比较,确定出查询信息相似度不大于第三阈值的至少一个目标查询语句,按照各个目标查询语句对应的查询信息相似度的高低顺序,将上述各个目标查询语句进行排序得到排序后的查询语句集合。
其中,上述查询语句集合中的各个目标查询语句用于确定上述第一查询语句对应的查询答案。
在一些可行的实施方式中,会话管理模块64还用于:
在根据第三查询信息在数据库中检索到对应查询答案后,通过用户界面向用户输出第一查询信息对应的查询答案。其中,根据第三查询信息在数据库中检索到的对应查询答案即为第一查询信息对应的查询答案。
在一些可行的实施方式中,会话管理模块64还用于:
将上述后处理模块63得到的各个目标查询语句按照排序顺序输出至上述用户界面,基于上述用户界面显示上述各个目标查询语句并反问上述用户上述各个目标查询语句是否与上述第三查询信息表述一致。
根据上述用户确定的表述一致的目标查询语句,在上述数据库中检索对应的答案得到上述第一查询语句对应的查询答案,并向上述用户输出上述查询答案。
可选的,会话管理模块64可按照各个目标查询语句对应的查询信息相似度的高低顺序,将各个目标查询语句按照排序顺序输出至上述用户界面时,可按照相似度的高低顺序依次在用户界面逐条显示。即在得到目标查询语句后,首先将相似度最高的目标查询语句在用户界面显示,并基于该目标查询语句反问用户该目标查询语句是否与第三查询信息表述一致。
可选的,将各个目标查询语句按照排序顺序输出至用户界面时,可按照相似度的高低顺序在用户界面显示一组目标查询语句,并基于该组目标查询语句反问用户是否存在与第三查询信息表述一致的目标查询语句。
由于用户界面可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备或其他终端上可供用户输入第一查询信息的显示界面,故目标查询语句在用户界面有多重显示方式,用户在用户界面也可以有不同的浏览方式和选择方式,在此不做限制。例如,当各个目标查询语句按照相似度高低顺序依次在常用的手机显示界面中逐条显示时,若用户通过触屏确认该目标查询语句与第三查询信息表述一致,则在手机接收到用户触屏所触发的确认指令后,确定该目标查询语句与第三查询信息表述一致。若用户通过触屏确定该目标查询语句与第三查询信息表述不一致时,在手机接收到用户触屏所触发的不一致指令后,将相似度第二高的目标查询语句在用户界面显示,并基于该相似度第二高的目标查询语句反问用户该相似度第二高的目标查询语句是否与第三查询信息表述一致,以此类推,直至确定与第三查询信息表述一致的目标查询语句为止。
在一些可行的实施方式中,会话管理模块64还用于当基于第三查询信息在数据库中检索不到答案时,通过用户界面输出第一查询信息表述有误的提示信息,并基于提示信息提醒上述用户选择是否更正第一查询信息。
在一些可行的实施方式中,会话管理模块64还用于当数据库中各个查询语句对应的查询信息相似度均大于第三阈值,即不能基于用户界面显示各个目标查询语句并反问用户各个目标查询语句是否与第三查询信息表述一致时,通过用户界面输出第一查询信息表述有误的提示信息,并基于提示信息提醒上述用户选择是否更正第一查询信息。
可选的,由于用户界面可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备或其他终端上可供用户输入第一查询信息的显示界面,故通过用户界面输出第一查询信息表述有误的提示信息可以有多种方式,用户在用户界面也可以有不同的浏览方式和选择方式,在此不做限制。例如,当第一查询信息表述有误的提示信息在常用的手机显示界面中显示时,若用户通过触屏没有确认第一查询信息表述有误,则在手机显示界面显示会话已结束。
具体实现中,上述一种信息处理装置可用过其内置的各个功能模块执行如上述图1至图3中各个步骤所提供的实现方式。例如,上述获取模块61可以用于执行上述各个步骤中获取用户输入的第一查询信息,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述预处理模块62可以用于执行上述各个步骤中对获取模块61获取的第一查询信息进行分词得到第一查询信息中的关键字和/或词序列,识别关键字和/或词序列的信息类型并根据上述关键字和/或词序列的信息类型,从上述关键字和/或词序列中提取上述关键字和/或词序列的语义信息;根据上述关键字和/或词序列的语义信息确定上述第一查询信息的语义;根据上述第一查询信息的语义,结合预置语句集合中所包括的语句将上述关键字和/或词序列按照上述第一查询信息的语义进行重组,得到第二查询信息;其中,上述预置语句集合中包括通用语句、专用术语语句以及常用口语表达语句中的一种或多种语句;具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述后处理模块63可以用于基于上述预处理模块62得到的上述第二查询信息中的字词拼音和预置拼音集合中所包括的拼音对上述第二查询信息进行拼音正确度打分,得到拼音正确度分值,基于上述第二查询信息中的字词字形和预置字形集合中所包括的字形对上述第二查询信息进行字形正确度打分,得到字形正确度分值;具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述会话管理模块64可以用于执行在用户界面向用户输出数据库中相似度大于第三阈值且与后处理模块63得到的第三查询信息表述一致的目标查询语句,或者用于在用户界面向用户输出第一查询信息对应的查询答案,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本发明实施例中,可进一步理解用户输入的第一查询信息的具体表述,提高了理解用户语义的准确率以及向用户输出对应查询答案的准确率。此外,在上述第三查询语句语义表述模糊或在上述数据库中检索不到对应答案的情况下,仍可基于上述第三查询语句在上述数据库中确定相似度较高的上述目标查询语句,进而反问上述用户并根据上述目标查询语句在数据库中检索到对应的答案,不仅如此,在对用户输入的第一查询信息进行多重处理后仍得不到第一查询信息对应的查询答案的情况下,为用户提供了更正第一查询信息的机会,更加人性化,也极大提高了系统输出的正确率和用户收到的信息质量。
参见图5,图5是本发明实施例提供的终端设备的结构示意图。如图5所示,本实施例中的终端设备可以包括:一个或多个处理器701、显示器702和存储器703。其中,处理器701、显示器702和存储器703通过总线704连接,存储器703用于存储计算机程序,该计算机程序包括程序指令,处理器701和显示器702用于执行存储器703存储的程序指令。
其中,处理器701执行如下操作:
获取用户输入的第一查询信息并对上述第一查询信息进行字词预处理,得到字词预处理后的第二查询信息;
基于上述第二查询信息中的字词拼音和预置拼音集合中所包括的拼音对上述第二查询信息进行拼音正确度打分,得到拼音正确度分值,基于上述第二查询信息中的字词字形和预置字形集合中所包括的字形对上述第二查询信息进行字形正确度打分,得到字形正确度分值;
当上述拼音正确度分值大于第一阈值和/或上述字形正确度分值大于第二阈值时,基于上述预置拼音集合中所包括的拼音对上述第二查询信息进行拼音纠错,和/或基于上述预置字形集合中所包括的字词字形对上述第二查询信息进行字形纠错,得到拼音纠错和/或字形纠错后的第三查询信息;
显示器702执行如下操作:
根据上述第三查询信息向上述用户输出上述第一查询信息对应的查询答案。
在一些可行的实施方式中,上述处理器701还用于:
对述第一查询信息进行分词得到上述第一查询信息中的关键字和/或词序列,识别上述关键字和/或词序列的信息类型,根据上述关键字和/或词序列的信息类型,从上述关键字和/或词序列中提取上述关键字和/或词序列的语义信息;根据上述关键字和/或词序列的语义信息确定上述第一查询信息的语义;
根据上述第一查询信息的语义,结合预置语句集合中所包括的语句将上述关键字和/或词序列按照上述第一查询信息的语义进行重组,得到第二查询信息;其中,上述预置语句集合中包括通用语句、专用术语语句以及常用口语表达语句中的一种或多种语句。
在一些可行的实施方式中,上述处理器701还用于:
当上述拼音正确度分值大于上述第一阈值且上述字形正确度分值大于上述第二阈值时,基于上述预置拼音集合中所包括的拼音对上述第二查询信息进行拼音纠错,得到拼音纠错后的查询信息,基于上述预置字形集合中所包括的字词字形对上述拼音纠错后的查询信息进行字形纠错,得到字形纠错后的第三查询信息。
在一些可行的实施方式中,上述处理器701还用于:
当上述拼音正确度分值不大于上述第一阈值且上述字形正确度分值大于上述第二阈值时,基于上述预置字形集合中所包括的字词字形对上述第二查询信息进行字形纠错,得到字形纠错后的第三查询信息。
在一些可行的实施方式中,上述处理器701还用于:
当上述拼音正确度分值大于上述第一阈值且上述字形正确度分值不大于上述第二阈值时,基于上述预置拼音集合中所包括的拼音对上述第二查询信息进行拼音纠错,得到拼音纠错后的第三查询信息。
在一些可行的实施方式中,上述处理器701还用于:
计算数据库中各个查询语句与上述第三查询信息的相似度以得到各个查询语句对应的查询信息相似度;
将上述各个查询语句对应的查询信息相似度与第三阈值比较,确定出查询信息相似度不大于上述第三阈值的至少一个目标查询语句;
按照各个目标查询语句对应的查询信息相似度的高低顺序,将上述各个目标查询语句进行排序得到排序后的查询语句集合。
其中,上述查询语句集合中的各个目标查询语句用于确定上述第一查询语句对应的查询答案。
在一些可行的实施方式中,上述显示器702还用于:
将上述处理器701得到的各个目标查询语句按照排序顺序输出至上述用户界面,基于上述用户界面显示上述各个目标查询语句并反问上述用户上述各个目标查询语句是否与上述第三查询信息表述一致;
根据上述用户确定的表述一致的目标查询语句,在上述数据库中检索对应的答案得到上述第一查询语句对应的查询答案,并向上述用户输出上述查询答案。
在一些可行的实施方式中,上述显示器702还用于:
当上述各个查询语句对应的查询信息相似度均大于上述第三阈值时,输出上述第一查询信息表述有误的提示信息至用户界面,基于上述用户界面上显示的上述提示信息提醒上述用户选择是否更正上述第一查询信息。
若上述用户选择更正上述第一查询信息,则通过上述获取模块获取上述用户输入的更正信息,并根据上述更正信息更新上述第一查询信息。
应当理解,在一些可行的实施方式中,上述处理器701可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该显示器702可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备或其他终端上的输入输出设备。该存储器703可以包括只读存储器和随机存取存储器,并向处理器701提供指令和数据。存储器703的一部分还可以包括非易失性随机存取存储器。例如,存储器703还可以存储设备类型的信息。
具体实现中,上述终端设备可通过其内置的各个功能模块执行如上述图1至图3中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本发明实施例中,通过对用户输入的第一查询信息进行字词预处理后得到的第二查询信息进行拼音正确度打分和字形正确度打分,基于拼音正确度打分分值和/或字形正确度打分分值对第二查询信息进行拼音纠错和/或字形纠错,得到纠错后的第三查询信息。进一步理解用户输入的第一查询信息的具体表述,提高了理解用户语义的准确率以及向用户输出对应查询答案的准确率。此外,在上述第三查询语句语义表述模糊或在上述数据库中检索不到对应答案的情况下,仍可基于上述第三查询语句在上述数据库中确定相似度较高的上述目标查询语句,进而反问上述用户并根据上述目标查询语句在数据库中检索到对应的答案,不仅如此,在对用户输入的第一查询信息进行多重处理后仍得不到第一查询信息对应的查询答案的情况下,为用户提供了更正第一查询信息的机会,更加人性化,也极大提高了系统输出的正确率和用户收到的信息质量。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图1至图3中各个步骤所提供的方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的信息处理测装置或者上述终端设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smartmedia card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本发明的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本发明实施例提供的方法及相关装置是参照本发明实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种信息处理方法,其特征在于,包括:
获取用户输入的第一查询信息,并对所述第一查询信息进行字词预处理,得到字词预处理后的第二查询信息;
基于所述第二查询信息中的字词拼音和预置拼音集合中所包括的拼音对所述第二查询信息进行拼音正确度打分,得到拼音正确度分值,基于所述第二查询信息中的字词字形和预置字形集合中所包括的字形对所述第二查询信息进行字形正确度打分,得到字形正确度分值;
当所述拼音正确度分值大于第一阈值和/或所述字形正确度分值大于第二阈值时,基于所述预置拼音集合中所包括的拼音对所述第二查询信息进行拼音纠错,和/或基于所述预置字形集合中所包括的字词字形对所述第二查询信息进行字形纠错,得到拼音纠错和/或字形纠错后的第三查询信息;
计算数据库中各个查询语句与所述第三查询信息的相似度以得到各个查询语句对应的查询信息相似度;
将所述各个查询语句对应的查询信息相似度与第三阈值比较,确定出查询信息相似度不大于所述第三阈值的至少一个目标查询语句;
当所述各个查询语句对应的查询信息相似度均大于所述第三阈值时,输出所述第一查询信息表述有误的提示信息至用户界面,基于所述用户界面上显示的所述提示信息提醒所述用户选择是否更正所述第一查询信息;
若所述用户选择更正所述第一查询信息,则获取所述用户输入的更正信息,并根据所述更正信息更新所述第一查询信息,并执行所述获取用户输入的第一查询信息并对所述第一查询信息进行字词预处理,得到字词预处理后的第二查询信息的步骤;
根据所述目标查询语句向所述用户输出所述第一查询信息对应的查询答案。
2.根据权利要求1所述的方法,其特征在于,所述获取用户输入的第一查询信息并对所述第一查询信息进行字词预处理,得到字词预处理后的第二查询信息,包括:
获取用户输入的第一查询信息,对所述第一查询信息进行分词得到所述第一查询信息中的关键字和/或词序列;
识别所述关键字和/或词序列的信息类型,根据所述关键字和/或词序列的信息类型,从所述关键字和/或词序列中提取所述关键字和/或词序列的语义信息;
根据所述关键字和/或词序列的语义信息确定所述第一查询信息的语义;
根据预置语句集合中所包括的语句将所述关键字和/或词序列按照所述第一查询信息的语义进行重组,得到第二查询信息;
其中,所述预置语句集合中包括通用语句、专用术语语句以及常用口语表达语句中的一种或多种语句。
3.根据权利要求1或2所述的方法,其特征在于,所述当所述拼音正确度分值大于第一阈值和/或所述字形正确度分值大于第二阈值时,基于所述预置拼音集合中所包括的拼音对所述第二查询信息进行拼音纠错,和/或基于所述预置字形集合中所包括的字词字形对所述第二查询信息进行字形纠错,得到拼音纠错和/或字形纠错后的第三查询信息,包括:
当所述拼音正确度分值大于所述第一阈值且所述字形正确度分值大于所述第二阈值时,基于所述预置拼音集合中所包括的拼音对所述第二查询信息进行拼音纠错,得到拼音纠错后的查询信息;
基于所述预置字形集合中所包括的字词字形对所述拼音纠错后的查询信息进行字形纠错,得到字形纠错后的第三查询信息。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
当所述拼音正确度分值不大于所述第一阈值且所述字形正确度分值大于所述第二阈值时,基于所述预置字形集合中所包括的字词字形对所述第二查询信息进行字形纠错,得到字形纠错后的第三查询信息。
5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
当所述拼音正确度分值大于所述第一阈值且所述字形正确度分值不大于所述第二阈值时,基于所述预置拼音集合中所包括的拼音对所述第二查询信息进行拼音纠错,得到拼音纠错后的第三查询信息。
6.根据权利要求1所述的方法,其特征在于,所述确定出查询信息相似度不大于所述第三阈值的至少一个目标查询语句后,所述方法还包括:
按照各个目标查询语句对应的查询信息相似度的高低顺序,将所述各个目标查询语句进行排序得到排序后的查询语句集合;
其中,所述查询语句集合中的各个目标查询语句用于确定所述第一查询信息对应的查询答案。
7.根据权利要求6所述的方法,其特征在于,所述将所述各个目标查询语句进行排序得到排序后的查询语句集合后,所述方法还包括:
将所述各个目标查询语句按照排序顺序输出至用户界面,基于所述用户界面显示所述各个目标查询语句并反问所述用户所述各个目标查询语句是否与所述第三查询信息表述一致;
根据所述用户确定的表述一致的目标查询语句,在所述数据库中检索对应的答案得到所述第一查询信息对应的查询答案,并向所述用户输出所述查询答案。
8.一种信息处理装置,其特征在于,包括:
获取模块,用于获取用户输入的第一查询信息;
预处理模块,用于对所述获取模块获取的第一查询信息进行字词预处理,得到字词预处理后的第二查询信息;
后处理模块,用于基于所述预处理模块得到的所述第二查询信息中的字词拼音和预置拼音集合中所包括的拼音对所述第二查询信息进行拼音正确度打分,得到拼音正确度分值,基于所述第二查询信息中的字词字形和预置字形集合中所包括的字形对所述第二查询信息进行字形正确度打分,得到字形正确度分值;
所述后处理模块,还用于当所述拼音正确度分值大于第一阈值和/或所述字形正确度分值大于第二阈值时,基于所述预置拼音集合中所包括的拼音对所述第二查询信息进行拼音纠错,和/或基于所述预置字形集合中所包括的字词字形对所述第二查询信息进行字形纠错,得到拼音纠错和/或字形纠错后的第三查询信息;
所述后处理模块,还用于计算数据库中各个查询语句与所述第三查询信息的相似度以得到各个查询语句对应的查询信息相似度;将所述各个查询语句对应的查询信息相似度与第三阈值比较,确定出查询信息相似度不大于所述第三阈值的至少一个目标查询语句;
会话管理模块,用于当所述各个查询语句对应的查询信息相似度均大于所述第三阈值时,输出所述第一查询信息表述有误的提示信息至用户界面,基于上述用户界面上显示的所述提示信息提醒上述用户选择是否更正所述第一查询信息;
若上述用户选择更正所述第一查询信息,则所述获取模块获取所述用户输入的更正信息,并根据所述更正信息更新所述第一查询信息;
所述会话管理模块,还用于根据所述后处理模块得到的所述目标查询语句向所述用户输出所述第一查询信息对应的查询答案。
9.一种终端设备,其特征在于,所述终端设备包括处理器和存储器,处理器和存储器相互连接,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行如权利要求1-7任一项所述的方法。
10.一种终端设备,其特征在于,包括处理器、显示器和存储器,所述处理器、所述显示器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器和所述显示器被配置用于调用所述程序指令,执行如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811358568.5A CN109522397B (zh) | 2018-11-15 | 2018-11-15 | 信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811358568.5A CN109522397B (zh) | 2018-11-15 | 2018-11-15 | 信息处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109522397A CN109522397A (zh) | 2019-03-26 |
CN109522397B true CN109522397B (zh) | 2023-06-27 |
Family
ID=65777954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811358568.5A Active CN109522397B (zh) | 2018-11-15 | 2018-11-15 | 信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522397B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516232B (zh) * | 2019-07-22 | 2021-06-22 | 北京师范大学 | 一种用于汉语评测的自动命题方法和系统 |
CN110705267B (zh) * | 2019-09-29 | 2023-03-21 | 阿波罗智联(北京)科技有限公司 | 语义解析方法、装置及存储介质 |
CN110851484A (zh) * | 2019-11-13 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种获取多指标问题答案的方法及装置 |
CN110838288B (zh) * | 2019-11-26 | 2022-05-06 | 杭州博拉哲科技有限公司 | 一种语音交互方法及其系统和对话设备 |
CN113239054B (zh) * | 2021-05-11 | 2024-05-07 | 北京百度网讯科技有限公司 | 信息生成方法及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015072071A1 (en) * | 2013-11-18 | 2015-05-21 | International Business Machines Corporation | Error correction in tables using a question and answer system |
CN106528845A (zh) * | 2016-11-22 | 2017-03-22 | 北京百度网讯科技有限公司 | 基于人工智能的检索纠错方法及装置 |
CN108717412A (zh) * | 2018-06-12 | 2018-10-30 | 北京览群智数据科技有限责任公司 | 基于中文分词的中文校对纠错方法及系统 |
-
2018
- 2018-11-15 CN CN201811358568.5A patent/CN109522397B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015072071A1 (en) * | 2013-11-18 | 2015-05-21 | International Business Machines Corporation | Error correction in tables using a question and answer system |
CN106528845A (zh) * | 2016-11-22 | 2017-03-22 | 北京百度网讯科技有限公司 | 基于人工智能的检索纠错方法及装置 |
CN108717412A (zh) * | 2018-06-12 | 2018-10-30 | 北京览群智数据科技有限责任公司 | 基于中文分词的中文校对纠错方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109522397A (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522397B (zh) | 信息处理方法及装置 | |
CN108647205B (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
CN106649742B (zh) | 数据库维护方法和装置 | |
CN107609163B (zh) | 医学知识图谱的生成方法、存储介质及服务器 | |
CN106874441B (zh) | 智能问答方法和装置 | |
CN113707300B (zh) | 基于人工智能的搜索意图识别方法、装置、设备及介质 | |
CN110674271B (zh) | 一种问答处理方法及装置 | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN110705302B (zh) | 命名实体的识别方法、电子设备及计算机存储介质 | |
CN111310440B (zh) | 文本的纠错方法、装置和系统 | |
US9898464B2 (en) | Information extraction supporting apparatus and method | |
CN102663129A (zh) | 医疗领域深度问答方法及医学检索系统 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN106980652B (zh) | 智能问答方法及系统 | |
CN114547274B (zh) | 多轮问答的方法、装置及设备 | |
CN106407316B (zh) | 基于主题模型的软件问答推荐方法和装置 | |
CN111125295A (zh) | 一种基于lstm的获取食品安全问题答案的方法及系统 | |
CN113590792B (zh) | 用户问题的处理方法、装置和服务器 | |
CN113254588A (zh) | 一种数据搜索方法及系统 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
CN114153946A (zh) | 一种智能检索方法、装置、设备及存储介质 | |
CN113590844A (zh) | 一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质 | |
US20220156611A1 (en) | Method and apparatus for entering information, electronic device, computer readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |