CN111125337B - 一种文本类型确定方法及装置 - Google Patents
一种文本类型确定方法及装置 Download PDFInfo
- Publication number
- CN111125337B CN111125337B CN201911414826.1A CN201911414826A CN111125337B CN 111125337 B CN111125337 B CN 111125337B CN 201911414826 A CN201911414826 A CN 201911414826A CN 111125337 B CN111125337 B CN 111125337B
- Authority
- CN
- China
- Prior art keywords
- text
- type
- obtaining
- dialogue
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 101
- 238000013145 classification model Methods 0.000 claims abstract description 31
- 230000011218 segmentation Effects 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 22
- 238000001914 filtration Methods 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 8
- 238000003745 diagnosis Methods 0.000 description 4
- 238000004870 electrical engineering Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本类型确定方法及装置,可以获得待检测对话文本;通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量,将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型,在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型;将确定的预设文本类型确定为该文本的文本类型。本发明可以通过场景分类的技术手段确定对话文本的文本类型。
Description
技术领域
本发明涉及文本处理领域,尤其涉及一种文本类型确定方法及装置。
背景技术
随着通信技术的发展,越来越多的人拥有了通信设备。通过通信设备,用户之间可以方便的进行对话。
用户之间的对话常携带有大量的有用信息,例如:可以对某角色的对话进行分类。当获得该角色的对话内容后,可以根据该对话内容确定该角色的对话的类型。例如:专利代理师常需要和专利委托方进行电话沟通,则可以将专利代理师的对话内容进行分类,例如:分为:沟通电学领域技术方案、沟通化学领域技术方案、沟通机械领域技术方案、沟通生物领域技术方案等。
上述对话内容类型,对于后续进行对话的统计分析十分重要,但是现在还没有确定对话的对话内容类型的方法。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的一种文本类型确定方法及装置,技术方案如下:
一种文本类型确定方法,包括:
获得待检测对话文本;
通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;
对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量,将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型,在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型;
将确定的预设文本类型确定为该文本的文本类型。
可选的,所述获得待检测对话文本包括:
获得对话语音;
对所述对话语音进行语音识别,获得语音识别结果;
将所述语音识别结果转化为待检测对话文本。
可选的,所述获得该文本对应的词组向量,包括:
对该文本进行结巴分词处理,获得分词结果向量;
对所述分词结果向量进行停用词过滤处理,获得词组向量。
可选的,所述场景分类模型的训练过程可以包括:
获得携带有场景类别标记的训练对话文本;
对所述训练对话文本进行结巴分词处理,获得训练分词结果向量;
对所述训练分词结果向量进行停用词过滤处理,获得训练词组向量;
对所述训练词组向量进行机器学习,获得场景分类模型,其中,所述场景分类模型的输入为:文本对应的词组向量,输出为:与该文本对应的场景类型。
可选的,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:
在所述场景类型对应的每种预设文本类型的词库:确定该文本是否包含该词库中的词汇,如果是,则确定该文本与该预设文本类型匹配。
可选的,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:
在所述场景类型对应的每种预设文本类型的文本模板库:确定该文本与该文本模板库中各文本模板的相似度,当该文本与该文本模板库中至少一个文本模板的相似度大于预设阈值时,则确定该文本与该预设文本类型匹配。
可选的,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:
将该文本输入该文本对应的场景类型的文本类型识别模型中,获得文本类型识别模型输出的文本类型。
一种文本类型确定装置,包括:对话文本获得单元、指定角色文本获得单元、词组向量获得单元、场景类型获得单元、文本类型匹配单元和文本类型确定单元,
所述对话文本获得单元,用于获得待检测对话文本;
所述指定角色文本获得单元,用于通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;
所述词组向量获得单元,用于对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量;
所述场景类型获得单元,用于将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型;
所述文本类型匹配单元,用于在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型;
所述文本类型确定单元,用于将确定的预设文本类型确定为该文本的文本类型。
可选的,所述对话文本获得单元包括:对话语音获得子单元、语音识别结果获得子单元和对话文本转化子单元,
所述对话语音获得子单元,用于获得对话语音;
所述语音识别结果获得子单元,用于对所述对话语音进行语音识别,获得语音识别结果;
所述对话文本转化子单元,用于将所述语音识别结果转化为待检测对话文本。
可选的,所述词组向量获得单元包括:分词结果向量获得子单元和词组向量获得子单元,
所述分词结果向量获得子单元,用于对该文本进行结巴分词处理,获得分词结果向量;
所述词组向量获得子单元,用于对所述分词结果向量进行停用词过滤处理,获得词组向量。
借由上述技术方案,本发明提供的一种文本类型确定方法及装置,可以获得待检测对话文本;通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量,将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型,在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型;将确定的预设文本类型确定为该文本的文本类型。本发明可以通过场景分类的技术手段确定对话文本的文本类型。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种文本类型确定方法的流程示意图;
图2示出了本发明实施例提供的另一种文本类型确定方法的流程示意图;
图3示出了本发明实施例提供的另一种文本类型确定方法的流程示意图;
图4示出了本发明实施例提供的另一种文本类型确定方法的流程示意图;
图5示出了本发明实施例提供的一种文本类型确定装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供的一种文本类型确定方法,可以包括:
S100、获得待检测对话文本。
其中,待检测对话文本可以是包括至少两个角色的对话内容的文本。例如:待检测对话文本可以是老师和学生之间的对话文本,也可以是客服和客户之间的对话文本。可以理解的是,待检测对话文本是至少两个人之间的对话文本。本发明实施例可以从聊天工具的聊天记录中提取获得待检测文本,也可以从通话录音中识别获得待检测文本。在待检测文本中,各角色对应的文本可以按照时间先后顺序进行排列。在待检测文本中,不同角色对应的文本可以分开展示。例如,待检测文本的第一段为与老师对应的文本,待检测文本的第二段为与学生对应的文本。
可选的,如图2所示,步骤S100可以包括:
S110、获得对话语音。
本发明实施例可以通过已保存的通话录音中获得对话语音,也可以从至少两个角色的实时通话中获取对话语音。
S120、对所述对话语音进行语音识别,获得语音识别结果。
S130、将所述语音识别结果转化为待检测对话文本。
本发明实施例可以通过现有的语音识别技术和语音转文本技术,将对话语音进行语音识别后以文本的形式对语音识别结果进行输出,获得待检测对话文本。本发明实施例通过应用语音转文本技术,扩展了获得待检测对话文本的方式。
可选的,本发明实施例还可以使用现有的声纹识别技术,在对话语音中识别不同声纹所产生的语音,并在将语音转化为文本的过程中,将不同声纹产生的语音转化的文本分开进行展示。
S200、通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本。
其中,本发明实施例可以预先根据用户的实际需要构建角色用语库。例如,用户需要在待检测文本中区分老师和家长,则可以对老师和家长分别对应一个或多个关键词。例如:老师对应的关键词可以为:爸爸、妈妈、3班等,家长对应的关键词可以为:老师你好、我家孩子等。当待检测文本为:“小明爸爸,你好,我是3班的王老师。”“老师你好,请问有什么事吗?”时,本发明实施例可以将“小明爸爸,你好,我是3班的王老师”识别为老师对应的文本,将“老师你好,请问有什么事吗?”识别为家长对应的文本。当然,若用户只需在待检测文本中识别到特定角色对应的文本,也可以在角色用语库中只将该特定角色对应一个或多个关键词。例如:用户需要在待检测文本中识别出保险顾问对应的文本,则角色用语库只需包括与保险顾问对应的关键词,关键词可以为先生、女士和保险顾问等,当待检测文本为:“喂你好”“噢您好,请问是张先生吗?我是保险顾问,王某某,嗯有看到您是有在刚刚的时候预约咨询这个重大疾病保险还有印象吧?”“唉你好你好”时,本发明实施例可以将“噢您好,请问是张先生吗?我是保险顾问,王某某,嗯有看到您是有在刚刚的时候预约咨询这个重大疾病保险还有印象吧?”识别为保险顾问对应的文本。可以理解的是,上述举例仅为便于理解本发明的技术方案可选的实施方式,本发明的技术方案还以除上述举例以外其他的实施方式,本发明在此不作限定。
S310、对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量。
本发明实施例可以通过Word2vec、语言技术平台云(LTP Cloud)等词组向量获得模型对文本进行分词后获得与该文本对应的词组向量。
可选的,如图3所示,步骤S310可以包括:
对所述指定角色对应的所述至少一个文本中的任一个文本:S311、对该文本进行结巴分词处理,获得分词结果向量。
其中,结巴(jieba)分词是Python中文分词组件,可以对中文文本进行分词、词性标注、关键词抽取等功能,并且支持自定义词典。本发明实施例可以通过对文本进行结巴分词,获得分词结果向量。例如:当文本为“小明酒后开车,把小红的车撞了。”时,则本发明实施例对该文本进行结巴分词处理,获得的分词结果向量为[“小明”,“酒后”,“开车”,“把”,“小红”,“的”,“车”,“撞”,“了”]。
S312、对所述分词结果向量进行停用词过滤处理,获得词组向量。
其中,本发明实施例可以预先设置停用词表,停用词表中包括一个或两个以上的停用词。本发明实施例可以依据停用词表,将分词结果向量中存在的停用词删掉,获得词组向量。例如:当文本为“一旦确诊了,确诊说这个客户他是得了重大疾病了,保险公司这边拿到材料以后会就会把这个钱先行打到客户的账户上”时,经过结巴分词和停用词过滤后获得的词组向量可以为[“确诊”,“确诊”,“说”,“客户”,“重大疾病”,“保险公司”,“拿到”,“材料”,“钱”,“先行”,“打到”,“客户”,“账户”]。
S320、将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型。
可选的,如图4所示,所述场景分类模型的训练过程可以包括:
S001、获得携带有场景类别标记的训练对话文本。
其中,场景类别可以是用户根据自身需求确定的一种或多种类别。例如:训练对话文本可携带的场景类别标记可以包括沟通电学领域技术方案标记、沟通化学领域技术方案标记、沟通机械领域技术方案标记和沟通生物领域技术方案标记在内的至少一种标记。训练对话文本可携带的场景类别标记可以包括理赔告知有误标记和违禁词标记在内的至少一种标记。
S002、对所述训练对话文本进行结巴分词处理,获得训练分词结果向量。
S003、对所述训练分词结果向量进行停用词过滤处理,获得训练词组向量。
步骤S002至步骤S003与步骤S311至步骤S312的原理相同,可参考上述对步骤S311至步骤S312的说明,本发明在此不作赘述。
S004、对所述训练词组向量进行机器学习,获得场景分类模型,其中,所述场景分类模型的输入为:文本对应的词组向量,输出为:与该文本对应的场景类型。
其中,场景分类模型可以是卷积神经网络模型。本发明实施例可以对携带有场景类别标记的训练对话文本进行机器学习,将学习到的文本特征与场景类别标记对应的场景类别匹配,当需要确定某文本的场景类别时,将该文本的词组向量输入至训练好的场景分类模型中,确定该文本对应的场景类型。
S330、在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型。
其中,预设文本类型可以是在某场景类别下具体的一个或多个场景子类型。例如:当场景类型为沟通电学领域技术方案时,与该场景对应的预设文本类型可以包括电气工程、测控技术和电气自动化等。当场景类型为理赔告知有误时,该场景类型对应的预设文本类型可以包括:理赔金额错误、理赔期限错误和理赔条件错误等。本发明实施例提供包括以下三种确定文本匹配的预设文本类型的方式:
方式一:在所述场景类型对应的每种预设文本类型的词库:确定该文本是否包含该词库中的词汇,如果是,则确定该文本与该预设文本类型匹配。
本发明实施例可以对每种预设文本类型预先构建对应的词库,其中,不同预设文本类型的词库中的词汇可以不同或部分相同。本发明实施例可以根据词汇匹配的方式,查找文本中是否包含某一预设文本类型对应词库中的词汇,如果是,则确定该文本与该预设文本类型匹配。需要注意的是,在不同预设文本类型的词库中的词汇部分相同时,可以确定文本与多个预设文本类型匹配。例如:电气工程对应的词库和测控技术对应的词库都包括词汇:电路设计,当文本中出现“电路设计”时,可以确定该文本与电气工程和测控技术匹配。
可选的,预设文本类型可以是违规文本类型,违规文本类型的词库包含一个或多个违规词,当文本中出现违规词时,可以确定该文本与违规文本匹配。例如:在文本对应的场景类型为理赔告知有误时,确定该文本是否包含理赔告知有误对应的违规文本类型的词库中的违规词,如果有,则确定该文本与违规文本类型匹配。可以理解的是,当该文本不包含违规词时,确定该文本与不违规文本类型匹配。
方式二、在所述场景类型对应的每种预设文本类型的文本模板库:确定该文本与该文本模板库中各文本模板的相似度,当该文本与该文本模板库中至少一个文本模板的相似度大于预设阈值时,则确定该文本与该预设文本类型匹配。
具体的,本发明实施例可以对文本的词组向量构建Word2vec模型,得到该词组向量在预设维度上映射的向量表达。例如:当词组向量为[“拿到”,“医院”,“诊断”,“报告”,“理赔”]时,该词组向量中的各个词在预设维度上映射的向量可以依次为wordEmbedding[“拿到”]、wordEmbedding[“医院”]、wordEmbedding[“诊断”]、wordEmbedding[“报告”]和wordEmbedding[“理赔”],则该词组向量在预设维度上映射的向量表达可以为各个词在预设维度上映射的向量的加和平均:(wordEmbedding[“拿到”]+wordEmbedding[“医院”]+wordEmbedding[“诊断”]+wordEmbedding[“报告”]+wordEmbedding[“理赔”])/5。本发明实施例可以通过词组向量在预设维度上映射的向量表达与文本模板在预设维度上映射的向量表达进行余弦相似度计算,计算确定该文本与文本模板之间的相似度。
其中,预设阈值可以是用户根据实际需要确定的相似度阈值。需要注意的是,文本可以与多个文本模板的相似度均大于预设阈值,在此情况下,本发明实施例可以确定该文本与该多个文本模板对应的预设文本类型匹配。
方式三、将该文本输入该文本对应的场景类型的文本类型识别模型中,获得文本类型识别模型输出的文本类型。
其中,本发明实施例可以对每个场景类型单独训练一个文本类型识别模型。当某个文本确定场景类型后,将该文本输入至于该场景类型对应的文本类型识别模型中,确定该文本的文本类型。
其中,文本类型识别模型的训练过程可以包括:
获得携带有文本类别标记的训练对话文本;
对所述训练对话文本进行结巴分词处理,获得训练分词结果向量;
对所述训练分词结果向量进行停用词过滤处理,获得训练词组向量;
对所述训练词组向量进行机器学习,获得文本类型识别模型,其中,所述文本类型识别模型的输入为:文本对应的词组向量,输出为:与该文本对应的文本类型。
本发明实施例可以通过以上三种方式的其中一种确定文本匹配的预设文本类型。
S400、将确定的预设文本类型确定为该文本的文本类型。
本发明实施例提供的一种文本类型确定方法,可以获得待检测对话文本;通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量,将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型,在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型;将确定的预设文本类型确定为该文本的文本类型。本发明可以通过场景分类的技术手段确定对话文本的文本类型。
与上述方法实施例相对应,本发明实施例还提供一种文本类型确定装置,其结构如图5所示,可以包括:对话文本获得单元100、指定角色文本获得单元200、词组向量获得单元300、场景类型获得单元400、文本类型匹配单元500和文本类型确定单元600。
所述对话文本获得单元100,用于获得待检测对话文本。
所述指定角色文本获得单元200,用于通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本。
所述词组向量获得单元300,用于对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量。
所述场景类型获得单元400,用于将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型。
所述文本类型匹配单元500,用于在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型。
所述文本类型确定单元600,用于将确定的预设文本类型确定为该文本的文本类型。
可选的,所述对话文本获得单元100包括:对话语音获得子单元、语音识别结果获得子单元和对话文本转化子单元。
所述对话语音获得子单元,用于获得对话语音。
所述语音识别结果获得子单元,用于对所述对话语音进行语音识别,获得语音识别结果。
所述对话文本转化子单元,用于将所述语音识别结果转化为待检测对话文本。
可选的,所述词组向量获得单元300包括:分词结果向量获得子单元和词组向量获得子单元。
所述分词结果向量获得子单元,用于对该文本进行结巴分词处理,获得分词结果向量。
所述词组向量获得子单元,用于对所述分词结果向量进行停用词过滤处理,获得词组向量。
可选的,所述文本类型匹配单元500具体用于在所述场景类型对应的每种预设文本类型的词库:确定该文本是否包含该词库中的词汇,如果是,则确定该文本与该预设文本类型匹配。
可选的,所述文本类型匹配单元500具体用于在所述场景类型对应的每种预设文本类型的文本模板库:确定该文本与该文本模板库中各文本模板的相似度,当该文本与该文本模板库中至少一个文本模板的相似度大于预设阈值时,则确定该文本与该预设文本类型匹配。
可选的,所述文本类型匹配单元500具体用于将该文本输入该文本对应的场景类型的文本类型识别模型中,获得文本类型识别模型输出的文本类型。
本发明实施例提供的一种文本类型确定装置,可以获得待检测对话文本;通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量,将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型,在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型;将确定的预设文本类型确定为该文本的文本类型。本发明可以通过场景分类的技术手段确定对话文本的文本类型。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种文本类型确定方法,其特征在于,包括:
获得待检测对话文本;
通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;
对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量,将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型,在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,其中,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:在所述场景类型对应的每种预设文本类型的文本模板库:确定该文本与该文本模板库中各文本模板的相似度,当该文本与该文本模板库中至少一个文本模板的相似度大于预设阈值时,则确定该文本与该预设文本类型匹配;
将确定的预设文本类型确定为该文本的文本类型。
2.根据权利要求1所述的方法,其特征在于,所述获得待检测对话文本包括:
获得对话语音;
对所述对话语音进行语音识别,获得语音识别结果;
将所述语音识别结果转化为待检测对话文本。
3.根据权利要求1所述的方法,其特征在于,所述获得该文本对应的词组向量,包括:
对该文本进行结巴分词处理,获得分词结果向量;
对所述分词结果向量进行停用词过滤处理,获得词组向量。
4.根据权利要求1所述的方法,其特征在于,所述场景分类模型的训练过程包括:
获得携带有场景类别标记的训练对话文本;
对所述训练对话文本进行结巴分词处理,获得训练分词结果向量;
对所述训练分词结果向量进行停用词过滤处理,获得训练词组向量;
对所述训练词组向量进行机器学习,获得场景分类模型,其中,所述场景分类模型的输入为:文本对应的词组向量,输出为:与该文本对应的场景类型。
5.根据权利要求1所述的方法,其特征在于,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:
在所述场景类型对应的每种预设文本类型的词库:确定该文本是否包含该词库中的词汇,如果是,则确定该文本与该预设文本类型匹配。
6.根据权利要求1所述的方法,其特征在于,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,还包括:
将该文本输入该文本对应的场景类型的文本类型识别模型中,获得文本类型识别模型输出的文本类型。
7.一种文本类型确定装置,其特征在于,包括:对话文本获得单元、指定角色文本获得单元、词组向量获得单元、场景类型获得单元、文本类型匹配单元和文本类型确定单元,
所述对话文本获得单元,用于获得待检测对话文本;
所述指定角色文本获得单元,用于通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;
所述词组向量获得单元,用于对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量;
所述场景类型获得单元,用于将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型;
所述文本类型匹配单元,用于在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,其中,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:在所述场景类型对应的每种预设文本类型的文本模板库:确定该文本与该文本模板库中各文本模板的相似度,当该文本与该文本模板库中至少一个文本模板的相似度大于预设阈值时,则确定该文本与该预设文本类型匹配;
所述文本类型确定单元,用于将确定的预设文本类型确定为该文本的文本类型。
8.根据权利要求7所述的装置,其特征在于,所述对话文本获得单元包括:对话语音获得子单元、语音识别结果获得子单元和对话文本转化子单元,
所述对话语音获得子单元,用于获得对话语音;
所述语音识别结果获得子单元,用于对所述对话语音进行语音识别,获得语音识别结果;
所述对话文本转化子单元,用于将所述语音识别结果转化为待检测对话文本。
9.根据权利要求7所述的装置,其特征在于,所述词组向量获得单元包括:分词结果向量获得子单元和词组向量获得子单元,
所述分词结果向量获得子单元,用于对该文本进行结巴分词处理,获得分词结果向量;
所述词组向量获得子单元,用于对所述分词结果向量进行停用词过滤处理,获得词组向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911414826.1A CN111125337B (zh) | 2019-12-31 | 2019-12-31 | 一种文本类型确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911414826.1A CN111125337B (zh) | 2019-12-31 | 2019-12-31 | 一种文本类型确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111125337A CN111125337A (zh) | 2020-05-08 |
CN111125337B true CN111125337B (zh) | 2023-10-13 |
Family
ID=70506676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911414826.1A Active CN111125337B (zh) | 2019-12-31 | 2019-12-31 | 一种文本类型确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125337B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114020888A (zh) * | 2021-11-02 | 2022-02-08 | 北京百度网讯科技有限公司 | 文本生成的方法、装置、设备以及存储介质 |
CN114299957A (zh) * | 2021-11-29 | 2022-04-08 | 北京百度网讯科技有限公司 | 声纹分离方法、装置、电子设备以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1801990A (zh) * | 2004-12-13 | 2006-07-12 | 捷讯研究有限公司 | 文本消息通话的用户界面的功能性 |
CN110059161A (zh) * | 2019-04-23 | 2019-07-26 | 深圳市大众通信技术有限公司 | 一种基于文本分类技术的电话语音机器人系统 |
CN110413790A (zh) * | 2019-08-02 | 2019-11-05 | 上海云绅智能科技有限公司 | 一种场景分类方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203761B (zh) * | 2015-04-30 | 2021-07-13 | 微软技术许可有限责任公司 | 提取并显现来自数据源的用户工作属性 |
US10719507B2 (en) * | 2017-09-21 | 2020-07-21 | SayMosaic Inc. | System and method for natural language processing |
-
2019
- 2019-12-31 CN CN201911414826.1A patent/CN111125337B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1801990A (zh) * | 2004-12-13 | 2006-07-12 | 捷讯研究有限公司 | 文本消息通话的用户界面的功能性 |
CN110059161A (zh) * | 2019-04-23 | 2019-07-26 | 深圳市大众通信技术有限公司 | 一种基于文本分类技术的电话语音机器人系统 |
CN110413790A (zh) * | 2019-08-02 | 2019-11-05 | 上海云绅智能科技有限公司 | 一种场景分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111125337A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8209182B2 (en) | Emotion recognition system | |
CN111241357A (zh) | 对话训练方法、装置、系统及存储介质 | |
CN110990543A (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN108877769B (zh) | 识别方言种类的方法和装置 | |
Burkhardt et al. | Detecting anger in automated voice portal dialogs. | |
CN109545183A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN115292461B (zh) | 基于语音识别的人机交互学习方法及系统 | |
CN111145903A (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
CN111179935A (zh) | 一种语音质检的方法和设备 | |
CN111125337B (zh) | 一种文本类型确定方法及装置 | |
CN112417132A (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
US8219386B2 (en) | Arabic poetry meter identification system and method | |
CN114490947A (zh) | 基于人工智能的对话服务方法、装置、服务器及介质 | |
CN109697975B (zh) | 一种语音评价方法及装置 | |
CN112836053A (zh) | 用于工业领域的人机对话情感分析方法及系统 | |
Cole et al. | Experiments with a spoken dialogue system for taking the US census | |
CN109192201A (zh) | 基于双模型识别的语音领域命令理解方法 | |
CN110782916B (zh) | 一种多模态的投诉识别方法、装置和系统 | |
CN112017668A (zh) | 一种基于实时情感检测的智能语音对话方法、装置和系统 | |
CN107886233B (zh) | 客服的服务质量评价方法和系统 | |
Cole et al. | A prototype voice-response questionnaire for the us census. | |
CN115688758A (zh) | 一种语句意图识别方法、装置和存储介质 | |
CN109919657A (zh) | 用户需求信息的获取方法、装置、存储介质及语音设备 | |
CN116206593A (zh) | 一种语音质检方法、装置和设备 | |
CN113806475A (zh) | 信息回复方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |