CN112101003B - 语句文本的切分方法、装置、设备和计算机可读存储介质 - Google Patents
语句文本的切分方法、装置、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN112101003B CN112101003B CN202010963503.4A CN202010963503A CN112101003B CN 112101003 B CN112101003 B CN 112101003B CN 202010963503 A CN202010963503 A CN 202010963503A CN 112101003 B CN112101003 B CN 112101003B
- Authority
- CN
- China
- Prior art keywords
- sentence
- sentence text
- text
- preset
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000006243 chemical reaction Methods 0.000 claims description 41
- 238000012937 correction Methods 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 13
- 230000000295 complement effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及金融科技技术领域,公开了一种语句文本的切分方法、装置、设备和计算机可读存储介质。所述语句文本的切分方法包括:在获取第一语句文本后,对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符,其中,所述第一语句文本中的逗号以及句号转换为预设字符;确定所述预设字符在所述语句字符中的第一位置,并根据所述第一位置确定预设符号在所述第一语句文本中的第二位置,其中,所述预设符号为逗号以及句号;将所述第二位置确定为所述第一语句文本的切分点。本发明提高了人工语音智能客户系统对客户意图识别的准确性。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种语句文本的切分方法、装置、设备和计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
相比于文本客服系统,人工语音智能客服系统的成本较低。人工语音智能客服系统需要客户的输入语音,客户会用很长的一段文字语音描述客户遇到的问题。语音有可能较长,例如语音为“那个我之前我上个月找你们借了一万块钱啊那个当时办的是分十期还钱还给你们明天应该要还第一笔钱第一笔借款这个要怎么还你教一下我啊我不是很会弄主要是在哪里还啊没有头绪啊”。过长的语音句子包含了客户的多个意思,会给后续的自然语言理解带来很大的麻烦。所以在实际架构中非常有必要先对语音所识别的语句文本做语义切割,切成一段一段单一意思的短句。
目前,语句文本按照固定长度进行切分得到多个短句,这种方式会切断一个完整的语义或者一个短句中包含多个语义,导致对客户的意图识别准确性较低。
发明内容
本发明的主要目的在于提供一种语句文本的切分方法、装置、设备和计算机可读存储介质,旨在解决对客户的意图识别准确性较低的问题。
为实现上述目的,本发明提供一种语句文本的切分方法,所述语句文本的切分方法包括:
获取第一语句文本,对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符,其中,所述第一语句文本中的逗号以及句号转换为预设字符;
确定所述预设字符在所述语句字符中的第一位置,并根据所述第一位置确定预设符号在所述第一语句文本中的第二位置,其中,所述预设符号为逗号以及句号;
将所述第二位置确定为所述第一语句文本的切分点。
可选地,所述获取第一语句文本的步骤之后,还包括:
确定所述第一语句文本是否满足校正条件;
在所述第一语句文本不满足校正条件时,执行所述对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符的步骤。
可选地,所述确定所述第一语句文本是否满足校正条件的步骤之后,还包括:
在所述第一语句文本满足校正条件时,将所述第一语句文本发送至各个终端;
接收各个所述终端反馈的第二语句文本,并将相同的第二语句文本确定为目标语句文本,其中,所述第二语句文本为重新标注预设符号的所述第一语句文本;
对所述目标语句文本进行转换得到所述目标语句文本对应的语句字符,并确定所述预设字符在所述目标语句文本对应的语句字符中的第三位置;
根据所述第三位置确定预设符号在所述目标语句文本中的第四位置,并将所述第四位置确定为所述目标语句文本的切分点。
可选地,所述校正条件包括以下至少一种:
所述第一语句文本的属性为预设属性,所述属性包括转换第一语句文本的语音数据的类型及/或所述第一语句文本的来源;
所述第一语句文本中预设符号的数量小于预设数量。
可选地,所述对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符的步骤包括:
确定所述第一语句文本对应的向量;
对所述向量进行特征提取得到所述第一语句文本中文字以及符号对应的特征值;
根据各个所述特征值确定所述第一语句文本对应的语句字符。
可选地,所述对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符的步骤包括:
根据转换模型对所述第一语句文本进行转换,得到所述第一语句文本对应的语句字符。
可选地,所述根据转化模型对所述第一语句文本进行转换,得到所述第一语句文本对应的语句字符的步骤包括:
裁剪或补全所述第一语句文本,以使所述第一语句文本的长度为预设长度;
对预设长度的第一语句文本的句首设置句首标签,且对预设长度的第一语句文本的句尾设置句尾标签,得到第三语句文本;
将所述第三语句文本输入转换模型,得到所述转换模型输出的所述语句字符。
可选地,所述将所述第二位置确定为所述第一语句文本确定为切分点的步骤之后,还包括:
对所述第一语句文本的切分点进行标记,以得到第四语句文本;
将各个所述第四语句文本作为训练样本,并根据各个所述训练样本对预设模型进行训练得到语句切分模型。
为实现上述目的,本发明还提供一种语句文本的切分装置,所述语句文本的切分装置包括:
转换模块,用于获取第一语句文本,对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符,其中,所述第一语句文本中的逗号以及句号转换为预设字符;
确定模块,用于确定所述预设字符在所述语句字符中的第一位置,并根据所述第一位置确定预设符号在所述第一语句文本中的第二位置,其中,所述预设符号为逗号以及句号;
所述确定模块,还用于将所述第二位置确定为所述第一语句文本的切分点。
为实现上述目的,本发明还提供一种语句文本的切分设备,所述语句文本的切分设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的切分程序,所述切分程序被所述处理器执行时实现如上所述的语句文本的切分方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有切分程序,所述切分程序被处理器执行时实现如上所述的计算机可读存储方法的步骤。
本发明提供一种语句文本的切分方法、装置、设备和计算机可读存储介质,语句文本的切分装置在获取到语句文本后,对语句文本进行转换得到语句文本对应的语句字符,且语句文本中的逗号以及句号转换为预设字符,装置再确定预设字符在语句字符中的第一位置,并根据第一位置确定句号以及逗号在文本语句中的第二位置,最后将第二位置作为切分点。本发明通过将语句文本中的句号以及逗号转换为预设字符,以识别出预设字符的位置,从而根据预设字符的位置确定句号以及逗号在文本语句中的位置,进而将逗号以及句号的位置作为切分点,以供装置根据切分点对语句文本进行切分,也即相对于现有技术中语句文本按照固定长度进行切分导致完整的语义被切断或切分的短句包含多个语义,本发明根据切分点对语句文本进行切分得到短句仅包括一个完整的语义,提高了人工语音智能客户系统对客户意图识别的准确性。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的语句文本的切分装置/设备的硬件结构示意图;
图2为本发明语句文本的切分方法第一实施例的流程示意图;
图3为本发明语句文本的切分方法第二实施例的流程示意图;
图4为本发明语句文本的切分方法第三实施例的流程示意图;
图5为本发明语句文本的切分方法第四实施例的流程示意图;
图6为本发明语句文本的切分装置的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及语句文本的切分装置或语句文本的切分设备的硬件运行环境的硬件结构示意图。
如图1所示,语句文本的切分设备/语句文本的切分装置可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端的结构并不构成对语句文本的切分装置或语句文本的切分设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及切分程序。
在图1所示的语句文本的切分装置或语句文本的切分设备中,网络接口1004主要用于连接后台服务端,与后台服务端进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的切分程序,并执行以下操作:
在获取第一语句文本后,对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符,其中,所述第一语句文本中的逗号以及句号转换为预设字符;
确定所述预设字符在所述语句字符中的第一位置,并根据所述第一位置确定预设符号在所述第一语句文本中的第二位置,其中,所述预设符号为逗号以及句号;
将所述第二位置确定为所述第一语句文本的切分点。
在一实施例中,处理器1001可以调用存储器1005中存储的切分程序,还执行以下操作:
确定所述第一语句文本是否满足校正条件;
在所述第一语句文本不满足校正条件时,执行所述对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符的步骤。
在一实施例中,处理器1001可以调用存储器1005中存储的切分程序,还执行以下操作:
在所述第一语句文本满足校正条件时,将所述第一语句文本发送至各个终端;
接收各个所述终端反馈的第二语句文本,并将相同的第二语句文本确定为目标语句文本,其中,所述第二语句文本为重新标注预设符号的所述第一语句文本;
对所述目标语句文本进行转换得到所述目标语句文本对应的语句字符,并确定所述预设字符在所述目标语句文本对应的语句字符中的第三位置;
根据所述第三位置确定预设符号在所述目标语句文本中的第四位置,并将所述第四位置确定为所述目标语句文本的切分点。
在一实施例中,处理器1001可以调用存储器1005中存储的切分程序,还执行以下操作:
所述第一语句文本的属性为预设属性,所述属性包括转换第一语句文本的语音数据的类型及/或所述第一语句文本的来源;
所述第一语句文本中预设符号的数量小于预设数量。
在一实施例中,处理器1001可以调用存储器1005中存储的切分程序,还执行以下操作:
确定所述第一语句文本对应的向量;
对所述向量进行特征提取得到所述第一语句文本中文字以及符号对应的特征值;
根据各个所述特征值确定所述第一语句文本对应的语句字符。
在一实施例中,处理器1001可以调用存储器1005中存储的切分程序,还执行以下操作:
根据转换模型对所述第一语句文本进行转换,得到所述第一语句文本对应的语句字符。
在一实施例中,处理器1001可以调用存储器1005中存储的切分程序,还执行以下操作:
裁剪或补全所述第一语句文本,以使所述第一语句文本的长度为预设长度;
对预设长度的第一语句文本的句首设置句首标签,且对预设长度的第一语句文本的句尾设置句尾标签,得到第三语句文本;
将所述第三语句文本输入转换模型,得到所述转换模型输出的所述语句字符。
在一实施例中,处理器1001可以调用存储器1005中存储的切分程序,还执行以下操作:
对所述第一语句文本的切分点进行标记,得到第四语句文本;
将各个所述第四语句文本作为训练样本,并根据各个所述训练样本对预设模型进行训练得到语句切分模型。
基于上述语句文本的切分装置/语句文本的切分设备的硬件结构,提出本发明语句文本的切分方法的各实施例。
本发明提供一种语句文本的切分方法。
参照图2,图2为本发明语句文本的切分方法第一实施例,所述语句文本的切分方法包括:
步骤S10,在获取第一语句文本后,对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符,其中,所述第一语句文本中的逗号以及句号转换为预设字符;
在本实施中,执行主体为语句文本的切分装置,为了便于描述,以下采用装置指代语句文本的切分装置。装置可以获取第一语句文本。第一语句文本可以是文学作品或者新闻文本中的长句构成的文本,第一语句文本还可以是录音数据或者语音数据转换得到的文本。
装置在得到第一语句文本后,对第一语句文本进行转换得到第一语句文本对应的语句字符。语句字符可以理解为:第一语句文本中每个文字以及每个标点转换为对应的字符所构成的字符串。
具体的,装置中存储有文字与字符的第一映射关系、标点符号与字符的第二映射关系。装置根据第一映射关系以及第二映射关系将语句文本中的每个文字以及每个标点符号转换为对应的字符,各个字符按照转换时间从早到晚进行排序得到语句字符,越接近于语句文本的句首的文字或者标点符号,文字或标点符号的转换时间越早。第二映射关系可以是预设符号与字符之间的映射关系,预设字符可以为句号以及逗号。本实施例中仅考虑语句文本的切分,因此,不同预设符号对应的字符可相同,且不同文字对应的字符也可相同。例如,句号以及逗号对应的字符均为1,不同的文字对应的字符均为0。
步骤S20,确定所述预设字符在所述语句字符中的第一位置,并根据所述第一位置确定预设符号在所述第一语句文本中的第二位置,其中,所述预设符号为逗号以及句号;
装置在确定语句字符后,对语句字符中的预设字符进行识别。例如,预设字符为1,则对语句字符中的字符1进行识别。装置再确定预设字符在语句字符中的第一位置。预设字符的第一位置对应于预设符号在第一语句文本中的第二位置,因而装置可以根据第一位置确定预设符号在第一语句文本中的第二位置。预设符号为逗号以及句号。
具体的,语句字符中每个字符具有对应的序号,序号通过语句文本中文字以及符号转换字符的转换时间排序得到,排序方式可以是按照转换时间从早到晚进行排序。语句文本中的每个文字以及字符也具有对应的序号,序号指的是语句文本中文字或者符号所在的列。第一位置对应一个预设字符,因此,第一位置也具有对应的序号。逗号以及句号在语句文本中的列,因此,作为预设符号的逗号以及句号在语句文本的第二位置也具有序号。
而语句文本中的每个文字以及每个符号均转换为对应的字符,因此,预设字符在语句字符的第一位置对应的序号实际上与预设符号在语句文本中的第二位置的序号是相同的,因而装置可以根据第一位置确定预设符号在语句文本中的第二位置。
例如,第一语句文本为:“每个人都会经历这个阶段,看见一座山,就想知道山后面是什么。我很想告诉他,可能翻过去山后面,你会发觉没有什么特别,回头看会觉得这边更好。”,第一语句文本对应的语句字符为0000000000010000100000000010000010000000100000000010000000001,第一位置即为语句字符中的左数的第12个位置、第17个位置、第27个位置、第33个位置、第41个位置、第51个位置以及第61个位置,对应的,第二位置即为第一文本语句中的12个位置、第17个位置、第27个位置、第33个位置、第41个位置、第51个位置以及第61个位置。
步骤S30,将所述第二位置确定为所述第一语句文本的切分点。
装置在确定第二位置后,将每个第二位置作为切分点,也即将第一语句文本中的每个句号以及逗号作为切分点,再对切分点进行切分,从而将第一语句文本切分为多个短句,使得每个短句仅含有一个完整的语义。
此外,装置在确定第一语句文本的第二位置后,将各个第二位置确定为切分点,确定为切分点的方式可以是对第二位置进行标记,并将标记的第二位置的第一语句文本作为标签(标记有标签的第一语句文本可为第四语句文本)。装置再将各个标记有标签的第一语句文本作为训练样本,最后根据各个训练样本对预设模型进行训练得到语句切分模型。语句切分模型可以放置于人工语音智能客户系统中自然语言理解流程的靠前位置,人工语音智能客户系统再获取到语句文本后,将语句文本输入值语句切分模型中,得到切分后的各个短句片段,再将各个短句片段进行后续的自然语言处理,从而识别出客户的意图。
在本实施例提供的技术方案中,语句文本的切分装置在获取到语句文本后,对语句文本进行转换得到语句文本对应的语句字符,且语句文本中的逗号以及句号转换为预设字符,装置再确定预设字符在语句字符中的第一位置,并根据第一位置确定句号以及逗号在文本语句中的第二位置,最后将第二位置作为切分点。本发明通过将语句文本中的句号以及逗号转换为预设字符,以识别出预设字符的位置,从而根据预设字符的位置确定句号以及逗号在文本语句中的位置,进而将逗号以及句号的位置作为切分点,以供装置根据切分点对语句文本进行切分,也即相对于现有技术中语句文本按照固定长度进行切分导致完整的语义被切断或切分的短句包含多个语义,本发明根据切分点对语句文本进行切分得到短句仅包括一个完整的语义,提高了人工语音智能客户系统对客户意图识别的准确性。
参照图3,图3为本发明语句文本的切分方法的第二实施例,基于第一实施例,所述语句文本的切分方法还包括:
步骤S40,获取第一语句文本,确定所述第一语句文本是否满足校正条件;
步骤S50,在所述第一语句文本不满足校正条件时,执行所述对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符的步骤;
步骤S60,在所述第一语句文本满足校正条件时,将所述第一语句文本发送至各个终端;
步骤S70,接收各个所述终端反馈的第二语句文本,并将相同的第二语句文本确定为目标语句文本,其中,所述第二语句文本为重新标注预设符号的所述第一语句文本;
步骤S80,对所述目标语句文本进行转换得到所述目标语句文本对应的语句字符,并确定所述预设字符在所述目标语句文本对应的语句字符中的第一位置;
步骤S90,据所述第一位置确定预设符号在所述目标语句文本中的第三位置,并将所述第三位置确定为所述目标语句文本的切分点。
在本实施例中,第一语句文本可能是文学作品或新闻文本中的句子,此种情况下,第一语句文本中的逗号以及句号是正确的断句符号,也即不存在对第一语句文本中的断句存在疑虑。第一语句文本还可能是特定领域的训练数据,例如,金融领域的客服产品的语句文本;此种情况下,不同客服对语句文本的断句方式不同。此外,第一语句文本还可能是录音数据或者语音数据转换的文本,第一语句文本中并未有标点符号。可以理解的是,某些语句文本需要重新标注逗号以及句号进行完整语义的断句,某些语句文本则无需重新批注逗号以及句号。对此,为需要重新标注预设符号(逗号以及句号)的语句文本设置校正条件,也即第一语句文本在满足校正条件时,需要对第一语句文本进行句号以及逗号的重新标注;若第一语句文本不满足校正条件,则无需对其标注预设符号。
校正条件包括第一语句文本的属性为预设属性、第一语句文本中预设符号的数量小于预设数量中的至少一种。属性包括转换第一语句文本的语音数据的类型以及第一语句文本的来源中的至少一个。预设属性为转换语句文本的数量为录音数据以及语音数据中的至少一个,语句文本的来源为特性领域的数据(特定领域可为金融领域)也可视为预设属性。可以理解的是,在当转换为第一语句文本的语音数据为录音数据时,判定第一语音文本满足校正条件;若第一语句文本中的句号以及逗号的总数量小于预设数量,判定第一语句文本满足校正条件;若第一语音文本的来源为特定领域时,判定第一语音文本满足校正条件。预设数量可为任意合数的数值,例如预设数量为零,或者预设数量可为2。
装置在确定第一语句文本不满足校正条件,则直接对第一语句文本进行转换得到第一语句文本对应的语句字符,也即执行步骤S10-步骤S30。
若第一语句文本满足校正条件,则将第一语句文本发送至各个终端。各个终端可以为预设终端,预设终端的用户即为校正人员,校正人员对第一语句文本进行逗号以及句号的重新批注得到第二语句文本。装置接收到各个终端反馈的第二语句文本,装置再从各个第二语句文本中确定相同的第二语句文本,相同的第二语句文本即可视为相同批注的逗号以及句号的语句文本,也即为多数人所认同的语句文本的断句方式。装置将相同的第二语句文本作为目标语句文本,再对目标语句文本进行转换得到目标语句文本对应的语句字符,然后,装置确定预设字符在目标语句文本对应的语句字符中的第三位置,再根据第三位置确定预设符号在目标语句文本中的第四位置,最后将第四位置确定为目标语句文本的切分点。第三位置以及第四位置的确定参照第一位置以及第二位置的确定,在此不再进行赘述。
在本实施例提供的技术方案中,装置在得到第一语句文本后,判断第一语句文本是否满足校正条件,从而根据校正条件准确的确定语句文本的切分点。
参照图4,图4为本发明语句文本的切分方法的第三实施例,基于第一或第二实施例,所述步骤S10包括:
步骤S11,确定所述第一语句文本对应的向量;
步骤S12,对所述向量进行特征提取得到所述第一语句文本中文字以及符号对应的特征值;
步骤S13,根据各个所述特征值确定所述第一语句文本对应的语句字符。
在本实施例中,装置可将第一语句文本转化为向量表示,也即第一语句文本转换为向量。装置对向量进行特征提取,从而得到各个特征值,每个特征值表征语句文本中的文字或符号。符号即为标点符号,也即一个特征值对应一个文字或者标点符号,向量进行特征提取,即可得到第一语句文本中文字以及符号对应的特征值。装置根据将各个特征值按照提取时间从早到晚进行排序即可得到由特征值构成的语句字符。例如,特征值为1时,表征该特征值对应的是逗号或者句号。
在本实施例提供的技术方案中,装置通过向量表示第一语句文本,再对向量进行特征提取,从而得到各个特征值,最后根据各个特征值准确的得到第一语句文本对应的语句字符。
参照图5,图5为本发明语句文本的切分方法的第四实施例,基于第一至第三种任一实施例,所述步骤S10包括:
步骤S14,在获取第一语句文本后,根据转换模型对所述第一语句文本进行转换,得到所述第一语句文本对应的语句字符。
在本实施例中,装置中可以包括转换模型,转换模型可包括BERT(BidirectionalEncoder Representations from Transformers)模型。装置将第一语句文本输入至转换模型中,得到第一语句文本对应的向量,再将向量输入转换模型的双层双向的神经网络LSTM(Long Short-Term Memory,时间循环神经网络)进行提取特征,得到第一语句文本的各个特征向量,各个特征向量再经过CRF层得到各个特征值,转换模型再将各个特征值构成语句字符,再将语句字符输出,使得装置得到语句字符。转换模型可为BERT+LSTM+CRF,或者,BERT+Pointer Net。
进一步的,转换模型需要对语句文本进行转换,语句文本的长度不同的话,转换模型需要不断调整参数以适应语句文本的长度。对此,装置裁剪或补全第一语句文本,使得第一语句文本的长度为预设长度,也即对超过预设长度的第一语句文本进行裁剪,对未超过预设长度的第一语句文本进行补全。装置再对预设长度的第一语句文本设置句首标签,例如,将CLS作为句首标签;且对预设长度的第一语句文本设置句尾标签,从而得到第三语句文本,例如,将SEP作为句尾标签。装置再将第三语句文本输入转换模型从而得到转换模型输出的语句字符。通过对预设长度的第一语句文本设置句首标签以及句尾标签,使得转换模型在同时对大量的语句文本进行转换时,能够将各个语句文本进行区分。
在本实施例提供的技术方案中,装置根据转换模型对第一语句文本进行转换,从而快速得到第一语句文本对应的语句字符。
本发明还提供一种语句文本的切分装置。
参照图6,图6为本发明语句文本的切分装置的功能模块示意图。
如图6所示,所述音频识别设备包括:
转换模块10,用于获取第一语句文本,对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符,其中,所述第一语句文本中的逗号以及句号转换为预设字符;
确定模块20,用于确定所述预设字符在所述语句字符中的第一位置,并根据所述第一位置确定预设符号在所述第一语句文本中的第二位置,其中,所述预设符号为逗号以及句号;
确定模块20,用于将所述第二位置确定为所述第一语句文本的切分点。
在一实施例中,语句文本的切分装置还包括:
确定模块20,用于确定所述第一语句文本是否满足校正条件;
执行模块,用于在所述第一语句文本不满足校正条件时,执行所述对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符的步骤。
在一实施例中,所述语句文本的切分装置还包括:
发送模块,用于在所述第一语句文本满足校正条件时,将所述第一语句文本发送至各个终端;
接收模块,用于接收各个所述终端反馈的第二语句文本,并将相同的第二语句文本确定为目标语句文本,其中,所述第二语句文本为重新标注预设符号的所述第一语句文本;
转换模块10,用于对所述目标语句文本进行转换得到所述目标语句文本对应的语句字符,并确定所述预设字符在所述目标语句文本对应的语句字符中的第三位置;
确定模块20,用于根据所述第三位置确定预设符号在所述目标语句文本中的第四位置,并将所述第四位置确定为所述目标语句文本的切分点。
在一实施例中,所述语句文本的切分装置还包括:
确定模块20,用于确定所述第一语句文本对应的向量;
提取模块,用于对所述向量进行特征提取得到所述第一语句文本中文字以及符号对应的特征值;
确定模块20,用于根据各个所述特征值确定所述第一语句文本对应的语句字符。
在一实施例中,所述语句文本的切分装置还包括:
转换模块10,用于根据转换模型对所述第一语句文本进行转换,得到所述第一语句文本对应的语句字符。
在一实施例中,所述语句文本的切分装置还包括:
修改模块,用于裁剪或补全所述第一语句文本,以使所述第一语句文本的长度为预设长度;
设置模块,用于对预设长度的第一语句文本的句首设置句首标签,且对预设长度的第一语句文本的句尾设置句尾标签,得到第三语句文本;
输入模块,用于将所述第三语句文本输入转换模型,得到所述转换模型输出的所述语句字符。
在一实施例中,所述语句文本的切分装置还包括:
标记模块,用于对所述第一语句文本的切分点进行标记,以得到第四语句文本;
训练模块,用于将各个所述第四语句文本作为训练样本,并根据各个所述训练样本对预设模型进行训练得到语句切分模型。
其中,上述语句文本的切分装置中各个模块的功能实现与上述语句文本的切分方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有切分程序,所述切分程序被处理器执行时实现如以上任一项实施例所述的语句文本的切分方法的步骤。
本发明计算机可读存储介质的具体实施例与上述语句文本的切分方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种语句文本的切分方法,其特征在于,所述语句文本的切分方法包括:
获取第一语句文本,对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符,其中,所述第一语句文本中的逗号以及句号转换为预设字符;
确定所述预设字符在所述语句字符中的第一位置,并根据所述第一位置确定预设符号在所述第一语句文本中的第二位置,其中,所述预设符号为逗号以及句号;
将所述第二位置确定为所述第一语句文本的切分点,对所述切分点进行切分,以将所述第一语句文本切分为多个短句,使得每个短句含有一个完整的语义;
所述对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符的步骤,包括:
裁剪或补全所述第一语句文本,以使所述第一语句文本的长度为预设长度;
对预设长度的第一语句文本的句首设置句首标签,且对预设长度的第一语句文本的句尾设置句尾标签,得到第三语句文本;
将所述第三语句文本输入转换模型,得到所述转换模型输出的所述语句字符,其中,所述转换模型包括BERT模型,所述句首标签为CLS,所述句尾标签为SEP。
2.如权利要求1所述的语句文本的切分方法,其特征在于,所述获取第一语句文本的步骤之后,还包括:
确定所述第一语句文本是否满足校正条件;
在所述第一语句文本不满足校正条件时,执行所述对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符的步骤。
3.如权利要求2所述的语句文本的切分方法,其特征在于,所述确定所述第一语句文本是否满足校正条件的步骤之后,还包括:
在所述第一语句文本满足校正条件时,将所述第一语句文本发送至各个终端;
接收各个所述终端反馈的第二语句文本,并将相同的第二语句文本确定为目标语句文本,其中,所述第二语句文本为重新标注预设符号的所述第一语句文本;
对所述目标语句文本进行转换得到所述目标语句文本对应的语句字符,并确定所述预设字符在所述目标语句文本对应的语句字符中的第三位置;
根据所述第三位置确定预设符号在所述目标语句文本中的第四位置,并将所述第四位置确定为所述目标语句文本的切分点。
4.如权利要求2所述的语句文本的切分方法,其特征在于,所述校正条件包括以下至少一种:
所述第一语句文本的属性为预设属性,所述属性包括转换第一语句文本的语音数据的类型及/或所述第一语句文本的来源;
所述第一语句文本中预设符号的数量小于预设数量。
5.如权利要求1-4任一项所述的语句文本的切分方法,其特征在于,所述对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符的步骤包括:
确定所述第一语句文本对应的向量;
对所述向量进行特征提取得到所述第一语句文本中文字以及符号对应的特征值;
根据各个所述特征值确定所述第一语句文本对应的语句字符。
6.如权利要求1-4任一项所述的语句文本的切分方法,其特征在于,所述将所述第二位置确定为所述第一语句文本确定为切分点的步骤之后,还包括:
对所述第一语句文本的切分点进行标记,以得到第四语句文本;
将各个所述第四语句文本作为训练样本,并根据各个所述训练样本对预设模型进行训练得到语句切分模型。
7.一种语句文本的切分装置,其特征在于,所述语句文本的切分装置包括:
转换模块,用于获取第一语句文本,对所述第一语句文本进行转换得到所述第一语句文本对应的语句字符,其中,所述第一语句文本中的逗号以及句号转换为预设字符;
确定模块,用于确定所述预设字符在所述语句字符中的第一位置,并根据所述第一位置确定预设符号在所述第一语句文本中的第二位置,其中,所述预设符号为逗号以及句号;
所述确定模块,还用于将所述第二位置确定为所述第一语句文本的切分点,对所述切分点进行切分,以将所述第一语句文本切分为多个短句,使得每个短句含有一个完整的语义;
所述转换模块,还用于裁剪或补全所述第一语句文本,以使所述第一语句文本的长度为预设长度;
所述转换模块,还用于对预设长度的第一语句文本的句首设置句首标签,且对预设长度的第一语句文本的句尾设置句尾标签,得到第三语句文本;
所述转换模块,还用于将所述第三语句文本输入转换模型,得到所述转换模型输出的所述语句字符,其中,所述转换模型包括BERT模型,所述句首标签为CLS,所述句尾标签为SEP。
8.一种语句文本的切分设备,其特征在于,所述语句文本的切分设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的切分程序,所述切分程序被所述处理器执行时实现如权利要求1至6中任一项所述的语句文本的切分方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有切分程序,所述切分程序被处理器执行时实现如权利要求1至6中任一项所述的计算机可读存储方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010963503.4A CN112101003B (zh) | 2020-09-14 | 2020-09-14 | 语句文本的切分方法、装置、设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010963503.4A CN112101003B (zh) | 2020-09-14 | 2020-09-14 | 语句文本的切分方法、装置、设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101003A CN112101003A (zh) | 2020-12-18 |
CN112101003B true CN112101003B (zh) | 2023-03-14 |
Family
ID=73750972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010963503.4A Active CN112101003B (zh) | 2020-09-14 | 2020-09-14 | 语句文本的切分方法、装置、设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101003B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926302A (zh) * | 2021-02-05 | 2021-06-08 | 北京华宇信息技术有限公司 | 语音识别文本的断句与标点预测方法及其装置、存储介质 |
CN113486172B (zh) * | 2021-07-12 | 2025-05-30 | 北京小米移动软件有限公司 | 文本摘要生成方法、装置及存储介质 |
CN114051154A (zh) * | 2021-11-05 | 2022-02-15 | 新华智云科技有限公司 | 一种新闻视频拆条方法和系统 |
CN114265918B (zh) * | 2021-12-01 | 2024-08-23 | 北京捷通华声科技股份有限公司 | 文本切分方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108766437A (zh) * | 2018-05-31 | 2018-11-06 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN108831481A (zh) * | 2018-08-01 | 2018-11-16 | 平安科技(深圳)有限公司 | 语音识别中符号添加方法、装置、计算机设备及存储介质 |
CN111090981A (zh) * | 2019-12-06 | 2020-05-01 | 中国人民解放军战略支援部队信息工程大学 | 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统 |
CN111339750A (zh) * | 2020-02-24 | 2020-06-26 | 网经科技(苏州)有限公司 | 去除停用语并预测句子边界的口语文本处理方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259176A (ja) * | 1999-03-08 | 2000-09-22 | Nippon Hoso Kyokai <Nhk> | 音声認識装置およびその記録媒体 |
CN110264997A (zh) * | 2019-05-30 | 2019-09-20 | 北京百度网讯科技有限公司 | 语音断句的方法、装置和存储介质 |
-
2020
- 2020-09-14 CN CN202010963503.4A patent/CN112101003B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108766437A (zh) * | 2018-05-31 | 2018-11-06 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN108831481A (zh) * | 2018-08-01 | 2018-11-16 | 平安科技(深圳)有限公司 | 语音识别中符号添加方法、装置、计算机设备及存储介质 |
CN111090981A (zh) * | 2019-12-06 | 2020-05-01 | 中国人民解放军战略支援部队信息工程大学 | 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统 |
CN111339750A (zh) * | 2020-02-24 | 2020-06-26 | 网经科技(苏州)有限公司 | 去除停用语并预测句子边界的口语文本处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112101003A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112101003B (zh) | 语句文本的切分方法、装置、设备和计算机可读存储介质 | |
CN113807098B (zh) | 模型训练方法和装置、电子设备以及存储介质 | |
WO2019184217A1 (zh) | 热点事件分类方法、装置及存储介质 | |
CN109685056B (zh) | 获取文档信息的方法及装置 | |
JP2020030408A (ja) | オーディオにおける重要語句を認識するための方法、装置、機器及び媒体 | |
CN110597994A (zh) | 事件元素识别方法和装置 | |
CN112700769B (zh) | 一种语义理解方法、装置、设备以及计算机可读存储介质 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN112699645B (zh) | 语料标注方法、装置及设备 | |
CN114461665B (zh) | 用于生成语句转换模型的方法、装置及计算机程序产品 | |
CN116108857B (zh) | 信息抽取方法、装置、电子设备以及存储介质 | |
CN115099239B (zh) | 一种资源识别方法、装置、设备以及存储介质 | |
US11989500B2 (en) | Framework agnostic summarization of multi-channel communication | |
CN113051380A (zh) | 信息生成方法、装置、电子设备和存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN110516203B (zh) | 争议焦点分析方法、装置、电子设备及计算机可存储介质 | |
CN112669850A (zh) | 语音质量检测方法、装置、计算机设备及存储介质 | |
CN116863495A (zh) | 意图识别方法、装置、电子设备、存储介质 | |
CN114528851A (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN114528840A (zh) | 融合上下文信息的中文实体识别方法、终端及存储介质 | |
CN116644183A (zh) | 文本分类方法、装置及存储介质 | |
CN113850291A (zh) | 文本处理及模型训练方法、装置、设备和存储介质 | |
CN118736057A (zh) | 图形生成方法、装置、设备以及存储介质 | |
CN114880498B (zh) | 事件信息展示方法及装置、设备和介质 | |
JP2022126815A (ja) | 表示方法、表示装置、電子機器、記憶媒体およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |