CN110096705A - 一种无监督的英文句子自动简化算法 - Google Patents
一种无监督的英文句子自动简化算法 Download PDFInfo
- Publication number
- CN110096705A CN110096705A CN201910354246.1A CN201910354246A CN110096705A CN 110096705 A CN110096705 A CN 110096705A CN 201910354246 A CN201910354246 A CN 201910354246A CN 110096705 A CN110096705 A CN 110096705A
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- algorithm
- complex
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims 5
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000011109 contamination Methods 0.000 claims 1
- 239000000203 mixture Substances 0.000 claims 1
- 239000004576 sand Substances 0.000 claims 1
- 230000008569 process Effects 0.000 description 4
- 230000001149 cognitive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了互联网领域内的一种无监督的英文句子自动简化算法,按如下步骤进行:步骤1、训练词的向量表示;步骤2、获取词的频率;步骤3、分别获取简化句子集合和复杂句子集合;步骤4、填充短语表;步骤5、分别训练简化句子语言模型和复杂句子语言模型;步骤6、构建基于短语的句子简化模型;步骤7、迭代执行回译的策略,训练更优的句子简化模型,本发明在没有利用任何标注的并行语料,充分利用英文维基百科语料,有效提高了英文句子简化的准确性。
Description
技术领域
本发明涉及一种互联网文本算法,特别涉及一种无监督的英文句子自动简化算法。
背景技术
近年来,互联网上的文本资料向更广泛的用户提供了很多有用的知识和信息。然后,对于许多人来说,网上文本的撰写方式,如词汇和句法结果,可能难以阅读和理解,特别是对那些识字率低、认知或语言障碍、或者文本语言知识有限的人。包含非常用词或长而复杂句子的文本不仅很难被人们阅读和理解,也同样很难被机器进行分析。自动文本简化是在保留原有文本信息的情况下,尽可能简化原有文本的内容,从而达到更容易被更广泛的观众阅读和理解。
现有的文本简化算法利用机器翻译的算法,从一种语言下的复杂句子和简化句子的并行语料对中学习简化句子。这种文本简化算法是一种有监督的学习任务,它的有效性严重依赖大量的并行简化语料。可是,现在已有的英文并行简化语料主要是从普通英语的维基百科和儿童版的英语维基百科中获取,通过匹配算法分别两个不同维基百科中选择句子作为并行句子对。目前能够获取的并行简化语料,不仅数量少,而且包含很多非简化的句子对和错误的句子对,主要因为儿童版的维基百科由非专业人士编写,并不是和普通的维基百科一一对应,导致很难选择合适的句子匹配算法。因为简化并行语料的问题,导致已有文本简化算法效果并不是很理想。
发明内容
本发明的目的是提供一种无监督的英文句子自动简化算法,在无需要任何并行简化语料,只利用公开下载的维基百科语料,实现对英文句子的自动简化,从而能让用户更容易阅读和理解英文句子,特别是认知或者语言障碍的人。
本发明的目的是这样实现的:一种无监督的英文句子自动简化算法,按如下步骤进行:
步骤1、把公开的英文维基百科语料库D作为训练语料,采用词嵌入算法Word2vec获取词语t的向量表示vt;通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征;采用Skip-Gram模型学习词嵌入算法Word2vec;给定语料库D和词语t,考虑一个以t为中心的滑动窗口,用Wt表示出现在t上下文窗口中的词语集合;观察上下文词语集合的对数概率定义如下:
式(1)中,v'w是词语w的上下文向量表示,V是D的词汇表;然后,Skig-Gram的整体目标函数被定义如下:
式(2)中,词的向量表示可以通过最大化该目标函数进行学习;
步骤2、利用维基百科语料D,统计每个词语t的频率f(t),f(t)表示词语t在D中的出现次数;
步骤3、利用维基百科语料D,获取简化句子集合S和复杂句子集合C;
步骤4、利用词的向量表示和词的频率,填充表示词翻译为另一个词语概率的短语表PT(Phrase Table);在PT中,词语ti到词语tj的翻译概率p(tj|ti)的计算公式如下:
式(4)中,cos表示余弦相似度计算公式;
步骤5、针对简化句子集合S和复杂句子集合C,分别采用语言模型KenLM算法进行训练,获取简化语言模型LMS和复杂语言模型LMC;LMS和LMC在后面的迭代学习过程中保持不变;
步骤6、利用短语表PT、简化语言模型LMS和复杂语言模型LMC,采用基于短语的机器翻译算法PBMT(Phrased-based Machine Translation),构建复杂句子到简化句子的简化算法给定复杂句子c,算法利用式(5),分别计算不同词的组合组成的句子s的得分,最后选择得分做高的句子s’将作为简化句子:
s'=argmaxsp(c|s)p(s) (5)
式(5)中,PBMT算法分解p(c|s)作为短语表PT的内积,p(s)是句子s的概率,是从语言模型LMS获得;
步骤7、利用初始的PBMT算法迭代执行回译(Back-translation)的策略,生成更优的文本简化算法。
作为本发明的进一步限定,步骤3具体包括:
步骤3.1、针对维基百科语料D中的每个句子s,采用Flesch Reading Ease(FRE)算法进行打分,如式(3),并按分值从高到低进行排序;
式(3)中,FRE(s)表示句子s的FRE得分,tw(s)表示句子s中所有词的数目,ts(s)表示句子s中所有音节的数目;
步骤3.2、去除得分超过100的句子集合,去除得到低于20分的句子集合,去除中间得分的句子集合;最后,选择高得分的句子集合作为简化句子集合S和低得分的句子集合作为复杂句子集合C。
作为本发明的进一步限定,所述步骤7具体包括:
步骤7.1、首先利用算法,翻译复杂句子集合C,得到新的合成的简化句子集合S0,然后,循环执行步骤7.2到7.5,迭代次数i从1到N;
步骤7.2、利用合成的并行语料(Si-1,C)、简化语言模型LMS和复杂语言模型LMC,训练新的从简化句子到复杂句子的PBMT算法
步骤7.3、利用翻译简化句子集合S,得到新的合成的复杂句子集合Ci;
步骤7.4、利用合成的并行语料(Ci,S)、简化语言模型LMC和复杂语言模型LMS,训练新的从复杂句子到简化句子的PBMT算法
步骤7.5、利用翻译复杂句子集合C,得到新的合成的简化句子集合Si;重新回到步骤7.2重复执行,直到迭代N次。
与现有技术相比,本发明的有益效果在于:
1、本发明在填充短语表的过程中,结合了从维基百科语料中获取的词向量表示和词频率,能够抓住词语的语义信息和词语的使用频率,克服了传统的基于短语的机器翻译PBMT算法需要利用并行语料填充短语表;
2、本发明将维基百科语料库作为知识库,利用Flesch Reading Ease(FRE)算法对句子进行打分,从而获取简化句子集合和复杂句子集合,从而能够更为准确的训练复杂句子语言模型和简化句子语言模型;
3、本发明利用获得的短语表、复杂句子语言模型和简化句子语言模型,基于PBMT算法构建了初始的无监督的文本简化算法;该文本简化算法不仅是无监督的算法,更是简单、容易解释和能够快速的进行训练;
4、本发明在构建初始的简化算法之后,利用简化算法生成并行语料,从而采用回译的策略对已有的文本简化模型进行优化,修正了初始的短语表中可能错误的条目,进一步提升算法型性能。
具体实施方式
下面结合具体实施例对本发明做进一步说明。
一种无监督的英文句子自动简化算法,按如下步骤进行:
步骤1、把公开的英文维基百科语料库D作为训练语料,可以从“https:// dumps.wikimedia.org/enwiki/”下载,采用词嵌入算法Word2vec获取词语t的向量表示vt;通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征;获取词的向量表示后,可以获取词语的相似度,帮助寻找每个词的高相似的词语集合;本实例中,每个向量的维数设置为300,采用Skip-Gram模型学习词嵌入算法Word2vec;给定语料库D和词语t,考虑一个以t为中心的滑动窗口,用Wt表示出现在t上下文窗口中的词语集合;滑动窗口设置为t前面5个词和后面5个词;观察上下文词语集合的对数概率定义如下:
式(1)中,v'w是词语w的上下文向量表示,V是D的词汇表;然后,Skig-Gram的整体目标函数被定义如下:
式(2)中,词的向量表示可以通过采用随机的梯度下降算法和负抽样,最大化该目标函数进行学习。
步骤2、利用维基百科语料D,统计每个词语t的频率f(t),f(t)表示词语t在D中的出现次数;在文本简化领域中,词的复杂度测量通过会考虑词语的频率;一般说来,词的频率越高,该词越容易理解;因此,词频可以用来从词语t的高相似的词语集合中寻找最容易理解的词。
步骤3、维基百科语料D中一个超大的语料库,包含了大量的复杂句子集合和简单句子集合;利用维基百科语料D,获取简化句子集合S和复杂句子集合C;
步骤3.1、针对维基百科语料D中的每个句子s,采用FRE(Flesch Reading Ease)算法进行打分,如式(3),并按分值从高到低进行排序;分值越高意味着句子越简单,分值越低意味着句子越困难;
式(3)中,FRE(s)表示句子s的FRE得分,tw(s)表示句子s中所有词的数目,ts(s)表示句子s中所有音节的数目;FRE算法通常被用来评价文本简化模型最后简化结果的好坏;
步骤3.2、去除得分超过100的句子集合,去除得到低于20分的句子集合,去除中间得分的句子集合;去除高分和低分的句子,是为了去除特别极端的句子;去除中间得分的句子是为了在S和C之间建立明显的界限;最后,选择高得分的句子集合作为简化句子集合S和低得分的句子集合作为复杂句子集合C;本实例中,S和C都分别选择了1千万个句子。
步骤4、利用词的向量表示和词的频率,填充表示词翻译为另一个词语概率的短语表PT(Phrase Table)。在PT中,词语ti到词语tj的翻译概率p(tj|ti)的计算公式如下:
式(4)中,cos表示余弦相似度计算公式;考虑到学习所有词的概率转换是不可行的,在本实例中,选择了最频繁的30万个词语,并只计算到最相似的200个词语的概率;对词语中的专有名词,只计算到自己本身的概率。
步骤5、针对步骤3获取的简化句子集合S和复杂句子集合C,分别采用语言模型KenLM算法进行训练,获取简化语言模型LMS和复杂语言模型LMC;LMS和LMC在后面的迭代学习过程中保持不变;语言模型用来计算给语料中指定的词语序列的概率;简化语言模型和复杂语言模型通过计算词语序列的概率,有助于通过以下方法提高简化模型的质量:执行本地替换和词语顺序重排。
步骤6、利用短语表PT、简化语言模型LMS和复杂语言模型LMC,采用基于短语的机器翻译算法PBMT(Phrased-based Machine Translation),构建复杂句子到简化句子的简化算法PBMT算法最先在2007年《Statistical phrase-based translation》提出,用来用于有双语言的机器翻译;给定复杂句子c,算法利用式(5),分别计算不同词的组合组成的句子s的得分,最后选择得分做高的句子s’将作为简化句子:
s'=argmaxsp(c|s)p(s) (5)
式(5)中,PBMT算法分解p(c|s)作为短语表PT的内积,p(s)是句子s的概率,是从语言模型LMS获得。
步骤7、鉴于只能获取非并行语料,利用初始的PBMT算法迭代执行回译(Back-translation)的策略,可以把非常困难的无监督学习问题转化为有监督学习任务,从而生成更优的文本简化算法;
步骤7.1、首先利用算法,翻译复杂句子集合C,得到新的合成的简化句子集合S0;然后,循环执行步骤7.2到7.5,迭代次数i从1到N;
步骤7.2、利用合成的并行语料(Si-1,C)、简化语言模型LMC和复杂语言模型LMS,训练新的从简化句子到复杂句子的PBMT算法
步骤7.3、利用翻译简化句子集合S,得到新的合成的复杂句子集合Ci;
步骤7.4、利用合成的并行语料(Ci,S)、简化语言模型LMC和复杂语言模型LMS,训练新的从复杂句子到简化句子的PBMT算法
步骤7.5、利用翻译复杂句子集合C,得到新的合成的简化句子集合Si;重新回到步骤7、2重复执行,直到迭代N次;本实例中,N被设置为3。
直观的说,由于PBMT算法的输入是包含噪音的,导致短语表中许多条目是不正确的;尽管如此,在产生简化句子的过程中,语言模型能够帮助纠正一些错误;只要这种情况发生了,随着迭代的持续进行,短语表和翻译算法都会相应的被提高;随着短语表中更多的条目将被纠正过来,PBMT算法也会越来越强大。
本发明并不局限于上述实施例,在本发明公开的技术方案的基础上,本领域的技术人员根据所公开的技术内容,不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形,这些替换和变形均在本发明的保护范围内。
Claims (3)
1.一种无监督的英文句子自动简化算法,其特征在于,按如下步骤进行:
步骤1、把公开的英文维基百科语料库D作为训练语料,采用词嵌入算法Word2vec获取词语t的向量表示vt;通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征;采用Skip-Gram模型学习词嵌入算法Word2vec;给定语料库D和词语t,考虑一个以t为中心的滑动窗口,用Wt表示出现在t上下文窗口中的词语集合;观察上下文词语集合的对数概率定义如下:
式(1)中,v'w是词语w的上下文向量表示,V是D的词汇表;然后,Skig-Gram的整体目标函数被定义如下:
式(2)中,词的向量表示可以通过最大化该目标函数进行学习;
步骤2、利用维基百科语料D,统计每个词语t的频率f(t),f(t)表示词语t在D中的出现次数;
步骤3、利用维基百科语料D,获取简化句子集合S和复杂句子集合C;
步骤4、利用词的向量表示和词的频率,填充表示词翻译为另一个词语概率的短语表PT(Phrase Table);在PT中,词语ti到词语tj的翻译概率p(tj|ti)的计算公式如下:
式(4)中,cos表示余弦相似度计算公式;
步骤5、针对简化句子集合S和复杂句子集合C,分别采用语言模型KenLM算法进行训练,获取简化语言模型LMS和复杂语言模型LMC;LMS和LMC在后面的迭代学习过程中保持不变;
步骤6、利用短语表PT、简化语言模型LMS和复杂语言模型LMC,采用基于短语的机器翻译算法PBMT(Phrased-based Machine Translation),构建复杂句子到简化句子的简化算法给定复杂句子c,算法利用式(5),分别计算不同词的组合组成的句子s的得分,最后选择得分做高的句子s’将作为简化句子:
s'=argmaxsp(c|s)p(s) (5)
式(5)中,PBMT算法分解p(c|s)作为短语表PT的内积,p(s)是句子s的概率,是从语言模型LMS获得;
步骤7、利用初始的PBMT算法迭代执行回译(Back-translation)的策略,生成更优的文本简化算法。
2.根据权利要求1所述的一种无监督的英文句子自动简化算法,其特征在于,步骤3具体包括:
步骤3.1、针对维基百科语料D中的每个句子s,采用Flesch Reading Ease(FRE)算法进行打分,如式(3),并按分值从高到低进行排序;
式(3)中,FRE(s)表示句子s的FRE得分,tw(s)表示句子s中所有词的数目,ts(s)表示句子s中所有音节的数目;
步骤3.2、去除得分超过100的句子集合,去除得到低于20分的句子集合,去除中间得分的句子集合;最后,选择高得分的句子集合作为简化句子集合S和低得分的句子集合作为复杂句子集合C。
3.根据权利要求1所述的一种无监督的英文句子自动简化算法,其特征在于,所述步骤7具体包括:
步骤7.1、首先利用算法,翻译复杂句子集合C,得到新的合成的简化句子集合S0,然后,循环执行步骤7.2到7.5,迭代次数i从1到N;
步骤7.2、利用合成的并行语料(Si-1,C)、简化语言模型LMS和复杂语言模型LMC,训练新的从简化句子到复杂句子的PBMT算法
步骤7.3、利用翻译简化句子集合S,得到新的合成的复杂句子集合Ci;
步骤7.4、利用合成的并行语料(Ci,S)、简化语言模型LMC和复杂语言模型LMS,训练新的从复杂句子到简化句子的PBMT算法
步骤7.5、利用翻译复杂句子集合C,得到新的合成的简化句子集合Si;重新回到步骤7.2重复执行,直到迭代N次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354246.1A CN110096705B (zh) | 2019-04-29 | 2019-04-29 | 一种无监督的英文句子自动简化算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354246.1A CN110096705B (zh) | 2019-04-29 | 2019-04-29 | 一种无监督的英文句子自动简化算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110096705A true CN110096705A (zh) | 2019-08-06 |
CN110096705B CN110096705B (zh) | 2023-09-08 |
Family
ID=67446309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910354246.1A Active CN110096705B (zh) | 2019-04-29 | 2019-04-29 | 一种无监督的英文句子自动简化算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110096705B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427629A (zh) * | 2019-08-13 | 2019-11-08 | 苏州思必驰信息科技有限公司 | 半监督文本简化模型训练方法和系统 |
CN112612892A (zh) * | 2020-12-29 | 2021-04-06 | 达而观数据(成都)有限公司 | 一种专有领域语料模型构建方法、计算机设备及存储介质 |
CN113807098A (zh) * | 2021-08-26 | 2021-12-17 | 北京百度网讯科技有限公司 | 模型训练方法和装置、电子设备以及存储介质 |
CN117808124A (zh) * | 2024-02-29 | 2024-04-02 | 云南师范大学 | 一种基于Llama2的文本简化方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279478A (zh) * | 2013-04-19 | 2013-09-04 | 国家电网公司 | 一种基于分布式互信息文档特征提取方法 |
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN105447206A (zh) * | 2016-01-05 | 2016-03-30 | 深圳市中易科技有限责任公司 | 基于word2vec算法的新评论对象识别方法及系统 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及系统 |
CN109614626A (zh) * | 2018-12-21 | 2019-04-12 | 北京信息科技大学 | 基于万有引力模型的关键词自动抽取方法 |
-
2019
- 2019-04-29 CN CN201910354246.1A patent/CN110096705B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279478A (zh) * | 2013-04-19 | 2013-09-04 | 国家电网公司 | 一种基于分布式互信息文档特征提取方法 |
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN105447206A (zh) * | 2016-01-05 | 2016-03-30 | 深圳市中易科技有限责任公司 | 基于word2vec算法的新评论对象识别方法及系统 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及系统 |
CN109614626A (zh) * | 2018-12-21 | 2019-04-12 | 北京信息科技大学 | 基于万有引力模型的关键词自动抽取方法 |
Non-Patent Citations (1)
Title |
---|
TAKUMI MARUYAMA等: "Sentence simplification with core vocabulary", 《 2017 INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING (IALP)》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427629A (zh) * | 2019-08-13 | 2019-11-08 | 苏州思必驰信息科技有限公司 | 半监督文本简化模型训练方法和系统 |
CN110427629B (zh) * | 2019-08-13 | 2024-02-06 | 思必驰科技股份有限公司 | 半监督文本简化模型训练方法和系统 |
CN112612892A (zh) * | 2020-12-29 | 2021-04-06 | 达而观数据(成都)有限公司 | 一种专有领域语料模型构建方法、计算机设备及存储介质 |
CN112612892B (zh) * | 2020-12-29 | 2022-11-01 | 达而观数据(成都)有限公司 | 一种专有领域语料模型构建方法、计算机设备及存储介质 |
CN113807098A (zh) * | 2021-08-26 | 2021-12-17 | 北京百度网讯科技有限公司 | 模型训练方法和装置、电子设备以及存储介质 |
CN113807098B (zh) * | 2021-08-26 | 2023-01-10 | 北京百度网讯科技有限公司 | 模型训练方法和装置、电子设备以及存储介质 |
CN117808124A (zh) * | 2024-02-29 | 2024-04-02 | 云南师范大学 | 一种基于Llama2的文本简化方法 |
CN117808124B (zh) * | 2024-02-29 | 2024-05-03 | 云南师范大学 | 一种基于Llama2的文本简化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110096705B (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852117B (zh) | 一种提升神经机器翻译效果的有效数据增强方法 | |
CN109359294B (zh) | 一种基于神经机器翻译的古汉语翻译方法 | |
CN110597997B (zh) | 一种军事想定文本事件抽取语料库迭代式构建方法及装置 | |
CN110096705B (zh) | 一种无监督的英文句子自动简化算法 | |
CN106484681B (zh) | 一种生成候选译文的方法、装置及电子设备 | |
CN109858042B (zh) | 一种翻译质量的确定方法及装置 | |
US9176936B2 (en) | Transliteration pair matching | |
CN103853710B (zh) | 一种基于协同训练的双语命名实体识别方法 | |
US11669695B2 (en) | Translation method, learning method, and non-transitory computer-readable storage medium for storing translation program to translate a named entity based on an attention score using neural network | |
CN103678285A (zh) | 机器翻译方法和机器翻译系统 | |
JP2009140503A (ja) | 音声翻訳方法及び装置 | |
CN102799579A (zh) | 具有错误自诊断和自纠错功能的统计机器翻译方法 | |
CN107943784A (zh) | 基于生成对抗网络的关系抽取方法 | |
CN107480144A (zh) | 具备跨语言学习能力的图像自然语言描述生成方法和装置 | |
CN106156013B (zh) | 一种固定搭配型短语优先的两段式机器翻译方法 | |
Liu et al. | Morphological segmentation for Seneca | |
JP2016224483A (ja) | モデル学習装置、方法、及びプログラム | |
Rama et al. | Modeling letter-to-phoneme conversion as a phrase based statistical machine translation problem with minimum error rate training | |
Lee et al. | Extraction of transliteration pairs from parallel corpora using a statistical transliteration model | |
CN119204046A (zh) | 医学机器翻译自学习方法、装置和电子设备 | |
CN113822053B (zh) | 一种语法错误检测方法、装置、电子设备及存储介质 | |
CN117149987B (zh) | 多语言对话状态追踪模型的训练方法及装置 | |
Singh et al. | Urdu to Punjabi machine translation: an incremental training approach | |
CN117910483A (zh) | 翻译方法、装置、电子设备和存储介质 | |
CN109446537B (zh) | 一种针对机器翻译的译文评估方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |