[go: up one dir, main page]

CN102662933A - 分布式智能翻译方法 - Google Patents

分布式智能翻译方法 Download PDF

Info

Publication number
CN102662933A
CN102662933A CN2012100853077A CN201210085307A CN102662933A CN 102662933 A CN102662933 A CN 102662933A CN 2012100853077 A CN2012100853077 A CN 2012100853077A CN 201210085307 A CN201210085307 A CN 201210085307A CN 102662933 A CN102662933 A CN 102662933A
Authority
CN
China
Prior art keywords
word
translation
data base
sentence
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100853077A
Other languages
English (en)
Inventor
张马成
王兴强
伍华
杨明
王小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHENGDU URELITE INFORMATION TECHNOLOGY Co Ltd
Original Assignee
CHENGDU URELITE INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHENGDU URELITE INFORMATION TECHNOLOGY Co Ltd filed Critical CHENGDU URELITE INFORMATION TECHNOLOGY Co Ltd
Priority to CN2012100853077A priority Critical patent/CN102662933A/zh
Publication of CN102662933A publication Critical patent/CN102662933A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种分布式智能翻译方法,包括如下步骤:步骤1,在客户端导入需要翻译的原文,对原文进行分析,将原文划分成最大的识别单元——段;步骤2,对每一段按句进行拆分;步骤3,将每一句与数据库中的数据进行查找,若找到句的匹配则直接进入步骤5,若没找到则进入步骤4;步骤4,将句再按照相邻一字至相邻N个字进行组合,再将组合后的多个词组及单个最小单位的词组都先与本地数据库的数据进行匹配查找;步骤5,查询到结果后,实时返回用户界面供用户选择,同时将翻译的原文和译文记录到本地数据库和动态数据库中,以供以后翻译时使用;步骤6,提示。本方法提供了比较专业的翻译词汇库,提高了翻译过程中的翻译效率和翻译速度。

Description

分布式智能翻译方法
技术领域
本发明涉及翻译方法,具体涉及一种分布式智能翻译方法。
背景技术
CAT软件发展到今天,已经形成了翻译、记忆、存储等不同的技术原理。就记忆数据库来讲,一般的翻译软件在翻译时,是将单个一行的字、词或者句与译文作为一个语言对存入数据库,并且这个存入的数据只作为安装翻译软件的本机器在翻译后续内容时使用,在翻译另外一篇文章时,如果上一篇文章的记忆内容未导出,在翻译下一篇文章时又未导入上一篇的记忆内容,这样是无法共享之前翻译过的记忆内容。这种在本地生成数据的方法,操作起来就比较繁琐,再加上记忆库无法在一个项目的过程中被实时使用,这样使得翻译效率非常低。
随着对翻译产量和质量要求的提高,对翻译软件有更高的要求,准确、快速完成对一篇文章的翻译要求更智能化的翻译软件来提高翻译产量和质量。针对一个项目来说,现有翻译技术,针对翻译质量不高,同一篇翻译文章在一个团队中分为几份翻译,翻译中会出现不同译员翻译相同的含义的一句话而翻译的译文不一致,翻译团队难以共享记忆数据库中的信息,并且在翻译过程中,未智能记忆整个翻译信息。在专有词汇及其准确性上,现有分词算法有可能造成无法匹配对一句中出现的专有词汇,从而造成翻译文章的准确性大大降低。
同时,现有的翻译软件,有以下几大缺点:1.专有词汇库(短语)缺乏以及不专业;2.翻译效率低;3.没有项目协同工作功能,翻译过程中整个翻译团队无法实时共享翻译中的翻译信息;4.翻译项目无实时智能学习整个翻译过程。
 
发明内容
本发明克服了现有技术的不足,提供一种分布式智能翻译方法,该方法主要提供了比较专业的翻译词汇库,提高了翻译过程中的翻译效率和翻译速度,解决了现有技术中存在的技术问题。
本发明采用以下技术方案:
一种分布式智能翻译方法,包括如下步骤:
步骤1,在客户端导入需要翻译的原文,对原文进行分析,将原文划分成最大的识别单元——段;
步骤2,对每一段按句进行拆分;
步骤3,将每一句与数据库中的数据进行查找 ,上述的数据库分为位于客户端的本地数据库和位于服务器端的后台数据库,而后台数据库又分为静态数据库和动态数据库,查询匹配时都先查询本地数据库,若找到句的匹配则直接进入步骤5,如果没查到,再查静态数据库,静态数据库查到了则也直接进入步骤5,在静态数据库没有查到的情况下,最后查询动态数据库若找到句的匹配也直接进入步骤5,若没找到则进入步骤4;
步骤4,将句再按照相邻字1至N个字进行组合,再将组合后的多个词组及单个最小单位的词组都先与本地数据库的数据进行匹配查找;若查到则进步骤5,若没查到,则与和静态数据库中的数据进行匹配查找;若查到则进步骤5,若没查到,则与动态数据库中的数据进行匹配查找;
步骤5,查询到结果后,实时返回用户界面供用户选择,同时将翻译的原文和译文记录到本地数据库和动态数据库中,以供以后翻译时使用;
步骤6,将组合查询后的结果记录在客户端的内存中,并且在原文处以标注的方式,将查询出来的结果明显的表现出来,当需要使用时,鼠标点击此处会将译文立刻显示在用户界面供选择,再次点击译文后会立刻将译文显示在译文行。
更进一步的是:
上述的本地数据库位于每个客户端,按每一句记录译员自己翻译的原文、译文信息,译员每翻译一句的原文、译文都添加到此本地数据库和服务器端的动态数据库中。
上述的步骤4中将句再按照相邻一字至相邻N个字进行组合,是指将含有N个字的句子按如下步骤进行组合拆分:
步骤4-1:将第一个字和第二个字、第一、第二和第三个字、第一、第二、第三和第四个字直至第一、第二……和第N—1个字进行组合拆分成多种结果;
步骤4-2:将第二字与第三个字,第二、第三和第四个字,第二、第三、第四和第五个字,直至第二、第三、第四……和第N个字进行组合拆分成多种结果;
步骤4-3:将第三字与第四个字,第三、第四和第五个字,第三、第四、第五和第六个字,直至第三、第四……和第N个字进行组合拆分成多种结果;
并以此类推直至步骤4—N-1。
上述的静态数据库存入的数据由专有词汇组成,而动态数据库中的数据则为多个客户端实时翻译时记录的信息之和,包括了词汇和句子。
上述的步骤1中是通过段与段之间的回车换行符作为标记,将每段话拆分开来。
上述的步骤2中是将句末标点符号作为标记,将每句话拆分开来。
与现有技术相比,本发明的有益效果是:
1)       提供了项目的协同工作,多个客户端可同时在不同的物理网络内实现对同一个项目的协同工作,从而节省了更多的资源;
2)       拆分方法科学合理,能够提供准确无误的查询结果;
3)       查找匹配方法科学合理,提高了翻译效率;
4)       在翻译进行当中,第一个人翻译的词句后续人员可以用到,如果翻译的词句有错误的话,可以在项目结束时统一进行修改,这就避免了不同人翻译相同的内容时出现的各种偏差不一致;
5)       动态数据库中记录的信息也可进行审核。
 
附图说明
图1为本发明的工作流程图;
图2为本发明的详细实现原理图。
 
具体实施方式
下面结合附图对本发明作进一步阐述。
一种分布式智能翻译方法,如图1所示,包括如下步骤:
步骤1,在客户端导入需要翻译的原文,对原文进行分析,通过段与段之间的回车换行符作为标记,将原文划分成最大的识别单元——段;
步骤2,将句末标点符号作为标记,将每一段话拆分成每句话。
步骤3,将每一句与数据库中的数据进行查找,上述的数据库分为位于客户端的本地数据库和位于服务器端的后台数据库,而后台数据库又分为静态数据库和动态数据库,查询匹配时都先查询本地数据库,若找到句的匹配则直接进入步骤5,如果没查到,再查静态数据库,静态数据库查到了则也直接进入步骤5,在静态数据库没有查到的情况下,最后查询动态数据库若找到句的匹配也直接进入步骤5,若没找到则进入步骤4;
步骤4,将句再按照相邻字1至N个字进行组合,具体来说是指将含有N个字的句子按如下步骤进行组合拆分:
步骤4-1:将第一个字和第二个字、第一、第二和第三个字、第一、第二、第三和第四个字直至第一、第二……和第N—1个字进行组合拆分成多种结果;
步骤4-2:将第二字与第三个字,第二、第三和第四个字,第二、第三、第四和第五个字,直至第二、第三、第四……和第N个字进行组合拆分成多种结果;
步骤4-3:将第三字与第四个字,第三、第四和第五个字,第三、第四、第五和第六个字,直至第三、第四……和第N个字进行组合拆分成多种结果;
并以此类推直至步骤4—N-1;再将组合后的多个词组及单个最小单位的词组都先与本地数据库的数据进行匹配查找;若查到则进步骤5,若没查到,则与和静态数据库中的数据进行匹配查找;若查到则进步骤5,若没查到,则与动态数据库中的数据进行匹配查找;
步骤5,查询到结果后,实时返回用户界面供用户选择,同时将翻译的原文和译文记录到本地数据库和动态数据库中,以供以后翻译时使用;
步骤6,将组合查询后的结果记录在客户端的内存中,并且在原文处以标注的方式,将查询出来的结果明显的表现出来,当需要使用时,鼠标点击此处会将译文立刻显示在用户界面供选择,再次点击译文后会立刻将译文显示在译文行。
上述的本地数据库位于每个客户端,按每一句记录译员自己翻译的原文、译文信息,译员每翻译一句的原文、译文都添加到此本地数据库。静态数据库存入的数据由专有词汇组成,而动态数据库中的数据则为多个客户端实时翻译时记录的信息之和,包括了词汇和句子。
下面再来详细叙述本专利的技术关键点:关键点包括:拆分,分词,组合,提示,记忆,共享数据库信息、本地数据库、静态数据库、动态数据库。
本专利中所涉及的本地数据库是指:按每一句记录译员自己翻译的原文/译文信息,译员每翻译一句的原/译文都将添加到此本地数据库,在翻译下一句或者以后的文章时,后先会查此数据库,如果查到了,则后续动作不需要再做,如果没查到,再查静态数据库,静态数据库查到了则不需要再差动态数据库,在静态数据库都没有查到的情况下,最后查动态数据库。
静态数据库是指:存放积累下来的专有词汇(非单个单字或者词),此专有词汇是经过审核认可、无误的一种信息积累。静态数据库中存储了2个字段内容,一列中文一列英文,中英文一一对照,中文的含义对照了英文;反过来英文的含义也对照了唯一的中文含义。
动态数据库:译员每翻译一句文章,将原文和译文作为一个语言对,存储于此动态数据库。数据库中存储了2个字段内容,一列中文一列英文,中英文一一对照,中文的含义对照了英文;反过来英文的含义也对照了唯一的中文含义。
本专利在翻译一篇文章时,是将一段原文一段译文(译文为空)呈现出来。原文用于后期分析使用,译文用于显示对应的翻译后的信息。
下面再来以一个具体实施例的方式详细叙述实现翻译的过程:
拆分
如图2所示:打开一篇原文后,进行如下分析:
举例说明,先将原文按进行分析,在一篇原文中,段与段之间是以回车换行符作为标记,程序中通过此标记可将每段话区别开来。呈现在系统中就是一段原文,一段译文(为空);一段原文,一段译文(为空)… …;然后段中的每一句话是以句号(。.)或者叹号(!!)作为结束标记,程序中通过此标记将每句话区别开来,此过程就是拆分过程。拆分完成后,即将拆分后的每一句先与本地数据库进行匹配查找,如果找到了则相应的此句的后续分词、组合、查询动作都不需要,如果没有找到再到静态数据库进行对比查找,如果在静态中找到了内容,则相应的此句的后续分词、组合、查询动作都不需要,提高了整个系统效率。如果没有找到再到动态数据库中去进行匹配查找等工作。
分词组合
在此步骤中是将未在数据库中查找到的句,按照逐句进行分词。这里以中文为例,例如:我是中国人。先将此句拆分为一个个词:“我”“我是”“我是中”“我是中国”“我是中国人”“是”“是中”“是中国”“是中国人”“中”“中国”“中国人”“国”“国人”“人”。这样拆分避免了分词后在静态词汇库中进行查询的疏漏,能够提供准确无误的查询结果。
查询
将以上分词组合后的词(排除单个字或者单个单词)先在本地数据库中查找,本地数据库没找到,则再从静态数据中进行查询,例如,将“我是”“我是中”“我是中国”“我是中国人”“是中”“是中国”“是中国人”“中国”“中国人”“国人”。如果找到了对应的内容,则将对应的英文直接提示给用户使用,提高了工作效率,不需要手工再次翻译。而一般的字典软件只能做到对单个单词或者常用组词的翻译,而对整个一句话并不能做到翻译,或者对一句话中间出现的专有词汇更不能做到精确翻译。
记忆
在整个翻译过程中,如果在本地数据、静态数据库或动态数据库中找到了匹配项,则表明数据库中已经有本句的原文/译文信息,如果没有相应的匹配项,则会将每一句原文/译文对的内容按句记录到本地数据库和动态数据库(除非动态数据库已存有和原文相同的内容则不记忆),记忆的方法也是按照原文的句号(。.)或者叹号(!!),对应着译文的句号(。.)或者叹号(!!),每翻译完成一段会将按句划分出来后的原/译文对写入动态数据库。此本地数据库和服务器端的动态数据库,供后期翻译别的文章时使用。如果遇到本地数据库中有的内容,则直接给出结果,不需要人工翻译也不需要去读取服务器端,大大提高了工作效率。并且随着翻译文章的增加,此动态数据库会越来越丰富。
提示
将组合查询后的结果记录在内存中,并且在原文处以加下划线/改变字体颜色的方式,将查询出来的结果明显的表现出来,当需要使用时,调用自主研发的提示模块,鼠标点击此处会将译文立刻显示在用户界面供用户选择。用户再次点击译文后会立刻将译文显示在译文行。
共享数据
本方法提供了项目的协同工作,多个客户端可同时在不同的物理网络内实现对同一个项目的协同工作。从而节省了更多的资源。在翻译进行当中,第一个人翻译的词句后续人员可以用到,如果翻译的词句有错误的话,可以在项目结束时统一进行修改,这就避免了不同人翻译相同的内容时出现的各种偏差不一致。动态数据库中记录的信息在此也可进行审核。

Claims (6)

1.一种分布式智能翻译方法,其特征在于:包括如下步骤:
步骤1,在客户端导入需要翻译的原文,对原文进行分析,将原文划分成最大的识别单元——段;
步骤2,对每一段按句进行拆分;
步骤3,将每一句与数据库中的数据进行查找 ,所述的数据库分为位于客户端的本地数据库和位于服务器端的后台数据库,而后台数据库又分为静态数据库和动态数据库,查询匹配时都先查询本地数据库,若找到句的匹配则直接进入步骤5,如果没查到,再查静态数据库,静态数据库查到了则也直接进入步骤5,在静态数据库没有查到的情况下,最后查询动态数据库若找到句的匹配也直接进入步骤5,若没找到则进入步骤4;
步骤4,将句再按照相邻一字至相邻N个字进行组合,再将组合后的多个词组及单个最小单位的词组都先与本地数据库的数据进行匹配查找;若查到则进步骤5,若没查到,则与和静态数据库中的数据进行匹配查找;若查到则进步骤5,若没查到,则与动态数据库中的数据进行匹配查找;
步骤5,查询到结果后,实时返回用户界面供用户选择,同时将翻译的原文和译文记录到本地数据库和动态数据库中,以供以后翻译时使用;
步骤6,将组合查询后的结果记录在客户端的内存中,并且在原文处以标注的方式,将查询出来的结果明显的表现出来,当需要使用时,鼠标点击此处会将译文立刻显示在用户界面供选择,再次点击译文后会立刻将译文显示在译文行。
2.根据权利要求1所述的分布式智能翻译方法,其特征在于:所述的本地数据库位于每个客户端,按每一句记录译员自己翻译的原文、译文信息,译员每翻译一句的原文、译文都添加到此本地数据库和服务器端的动态数据库。
3.根据权利要求1所述的分布式智能翻译方法,其特征在于:所述的步骤4中将句再按照相邻一字至相邻N个字进行组合,是指将含有N个字的句子按如下步骤进行组合拆分:
步骤4-1:将第一个字和第二个字、第一、第二和第三个字、第一、第二、第三和第四个字直至第一、第二……和第N—1个字进行组合拆分成多种结果;
步骤4-2:将第二字与第三个字,第二、第三和第四个字,第二、第三、第四和第五个字,直至第二、第三、第四……和第N个字进行组合拆分成多种结果;
步骤4-3:将第三字与第四个字,第三、第四和第五个字,第三、第四、第五和第六个字,直至第三、第四……和第N个字进行组合拆分成多种结果;
并以此类推直至步骤4—N-1。
4.根据权利要求2所述的分布式智能翻译方法,其特征在于:所述的静态数据库存入的数据由专有词汇组成,而动态数据库中的数据则为多个客户端实时翻译时记录的信息之和。
5.根据权利要求1所述的分布式智能翻译方法,其特征在于:所述的步骤1中是通过段与段之间的回车换行符作为标记,将每段话拆分开来。
6.根据权利要求1所述的分布式智能翻译方法,其特征在于:所述的步骤2中是将句末标点符号作为标记,将每句话拆分开来。
CN2012100853077A 2012-03-28 2012-03-28 分布式智能翻译方法 Pending CN102662933A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100853077A CN102662933A (zh) 2012-03-28 2012-03-28 分布式智能翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100853077A CN102662933A (zh) 2012-03-28 2012-03-28 分布式智能翻译方法

Publications (1)

Publication Number Publication Date
CN102662933A true CN102662933A (zh) 2012-09-12

Family

ID=46772428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100853077A Pending CN102662933A (zh) 2012-03-28 2012-03-28 分布式智能翻译方法

Country Status (1)

Country Link
CN (1) CN102662933A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838718A (zh) * 2014-02-24 2014-06-04 武汉传神信息技术有限公司 一种翻译系统及翻译方法
CN103838716A (zh) * 2012-11-27 2014-06-04 英业达科技有限公司 将目标资料拆分至服务器与客户端翻译的系统及其方法
CN103885942A (zh) * 2014-03-18 2014-06-25 成都优译信息技术有限公司 一种快速翻译装置及方法
CN104346324A (zh) * 2013-07-26 2015-02-11 英业达科技有限公司 词句翻译系统及其方法
CN104462072A (zh) * 2014-11-21 2015-03-25 中国科学院自动化研究所 面向计算机辅助翻译的输入方法与装置
WO2015063536A1 (en) * 2013-10-28 2015-05-07 Translation Management Systems Ltd. Networked language translation system and method
CN105989428A (zh) * 2015-02-02 2016-10-05 成都优译信息技术有限公司 一种自动分发稿件的方法
CN106294186A (zh) * 2016-08-30 2017-01-04 深圳市悲画软件自动化技术有限公司 智能软件自动化测试方法
CN106844354A (zh) * 2017-01-11 2017-06-13 中国科学院合肥物质科学研究院 一种网页取词汉民翻译方法及其装置
CN106933811A (zh) * 2017-02-14 2017-07-07 南京南瑞继保电气有限公司 一种词条自动生成方法和装置
CN108595422A (zh) * 2018-04-13 2018-09-28 卓望信息技术(北京)有限公司 一种过滤不良彩信的方法
CN109783826A (zh) * 2019-01-15 2019-05-21 四川译讯信息科技有限公司 一种文档自动翻译方法
CN110211570A (zh) * 2019-05-20 2019-09-06 北京百度网讯科技有限公司 同声传译处理方法、装置及设备
CN112164403A (zh) * 2020-09-27 2021-01-01 江苏四象软件有限公司 一种基于人工智能的自然语言处理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
梁三云: "机器翻译与计算机辅助翻译比较分析", 《外语电化教学》 *
罗桂琼等: "基于反序词典的中文分词技术研究", 《计算机技术与发展》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838716A (zh) * 2012-11-27 2014-06-04 英业达科技有限公司 将目标资料拆分至服务器与客户端翻译的系统及其方法
CN104346324B (zh) * 2013-07-26 2017-06-20 英业达科技有限公司 词句翻译系统及其方法
CN104346324A (zh) * 2013-07-26 2015-02-11 英业达科技有限公司 词句翻译系统及其方法
WO2015063536A1 (en) * 2013-10-28 2015-05-07 Translation Management Systems Ltd. Networked language translation system and method
CN103838718A (zh) * 2014-02-24 2014-06-04 武汉传神信息技术有限公司 一种翻译系统及翻译方法
CN103885942A (zh) * 2014-03-18 2014-06-25 成都优译信息技术有限公司 一种快速翻译装置及方法
CN103885942B (zh) * 2014-03-18 2017-09-05 成都优译信息技术股份有限公司 一种快速翻译装置及方法
CN104462072B (zh) * 2014-11-21 2017-09-26 中国科学院自动化研究所 面向计算机辅助翻译的输入方法与装置
CN104462072A (zh) * 2014-11-21 2015-03-25 中国科学院自动化研究所 面向计算机辅助翻译的输入方法与装置
CN105989428A (zh) * 2015-02-02 2016-10-05 成都优译信息技术有限公司 一种自动分发稿件的方法
CN106294186A (zh) * 2016-08-30 2017-01-04 深圳市悲画软件自动化技术有限公司 智能软件自动化测试方法
CN106844354A (zh) * 2017-01-11 2017-06-13 中国科学院合肥物质科学研究院 一种网页取词汉民翻译方法及其装置
CN106933811A (zh) * 2017-02-14 2017-07-07 南京南瑞继保电气有限公司 一种词条自动生成方法和装置
CN108595422A (zh) * 2018-04-13 2018-09-28 卓望信息技术(北京)有限公司 一种过滤不良彩信的方法
CN109783826A (zh) * 2019-01-15 2019-05-21 四川译讯信息科技有限公司 一种文档自动翻译方法
CN109783826B (zh) * 2019-01-15 2023-11-21 四川译讯信息科技有限公司 一种文档自动翻译方法
CN110211570A (zh) * 2019-05-20 2019-09-06 北京百度网讯科技有限公司 同声传译处理方法、装置及设备
CN110211570B (zh) * 2019-05-20 2021-06-25 北京百度网讯科技有限公司 同声传译处理方法、装置及设备
CN112164403A (zh) * 2020-09-27 2021-01-01 江苏四象软件有限公司 一种基于人工智能的自然语言处理系统

Similar Documents

Publication Publication Date Title
CN102662933A (zh) 分布式智能翻译方法
CN109726274B (zh) 问题生成方法、装置及存储介质
US20210407499A1 (en) Automatically generating conference minutes
CN104252533B (zh) 搜索方法和搜索装置
CN103268313B (zh) 一种自然语言的语义解析方法及装置
US20200073953A1 (en) Ranking Entity Based Search Results Using User Clusters
US20130060769A1 (en) System and method for identifying social media interactions
CA2807494C (en) Method and system for integrating web-based systems with local document processing applications
KR20080066946A (ko) 자연어 처리 프레임워크, 자연어 처리 방법 및 자연어 처리시스템
CN112445894A (zh) 基于人工智能的商务智能系统及其分析方法
CN113779961B (zh) 一种自然语言文本的惯用句式提取方法及电子装置
CN115098755A (zh) 一种科技信息服务平台构建方法及科技信息服务平台
Gygli et al. Efficient object annotation via speaking and pointing
Exner et al. Using Semantic Role Labeling to Extract Events from Wikipedia.
CN101425086A (zh) 一种基于网络的词典查询方法及词典查询系统
Kang et al. An analysis of research trends on language model using BERTopic
CN117131155A (zh) 多类目识别方法、装置、电子设备及储存介质
Nath et al. Infographics generator: a smart application for visual summarization
Kim et al. Compact lexicon selection with spectral methods
Kupiyalova et al. Semantic search using natural language processing
Al-Sultany et al. Enriching tweets for topic modeling via linking to the wikipedia
Felicetti Teaching archaeology to machines: Extracting semantic knowledge from free text excavation reports
Oramas et al. Automatic creation of knowledge graphs from digital musical document libraries
Sahmoudi et al. Clustering web search results for effective Arabic language browsing
Wang Research on Text Simplification Method Based on BERT

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120912