CN108804592A - 知识库检索实现方法 - Google Patents
知识库检索实现方法 Download PDFInfo
- Publication number
- CN108804592A CN108804592A CN201810522891.5A CN201810522891A CN108804592A CN 108804592 A CN108804592 A CN 108804592A CN 201810522891 A CN201810522891 A CN 201810522891A CN 108804592 A CN108804592 A CN 108804592A
- Authority
- CN
- China
- Prior art keywords
- index
- knowledge base
- search
- stream
- indexing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000011218 segmentation Effects 0.000 claims description 30
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 7
- 150000001875 compounds Chemical class 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 239000002131 composite material Substances 0.000 abstract 1
- 238000005457 optimization Methods 0.000 abstract 1
- 230000009897 systematic effect Effects 0.000 abstract 1
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种知识库检索实现方法,涉及数据库检索技术领域,改进基于词表的分词技术,对知识类别建立分块索引,在内存中构建索引,使用本地磁盘系统做存储索引,并使用多文件索引,不使用复合索引等方式优化了原先的Lucene检索效率,大大地提高了检索的速度;所述知识库检索实现方法包括索引过程和搜索过程。本发明对基于词表的分词技术做改进,提高了分词效率及准确度;对知识类别建立分块索引,提高了检索效率;解决了知识库信息分类检索问题,提高优化知识库信息检索精确度和检索效率,提高了用户的体验。
Description
技术领域
本发明涉及数据库检索技术领域,具体的说是一种知识库检索实现方法。
背景技术
随着互联网的发展,互联网上站点与信息等越来越庞杂;在这海量的信息里面快速、全面、准确的查找到所需要的信息已经成为人们关注的焦点。传统的数据库查询方式在检索的准确率和效率以及检索条件的灵活性上都难以满足要求,如何高效地存储和查询文本数据这是一个值得探讨的课题。
当今,大批企业正在由传统的经营模式向科技创新、自主研发的新模式转变,获得飞速的发展。在当今时代,以全文检索为核心技术的搜索引擎已取代传统的数据库查询方式成为网络时代的主流检索技术,因此开发研究一款高效、安全、扩展性好的知识库检索技术是信息化时代发展的必然选择。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种知识库检索实现方法。
本发明所述知识库检索实现方法,解决上述技术问题采用的技术方案如下:所述知识库检索实现方法,改进基于词表的分词技术,对知识类别建立分块索引,在内存中构建索引,使用本地磁盘系统做存储索引,并使用多文件索引,不使用复合索引等方式优化了原先的Lucene检索效率,大大地提高了检索的速度;所述知识库检索实现方法包括索引过程和搜索过程;
所述索引过程:对要搜索的原始内容进行索引构建一个索引库;索引过程包括:确定原始内容即要搜索的内容—》采集文档--》创建数据集--》预处理分析数据--》生产索引--》构建索引库;
所述搜索过程:从索引库中搜索内容;搜索过程包括:用户通过搜索界面—》输入查询--》查询处理--》执行搜索,从索引库检索--》运用相关性计算--》渲染搜索结果--》结果输出。
具体的,所述索引过程:从命令行读取文件名,将文件分路径path字段和内容body字段2个字段进行存储,并对内容进行全文索引;索引的单位是Document对象,每个Document对象包含多个字段Field对象;针对不同的字段属性和数据输出的需求,对字段选择不同的索引或者存储字段规则。
具体的,所述检索过程包含写入流程、读出流程;所述写入流程:将提供的源字符串写入索引或将其从索引中删除;写入流程具体为:源字符串首先经过analyzer处理,包括:分词过程;将源字符串中需要的信息加入Document的各个Field中,将需要索引的Field索引起来,将需要存储的Field存储起来。
具体的,所述将需要存储的Field存储起来,是将索引写入存储器,存储器为内存或磁盘。
具体的,所述分词过程由分词器完成,所述分词器包括Reader、Tokenizer、TokenFilter、TokenStream;
所述分词过程具体包括:所述Tokenizer负责接收Reader字节流,将Reader字节流进行分词操作,所述TokenFilter对已经分词的语汇单元进行各种各样的过滤操作;所述TokenStream存储分词的各种信息,通过tokenStream有效获取到分词单元信息。
具体的,所述读出流程:向用户提供全文搜索服务,通过关键词定位源;读出流程具体为:用户提供搜索关键词,经过analyzer处理;对处理后的关键词搜索索引找出对应的Document;用户根据需要从找到的Document中提取需要的Field。
具体的,所述知识库检索实现方法涉及四种数据流,分别是文本流、Token流、字节流与查询语句对象流;其中,
所述文本流表示对于索引目标和交互控制的抽象,用来表示索引文件,用文本流向用户输出信息;所述Token流是对文字中词的概念的抽象,是Lucene在建立索引时直接处理的最小单位;所述字节流是对文件抽象的直接操作的体现,通过固定长度的字节流的处理将文件解脱出来;所述查询语句对象流,用来对查询语句抽象,通过类的继承结构反应查询语句的结构,将之传送到查询逻辑来进行查找操作。
具体的,所述文本流采用UCS-2作为编码。
具体的,所述索引过程的原理流程包括:W) 有一系列被索引文件;X)被索引文件经过语法分析和语言处理形成一系列词;Y)经过索引创建形成词典和反向索引表;Z)通过索引存储将索引写入索引文件。
具体的,所述搜索过程的原理流程包括:a)用户输入查询语句;b)对查询语句经过语法分析和语言分析得到一系列词;c)通过查询语句分析得到一个查询树;d)通过索引文件将索引读入到内存;e)利用查询树搜索索引,得到每个词的文档链表,对文档链表进行交、差、并得到结果文档;f)将搜索到的结果文档对查询的相关性进行排序;g)返回查询结果给用户。
本发明所述知识库检索实现方法,与现有技术相比具有的有益效果是:本发明对基于词表的分词技术做改进,提高了分词效率及准确度;对知识类别建立分块索引,提高了检索效率;在索引期间通过复用单一的IndexWriter实例;在内存中构建索引;使用本地磁盘系统做存储索引;使用多文件索引,不使用复合索引等方式优化了原先的Lucene检索效率,大大地提高了检索的速度;解决了知识库信息分类检索问题,提高优化知识库信息检索精确度和检索效率,提高了用户的体验。
附图说明
为了更清楚的说明本发明实施例或现有技术中的技术内容,下面对本发明实施例或现有技术中所需要的附图做简单介绍。显而易见的,下面所描述附图仅仅是本发明的一部分实施例,对于本领域技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,但均在本发明的保护范围之内。
附图1为知识库检索实现方法的流程图;
附图2为分词过程流程图;
附图3为知识库检索原理示意图。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清查、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下获得的所有实施例,都在本发明的保护范围之内。
实施例
本施例提出知识库检索实现方法,对基于词表的分词技术做改进,提高分词效率及准确度;对知识类别建立分块索引,提高检索效率;在索引期间复用单一的IndexWriter实例;利用Lucene的IndexWriter建立索引;Lucene是一款高性能的、可扩展的信息检索(IR)工具库。同时,在内存中构建索引;使用本地磁盘系统做存储索引;使用多文件索引,不使用复合索引等方式优化了原先的Lucene检索效率,大大地提高了检索的速度。
附图1为知识库检索实现方法的流程图,如附图1,包含虚线上部表示的索引过程和虚线下部表示的搜索过程;索引过程:对要搜索的原始内容进行索引构建一个索引库;索引过程包括:确定原始内容即要搜索的内容—》采集文档--》创建数据集--》预处理分析数据--》生产索引--》构建索引库。搜索过程:从索引库中搜索内容;搜索过程包括:用户通过搜索界面—》输入查询--》查询处理--》执行搜索,从索引库检索--》运用相关性计算--》渲染搜索结果--》结果输出。
上述索引过程:从命令行读取文件名(多个),将文件分路径(path字段)和内容(body字段)2个字段进行存储,并对内容进行全文索引,索引的单位是Document对象,每个Document对象包含多个字段Field对象;针对不同的字段属性和数据输出的需求,对字段还可以选择不同的索引或者存储字段规则。
Lucene提供的服务包含两部分:写入和读出。所谓写入,即把提供的源(本质是字符串)写入索引或者将其从索引中删除;所谓读出,即向用户提供全文搜索服务,让用户可以通过关键词定位源。
上述检索过程包含写入流程、读出流程。写入流程:将提供的源字符串写入索引或将其从索引中删除;写入流程具体实现过程:源字符串首先经过analyzer处理,包括:分词,分成一个个单词;或者去除stop word;将源中需要的信息加入Document的各个Field中,并把需要索引的Field索引起来,把需要存储的Field存储起来;将索引写入存储器,存储器可以是内存或磁盘。
这里分词过程主要由分词器完成,分词器包括Reader、Tokenizer、TokenFilter、TokenStream。附图2为分词过程流程图,如附图2所示,Tokenizer负责接收Reader字节流,将Reader字节流进行分词操作,TokenFilter对已经分词的语汇单元进行各种各样的过滤操作;TokenStream是分词器做好处理之后得到的一个流,TokenStream存储分词的各种信息,可以通过tokenStream有效的获取到分词单元信息。
读出流程:向用户提供全文搜索服务,通过关键词定位源;读出流程具体实现过程:用户提供搜索关键词,经过analyzer处理;对处理后的关键词搜索索引找出对应的Document;用户根据需要从找到的Document中提取需要的Field。
附图3为知识库检索原理示意图,如附图3,其原理流程涉及四种数据流,分别是文本流、Token流、字节流与查询语句对象流;文本流表示对于索引目标和交互控制的抽象,用文本流表示索引文件,用文本流向用户输出信息。文本流采用UCS-2作为编码,可以达到适应多种语言文字的处理的目的。Token流是Lucene内部所使用的概念,是对传统文字中词的概念的抽象,也是Lucene在建立索引时直接处理的最小单位;简单的讲Token就是一个词和所在域值的组合。字节流是对文件抽象的直接操作的体现,通过固定长度的字节(Lucene定义为8比特位长)流的处理将文件解脱出来,做到了与平台文件系统的无关性。查询语句对象流是仅在查询语句解析时用到的概念,它对查询语句抽象,通过类的继承结构反应查询语句的结构,将之传送到查询逻辑来进行查找操作。
如附图3,索引过程的原理流程包括:W)有一系列被索引文件;X)被索引文件经过(词法分析逻辑)语法分析和语言处理形成一系列词(Term);Y)经过(索引创建逻辑)索引创建形成词典和反向索引表;Z)通过索引存储(存储抽象)将索引写入索引文件(一般在硬盘中);
搜索过程的原理流程包括:a)用户输入查询语句;b)(通过词法分析逻辑)对查询语句经过语法分析和语言分析得到一系列词(Term);c)通过查询语句分析得到一个查询树;d)通过索引文件将索引读入到内存;e)利用查询树搜索索引,得到每个词(Term)的文档链表,对文档链表进行交、差、并得到结果文档;f)(通过索引查找逻辑)将搜索到的结果文档对查询的相关性(通过评分排序逻辑)进行排序;g)返回查询结果给用户。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容,并不用于限制本发明的保护范围,本发明的技术方案不限制于上述具体实施方式内。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。
Claims (10)
1.知识库检索实现方法,其特征在于, 改进基于词表的分词技术,对知识类别建立分块索引,在内存中构建索引,使用本地磁盘系统做存储索引,并使用多文件索引,不使用复合索引方式;所述知识库检索实现方法包括索引过程和搜索过程;
所述索引过程:对要搜索的原始内容进行索引构建一个索引库;索引过程包括:确定原始内容即要搜索的内容—》采集文档--》创建数据集--》预处理分析数据--》生产索引--》构建索引库;
所述搜索过程:从索引库中搜索内容;搜索过程包括:用户通过搜索界面—》输入查询--》查询处理--》执行搜索,从索引库检索--》运用相关性计算--》渲染搜索结果--》结果输出。
2.根据权利要求1所述知识库检索实现方法,其特征在于,所述索引过程:从命令行读取文件名,将文件分路径path字段和内容body字段2个字段进行存储,并对内容进行全文索引;索引的单位是Document对象,每个Document对象包含多个字段Field对象;针对不同的字段属性和数据输出的需求,对字段选择不同的索引或者存储字段规则。
3.根据权利要求2所述知识库检索实现方法,其特征在于,所述检索过程包含写入流程、读出流程;
所述写入流程:将提供的源字符串写入索引或将其从索引中删除;写入流程具体为:源字符串首先经过analyzer处理,包括:分词过程;将源字符串中需要的信息加入Document的各个Field中,将需要索引的Field索引起来,将需要存储的Field存储起来。
4.根据权利要求3所述知识库检索实现方法,其特征在于,所述将需要存储的Field存储起来,是将索引写入存储器,存储器为内存或磁盘。
5.根据权利要求3所述知识库检索实现方法,其特征在于,所述分词过程由分词器完成,所述分词器包括Reader、Tokenizer、TokenFilter、TokenStream;
所述分词过程具体包括:所述Tokenizer负责接收Reader字节流,将Reader字节流进行分词操作,所述TokenFilter对已经分词的语汇单元进行各种各样的过滤操作;所述TokenStream存储分词的各种信息,通过tokenStream有效获取到分词单元信息。
6.根据权利要求5所述知识库检索实现方法,其特征在于,所述读出流程:向用户提供全文搜索服务,通过关键词定位源;读出流程具体为:用户提供搜索关键词,经过analyzer处理;对处理后的关键词搜索索引找出对应的Document;用户根据需要从找到的Document中提取需要的Field。
7.根据权利要求6所述知识库检索实现方法,其特征在于,所述知识库检索实现方法涉及四种数据流,分别是文本流、Token流、字节流与查询语句对象流;其中,
所述文本流表示对于索引目标和交互控制的抽象,用来表示索引文件,用文本流向用户输出信息;所述Token流是对文字中词的概念的抽象,是Lucene在建立索引时直接处理的最小单位;所述字节流是对文件抽象的直接操作的体现,通过固定长度的字节流的处理将文件解脱出来;所述查询语句对象流,用来对查询语句抽象,通过类的继承结构反应查询语句的结构,将之传送到查询逻辑来进行查找操作。
8.根据权利要求7所述知识库检索实现方法,其特征在于,所述文本流采用UCS-2作为编码。
9.根据权利要求8所述知识库检索实现方法,其特征在于,所述索引过程的原理流程包括: W)有一系列被索引文件;X)被索引文件经过语法分析和语言处理形成一系列词;Y)经过索引创建形成词典和反向索引表;Z)通过索引存储将索引写入索引文件。
10.根据权利要求9所述知识库检索实现方法,其特征在于,所述搜索过程的原理流程包括:a)用户输入查询语句;b)对查询语句经过语法分析和语言分析得到一系列词;c)通过查询语句分析得到一个查询树;d)通过索引文件将索引读入到内存;e)利用查询树搜索索引,得到每个词的文档链表,对文档链表进行交、差、并得到结果文档;f)将搜索到的结果文档对查询的相关性进行排序;g)返回查询结果给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810522891.5A CN108804592A (zh) | 2018-05-28 | 2018-05-28 | 知识库检索实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810522891.5A CN108804592A (zh) | 2018-05-28 | 2018-05-28 | 知识库检索实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108804592A true CN108804592A (zh) | 2018-11-13 |
Family
ID=64090419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810522891.5A Pending CN108804592A (zh) | 2018-05-28 | 2018-05-28 | 知识库检索实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108804592A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299143A (zh) * | 2018-11-28 | 2019-02-01 | 重庆邮电大学 | 基于Redis缓存的数据互操作测试知识库的知识快速索引方法 |
CN109471888A (zh) * | 2018-11-15 | 2019-03-15 | 广东电网有限责任公司信息中心 | 一种快速过滤xml文件中无效信息的方法 |
CN109783599A (zh) * | 2018-12-29 | 2019-05-21 | 北京航天云路有限公司 | 基于多种存储介质的知识图谱检索方法及系统 |
CN110867179A (zh) * | 2019-11-12 | 2020-03-06 | 云南电网有限责任公司德宏供电局 | 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统 |
CN111930879A (zh) * | 2020-07-10 | 2020-11-13 | 银盛支付服务股份有限公司 | 一种基于管理系统的全文搜索引擎方法及系统 |
CN112115361A (zh) * | 2020-09-17 | 2020-12-22 | 浪潮卓数大数据产业发展有限公司 | 一种基于elasticsearch的数据检索优化方法及系统 |
CN112395389A (zh) * | 2020-11-17 | 2021-02-23 | 中国外运股份有限公司 | 基于报关单规则的全文智能检索方法及装置 |
CN113094464A (zh) * | 2021-03-31 | 2021-07-09 | 哈尔滨理工大学 | 可扩展的农作物病害分析库的建立以及辅助鉴定方法 |
CN114020779A (zh) * | 2021-10-22 | 2022-02-08 | 上海卓辰信息科技有限公司 | 自适应优化检索性能数据库及数据查询方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090248399A1 (en) * | 2008-03-21 | 2009-10-01 | Lawrence Au | System and method for analyzing text using emotional intelligence factors |
CN101853288A (zh) * | 2010-05-19 | 2010-10-06 | 马晓普 | 基于文档实时监控可配置的全文检索服务系统 |
CN106055546A (zh) * | 2015-10-08 | 2016-10-26 | 北京慧存数据科技有限公司 | 基于Lucene的光盘库全文检索系统 |
CN106844700A (zh) * | 2017-02-03 | 2017-06-13 | 山东浪潮商用系统有限公司 | 一种基于Sorl的问税系统 |
US20170213157A1 (en) * | 2015-07-17 | 2017-07-27 | Knoema Corporation | Method and system to provide related data |
CN107122441A (zh) * | 2017-04-24 | 2017-09-01 | 浪潮通信信息系统有限公司 | 一种基于大数据的通信数据检索及呈现方法 |
-
2018
- 2018-05-28 CN CN201810522891.5A patent/CN108804592A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090248399A1 (en) * | 2008-03-21 | 2009-10-01 | Lawrence Au | System and method for analyzing text using emotional intelligence factors |
CN101853288A (zh) * | 2010-05-19 | 2010-10-06 | 马晓普 | 基于文档实时监控可配置的全文检索服务系统 |
US20170213157A1 (en) * | 2015-07-17 | 2017-07-27 | Knoema Corporation | Method and system to provide related data |
CN106055546A (zh) * | 2015-10-08 | 2016-10-26 | 北京慧存数据科技有限公司 | 基于Lucene的光盘库全文检索系统 |
CN106844700A (zh) * | 2017-02-03 | 2017-06-13 | 山东浪潮商用系统有限公司 | 一种基于Sorl的问税系统 |
CN107122441A (zh) * | 2017-04-24 | 2017-09-01 | 浪潮通信信息系统有限公司 | 一种基于大数据的通信数据检索及呈现方法 |
Non-Patent Citations (4)
Title |
---|
HONEYMOOSE: "Lucene数据流分析", 《HTTPS://BLOG.CSDN.NET/HUYUCHENGUS/ARTICLE/DETAILS/83936961》 * |
W-大泡泡: "Lucene系列-索引(二)-Lucene索引器的索引结构(多文件/符合索引结构)", 《HTTPS://BLOG.CSDN.NET/U011389474/ARTICLE/DETAILS/69458445》 * |
欧阳思海: "Lucene教程——全文检索技术详解", 《HTTPS://BLOG.CSDN.NET/SIHAI12345/ARTICLE/DETAILS/70550362》 * |
没有BUG的土豆: "Lucene全文检索基本原理", 《HTTPS://WWW.CNBLOGS.COM/SUMMER-JAVA/P/8778167.HTML》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471888A (zh) * | 2018-11-15 | 2019-03-15 | 广东电网有限责任公司信息中心 | 一种快速过滤xml文件中无效信息的方法 |
CN109471888B (zh) * | 2018-11-15 | 2021-11-09 | 广东电网有限责任公司信息中心 | 一种快速过滤xml文件中无效信息的方法 |
CN109299143B (zh) * | 2018-11-28 | 2022-03-22 | 重庆邮电大学 | 基于Redis缓存的数据互操作测试知识库的知识快速索引方法 |
CN109299143A (zh) * | 2018-11-28 | 2019-02-01 | 重庆邮电大学 | 基于Redis缓存的数据互操作测试知识库的知识快速索引方法 |
CN109783599A (zh) * | 2018-12-29 | 2019-05-21 | 北京航天云路有限公司 | 基于多种存储介质的知识图谱检索方法及系统 |
CN110867179A (zh) * | 2019-11-12 | 2020-03-06 | 云南电网有限责任公司德宏供电局 | 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统 |
CN111930879A (zh) * | 2020-07-10 | 2020-11-13 | 银盛支付服务股份有限公司 | 一种基于管理系统的全文搜索引擎方法及系统 |
CN112115361A (zh) * | 2020-09-17 | 2020-12-22 | 浪潮卓数大数据产业发展有限公司 | 一种基于elasticsearch的数据检索优化方法及系统 |
CN112115361B (zh) * | 2020-09-17 | 2022-07-05 | 浪潮卓数大数据产业发展有限公司 | 一种基于elasticsearch的数据检索优化方法及系统 |
CN112395389A (zh) * | 2020-11-17 | 2021-02-23 | 中国外运股份有限公司 | 基于报关单规则的全文智能检索方法及装置 |
CN113094464A (zh) * | 2021-03-31 | 2021-07-09 | 哈尔滨理工大学 | 可扩展的农作物病害分析库的建立以及辅助鉴定方法 |
CN113094464B (zh) * | 2021-03-31 | 2024-05-28 | 哈尔滨理工大学 | 可扩展的农作物病害分析库的建立以及辅助鉴定方法 |
CN114020779A (zh) * | 2021-10-22 | 2022-02-08 | 上海卓辰信息科技有限公司 | 自适应优化检索性能数据库及数据查询方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11573996B2 (en) | System and method for hierarchically organizing documents based on document portions | |
JP7282940B2 (ja) | 電子記録の文脈検索のためのシステム及び方法 | |
CN108804592A (zh) | 知识库检索实现方法 | |
CN103136352B (zh) | 基于双层语义分析的全文检索系统 | |
CN102253930B (zh) | 一种文本翻译的方法及装置 | |
Hamdi et al. | In-depth analysis of the impact of OCR errors on named entity recognition and linking | |
CN105045852A (zh) | 一种教学资源的全文搜索引擎系统 | |
CN109726274A (zh) | 问题生成方法、装置及存储介质 | |
KR20160060253A (ko) | 자연어 질의 응답 시스템 및 방법 | |
CN102789464B (zh) | 基于语意识别的自然语言处理方法、装置和系统 | |
CN113221559B (zh) | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 | |
Sabty et al. | Language identification of intra-word code-switching for arabic–english | |
US20240046039A1 (en) | Method for News Mapping and Apparatus for Performing the Method | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN115828893A (zh) | 非结构化文档问答的方法、装置、存储介质和设备 | |
CN111046168A (zh) | 用于生成专利概述信息的方法、装置、电子设备和介质 | |
Mazitov et al. | Named entity recognition in Russian using multi-task LSTM-CRF | |
US20240070396A1 (en) | Method for Determining Candidate Company Related to News and Apparatus for Performing the Method | |
Zaman et al. | Intelligent abstractive summarization of scholarly publications with transfer learning | |
Camps et al. | Corpus and Models for Lemmatisation and POS-tagging of Old French | |
Klang et al. | Linking, searching, and visualizing entities in wikipedia | |
CN115617965A (zh) | 一种语言结构大数据的快速检索方法 | |
Pasca et al. | Answer mining from on-line documents | |
Gupta et al. | Identification and extraction of multiword expressions from Hindi & Urdu language in natural language processing | |
Yoo et al. | A semantic search model using word embedding, pos tagging, and named entity recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181113 |