[go: up one dir, main page]

CN108255972A - 一种全文检索方法及系统 - Google Patents

一种全文检索方法及系统 Download PDF

Info

Publication number
CN108255972A
CN108255972A CN201711441728.8A CN201711441728A CN108255972A CN 108255972 A CN108255972 A CN 108255972A CN 201711441728 A CN201711441728 A CN 201711441728A CN 108255972 A CN108255972 A CN 108255972A
Authority
CN
China
Prior art keywords
file
retrieval
index
description information
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711441728.8A
Other languages
English (en)
Inventor
张迪
崔俊啸
臧德波
蔺川
景长超
张鹏
褚波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur General Software Co Ltd
Original Assignee
Inspur General Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur General Software Co Ltd filed Critical Inspur General Software Co Ltd
Priority to CN201711441728.8A priority Critical patent/CN108255972A/zh
Publication of CN108255972A publication Critical patent/CN108255972A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种全文检索方法及系统,该方法包括:获取至少一个文件数据,确定每一个所述文件数据对应的描述信息;根据所述描述信息,构建每一个所述文件数据对应的文件索引;获取用户输入的检索信息;从所述检索信息中解析出至少一个检索关键词;从各个所述文件索引中确定与所述至少一个检索关键词对应的目标文件索引;确定所述目标文件索引对应的目标描述信息,并对所述目标描述信息进行展示。本方案能提高数据检索效率。

Description

一种全文检索方法及系统
技术领域
本发明涉及计算机技术领域,特别涉及一种全文检索方法及系统。
背景技术
随着计算机技术的发展,数据呈现爆发式增长,如何从文件系统中快速检索到目标数据,对提高数据处理效率具有重要影响。
Hadoop提供的分布式文件系统可存储大量的数据,各个数据分散存储在不同的存储装置中,例如分散在各个磁盘中。用户在检索目标数据时,需要对存储装置进行逐个查看,以确定存储装置中是否存在目标数据。
由于文件系统中存储的数据量较大,各个数据的存储位置也不尽相同,因此采用逐个查找存储装置的方式来检索目标数据,效率较低。
发明内容
本发明实施例提供了一种全文检索方法及系统,能提高数据的检索效率。
第一方面,本发明实施例提供了一种全文检索方法,包括:
获取至少一个文件数据,确定每一个所述文件数据对应的描述信息;
根据所述描述信息,构建每一个所述文件数据对应的文件索引;
获取用户输入的检索信息;
从所述检索信息中解析出至少一个检索关键词;
从各个所述文件索引中确定与所述至少一个检索关键词对应的目标文件索引;
确定所述目标文件索引对应的目标描述信息,并对所述目标描述信息进行展示。
优选地,
在所述获取用户输入的检索信息之后,进一步包括:
获取用户输入的检索条件;
所述从各个所述文件索引中确定与所述至少一个检索关键词对应的目标文件索引,包括:
根据所述检索条件和各个所述检索关键词,确定所述目标文件索引。
优选地,
所述根据所述检索条件和各个所述检索关键词,确定所述目标文件索引,包括:
根据所述检索条件携带的检索时间,以及各个所述文件索引对应的所述描述信息中的创建时间,从各个所述文件索引中确定出与所述检索时间对应的备选文件索引;
从确定出的所述备选文件索引中确定与所述检索关键词对应的目标文件索引;
优选地,
所述根据所述检索条件和各个所述检索关键词,确定所述目标文件索引,包括:
根据所述检索条件携带的检索文件类型,以及各个所述文件索引对应的所述描述信息中的创建文件类型,从各个所述文件索引中确定出与所述检索文件类型对应的备选文件索引;
从确定出的所述备选文件索引中确定与所述检索关键词对应的目标文件索引;
优选地,
所述根据所述检索条件和各个所述检索关键词,确定所述目标文件索引,包括:
根据所述检索条件中携带的拼接关系,对各个所述检索关键词进行组合;
根据组合后的所述检索关键词,确定所述目标文件索引。
优选地,
进一步包括:在预设存储位置构建索引库;
所述根据所述描述信息,构建每一个所述文件数据对应的文件索引,包括:
利用预设的分词器对所述描述信息中的文件内容进行分词,获得至少一个内容关键词;
利用预设的所述分词器对应的词典对所述至少一个内容关键词进行处理,并将处理后的所述内容关键词写入所述描述信息;
利用预设的索引创建器将所述描述信息存入所述索引库,形成所述文件索引。
优选地,
进一步包括:
接收用户输入的文件删除请求;
根据所述文件删除请求,从所述至少一个文件数据中确定待删除文件数据;
确定所述待删除文件对应的待删除描述信息以及待删除文件索引;
利用所述索引创建器将所述待删除描述信息以及所述待删除文件索引从所述索引库中删除。
第二方面,本发明实施例提供了一种全文检索系统,包括:索引构建单元、获取单元和检索单元;其中,
所述索引构建单元,用于获取至少一个文件数据,确定每一个所述文件数据对应的描述信息,根据所述描述信息,构建每一个所述文件数据对应的文件索引;
所述获取单元,用于获取用户输入的检索信息,并从所述检索信息中解析出至少一个检索关键词;
所述检索单元,用于从各个所述文件索引中确定与所述至少一个检索关键词对应的目标文件索引;确定所述目标文件索引对应的目标描述信息,并对所述目标描述信息进行展示。
优选地,
所述获取单元,进一步用于获取用户输入的检索条件;
所述检索单元,用于根据所述检索条件和各个所述检索关键词,确定所述目标文件索引。
优选地,
所述检索单元,用于根据所述检索条件携带的检索时间,以及各个所述文件索引对应的所述描述信息中的创建时间,从各个所述文件索引中确定出与所述检索时间对应的备选文件索引;从确定出的所述备选文件索引中确定与所述检索关键词对应的目标文件索引;
优选地,
所述检索单元,用于根据所述检索条件携带的检索文件类型,以及各个所述文件索引对应的所述描述信息中的创建文件类型,从各个所述文件索引中确定出与所述检索文件类型对应的备选文件索引;从确定出的所述备选文件索引中确定与所述检索关键词对应的目标文件索引;
优选地,
所述检索单元,用于根据所述检索条件中携带的拼接关系,对各个所述检索关键词进行组合;根据组合后的所述检索关键词,确定所述目标文件索引。
优选地,
进一步包括:设置单元;其中,
所述设置单元,用于在预设存储位置构建索引库;
所述索引构建单元,用于利用预设的分词器对所述描述信息中的文件内容进行分词,获得至少一个内容关键词;利用预设的所述分词器对应的词典对所述至少一个内容关键词进行处理,并将处理后的所述内容关键词写入所述描述信息;利用预设的索引创建器将所述描述信息存入所述索引库,形成所述文件索引。
优选地,
进一步包括:索引删除单元;其中,
所述获取单元,进一步用于接收用户输入的文件删除请求;
所述索引删除单元,用于根据所述文件删除请求,从所述至少一个文件数据中确定待删除文件数据;确定所述待删除文件对应的待删除描述信息以及待删除文件索引;利用所述索引创建器将所述待删除描述信息以及所述待删除文件索引从所述索引库中删除。
本发明实施例提供了一种全文检索方法及系统,根据获取到的文件数据的描述信息生成各个文件数据对应的文件索引。当获取到用户输入的检索信息时,从检索信息中解析出检索关键词,并确定与检索关键词对应的目标文件索引,然后对目标文件索引对应的目标描述信息进行展示。由此实现对各个文件数据的自动检索,而无须采用逐个查找存储装置的方式来检索目标数据,从而提高了数据的检索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种全文检索方法的流程图;
图2是本发明一个实施例提供的一种全文检索系统的结构示意图;
图3是本发明另一个实施例提供的一种全文检索系统的结构示意图;
图4是本发明又一个实施例提供的一种全文检索系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种全文检索方法,该方法可以包括以下步骤:
步骤101:获取至少一个文件数据,确定每一个所述文件数据对应的描述信息;
步骤102:根据所述描述信息,构建每一个所述文件数据对应的文件索引;
步骤103:获取用户输入的检索信息;
步骤104:从所述检索信息中解析出至少一个检索关键词;
步骤105:从各个所述文件索引中确定与所述至少一个检索关键词对应的目标文件索引;
步骤106:确定所述目标文件索引对应的目标描述信息,并对所述目标描述信息进行展示。
上述实施例中,根据获取到的文件数据的描述信息生成各个文件数据对应的文件索引。当获取到用户输入的检索信息时,从检索信息中解析出检索关键词,并确定与检索关键词对应的目标文件索引,然后对目标文件索引对应的目标描述信息进行展示。由此实现对各个文件数据的自动检索,而无须采用逐个查找存储装置的方式来检索目标数据,从而提高了数据的检索效率。
本发明一个实施例中,该方法可以进一步包括:在预设存储位置构建索引库;
则步骤102的具体实施方式,可以包括:
利用预设的分词器对所述描述信息中的文件内容进行分词,获得至少一个内容关键词;
利用预设的所述分词器对应的词典对所述至少一个内容关键词进行处理,并将处理后的所述内容关键词写入所述描述信息;
利用预设的索引创建器将所述描述信息存入所述索引库,形成所述文件索引。
在本实施例中,在本地文件系统中确定出待存放索引文件的存储位置,例如磁盘A,将其确定为索引库的存储位置,并在该存储位置构建索引库。然后构造索引创建器,索引创建器可创建文件索引,并将文件索引存放入索引库的位置,并设置其为追加方式。接着可配置分词器,例如IK分词器,可构建多个词库,例如扩展词库、禁用词库和同义词库,通过建立的词库调整分词器对应的词典,例如IKAnalyzor的词典。当创建文件索引时,根据文件类型创建相应的文档描述,并设置相应属性域的内容,形成该文件数据的描述信息,其具体内容如表1所示。
表1
属性名称
fileName 文件名
fileDataName 文件上传对象的名称
content 文件内容
path 文件路径
type 文件类型
fileID 文件标识符
category 种类
createTime 创建时间
top_directory 上级目录
versionID 版本号
利用分词器对描述信息中的文件内容进行分词,形成多个内容关键词,并利用调整后的词典对内容关键词进行处理,例如,内容关键词中包括“高高”和“兴兴”两个词,可利用扩展词库将其合并为“高高兴兴”,并利用同义词库确定“高高兴兴”的同义词,例如确定出“高兴”和“快乐”。然后将处理后的内容关键词写入描述信息,替换原有的文件内容,并利用索引创建器将替换后的描述信息存入索引库,形成该文件数据对应的文件索引。由此,将各个文件索引统一在索引库进行存储,在检索时只需针对索引库所处存储位置进行检索,避免去各个磁盘查找的复杂性,从而进一步提高了数据的检索效率。
本发明一个实施例中,该方法可以进一步包括:
接收用户输入的文件删除请求;
根据所述文件删除请求,从所述至少一个文件数据中确定待删除文件数据;
确定所述待删除文件对应的待删除描述信息以及待删除文件索引;
利用所述索引创建器将所述待删除描述信息以及所述待删除文件索引从所述索引库中删除。
在这里,当接收到用户输入的文件删除请求时,需要删除相对应的文件索引,具体地,可从已获取的文件数据中确定出与文件删除请求相对应的待删除文件数据,将确定出的待删除文件数据进行删除,并确定该待删除文件数据对应的待删除描述信息以及待删除文件索引,然后利用索引创建器将该待删除文件索引和待删除描述信息进行删除。由此,在删除文件数据时,将其对应的文件索引也一并删除,避免无法通过文件索引获取具体的文件数据,从而提高检索的准确性。
值得一提的是,当对文件数据进行移动或修改时,可先删除该文件对应的文件索引及描述信息,再根据修改的文件数据生成新的描述信息,重新建立修改后的文件数据的文件索引,由此在文件数据发生变更时,可自动创建新的文件索引,实现与文件数据同步,从而确保文件索引的准确性,以此提高检索的准确性。
本发明一个实施例中,在步骤103之后,进一步包括:
获取用户输入的检索条件;
步骤105的具体实施方式,可以包括:
根据所述检索条件和各个所述检索关键词,确定所述目标文件索引。
在这里,用户可自定义检索条件,例如检索时间、检索文件类型和各个检索关键词的拼接关系等。在获取用户的检索信息之前,可预先设置文件名和文件内容在搜索结果排序过程中分别对应的权重值,例如,设置文件名的权重值大于文件内容的权重值,则检索出与检索信息对应的多个文件数据之后,按照文件名与检索信息的相关度进行排序,即权重值越高的文件数据排名越靠前。另外,还可配置IK分词器,利用预先建立的扩展词库、禁用词库和同义词库对检索关键词进行处理,有利于进一步提高检索准确性。
具体地,本发明一个实施例中,所述根据所述检索条件和各个所述检索关键词,确定所述目标文件索引,包括:
根据所述检索条件携带的检索时间,以及各个所述文件索引对应的所述描述信息中的创建时间,从各个所述文件索引中确定出与所述检索时间对应的备选文件索引;
从确定出的所述备选文件索引中确定与所述检索关键词对应的目标文件索引。
在本实施例中,用户输入的检索条件限制的检索时间范围,则可根据各个文件数据的描述信息中的createTime,即文件索引的创建时间进行筛选,例如,用户输入的检索时间为2017.10.1-2017.11.1,则将创建时间在此时间段内的文件索引作为备选文件索引,再从这些备选文件索引中确定与检索关键词相对应的目标文件索引,由此进一步了提高检索的准确性。
该方法至少可通过以下程序语言实现:
Term begin=new Term("ctreateTime",dateBegin);
Term end=new Term("ctreateTime",dateEnd);
Query rangequery=new TermRangeQuery("ctreateTime",begin.bytes(),end.bytes(),true,true);
booleanQuery.add(rangequery,Occur.MUST).
本发明一个实施例中,所述根据所述检索条件和各个所述检索关键词,确定所述目标文件索引,包括:
根据所述检索条件携带的检索文件类型,以及各个所述文件索引对应的所述描述信息中的创建文件类型,从各个所述文件索引中确定出与所述检索文件类型对应的备选文件索引;
从确定出的所述备选文件索引中确定与所述检索关键词对应的目标文件索引。
用户除了可设置检索时间范围以外,还可设置检索文件类型,例如,用户设置的检索文件类型为Word时,则检索时只会对doc和docx类型文件搜索,其它文件类型同理,由此可进一步提高检索的准确性。可以理解的是,当用户未对检索文件类型作特殊设置时,可默认检索全部文件类型。具体地,用户设置的检索文件类型与文件数据的格式的对应关系如表2所示。
表2
文件类型
全部 所有格式
Word doc、docx
PDF pdf
Excel xls、xlsx
TXT txt
PPT ppt、pptx
PICTURE bmp、jpg、jpeg、png、gif
VEDIO avi、wma、rmvb、mp4、flash、mp3、wav
本发明一个实施例中,所述根据所述检索条件和各个所述检索关键词,确定所述目标文件索引,包括:
根据所述检索条件中携带的拼接关系,对各个所述检索关键词进行组合;
根据组合后的所述检索关键词,确定所述目标文件索引。
在这里,用户除了对检索时间和检索文件类型进行设置外,还能设置高级检索,即通过下拉框选择“并且”“或者”“不含”,对各个检索关键词进行组合,以拼接查询条件,其中,“并且”是与运算,检索同时满足条件的文件索引;“或者”是或运算,满足一个即可;“不含”是非运算,去掉符合“不含”后面条件的文件索引。可以理解的是,当用户设置的检索条件包括检索时间和检索文件类型时,也可以通过设置其拼接关系来确定检索的组合关系,以拼接出不同的检索条件。由此可使用户自定义检索条件,有利于准确检索出符合用户需求的文件索引,提高用户体验。
值得一提的是,在展示出相应的目标描述信息之后,还可向用户提供预览和下载相应文件数据的功能。例如,检索结果中有Word、PDF、TXT等类型的文件,用户点击文件后,可以通过属性域中的文件信息找到该文件,并缓存至浏览器实现预览。用户还可通过点击文件下方的下载按钮,可以通过属性域中的文件信息找到该文件并下载,由此可便于用户获取相应的文件数据,从而进一步提高用户体验。
另外,由于Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。作为一个全文检索引擎,其具有如下突出的优点:1、索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。2、在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。3、优秀的面向对象的系统架构,使得对于Lucene扩展的学习难度降低,方便扩充新功能。4、设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口。5、已经默认实现了一套强大的查询引擎,用户无需自己编写代码即可使系统可获得强大的查询能力,Lucene的查询实现中默认实现了布尔操作、模糊查询(Fuzzy Search)、分组查询等等。并且,在Java开发环境里Lucene是一个成熟的免费开源工具,其具有跨平台性,能为软件开发人员提供一个简单易用的工具包,以此为基础建立更适合当前应用的全文检索引擎,因此可基于Lucene建立面向Hadoop文件系统的检索系统。
如图2所示,本发明实施例提供了一种全文检索系统,包括:索引构建单元201、获取单元202和检索单元203;其中,
所述索引构建单元201,用于获取至少一个文件数据,确定每一个所述文件数据对应的描述信息,根据所述描述信息,构建每一个所述文件数据对应的文件索引;
所述获取单元202,用于获取用户输入的检索信息,并从所述检索信息中解析出至少一个检索关键词;
所述检索单元203,用于从各个所述文件索引中确定与所述至少一个检索关键词对应的目标文件索引;确定所述目标文件索引对应的目标描述信息,并对所述目标描述信息进行展示。
本发明一个实施例中,所述获取单元202,进一步用于获取用户输入的检索条件;
所述检索单元203,用于根据所述检索条件和各个所述检索关键词,确定所述目标文件索引。
本发明一个实施例中,所述检索单元203,用于根据所述检索条件携带的检索时间,以及各个所述文件索引对应的所述描述信息中的创建时间,从各个所述文件索引中确定出与所述检索时间对应的备选文件索引;从确定出的所述备选文件索引中确定与所述检索关键词对应的目标文件索引。
本发明一个实施例中,所述检索单元203,用于根据所述检索条件携带的检索文件类型,以及各个所述文件索引对应的所述描述信息中的创建文件类型,从各个所述文件索引中确定出与所述检索文件类型对应的备选文件索引;从确定出的所述备选文件索引中确定与所述检索关键词对应的目标文件索引。
本发明一个实施例中,所述检索单元203,用于根据所述检索条件中携带的拼接关系,对各个所述检索关键词进行组合;根据组合后的所述检索关键词,确定所述目标文件索引。
如图3所示,本发明一个实施例中,该系统可以进一步包括:设置单元301;其中,
所述设置单元301,用于在预设存储位置构建索引库;
所述索引构建单元201,用于利用预设的分词器对所述描述信息中的文件内容进行分词,获得至少一个内容关键词;利用预设的所述分词器对应的词典对所述至少一个内容关键词进行处理,并将处理后的所述内容关键词写入所述描述信息;利用预设的索引创建器将所述描述信息存入所述索引库,形成所述文件索引。
如图4所示。本发明一个实施例中,该系统可以进一步包括:索引删除单元401;其中,
所述获取单元302,进一步用于接收用户输入的文件删除请求;
所述索引删除单元401,用于根据所述文件删除请求,从所述至少一个文件数据中确定待删除文件数据;确定所述待删除文件对应的待删除描述信息以及待删除文件索引;利用所述索引创建器将所述待删除描述信息以及所述待删除文件索引从所述索引库中删除。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例还提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行本发明上述任一实施例提供的方法。
本发明实施例还提供了一种存储控制器,包括:处理器、存储器和总线;所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行本发明上述任一实施例提供的方法。
综上所述,本发明以上各个实施例至少具有如下有益效果:
1、在本发明实施例中,根据获取到的文件数据的描述信息生成各个文件数据对应的文件索引。当获取到用户输入的检索信息时,从检索信息中解析出检索关键词,并确定与检索关键词对应的目标文件索引,然后对目标文件索引对应的目标描述信息进行展示。由此实现对各个文件数据的自动检索,而无须采用逐个查找存储装置的方式来检索目标数据,从而提高了数据的检索效率。
2、在本发明实施例中,在预设存储位置构建索引库,然后利用索引创建器将描述信息存入索引库,形成文件索引。由此,将各个文件索引统一在索引库进行存储,在检索时只需针对索引库所处存储位置进行检索,避免去各个磁盘查找的复杂性,从而进一步提高了数据的检索效率。
3、在本发明实施例中,当接收到用户输入的文件删除请求时,从已获取的文件数据中确定出与文件删除请求相对应的待删除文件数据,将确定出的待删除文件数据进行删除,并确定该待删除文件数据对应的待删除描述信息以及待删除文件索引,然后利用索引创建器将该待删除文件索引和待删除描述信息进行删除。由此,在删除文件数据时,将其对应的文件索引也一并删除,避免无法通过文件索引获取具体的文件数据,从而提高检索的准确性。
4、在本发明实施例中,当对文件数据进行移动或修改时,先删除该文件对应的文件索引及描述信息,再根据修改的文件数据生成新的描述信息,重新建立修改后的文件数据的文件索引,由此在文件数据发生变更时,可自动创建新的文件索引,实现与文件数据同步,从而确保文件索引的准确性,以此提高检索的准确性。
5、在本发明实施例中,能使用户自定义的检索条件,包括检索时间、检索文件类型以及各个检索条件和检索关键词的拼接关系等。由此有利于准确检索出符合用户需求的文件索引,提高用户体验。
6、在本发明实施例中,在展示出相应的目标描述信息之后,还可向用户提供预览和下载相应文件数据的功能。由此可便于用户获取相应的文件数据,从而进一步提高用户体验。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种全文检索方法,其特征在于,包括:
获取至少一个文件数据,确定每一个所述文件数据对应的描述信息;
根据所述描述信息,构建每一个所述文件数据对应的文件索引;
获取用户输入的检索信息;
从所述检索信息中解析出至少一个检索关键词;
从各个所述文件索引中确定与所述至少一个检索关键词对应的目标文件索引;
确定所述目标文件索引对应的目标描述信息,并对所述目标描述信息进行展示。
2.根据权利要求1所述的方法,其特征在于,
在所述获取用户输入的检索信息之后,进一步包括:
获取用户输入的检索条件;
所述从各个所述文件索引中确定与所述至少一个检索关键词对应的目标文件索引,包括:
根据所述检索条件和各个所述检索关键词,确定所述目标文件索引。
3.根据权利要求2所述的方法,其特征在于,
所述根据所述检索条件和各个所述检索关键词,确定所述目标文件索引,包括:
根据所述检索条件携带的检索时间,以及各个所述文件索引对应的所述描述信息中的创建时间,从各个所述文件索引中确定出与所述检索时间对应的备选文件索引;
从确定出的所述备选文件索引中确定与所述检索关键词对应的目标文件索引;
和/或,
所述根据所述检索条件和各个所述检索关键词,确定所述目标文件索引,包括:
根据所述检索条件携带的检索文件类型,以及各个所述文件索引对应的所述描述信息中的创建文件类型,从各个所述文件索引中确定出与所述检索文件类型对应的备选文件索引;
从确定出的所述备选文件索引中确定与所述检索关键词对应的目标文件索引;
和/或,
所述根据所述检索条件和各个所述检索关键词,确定所述目标文件索引,包括:
根据所述检索条件中携带的拼接关系,对各个所述检索关键词进行组合;
根据组合后的所述检索关键词,确定所述目标文件索引。
4.根据权利要求1所述的方法,其特征在于,
进一步包括:在预设存储位置构建索引库;
所述根据所述描述信息,构建每一个所述文件数据对应的文件索引,包括:
利用预设的分词器对所述描述信息中的文件内容进行分词,获得至少一个内容关键词;
利用预设的所述分词器对应的词典对所述至少一个内容关键词进行处理,并将处理后的所述内容关键词写入所述描述信息;
利用预设的索引创建器将所述描述信息存入所述索引库,形成所述文件索引。
5.根据权利要求4所述的方法,其特征在于,
进一步包括:
接收用户输入的文件删除请求;
根据所述文件删除请求,从所述至少一个文件数据中确定待删除文件数据;
确定所述待删除文件对应的待删除描述信息以及待删除文件索引;
利用所述索引创建器将所述待删除描述信息以及所述待删除文件索引从所述索引库中删除。
6.一种全文检索系统,其特征在于,包括:索引构建单元、获取单元和检索单元;其中,
所述索引构建单元,用于获取至少一个文件数据,确定每一个所述文件数据对应的描述信息,根据所述描述信息,构建每一个所述文件数据对应的文件索引;
所述获取单元,用于获取用户输入的检索信息,并从所述检索信息中解析出至少一个检索关键词;
所述检索单元,用于从各个所述文件索引中确定与所述至少一个检索关键词对应的目标文件索引;确定所述目标文件索引对应的目标描述信息,并对所述目标描述信息进行展示。
7.根据权利要求6所述的系统,其特征在于,
所述获取单元,进一步用于获取用户输入的检索条件;
所述检索单元,用于根据所述检索条件和各个所述检索关键词,确定所述目标文件索引。
8.根据权利要求7所述的系统,其特征在于,
所述检索单元,用于根据所述检索条件携带的检索时间,以及各个所述文件索引对应的所述描述信息中的创建时间,从各个所述文件索引中确定出与所述检索时间对应的备选文件索引;从确定出的所述备选文件索引中确定与所述检索关键词对应的目标文件索引;
和/或,
所述检索单元,用于根据所述检索条件携带的检索文件类型,以及各个所述文件索引对应的所述描述信息中的创建文件类型,从各个所述文件索引中确定出与所述检索文件类型对应的备选文件索引;从确定出的所述备选文件索引中确定与所述检索关键词对应的目标文件索引;
和/或,
所述检索单元,用于根据所述检索条件中携带的拼接关系,对各个所述检索关键词进行组合;根据组合后的所述检索关键词,确定所述目标文件索引。
9.根据权利要求6所述的系统,其特征在于,
进一步包括:设置单元;其中,
所述设置单元,用于在预设存储位置构建索引库;
所述索引构建单元,用于利用预设的分词器对所述描述信息中的文件内容进行分词,获得至少一个内容关键词;利用预设的所述分词器对应的词典对所述至少一个内容关键词进行处理,并将处理后的所述内容关键词写入所述描述信息;利用预设的索引创建器将所述描述信息存入所述索引库,形成所述文件索引。
10.根据权利要求9所述的系统,其特征在于,
进一步包括:索引删除单元;其中,
所述获取单元,进一步用于接收用户输入的文件删除请求;
所述索引删除单元,用于根据所述文件删除请求,从所述至少一个文件数据中确定待删除文件数据;确定所述待删除文件对应的待删除描述信息以及待删除文件索引;利用所述索引创建器将所述待删除描述信息以及所述待删除文件索引从所述索引库中删除。
CN201711441728.8A 2017-12-27 2017-12-27 一种全文检索方法及系统 Pending CN108255972A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711441728.8A CN108255972A (zh) 2017-12-27 2017-12-27 一种全文检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711441728.8A CN108255972A (zh) 2017-12-27 2017-12-27 一种全文检索方法及系统

Publications (1)

Publication Number Publication Date
CN108255972A true CN108255972A (zh) 2018-07-06

Family

ID=62724110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711441728.8A Pending CN108255972A (zh) 2017-12-27 2017-12-27 一种全文检索方法及系统

Country Status (1)

Country Link
CN (1) CN108255972A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299466A (zh) * 2018-10-22 2019-02-01 中国船舶工业综合技术经济研究院 一种面向国防科技领域的文献检索方法及系统
CN109902150A (zh) * 2019-02-25 2019-06-18 南京庚商网络信息技术有限公司 非结构化数字资源全文检索方法及系统
CN110399339A (zh) * 2019-06-18 2019-11-01 平安科技(深圳)有限公司 知识库管理系统的文件分类方法、装置、设备及存储介质
CN110516157A (zh) * 2019-08-30 2019-11-29 盈盛智创科技(广州)有限公司 一种文献检索方法、设备和存储介质
CN110598009A (zh) * 2019-09-12 2019-12-20 北京达佳互联信息技术有限公司 查找作品的方法、装置、电子设备及存储介质
CN111026712A (zh) * 2019-11-04 2020-04-17 厦门天锐科技股份有限公司 文件上传方法、装置及文件查询方法、装置和电子设备
CN111581410A (zh) * 2020-05-29 2020-08-25 上海依图网络科技有限公司 图像检索方法及其装置、介质和系统
CN111680072A (zh) * 2020-05-07 2020-09-18 国家计算机网络与信息安全管理中心 基于社交信息数据的划分系统及方法
CN113553354A (zh) * 2021-07-23 2021-10-26 中信银行股份有限公司 一种基于特定词库的联行号模糊查询方法及系统
CN113987146A (zh) * 2021-10-22 2022-01-28 国网江苏省电力有限公司镇江供电分公司 一种电力内网专用的新型智能问答系统
CN114936263A (zh) * 2022-05-31 2022-08-23 中国科学院空天信息创新研究院 空间目标轨道预报数据的检索方法、装置、设备及介质
CN115757407A (zh) * 2022-11-18 2023-03-07 浪潮通用软件有限公司 一种数据检索方法及设备
CN117033307A (zh) * 2023-10-07 2023-11-10 北京天信瑞安信息技术有限公司 文件索引方法、装置、电子设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391941A (zh) * 2014-11-25 2015-03-04 浪潮电子信息产业股份有限公司 一种快速构建常用文件全文检索工具的方法
CN105279150A (zh) * 2015-10-27 2016-01-27 江苏电力信息技术有限公司 一种基于lucene全文检索的中文分词方法
CN105574062A (zh) * 2015-07-01 2016-05-11 宇龙计算机通信科技(深圳)有限公司 一种文件检索方法、装置以及终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391941A (zh) * 2014-11-25 2015-03-04 浪潮电子信息产业股份有限公司 一种快速构建常用文件全文检索工具的方法
CN105574062A (zh) * 2015-07-01 2016-05-11 宇龙计算机通信科技(深圳)有限公司 一种文件检索方法、装置以及终端
CN105279150A (zh) * 2015-10-27 2016-01-27 江苏电力信息技术有限公司 一种基于lucene全文检索的中文分词方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299466A (zh) * 2018-10-22 2019-02-01 中国船舶工业综合技术经济研究院 一种面向国防科技领域的文献检索方法及系统
CN109299466B (zh) * 2018-10-22 2023-07-07 中国船舶工业综合技术经济研究院 一种面向国防科技领域的文献检索方法及系统
CN109902150A (zh) * 2019-02-25 2019-06-18 南京庚商网络信息技术有限公司 非结构化数字资源全文检索方法及系统
CN110399339A (zh) * 2019-06-18 2019-11-01 平安科技(深圳)有限公司 知识库管理系统的文件分类方法、装置、设备及存储介质
CN110516157A (zh) * 2019-08-30 2019-11-29 盈盛智创科技(广州)有限公司 一种文献检索方法、设备和存储介质
CN110598009B (zh) * 2019-09-12 2022-04-22 北京达佳互联信息技术有限公司 查找作品的方法、装置、电子设备及存储介质
CN110598009A (zh) * 2019-09-12 2019-12-20 北京达佳互联信息技术有限公司 查找作品的方法、装置、电子设备及存储介质
CN111026712A (zh) * 2019-11-04 2020-04-17 厦门天锐科技股份有限公司 文件上传方法、装置及文件查询方法、装置和电子设备
CN111680072A (zh) * 2020-05-07 2020-09-18 国家计算机网络与信息安全管理中心 基于社交信息数据的划分系统及方法
CN111680072B (zh) * 2020-05-07 2023-12-08 国家计算机网络与信息安全管理中心 基于社交信息数据的划分系统及方法
CN111581410A (zh) * 2020-05-29 2020-08-25 上海依图网络科技有限公司 图像检索方法及其装置、介质和系统
CN111581410B (zh) * 2020-05-29 2023-11-14 上海依图网络科技有限公司 图像检索方法及其装置、介质和系统
CN113553354A (zh) * 2021-07-23 2021-10-26 中信银行股份有限公司 一种基于特定词库的联行号模糊查询方法及系统
CN113553354B (zh) * 2021-07-23 2024-08-23 中信银行股份有限公司 一种基于特定词库的联行号模糊查询方法及系统
CN113987146B (zh) * 2021-10-22 2023-01-31 国网江苏省电力有限公司镇江供电分公司 一种电力内网专用的智能问答系统
CN113987146A (zh) * 2021-10-22 2022-01-28 国网江苏省电力有限公司镇江供电分公司 一种电力内网专用的新型智能问答系统
CN114936263A (zh) * 2022-05-31 2022-08-23 中国科学院空天信息创新研究院 空间目标轨道预报数据的检索方法、装置、设备及介质
CN114936263B (zh) * 2022-05-31 2025-02-21 中国科学院空天信息创新研究院 空间目标轨道预报数据的检索方法、装置、设备及介质
CN115757407A (zh) * 2022-11-18 2023-03-07 浪潮通用软件有限公司 一种数据检索方法及设备
CN115757407B (zh) * 2022-11-18 2025-02-28 浪潮通用软件有限公司 一种数据检索方法及设备
CN117033307A (zh) * 2023-10-07 2023-11-10 北京天信瑞安信息技术有限公司 文件索引方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108255972A (zh) 一种全文检索方法及系统
JP6006267B2 (ja) 索引キーを使用して検索を絞込むシステムおよび方法
US7130867B2 (en) Information component based data storage and management
US8055674B2 (en) Annotation framework
US8090708B1 (en) Searching indexed and non-indexed resources for content
US9251130B1 (en) Tagging annotations of electronic books
US20160098405A1 (en) Document Curation System
US20140114942A1 (en) Dynamic Pruning of a Search Index Based on Search Results
US20100115003A1 (en) Methods For Merging Text Snippets For Context Classification
KR100930455B1 (ko) 쿼리별 검색 컬렉션 생성 방법 및 시스템
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
EP1716511A1 (en) Intelligent search and retrieval system and method
US20150154306A1 (en) Method for searching related entities through entity co-occurrence
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
US10678820B2 (en) System and method for computerized semantic indexing and searching
US9411880B2 (en) System and method for dynamically configuring content-driven relationships among data elements
CN110674087A (zh) 文件查询方法、装置及计算机可读存储介质
Ferré Camelis: a logical information system to organise and browse a collection of documents
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
US20110252313A1 (en) Document information selection method and computer program product
JPH0550774B2 (zh)
CN118708790A (zh) 档案信息检索方法、装置、计算机设备和可读存储介质
US7949656B2 (en) Information augmentation method
US9886497B2 (en) Indexing presentation slides

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180706

RJ01 Rejection of invention patent application after publication