CN107451168B - 基于词汇统计的档案分类系统及方法 - Google Patents
基于词汇统计的档案分类系统及方法 Download PDFInfo
- Publication number
- CN107451168B CN107451168B CN201610786178.2A CN201610786178A CN107451168B CN 107451168 B CN107451168 B CN 107451168B CN 201610786178 A CN201610786178 A CN 201610786178A CN 107451168 B CN107451168 B CN 107451168B
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- file
- information
- list
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 3
- 230000004308 accommodation Effects 0.000 description 2
- 230000002650 habitual effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是提供一种基于词汇统计的档案分类系统及方法。前述的方法运行于具备运算能力的电子装置,包含下列步骤:首先,读取一个或多个档案的档案描述信息,以及一个或多个用户历史操作信息;接着,自用户历史操作信息萃取出一个或多个词汇信息,并计算词汇信息位于档案描述信息的权重值,并依权重值自词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标以建立特定档案的连结。通过前述的处理后即可自动的对各个档案建立标签及链接,让用户可方便的进行档案管理。
Description
技术领域
本发明是一种档案分类技术手段,尤指一种基于词汇统计的档案分类系统及方法。
背景技术
为能方便的管理电子档案,用户大多会依照属性将各个档案放置在特定的文件夹,然而当各个档案具有多个属性时,前述的方案并无法让使用者便捷的存取档案。
为解决前述的问题,部分的使用者会透过人工方式对各个档案设定属性卷标,而用户在点选各个标签后即可开启特定的档案,举例说明之,当使用者持有档案「花莲旅游计划书.doc」时,可对此档案设定卷标「花莲」以及卷标「旅游」,因此当使用者点选其中一个标签时,即可开启该档案。
只是上述的方案需通过人工方式进行分类以及设定,因此使用者需耗费相当多的时间来执行重复性工作,而造成使用者相当大的困扰。而当档案数量日益增加时,前述的管理方案会严重的降低使用者的操作意愿。
综上所述,如何提供一种可自动进行档案分类技术方案乃本领域亟需解决的技术问题。
发明内容
为解决前揭的问题,本发明的目的是提供一种基于词汇统计的档案分类系统及方法。
为达上述目的,本发明提出一种基于词汇统计的档案分类系统。前述的系统运行于具备运算能力的电子装置,并包含读取模块以及处理模块。前述的读取模块是读取一个或多个档案的档案描述信息以及一个或多个用户历史操作信息。前述的处理模块连接读取模块,并自用户历史操作信息萃取出一个或多个词汇信息、计算词汇信息位于档案描述信息的权重值,并依权重值自词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标,其中列表卷标是用于建立特定档案的连结。
为达上述目的,本发明提出一种基于词汇统计的档案分类方法。前述的方法运行于具备运算能力的电子装置,并包含下列步骤:首先,读取一个或多个档案之档案描述信息,以及一个或多个用户历史操作信息。接着,自用户历史操作信息萃取出一个或多个词汇信息,并计算词汇信息位于档案描述信息的权重值,并依权重值自词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标,其中列表卷标是用于建立特定档案的连结。
综上所述,本发明的基于词汇统计的档案分类系统及其方法可对档案内容中的词汇进行统计分析,并依权重值选取出特定的词汇作为虚拟目录列表的列表卷标,而得以提供使用者更为便捷的档案管理方案。
附图说明
图1为本发明第一实施例基于词汇统计的档案分类系统的系统方块图。
图2为本发明第二实施例基于词汇统计的档案分类方法的方法流程图。
图3~图5为本发明第二实施例档案分类方法的细部运作流程图。
图6为本发明词汇权重排序流程图。
图7为本发明后缀数组的示意图。
图8为本发明字典顺序排序的示意图。
图9为本发明优化虚拟目录列表示意图。
图10为本发明档案分类画面。
附图标记说明
1 基于词汇统计的档案分类系统
11 读取模块
12 处理模块
具体实施方式
以下将描述具体的实施例以说明本发明的实施态样,惟其并非用以限制本发明所欲保护的范畴。
请参阅图1,其为本发明第一实施例基于词汇统计的档案分类系统1的系统方块图。前述的档案分类系统进一步包含读取模块11以及处理模块12。前述的读取模块11用于读取外部一个或多个档案的档案描述信息,及一个或多个用户历史操作信息。前述的处理模块12连接读取模块11,并自用户历史操作信息萃取出一个或多个词汇信息,并计算词汇信息位于档案描述信息的权重值,并依据权重值自词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标,前述的列表卷标是用于建立特定档案的连结。
于另一实施例中,前述的处理模块12是计算词汇信息位于档案描述信息的词频-逆向文件频率权重值。于另一实施例中,前述的处理模块12是依据列表上限以挑选词汇信息作为列表卷标。于另一实施例中,前述的处理模块12依据权重值大小以挑选词汇信息以作为列表卷标。于另一实施例中,前述的用户历史操作信息是用户历史操作信息。
请参阅图2,其为本发明第二实施例基于词汇统计的档案分类方法的方法流程图。前述的方法运行于具备运算能力的电子装置,并包含下列步骤:
S101:读取一个或多个档案的档案描述信息。
S102:读取一个或多个用户历史操作信息。
S103:自用户历史操作信息萃取出一个或多个词汇信息,并计算词汇信息位于档案描述信息的权重值,并依权重值自词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标,其中列表卷标是用于建立特定档案的连结。
于另一实施例中,前述的方法更计算词汇信息位于档案描述信息的词频-逆向文件频率权重值。于另一实施例中,更依据列表上限以挑选词汇信息作为列表卷标。于另一实施例中,前述的方法更依据权重值大小以挑选词汇信息以作为列表卷标。于另一实施例中,前述方法的用户历史操作信息是用户历史操作信息。
本发明于第三实施例更提供一种基于词汇统计的档案分类计算机程序产品,当计算机装置加载并执行该计算机程序产品,可完成前述方法所述的步骤。
本发明兹以第二实施例的档案分类方法进行说明,惟其第一实施例的档案分类系统以及第三实施例的基于词汇统计的档案分类计算机程序产亦可达成相同或相似的技术功效。请参阅图3~图5,其为档案分类方法的细部运作流程图,图3的步骤说明(S11~S15)如下:
步骤S11:读取档案描述信息以及用户历史操作数据。前述的档案描述信息进一步包含:
(1).档案数据属性(如:文件名、文件类型、档案标题、档案主旨、档案标记、档案GPS经纬度坐标数据);
(2).使用者对该档案做的批注说明;
(3).档案内容或档案内文;
前述的用户历史操作数据进一步包含:
(1).用户习惯的书签分类名称;
(2).用户查询数据输入的关键词;或
(3).用户点选实体或虚拟目录的项目名称等。
步骤S12:此时会分析档案描述信息以及用户历史操作数据,以撷取用户关注的词汇。前述撷取使用者关注词汇方法的步骤(图4,S21~S23)说明如下:
步骤S21:利用抽词方法自档案描述信息中撷取词汇,于此步骤主要是档案描述信息(例如:档案内容、档案数据属性与档案批注内容)进行词性分析,包括前后词判断,以及同义字(Synonym)、一字多义字(Polysemy)、反义字(Antonym)、泛称(Hypernym)、具体名称(Hyponym)等;而单字可能与前后文字组成单词(例如劳「作」、「作」业、工「作」、杵「作」、「作」文、磨杵「作」针等),并撷取语句中的重要词汇并依其出现的频率进行排序(S211~S213):
步骤S211:前述的抽词方法可使用后缀数组(suffix array)抽词方法。后缀数组的基本元素为给定一长字符串(string),其长度为L,后缀指的是从字符串的某一个位置i(0<=i<L)开始到字符串最末端字尾(string[L-1])的一个子串,表示为suffix(i);L个suffix(i)按照字典顺序排列,并依序储存在一个数组SA[L]中,则SA[L]称为后缀数组,其元素值储存的是suffix(i)的起始字符在string中的位置;每一个suffix[i]对应在SA[k]数组中的一个位置,将这个对应的位置储存为Rank[i],时间复杂度为O(N);对于任意两个suffix[i]和suffix[j],由于知晓其在Rank[L]中的前后位置,所以在O(1)的时间内就可以算得出他们的字典顺序排列大小关系;建构SA[i]数组中相邻元素的最长共同前缀(LCP,Longest Common Prefix),Height[i]表示SA[i]和SA[i-1]的LCP(i,j);H[i]=Height[Rank[i]表示Suffix[i]和字典顺序排序在它前一名的后缀子串的LCP大小。
而对于正整数i和j而言,最长共同前缀的定义如下:LCP(i,j)=lcp(Suffix(SA[i]),Suffix(SA[j]))=min(Height[k]|i+1<=k<=j);也就是计算LCP(i,j)等同于查找Height数组中下表在i+1到j之间的元素最小值。以图5的案例说明之,若LCP(0,3),则最小值为2,则"aaaab"和"aabaaaab"的LCP为2;
为了方便比较,创造后缀数组前都会在字符串的末尾端添加一个$字符表示字符串行的结束,并且在字典顺序中最小。本案采用倍增算法(DoublingAlgorithm)来快速建构后缀数组。于倍增算法中,输入为字符串string的所有suffix[i];按照<=h进行搜寻排序,并且h的值在搜寻时取"1,2,4,8,……2^N",每次搜寻保证后缀子串<=h有序;首先对h进行排序;当扩展到<=2h有序的时候,由于2h的前面h个字符已经比较过,所以只需要比较后面的h个字符,而后面的这h个字符恰好在前一次<=h有序的时候作为其他后缀的前h个字符已经比较过,所以一次搜寻中字符串行的时间复杂为O(N);长度为N的字符串行需要进行logN次搜寻(h的值为2^N),直到Rank[i]数组中没有相等的字符串行;所以倍增算法的时间复杂度为O(NlogN);
前述步骤的虚拟程序代码如表1所示:
表1
步骤S212:经抽词方法所撷取出的词汇会先利用预先给定的规则条件进行初步过滤,删除非成词的词汇,例如:删除标点符号、括号、引号等非成词的词汇。
步骤S213:利用预先收集的中英文停用词(stop words)列表,进一步过滤撷取出的词汇,删除中文停用词,例如:我、你、妳、他、她、是、的等停用词,删除英文停用词,例如:I,me,you,your,he,his,am,are,is等停用词。
步骤S22:以空格分隔自用户历史操作数据撷取词汇,由于用户历史操作数据(例如:用户习惯的书签分类名称、搜寻关键词与用户点选实体或虚拟目录的项目名称)多为单词,因此于此步骤使用空格分隔撷取词汇。
步骤S23:计算撷取出的每个词汇于档案描述信息、用户历史操作数据之中的个别的TF-IDF数值。「TF-IDF算法」计算步骤说明如下:
步骤S231:先计算词频TF(Term Frequency):假设dj是「某一特定文件」,ti是该文件中所使用单词或单字的「其中一种」,那么tfi的计算方法就是ti在每篇文章dj中出现次数的加总,除以所有词汇在每篇文章的加总,其表达式如下所示:
步骤S232:再计算逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词汇的IDF,可以由所有文件总数除以包含该词汇在文件总数中出现的文件数,再将得到的商取对数得到,其表达式如下所示:
步骤S233:将tfi*idfi来进行计算,以某一特定文件内的高单词频率,乘上该词汇在文件总数中的低文件频率,便可以产生TF-IDF权重值,且TF-IDF倾向于过滤掉常见的单词,保留重要的词汇,其表达式如下所示:
TF-IDFi=tfi*idfi
步骤S13:综合档案描述信息,用户历史操作数据计算权重依权重公式进行虚拟目录名称的词汇权重排序,其步骤说明如图6所示:
S31:由用户点选虚拟目录项目的记录,并对权重公式参数进行优化。
S32:对用户使用的云端储存空间,新增更新档案相关信息,以及记录用户历史操作数据。
S33:依权重公式计算撷取的词汇的权重值,以产生词汇清单。
S34:将词汇清单由权重高至低排序,并排除超过清单上限或权重值低于门坎值的词汇。
更进一步说明「虚拟目录词汇权重公式计算方法」,计算方法用一实施例说明如下:
假设词汇权重计算公式由五项因子组成分别为档案内容的TF-IDF值、档案批注的TF-IDF值/>、档案数据属性的TF-IDF值/>、书签分类名称的TF-IDF值/>、搜寻关键词的TF-IDF值/>,所以词汇i的权重值并以参数λcontent、λcomment、λmetadata、λtag、λkeyword、λε为变量,撷取出的词汇构成一个算式,令已知的重要词汇达到最大值为该算式理想值,n笔词汇构成n个算式,可使用参数优化算法求解(如:线性回归算法),各参数λ的下边界(lower bound)设定为0.1,而上边界(upper bound)则以初始的训练数据经参数优化算法所求出的最佳解的最大值再加10为其上边界(upperbound)的值;
步骤S14:依排序的结果产生虚拟目录列表,并将档案归纳至合适或所属的虚拟目录,于该步骤中主要是产生的虚拟目录词汇,若词汇ti有出现在第dj个档案的档案描述信息中,则将第dj个档案归纳至合适或所属的虚拟目录词汇ti,再将所属词汇ti的此些档案依其ti出现在该档案的出现次数由大到小排序。
步骤S15:产生优化虚拟目录列表给用户。
以下兹提供实际范例以说明本案的技术思想。若记录使用端在云储存系统记录有如表2的档案描述信息与历史操作数据:
表2
此时输入关键词「花莲」进行查询,和汇入用户习惯的书签,其书签习惯的分类名称为旅游、美食、住宿、音乐等等。接着依序对文本文件做抽词方法运算,若「花东旅游行程.doc」档案内文为「…花莲创意文化园区位于市区中心,地址是花莲市中华路144号,前身是花莲酒厂,园区内是日式建筑,这里有很大的广场、日式风格的走廊,处处还可以看到前身酒厂的创意风格…」,而在进行后缀数组运算后可得如图7所示的后缀数组,前述的后缀数组组合分别为酒厂、花莲、花莲市、花莲酒厂、花莲市中华路、花莲市中华路144号、花莲创意文化园区等内容。
请再参阅图8,再依字典顺序排序,找到「花莲」的出现次数为6、「花莲市」的出现次数为3,因此撷取出现次数最高的词汇「花莲」。
经过抽词方法对每一个档案内文做运算后,抽出的词汇分别为花莲、台东、旅游、预算、太鲁阁、玉里、池上、照片、美食、住宿、音乐等词汇,分别计算这些词汇在所有档案内容的出现次数(表3):
文件名 | 花莲 | 台东 | 旅游 | … | 音乐 |
花东旅游行程.doc | 10 | 9 | 5 | … | 0 |
花东预算.xls | 7 | 6 | 2 | … | 0 |
花莲照片.jpg | 0 | 0 | 0 | … | 0 |
台东照片.jpg | 0 | 0 | 0 | … | 0 |
太鲁阁.jpg | 0 | 0 | 0 | … | 0 |
六十石山.jpg | 0 | 0 | 0 | … | 0 |
… | … | … | … | … | … |
池上便当.doc | 0 | 1 | 0 | … | 0 |
表3
之后得到这些词汇在档案内容因子的TF值、IDF值、TF-IDF权重值(表4):
词汇 | TF值 | IDF值 | TF-IDF权重值 |
花莲 | 0.9 | 2 | 1.8 |
台东 | 0.8 | 1.5 | 1.2 |
旅游 | 0.5 | 1 | 0.5 |
预算 | 0.01 | 0.4 | 0.004 |
太鲁阁 | 0 | 0.2 | 0 |
玉里 | 0 | 0.2 | 0 |
池上 | 0.02 | 0.3 | 0.006 |
照片 | 0 | 0.6 | 0 |
美食 | 0 | 1 | 0 |
住宿 | 0.01 | 0.1 | 0.001 |
音乐 | 0 | 0 | 0 |
表4
以此类推去计算这些词汇的档案批注的TF-IDF值、档案数据属性的TF-IDF值、书签分类名称的TF-IDF值、搜寻关键词的TF-IDF值,后可得到表5的内容:
表5
接着,再依虚拟目录词汇权重公式计算后可得到如表6的内容:
词汇 | 权重值 |
花莲 | 8 |
台东 | 4.7 |
旅游 | 3.55 |
预算 | 1.104 |
太鲁阁 | 0.9 |
玉里 | 0.9 |
池上 | 0.906 |
照片 | 1.2 |
美食 | 1.7 |
住宿 | 1.301 |
音乐 | 0.9 |
表6
再依清单由权重高至低排序,并排除超过清单上限或默认最低值的词汇。假设清单上限为4,并取前四大的权重值的词汇后,可得到表7的内容:
词汇 | 权重值 |
花莲 | 8 |
台东 | 4.7 |
旅游 | 3.55 |
美食 | 1.7 |
表7
接着将档案归纳至合适或所属的虚拟目录,可得到如表8的内容:
表8
最后则产生如图9所示的优化虚拟目录列表给使用端,使用端可在操作窗口中看到虚拟目录列表链接。而点选虚拟清单的「花莲」链接时,会出现如图10的档案分类画面。
上列详细说明系针对本发明之一可行实施例的具体说明,惟该实施例并非用以限制本发明的专利范围,凡未脱离本发明技艺精神所为的等效实施或变更,均应包含于本案的专利范围中。
Claims (4)
1.一种基于词汇统计的档案分类系统,运行于具备运算能力的电子装置,其特征在于,包含:
读取模块,读取一个或多个档案的档案描述信息,以及一个或多个用户历史操作信息;以及
处理模块,连接该读取模块,该处理模块更自该用户历史操作信息萃取出一个或多个词汇信息,利用具有时间复杂度为O(N)的后缀数组抽词方法自该一个或多个档案的该档案描述信息中撷取词汇,
其中,该档案分类系统对权重计算公式的参数进行优化且依据优化后的该权重计算公式,基于该档案描述信息和该用户历史操作信息对以上从该用户历史操作信息中萃取出的词汇信息,以及从该档案描述信息撷取并过滤的词汇,计算各词汇的权重值,以产生词汇清单,
其中,该处理模块将该词汇清单中的该词汇由权重高至低排序,以排除超过该词汇清单的上限或权重值低于门坎值的词汇,进而利用该词汇清单作为虚拟目录列表的列表卷标,且该列表卷标用于建立特定该档案的连结,
其中,该权重计算公式由五项因子组成,分别为词汇i在档案内容的TF-IDF值档案批注的TF-IDF值/>档案数据属性的TF-IDF值/>书签分类名称的TF-IDF值和搜寻关键词的TF-IDF值/>该词汇i的/> 并以参数λcontent、λcomment、λmetadata、λtag、λkeyword、λε为变量。
2.根据权利要求1所述的档案分类系统,其特征在于,该用户历史操作信息是为卷标信息。
3.一种基于词汇统计的档案分类方法,运行于具备运算能力的电子装置,其特征在于,包含下列步骤:
读取一个或多个档案的档案描述信息,以及一个或多个用户历史操作信息;
自该用户历史操作信息萃取出一个或多个词汇信息,利用具有时间复杂度为O(N)的后缀数组抽词方法自该一个或多个档案的该档案描述信息中撷取词汇;
对权重计算公式的参数进行优化且依据优化后的该权重计算公式,基于该档案描述信息和该用户历史操作信息对以上从该用户历史操作信息中萃取出的词汇信息,以及从该档案描述信息撷取并过滤的词汇,计算各词汇的权重值,以产生词汇清单;以及
将该词汇清单中的该词汇由权重高至低排序,以排除超过该词汇清单的上限或权重值低于门坎值的词汇,进而利用该词汇清单作为虚拟目录列表的列表卷标,且该列表卷标用于建立特定该档案的连结,
其中,该权重计算公式由五项因子组成,分别为档案内容的TF-IDF值档案批注的TF-IDF值/>档案数据属性的TF-IDF值/>书签分类名称的TF-IDF值/>和搜寻关键词的TF-IDF值/>该词汇i的/> 并以参数λcontent、λcomment、λmetadata、λtag、λkeyword、λε为变量。
4.根据权利要求3所述的档案分类方法,其特征在于,该用户历史操作信息是为卷标信息。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105116818 | 2016-05-30 | ||
TW105116818A TWI605353B (zh) | 2016-05-30 | 2016-05-30 | File classification system, method and computer program product based on lexical statistics |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107451168A CN107451168A (zh) | 2017-12-08 |
CN107451168B true CN107451168B (zh) | 2023-08-04 |
Family
ID=60485324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610786178.2A Active CN107451168B (zh) | 2016-05-30 | 2016-08-31 | 基于词汇统计的档案分类系统及方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107451168B (zh) |
TW (1) | TWI605353B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875808A (zh) * | 2018-05-17 | 2018-11-23 | 延安职业技术学院 | 一种基于人工智能的图书分类方法 |
CN108875810B (zh) * | 2018-06-01 | 2020-04-28 | 阿里巴巴集团控股有限公司 | 针对训练语料从词频表中进行负例采样的方法及装置 |
CN112487302B (zh) * | 2020-11-04 | 2022-11-11 | 国网江苏省电力有限公司 | 一种基于用户行为的档案资源精准推送方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101004737A (zh) * | 2007-01-24 | 2007-07-25 | 贵阳易特软件有限公司 | 基于关键词的个性化文档处理系统 |
CN101097570A (zh) * | 2006-06-29 | 2008-01-02 | 上海唯客网广告传播有限公司 | 一种自动识别分类广告类型的广告分类方法 |
JP2012104051A (ja) * | 2010-11-12 | 2012-05-31 | Kansai Electric Power Co Inc:The | 文書インデックス作成装置 |
KR20130036863A (ko) * | 2011-10-05 | 2013-04-15 | (주)워드워즈 | 의미적 자질을 이용한 문서 분류 시스템 및 그 방법 |
CN103186612A (zh) * | 2011-12-30 | 2013-07-03 | 中国移动通信集团公司 | 一种词汇分类的方法、系统和实现方法 |
JP2014010758A (ja) * | 2012-07-02 | 2014-01-20 | Hitachi Solutions Ltd | ファイル管理装置、ファイル管理方法、及びプログラム |
CN104142950A (zh) * | 2013-05-10 | 2014-11-12 | 中国人民大学 | 基于关键词提取和基尼系数的微博用户分类方法 |
CN104298746A (zh) * | 2014-10-10 | 2015-01-21 | 北京大学 | 一种基于短语网络图排序的领域文献关键词提取方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201126359A (en) * | 2010-01-25 | 2011-08-01 | Ind Tech Res Inst | Keyword evaluation systems and methods |
US20130262467A1 (en) * | 2010-12-23 | 2013-10-03 | Nokia Corporation | Method and apparatus for providing token-based classification of device information |
CN103218355B (zh) * | 2012-01-18 | 2016-08-31 | 腾讯科技(深圳)有限公司 | 一种为用户生成标签的方法和装置 |
CN102929937B (zh) * | 2012-09-28 | 2015-09-16 | 福州博远无线网络科技有限公司 | 基于文本主题模型的商品分类的数据处理方法 |
KR20160015838A (ko) * | 2014-07-31 | 2016-02-15 | 삼성전자주식회사 | 컨텐츠 분류 방법 및 이를 위한 디바이스 |
-
2016
- 2016-05-30 TW TW105116818A patent/TWI605353B/zh not_active IP Right Cessation
- 2016-08-31 CN CN201610786178.2A patent/CN107451168B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101097570A (zh) * | 2006-06-29 | 2008-01-02 | 上海唯客网广告传播有限公司 | 一种自动识别分类广告类型的广告分类方法 |
CN101004737A (zh) * | 2007-01-24 | 2007-07-25 | 贵阳易特软件有限公司 | 基于关键词的个性化文档处理系统 |
JP2012104051A (ja) * | 2010-11-12 | 2012-05-31 | Kansai Electric Power Co Inc:The | 文書インデックス作成装置 |
KR20130036863A (ko) * | 2011-10-05 | 2013-04-15 | (주)워드워즈 | 의미적 자질을 이용한 문서 분류 시스템 및 그 방법 |
CN103186612A (zh) * | 2011-12-30 | 2013-07-03 | 中国移动通信集团公司 | 一种词汇分类的方法、系统和实现方法 |
JP2014010758A (ja) * | 2012-07-02 | 2014-01-20 | Hitachi Solutions Ltd | ファイル管理装置、ファイル管理方法、及びプログラム |
CN104142950A (zh) * | 2013-05-10 | 2014-11-12 | 中国人民大学 | 基于关键词提取和基尼系数的微博用户分类方法 |
CN104298746A (zh) * | 2014-10-10 | 2015-01-21 | 北京大学 | 一种基于短语网络图排序的领域文献关键词提取方法 |
Non-Patent Citations (2)
Title |
---|
Supervised learning in the wild: Text classification for critical technologies;Arun S. Maiya 等;MILCOM 2012 - 2012 IEEE Military Communications Conference;全文 * |
快速的领域文档关键词自动提取算法;杨春明;韩永国;;计算机工程与设计(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
TW201741909A (zh) | 2017-12-01 |
TWI605353B (zh) | 2017-11-11 |
CN107451168A (zh) | 2017-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
US9734181B2 (en) | Understanding tables for search | |
CN103678576B (zh) | 基于动态语义分析的全文检索系统 | |
CN106156286B (zh) | 面向专业文献知识实体的类型抽取系统及方法 | |
CN103838833B (zh) | 基于相关词语语义分析的全文检索系统 | |
CN103268348B (zh) | 一种用户查询意图识别方法 | |
CN102722498B (zh) | 搜索引擎及其实现方法 | |
CN103020270B (zh) | 用于电子书籍的信息检索系统和方法 | |
CN103198079B (zh) | 相关搜索的实现方法和装置 | |
CN103473217B (zh) | 从文本中抽取关键词的方法和装置 | |
CN102737021B (zh) | 搜索引擎及其实现方法 | |
Im et al. | Linked tag: image annotation using semantic relationships between image tags | |
CN103218444A (zh) | 基于语义的藏文网页文本分类方法 | |
CN101216826A (zh) | 信息搜索系统及方法 | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
CN107967290A (zh) | 一种基于海量科研资料的知识图谱网络构建方法及系统、介质 | |
CN112612845B (zh) | 一种组织机构视图实现方法、装置、电子设备及可读存储介质 | |
CN107451168B (zh) | 基于词汇统计的档案分类系统及方法 | |
WO2023151576A1 (zh) | 搜索推荐方法、搜索推荐系统、计算机设备及存储介质 | |
CN104133913A (zh) | 一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法 | |
CN105740448A (zh) | 面向话题的多微博时序文摘方法 | |
CN103177122B (zh) | 一种基于同义词的个人桌面文件搜索方法 | |
CN102737045B (zh) | 一种相关度计算方法和装置 | |
CN103853797A (zh) | 一种基于n元图片索引结构的图片检索方法与系统 | |
CN110245275B (zh) | 一种大规模相似新闻标题快速归一化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |