CN106339369B - 一种资料集的同义词识别方法及系统 - Google Patents
一种资料集的同义词识别方法及系统 Download PDFInfo
- Publication number
- CN106339369B CN106339369B CN201610772919.1A CN201610772919A CN106339369B CN 106339369 B CN106339369 B CN 106339369B CN 201610772919 A CN201610772919 A CN 201610772919A CN 106339369 B CN106339369 B CN 106339369B
- Authority
- CN
- China
- Prior art keywords
- keyword
- value
- occurrence
- data set
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims description 22
- 206010010356 Congenital anomaly Diseases 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 230000001419 dependent effect Effects 0.000 abstract 1
- GHASVSINZRGABV-UHFFFAOYSA-N Fluorouracil Chemical compound FC1=CNC(=O)NC1=O GHASVSINZRGABV-UHFFFAOYSA-N 0.000 description 28
- 229960002949 fluorouracil Drugs 0.000 description 28
- OVBPIULPVIDEAO-LBPRGKRZSA-N folic acid Chemical compound C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-LBPRGKRZSA-N 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 2
- OVBPIULPVIDEAO-UHFFFAOYSA-N N-Pteroyl-L-glutaminsaeure Natural products C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)NC(CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-UHFFFAOYSA-N 0.000 description 2
- 230000000259 anti-tumor effect Effects 0.000 description 2
- 239000002246 antineoplastic agent Substances 0.000 description 2
- 229940041181 antineoplastic drug Drugs 0.000 description 2
- 238000009104 chemotherapy regimen Methods 0.000 description 2
- 229960004316 cisplatin Drugs 0.000 description 2
- DQLATGHUWYMOKM-UHFFFAOYSA-L cisplatin Chemical compound N[Pt](N)(Cl)Cl DQLATGHUWYMOKM-UHFFFAOYSA-L 0.000 description 2
- 229960000304 folic acid Drugs 0.000 description 2
- 235000019152 folic acid Nutrition 0.000 description 2
- 239000011724 folic acid Substances 0.000 description 2
- 125000002485 formyl group Chemical class [H]C(*)=O 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种资料集的同义词识别方法及系统,该方法包括:获取包括N份资料的资料集;分别提取每份资料中的所有关键词;分别确定每个关键词的所有同生词;分别计算每个关键词与该关键词所对应的同生词之间的同生值;分别确定每个关键词的高值词群;对资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且第一关键词和第二关键词之间的同生值为0,则将第一关键词和第二关键词识别为同义词。本申请中,同义词的识别过程无需涉及到词形本身的比较或者依赖于特定的文本结构,从而能够大幅地提升同义词的识别效果。
Description
技术领域
本发明涉及语义识别技术领域,特别涉及一种资料集的同义词识别方法及系统。
背景技术
人机交互是研究系统与用户之间的交互关系的科学。其中,上述系统可以是各种各样的机器,也可以是计算机的系统和软件。例如,智能检索系统、语义理解系统等等。
同义词是人机交互的重要组成部分。同义词的自动识别是知识库研究的重要组成部分,同义词自动识别的方式很多,常见的方法有基于词形相似识别法、基于定义识别法等等。前者只能识别词形相近的同义词,不能识别出词形完全不同的同义词;后者需要依靠特定的结构文本,如果某些关键词没有在文本中进行定义,就不能识别出来,因此,在具体应用中受到很大的限制。
综上所述可以看出,如何提高同义词的识别效果是目前有待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种资料集的同义词识别方法及系统,提高了同义词的识别效果。其具体方案如下:
一种资料集的同义词识别方法,包括:
获取包括N份资料的资料集,N为正整数;
分别提取每份资料中的所有关键词;
分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词;
分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率;
分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群;
对所述资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且所述第一关键词和所述第二关键词之间的同生值为0,则将所述第一关键词和所述第二关键词识别为同义词。
优选的,任意两个关键词之间的同生值的计算公式为:
Eij=Cij 2/(Ci×Cj);
式中,Cij表示所述资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示所述资料集中出现所述关键词Ki的资料的总份数;Cj表示所述资料集中出现所述关键词Kj的资料的总份数;Eij表示所述关键词Ki和所述关键词Kj之间的同生值。
优选的,在所述分别确定每个关键词的高值词群的过程之后,还包括:
分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。
优选的,在所述第一关键词的高值词群与所述第二关键词的高值词群之间的相似度不小于所述预设相似度阈值的情况下,还包括:
若所述第一关键词和所述第二关键词之间的同生值不为0,则计算所述第一关键词的同生指数和所述第二关键词的同生指数之间的平均值,得到相应的平均同生指数;
计算所述平均同生指数与当前同生值之间的比值,其中,所述当前同生值为所述第一关键词和所述第二关键词之间的同生值;
判断所述比值是否不小于预设比值阈值,如果是,则将所述第一关键词和所述第二关键词识别为同义词,如果否,则将所述第一关键词和所述第二关键词识别为非同义词。
优选的,所述预设相似度阈值为80%,所述预设比值阈值为10。
本发明还公开了一种资料集的同义词识别系统,包括:
资料集获取模块,用于获取包括N份资料的资料集,N为正整数;
关键词提取模块,用于分别提取每份资料中的所有关键词;
同生词确定模块,用于分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词;
同生值计算模块,用于分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率;
高值词群确定模块,用于分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群;
同义词识别模块,用于对所述资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且所述第一关键词和所述第二关键词之间的同生值为0,则将所述第一关键词和所述第二关键词识别为同义词。
优选的,所述同生值计算模块在计算任意两个关键词之间的同生值时,相应的计算公式为:
Eij=Cij 2/(Ci×Cj);
式中,Cij表示所述资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示所述资料集中出现所述关键词Ki的资料的总份数;Cj表示所述资料集中出现所述关键词Kj的资料的总份数;Eij表示所述关键词Ki和所述关键词Kj之间的同生值。
优选的,所述同义词识别系统,还包括:
同生指数计算模块,用于在所述高值词群确定模块分别确定每个关键词的高值词群之后,分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。
优选的,所述同义词识别模块还包括:
平均值计算单元,用于在所述第一关键词的高值词群与所述第二关键词的高值词群之间的相似度不小于所述预设相似度阈值,并且,所述第一关键词和所述第二关键词之间的同生值不为0的情况下,计算所述第一关键词的同生指数和所述第二关键词的同生指数之间的平均值,得到相应的平均同生指数;
比值计算单元,用于计算所述平均同生指数与当前同生值之间的比值,其中,所述当前同生值为所述第一关键词和所述第二关键词之间的同生值;
比值判断单元,用于判断所述比值是否不小于预设比值阈值,如果是,则将所述第一关键词和所述第二关键词识别为同义词,如果否,则将所述第一关键词和所述第二关键词识别为非同义词。
优选的,所述预设相似度阈值为80%,所述预设比值阈值为10。
可见,本发明在对资料集中的任意两个关键词是否为同义词进行识别之前,先计算出资料集中每个关键词与该关键词所对应的同生词之间的同生值,以及确定出每个关键词的高值词群,其中,所谓的同生值是用来衡量任意两个关键词在同一份资料中出现的概率,而任一个关键词的高值词群是指按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群。可以理解的是,若任意两个关键词各自所对应的高值词群较为相似,则意味着这两个关键词很有可能是同义词,在此基础上,若这两个关键词之间同生值为0,也即,若这两个关键词并没有出现在同一份资料中,由于在同一份资料中,资料的创作者很大程度上不会先后采用两种不同词形的词语来表示同一种含义,所以,在通过高值词群的比对发现某两个关键词很可能是同义词之后,若进一步发现这两个关键词并没有出现在同一份资料中,则将这两个关键词识别成同义词,显然,上述同义词的识别过程中无需涉及到词形本身的比较或者依赖于特定的文本结构,从而能够大幅地提升同义词的识别效果,也即,提高了同义词的识别准确率,并且上述同义词的识别方法不会受限于资料类型的不同,能够广泛地应用于各类文本资料,具有非常广阔的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种资料集的同义词识别方法流程图;
图2为本发明实施例公开的一种资料集的同义词识别系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种资料集的同义词识别方法,参见图1所示,该方法包括:
步骤S11:获取包括N份资料的资料集,N为正整数。
其中,本发明实施例中的资料集包括通过网络途径和/或人工收集的途径来获取到的各种专题和/或学科资料,例如科技文献、专利文献、病案病例、事实数据等。
另外,需要说明的是,上述资料集中包括的资料的数量越多,最终的同义词识别准确率则越高。
步骤S12:分别提取每份资料中的所有关键词。
其中,每份资料中的关键词既可以是人工标引的关键词,也可以是由后台系统自动标引的关键词。
步骤S13:分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词。
本实施例中,若关键词A和关键词B同时出现在同一份资料中,则关键词A称为关键词B的同生词,同理,关键词B也称为关键词A的同生词,可以理解的是,上述关键词A和关键词B构成了一组同生词对。
另外,为了便于对同生词进行管理,本发明实施例可以将确定出的所有同生词保存至关系型数据库中,或者以矩阵的形式保存下来以形成相应的同生词矩阵。
步骤S14:分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率。
本实施例中,所谓的同生值是用来衡量任意两个关键词在同一份资料中出现的概率,也即用来衡量任意两个关键字能否构成同生词对的概率。
如果在步骤S14之前,已经将所有的同生词保存为同生词矩阵或保存至上述关系型数据库中,则本发明实施例还可以进一步将步骤S14中计算出的每个同生值标注在上述同生词矩阵或关系型数据库中的相应位置上,由此构成一张由同生词以及相应同生值构成的同生词网。
步骤S15:分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群。
本实施例中某个关键词的高值词群是指将该关键词的所有同生词按照同生值从大到小的顺序排列后得到的词群。
例如,下面表一记录了A资料中关键词“5-氟尿嘧啶”所对应的高值词群;另外,下面表二记录了B资料中关键词“5-FU”所对应的高值词群。
其中,表一中显示出关键词“5-氟尿嘧啶”和“5-FU”之间的同生值为0,这意味着关键词“5-FU”并没有出现在A资料中。同理,表二中显示出关键词“5-FU”与“5-氟尿嘧啶”之间的同生值为0,这意味着关键词“5-氟尿嘧啶”并没有出现在B资料中。
表一
关键词 | 关键词 | 同生值 |
5-氟尿嘧啶 | 抗肿瘤联合化疗方案 | 0.0314 |
5-氟尿嘧啶 | 顺铂 | 0.0272 |
5-氟尿嘧啶 | 醛氢叶酸 | 0.0197 |
5-氟尿嘧啶 | 抗肿瘤药 | 0.0015 |
5-氟尿嘧啶 | 5-FU | 0 |
表二
关键词 | 关键词 | 同生值 |
5-FU | 抗肿瘤联合化疗方案 | 0.0302 |
5-FU | 顺铂 | 0.0281 |
5-FU | 醛氢叶酸 | 0.0188 |
5-FU | 抗肿瘤药 | 0.0019 |
5-FU | 5-氟尿嘧啶 | 0 |
步骤S16:对资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且第一关键词和第二关键词之间的同生值为0,则将第一关键词和第二关键词识别为同义词。
可以理解的是,上述第一关键词和上述第二关键均是资料集中任意的关键词。本发明实施例在第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值的情况下,若第一关键词和第二关键词之间的同生值为0,则将第一关键词和第二关键词识别为同义词。
以上述表一和表二为例,表一中的关键词“5-氟尿嘧啶”和表二中的关键词“5-FU”各自所对应的高值词群非常类似,在这种情况下,进一步比较关键词“5-氟尿嘧啶”和“5-FU”之间的同生值,通过上述表一和表二可知,关键词“5-氟尿嘧啶”和“5-FU”之间的同生值为0。由于在同一份资料中,资料的创作者很大程度上不会先后采用两种不同词形的词语来表示同一种含义,所以,本实施例将上述关键词“5-氟尿嘧啶”和“5-FU”确定为了同义词。
另外需要说明的是,上述步骤S16所创建出来的同义词库可以直接应用到数据资源的组织与利用,以及人工智能等领域。
可见,本发明实施例在对资料集中的任意两个关键词是否为同义词进行识别之前,先计算出资料集中每个关键词与该关键词所对应的同生词之间的同生值,以及确定出每个关键词的高值词群,其中,所谓的同生值是用来衡量任意两个关键词在同一份资料中出现的概率,而任一个关键词的高值词群是指按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群。可以理解的是,若任意两个关键词各自所对应的高值词群较为相似,则意味着这两个关键词很有可能是同义词,在此基础上,若这两个关键词之间同生值为0,也即,若这两个关键词并没有出现在同一份资料中,由于在同一份资料中,资料的创作者很大程度上不会先后采用两种不同词形的词语来表示同一种含义,所以,在通过高值词群的比对发现某两个关键词很可能是同义词之后,若进一步发现这两个关键词并没有出现在同一份资料中,则将这两个关键词识别成同义词,显然,上述同义词的识别过程中无需涉及到词形本身的比较或者依赖于特定的文本结构,从而能够大幅地提升同义词的识别效果,也即,提高了同义词的识别准确率,并且上述同义词的识别方法不会受限于资料类型的不同,能够广泛地应用于各类文本资料,具有非常广阔的应用前景。
本发明实施例公开了一种具体的资料集的同义词识别方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
上一实施例步骤S14中,需要计算每个关键词与该关键词所对应的同生词之间的同生值。本实施例中,任意两个关键词之间的同生值的计算公式具体为:
Eij=Cij 2/(Ci×Cj);
式中,Cij表示资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示资料集中出现关键词Ki的资料的总份数;Cj表示资料集中出现关键词Kj的资料的总份数;Eij表示关键词Ki和关键词Kj之间的同生值。
上一实施例步骤S15中,需要分别确定每个关键词的高值词群。本实施例中,在分别确定每个关键词的高值词群的过程之后,还可以进一步包括:分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。
另外,上一实施例步骤S16中公开了如下的技术方案:在第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且第一关键词和第二关键词之间的同生值为0的情况下,将第一关键词和第二关键词识别为同义词。
由于在同一份资料中,无法完全排除资料的作者前后采用两种不同的关键词来表述同一种含义。为了进一步提升同义词的识别准确率,本实施例中,在第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值的情况下,还包括下面步骤S17至步骤S19,其中:
步骤S17:若第一关键词和第二关键词之间的同生值不为0,则计算第一关键词的同生指数和第二关键词的同生指数之间的平均值,得到相应的平均同生指数;
步骤S18:计算上述平均同生指数与当前同生值之间的比值,其中,当前同生值为第一关键词和第二关键词之间的同生值;
步骤S19:判断上述比值是否不小于预设比值阈值,如果是,则将第一关键词和第二关键词识别为同义词,如果否,则将第一关键词和第二关键词识别为非同义词。
本实施例中,优先将上述预设相似度阈值设为80%,以及,将上述预设比值阈值设为10。
相应的,本发明实施例还公开了一种资料集的同义词识别系统,参见图2所示,该系统包括:
资料集获取模块21,用于获取包括N份资料的资料集,N为正整数;
关键词提取模块22,用于分别提取每份资料中的所有关键词;
同生词确定模块23,用于分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词;
同生值计算模块24,用于分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率;
高值词群确定模块25,用于分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群;
同义词识别模块26,用于对资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且第一关键词和第二关键词之间的同生值为0,则将第一关键词和第二关键词识别为同义词。
可见,本发明实施例在对资料集中的任意两个关键词是否为同义词进行识别之前,先计算出资料集中每个关键词与该关键词所对应的同生词之间的同生值,以及确定出每个关键词的高值词群,其中,所谓的同生值是用来衡量任意两个关键词在同一份资料中出现的概率,而任一个关键词的高值词群是指按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群。可以理解的是,若任意两个关键词各自所对应的高值词群较为相似,则意味着这两个关键词很有可能是同义词,在此基础上,若这两个关键词之间同生值为0,也即,若这两个关键词并没有出现在同一份资料中,由于在同一份资料中,资料的创作者很大程度上不会先后采用两种不同词形的词语来表示同一种含义,所以,在通过高值词群的比对发现某两个关键词很可能是同义词之后,若进一步发现这两个关键词并没有出现在同一份资料中,则将这两个关键词识别成同义词,显然,上述同义词的识别过程中无需涉及到词形本身的比较或者依赖于特定的文本结构,从而能够大幅地提升同义词的识别效果,也即,提高了同义词的识别准确率,并且上述同义词的识别方法不会受限于资料类型的不同,能够广泛地应用于各类文本资料,具有非常广阔的应用前景。
进一步的,上述同生值计算模块在计算任意两个关键词之间的同生值时,相应的计算公式为:
Eij=Cij 2/(Ci×Cj);
式中,Cij表示资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示资料集中出现关键词Ki的资料的总份数;Cj表示资料集中出现关键词Kj的资料的总份数;Eij表示关键词Ki和关键词Kj之间的同生值。
另外,本实施例中的同义词识别系统,还可以进一步包括:
同生指数计算模块,用于在高值词群确定模块分别确定每个关键词的高值词群之后,分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。
进一步的,上述同义词识别模块还可以进一步包括平均值计算单元、比值计算单元和比值判断单元;其中,
平均值计算单元,用于在第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且,第一关键词和第二关键词之间的同生值不为0的情况下,计算第一关键词的同生指数和第二关键词的同生指数之间的平均值,得到相应的平均同生指数;
比值计算单元,用于计算平均同生指数与当前同生值之间的比值,其中,当前同生值为第一关键词和第二关键词之间的同生值;
比值判断单元,用于判断比值是否不小于预设比值阈值,如果是,则将第一关键词和第二关键词识别为同义词,如果否,则将第一关键词和第二关键词识别为非同义词。
优选的,上述预设相似度阈值为80%,预设比值阈值为10。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种资料集的同义词识别方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种资料集的同义词识别方法,其特征在于,包括:
获取包括N份资料的资料集,N为正整数;
分别提取每份资料中的所有关键词;
分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词;
分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率;
分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群;
对所述资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且所述第一关键词和所述第二关键词之间的同生值为0,则将所述第一关键词和所述第二关键词识别为同义词;
并且,在所述分别确定每个关键词的高值词群的过程之后,还包括:
分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。
2.根据权利要求1所述的资料集的同义词识别方法,其特征在于,任意两个关键词之间的同生值的计算公式为:
Eij=Cij 2/(Ci×Cj);
式中,Cij表示所述资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示所述资料集中出现所述关键词Ki的资料的总份数;Cj表示所述资料集中出现所述关键词Kj的资料的总份数;Eij表示所述关键词Ki和所述关键词Kj之间的同生值。
3.根据权利要求1所述的资料集的同义词识别方法,其特征在于,在所述第一关键词的高值词群与所述第二关键词的高值词群之间的相似度不小于所述预设相似度阈值的情况下,还包括:
若所述第一关键词和所述第二关键词之间的同生值不为0,则计算所述第一关键词的同生指数和所述第二关键词的同生指数之间的平均值,得到相应的平均同生指数;
计算所述平均同生指数与当前同生值之间的比值,其中,所述当前同生值为所述第一关键词和所述第二关键词之间的同生值;
判断所述比值是否不小于预设比值阈值,如果是,则将所述第一关键词和所述第二关键词识别为同义词,如果否,则将所述第一关键词和所述第二关键词识别为非同义词。
4.根据权利要求3所述的资料集的同义词识别方法,其特征在于,
所述预设相似度阈值为80%,所述预设比值阈值为10。
5.一种资料集的同义词识别系统,其特征在于,包括:
资料集获取模块,用于获取包括N份资料的资料集,N为正整数;
关键词提取模块,用于分别提取每份资料中的所有关键词;
同生词确定模块,用于分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词;
同生值计算模块,用于分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率;
高值词群确定模块,用于分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群;
同义词识别模块,用于对所述资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且所述第一关键词和所述第二关键词之间的同生值为0,则将所述第一关键词和所述第二关键词识别为同义词;
并且,所述同义词识别系统还包括:
同生指数计算模块,用于在所述高值词群确定模块分别确定每个关键词的高值词群之后,分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。
6.根据权利要求5所述的资料集的同义词识别系统,其特征在于,所述同生值计算模块在计算任意两个关键词之间的同生值时,相应的计算公式为:
Eij=Cij 2/(Ci×Cj);
式中,Cij表示所述资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示所述资料集中出现所述关键词Ki的资料的总份数;Cj表示所述资料集中出现所述关键词Kj的资料的总份数;Eij表示所述关键词Ki和所述关键词Kj之间的同生值。
7.根据权利要求5所述的资料集的同义词识别系统,其特征在于,所述同义词识别模块还包括:
平均值计算单元,用于在所述第一关键词的高值词群与所述第二关键词的高值词群之间的相似度不小于所述预设相似度阈值,并且,所述第一关键词和所述第二关键词之间的同生值不为0的情况下,计算所述第一关键词的同生指数和所述第二关键词的同生指数之间的平均值,得到相应的平均同生指数;
比值计算单元,用于计算所述平均同生指数与当前同生值之间的比值,其中,所述当前同生值为所述第一关键词和所述第二关键词之间的同生值;
比值判断单元,用于判断所述比值是否不小于预设比值阈值,如果是,则将所述第一关键词和所述第二关键词识别为同义词,如果否,则将所述第一关键词和所述第二关键词识别为非同义词。
8.根据权利要求7所述的资料集的同义词识别系统,其特征在于,
所述预设相似度阈值为80%,所述预设比值阈值为10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610772919.1A CN106339369B (zh) | 2016-08-30 | 2016-08-30 | 一种资料集的同义词识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610772919.1A CN106339369B (zh) | 2016-08-30 | 2016-08-30 | 一种资料集的同义词识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106339369A CN106339369A (zh) | 2017-01-18 |
CN106339369B true CN106339369B (zh) | 2019-06-04 |
Family
ID=57822802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610772919.1A Expired - Fee Related CN106339369B (zh) | 2016-08-30 | 2016-08-30 | 一种资料集的同义词识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106339369B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414750B (zh) * | 2020-03-18 | 2023-08-18 | 北京百度网讯科技有限公司 | 一种词条的同义判别方法、装置、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1223410A (zh) * | 1998-01-13 | 1999-07-21 | 富士通株式会社 | 相关词抽取设备和方法以及记录相关词抽取程序的媒体 |
US8392413B1 (en) * | 2007-02-07 | 2013-03-05 | Google Inc. | Document-based synonym generation |
WO2014002775A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
JP2014132406A (ja) * | 2013-01-07 | 2014-07-17 | Nec Corp | 同義語抽出システム、方法およびプログラム |
JP5754019B2 (ja) * | 2011-07-11 | 2015-07-22 | 日本電気株式会社 | 同義語抽出システム、方法およびプログラム |
-
2016
- 2016-08-30 CN CN201610772919.1A patent/CN106339369B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1223410A (zh) * | 1998-01-13 | 1999-07-21 | 富士通株式会社 | 相关词抽取设备和方法以及记录相关词抽取程序的媒体 |
US8392413B1 (en) * | 2007-02-07 | 2013-03-05 | Google Inc. | Document-based synonym generation |
JP5754019B2 (ja) * | 2011-07-11 | 2015-07-22 | 日本電気株式会社 | 同義語抽出システム、方法およびプログラム |
WO2014002775A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
JP2014132406A (ja) * | 2013-01-07 | 2014-07-17 | Nec Corp | 同義語抽出システム、方法およびプログラム |
Non-Patent Citations (3)
Title |
---|
Using cooccurrence statistics and the web to discover synonyms in a technical language;Marco Baroni,Sabrina Bisi;《 Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC"04)》;20040531;第3节 * |
共词分析法研究(一)——共词分析的过程与方式;钟伟金,李佳;《情报杂志》;20080531(第5期);第2.4节 * |
基于共现"互斥互信"原理的同义词识别;钟伟金;《中华医学图书情报杂志》;20120531;第21卷(第5期);第1-2节图1 * |
Also Published As
Publication number | Publication date |
---|---|
CN106339369A (zh) | 2017-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104252445B (zh) | 近似重复文档检测方法及装置 | |
US8315997B1 (en) | Automatic identification of document versions | |
CN106202041B (zh) | 一种解决知识图谱中的实体对齐问题的方法和装置 | |
JP6231668B2 (ja) | キーワード拡張方法及びシステム並びに分類コーパス注釈方法及びシステム | |
CN107818815B (zh) | 电子病历的检索方法及系统 | |
WO2023071118A1 (zh) | 一种计算文本相似度的方法、系统、设备和存储介质 | |
CN109522547B (zh) | 基于模式学习的中文同义词迭代抽取方法 | |
CN103761264B (zh) | 基于商品评论文档集的概念层次创建方法 | |
CN103902619B (zh) | 一种网络舆情监控方法及系统 | |
CN106951530B (zh) | 一种事件类型抽取方法和装置 | |
CN108509490B (zh) | 一种网络热点话题发现方法及系统 | |
CN108647322A (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN110489548A (zh) | 一种基于语义、时间和社交关系的中文微博话题检测方法及系统 | |
CN109582783B (zh) | 热点话题检测方法及装置 | |
CN110851714A (zh) | 基于异构主题模型和词嵌入模型的文本推荐方法和系统 | |
CN105868347A (zh) | 一种基于多步聚类的重名消歧方法 | |
CN114722137A (zh) | 基于敏感数据识别的安全策略配置方法、装置及电子设备 | |
CN106569989A (zh) | 一种用于短文本的去重方法及装置 | |
CN112328735A (zh) | 热点话题确定方法、装置及终端设备 | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
CN104346411B (zh) | 对多个稿件进行聚类的方法和设备 | |
CN106339369B (zh) | 一种资料集的同义词识别方法及系统 | |
TWI807661B (zh) | 從文本中識別行業專有名詞的方法和裝置 | |
CN106777137A (zh) | 一种中医学文献分析方法 | |
KR101351555B1 (ko) | 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190604 Termination date: 20200830 |
|
CF01 | Termination of patent right due to non-payment of annual fee |