CN113921082B - 基因搜索权重调整方法、计算机存储介质及电子设备 - Google Patents
基因搜索权重调整方法、计算机存储介质及电子设备 Download PDFInfo
- Publication number
- CN113921082B CN113921082B CN202111256000.4A CN202111256000A CN113921082B CN 113921082 B CN113921082 B CN 113921082B CN 202111256000 A CN202111256000 A CN 202111256000A CN 113921082 B CN113921082 B CN 113921082B
- Authority
- CN
- China
- Prior art keywords
- species
- gene
- reading frame
- open reading
- heat
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 50
- 108700026244 Open Reading Frames Proteins 0.000 claims abstract description 53
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000012163 sequencing technique Methods 0.000 claims abstract description 4
- 230000015654 memory Effects 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 19
- 230000003993 interaction Effects 0.000 claims description 6
- 239000003814 drug Substances 0.000 claims description 5
- 230000036541 health Effects 0.000 claims description 5
- 102000004169 proteins and genes Human genes 0.000 claims description 5
- 108020004705 Codon Proteins 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 11
- 230000008569 process Effects 0.000 abstract description 5
- 238000010276 construction Methods 0.000 abstract description 4
- 241000894007 species Species 0.000 description 59
- 238000012545 processing Methods 0.000 description 7
- 108091028043 Nucleic acid sequence Proteins 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 239000013612 plasmid Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000474 nursing effect Effects 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 108090001061 Insulin Proteins 0.000 description 2
- 108091081024 Start codon Proteins 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- NOESYZHRGYRDHS-UHFFFAOYSA-N insulin Chemical compound N1C(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(NC(=O)CN)C(C)CC)CSSCC(C(NC(CO)C(=O)NC(CC(C)C)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CCC(N)=O)C(=O)NC(CC(C)C)C(=O)NC(CCC(O)=O)C(=O)NC(CC(N)=O)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CSSCC(NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2C=CC(O)=CC=2)NC(=O)C(CC(C)C)NC(=O)C(C)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2NC=NC=2)NC(=O)C(CO)NC(=O)CNC2=O)C(=O)NCC(=O)NC(CCC(O)=O)C(=O)NC(CCCNC(N)=N)C(=O)NCC(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC(O)=CC=3)C(=O)NC(C(C)O)C(=O)N3C(CCC3)C(=O)NC(CCCCN)C(=O)NC(C)C(O)=O)C(=O)NC(CC(N)=O)C(O)=O)=O)NC(=O)C(C(C)CC)NC(=O)C(CO)NC(=O)C(C(C)O)NC(=O)C1CSSCC2NC(=O)C(CC(C)C)NC(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CC(N)=O)NC(=O)C(NC(=O)C(N)CC=1C=CC=CC=1)C(C)C)CC1=CN=CN1 NOESYZHRGYRDHS-UHFFFAOYSA-N 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 102000004877 Insulin Human genes 0.000 description 1
- 108020004511 Recombinant DNA Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010362 genome editing Methods 0.000 description 1
- 229940125396 insulin Drugs 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 150000007523 nucleic acids Chemical group 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 241001515965 unidentified phage Species 0.000 description 1
- 101150069452 z gene Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/20—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Library & Information Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Biochemistry (AREA)
- Molecular Biology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于生物研究热点的基因搜索权重调整方法、计算机存储介质及电子设备,方法包括以下步骤:S1、建立文献数据库,文献数据库包含期刊出版的文献;S2、获取用户输入的开放阅读框;S3、筛选出与所述开放阅读框同名的多个物种,每个物种的基因ID不同;S4、检索每个物种的基因ID在所述文献数据库中出现的次数,得到与开放阅读框同名的多个物种的热度;S5、将与开放阅读框同名的多个物种进行热度排序。根据本发明的方法,通过筛选出与用户输入的开放阅读框同名的多个物种,并将各个物种的热度进行排序,可以帮助用户更快速的找到需求的开放阅读框,减少构建载体过程中选择开放阅读框的时间,提高用户体验。
Description
技术领域
本发明涉及基因编辑领域,更具体地,涉及一种基于生物研究热点的基因搜索权重调整方法、计算机存储介质及电子设备。
背景技术
随着生物技术的不断发展,人们对生物实验所需的基础材料——载体的需求愈来愈大。
在载体构建过程中,需选择添加ORF(开放阅读框)元件,而同名ORF有很多物种。用户在构建载体时,面对具有同名开放阅读框的物种,通常需要花费较大的时间和精力来确定哪一个物种是实际所需要的物种,增加了用户构建载体的时间,影响了用户的使用体验。
发明内容
为解决上述技术问题,一方面,本发明提供一种基于生物研究热点的基因搜索权重调整方法。
根据本发明实施例的基于生物研究热点的基因搜索权重调整方法,包括以下步骤:S1、建立文献数据库,所述文献数据库包含期刊出版的文献;S2、获取用户输入的开放阅读框;S3、筛选出与所述开放阅读框同名的多个物种,每个所述物种的基因ID不同;S4、检索每个所述物种的基因ID在所述文献数据库中出现的次数,得到与所述开放阅读框同名的多个所述物种的热度;S5、将与所述开放阅读框同名的多个所述物种进行热度排序。
根据本发明实施例的基于生物研究热点的基因搜索权重调整方法,通过筛选出与用户输入的开放阅读框同名的多个物种,并将各个物种的热度进行排序,可以帮助用户更快速的找到需求的开放阅读框,减少构建载体过程中选择开放阅读框的时间,提高用户体验。
根据本发明的一些实施例,每个所述物种的基因ID为NCBI基因ID。
根据本发明的一些实施例,步骤S3包括:S31、获取所述开放阅读框中用于编码蛋白的碱基序列;S32、筛选出所述碱基序列中包含以启动子和终止子为界限,且内部不包含启动子或者密码子的基因序列,每个所述基因序列对应一个物种;S33、筛选出所述物种。
根据本发明的一些实施例,步骤S4包括:S41、统计每个所述物种的基因ID在第一预定时间内被搜索的次数,记为初始热度H初始;S42、统计每个所述物种的基因ID在第二预定时间内被搜索的次数,记为参照热度H参照;S43、统计所述开放阅读框在已构建载体中出现的次数,记为互动热度H互动;S44、统计出现了相应的所述物种的基因ID的文献总数,作为第一参考值;S45、统计步骤S44得到的每个文献中出现了相应的所述物种的基因ID的次数,作为第二参考值;S46、根据所述第一参考值和所述第二参考值的设定赋值,按照以下公式计算所述物种的热度H:
H=H初始+H互动-(H参照-H初始)+P
其中,P表示相应的所述物种的基因ID的权重,
P=基因符号*0.4+全名*0.3+别名*0.2+其他名称*0.1。
根据本发明的一些实施例,在步骤S5中,根据时间或热度排名对所述物种进行热度排序。
根据本发明的一些实施例,对所述物种进行热度排序时,显示所述物种的种类、每个所述物种每年的所述第一参考值和所述第二参考值。
根据本发明的一些实施例,所述文献为包含医学、护理、兽医、健康系统以及临床科学的公开文献。
根据本发明的一些实施例,所述文献数据库中的数据在设定时间与NCBI数据库同步。
第二方面,本发明实施例提供一种计算机存储介质,包括一条或多条计算机指令,所述一条或多条计算机指令在执行时实现如上述实施例所述的方法。
根据本发明第三方面实施例的电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令;所述处理器用于调用并执行所述一条或多条计算机指令,从而实现如上述任一实施例所述的方法。
附图说明
图1为本发明实施例的基于生物研究热点的基因搜索权重调整方法的流程图;
图2为本发明实施例的电子设备的示意图。
附图标记:
电子设备100;
存储器110;操作系统111;应用程序112;
处理器120;网络接口130;输入设备140;硬盘150;显示设备160。
具体实施方式
下面将结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
下面首先对本申请中涉及的相关名词进行解释说明。
载体:载体(Vector),指在基因工程重组DNA技术中将DNA片段(目的基因)转移至受体细胞的一种能自我复制的DNA分子。三种最常用的载体是细菌质粒、噬菌体和动植物病毒。在实际生活中,胰岛素就可以通过使用载体将已插入胰岛素基因片段的质粒放入大肠杆菌内。经过插入基因片段的质粒就称作载体。该质粒在细菌内可以进行自我复制,并且不会影响到生物原来的活动。
Entrez ID:Entrez ID实际上是指的Entrez gene ID,是对应于染色体上一个gene location的。每一个发现的基因都会被编制一个统一的编号,而Entrez ID是指的来自于NCBI旗下的Entrez gene数据库所使用的编号。在实际应用中,通常用NCBI Gene ID来称呼Entrez ID。
构建载体:载体构建是分子生物学研究常用的手段之一。主要包括已有载体多克隆位点MCS的改造和已有载体启动子、增强子、筛选标记等功能元件的改造。通过计算机构建载体是指,在已有的载体框架需要改造的功能元件处,插入或修改核酸序列,构建出新的载体。
开放阅读框(ORF):是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。当一个新基因被识别,其DNA序列被解读,人们仍旧无法搞清相应的蛋白序列是什么。这是因为在没有其它信息的前提下,DNA序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码子)。
下面首先结合附图具体描述根据本发明实施例的基于生物研究热点的基因搜索权重调整方法。
如图1所示,根据本发明实施例的基于生物研究热点的基因搜索权重调整方法包括以下步骤:
S1、建立文献数据库,所述文献数据库包含期刊出版的文献。
S2、获取用户输入的开放阅读框。
S3、筛选出与所述开放阅读框同名的多个物种,每个所述物种的基因ID不同。
S4、检索每个所述物种的基因ID在所述文献数据库中出现的次数,得到与所述开放阅读框同名的多个所述物种的热度。
S5、将与所述开放阅读框同名的多个所述物种进行热度排序。
换句话说,根据本发明实施例的基于生物研究热点的基因搜索权重调整方法在使用时,首先需要建立包含期刊出版的文献的文献数据库,该文献数据库可以为包含医学、护理、兽医、健康系统以及临床科学的公开文献,其中涵盖生物医学方面的最新科技论文。主要来源于pubmed,其核心主题为医学,但亦包括其他与医学相关的领域,像是护理学或者其他健康学科。它同时也提供对于相关生物医学资讯上相当全面的资源,像是生化学与细胞生物学。PubMed医学文献检索服务系统,收录了1966年以来的包含医学、护理、兽医、健康保健系统及前临床科学的文献1600万余条书目数据(2005年数据),数据来源于70多个国家和地区的4800多种生物医学期刊。根据设定,该文献数据库中的数据可以每天与美国的NCBI数据中心同步一次。
在构建完文献数据库之后,用户可以在操作界面输入需要构建载体的开放阅读框,接着,由系统获取用户输入的开放阅读框。
在获取到用户输入的开放阅读框之后,由系统筛选出与该开放阅读框同名的多个物种。由于每个物种的基因ID不同,因此,可以检索每个物种的基因ID在文献数据库中出现的次数,进而根据检索结果,确定与开放阅读框同名的多个物种的热度,最终,再将与开放阅读框同名的多个物种按照热度进行排序,更加直观的让用户找到所需的开放阅读框。
由此,根据本发明实施例的基于生物研究热点的基因搜索权重调整方法,通过筛选出与用户输入的开放阅读框同名的多个物种,并将各个物种的热度进行排序,可以帮助用户更快速的找到需求的开放阅读框,减少构建载体过程中选择开放阅读框的时间,提高用户体验。
根据本发明的一个实施例,每个所述物种的基因ID为NCBI基因ID。也就是说,在检索每个物种的基因ID在文献数据库中出现的次数时,检索的是每个物种的NCBI基因ID在文献数据库中出现的次数。
在本发明的一些具体实施方式中,步骤S3包括:
S31、获取所述开放阅读框中用于编码蛋白的碱基序列;
S32、筛选出所述碱基序列中包含以启动子和终止子为界限,且内部不包含启动子或者密码子的基因序列,每个所述基因序列对应一个物种;
S33、筛选出所述物种。
换句话说,在本发明中,筛选出与用户输入的开放阅读框同名的多个物种的方法是由上述方法来实现的,因为在没有其它信息的前提下,DNA序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码子)。而开放阅读框识别则是通过检测这六个阅读框架,并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或密码子,符合这些条件的序列有可能对应一个真正的单一的基因产物。
由此,通过上述方法,可以快速筛选出与用户输入的开放阅读框同名的物种,提高用户的使用体验。
根据本发明的一个实施例,步骤S4包括:
S41、统计每个所述物种的基因ID在第一预定时间内被搜索的次数,记为初始热度H初始;
S42、统计每个所述物种的基因ID在第二预定时间内被搜索的次数,记为参照热度H参照;
S43、统计所述开放阅读框在已构建载体中出现的次数,记为互动热度H互动;
S44、统计出现了相应的所述物种的基因ID的文献总数,作为第一参考值;
S45、统计步骤S44得到的每个文献中出现了相应的所述物种的基因ID的次数,作为第二参考值;
S46、根据所述第一参考值和所述第二参考值的设定赋值,按照以下公式计算所述物种的热度H:
H=H初始+H互动-(H参照-H初始)+P
其中,P表示相应的所述物种的基因ID的权重,
P=基因符号*0.4+全名*0.3+别名*0.2+其他名称*0.1。
其中,第一预定时间可以是当月,即在搜索该物种之日的前30天之内每个物种的基因ID被搜索的次数,第二预定时间则可以是上月,即在搜索该物种之日的前30-60天之内每个物种的基因ID被搜索的次数,从而获得该物种的基因ID被搜索的衰减程度。
另外需要说明的是,基因符号和全名是指由各数据库普遍认同和认证的开放阅读框的基因符号和全名,别名是指除了上述各数据库普遍认同和认证的基因符合和全名之外的通用名称,其他名称则是排除了上述基因符号、全名和别名之外的所有其他与开放阅读框相匹配的名称,基因符号、全名、别名和其他名称虽然都可以用于表示同一种开放阅读框,但是其严格程度以及被认可的程度是逐渐降低的,因此各名称所占的权重也逐渐降低。
由此,通过上述方法,可以精确获得与用户输入的开放阅读框同名的各个物种的热度。
在本发明的一些具体实施方式中,在步骤S5中,根据时间或热度排名对所述物种进行热度排序。进一步地,对所述物种进行热度排序时,显示所述物种的种类、每个所述物种每年的所述第一参考值和所述第二参考值。
由此,可以更加直观的显示各个物种的热度情况,可以帮助用户更快速的找到需求的开放阅读框,减少构建载体过程中选择开放阅读框的时间,提高用户体验。
另外,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质包括一条或多条计算机指令,所述一条或多条计算机指令在执行时实现上述任一所述的方法。
也就是说,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行上述任一所述的方法。
如图2所示,本发明实施例提供了一种电子设备100,包括存储器110和处理器120,所述存储器110用于存储一条或多条计算机指令,所述处理器120用于调用并执行所述一条或多条计算机指令,从而实现上述任一所述的方法。
也就是说,电子设备100包括:处理器120和存储器110,在所述存储器110中存储有计算机程序指令,其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器120执行上述任一所述的方法。
进一步地,如图2所示,电子设备100还包括网络接口130、输入设备140、硬盘150、和显示设备160。
上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器120代表的一个或者多个中央处理器(CPU),以及由存储器110代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。
所述网络接口130,可以连接至网络(如因特网、局域网等),从网络中获取相关数据,并可以保存在硬盘150中。
所述输入设备140,可以接收操作人员输入的各种指令,并发送给处理器120以供执行。所述输入设备140可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
所述显示设备160,可以将处理器120执行指令获得的结果进行显示。
所述存储器310,用于存储操作系统运行所必须的程序和数据,以及处理器120计算过程中的中间结果等数据。
可以理解,本发明实施例中的存储器110可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。本文描述的装置和方法的存储器110旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器110存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统111和应用程序112。
其中,操作系统111,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序112,包含各种应用程序,例如浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序112中。
上述处理器120,当调用并执行所述存储器110中所存储的应用程序和数据,具体的,可以是应用程序112中存储的程序或指令时,将第一集合和第二集合中的一者分散发送至所述第一集合和第二集合中的另一者所分布的节点,其中,所述另一者分散存储于至少两个节点;并根据所述第一集合的节点分布和所述第二集合的节点分布,分节点地进行交集处理。
本发明上述实施例揭示的方法可以应用于处理器120中,或者由处理器120实现。处理器120可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器120中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器120可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器110,处理器120读取存储器110中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
具体地,处理器120还用于读取所述计算机程序,执行上述任一所述的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基因搜索权重调整方法,其特征在于,包括以下步骤:
S1、建立文献数据库,所述文献数据库包含期刊出版的文献;
S2、获取用户输入的开放阅读框;
S3、筛选出与所述开放阅读框同名的多个物种,每个所述物种的基因ID不同;
S4、检索每个所述物种的基因ID在所述文献数据库中出现的次数,得到与所述开放阅读框同名的多个所述物种的热度;
S5、将与所述开放阅读框同名的多个所述物种进行热度排序;
其中,步骤S4包括:
S41、统计每个所述物种的基因ID在第一预定时间内被搜索的次数,记为初始热度H初始;
S42、统计每个所述物种的基因ID在第二预定时间内被搜索的次数,记为参照热度H参照;
S43、统计所述开放阅读框在已构建载体中出现的次数,记为互动热度H互动;
S44、统计出现了相应的所述物种的基因ID的文献总数,作为第一参考值;
S45、统计步骤S44得到的每个文献中出现了相应的所述物种的基因ID的次数,作为第二参考值;
S46、根据所述第一参考值和所述第二参考值的设定赋值,且所述物种的热度H:
H=H初始+H互动-(H参照-H初始)+P
其中,P表示相应的所述物种的基因ID的权重,
P=基因符号出现的次数*0.4+全名出现的次数*0.3+别名出现的次数*0.2+其他名称出现的次数*0.1。
2.根据权利要求1所述的方法,其特征在于,每个所述物种的基因ID为NCBI基因ID。
3.根据权利要求1所述的方法,其特征在于,步骤S3包括:
S31、获取所述开放阅读框中用于编码蛋白的碱基序列;
S32、筛选出所述碱基序列中包含以启动子和终止子为界限,且内部不包含启动子或者密码子的基因序列,每个所述基因序列对应一个物种;
S33、筛选出所述物种。
4.根据权利要求1所述的方法,其特征在于,在步骤S5中,根据时间或热度排名对所述物种进行热度排序。
5.根据权利要求1所述的方法,其特征在于,对所述物种进行热度排序时,显示所述物种的种类、每个所述物种每年的所述第一参考值和所述第二参考值。
6.根据权利要求1所述的方法,其特征在于,所述文献为包含医学、护理、兽医、健康系统以及临床科学的公开文献。
7.根据权利要求1所述的方法,其特征在于,所述文献数据库中的数据在设定时间与NCBI数据库同步。
8.一种计算机存储介质,其特征在于,包括一条或多条计算机指令,所述一条或多条计算机指令在执行时实现如权利要求1-7中任一项所述的方法。
9.一种电子设备,包括存储器和处理器,其特征在于,
所述存储器用于存储一条或多条计算机指令;
所述处理器用于调用并执行所述一条或多条计算机指令,从而实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111256000.4A CN113921082B (zh) | 2021-10-27 | 2021-10-27 | 基因搜索权重调整方法、计算机存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111256000.4A CN113921082B (zh) | 2021-10-27 | 2021-10-27 | 基因搜索权重调整方法、计算机存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113921082A CN113921082A (zh) | 2022-01-11 |
CN113921082B true CN113921082B (zh) | 2023-04-07 |
Family
ID=79243081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111256000.4A Active CN113921082B (zh) | 2021-10-27 | 2021-10-27 | 基因搜索权重调整方法、计算机存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113921082B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115732036B (zh) * | 2022-12-06 | 2023-11-28 | 云舟生物科技(广州)股份有限公司 | 调整转录本基础库存的方法、计算机存储介质及电子设备 |
CN117252306B (zh) * | 2023-10-11 | 2024-02-27 | 中央民族大学 | 一种基因编辑能力指数计算方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111198897A (zh) * | 2018-11-19 | 2020-05-26 | 中国农业大学 | 科研热点主题分析方法、装置与电子设备 |
CN112700305A (zh) * | 2020-12-31 | 2021-04-23 | 云舟生物科技(广州)有限公司 | 基于载体构建的商品搭配推荐方法、存储介质及电子设备 |
CN113284559A (zh) * | 2021-07-21 | 2021-08-20 | 暨南大学 | 一种物种基因组的启动子查询方法、系统及设备 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1523350A (zh) * | 2003-02-21 | 2004-08-25 | 北京四环医药科技股份有限公司 | 基于抗原抗体作用的立体结构信息设计新型药物分子的方法 |
CN100343852C (zh) * | 2005-09-27 | 2007-10-17 | 南方医科大学 | 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法 |
CN101961487A (zh) * | 2009-07-11 | 2011-02-02 | 赵巍 | 细粒棘球蚴基因工程疫苗候选分子p-29 |
CN103805617B (zh) * | 2012-11-09 | 2018-07-27 | 丰益(上海)生物技术研发中心有限公司 | 1,3-专一性脂肪酶、其编码基因序列及其用途 |
CN104102681B (zh) * | 2013-04-15 | 2017-05-17 | 腾讯科技(深圳)有限公司 | 一种微博关键事件获取方法和装置 |
EP3418929B1 (en) * | 2013-09-27 | 2020-12-09 | Codexis, Inc. | Automated screening of enzyme variants |
PT3597742T (pt) * | 2014-10-09 | 2022-08-30 | Univ Yamaguchi | Vetor de expressão de car e células t que expressam car |
CN106095838A (zh) * | 2016-06-01 | 2016-11-09 | 比美特医护在线(北京)科技有限公司 | 一种数据处理方法及装置 |
CN106701994A (zh) * | 2017-02-20 | 2017-05-24 | 中国水产科学研究院淡水渔业研究中心 | 同步检测肺炎克雷伯氏菌和豚鼠气单胞菌的双重pcr引物及其检测方法 |
CN110020179A (zh) * | 2017-12-29 | 2019-07-16 | 中兴通讯股份有限公司 | 一种账号搜索方法和装置、及终端 |
CN108345700B (zh) * | 2018-03-29 | 2023-01-31 | 百度在线网络技术(北京)有限公司 | 文章代表图片的选取方法、装置和计算机设备 |
CN111353071A (zh) * | 2018-12-05 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 标签生成方法及装置 |
CN109657044A (zh) * | 2018-12-14 | 2019-04-19 | 北京向上心科技有限公司 | 数据检索方法、数据排序方法、装置、终端以及存储介质 |
CN112667571A (zh) * | 2019-10-16 | 2021-04-16 | 康码芯(上海)智能科技有限公司 | 一种生物医学文献搜索排序方法及装置 |
CN111125561A (zh) * | 2019-11-28 | 2020-05-08 | 泰康保险集团股份有限公司 | 一种网络热度的展示方法及装置 |
CN111326215B (zh) * | 2020-02-07 | 2022-04-29 | 厦门大学 | 一种基于k-tuple频度的核酸序列搜索方法及系统 |
-
2021
- 2021-10-27 CN CN202111256000.4A patent/CN113921082B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111198897A (zh) * | 2018-11-19 | 2020-05-26 | 中国农业大学 | 科研热点主题分析方法、装置与电子设备 |
CN112700305A (zh) * | 2020-12-31 | 2021-04-23 | 云舟生物科技(广州)有限公司 | 基于载体构建的商品搭配推荐方法、存储介质及电子设备 |
CN113284559A (zh) * | 2021-07-21 | 2021-08-20 | 暨南大学 | 一种物种基因组的启动子查询方法、系统及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113921082A (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
McCarthy et al. | AgBase: a functional genomics resource for agriculture | |
McCarthy et al. | AgBase: a unified resource for functional analysis in agriculture | |
Morgulis et al. | WindowMasker: window-based masker for sequenced genomes | |
Stryke et al. | BayGenomics: a resource of insertional mutations in mouse embryonic stem cells | |
Gregory et al. | A physical map of the mouse genome | |
Li et al. | ALDB: a domestic-animal long noncoding RNA database | |
Zhang et al. | PowerBLAST: a new network BLAST application for interactive or automated sequence analysis and annotation | |
Kargul et al. | Verification and initial annotation of the NIA mouse 15K cDNA clone set | |
CN113921082B (zh) | 基因搜索权重调整方法、计算机存储介质及电子设备 | |
Eyre et al. | HCOP: a searchable database of human orthology predictions | |
Bhagwat et al. | Using BLAT to find sequence similarity in closely related genomes | |
Afzal et al. | GENE-IS: time-efficient and accurate analysis of viral integration events in large-scale gene therapy data | |
Eöry et al. | Avianbase: a community resource for bird genomics | |
Ravindran et al. | Daphnia s tressor database: Taking advantage of a decade of Daphnia ‘-omics’ data for gene annotation | |
CN111145836A (zh) | 插入基因核酸序列的方法、计算机存储介质及电子设备 | |
McGarvey et al. | Mouse genome annotation by the RefSeq project | |
Collado-Vides et al. | Bioinformatics resources for the study of gene regulation in bacteria | |
Hu et al. | Using TWINSCAN to predict gene structures in genomic DNA sequences | |
CN115732036B (zh) | 调整转录本基础库存的方法、计算机存储介质及电子设备 | |
Rathinakannan et al. | ShAn: An easy-to-use tool for interactive and integrated variant annotation | |
Wright et al. | Importance of adopting standardized MANE transcripts in clinical reporting | |
Benet‐Pagès et al. | Variant interpretation: UCSC genome browser recommended track sets | |
US20020091907A1 (en) | Method and apparatus for simplified research of multiple dynamic databases | |
Ballouz et al. | Gentrepid V2. 0: a web server for candidate disease gene prediction | |
WO2018127785A1 (en) | Methods and systems for monitoring bacterial ecosystems and providing decision support for antibiotic use |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room d301-d309, Zone D, Guangzhou International Business Incubator, No. 3, Juquan Road, Science City, Guangzhou, Guangdong 510663 Applicant after: Yunzhou Biotechnology (Guangzhou) Co.,Ltd. Address before: Room d301-d309, 3 / F, building D, Science City International Business Incubator, Huangpu District, Guangzhou, Guangdong Province 510663 Applicant before: YUNZHOU BIOSCIENCES (GUANGZHOU) Inc. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |