[go: up one dir, main page]

CN115843381A - 信息处理装置、信息处理装置的工作方法、信息处理装置的工作程序 - Google Patents

信息处理装置、信息处理装置的工作方法、信息处理装置的工作程序 Download PDF

Info

Publication number
CN115843381A
CN115843381A CN202180042892.XA CN202180042892A CN115843381A CN 115843381 A CN115843381 A CN 115843381A CN 202180042892 A CN202180042892 A CN 202180042892A CN 115843381 A CN115843381 A CN 115843381A
Authority
CN
China
Prior art keywords
information
processing apparatus
gene
information processing
biomarkers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180042892.XA
Other languages
English (en)
Inventor
长濑雅也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of CN115843381A publication Critical patent/CN115843381A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M41/00Means for regulation, monitoring, measurement or control, e.g. flow regulation
    • C12M41/48Automatic or computerized control
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明公开了一种信息处理装置的工作方法,其中,处理器执行:获取处理,获取被赋予到与生物试样相关的多个生物标志物中的每一个的注释信息;导出处理,基于注释信息导出多个生物标志物中的每一个的评价值;以及选择处理,基于评价值从多个生物标志物中选择测定对象的生物标志物。

Description

信息处理装置、信息处理装置的工作方法、信息处理装置的工 作程序
技术领域
本公开的技术涉及信息处理装置、信息处理装置的工作方法、信息处理装置的工作程序。
背景技术
在以iPS细胞(induced Pluripotent Stem Cell)等生物试样为研究对象的领域,组织了对细胞克隆的变异、药物剂量这样的参数进行各种变更的多层次实验,并参照由此获得的生物标志物,阐明分化能力这样的生物试样的特性。生物标志物例如包括在培养过程中细胞所表达的基因及蛋白质、在培养过程中由细胞产生的代谢物、或者二氧化碳浓度、pH(potential of Hydrogen)这样的与细胞的培养环境相关的要素。
作为生物标志物的代表例即基因的检查,已知有RNA(Ribonucleic Acid)测序(RNA-Seq(Sequencing))。RNA-Seq能够全面测定数万个基因的表达量。因此,对生物试样的特性的阐明有所进展。但是,由于检查耗费时间,并且比较昂贵,因此难以扩展到多层次实验中。
基因有非常庞大的数量,其中也有对生物试样的特性的阐明几乎没有贡献的基因。因此,对于多层次实验,为了更有效地阐明生物试样的特性,重要的是从数量庞大的基因中选择认为有助于阐明生物试样的特性的基因作为测定对象来缩小范围。
以往,作为选择测定对象的基因的方法,主要有以下两种。第一种方法是基于研究人员的经验的方法。具体地说,选择已知对细胞行为有影响的基因即先验知识基因作为测定对象。第二种方法是根据基因的表达量的实际的测定结果通过数据驱动选择基因的方法。具体地说,用少量样品进行预备实验,一旦全面测定了基因的表达量,则选择表达量特异性变动的基因即差异表达基因(DEGs;Differentially Expressed Genes)的一部分作为测定对象。例如据<AraVind Subramanian等人、“A Next Generation ConnectiVity Map:L1000 platform and the first 1,000,000profiles”、2015年11月30日发行、Cell、Volume171、ISSUE6、P1437-1452.e17、互联网〈URL:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5990023/〉>记载,通过高级数据分析方法,从用数据驱动提取的DEGs中,选择能够说明所有基因行为的80%以上的DEGs作为测定对象。
发明内容
发明要解决的技术课题
然而,在选择先验知识基因作为测定对象的第一种方法中,由于依赖于研究人员的经验,因此先验知识基因的数量有限,很难说能够适当地选择被认为有助于阐明生物试样的特性的基因。另外,在选择一部分DEGs作为测定对象的第二种方法中,由于仅仅单纯是因为变动量异常而选择的,因此扩展到多层次实验中的结果发现,如果研究人员知之甚少的次要基因特别有助于阐明生物试样的特性,则难以获得该如何提高细胞的培养成绩这样的指南。
本公开的技术所涉及的一实施方式提供一种关系到生物试样的特性的阐明的、能够选择更合适的测定对象的生物标志物的信息处理装置、信息处理装置的工作方法、信息处理装置的工作程序。
用于解决技术课题的手段
本公开的信息处理装置的工作方法中,处理器执行:获取处理,获取被赋予到与生物试样相关的多个生物标志物中的每一个的注释信息;导出处理,基于注释信息导出多个生物标志物中的每一个的评价值;以及选择处理,基于评价值从多个生物标志物中选择测定对象的生物标志物。
优选的是,处理器选定与关注的生物试样的特性相关的注释信息,仅基于选定的注释信息导出评价值。
优选的是,处理器参照登记了针对生物标志物的注释信息的数据库,对生物标志物赋予注释信息。
优选的是,生物试样的种类与注释信息相关联。
优选的是,处理器接受用户对根据生物试样的种类定义的多个类别、及多个类别中的每一个的测定对象的生物标志物的个数的范围的指定,从为多个类别中的每一个准备的生物标志物中选择满足范围的数量的生物标志物,将选择的生物标志物作为测定对象的生物标志物分配到多个类别的每一个中。
优选的是,类别包括iPS细胞、外胚层、中胚层及内胚层。
优选的是,处理器计数多个生物标志物中的每一个的注释信息的赋予数,基于赋予数导出评价值。
优选的是,处理器根据注释信息的信息价值对评价值进行加权。
优选的是,处理器将稀有度较高的注释信息判断为信息价值高,且加重加权。
优选的是,处理器基于注释信息的正交性对评价值进行加权。
优选的是,处理器加重强度指标在预先设定的阈值范围内的生物标志物的评价值的加权。
优选的是,处理器接受用户对先验知识标记的指定,该先验知识标记是已知对生物试样的特性有影响的生物标志物,加重先验知识标记的评价值的加权。
优选的是,处理器选择超过100个且1000个以下的测定对象的生物标志物。
优选的是,生物标志物包括基因。
优选的是,基因包括表达量特异性变动的差异表达基因。
优选的是,注释信息是由基因本体论定义的术语。
优选的是,处理器获取测定对象的生物标志物的测定结果,基于测定结果,通过统计方法从被赋予到测定对象的生物标志物的注释信息中选出对生物试样的特性的影响度较高的注释信息,将选出的注释信息呈现给用户。
本公开的信息处理装置具备至少一个处理器,处理器获取被赋予到与生物试样相关的多个生物标志物的每一个的注释信息,基于注释信息导出多个生物标志物中的每一个的评价值,基于评价值从多个生物标志物中选择测定对象的生物标志物。
本公开的信息处理装置的工作程序使处理器执行:获取处理,获取被赋予到与生物试样相关的多个生物标志物的每一个的注释信息;导出处理,基于注释信息导出多个生物标志物中的每一个的评价值;以及选择处理,基于评价值从多个生物标志物中选择测定对象的生物标志物。
发明效果
根据本公开的技术,可提供一种关系到生物试样的特性的阐明的、能够选择更合适的测定对象的生物标志物的信息处理装置、信息处理装置的工作方法、信息处理装置的工作程序。
附图说明
图1是表示信息处理装置等的图。
图2是表示基因表达信息的图。
图3是表示注释信息表的图。
图4是表示注释信息的表。
图5是表示从iPS细胞分化为三胚层、从三胚层分化为组织细胞的样子的图。
图6是表示信息处理装置的处理概要的图。
图7是表示构成信息处理装置的计算机的框图。
图8是表示信息处理装置的CPU的处理部的框图。
图9是表示类别指定画面和类别及个数范围指定信息的图。
图10是表示在类别指定画面上弹出警告画面的状态的图。
图11是表示选择部的处理概要的图。
图12是表示先验知识基因指定画面和先验知识基因指定信息的图。
图13是表示提取对象指定画面和提取对象指定信息的图。
图14是表示DEGs列表的图。
图15是表示配送信息的图。
图16是表示在获取部生成已赋予DEGs列表的样子的图。
图17是表示在导出部生成评价值表的样子的图。
图18是表示在选择部无条件地选择先验知识基因作为测定对象基因的样子的图。
图19是表示在选择部从评价值表生成选择排序表组的样子的图。
图20是表示在选择部选择满足个数范围的数量的DEGs、并将选择的DEGs作为测定对象基因来分配的样子的图。
图21是表示测定对象基因列表的图。
图22是表示提取部及获取部的处理概要的图。
图23是表示导出部及选择部的处理概要的图。
图24是表示测定对象基因显示画面的图。
图25是表示信息处理装置的处理步骤的流程图。
图26是表示将稀有度较高的注释信息判断为信息价值高、并增加该注释信息的赋予数的例子的图。
图27是表示注释信息相对于三个DEGs的赋予状况的表。
图28是表示加重强度指标在预先设定的阈值范围内的基因的评价值的加权的第三实施方式的图。
图29是表示获取测定对象基因的表达量的测定结果、并基于测定结果选出高影响注释信息的第四实施方式的图。
图30是表示在选出部中选出高影响注释信息的处理步骤的流程图。
图31是表示在选出部中参照测定结果从测定对象基因中提取高表达基因的样子的图。
图32是表示在选出部从已赋予DEGs列表摘录被赋予到高表达基因的注释信息的样子的图。
图33是表示在选出部对每一个被赋予到高表达基因的注释信息计算优势比及p值、并选出p值不足0.05的注释信息作为高影响注释信息的样子的图。
图34是表示高影响注释信息显示画面的图。
图35是表示为了选择实施例的测定对象基因即C1000而指定的先验知识基因及提取的DEGs的表。
图36是表示比较例的微阵列的表达量的测定结果的图。
图37是表示从用于微阵列测定的基因中选出的高影响注释信息的表。
图38是表示从用于微阵列测定的基因中选出的高影响注释信息的表。
图39是表示C1000的表达量的测定结果的图。
图40是表示从C1000中选出的高影响注释信息及赋予了高影响注释信息的基因的表。
图41是C1000的测定基因组的优势比的条形图。
图42是比较例的TaqMan记分卡的测定基因组的优势比的条形图。
具体实施方式
[第一实施方式]
在图1中,信息处理装置10例如是台式个人计算机,由作为本公开的技术所涉及的“生物试样”的一例的细胞的研究人员等用户来操作。信息处理装置10连接网络11。网络11例如是互联网或者公共通信网等WAN(Wide Area Network)。
信息处理装置10经由网络11与基因表达信息数据库(以下,简称为DB(DataBase))服务器12、及注释信息DB服务器13连接。基因表达信息DB服务器12具有基因表达信息DB14。基因表达信息DB14例如是美国国家生物技术信息中心(NCBI;National Centerfor Biotechnology Information)提供的GEO(Gene Expression Omnibus)。在基因表达信息DB14中,作为开放数据登记有由不特定的许多研究人员上传的海量的基因表达信息15。基因表达信息15是与培养过程中细胞所表达的基因的量、即表达量相关的信息。此外,基因是本公开的技术所涉及的“生物标志物”的一例。
基因表达信息DB服务器12从信息处理装置10接收第一配送请求72(参照图8)。基因表达信息DB服务器12从基因表达信息DB14读出与第一配送请求72对应的基因表达信息15。然后,将读出的基因表达信息15配送到信息处理装置10。
注释信息DB服务器13具有注释信息DB16。注释信息DB16例如是美国国家过敏和传染病研究所(NIAID;National Institute of Allergy and Infectious Diseases)提供的DAVID(The Database for Annotation,Visualization and Integrated DiscoVery)和/或欧洲生物信息研究所(EBI;European Bioinformatics Institute)提供的InterPro。在注释信息DB16中,对于多个基因的每一个登记有对应的注释信息。即,注释信息DB16是本公开的技术所涉及的“数据库”的一例。
注释信息DB服务器13从信息处理装置10接收第二配送请求75(参照图8)。注释信息DB服务器13从注释信息DB16读出与第二配送请求75对应的注释信息。然后,将包括读出的注释信息的配送信息76(参照图8)配送到信息处理装置10。
如图2所示,基因表达信息15是为每个基因登记了表达量的信息。在基因表达信息15中登记有测定了表达量的生物试样的种类(图2中为“iPS细胞”)。另外,在基因表达信息15中登记有“iPS细胞”、“中胚层”、“分化能力”等用于使检索变容易的关键字。关键字例如由上传基因表达信息15的研究人员、或者基因表达信息DB14的提供者登记。
在注释信息DB16中存储有图3所示的注释信息表20。注释信息表20是为每个基因登记了注释信息的ID(Identification Data)的表格。
如图4的表22所示,注释信息是ID“GO:0000578”的“embryonic axisspecification(胚胎轴规格)”、ID“IPR012287”的“Homeodomain-related(同源异型结构域)”等由基因本体论(GO;Gene Ontology)定义的术语。
如图5所示,下面例示以将人类体细胞初始化而建立的iPS细胞25为研究对象的情况。iPS细胞25通过细胞分裂形成三胚层26。三胚层26为外胚层27、中胚层28及内胚层29。三胚层26分别分化为多种组织细胞30。具体地说,外胚层27分化为晶状体31、神经细胞32等。中胚层28分化为血细胞33、骨细胞34、肌细胞35等。内胚层29分化为肺泡细胞36、肠道细胞37、肝细胞38等。
在图6中示出了信息处理装置10的处理概要。信息处理装置10首先从注释信息DB服务器13获取注释信息。然后,基于获取的注释信息,导出每个基因的评价值。接着,基于导出的评价值,从多个基因中选择测定对象的基因(以下,称为测定对象基因)。此时,信息处理装置10选择由用户指定的个数的测定对象基因。成为测定对象基因的候选的基因例如大约为3000个,测定对象基因例如为1000个。信息处理装置10将选择的测定对象基因呈现给用户。测定对象基因是本公开的技术所涉及的“测定对象的生物标志物”的一例。
在图7中,构成信息处理装置10的计算机具备存储器件45、存储器46、CPU(CentralProcessing Unit)47、通信部48、显示器49、及输入器件50。它们经由母线51相互连接。
存储器件45是内置于构成信息处理装置10的计算机中或者通过电缆、网络连接的硬盘驱动器。或者存储器件45是将硬盘驱动器多台连装的磁盘阵列。在存储器件45中存储有操作系统等控制程序、各种应用程序及这些程序附带的各种数据等。此外,也可以使用固态硬盘代替硬盘驱动器。
存储器46是用于供CPU47执行处理的工作存储器。CPU47将存储于存储器件45中的程序加载到存储器46,并按照程序执行处理。由此,CPU47总体控制计算机的各部分。
通信部48是进行经由网络11的各种信息的传送控制的网络接口。显示器49显示各种画面。构成信息处理装置10的计算机通过各种画面接受来自输入器件50的操作指示的输入。输入器件50是键盘、鼠标、触摸屏等。
在图8中,在信息处理装置10的存储器件45中存储有工作程序55。工作程序55是用于使计算机作为信息处理装置10发挥作用的应用程序。即,工作程序55是本公开的技术所涉及的“信息处理装置的工作程序”的一例。
当工作程序55启动时,构成信息处理装置10的计算机的CPU47与存储器46等协作,作为指示接受部60、提取部61、获取部62、导出部63、选择部64及显示控制部65发挥作用。CPU47是本公开的技术所涉及的“处理器”的一例。
指示接受部60接受用户经由输入器件50输入的各种指示。例如,指示接受部60接受用户对多个类别及多个类别中的每一个的测定对象基因的个数的范围(以下,称为个数范围)的指定。类别由用户根据生物试样的种类来定义。指示接受部60生成与指定的类别及个数范围对应的类别及个数范围指定信息70,将类别及个数范围指定信息70输出到选择部64。
指示接受部60还接受用户对先验知识基因的指定。指示接受部60生成与指定的先验知识基因对应的先验知识基因指定信息71,将先验知识基因指定信息71输出到选择部64。此外,先验知识基因是已知对iPS细胞25的行为有影响的基因。即,先验知识基因是本公开的技术所涉及的“先验知识标记”的一例。而且,iPS细胞25的行为是本公开的技术所涉及的“生物试样的特性”的一例。
指示接受部60还接受用户的第一配送指示,指示基因表达信息DB服务器12配送基因表达信息15。第一配送指示具体地说是由与iPS细胞25相关的检索关键字、例如“iPS细胞”、“外胚层”、“内胚层”、“中胚层”、……等构成的检索指示。第一配送指示通过设置有检索关键字的输入框和检索按钮的检索画面(省略图示)来进行。指示接受部60在接受到第一配送指示时,将包括上述检索关键字的第一配送请求72发送到基因表达信息DB服务器12。基因表达信息DB服务器12从处于基因表达信息DB14中的基因表达信息15中检索登记的关键字与检索关键字一致的基因表达信息15。然后,将检索到的基因表达信息15配送到信息处理装置10。在信息处理装置10中,基因表达信息15被输入到提取部61及显示控制部65输入。
显示控制部65在显示器49上显示来自基因表达信息DB服务器12的基因表达信息15的显示画面(省略图示)。指示接受部60接受用户对显示的基因表达信息15中作为提取DEGs的对象的基因表达信息15(以下,标记为提取对象15E(参照图22))的指定。指示接受部60生成与指定的提取对象15E对应的提取对象指定信息73,且将提取对象指定信息73输出到提取部61。
提取部61从由提取对象指定信息73指定的提取对象15E中提取DEGs。提取部61例如比较提取对象15E的各基因的表达量和预先设定的阈值,提取表达量在阈值以上的基因作为DEGs。提取部61生成登记有提取的DEGs的DEGs列表74,且将DEGs列表74输出到获取部62。
获取部62将来自提取部61的基于DEGs列表74的第二配送请求75发送到注释信息DB服务器13。第二配送请求75包括DEGs列表74中登记的DEGs。注释信息DB服务器13从处于注释信息DB16中的注释信息表20中,检索被赋予到第二配送请求75中包含的DEGs的注释信息。然后,将由检索的注释信息及DEGs的组构成的配送信息76配送到信息处理装置10。在信息处理装置10中,配送信息76被输入到获取部62。
获取部62获取来自注释信息DB服务器13的配送信息76。在配送信息76中,如上所述包括注释信息。因此,获取部62通过获取配送信息76来获取注释信息。
获取部62基于配送信息76将注释信息赋予到DEGs列表74,将DEGs列表74设为已赋予DEGs列表74G。即,获取部62参照注释信息DB16,对基因赋予注释信息。获取部62将已赋予DEGs列表74G输出到导出部63。
导出部63基于已赋予DEGs列表74G导出每个DEGs的评价值。然后,将评价值的导出结果即评价值表77输出到选择部64。
选择部64根据先验知识基因指定信息71,无条件地选择先验知识基因作为测定对象基因。另外,选择部64根据类别及个数范围指定信息70,从在提取部61提取出的DEGs中选择测定对象基因。选择部64将测定对象基因的选择结果即测定对象基因列表78输出到显示控制部65。显示控制部65基于测定对象基因列表78生成测定对象基因显示画面120(参照图24),并将其显示在显示器49上。
在图9中,为了接受用户对类别及个数范围的指定,在显示控制部65的控制下,在显示器49上显示类别指定画面80。在类别指定画面80上设置有用于选择输入关注的细胞的行为的下拉菜单81,该关注的细胞的行为是本公开的技术所涉及的“关注的生物试样的特性”的一例。另外,在类别指定画面80上设置有类别的输入框82及个数范围的下限的输入框83和上限的输入框84。输入框82~84可以通过选择追加按钮85来追加。
在下拉菜单81中选择关注的细胞的行为,且在输入框82~84中输入期望的类别及个数范围之后,当选择了指定按钮86时,指示接受部60接受关注的细胞的行为、类别及个数范围的指定。由此,类别及个数范围指定信息70从指示接受部60输出到选择部64。类别及个数范围指定信息70包括在下拉菜单81中选择的关注的细胞的行为、在输入框82中输入的类别以及在输入框83及84中输入的个数范围。
在图9中,例示了选择“分化能力”作为关注的细胞的行为的情况。另外,例示了指定“iPS细胞”、“外胚层”、“中胚层”、“内胚层”作为类别、且对各类别指定“225~250”作为个数范围的情况。此外,指定的类别也可以是一个。另外,也可以在输入框83及84中输入相同的数值。
在输入框83及84的下部,设置有输入到输入框83及84中的个数范围的下限及上限的合计的显示区域87。在显示区域87的下部,显示有提示用户使合计超过100个且1000个以下的消息88。
如图10所示,当合计在超过100个且1000个以下的范围之外的状态下选择指定按钮86时,显示控制部65在类别指定画面80上弹出警告画面90。在警告画面90上显示合计在超过100个且1000个以下的范围之外无法按原样进行指定的旨意的消息91。当选择OK按钮92时,显示控制部65取消警告画面90的显示。
类别指定画面80如此构成为在个数范围的合计在超过100个且1000个以下的范围之外时无法指定。因此,如图11所示,选择部64选择超过100个且1000个以下的测定对象基因作为结果。
在图12中,先验知识基因指定画面95在显示控制部65的控制下显示在显示器49上,以便接受用户对先验知识基因的指定。在先验知识基因指定画面95上设置有用于选择输入先验知识基因组的下拉菜单96。下拉菜单96可以通过选择追加按钮97来追加。在下拉菜单96中,预先准备有多个先验知识基因组作为选项。先验知识基因组按每个类别来准备。先验知识基因组例如包括用于TaqMan(注册商标)记分卡的基因分析的先验知识基因组、用于nCounter(注册商标)的基因分析的先验知识基因组、用于TruSeq(注册商标)的基因分析的先验知识基因组等。
在下拉菜单96中选择了期望的先验知识基因组之后,当选择了指定按钮98时,指示接受部60接受先验知识基因组的指定。由此,先验知识基因指定信息71从指示接受部60输出到选择部64。先验知识基因指定信息71是登记有先验知识基因组和与之对应的类别的信息。
在图12中,例示了对于类别“iPS细胞”指定两个先验知识基因组、对于类别“外胚层”、“中胚层”、“内胚层”各指定一个先验知识基因组、共指定五个先验知识基因组的情况。此外,也可以代替指定组,或者除此之外,采用一个一个地指定先验知识基因的结构。
在图13中,提取对象指定画面105在显示控制部65的控制下显示在显示器49上,以便供用户从来自基因表达信息DB服务器12的基因表达信息15中指定提取对象15E。在提取对象指定画面105中设置有提取对象15E的输入框106。输入框106可以通过选择追加按钮107来追加。
提取对象15E被输入到输入框106之后,当选择了指定按钮108时,在指示接受部60接受提取对象15E的指定。由此,提取对象指定信息73从指示接受部60输出到提取部61。提取对象指定信息73是登记有输入到输入框106的提取对象15E和登记于该提取对象15E的生物试样的种类的信息。
在图13中,例示了针对生物试样的种类“iPS细胞”、“外胚层”、“中胚层”、“内胚层”中的每一个逐一指定提取对象15E的情况。此外,也可以对一个生物试样的种类指定两个以上的提取对象15E。
如图14所示,在DEGs列表74中,登记有DEGs和登记在提取了该DEGs的提取对象15E上的生物试样的种类。在DEGs中,有的像ID“GE_5”、“GE_10”等DEGs那样,只登记有一个生物试样的种类,有的像ID“GE_1”、“GE_2”等DEGs那样,登记有“iPS细胞”、“外胚层”、“中胚层”、“内胚层”等多个生物试样的种类。即,既有只属于一个生物试样的种类的DEGs,也有属于多个生物试样的种类的DEGs。
如图15所示,配送信息76是登记有DEGs和与之对应的注释信息的信息。
在图16中,已赋予DEGs列表74G是在图14所示的DEGs列表74中追加了注释信息项的列表。通过该已赋予DEGs列表74G,生物试样的种类与注释信息相关联。
获取部62从登记在配送信息76中的注释信息中选定与类别及个数范围指定信息70的关注的细胞的行为相关的注释信息。然后,仅将选定的注释信息登记到DEGs列表74中,作为已赋予DEGs列表74G。
如图9所示,在本例中,“分化能力”被指定为关注的细胞的行为。因此,获取部62仅选定并登记ID“GO:0000578”、“GO:0001501”这样的与分化能力相关的注释信息,而不选定ID“GO:0000075”、“GO:0001028”这样的与分化能力无关的注释信息。此外,也可以预先将与关注的细胞的行为相关的检索关键字包含在第二配送请求75中,在注释信息DB服务器13中选定与关注的细胞的行为相关的注释信息。
在图17中,导出部63基于已赋予DEGs列表74G,计数被赋予到各DEGs的注释信息的赋予数。然后,将计数的赋予数本身作为评价值登记在评价值表77中。例如,当28条注释信息被赋予到ID“GE_1”的DEGs时,与赋予数相同的“28”作为评价值登记在评价值表77中。
在图18中,选择部64首先无条件地选择由先验知识基因指定信息71指定的先验知识基因组作为测定对象基因。由此,生成作为测定对象基因登记了先验知识基因组的临时测定对象基因列表78P。无条件地选择该先验知识基因组作为测定对象基因的方式是加重先验知识基因的评价值的加权、从而始终选择先验知识基因作为测定对象基因的方式的一例。
在图19中,选择部64基于评价值表77生成选择排序表组115。选择排序表组115由与生物试样的种类“iPS细胞”对应的类别“iPS细胞”的选择排序表116A、与生物试样的种类“外胚层”对应的类别“外胚层”的选择排序表116B、与生物试样的种类“中胚层”对应的类别“中胚层”的选择排序表116C及与生物试样的种类“内胚层”对应的类别“内胚层”的选择排序表116D构成。对于各类别,选择部64从评价值高的(注释信息的赋予数多的)DEGs开始设定选择排序。即,将评价值最高的DEGs的选择排序设为第1位、评价值次高的DEGs的选择排序设为第2位、评价值第三高的DEGs的选择排序设为第3位、……。
如图20所示,选择部64参照选择排序表116从为每个类别准备的DEGs中选择满足个数范围的数量的测定对象基因并将其分配给各类别。
图20例示了从为类别“iPS细胞”准备的DEGs中选择类别“iPS细胞”的测定对象基因的样子。另外,图20例示了指定图9中所示的“225~250”作为类别“iPS细胞”的个数范围、并且在图18中选择的类别“iPS细胞”的先验知识基因的数量为100个的情况。在该情况下,为了满足个数范围,需要选择至少125个最多150个DEGs。因此,选择部64在选择排序表116A中选择从选择排序第1位~第150位的共计150个DEGs。然后,将选择的150个DEGs作为类别“iPS细胞”的测定对象基因登记在临时测定对象基因列表78P中。
尽管省略了图示,但选择部64对其他类别“外胚层”、“中胚层”、“内胚层”也同样参照选择排序表116B~116D,选择满足个数范围的数量的DEGs。然后,将选择的DEGs作为测定对象基因登记在临时测定对象基因列表78P中。选择部64通过这样依次选择测定对象基因,最终生成如图21所示的在各类别中满足个数范围的测定对象基因列表78。
图22及图23是总结提取部61、获取部62、导出部63及选择部64的一系列处理的图。首先,如图22所示,提取部61从提取对象15E提取DEGs,生成DEGs列表74。获取部62通过获取来自注释信息DB服务器13的配送信息76,获取注释信息。获取部62将配送信息76的注释信息赋予到DEGs列表74,作为已赋予DEGs列表74G。
如图23所示,导出部63计算注释信息向各DEGs的赋予数,将赋予数作为评价值登记在评价值表77中。选择部64基于评价值选择测定对象基因,生成测定对象基因列表78。
如图24所示,在测定对象基因显示画面120上,显示登记在测定对象基因列表78中的测定对象基因。在测定对象基因显示画面120上,为每个类别设置有显示区域121A、121B、121C、及121D。在显示区域121A显示类别“iPS细胞”的测定对象基因。分别在显示区域121B显示类别“外胚层”、在显示区域121C显示类别“中胚层”、在显示区域121D显示类别“内胚层”的测定对象基因。
在测定对象基因显示画面120的下部,设置有保存按钮122、打印按钮123及确认按钮124。将测定对象基因列表78保存到存储器件45时选择保存按钮122。打印测定对象基因列表78时选择打印按钮123。当选择了确认按钮124时,显示控制部65取消测定对象基因显示画面120的显示。
接着,参照图25的流程图,对上述结构的作用进行说明。首先,当在信息处理装置10中启动工作程序55时,如图8所示,信息处理装置10的CPU47作为指示接受部60、提取部61、获取部62、导出部63、选择部64及显示控制部65发挥作用。
在显示控制部65的控制下,在显示器49上显示图9中所示的类别指定画面80(步骤ST100)。用户输入关注的细胞的行为和期望的类别及个数范围,并选择指定按钮86。由此,在指示接受部60中,接受关注的细胞的行为和类别及个数范围的指定(步骤ST110),生成类别及个数范围指定信息70。类别及个数范围指定信息70从指示接受部60输出到选择部64。
接着,在显示控制部65的控制下,在显示器49上显示图12中所示的先验知识基因指定画面95(步骤ST120)。用户输入期望的先验知识基因组,并选择指定按钮98。由此,在指示接受部60中,接受先验知识基因组的指定(步骤ST130),生成先验知识基因指定信息71。先验知识基因指定信息71从指示接受部60输出到选择部64。
在显示控制部65的控制下,在显示器49上显示省略图示的检索画面。然后,在指示接受部60中,接受用户的包含检索关键字的第一配送指示。由此,从指示接受部60向基因表达信息DB服务器12发送包含检索关键字的第一配送请求72(步骤ST140)。
根据第一配送请求72,从基因表达信息DB服务器12配送基因表达信息15。基因表达信息15被输入到显示控制部65。然后,在显示控制部65的控制下,在显示器49上显示省略图示的基因表达信息15的显示画面(步骤ST150)。
另外,在显示控制部65的控制下,在显示器49上显示图13中所示的提取对象指定画面105(步骤ST160)。用户输入期望的提取对象15E,并选择指定按钮108。由此,在指示接受部60中,接受提取对象15E的指定(步骤ST170),生成提取对象指定信息73。提取对象指定信息73从指示接受部60输出到提取部61。
在提取部61中,从提取对象15E中提取DEGs,生成图14中所示的DEGs列表74(步骤ST180)。DEGs列表74从提取部61输出到获取部62。接着,基于DEGs列表74的第二配送请求75从获取部62发送到注释信息DB服务器13(步骤ST190)。
根据第二配送请求75,从注释信息DB服务器13配送包含图15中所示的注释信息的配送信息76。配送信息76被输入到获取部62。由此,在获取部62中获取配送信息76乃至注释信息(步骤ST200)。此外,步骤ST200是本公开的技术所涉及的“获取处理”的一例。
如图16所示,通过获取部62,基于配送信息76将注释信息赋予到DEGs列表74中,DEGs列表74被设为已赋予DEGs列表74G(步骤ST210)。此时,仅选定并赋予与关注的细胞的行为相关的注释信息。已赋予DEGs列表74G从获取部62输出到导出部63。
如图17所示,通过导出部63,计数被赋予到各DEGs的注释信息的赋予数,赋予数作为评价值登记在评价值表77中(步骤ST220)。评价值表77从导出部63输出到选择部64。此外,步骤ST220是本公开的技术所涉及的“导出处理”的一例。
如图18所示,通过选择部64,无条件地选择先验知识基因作为测定对象基因(步骤ST230)。
进而,如图20所示,通过选择部64,从为每个类别准备的DEGs中,按评价值从高到低的顺序选择满足个数范围的数量的DEGs。然后,选择的DEGs作为测定对象基因被分配到各类别(步骤ST240)。经过这样的过程,生成图21中所示的测定对象基因列表78。测定对象基因列表78从选择部64输出到显示控制部65。此外,步骤ST240是本公开的技术所涉及的“选择处理”的一例。
最后,通过显示控制部65,在显示器49上显示图24中所示的测定对象基因显示画面120(步骤ST250)。用户通过该测定对象基因显示画面120确认测定对象基因。
如上所述,信息处理装置10具备获取部62、导出部63以及选择部64。获取部62获取被赋予到多个基因中的每一个的注释信息。导出部63基于注释信息导出多个基因中的每一个的评价值。选择部64基于评价值从多个基因中选择测定对象基因。因此,可以在基于注释信息的评价值这样的可靠证据下,用数据驱动选择测定对象基因。这样选择的测定对象基因既容易多水平展开,又能根据待研究对象的细胞定制。因此,可以选择关系到细胞的行为的阐明的、更合适的测定对象基因。
获取部62选定与关注的细胞的行为相关的注释信息。选择部64仅基于选定的注释信息导出评价值。因此,能够仅基于专门针对关注的细胞的行为的注释信息,选择测定对象基因。换言之,能够将与关注的细胞的行为的关联性弱的注释信息作为干扰予以排除,以限定于与关注的细胞的行为的关联性强的注释信息的形式选择测定对象基因。
获取部62参照登记有对基因的注释信息的注释信息DB16,对基因赋予注释信息。因此,能够使用现有的注释信息DB16简单地赋予注释信息。
生物试样的种类与注释信息相关联。指示接受部60接受用户对根据生物试样的种类定义的多个类别及多个类别中的每一个的个数范围的指定。选择部64从为多个类别中的每一个准备的基因中选择满足个数范围的数量的基因,并将选择的基因作为测定对象基因分配到多个类别的每一个中。因此,能够为每个类别选择不多也不少的测定对象基因。
类别包括“iPS细胞”、“外胚层”、“中胚层”及“内胚层”。因此,能够获得与近年来备受关注的iPS细胞25相关的每个类别的测定对象基因。此外,当以评价iPS细胞及其分化工序为目的测定基因的表达量时,类别优选包括上述的“iPS细胞”、“外胚层”、“中胚层”及“内胚层”。但是,当以上述以外的目的测定基因的表达量时,作为类别不限于上述的“iPS细胞”、“外胚层”、“中胚层”及“内胚层”。
导出部63对多个基因中的每一个计算注释信息的赋予数,基于赋予数导出评价值。因此,能够简单地导出评价值。
基因包括先验知识基因。而且,指示接受部60接受用户对先验知识基因的指定。作为加重先验知识基因的评价值的加权的一种方式,选择部64无条件地选择先验知识基因作为测定对象基因。因此,能够反映用户想要测定先验知识基因这样的意图。另外,能够有效地导入凝缩了过去的知识的先验知识基因作为测定对象基因。
选择部64选择超过100个且1000个以下的测定对象基因。如果测定对象基因在100个以下,则不足以阐明细胞的行为。另一方面,如果测定对象基因多于1000个,则检查耗费时间及成本,难以向多层次实验扩展。
基因包括DEGs。因此,能够选择认为更有助于细胞的行为的阐明的测定对象基因。
此外,设为了先验知识基因无条件地被选为测定对象基因,但不限于此。对于先验知识基因,也可以与DEGs同样地获取注释信息并导出评价值,并基于导出的评价值进行选择。此时,也可以使先验知识基因的评价值的加权比DEGs更重。另外,在该情况下,也可以对先验知识基因的每一个设定重要度,并且通过添加重要度来导出评价值。具体地说,设为重要度越高、导出的评价值越高的结构。此外,先验知识基因以外的基因例如DEGs等,也可以视为重要度最低并导出评价值。
先验知识基因也可以不必指定。例如,研究对象的细胞新颖、且原本不存在先验知识基因的情况下,也可以省略先验知识基因的指定。
也可以还省略提取对象15E的指定,将从基因表达信息DB服务器12配送的所有基因表达信息15作为提取对象15E。
类别也可以不必指定。但是,即使省略类别的指定,选择的测定对象基因的个数的范围、至少上限也需要指定。
基因表达信息DB14不限于例示的GEO这样的公共DB。例如也可以是登记了在用户所属的研究所测定的基因表达信息15的本地DB。关于注释信息DB16也同样地并不限于DAVID、InterPro这样的公共DB,例如也可以是在用户所属的研究所准备的本地DB。
[第二实施方式]
在图26及图27所示的第二实施方式中,根据注释信息的信息价值,对评价值进行加权。
图26表示将赋予数较少即稀有度较高的注释信息判断为信息价值高、并增加该注释信息的赋予数的例子。首先,如表150所示,导出部63基于已赋予DEGs列表74G计数赋予到DEGs的注释信息中的每一个的赋予数(以下,称为总赋予数)。导出部63比较总赋予数和预先设定的阈值。而且,将总赋予数低于阈值的注释信息判断为信息价值高,如表151所示,将该注释信息的、导出评价值时的赋予数设为大于1的值。即,加重判断为信息价值高的注释信息的加权。导出部63计数包括被加权的赋予数在内的各DEGs的注释信息的赋予数,生成评价值表77。
图26例示了设定“10”作为阈值、总赋予数为“6”时低于阈值的ID“GO:0000578”的注释信息的赋予数被设为“10”的情况。
图27表示基于注释信息的正交性对评价值进行加权的例子。导出部63将能够尽可能无遗漏且无重复地覆盖注释信息的基因组的正交性判断为高。
表158表示A1~A7所示的注释信息对ID“GE_1000”、“GE_1001”及“GE_1002”这三个DEGs的赋予状况。A1~A7的注释信息中,作为生物试样的种类“iPS细胞”与A1~A4相关联,“外胚层”与A5~A7相关联。
在该情况下,如果只看注释信息的赋予数,则ID“GE_1000”及ID“GE_1001”的DEGs比ID“GE_1002”的DEGs优先被选择作为测定对象基因。但是,如果考虑注释信息的正交性,则ID“GE_1002”的DEGs比ID“GE_1001”的DEGs优先被选择作为测定对象基因。这样,最终如果选择ID“GE_1000”及ID“GE_1002”的DEGs作为测定对象基因,则能够覆盖“iPS细胞”及“外胚层”两者。
此外,也可以基于能够以与其他基因的组合覆盖的注释信息的数量,导出评价值。以表158为例进行说明,在ID“GE_1000”及ID“GE_1001”的DEGs的组合中,能够覆盖的注释信息的数量为六个。在ID“GE_1000”及ID“GE_1002”的DEGs的组合中,能够覆盖的注释信息的数量为七个。在ID“GE_1001”及ID“GE_1002”的DEGs的组合中,能够覆盖的注释信息的数量为五个。根据该结果,将ID“GE_1000”及ID“GE_1002”的DEGs的评价值设为高于ID“GE_1001”的DEGs的评价值。
这样,在第二实施方式中,导出部63根据注释信息的信息价值对评价值进行加权。因此,例如通过加重判断为信息价值高的注释信息的赋予数的加权,被赋予了认为信息价值高的注释信息的基因变得更容易被选择作为测定对象基因。因此,能够提高测定对象基因的妥当性、可靠性。
在图26中,导出部63将稀有度较高的注释信息判断为信息价值高,加重加权。因此,能够选择被赋予了经常被忽视的稀有的注释信息的基因作为测定对象基因。
在图27中,导出部63基于注释信息的正交性对评价值进行加权。因此,能够选择能够尽可能无遗漏且无重复地覆盖注释信息的基因组作为测定对象基因。
也可以组合图26及图27的例子来实施。在该情况下,例如,在赋予了总赋予数低于阈值的注释信息并且注释信息的正交性高的DEGs的评价值上加上100。
此外,在图26中,将稀有度较高的注释信息判断为了信息价值高的注释信息,但信息价值高的注释信息的例子不限于此。例如,也可以将研究论文中刊载量较多的注释信息判断为信息价值高的注释信息。
在图26中,对赋予到DEGs的注释信息的赋予数进行了加权,但不限于此。对于先验知识基因也导出评价值时,也可以与图26所示的情况同样地对赋予到先验知识基因的注释信息的赋予数进行加权。图27所示的方式对先验知识基因也同样适用。
[第三实施方式]
在图28所示的第三实施方式中,加重强度指标在预先设定的阈值范围内的基因的评价值的加权。
在图28中,在第三实施方式的已赋予DEGs列表160G中,设置有强度指标信息项。在强度指标信息项中,登记有强度指标是否在预先设定的阈值范围内。强度指标例如是表示fold-change(差异倍数)、多重检验修正后的表达差异显著性的q值(q-value)等。
如表161所示,导出部63将强度指标在阈值范围内的DEGs的注释信息的、导出评价值时的赋予数设为大于1的值。即,加重强度指标在阈值范围内的DEGs的评价值的加权。导出部63计数包括加权的赋予数在内的各DEGs的注释信息的赋予数,生成评价值表77。
图28例示了ID“GE_2”、“GE_5”等DEGs的强度指标在阈值范围内、且这些注释信息的赋予数被设为“2”的情况。
这样,在第三实施方式中,导出部63加重强度指标在阈值范围内的DEGs的评价值的加权。因此,能够选择被认为对生物试样的特性的阐明更加重要的、强度指标在阈值范围内的DEGs作为测定对象基因生物试样。此外,也可以组合第二实施方式和第三实施方式来实施。
[第四实施方式]
在图29~图34所示的第四实施方式中,获取测定对象基因的测定结果166。然后,基于测定结果166,通过统计方法从赋予到测定对象基因的注释信息171中选出对细胞的行为的影响度比较高的注释信息(以下,称为高影响注释信息)167,将选出的高影响注释信息167呈现给用户。
在图29中,第四实施方式的信息处理装置10的CPU47除了图8所示的各处理部60~65(图29中仅图示获取部62)之外,还作为选出部165发挥作用。
获取部62获取多个测定结果166_1、166_2、……、及166_X。测定结果166_1~166_X例如是对从iPS细胞25向组织细胞30的分化诱导效率低的多个样品1、2、……、X,在iPS细胞25的阶段中实际测定测定对象基因的表达量而得到的结果。测定结果166_1~166_X例如从测定基因的表达量的测定装置被发送到信息处理装置10,并输入到获取部62。获取部62将测定结果166_1~166_X输出到选出部165。
选出部165基于来自获取部62的测定结果166_1~166_X及已赋予DEGs列表74G,选出高影响注释信息167。选出部165将高影响注释信息167输出到显示控制部65。
图30~图33中示出了在选出部165中选出高影响注释信息167的处理的步骤。首先,如图30的步骤ST300及图31所示,选出部165参照测定结果166_1~166_X,从测定对象基因中提取高表达基因170。高表达基因170例如是所有样品1~X中表达量在阈值以上的测定对象基因。图31例示了设定“100”作为阈值、提取ID“GE_5”、“GE_32”、“GE_300”、……这样的测定对象基因作为高表达基因170的情况。
接着,如图30的步骤ST310及图32所示,选出部165从已赋予DEGs列表74G中摘录赋予到高表达基因170的注释信息171。接下来,如图30的步骤ST320及图33的计算结果172所示,选出部165对赋予到高表达基因170的每一个注释信息171,计算优势比及p值(p-value)。最后,如图30的步骤ST330及图33的计算结果172的后段所示,选出部165选出赋予到高表达基因170的注释信息171中、p值小于0.05的在统计学上有意义的注释信息171作为高影响注释信息167。图33例示了选出p值为“0.0205”的ID“GO:0001501”的注释信息171以及p值为“0.0245”的ID“GO:0001704”的注释信息171等作为高影响注释信息167的情况。
在图34中,高影响注释信息显示画面180在显示控制部65的控制下显示在显示器49上。在高影响注释信息显示画面180上,设置有高影响注释信息167的显示区域181。在显示区域181列表显示高影响注释信息167及其内容。在选择了确认按钮182的情况下,显示控制部65取消高影响注释信息显示画面180的显示。
这样,在第四实施方式中,获取部62获取测定对象基因的测定结果166。选出部165根据测定结果166通过统计方法从赋予到测定对象基因的注释信息171中选出对细胞的行为的影响度较高的高影响注释信息167。显示控制部65通过在显示器49上显示高影响注释信息显示画面180,向用户呈现高影响注释信息167。因此,用户能够根据高影响注释信息167类推分化诱导效率低的主要原因等,能够用在下次培养中。由于高影响注释信息167是通过统计方法选出的,因此能够可靠地进行分化诱导效率低的主要原因等的类推。
此外,在高影响注释信息显示画面180中,除了高影响注释信息167之外,还可以显示被赋予了高影响注释信息167的基因。
[实施例]
下面,与图9的情况相同地示出选择了iPS细胞25的“分化能力”作为关注的细胞的行为的情况的实施例。类别及个数范围也与图9所示的例子相同。即,示出了指定“iPS细胞”、“外胚层”、“中胚层”、“内胚层”作为类别、并对各类别指定“225~250”作为个数范围的例子。
图35所示的表200表示在本实施例中为了选择测定对象基因而指定的先验知识基因及提取的DEGs。先验知识基因中,也包括基于专家听证会的基因或者TaqMan记分卡这样的著名基因组合。在DEGs中,包括从iPS细胞25或者ES细胞(Embryonic Stem cells)及使iPS细胞25或者ES细胞分化为三胚层26或组织细胞30的实验中的提取对象15E提取的信息。在本实施例中,从这些约2900个(部分重复)基因中选择了满足个数范围的约1000个(具体地说是980个)测定对象基因。更详细地说,在从注释信息DB16获取的注释信息中,仅选定与分化能力相关的注释信息赋予到先验知识基因及DEGs。然后,基于注释信息导出评价值,按评价值从高到低的顺序选择满足个数范围的数量。另外,除了先验知识基因及DEGs,还选择标准化用基因作为测定对象基因。以下,将这样选择的约1000个测定对象基因称为C1000。
在将iPS细胞25分化诱导为心肌细胞的实验中,测定iPS细胞25的阶段中的15个样品的C1000的表达量。15个样品中,10个样品分化诱导效率高,另一方面,5个样品分化诱导效率低。
在此,为了确认本公开的技术的效果,作为比较例,对于15个样品的分化诱导前的iPS细胞25,另外还进行了利用微阵列的综合性的基因(约21000个)的表达量的测定。
图36中示出了微阵列的表达量的测定结果202。长条203表示各基因的表达量。根据测定结果202,通过聚类分为左侧的9个样品的组和右侧的6个样品的组,6个样品的组中包括所有用“Bad”表示的分化诱导效率低的5个样品。即,根据微阵列的表达量的测定结果202可知,在iPS细胞25的阶段,能够以相对较高的准确度(分化诱导效率变低的样品的检测灵敏度100%,分化诱导效率变低的样品的特异度83%)预测分化诱导效率的高低。此外,“Good”表示分化诱导效率高的样品。
如上述第四实施方式,从用于用微阵列测定的基因中提取高表达基因170,进而选出高影响注释信息167。将其结果示于图37的表205及图38的表206。根据表205及表206可知,各种杂项注释信息被选出作为高影响注释信息167,很难获得关系到细胞的行为的阐明的有效的知识。
图39中释出了对15个样品的分化诱导前的iPS细胞25进行的C1000的表达量的测定结果208。根据测定结果208,通过聚类分为右侧的9个样品的组和左侧的6个样品的组,6个样品的组中包括所有用“Bad”表示的分化诱导效率低的5个样品(分化诱导效率变低的样品的检测灵敏度100%,分化诱导效率变低的样品的特异度83%)。因此,可以确认,根据本公开的技术所涉及的C1000,能够以与利用微阵列的综合测定同等的水平预测分化诱导效率。
如上述第四实施方式从C1000中提取高表达基因170,进而选出高影响注释信息167。将其结果示于图40的表210。根据表210可知,选出了特别多的与血管形成系统功能表达相关的注释信息。另外,NODAL、LEFTY1、LEFTY2、CER1、BMP4等基因较显眼,可以看出这些基因可能决定着分化诱导效率的高低。即,可以确认,如果像本公开的技术那样从注释信息中导出评价值,并基于评价值选择测定对象基因,则对生物试样的特性的阐明有很大帮助。
接下来,比较了通过本公开的技术选择的C1000的测定基因组和代表传统方法的TaqMan记分卡的测定基因组的分析能力。此外,TaqMan记分卡的测定基因组的测定结果是从利用微阵列的综合性的基因的表达量的测定结果中提取TaqMan记分卡的84个基因而模拟创建的。
作为分析能力的比较,通过DEGs提取将TaqMan记分卡中的生物试样的种类和C1000中的生物试样的种类的注释信息进行对比,对于被赋予了各注释信息的基因,调查表示DEGs以何种程度浓缩的优势比。图41中示出了利用C1000的测定基因组的优势比的条形图215,图42中示出了利用TaqMan记分卡的测定基因组的优势比的条形图216。
根据图41中的条形图215,在C1000的测定基因组中,在分化诱导效率低的样品中,与“中胚层”及“内胚层”相关的基因浓缩,并且与“iPS细胞”相关的基因减少。另外,当分化诱导效率低时,除“外胚层”外,与各生物试样的种类相关的基因的优势比在统计学上显著地偏离100%(q值(q-value)小于0.05(q<0.05))。因此,可知C1000的测定基因组对分化诱导效率变低的样品有一定的分析能力。获得这样的结果可认为是由于以各生物试样种类为中心的足够多的测定对象基因被均衡地分配。
另一方面,根据图42的条形图216,在TaqMan记分卡的测定基因组中,在分化诱导效率高的样品中,与“iPS细胞”相关的基因被浓缩,在分化诱导效率低的样品中,与“内胚层”相关的基因被浓缩。但是,优势比在统计学上显著地偏离100%的仅仅是与分化诱导效率高时的“iPS细胞”相关的基因。因此,可知TaqMan记分卡的测定基因组对分化诱导效率变低的样品的分析能力有限。获得这样的结果可认为是由于与C1000的情况不同,分配给各种生物试样的基因的个数较少,容易出现极端比率。
如上所述,本公开的技术即使在事先没有知识储备的情况下,也能够实现统计上有意义的阐明。即,检查在短时间内完成,并且能够像RNA-Seq一样灵活运用以比较廉价的PCR为基础的方法,可期待广泛的应用。
在上述各实施方式中,将赋予数本身作为评价值进行了导出,但不限于此。也可以像赋予数0为评价值0、赋予数1~10为评价值1、赋予数11~20为评价值2、……那样,根据赋予数导出预先设定的评价值。
作为向用户呈现测定对象基因的方式,不限于图24所示的在显示器49上显示测定对象基因显示画面120的方式。也可以采用打印出测定对象基因列表78的方式、或者通过电子邮件等将测定对象基因列表78配送给用户所拥有的终端的方式。在上述第四实施方式中,向用户呈现高影响注释信息167的方式也同样不限于在显示器49上显示高影响注释信息显示画面180的方式。也可以采用打印出高影响注释信息167的方式、通过电子邮件等将高影响注释信息167配送给用户所拥有的终端的方式。
在上述各实施方式中,作为研究对象的生物试样例示了iPS细胞25,但不限于此。也可以是ES细胞、来自培养过程中的细胞的提取物、或者活体组织片。另外,作为生物标志物例示了基因,但不限于此。也可以代替基因或在此基础上将基因的序列、突变、表达、修饰、DNA(Deoxyribonucleic acid)、表观基因、mRNA(messenger RNA)、miRNA(microRNA)、培养过程中细胞表达的蛋白质、培养过程中由细胞产生的代谢物、二氧化碳浓度以及pH这样的与细胞的培养环境相关的要素作为生物标志物。但是,由于考虑到基因种类繁多且更有助于细胞的行为的阐明,因此优选在生物标志物中包含基因。此外,从上述的例子也可以看出,本说明书中的“生物标志物”只是单纯表示各种生物特征量的物的总称。
构成信息处理装置10的计算机的硬件结构可以进行多种变形。为了提高处理能力及可靠性,也可以由作为硬件分离的多台计算机构成信息处理装置10。例如,将指示接受部60、提取部61及获取部62的功能和导出部63、选择部64及显示控制部65的功能分担给两台计算机。该情况下,由两台计算机构成信息处理装置10。
这样,信息处理装置10的计算机的硬件结构能够根据处理能力、安全性以及可靠性等所要求的性能进行适当变更。此外,不限于硬件,对于工作程序55等应用程序,为了确保安全性及可靠性,当然也可以复制或者分散存储在多个存储器件中。
在上述各实施方式中,例如,作为指示接受部60、提取部61、获取部62、导出部63、选择部64、显示控制部65及选出部165这样的执行各种处理的处理部(Processing Unit)的硬件结构,可使用以下所示的各种处理器(Processor)。在各种处理器中,如上所述,除了执行软件(工作程序55)并作为各种处理部发挥作用的通用处理器即CPU47以外,还包括FPGA(Field Programmable Gate Array)等制造后能够变更电路结构的处理器即可编程逻辑器件(Programmable Logic Device:PLD)、ASIC(Application Specific IntegratedCircuit)等具有为了执行特定处理而专门设计的电路结构的处理器即专用电路等
一个处理部也可以由这些各种处理器中的一个构成,也可以由同种或不同种的两个以上处理器的组合(例如,多个FPGA的组合和/或CPU与FPGA的组合)构成。另外,也可以由一个处理器构成多个处理部。
作为将由一个处理器构成多个处理部的例子,首先,有诸如以客户端或服务器等计算机为代表,使用一个以上的CPU与软件的组合构成一个处理器、并将该处理器作为多个处理部发挥作用的形态。其次,有诸如以片上系统(System On Chip:SoC)等为代表,使用以一个IC(Integrated Circuit)芯片实现包括多个处理部的系统整体的功能的处理器的形态。像这样,使用一个以上的上述各种处理器作为硬件结构来构成各种处理部。
此外,作为这些各种处理器的硬件结构,更具体地说,可使用组合了半导体元件等电路元件的电路(circuitry)。
本公开的技术也可以适当组合上述的各种实施方式和各种变形例。另外,只要不脱离主旨,当然可以采用各种结构,而不限于上述各实施方式。此外,本公开的技术除了程序之外还扩展到非临时性存储程序的存储介质。
以上所示的记载内容及图示内容是关于本公开的技术所涉及的部分的详细的说明,只不过是本公开的技术的一例。例如,关于上述的结构、功能、作用及效果的说明是关于本公开的技术所涉及的部分的结构、功能、作用及效果的一例的说明。因此,在不脱离本公开的技术的主旨的范围内,当然也可以对以上所示的记载内容及图示内容删除不需要的部分、或者追加或替换新的要素。另外,为了使本公开的技术所涉及的部分容易理解而避免复杂,在以上所示的记载内容及图示内容中,省略了与在能够实施本公开的技术方面不需要特别说明的技术常识等相关的说明。
在本说明书中,“A和/或B”与“A及B中的至少一个”同义。即,“A和/或B”意味着可以只是A,也可以只是B,亦可以是A和B的组合。另外,在本说明书中,在用“和/或”将三个以上的事物相关联地表达的情况,也适用与“A和/或B”同样的想法。
关于本说明书中所记载的所有文献、专利申请及技术规格,与具体且单独记载各个文献、专利申请及技术规格通过参照被引入的情况相同程度地通过参照被引入本说明书中。

Claims (19)

1.一种信息处理装置的工作方法,其中,由处理器执行:
获取处理,获取被赋予到与生物试样相关的多个生物标志物中的每一个的注释信息;
导出处理,基于所述注释信息导出多个所述生物标志物中的每一个的评价值;以及
选择处理,基于所述评价值从多个所述生物标志物中选择测定对象的生物标志物。
2.根据权利要求1所述的信息处理装置的工作方法,其中,
所述处理器,
选定与关注的生物试样的特性相关的注释信息,
仅基于选定的注释信息导出所述评价值。
3.根据权利要求1或权利要求2所述的信息处理装置的工作方法,其中,
所述处理器,
参照登记了针对所述生物标志物的所述注释信息的数据库,对所述生物标志物赋予所述注释信息。
4.根据权利要求1至权利要求3中任一项所述的信息处理装置的工作方法,其中,
所述生物试样的种类与所述注释信息相关联。
5.根据权利要求4所述的信息处理装置的工作方法,其中,
所述处理器,
接受用户对根据所述生物试样的种类定义的多个类别、及多个所述类别中的每一个的所述测定对象的生物标志物的个数的范围的指定,
从为多个所述类别中的每一个准备的所述生物标志物中选择满足所述范围的数量的生物标志物,将选择的所述生物标志物作为所述测定对象的生物标志物分配到多个所述类别的每一个中。
6.根据权利要求5所述的信息处理装置的工作方法,其中,
所述类别包括iPS细胞、外胚层、中胚层及内胚层。
7.根据权利要求1至权利要求6中任一项所述的信息处理装置的工作方法,其中,
所述处理器,
按照多个所述生物标志物中的每一个对所述注释信息的赋予数进行计数,
基于所述赋予数导出所述评价值。
8.根据权利要求1至权利要求7中任一项所述的信息处理装置的工作方法,其中,
所述处理器,
根据所述注释信息的信息价值对所述评价值进行加权。
9.根据权利要求8所述的信息处理装置的工作方法,其中,
所述处理器,
将稀有度较高的注释信息判断为所述信息价值高,且加重加权。
10.根据权利要求8或权利要求9所述的信息处理装置的工作方法,其中,
所述处理器,
基于所述注释信息的正交性,对所述评价值进行加权。
11.根据权利要求1至权利要求10中任一项所述的信息处理装置的工作方法,其中,
所述处理器,
加重强度指标在预先设定的阈值范围内的所述生物标志物的评价值的加权。
12.根据权利要求1至权利要求11中任一项所述的信息处理装置的工作方法,其中,
所述处理器,
接受用户对先验知识标记的指定,该先验知识标记是已知对所述生物试样的特性有影响的所述生物标志物,
加重所述先验知识标记的评价值的加权。
13.根据权利要求1至权利要求12中任一项所述的信息处理装置的工作方法,其中,
所述处理器,
选择超过100个且1000个以下的所述测定对象的生物标志物。
14.根据权利要求1至权利要求13中任一项所述的信息处理装置的工作方法,其中,
所述生物标志物包括基因。
15.根据权利要求14所述的信息处理装置的工作方法,其中,
所述基因包括表达量特异性变动的差异表达基因。
16.根据权利要求1至权利要求15中任一项所述的信息处理装置的工作方法,其中,
所述注释信息是由基因本体论定义的术语。
17.根据权利要求1至权利要求16中任一项所述的信息处理装置的工作方法,其中,
所述处理器,
获取所述测定对象的生物标志物的测定结果,
基于所述测定结果,通过统计方法从被赋予到所述测定对象的生物标志物的所述注释信息中选出对所述生物试样的特性的影响度较高的注释信息,
将选出的注释信息呈现给用户。
18.一种信息处理装置,其中,
具备至少一个处理器,
所述处理器,
获取被赋予到与生物试样相关的多个生物标志物的每一个的注释信息,
基于所述注释信息导出多个所述生物标志物中的每一个的评价值,
基于所述评价值,从多个所述生物标志物中选择测定对象的生物标志物。
19.一种信息处理装置的工作程序,其中,
所述工作程序使处理器执行:
获取处理,获取被赋予到与生物试样相关的多个生物标志物中的每一个的注释信息;
导出处理,基于所述注释信息,导出多个所述生物标志物中的每一个的评价值;以及
选择处理,基于所述评价值,从多个所述生物标志物中选择测定对象的生物标志物。
CN202180042892.XA 2020-06-19 2021-04-06 信息处理装置、信息处理装置的工作方法、信息处理装置的工作程序 Pending CN115843381A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020-106417 2020-06-19
JP2020106417 2020-06-19
PCT/JP2021/014592 WO2021256055A1 (ja) 2020-06-19 2021-04-06 情報処理装置、情報処理装置の作動方法、情報処理装置の作動プログラム

Publications (1)

Publication Number Publication Date
CN115843381A true CN115843381A (zh) 2023-03-24

Family

ID=79267838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180042892.XA Pending CN115843381A (zh) 2020-06-19 2021-04-06 信息处理装置、信息处理装置的工作方法、信息处理装置的工作程序

Country Status (5)

Country Link
US (1) US20230118920A1 (zh)
EP (1) EP4170027A4 (zh)
JP (1) JP7459254B2 (zh)
CN (1) CN115843381A (zh)
WO (1) WO2021256055A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5687816B2 (ja) * 2004-07-09 2015-03-25 ヴィアサイト,インコーポレイテッド 胚体内胚葉を分化させるための因子を同定する方法
EP2616554A1 (en) * 2010-09-17 2013-07-24 President and Fellows of Harvard College Functional genomics assay for characterizing pluripotent stem cell utility and safety

Also Published As

Publication number Publication date
EP4170027A4 (en) 2023-12-13
WO2021256055A1 (ja) 2021-12-23
JPWO2021256055A1 (zh) 2021-12-23
EP4170027A1 (en) 2023-04-26
US20230118920A1 (en) 2023-04-20
JP7459254B2 (ja) 2024-04-01

Similar Documents

Publication Publication Date Title
Moyers et al. Phylostratigraphic bias creates spurious patterns of genome evolution
Nadeau et al. Counting on comparative maps
Bamshad et al. Human population genetic structure and inference of group membership
Larsson et al. Comparative microarray analysis
Campbell et al. Making genomic surveillance deliver: A lineage classification and nomenclature system to inform rabies elimination
Harrison et al. Fungal microbiomes are determined by host phylogeny and exhibit widespread associations with the bacterial microbiome
Lauria et al. SCUDO: a tool for signature-based clustering of expression profiles
Raju et al. VirusTaxo: Taxonomic classification of viruses from the genome sequence using k-mer enrichment
Ma et al. LRcell: detecting the source of differential expression at the sub–cell-type level from bulk RNA-seq data
Ignatieva et al. Evidence of ongoing recombination in SARS-CoV-2 through genealogical reconstruction
JP6623774B2 (ja) パスウェイ解析プログラム、パスウェイ解析方法、及び、情報処理装置
CN115843381A (zh) 信息处理装置、信息处理装置的工作方法、信息处理装置的工作程序
Xi et al. SiftCell: A robust framework to detect and isolate cell-containing droplets from single-cell RNA sequence reads
Fortmann-Grote et al. RAREFAN: A webservice to identify REPINs and RAYTs in bacterial genomes
Kaiser et al. Automated structural variant verification in human genomes using single-molecule electronic DNA mapping
Ferreira et al. Identifying hierarchical cell states and gene signatures with deep exponential families for single-cell transcriptomics
Fang et al. Clustering deviation index (CDI): a robust and accurate unsupervised measure for evaluating scRNA-seq data clustering
Xue et al. Single-cell signatures identify microenvironment factors in tumors associated with patient outcomes
Chiang et al. Optimal balancing of clinical factors in large scale clinical RNA-Seq studies
KR101853916B1 (ko) 단백질 도메인의 생물경로 특이성 판단 방법, 및 이를 이용한 질병 유전자 발굴 방법
Marić et al. Approaches to metagenomic classification and assembly
AU2021321531B2 (en) Mitochondrial DNA quality control
Jin et al. A comparative study of deconvolution methods for RNA-seq data under a dynamic testing landscape
Fortmann-Grote et al. Peer Community Journal
CN118782142A (zh) 一种靶标病原或耐药基因的多重数字pcr引物探针设计与评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination