您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 生物信息学在肿瘤研究中的应用
生物信息学在肿瘤研究中的应用张新宇中国医科院肿瘤医院/肿瘤研究所中心实验室生物信息学肿瘤生物信息学平台功能简介及应用实例生物信息学的概念:A.生物信息学是一门新兴的交叉学科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。B.简言之,生物信息学就是运用计算机技术,处理、分析生物学数据,以揭示生物学数据背后蕴藏的意义。生物信息学研究的要素1.计算机(服务器/工作站)及操作系统2.专业人员3.专业软件4.Internet网络及生物学数据库生物信息学研究分类算法开发生物学研究应用BlastBlast生物信息学和肿瘤研究的关系Howistumorgenerated……?1996,97国际象棋人机大战被誉为“人类智力极限”的特级大师,卡斯帕罗夫VSIBM深蓝WhatCanBioinformaticsDoinCancerResearch?HowtoDo?肿瘤生物信息学平台简介数据库平台自主开发的综合分析体系自主开发的其他独立功能软件其他引进并安装调试好的软件包平台的产生及发展数据库平台:(基于Linux系统的MySQL数据库系统)1)Reference,LocusLink,Unigene,Mapview及相关GenBank数据库。2)GeneOntology数据库,从细胞定位,基因功能,信号通路三个角度提供对各种基因的功能及所在信号通路的注释。数据库平台(续)3)UCSCHumanGenome数据库(GoldenPath)。4)格式化的Blast数据库(nt,nr,human_est,htg,swissprot,yeast,mouse_est…)。5)实验室原始数据及分析结果数据库。(加密保护)ComputationalVelocity:Doubledafter18months;DNADataQuantity:Doubledafter14months;肿瘤生物信息学平台简介数据库平台自主开发的综合分析体系自主开发的其他独立功能软件其他引进并安装调试好的软件包平台的产生及发展自主开发的综合分析体系cDNA,mRNA及EST序列的高通量综合分析平台基因芯片数据分析平台信号通路(Gene-geneinteraction)分析平台注:每个平台都包含几个部分,每部分又是一个可独立运行的功能体系cDNA,mRNA及EST序列的高通量综合分析平台a)序列格式化,包括去除载体,屏蔽简单重复序列,计算核酸组成及长度,以Fasta格式输出。b)比对ReferencemRNA序列及Unigene序列,找出已知基因,并进行聚类分析。c)对新基因序列进一步与人类染色体比对,筛选出可靠的新基因序列,排除错误序列。cDNA,mRNA及EST序列的高通量综合分析平台(续)d)新EST序列延伸,全长cDNA序列电子克隆及功能结构域分析。e)点突变或者SNP分析f)制作基因表达图谱(PDF格式)PrimaryAnalysisofLungCancerSSHcDNALibrary分析实例DefinitionofESTESTsofferarapidandinexpensiveroutetogenediscovery,revealexpressionandregulationdata(Vasmatis,etal,1998),highlightgenesequencediversityandsplicing(WolfbergandLandsman,1997),andmayidentifymorethanhalfofknownhumangenes(Hillier,etal,1996).背景知识:EST(ExpressedSequenceTag):从cDNA库随机挑选出一个克隆来自动测序,长度一般为500bp。MaskVectorandFormatBlasttoReferencemRNADBBlasttoHumanESTDBScreenedKnownGenesHumanESTDBNone-hitESTClusterESTsbyGeneMaptoHumanGenomeBlasttoHumanGenomeNewGenesGarbageESTsInsilicoESTElongationReferenceDBNone-hitESTSequencingResultProceduresGeneExpressionMapPointMutation/SNPAnalysisOriginalsequenceDatabase原始输入序列ClusterResultDatabase已知基因聚类分析结果NewGene(EST)Database新基因ESTElongatedESTIDNo2_rlcrt0-000159.fas;Length=2540......AGCGGGTCCCGCCTCCCAGCGACTCTCGGCAGTGCCGGAGTCGGGTGGGTTGGCGGCTATAAAGCTGGTAGCGAAGGGGAGGCGCCGCGGACTGTCCTAGGTACACTTTTCTCATAAAGTTTAGCCTACAGAAACTATCGCCACCCAAATTAAACATCACCCAAGCTAATATTCTTTCCTCCTTCTAAAGATGAGCTAGCGAAACTTTTTATAGGTTGTCCCTTTAATGCAGCTTTTTAGAATAAACATTTTTACATTTTTTCTTAAAAGAATTATTTTTTGAAGTCTGAGGAAAAATCCGCTTGCCTAGTGAATTTGGCACACACAGAGTAACAACAAATCAAACTTTAAGCTAGCAACCAACACACAAAATAAGCATGCAAGGAATAGAATAAGTTTTATATGGATAAGGTATTTTAGCCAACTCCACTTATAAGGTATTACAAAATCTCTATATNGTTTTGAAGCTATGTGTCGCAGTTTAAAGTTACTTTTAACAATAATACGTATATTTACAATTGACTTAAAAAACTATTTTCAAGGAAGTTAGAAACCTATGGCACACCAACGCATCTTCTGGAAAATGAAGACGATACAATGTCATGTGGCAAGTTTCAATATATGAAGGACTAGACCAGTG..............新基因EST电子延伸结果UsingReferencemRNADatabaseBlastOutputtoSearchMutation/SNPMutationsFoundfromBlastOutputAnalysis点突变/SNP分析结果Deletion(ClustalX1.82)点突变/SNP分析结果(续)Insertion(ClustalW1.82)点突变/SNP分析结果Here“-”meansinsertion点突变/SNP分析结果(续)FurtherAnalysisFromSNPtoHaplotype6SSHLibrariesGeneExpresstionMaptoHumanGenomes(1~22+X)基因表达图谱ExpressionlevelofgenesinSSHlibrariesDifferentColorscorrespondtodifferentlibrariesIsthereaLOH?Expressedintwodown-regulatedlibrariesLOHmapvs.SSHmapLungCancerRelatedLOHLungCancerRelatedSSH基因芯片数据分析平台a)对rawdata进行标准化处理,并确定thredshold值(低于该值表示基因不表达,没有杂交信号)b)结合R/S++,SAS通过生物统计学手段筛选具有显著性差异表达的基因c)进一步的芯片分析手段不一而足,可结合具体分析目标进行具体分析。已经做过的分析有:建立从array到全基因组转录图谱,基因表达图谱;聚类分析(hierarchical,SOMandK-meansclustering);结合GeneOntology,Biocarta,KEGG数据库进行相关pathway分析等Normalization背景知识:PathWayAnalysis背景知识:分析实例Genome-wideGeneExpressionMapandAnalysisofNon-SmallCellLungCancerBasedonMicroarrayPNASNovember20,2001vol.98no.24OriginalArrayDataChip:HumanU95Aoligonucleotideprobearrays(Affymetrix,SantaClara,CA)12,600cDNAcloneSample:–Squamouscelllungcarcinomas21–Adenocarcinomas127–NormalLung17Arraydata(normalized)AnalysisProcedures1.Findinggenesfrom12,600cDNAcloneGet7932genes2.FlaggingthevalueslowerthanthresholdvalueAbouthalfvalueskeeped3.DoingT-testwithSAS/Rforeachgene4.HierarchicalClusteringDivideintotwoparts:up-regulatedanddown-regulated5.ConstructionofGeneExpressionMapandTranscriptomeMapClusteringResult肺鳞癌基因表达图谱(3号染色体)肺鳞癌转录图谱(3号染色体)6.High-resolutiondetectionofdifferentiallyexpressedchromosomalregionsinNSCLCwasobtainedbyusingmoving-medianmethod7.ScreeningofimportantNSCLC-relatedgeneAnalysisProcedures(Cont.)Results75%(24of32)ofourresultswereconsistentwiththepreviousstudies.Andthecounterpartsinotherreports,normallywithlargersizes,werenarroweddownandmanyspecificgenesinvolvedintheseregionswereidentified.4newaberrantregionsinsquamouscarcinoma,2q31-32,12q23-24,14q22-q24andXp11.4-p11.23,werediscovered.肺鳞癌基因异常表达区域分析结果信号通路(Gene-geneInteraction)分析平台a)选择关键词,从GO数据库中寻找相关基因,比如extracellular表示为分泌蛋白b)通过GO,BioCarta和Kegg信号通路数据分析给定基因所属的信号通路,功能分类等c)比较多组基因按功能,通路分组在统计学上的差异,从而得到各组基因的功能差异d)新信号通路的分析(正在开发…GeneOntologyPathwayNetwork特点:DAG(非循环),可用数据库表达背景知识:BioCartaCellCyclePathway特点:以调控通路为主背景知识:KEGG酮体代谢Pathway特点:以代谢通路为主背景知识:分析给定基因所属的信号通路GO:0003673-biological_process-physiologicalprocesses-cellgrowthand/ormaintenance(D10S170)-cellproliferation(
本文标题:生物信息学在肿瘤研究中的应用
链接地址:https://www.777doc.com/doc-6738169 .html