您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 生物信息学札记(第三版)
生物信息学札记(第3版)樊龙江 浙江大学作物科学研究所浙江大学生物信息学研究所浙江大学IBM生物计算实验室浙江大学沃森基因组科学研究院 2010年1月本材料可通过下列网址获得:前言第一版这份材料是我学习和讲授《生物信息学》课程时的备课笔记,材料大多是根据当时收集的一些外文资料翻译编辑而成。学生在学习过程中经常要求我给他们提供一些中文的讲义或材料,这促使我把我的这份笔记整理并放到网上,供大家参考。要提醒使用者的是,这份材料仅是根据我对生物信息学的一些浮浅的认识整理而成,其中的错误和偏颇只能请读者自鉴了。2001年6月第二版自1999年开始接触生物信息学以来,一晃已近六年,而本札记也近四岁了。2001和2002年中国科学院理论物理所的郝柏林院士在浙江大学首次开设生物信息学研究生课程,我作为他的助教系统地学习了生物信息学;同时,借着我国水稻基因组测序计划的机遇,在他的带领下从2001年开始从事水稻基因组分析,从此自己便完全投入到这一崭新、引人入胜的领域中来。不断有来信向我索要本札记的电子版文件,同时在不少网站上看到推荐该札记的内容。生物信息学、基因组学等发展很快,现在再回头审看该札记,有些部分已惨不忍读,这促使我下决心更新它。但因时间和学识问题,还是有不少部分自己不甚满意,就只有待日后再努力了。我的硕士生温晓协助收集了部分资料。欢迎告诉我札记中的BUG,我的信箱fanlj@zju.edu.cn或bioinplant@zju.edu.cn。2005年3月30日第三版近年来高通量测序技术产生的序列数据大量出现(如小RNA和大规模群体SNP数据),本次更新根据这一进展增加了两章内容,分别是第七章有关小RNA的分析和第八章遗传多态性及正向选择检测。两章内容由我的博士生王煜为主编写,李泽峰和刘云参与了文献整理。另外还更新了第四章有关水稻基因组分析一节。2010年1月简要目录第一章生物信息学通论第二章分子数据库第三章序列分析与比较第四章基因组测序与分析第五章分子进化第六章蛋白质结构与功能预测第七章内源非编码小RNA分析第八章遗传多态性及正向选择检测附录:生物信息学主要英文术语及释义与核苷酸和蛋白质序列相关的特征关键词表核苷酸和氨基酸代码主要分子生物信息数据库生物信息学主要分析软件 第一章生物信息学通论第一节生物信息与生物信息学一、迅速膨胀的生物信息二、生物信息学的概念第二节生物信息学发展简史第三节基因组时代:生物信息学的应用与展望第二章分子数据库第一节初级数据库一、DNA数据库二、基因组数据库三、蛋白质序列数据库四、蛋白质结构数据库第二节初级序列数据的注释第三节数据库信息检索系统第四节数据库的冗余与偏误第五节向数据库发送序列数据及其它第三章序列分析与比较第一节序列组成和单一序列分析一、碱基组成二、碱基相邻频率三、同向重复序列分析四、DNA序列的几何学分析——Z曲线第二节序列联配一、Needleman-Wunsch算法二、Smith-Waterman算法三、序列相似性统计特征1、二进制值或标准比值(BitScore);2、P值(P-value);3、BLAST和FASTA的数据库搜索策略;4、空位列线(gappedalignment)的统计问题;5、边际效应(edgeeffect);6、替换矩阵的选择;7、空位罚值(gappenalties)四、替换矩阵1、替换矩阵的一般原理;2、PAM氨基酸替换矩阵;3、BLOSUM氨基酸替换矩阵;4、DNA替换矩阵五、多序列联配第三节数据库搜索引擎——BLAST和FASTA应用一、数据之海与一叶轻舟二、BLAST:核酸数据库搜索1、BLAST实战操作(1);2、BLAST的检索报告;3、BLAST选项;4、BLAST实战操作(2)三、BLAST:蛋白质数据库搜索四、FASTA:另一种搜索策略1、FASTA选项;2、FASTA实战操作及其检索报告第四节寡核苷酸设计一、寡核苷酸设计1、引物设计;2、用于检测相关基因的简并探针第四章基因组测序与分析第一节DNA测序与序列片段的拼接一、DNA测序的一般方法1、DNA测序的基本原理;2、双脱氧测序法(Sanger法);3、化学测序法(Maxam-Gilbert法);4、荧光自动测序仪二、DNA片段测序策略1、从遗传图谱、物理图谱到基因组序列图谱;2、鸟枪测序法(shotgunsequencing);3、引物步查法(primerwalking);4、限制性酶切-亚克隆法(restrictionendonucleasedigestionandsubcloning)三、基因组测序策略四、序列片段的拼接方法五、EST测序第二节基因组注释:基因区域的预测一、从序列中寻找基因1、基因及基因区域预测;2、发现基因的一般过程;3、解读序列(makingsenseofthesequence)二、昀长ORF法等:基于编码区特性三、序列相似性比较法四、隐马尔可夫模型(HMM)五、神经网络六、RNA二级结构预测第三节基因组分析一、基因组分析:生物信息学发展的“史记”二、比较基因组学第四节基因组分析举例:水稻基因组分析一、现代的二倍体,古老的多倍体二、昀小的核基因组:基因组在扩增还是在缩小?三、籼粳稻分化时间比原来估计的要迟得多四、水稻高GC含量基因的进化机制五、水稻小RNA可能是驯化和育种选择的靶基因第五章分子进化第一节系统树及其它一、系统树二、遗传模型和序列距离三、分子进化与系统发育分析软件第二节距离矩阵法一、平均连接聚类法(UPGMA法)二、Fitch-Margoliash算法三、邻接法第三节简约法第四节似然法一、DNA序列的似然模型二、两条序列的系统树三、多条序列的系统树四、对系统树Bootstrap抽样第六章蛋白质结构与功能预测第一节蛋白质功能预测一、根据序列预测功能的一般过程二、通过比对数据库相似序列确定功能三、序列特性:疏水性、螺旋等四、通过比对模序数据库等确定功能第二节蛋白质结构预测一、蛋白质结构及其数据库二、二级结构预测三、三级结构预测第三节计算机药物辅助设计第七章内源非编码小RNA分析第一节miRNA的主要特征及计算识别一、miRNA的主要特征二、miRNA的计算识别三、miRNA靶基因预测第二节ta-siRNAs等的计算识别一、ta-siRNAs的主要特征二、ta-siRNAs的计算识别三、起源于NATs的siRNA四、siRNA靶基因预测第三节小RNA进化分析一、小RNA进化研究概况二、水稻小RNA的进化分析三、水稻miRNA位点遗传多样性与驯化选择研究第四节小RNA相关数据库一、miRBase数据库二、siRNA数据库三、CSRDB和ASRP四、GeneExpressionOmnibus(GEO)第八章遗传多态性及正向选择检测第一节群体遗传多态性估算一、影响群体遗传多样性的因素二、等位基因频率三、DNA多态性第二节正向选择的统计检验一、自然选择的分类二、中性检验三、全基因组扫描及假阳性四、研究案例 附录:生物信息学常用词汇与代码生物信息学主要英文术语及释义与核苷酸和蛋白质序列相关的特征关键词表核苷酸和氨基酸代码主要分子生物信息数据库参见《NucleicAcidsResearch》(网址)每年一月出版的数据库专刊(其中2010年列表)生物信息学主要分析软件参见《NucleicAcidsResearch》(网址)每年七月出版的生物信息学软件专刊(其中2009年列表)—…1’2“”3“Strictlyspeaking,bioinformaticsisasubsetofthelargefieldofcomputationalbiology,theapplicationofquantitativeanalyticaltechniquesinmodelingbiologicalsystem.”(GibasandJambeck,2001)]2002247-524—56NeedlemanSB,WunschCD.Ageneralmethodapplicabletothesearchforsimilaritiesintheaminoacidsequenceoftwoproteins.JMolBiol.197048(3):443-53StadenR.Sequencedatahandlingbycomputer.NucleicAcidsRes.19774(11):4037-51SmithTF,WatermanMS.Identificationofcommonmolecularsubsequences.JMolBiol.198125;147(1):195-7DoolittleRF.Similaraminoacidsequences:chanceorcommonancestry?Science.1981214(4517):149-59WilburWJ,LipmanDJ.Rapidsimilaritysearchesofnucleicacidandproteindatabanks.ProcNatlAcadSciUSA.198380(3):726-30LipmanDJ,PearsonWR.Rapidandsensitiveproteinsimilaritysearches.Science.1985227(4693):1435-41karlinS,AltschulSF.Methodsforassessingthestatisticalsignificanceofmolecularsequencefeaturesbyusinggeneralscoringschemes.Proc.Natl.Acad.Sci.USA,1990,87:2264-226871.4PhilGreen89OuzounisandValencia200310GibasandJambeckDevelopingBioinformaticsComputerSkills(C.GibasandP.Jambeck,O’REILLY,2001)11•Youshouldhaveafairlydeepbackgroundinsomeaspectofmolecularbiology.…butwithoutacoreofknowledgeofmolecularbiologyyouwill,asonepersontoldus,“runintobrickwallstoooften.”•Youmustabsolutelyunderstandthecentraldogmaofmolecularbiology.•Youshouldhavesubstantialexperiencewithatleastoneortwomajormolecularbiologysoftwarepackages,eitherforsequenceanalysisormolecularmodeling.•Youshouldbecomfortableworkinginacommand-linecomputingenvironment.•YoushouldhaveexperiencewithprogramminginacomputerlanguagesuchasC/C++,aswellasinascriptinglanguagesuchasPerlorPython.121310111213141516171819202112222324Ø1—24vuuvppp≠×25)92.16(3.5929,05.02==χχGTGCACTGGACTGCTGAGGAGAAGCAGCTCATCACCGGCCTCTGGGCAAGGTCAATGTG60GCCGAATGTGGGGCCGAAGCCCTGGCCAGGCTGCTGATCGTCTACCCCTGGACCCAGAGG120TTCTTTGCGTCCTTTGGGAACCTCTCCAGCCCCACTGCCATCCTTGGCAACCCCATGGTC180CGCGCCCACGGCAA
本文标题:生物信息学札记(第三版)
链接地址:https://www.777doc.com/doc-5961480 .html