您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 基因组科学与技术东南大学
genetics是遗传,重点在于基因与性状的关系,侧重于基因功能的认识。而组学是一种思路,一种技术,这体现在基因功能的研究上,目前的分子生物学研究单个基因,而组学通过全基因组的研究来认识基因行为和功能。这可理解为钓鱼和网鱼的区别我讲的这部分的逻辑是:基因组学关心的问题是什么?用什么技术来研究这个问题?这个技术得到的数据,如何分析?我们的重点是分析思路和主要步骤话说重点:1.课堂上出的题目,2.每一讲的主要结构(基因组注释流程、基因表达数据分析方法)目前是这样考虑的,出一些选择题,主要是关于基因组学理论的,出一些名词解释,例如N50等,出几个问答题,讲讲对某一类数据或者具体问题的分析流程(一般要求包括分析目的、分析主要步骤、每一步的分析思路和工具举例)GO:geneontology,基因本体,我的理解,是一组具有相互关系的标准术语(词汇)集,用于基因产物的功能注释。GO术语分3类,分别是细胞功能cellularfunction,生物学过程biologicalprocess,和细胞组分(cellularcomponent),每一类中的词汇之间形成有向无循环图,关系有父子(is-a)或者组成(part-of)。每个基因产物可用多个GO术语注释,每个GO术语可以注释多个基因产物。是分子功能,GO属于分为MF,BP,CC三类一般我们在使用GO时有2个东西,一个是GO术语表,另一个是某物种的基因的注释表,前者是术语的定义和关系图(DAG),后者是每一个基因产物的GO注释结果。这2个表是经常更新的threestructured,controlledvocabularies(ontologies)thatdescribegeneproductsintermsoftheirassociatedbiologicalprocesses,cellularcomponentsandmolecularfunctionsinaspecies-independentmanner.有一个GO项目,,这是一个国际联合项目,主要有3个工作,一是GO术语的发展和维护,二是对于各个物种中基因产物的注释(这个是需要专业知识的,目前是不完整,甚至有错误,在注释时需要标注证据来源),三是开发工具便于术语的建立、维护和使用。TheExperimentalEvidencecodesare:InferredfromExperiment(EXP)InferredfromDirectAssay(IDA)InferredfromPhysicalInteraction(IPI)InferredfromMutantPhenotype(IMP)InferredfromGeneticInteraction(IGI)InferredfromExpressionPattern(IEP)TheComputationalAnalysisevidencecodesare:InferredfromSequenceorstructuralSimilarity(ISS)InferredfromSequenceOrthology(ISO)InferredfromSequenceAlignment(ISA)InferredfromSequenceModel(ISM)InferredfromGenomicContext(IGC)InferredfromBiologicalaspectofAncestor(IBA)InferredfromBiologicalaspectofDescendant(IBD)InferredfromKeyResidues(IKR)InferredfromRapidDivergence(IRD)InferredfromReviewedComputationalAnalysis(RCA)上述说明了基因产物是如何用GO术语注释的过程,需要证据,证据来源很多以往在基因组中是专门有一讲要讲到GO注释的使用:1。SearchGOdata,输入一个GO术语或者基因产物的名称,你可以得到很多关于它们的信息2.Enrichmentanalysis(beta)这就是富集分析,基因表达数据分析的结果是一组基因名称,输入这些基因名称,就能进行GO分析,得到这些基因与哪些GO有关(有统计学意义)。这样的工具很多,有在线的,有单机版的。=_1akNE3lauOTExVqjo8vB-J--lAN-u1PJO5RodC0v8fZ486rA70mt6qUUTD7pRMZaWo_p6-En_-8d-GzMnY_Yn4AVxPgK5zec5vPPen5nbO这个PPT好像挺好的一组基因的功能富集分析用的较多的是DAVID:除了GO分析外,还有KEGG等数据库中的pathway分析两篇关于差异表达分析的综述这两篇貌似侧重于不同的实验方法。网上还有说道分析数据的方法的,比如“倍数分析”“t检验”“方差分析”等等那就是像倍数分析t检验方差分析这种偏计算机或者数学方法的?谢建明(524453582)11:06:17需要了解差异表达分析常用方法倍数分析、t-检验等的原理,方法优缺点以及应用(对于特定的数据和目的如何选择?)是的,侧重于原理和应用,对其算法本身不需要多了解,了解分析工具,例如SAM等从生物信息学在基因组研究中的应用这个角度来学习基因组学中出来的都是大数据,测序数据(DNA-seq,RNA-seq,ChIP-seq)、基因表达数据、全基因组SNP数据在数据分析过程中,要解释其生物学意义,必然会使用到现有的知识,例如GO,KEGG,STRING等数据库和文本挖掘等方法给你ChIP-seq数据,如何处理?处理前需要考虑哪些问题?从2方面考虑,一是做实验得到这些数据的合作者想得到什么信息,换句话说,生物学实验的目的是什么?二是从数据本身出发,数据质量,数据类型,一般对这些数据做什么分析。ChIP-seq技术是获取与蛋白质结合的DNA序列问题1,研究的是什么蛋白?转录因子,RNA聚合酶、组蛋白,还是其他蛋白质或与DNA可结合的分子?问题2,如果我们考虑的是转录因子,那么TFBS有什么特点呢?通常位于基因组的什么区域?问题3,TFBS研究中的ChIP-seq实验得到的数据有啥特点?这些数据的质量如何?问题4,ChIP-seq实验得到的是测序read,如何分析read,得到TFBS呢?问题5,转录因子与DNA的结合是有组织/细胞特异性的,能否从数据中反应出来?问题6,TFBS是相对保守的元件,如何表示它?问题7,能否根据这次的实验结果找到全基因组中该TF的结合位点?TFBS的全基因扫描和验证对于某一种基因组数据,基本上是一个考虑思路,也是要求你们了解的对于测序数据得到的read要mapping到基因组上,是一个很费时的工作,需要有一些好的算法,而且其结果不是唯一的,为什么?基因中可能存在SNP,Indel等变化基因组的数据分析基本上由专职人员来做,但仅仅由专职人员负责是做不好的,需要生物学家和数据分析人员之间的交流和讨论。生物信息学是一个交叉学科,需要基因组学和数据科学、计算机的一些知识,你们已有基因组学的知识,需要补充一些计算机的知识,我们就从基因组数据的具体分析出发,从分析流程出发了解做什么?为什么要这么做?其结果如何解读?RNA-seq比起微阵列有三大优点:1、更大的动态范围2、更低的背景噪音3、能检测和定量先前未知的转录本及亚型RNA-seq也有一些难题:1、样本内不均匀性:基因组区域之间核苷酸组成的变异性导致沿基因组的read覆盖深度并不均匀;2、同样表达水平下,长基因比短基因有更多的reads;3、对于条件之间的表达差异,分别对各个基因进行差异表达分析,而忽略了样本内的偏倚(它们被假设对所有样本有类似的影响)4、样本间不均匀性:测序深度或文库大小5、少数高表达基因抑制了其他基因的read计数比例,可能导致低表达基因的差异表达假阳性1、对上述4,5两点,估计样本特异的归一化因子,用于重新调整观测计数。谢建明(524453582)11:03:102、对于2、4两点,基因长度和文库大小,有的软件采用了RPKM或相关的FPKM方法。只有非参数方法才适用于RPKM值。谢建明(524453582)11:03:51致命的假设:大部分基因在样本间的表达是相等的。谢建明(524453582)11:04:12RNA-seq数据的差异表达分析仍处于它的婴儿期,需要不断提出新的方法来。【2013的观点】谢建明(524453582)10:45:44现在集中回答一下课堂上的问题,第一个题目是如何定量化转录本丰度?这个题目不完整,应该给出上下文,即利用RNA-seq技术进行转录组测序,得到read后,如何分析得到转录本的丰度。这里还有一个隐含前提,就是目前RNA-seq用的是二代测序技术。有不少同学回答了这个问题,整体印象是惜字如金,没有细节的描述。在考试时这样得分是不会高的。考试的目的是得分,要得好的分数需要分析一下出题人的意图,回答的要点,必要的细节描述。字数太少,想给分也给不了。为啥?你们的试卷和答案都是存档的,是需要评估的,老师也不能随便给分。谢建明(524453582)10:52:14这个题目的回答要点如下:1.分析Reads得到transcript,2种分析思路,一是先align到参考基因组上,然后assemble转录本,二是先assemble,然后align到基因组得到转录本,常用工具有bowtie,tophat,cufflinks,Trinity等2.countthereadsofatranscriptandcomputetheFPKM.BeforecomputationofFKPM,normalizationbetweenchipsmaybeperformed.Cufflinks,Cuffdiff,RSEM,eXpressRESM(RNA-SeqbyExpectation-Maximization)这还是要点,还需要进一步展开,把具体的做法详细描述,甚至可以用图表示。在讲课时,提到genome-free进行readassemble,指的是先不用genome序列信息,而不是没有genome存在。这种情况是现实中一般不存在。有同学的回答是获得reads,通过软件分析,最终获得abundance。这个答案中可得分的是“软件分析”,可给1-2分。我们这门课的内容详细介绍数据的分析思路、分析流程和方法、工具,因此回答问题时必须回答到这个深度。答案2:(1)用read构建转录本,(2)进行丰度分析,(3)得到丰度后进行DE,clustering,pathwayanalysis.(3)是没有必要的,10分的题也只能给1-2分,没有达到要点。很多同学问了不少问题,我们这部分内容集中于高通量数据分析,关于获取这些数据的实验技术、生物学问题不属于我们关注的重点,因此这些问题不做详细回答。为什么RNA-seq测序时只测一端和两端都测的精度有差异?为什么一定要反转录出cDNA再测序才得出RNA-seq?转录组有什么用?如何揭示生物学过程?SAGE什么意思?测RNA序列的意义是什么?主要应用于什么?对于非编码RNA要如何用RNA-seq分析?这些问题不属于我们关注重点,但也需要了解。测序技术可以问问生化老师.RNA容易降解。转录组就是对所有基因转录产物的研究,要研究在疾病或特定条件下,有哪些基因发生了转录,为什么这些基因会转录?通常需要与正常进行比较。更深入的想了解细胞内所有基因的行为,构建基因回路,有了回路后就可以预测细胞的行为,类似于计算机芯片回路的设计和功能实现。howtofindSNPs:SNP的定义是在某个等位基因上的特定碱基在人群中有一定比例(5%)的存在,是一种多态。我们已经得到了几百万个人类基因组中的SNP,在RNA-seq分析中,可从参考基因组的注释中得到检
本文标题:基因组科学与技术东南大学
链接地址:https://www.777doc.com/doc-2538120 .html