您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 生物信息学miRNA
MicroRNA简称miRNA,一类非编码的小RNA分子(约22个核苷酸),通过和其靶基因3′非翻译区结合,导致RNA诱导的沉默复合体(RNA-inducedsilencingcomplex,简称RISC)降解其靶mRNA或阻碍其靶的翻译。随着miRNA在复杂疾病中的研究深入,研究者发现在疾病的发生发展过程中起着巨大的作用,其功能异常能够导致各种人类复杂疾病的发生。这将使miRNA可能成为疾病诊断、预后的新的生物学标记(biomark),并为更进一步理解复杂疾病的发病机理提供了新的手段。第一节引言Section1Introduction第二节miRNA与靶基因Section2miRNAsandTheirTargets一、miRNA生物起源(一)miRNA的发现miRNA首次发现于1993年,是在对秀丽新小杆线虫发育过程的研究中发现的,命名为Lin-4,它通过与Lin-14的3′UTR相互作用,调节线虫的发育。随后,在线虫、果蝇、Hela细胞、斑马鱼、人类、拟南芥和水稻等多种真核模式生物中找到了上百个类似的小分子RNA,并将其称miRNA。(二)microRNA生物起源细胞miRNA基因初始miRNAmiRNA前体转录细胞核剪切转运蛋白Dicer酶剪切成熟miRNA和miRNA*RNA诱导沉默复合物成熟miRNAmiRNA*降解细胞质miRNA种子区与靶mRNA完全互补则降解靶mRMA3’端miRNA种子区与靶mRNA不完全互补则抑制翻译(三)miRNA的特点序列特点miRNA本身不具有开放阅读框ORF,不编码蛋白质成熟的miRNA5′端为单一磷酸基团,3′端为羟基表达特点miRNA具有时序性以及组织特异性在特定的时间,组织中才会表达调控特点miRNA与其靶基因间是多对多的关系一个miRNA可能调控多个靶基因一个基因也可能受多个miRNA调控物理位置特点miRNA倾向于成簇出现在染色体上通常定义50kb的距离为一簇保守型特点在物种间高度miRNA的作用机制抑制或降解取决于miRNA与靶mRNA种子区域的互补程度种子区域通常指miRNA5′端第二位到第八位的核苷酸序列两者完全互补降解两者不完全互补抑制翻译二、基于序列的miRNA靶基因预测方法miRNA靶基因预测遵循的基本原则miRandaTargetScanRNAhybridTargetBoost和miTarget其他方法(一)miRNA靶点类型miRNA的靶点通常分为两类:5′端主导型(5′-dominant)3′端补充型(3′-compensatory)5′端主导型又分为5′端主导的“标准型”(canonical)和“种子型”(seed)(二)miRNA靶基因预测遵循的原则和基本步骤miRNA的“种子区”与mRNA的3′UTR序列碱基互补靶点在多物种间的序列保守性miRNA与mRNA形成双链结构的热力学稳定性靶基因二级结构和靶点外的序列对靶基因预测的影响遵循的原则基本步骤在3′UTR上探寻和miRNA“种子区”完全互补的序列;计算miRNA和这些序列结合产生的自由能下降值,对靶点进行筛选;对靶点进行物种间序列比对,利用物种保守性进一步筛选。(三)miRanda第一个利用生物信息学方法开发的基于序列的miRNA靶基因预测算法算法的基本步骤对miRNA和mRNA的3′UTR序列进行碱基互补分析,碱基互补遵循4个规则;miRanda采用一种类似于Smith-Waterman的算法来构建打分矩阵;miRNA与靶基因形成二聚体的热力学稳定性方面,miRanda利用Vienna软件包中的RNAlib计算miRNA与mRNA3′UTR结合的自由能;miRanda要求靶点在多物种间保守,即靶点在多物种3′UTR序列比对中相同位置具有相同的碱基。(四)TargetScanTargetScan主要考虑物种间保守的miRNA靶基因,并且在TargetScan中首次提出了“种子匹配”(seedmatch)的概念。算法的基本步骤在TargetScan算法中,“种子匹配”被定义为miRNA5′端的第2~8位碱基与mRNA3′UTR上的一段7nt(nucleotide)序列完全互补,miRNA上的这7个核苷酸被称为miRNA“种子区”。从种子区开始向miRNA两侧寻找互补碱基,允许G-U配对,直到出现碱基错配为止。在物种保守方面,TargetScan算法发现随着物种数目的增多,预测的靶基因数目逐渐减少,但预测结果的准确率得到提高。(五)RNAhybrid算法RNAhybrid考虑了靶基因结合自由能对预测结果的影响。该算法利用动态规划算法寻找一条短链RNA(miRNA)和一条长链RNA(mRNA3′UTR)杂交时的最优自由能鉴别miRNA的靶点。与其他的RNA二级结构预测软件mfold、RNAfold等相比,RNAhybrid除了具有明显的速度优势外,RNAhybrid算法还禁止miRNA分子间和靶基因间杂交产生二聚体。RNAhybrid没有考虑靶基因的物种间保守性,允许用户自己定义自由能的阈值、P值,也允许用户自己设置miRNA“种子区”的位置和长度以及是否允许出现G-U错配等。(六)机器学习方法通过在少量实验证实的miRNA靶基因集合内提取miRNA与靶基因的结合特征,并利用这些特征训练分类器来预测miRNA的靶基因。如TargetBoost和miTarget等miRNA靶基因预测算法都是基于机器学习方法开发的,这些算法从实验证实的miRNA靶基因集出发,评估miRNA与靶基因结合的序列特征、二聚体结构特征和热力学特征等参数,最后对预测的靶基因进行打分。(七)二级结构的影响在miRNA与靶基因结合的过程中,mRNA的3′UTR二级结构起着重要作用。miRNA靶点几乎都落入3′UTR的二级结构不稳定区域内,通过计算mRNA的3′UTR二级结构被破坏、形成或破坏碱基互补配对、形成miRNA-mRNA二聚体时获得或损失的自由能,可以鉴别miRNA靶基因;通过实验发现,提高靶点附近序列二级结构的稳定性大大降低了miRNA对靶基因的作用。(八)靶点周围序列的影响靶点外的序列也对miRNA调节靶基因起到重要作用。靶点后的一段序列对miRNA与靶基因的识别起着重要的作用,对该段序列突变后miRNA对靶基因的调控作用明显减弱,而将该段序列完全删除后miRNA对靶基因的调控作用完全消失。在miRNA调控靶基因的过程中,靶点外的其他序列甚至整个3′UTR序列都起到了关键作用,这些序列可能是RNA结合蛋白的作用位点。三、基于表达信息或实验结果预测miRNA靶基因研究人员认为miRNA结合在mRNA的3′UTR上抑制mRNA翻译成蛋白质,降低蛋白质丰度,并不会影响到相应mRNA的表达水平。现在已经明确认为:在许多情况下,miRNA还能直接对mRNA的表达产生影响。科研人员已经开发了整合表达信息的miRNA靶基因预测算法,并证明了表达信息在miRNA靶基因预测上的重要价值。Huang等人利用在88个组织中同时检测了miRNA和mRNA表达的数据,并结合贝叶斯方法开发了靶基因预测算法GenMiR++,得到了104个人类miRNA的高精度靶基因,并通过实验证实了预测的let-7b靶基因,结果表明,与基于序列的方法相比,利用相同样本中同时检测miRNA和mRNA的表达谱可以更准确的预测miRNA靶基因。(Huang,UsingexpressionprofilingdatatoidentifyhumanmicroRNAtargets.Nat.Methods.)人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》Gennarino等人通过研究miRNA宿主基因(hostgene)的表达情况,开发了miRNA靶基因预测算法HOCTAR。HOCTAR是第一个利用miRNA宿主基因表达与mRNA表达信息进行miRNA靶基因预测的算法,它基于两者表达的逆相关(inverselycorrelated)特征对预测的miRNA靶基因进行筛选。通过对178个人类miRNA的宿主基因分析,发现预测准确性优于现存的基于序列的预测方法,HOCTAR减少了基于序列算法预测的靶基因数量。(V.A.Gennarino,MicroRNAtargetpredictionbyexpressionanalysisofhostgenes.GenomeRes.)Bandyopadhyay等人利用miRNA的表达谱和mRNA表达谱构建一组阴性样本集,并利用机器学习方法开发了miRNA靶基因预测算法TargetMiner。由于当前实验证实的miRNA靶基因阴性数据较少,用机器学习方法预测miRNA靶基因常具有较高的假阳性率,作者从miRNA和mRNA的表达谱中得到了300多个组织特异的阴性样本,并结合实验证实的miRNA靶基因数据,利用支持向量机(SVM)方法开发了新的miRNA靶基因算法。(SanghamitraBandyopadhyay,TargetMiner:microRNAtargetpredictionwithsystematicidentificationoftissue-specificnegativeexamples.Bioinformatics.)四、其他方法整合已有知识预测miRNA靶基因在当前的miRNA靶基因预测研究中,研究人员逐渐意识到单一依靠序列信息或表达信息已不能继续提高miRNA靶基因预测效能。整合功能信息、蛋白质互作信息、表达信息、序列信息以及当前实验证实的miRNA靶基因等已有资源预测miRNA靶基因十分必要。高通量的实验方法预测miRNA靶基因也在不断的发展中,这些研究将对最终揭示miRNA功能和参与的生物学过程、找出miRNA诱导的疾病发生机制、以及最终将miRNA用于治疗癌症等相关疾病具有重要意义。五、miRNA数据资源靶基因与表达(一)TarBase数据库TarBase数据库目前使用广泛的存储真实miRNA与靶基因间关系的数据库网址:数据库以Excel文件形式存储,可供用户下载本地化使用。microRNA靶基因数据库-TarBase(二)miRBase数据库miRBase集miRNA序列,注释信息以及预测的靶基因数据为一体的数据库,是目前存储miRNA信息最主要的公共数据库之一网址:主要采用miRanda算法预测靶基因microRNA靶基因数据库-miRBase(三)miRGen数据库miRGen整合了miRNA靶基因数据(Targets库),基因组注释信息(Genomics库)以及位置关系(Clusters库)的综合数据库网址:靶基因库中,采用四种常用的靶基因预测算法DIANA-microT,miRanda,PicTar,TargetScanS对miRNA的靶基因进行预测microRNA靶基因数据库-miRNAMapmiRNAMap数据库存储miRNA及其靶基因信息包括四种类型的哺乳动物人类,小鼠,大鼠和犬网址:
本文标题:生物信息学miRNA
链接地址:https://www.777doc.com/doc-5744405 .html