您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 《生物信息学》练习题剖析
1、在Genbank中查找以下6个植物蛋白序列:protein1:NP_974673.2;protein2:NP_187969.1;protein3:NP_190855.1;protein4:NP_565618.1;protein5:NP_200511.1;protein6:NP_191407.1(以FASTA格式)。(1)用EBI上的ClustalW2工具对其进行多序列比对,分析各蛋白序列之间的同源性。序列比对结果比对结果表明:protein1:NP_974673.2和protein4:NP_565618.1的亲缘关系最近。(2)利用Phylip软件,选择距离法构建其进化树(要求写出具体的建树步骤)。1.将蛋白序列保存为FASTA格式,存于txt文档;2.用Clustalx打开txt文本,保存为*.phy文件;3.用seqboot程序打开phy文件,输出结果文件*_seqboot4.用protdist程序打开*_seqboot文件,输出为*_protdist文件5.用neighbor程序打开*_protdist文件,输出为*_neighbor文件6.用consense程序打开*_neighbor文件,输出为*_consense文件7.用dratree程序打开*_consense文件得到进化树。(注:由于seqboot软见无法正常运行,因此进化树无法显示)(3)任意选取其中的一个蛋白进行蛋白质一级序列分析、二级结构预测及三维结构的模拟。选择protein3:NP_190855.1一级结构网址::456氨基酸数目Molecularweight:51154.5相对分子质量TheoreticalpI:8.69理论pI值Aminoacidcomposition氨基酸组成Ala(A)306.6%Arg(R)286.1%Asn(N)153.3%Asp(D)275.9%Cys(C)51.1%Gln(Q)183.9%Glu(E)286.1%Gly(G)378.1%His(H)163.5%Ile(I)163.5%Leu(L)429.2%Lys(K)327.0%Met(M)51.1%Phe(F)173.7%Pro(P)163.5%Ser(S)4610.1%Thr(T)214.6%Trp(W)81.8%Tyr(Y)194.2%Val(V)306.6%Pyl(O)00.0%Sec(U)00.0%(B)00.0%(Z)00.0%(X)00.0%正/负电荷残基数Totalnumberofnegativelychargedresidues(Asp+Glu):55Totalnumberofpositivelychargedresidues(Arg+Lys):60Atomiccomposition:原子组成CarbonC2270HydrogenH3531NitrogenN645OxygenO686SulfurS10Formula:C2270H3531N645O686S10分子式Totalnumberofatoms:7142总原子数Extinctioncoefficients:消光系数ExtinctioncoefficientsareinunitsofM-1cm-1,at280nmmeasuredinwater.Ext.coefficient72560Abs0.1%(=1g/l)1.418,assumingallpairsofCysresiduesformcystinesExt.coefficient72310Abs0.1%(=1g/l)1.414,assumingallCysresiduesarereducedEstimatedhalf-life:半衰期TheN-terminalofthesequenceconsideredisM(Met).Theestimatedhalf-lifeis:30hours(mammalianreticulocytes,invitro).20hours(yeast,invivo).10hours(Escherichiacoli,invivo).Instabilityindex:不稳定系数Theinstabilityindex(II)iscomputedtobe48.99Thisclassifiestheproteinasunstable.Aliphaticindex:75.26脂肪系数Grandaverageofhydropathicity(GRAVY):-0.554总平均亲水性蛋白质亲疏水性分析所用氨基酸标度信息Ala:1.800Arg:-4.500Asn:-3.500Asp:-3.500Cys:2.500Gln:-3.500Glu:-3.500Gly:-0.400His:-3.200Ile:4.500Leu:3.800Lys:-3.900Met:1.900Phe:2.800Pro:-1.600Ser:-0.800Thr:-0.700Trp:-0.900Tyr:-1.300Val:4.200:-3.500:-3.500:-0.490分析所用参数信息Weightsforwindowpositions1,..,9,usinglinearweightvariationmodel:1234567891.001.001.001.001.001.001.001.001.00edgecenteredge跨膜结构预测结果(没有跨膜结构)信号肽分析:二级结构预测三级结构预测网站~phyre2、在拟南芥基因组数据库中()查找编号分别为At4G33050,At3G13600,At3G52870或At2G26190基因,针对所查找的基因进行初步的生物信息学分析(每人任选其中一个基因)。(1)在基因全长序列中标识出5′UTR,exon,intron以及3′UTR等基因特征(具体到碱基数)。登录网站,输入登录号At3G52870,然后点击Search,结果:(2)分别利用PLACE和PlantCARE工具对该基因的启动子(假设启动子是ATG上游2000bp)进行分析,试比较分析的结果。PLACE分析Place结果有以下3种呈现方式:①groupedbysignal该结果没有显示启动子区的碱基序列,结果则是按照名字的首字母排序。②mappedtosequencescan③bysequenceorder同groupedbysignal显示的结果相似,不过FactororSiteName的序号由大到小排列。等Plantcare分析网址点击“SearchforCARE”,进入,输入fasta格式的基因序列PlantCARE不仅列出了“+”链和“-”链,且有颜色标示启动子区的各个顺式作用元件和反式作用因子。如下:PlantCARE较PLACE更简洁方便,容易查找。且有function一项,说明这些元件在其结构中的作用。如下:(3)预测该基因的功能,并在PubMed中查找一篇相关文献。GeneFinding()的GeneFinding工具在Softberry主页选择“GeneFindinginEukaryota”类中的“FGENESH”
本文标题:《生物信息学》练习题剖析
链接地址:https://www.777doc.com/doc-1931194 .html