您好,欢迎访问三七文档
生物信息学课堂操作练习一、生物信息学科的发展和研究内容通过下列internet上的自教课程,初步了解不同的数据库和分析工具://二、生物数据库1.熟悉各种数据库。2.重点了解GenBank和SWISS-PROT所包含的各种功能和适用范围。三、关键词或词组为基础的数据库检索1.熟练掌握Entrez检索体系。2.查找与水稻抗病基因Xa21有关的资料(1)由多少碱基构成?编码多少个氨基酸?(2)exon和intron的位置?(3)是否有3-Dstructure数据?1)由多少碱基构成?编码多少个氨基酸?4623b.p.,1025A.a.;2)exon和intron的位置?Exon:24~2700,3543~3943intron:remaining;3)是否有3-Dstructure数据?没有.3.查找C.elegans基因组的资料。(1)chromosomeI的测序是否已完成?(2)已知的chromosomeI的序列有多少碱基?序列发表在哪份杂志上?期号和页码?1)chromosomeI的测序是否已完成?完成.2)已知的chromosomeI的序列有多少碱基?序列发表在哪份杂志上?期号和页码?15.0724Mb.p.(15072421b.p.),Science1999Jan1;283(5398):35.4.查看人类基因组第1染色体上基因的分布。=hum&MAPS=ideogr,est,loc&LINKS=ON&VERBOSE=ON&CHR=15.查看Arabidopsis的系谱树,以及Arabidopsis第1染色体上的序列。比较Arabidopsis基因组的资料提供形式与人类基因组有什么不同(=3701,=3702&chr=1)貌似没什么区别……比较Arabidopsis基因组的资料提供形式与人类基因组有什么不同。6.与retrotransposon有关的文献资料有多少篇?5774,(在pubmed中直接查找关键词,2009‐3‐28)与riceretrotransposon有关的文献有多少篇?214,(在pubmed中直接查找关键词,2009‐3‐28)7检索我校在2009年1月发表的被PubMed收录的科研论文HuazhongAgriculturalUniversity,297.熟悉SRS检索体系。8.熟悉DBGET检索体系。四、核苷酸和蛋白质序列为基础的数据库检索1.了解BLASTFrequentlyAskedQuestions的答案。2.以大麦Mlo基因(Z83834)为查询序列(1)用Blastn能检索到多少条与Mlo同源的序列?与Mlo同源的序列:共找到63条与Mlo同源的序列(2)在使用Blastn检索中,如改变Evalue的阈值,能检索到多少与Mlo同源的序列?将Evalue(Expectthreshold)由默认的10改为1时,仍有63条同源序列。若将E值改为5e-19时可以找到61条同源序列。(3)怎样去掉alignment过程中出现的小写字母?这里所说的小写字母就是出现重复序列时被算法筛选后出现的n。将Algorithmparameters中的FiltersandMasking选项里的Lowcomplexityregions前的勾去掉就可以去掉比对过程中出现的小写的n。(4)用PSI-BLAST检索到的与Mlo蛋白同源的序列与用Blastp检索到的同源序列是否有差别?PSI-BLAST的特色是每次用profile搜索数据库后再利用搜索的结果重新构建profile,然后用新的profile再次搜索数据库,如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST搜索数据库,将获得的序列通过多序列比对来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列中的隐含模式,有研究表明这种方法可以有效的找到很多序列差异较大而结构功能相似的相关蛋白,甚至可以与一些结构比对方法,如threading相媲美。PSI-BLAST服务可以在NCBI的BLAST主页上找到,还可以从NCBI的FTP服务器上下载PSI-BLAST的独立程序。首先得到Mlo的蛋白质序列:CAB06083.1;然后用blastp检索。选中PSI-BLAST。第一次检索得到100个同源序列,再以这些序列为基础,再次检索,得到标有new的序列。第三次检索,已经没有含有new的序列,检索结束。(5)熟悉PHI-BLAST检索方法。(6)用Mlo基因序列检索蛋白质数据库能找到多少同源序列?使用BLASTX,输入accessionnumber:Z83834,找到100个同源序列3.从以Mlo基因的氨基酸序列检索到的同源序列中任取两条序列,用BLAST2sequences作分析,看它们之间是否存在同源序列。Mlo基因氨基酸序列号:CAB06083选取两条为:P93766、AAK94905可以看到具有较高的同源性。Identities=397/432(91%),Positives=412/432(95%)五、多序列对位排列分析和系谱分析1.用大麦Mlo基因(Z83834)编码的蛋白质序列在数据库中检索同源序列,找出与Mlo同源程度最高的另外9条序列。对位排列这10条序列,确定这些同源序列的保守区段;分析这些保守区段是否组成已知结构域(domain)或模体(motif)。1.在NCBI中的nucleotide数据库中输入Z83834,点击链接到蛋白质序列,用FASTA格式输出,复制该蛋白序列2.进入NCBI的BLAST,选择proteinblast,粘贴所复制的蛋白序列,进行blast3.在结果中选中同源度最高的10条结果,点击getselectedsequences4.在display中选则FASTA,sendto中选则text,复制有内容。5.在EBI的ClustaW分析网页粘贴序列,点击run2.练习使用各种修饰功能修饰对位排列上述10条序列。1.Boxshade功能在多序列对位排列结果网页复制序列排列结果在“Boxshade”网页(ttp://)粘贴序列,在“Inputsequenceformat”栏目选择“ALN”,在“Outputformat”栏目选择“RTF_new”在结果网页点击“hereisyouroutputnumber1”,得结果。2.颜色修饰功能“ClustalWResults”网页展示多序列对位排列结果点击“ShowColors”用不同颜色的字母展示对位排列结果3.根据系谱分析,上述10条序列中哪两条序列的同源程度最高?1.“ClustalWResults”网页展示多序列对位排列结果2.点击“ShowasPhylogramTree”展示PhylogramTree,可据此判断同源程度。4.用大麦Mlo基因(Z83834)序列检索数据库,找出与Mlo同源程度最高的另外4条序列。对位排列这5条序列,确定这些同源序列的保守区段;分析这些保守区段是否组成已知结构域(domain)或模体(motif)。1.进入NCBI的BLAST,选择nucleotideblast,粘贴基因序列号Z83834,进行blast2.在结果中选中同源度最高的5条结果,点击getselectedsequences3.在display中选则FASTA,sendto中选则text,复制所有内容。4.在EBI的ClustaW分析网页粘贴序列,点击run六、基因结构分析1.从核苷酸数据库中选择DNA序列,试用不同的分析工具分析真核生物和原核生物的基因结构,并将分析结果与核苷酸数据库中的结果相比较。2.掌握GenScan和GeneFinding中的各种分析方法。七、蛋白质结构分析1.从数据库中任选一蛋白质的序列作分析对象,熟悉分析蛋白质的一级和二级结构的方法。以猪leptin蛋白为例,在ncbi上查找到其序列,再转至EXPasy网站一级结构1:PI、Mw、氨基酸组成:疏水性:重复序列~andrade/papers/rep/search.html二级结构~nomi/nnpredict.html(貌似这个网站不能搜)=npsa_sopma.html2.大麦Mlo基因(Z83834)编码的蛋白质是膜镶嵌蛋白质还是膜附着蛋白质?先搜出mlo蛋白的序列,输入网站,由图形看出是膜镶嵌蛋白,跨膜六次。3.水稻抗病基因Xa21的产物位于细胞的什么部位?基因Xa21:U37133.1在ncbi中输xa21[gene]”Oryzasativa”,找到xa21序列。输入得到plas的得分最高,说明该蛋白在细胞膜上4.Xa21基因产物是否糖蛋白?什么类型的糖蛋白?分析是否是糖蛋白在和说明是N-连接的糖蛋白5.Xa21蛋白的亲水性和疏水性如何?Grandaverageofhydropathicity(GRAVY):0.049亲水性分析疏水强0,亲水强。说明xa21蛋白有轻度疏水性八、农业类数据库的利用1.熟悉各种农业类基因组数据库,重点以Gramene、GrainGenes和ArkDB数据库为例,掌握各种内容的查询方法。2.分子标记ARKMKR00050536位于火鸡的第几号染色体?它在这条染色体上的遗传位置?ARKMKR00050536位于火鸡第一号染色体,遗传位置是125.800=ARKMKR000505363.水稻的JRGPRFLP2000分子标记遗传连锁图的3号染色体上定位了多少个分子标记?覆盖了多少遗传距离?有32个分子标记,覆盖166.40CM=&featureMenu=&corrMenu=&displayMenu=&advancedMenu=&ref_map_accs=jrgp-rflp-2000-3&sub=Draw+Selected+Maps&ref_map_start=&ref_map_stop=&ft_centromere=2&ft_est=2&ft_gene=2&ft_genomic-dna=2&ft_marker=2&ft_rapd=2&ft_rflp=2&ft_sts=2&prev_ref_s
本文标题:生物信息学习题集
链接地址:https://www.777doc.com/doc-6311501 .html