您好,欢迎访问三七文档
当前位置:首页 > 机械/制造/汽车 > 汽车理论 > gromacs文件介绍and一些杂知识
1(1)gromacs(GMX)各种文件格式详细,可以查阅GROMACS手册第5章第6小节,以下为简要介绍。CPT文件:该文件为模拟断点文件(checkpoint,.cpt)。该文件为模拟过程固定时间间隔产生,保存模拟系统所有信息。该文件一部分可以在能量文件(.edr)找到,一部分可以在双精度轨迹文件(.trr)中找到。如果模拟不幸因为外界条件中断(如断电,模拟人发脾气砸电脑等),可以使用该文件重新在断点处开始模拟,以节省模拟时间。同时也可以依靠该断点文件开始,并延长模拟计算(见tpbconv)。EDR文件:系统能量文件(energy,.edr)。该文件记录模拟输入文件中定义的能量组的各种相互作用能量等。EPS文件:封装文件格式(.eps),并不是GROMACS自身文件格式,可以当图片打开。LINUX系统下一般已经有默认打开程序,WINDOWS要安装其他打开程序(可以GOOGLE以下)。GROMACS的DSSP和罗麽占陀罗图等通过xpm2ps处理后都是这个文件格式。习惯就好。G87文件:分子坐标文件(.g87)。该文件记录并只记录原子坐标和速度,不含原子序号。并只记录常压强模拟系统的盒子信息。G96文件:分子坐标文件(.g96)。GROMOS96程序的分子坐标文件,模拟程序以15.9的C语言格式写入,精度较高,但是会比较大。包含有文件头,时间步,原子坐标,原子速度,以及盒子信息等。GRO文件:分子坐标文件(.gro)。GROMACS的最主要分子坐标文件,明白这个文件,就基本明白使用GROMACS了。该文件类型的各个文本列字数固定,C语言的写入格式为:%5d%5s%5s%5d%8.3f%8.3f%8.3f%8.4f%8.4f%8.4f。具体固定文本列有:2残基序号,5位数;残基名称,5字母;原子名称,5字母;原子序号,5为数;原子坐标三列,X,Y,Z坐标各8位数,含3个小数位;速度同坐标,速度单位为nm/ps(km/s)。ITP文件:分子拓扑文件(.itp)。被主拓扑文件(.top)包含的分拓扑文件,一般包含某个特定分子的类型。于主拓扑文件区别有它不引用其他力场文件,同时包含[system],[molecule]等拓扑字节。M2P文件:xpm2ps程序配置文件,定义输出eps文件中颜色,字体种类及大小等。MDP文件:GROMACS的模拟配置文件(.mdp)。该文件所含定义较多,各关键字的含义可以查阅GROMACS手册。(这是使用GROMACS进行分子动力学模拟最最最最(10个最)重要的文件,nomdp文件,noGROMACS模拟。好好看书,以明白各个关键字的含义。因为它太重要,所以不在此简要描述。N2T文件:原子名称及类型对照文件(.n2t)。x2top程序可以按照原子名称得到该原子的原子类型力场参数,N2T就是x2top程序扫描的数据库,文件很小。文件中文本行有原子名称,原子类型,原子电量,原子质量,该原子与其他原子成键距离等。NDX文件:原子索引文件(.ndx)。该文件含原子的序号,当使用make_ndx程序生成索引文件时,可以定义不同的原子组,每组名下即是该组所含各个原子的序号。PDB文件:分子坐标文件(.pdb)。这个就不用说了(说真的,如果真没有听过这个文件类型的话,看这篇文章有点浪费时间。)RTP文件:残基力场参数文件(.rtp)。该文件包含常见残基的力场信息,3包括残基所含原子,成键种类等。使用pdb2gmx处理PDB文件时,程序按照PDB文件信息,在RTP文件中寻找对应的残基力场信息。TOP文件:模拟系统的拓扑文件(.top)。该文件就是所谓十分及其著名的系统拓扑文件啦,其包含各个关键字都十分易懂;一般其还包含引用其他力场文件(#include)。TOP文件一般由pdb2gmx产生,grompp程序生成模拟TPR文件时使用。TPR文件:模拟打包文件(.tpr)。该文件打包模拟需要各种信息,包括模拟系统,模拟控制等。TRJ文件:全精度轨迹文件(.trj)。该文件包含模拟系统模拟各个时间下的原子坐标,速度和受力等。所含帧数频率由MDP文件控制,文件较大。TRR文件:以上同,一般为默认格式。由于所含信息多,可以也EDR文件一起使用,重新开始模拟程序。XPM文件:数据矩阵文件(.xpm)。该文件矩阵中每个值即是矩阵点所表示的物理量大小(也可以是布尔值)。该文件其实就是二维图,可以失踪xpm2ps转换为图片。XTC文件:模拟轨迹单精度文件(.xtc)。单精度轨迹文件,文件较TRR和TRJ小,为常用分析文件。包含模拟系统中原子坐标,模拟时间,和模拟盒子信息。XVG文件:二维图标文件(.xvg)。二维画图工具xmgrace的默认文件,可以使用xmgrace打开。(2)Gromacs中几个特殊文件aminoacids.dat该文件保存GMX默认的蛋白质和核算的默认残基名称。如果计算过程要4建立一个新的蛋白质或者核算残基,可以将新的残基名称加到该文件中,并增加文件第一个的整数即可。有时候可以将该文件拷贝到当前工作文件夹进行编辑,以不影响其他计算的命名(GMX的文件搜索总是从当前目录开始的。)FF.datGMX默认力场列表,即pdb2gmx处理PDB文件时可以选择的立场列表。增加新的力场,可以编辑该文件,并修改文件第一行的整数,使其与力场种类熟目一致。specbond.datGMX处理特殊化学键的文件,特殊化学键包括二硫键,血红素铁原子于其他原子成键等。该文件第一行指明特殊键对的数目,第二行开始即为各个特殊键对的信息,其中第一列为键对第一个残基的名称,第二列为该残基成键原子的名称,第三列为该原子可以成键的数目,第四到第六列为成键另一个残基的信息,第七列为该化学键的平衡长度,此后两列为成键后残基的新名称。vdwradii.dat原子范德华半径数据库。使用genbox为系统添加水分子,或者使用genion为系统添加离子时,各个原子间的距离要大于两个原子范德华半径之和,否则则为原子重叠(3)常见水分子模型进行分子动力学模拟,水分子十分重要,除非选择使用连续介质模型(implictitwatermodel)。水分子模型较多,选择这些模型要结合使用的力场,并参考别人已经的数据。一下简单介绍几种常见的水分子模型,希5望对了解它们有点帮助。按照一般化学常识,水分子由三个原子构成,主要的参数应该有各个原子的质量,电量,氢氧键的长度以及H-O-H的键角。没有错,最简单的水分子模型就是这些参数都固定的刚性水分子模型。如SPC模型和TIP3P模型。这两种模型中,原子质量和电量都在同一个质点上。唯一不同的是TIP3P的H-O-H键角比理论值109.47小,为104.52度。这两种水模型只有氧原子具有范德华作用系数,氢原子的范德华系数为0。以上两种模型有对应的改进模型,SPC的改进模型为SPC/E,起主要改进其实就是使溶液系统的总能量乘以5.22kJ/mol。这样可以使SPC溶液属性更加接近实验值。TIP3P在CHARMM力场中的改进是给氢原子一定的范德华系数,这样做的结果的计算根据复杂。。。(很无奈,因为结果好,所以也没有办法。)由于真是情况下水分子的电量分布并不是完全在原子上的,如氧原子的一部分负电量就在H-O-H的对角线上,还有两个电子对处在H-O化学键的延长线上。为了得到更加真实的水分子模型,四个粒子以上的模型就被应用到分子动力学模拟中。其中最著名的有TIP4P模型。该模型在三个原子中间,H-O-H化学键的对角线上多了一个不含质量,只带电量的点。很多蛋白质模拟计算中,TIP4P和OPLS力场结合使用都得到很好的效果。以上提到,水分子的氧原子在H-O化学键延长线上有两个电子对,于是有的人就在这两处添加了两个只带电量的粒子。2000年报道的TIP5P模型,计算结果也很好。还有一些牛人,结合TIP4P和TIP5P,要研制TIP6P,很好很强大。。。6不得不说,并不是模型的所含粒子越多越好。粒子越多,就算付出越大,因为要计算的相互作用更多(4)力场“力场”,请不要被“场”这个听起来像是十分高深的物理名词给吓坏了。分子动力学模拟中使用的力场,包含两个重要的部分:1)模拟粒子之间相互作用的方程(即经典力学的相互作用力方程如库仑定律,范德华作用方程等)。2)方程的参数(即各个不同粒子,原子本身的参数,如带点量等等)。可以想想,模计算机模拟好多成键或者不成键的粒子的运动,总要让它们互相推推拉拉吧,于是力场就是定义它们推推拉拉的方式(按照物理定律)。力场类型,一般分类为三种:i)全原子力场:精确定义每一个原子的参数。ii)联合原子力场:省略非极性氢原子,同时把其参数整合到与他们成键的相邻原子上(比如甲基,只由一个碳原子表示)。iii)粗颗粒力场:进一步精简分子结构的力场参数,种类比较多,比如有讲蛋白侧链看作一个颗粒的力场,或者甚至将整个氨基酸残基看成一个颗粒的力场等等。一般来说力场的方程和参数是自成一个系统的,所以一般不能在一个系统中使用两个力场的参数。更具体的将,同一个原子在力场一中的带电量与起在第二个力场中是不一样的,化学键也一样。一般来讲,也不能特定修改力场中模一个原子的参数,因为原子之间是互相交叠依赖(比如未来保7证整个氨基酸残基电量为0,各个原子电量加和必须为0)。但是,这并不是说一定不行,相反的,为了模拟一些不常见的分子,经常需要根据已有的参数(力场里面的,其他论文等)来构建新的分子参数。具体方法可以参考Mr.Google等著名老师。目前比较流行的力场有:AMBER:包含好几个版本的力场,为全原子力场;CHARMM:全原子力场,是软件CHARMM的一部分;GROMOS:GROMOS软件使用的力场,版本较多,为联合原子力场;OPLS:包含全原子和联合原子力场两个版本;粗颗粒力场:种类较多,没有固定版本或者种类,一般根据研究需要开发。(5)Gromacs重启模拟计算以前介绍过如果使用GMX3.x重新由于种种原因停止的模拟,以下为GMX4.x下重启模拟的方法。GMX4.x的模拟程序mdrun较以往版本有不少不同。在模拟过程中,mdrun按照mdp文件在一定时间间隔保存一个断点文件(checkpointfile,.cpt文件),该文件保存了该时刻模拟系统的所有物理量信息。如果由于不可预见原因,模拟中断,则可以使用该文件重新在该时刻开始进行模拟。重启模拟的命令如下:-------mdrun-stopol.tpr-cpistate.cpt-append-------以上state.cpt文件为最新生产的断点文件(mdrun会保存另外一个断点8文件:state_prev.cpt,为上一个时刻保存的断点文件,双保险。)使用“-append的作用是将模拟输出添加到已有文件中,包括轨迹文件,记录文件,能量文件等,相同帧的信息将被后生产的信息覆盖。当然,也可以继续像GMX3.x一样使用tpbconv生产新的tpr文件继续模拟,详细请参见旧文或手册。(6)Gromacs多链模拟进行模拟计算时,如果模拟分子由两条以上的链组成,一般都要明确告诉模拟软件区分两条链。模拟软件一般没有那么聪明,除非明确定义,否则它会把两条以上的化学链(如肽链,DNA,其他聚酰胺等)看成一条链。在建立模拟文件是,上一条链尾端会于下一条链头部加一个共价化学键(如肽键)。由于该化学键一般很长,开始模拟时系统就“爆炸”了。AMBER软件在处理这样的问题的,需要编辑原始的PDB文件,在每一条链结尾处添加“TER”。在GMX中,这种做法行不通(其实开发人员应该考虑这个问题)。解决的办法要在原始PDB文件中给每一条链添加链标识符,如“A”,“B”等等。(如果26个字母不够用,那就使用数字1到9,然后还可以使用特殊字符,如$“,”¥“等等)。这样,使用pdb2gmx处理PDB文件的时候,就会得到各个链的拓扑文件,如topol_A.itp,topol_B.itp等等,并都被topol.top包含。以上所述使用一个字符标识PDB文件中不同的链,是因为PDB文件只使用第22字符列作为链标识位,两个字符以上不认
本文标题:gromacs文件介绍and一些杂知识
链接地址:https://www.777doc.com/doc-2877274 .html