您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 创业/孵化 > 作品校内选拔赛作品申报书
1序号:编码:第十一届“挑战杯”全国大学生课外学术科技作品竞赛华南农业大学选拔赛作品申报书作品名称:DNA压缩及模式匹配研究平台所在学院:信息学院申报者姓名(集体名称):刘少鹏类别:□自然科学类学术论文□哲学社会科学类社会调查报告和学术论文□科技发明制作A类□科技发明制作B类说明21.申报者应在认真阅读此说明各项内容后按要求详细填写。2.申报者在填写申报作品情况时只需根据个人项目或集体项目填写A1或A2表,根据作品类别(自然科学类学术论文、哲学社会科学类社会调查报告和学术论文、科技发明制作)分别填写B1、B2或B3表。所有申报者可根据情况填写C表。3.表内项目填写时一律用打印,字迹要端正、清楚,此申报书可复制。4.序号、编码由竞赛组委会填写。5.学术论文、社会调查报告及所附的有关材料必须是中文(若是外文,请附中文本),请用4号楷体打印在A4纸上,附于申报书后,字数在8000字以内,调查报告类每篇在15000字以内。6.其他参赛事宜请向校团委咨询。联系电话:85283396,电子邮箱:xtw@scau.edu.cn3A1.申报者情况(个人项目)说明:1.必须由申报者本人按要求填写,申报者情况栏内必须填写个人作品的第一作者(承担申报作品60%以上的工作者);2.本表中的学籍管理部门签章视为对申报者情况的确认。申报者情况姓名刘少鹏性别男出生年月1984年9月所在学院信息学院专业计算机应用现学历硕士年级二年级学制3年入学时间2007年9月作品全称DNA压缩及模式匹配研究平台毕业论文题目通讯地址华南农业大学研究生宿舍6栋904邮政编码510642单位电话13450363335常住地通讯地址广东省潮州市潮安县磷溪镇溪口四村邮政编码521000住宅电话07686705793合作者情况姓名性别年龄学历所在单位资格认定学院学籍管理部门意见是否为2009年7月1日前正式注册在校的全日制非成人教育、非在职的各类高等院校中国学生(含本科生和研究生)。□是□否若是,其学号为:2007242019(学院盖章)年月日院系负责人或导师意见本作品是否为课外学术科技或社会实践活动成果。□是□否负责人签名:年月日4B3.申报作品情况(科技发明制作)说明:1.必须由申报者本人填写;2.本部分中的科研管理部门签章视为对申报者所填内容的确认;3.本表必须附有研究报告,并提供图表、曲线、试验数据、原理结构图、外观图(照片),也可附鉴定证书和应用证书;4.作品分类请按照作品发明点或创新点所在类别填报。作品全称DNA压缩及模式匹配研究平台作品分类(B)A.机械与控制(包括机械、仪器仪表、自动化控制、工程、交通、建筑等)B.信息技术(包括计算机、电信、通讯、电子等)C.数理(包括数学、物理、地球与空间科学等)D.生命科学(包括生物、农学、药学、医学、健康、卫生、食品等)E.能源化工(包括能源、材料、石油、化学、化工、生态、环保等)作品设计、发明的目的和基本思路,创新点,技术关键和主要技术指标一、目的二十世纪末生物信息学迅速发展,在信息的数量和质量上都极大的丰富了生物科学的数据资源,包括NCBI,EMBL,GDB等,DNA数据库的数据量在以每年两到三倍的数量增加。现在为存储DNA数据需要越来越大的空间。因此,对DNA数据进行压缩以减少存储空间将是生物学家和计算机专家面临的挑战。由于DNA数据的特殊性,即DNA序列数据由A、C、G、T四个字母组成,并且DNA序列长度可达到上千万个碱基对,使用传统的数据压缩算法并不理想。于是,必须研究专门针对DNA序列数据的压缩算法:DNA压缩算法。在生物学家对DNA序列数据的使用中,序列比对是生物信息学中最基本、最重要的操作之一。从实现的理论和技术上讲,DNA序列比对的实质是一种特殊的模式匹配,而直接在压缩后的DNA数据上进行序列比对其实质则是一种特殊的压缩模式匹配,即DNA压缩模式匹5配。为了更好地研究DNA压缩算法和DNA压缩模式匹配算法,我们将建立一个研究平台。该平台主要用于管理和增加DNA压缩算法和DNA压缩模式匹配算法,存储DNA序列数据、DNA压缩数据,能实现各算法的效果的比较试验,验证算法的有效性。二、思路以Java技术和二次数据库技术,建立一个不依赖具体机型和操作系统的DNA压缩和DNA压缩模式匹配研究的专用平台;并利用该平台,结合DNA序列数据的特点,研究DNA序列数据压缩现有算法和提出新的算法,以有效减少DNA数据所占用的存储空间;研究出专门针对DNA压缩数据的压缩模式匹配算法,以解决在不对DNA序列压缩数据解压或最小解压缩的情况下实现序列比对功能。三、创新点1、可扩展利用面向对象的Java技术,建立专业的生物信息学研究平台,可持续地开展DNA压缩算法和DNA压缩模式匹配算法的研究。具体地说,平台的可扩展性体现在两方面:一是有意义明确的包,尤其是包matching和compress。二是GUI界面都是用Swing组件写成的,每个面板的功能都是相当明确,其中负责压缩信息处理的CompressPanel和负责模式匹配的MatchingPanel就是很好的体现。假如,我们现在的平台需要增加一个新的压缩算法,那么我们要把这个压缩算法设计为一个类,把它放到包compress中,再在面板CompressPanel中的树状选择压缩算法,为用户增加一个新的选项,即可完成扩展。如果现在的平台需要增加一个新的匹配算法,那么我们要把这个匹配算法设计为一个类,把它放到包matching中,再在面板MatchingPanel中的树状选择匹配算法,为用户增加一个新的选项,即可完成扩展。2、减少DNA序列存储空间参考文本压缩算法思想,根据DNA序列数据的特点,研究专门用于压缩DNA序列数据的DNA压缩算法。DNA压缩算法可以高效地压缩DNA序列数据,极大地减少DNA序列数据所占用的存储空间。3、DNA序列比对研究利用压缩模式匹配的思想,根据DNA序列数据的特点,专门研究在对DNA序列压缩数6据不解压缩或最小解压缩的情况下,直接在DNA压缩数据库中实现DNA序列比对的功能。4、直接使用压缩DNA数据研究不是把DNA序列数据压缩减小存储空间作为唯一目标,而是把直接有效地利用DNA序列压缩数据作为更重要的目标。四、技术关键1、面向对象的Java技术使得该平台不依赖操作系统和具体机型,因此可运行在小型机、高级服务器、PC台式机、笔记本电脑和Unix、Solaris、Windows和Linux等环境。2、多线程技术在java中,程序通过流控制来执行程序流,程序中单个顺序的流控制称为线程,多线程则指的是在单个程序中可以同时运行多个不同的线程,执行不同的任务。多线程意味着一个程序的多行语句可以看上去几乎在同一时间内同时运行。3、Swing技术Swing组件被称为轻量级组件(lightweightcomponent),是由纯Javacode开发的,它不需要那些关于各种平台的复杂的GUI功能,解决了Java因为窗口类而无法跨平台的问题,并且不会占有太多的系统资源。Swing组件对比AWT组件具有更大强度的可移植性和灵活性。五、主要技术指标平台可扩展性、算法效率、算法比较效果7作品的科学性先进性(必须说明与现有技术相比、该作品是否具有突出的实质性技术特点和显著进步。请提供技术性分析说明和参考文献资料)1、采用java面向对象编程技术,具有良好的平台无关性及功能可扩展性。2、研究DNA压缩算法和DNA压缩模式匹配算法具有重要意义,该平台为研究人员的工作提供便捷。利用该平台,作者已发表中文核心期刊文章一篇。3、目前针对DNA压缩算法和DNA压缩模式匹配算法的平台不多。4、参考文献很多,主要有DNA压缩算法和DNA压缩模式匹配算法等国内国外论文,请查阅。[1]DonAdjeroh,YongZhang,AmarMukherjee,MattPowell,TimBell,“DNASequenceCompressionUsingtheBurrows-WheelerTransform,”csb,pp.303,IEEEComputerSocietyBioinformaticsConference(CSB'02),2002[2]ChenX.,KwongS.andLiM,“AcompressionalgorithmforDNAsequencesanditsapplicationsingenomecomparison”,InProceedings,10thWorkshoponGenomeInformatics(GIW’99),pp.52-61,1999.[4]BurrowsM.andWheelerD.J.,“Ablock-sortinglosslessdatacompressionalgorithm”,TechnicalReport,DigitalEquipmentCorporation,PaloAlto,CA,1994.[5]TaoTao,AmarMukherjee,“PatternMatchinginLZWCompressedFiles,”IEEETransactionsonComputers,vol.54,no.8,pp.929-938,Aug.,2005.[6]T.Bell,M.Powell,A.Mukherjee,andD.Adjeroh,“SearchingBWTCompressedTextwiththeBoyer-MooreAlgorithmandBinarySearch”,Proc.DataCompressionConf.,pp.112-121,Apr.2002.[7]CHENLei,LUShiyong,RAMJ.CompressedPatternMatchinginDNASequences:IEEEComputationalSystemsBioinformaticsConference,2004[C].Washington,DC:IEEEComputerSociety,2004:62–68.[8]BOYERRS,MOOREJS.AFastStringSearchingAlgorithm[J].CommunicationsoftheACM,1977,20(10):762–772.[9]Knuth,D.E.,MorrisJr,J.H.,Pratt,V.R.:Fastpatternmatchinginstrings.SIAMJournalonComputing6,323–350(1977)[10]张丽霞,张义青,林丕源,刘吉平.基于字符和0/1码的DNA压缩模式匹配算法.计算机应用研究,2007,24(9):22-24[11]林毅申,林丕源.基于WebServices的生物信息解决方案[J].计算机应用研究,2005,22(6):157-158&164.[12](英)T.K.Attwood,D.J.Parry-Smith著,罗静初等译.生物信息学概论.北京:北京大学出版社,2002.48作品在何时、何地、何种机构举行的评审、鉴定、评比、展示等活动中获奖及鉴定结果无。作品所处阶段()A实验室阶段B中试阶段C生产阶段D可初步应用,为算法研究提供一定的便利(自填)技术转让方式作品可展示的形式□实物、产品□模型□图纸□磁盘□现场演示□图片□录像□样品使用说明及该作品的技术特点和优势,提供该作品的适应范围、推广前景的技术性说明、市场分析和经济效益预测由于DNA数据库的数据量在以每年两到三倍的数量增加,因此将来使用压缩的DNA数据会成为必然的趋势,而要直接使用DNA压缩数据,DNA压缩模式匹配又是必须解决的问题。因此DNA压缩和DNA压缩模式匹配就有良好的应用前景。DNA压缩算法及其DNA压缩模式匹配算法的研究,有助于将DNA序列数据从较为高端的工作平台(专用的存储容量较大的服务器)迁移到更简易的工作平台(普通的存储容量较小的计算机,如笔记本电脑或PDA)上,使得生物学家可以随时随地开展研究工作;DNA压缩算法及其DNA压缩模式匹配算法的研究,还可以为在普通工作平台上建立专门的二级数
本文标题:作品校内选拔赛作品申报书
链接地址:https://www.777doc.com/doc-6627046 .html