您好,欢迎访问三七文档
简介•生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。•生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。•生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。生物技术与生物信息学的区别及联系生物技术生物信息学英文名称BiotechnologyBioinformatics最终目的产品研究方法利用生物的特性和功能,设计构建具有预期功能的新物质或品系对生物信息进行采集、处理、存储、分析和解释涉及学科基因工程、分子生物学、生物化学、遗传学、细胞生物学、胚胎学、免疫学等生物学、计算机科学、数学、物理学等发展历程可追溯到2000B.C.数十年生物信息学的发展历史•人类基因组计划(HGP)人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。数据与信息•数据是人们为了反映客观世界而记录下来的可鉴别的各种符号,而信息则是使用者对数据有目的的加工,从而对接收者的行为或思想产生影响,而不同接收者对于相同数据可能存在不同的解释和理解。•数据是信息的载体,信息是数据的目的“我有一个好想法,不过只可意会不可言传”•数据本身没有价值•用户不同,数据和信息的划分也不同•数据和信息可以相互转化WhatisData?10535185574雨认会不天我为明下0100100101001100011011110111011001100101010110010110111101110101WhatisInfo?13805515574我不认为明天会下雨y=ax-a0100100101001100011011110111011001100101010110010110111101110101737611111810189111117ILoveYou数据信息RecognitionKnowledgement什么是数据库•在生物信息学领域,数据库的主要功能是“存储”、“管理”以及“检索”、“调用”•常见数据库结构类型:平面文件(FLATFILE)、关系型数据库(R-database)、基于Internet的XML(ExtensibleMarkupLanguage)基因是什么•基因是遗传物质的基本单位基因就是核苷酸序列。大部分的基因大约是1000-4000个核苷酸那么长。基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。基因在染色体上。DNA的结构•碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶T)•核苷酸核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就是A、T、C、GDNA序列比对•发现同源性、相似性•序列同源性:从某一共同祖先经过趋异进化而形成的不同序列•序列相似性:指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小•序列比对定义序列比对(SequenceAlignment)就是运用某种特定的算法,找出两个或多个序列之间的最大匹配碱基数动态规划与序列比对•基因组数据库保存了海量的原始数据(RawData),人类基因有接近30亿个碱基对。为了查遍所有数据并找到其中有意义的关系,我们便需要依赖于高效的计算机科学字符串算法。•动态规划算法是解决最优化问题的一种高级的算法技术,它自下而上寻找子问题的最优解,从而逐步得到最终问题的解。本课程将利用Java实现•动态规划是一种编程思想,并不是实际的方法。掌握这一思想,适当采用递归方法,几乎可以解决所有最优解问题。•使用动态规划两大条件:最优子结构,重叠子问题递归(Recursion)•在计算机程序设计中如何理解F(x)=ax+b•编程计算N!f(n)=n*f(n-1)n1•编程计算斐波那契数列f(n)=f(n-1)+f(n-2)n21,1,2,3,5,8......n动态规划•问:斐波那契数列当n=5时,结果是多少?x=50呢?x=100呢?当遇到重叠子问题,即现在正在进行递归时函数的参数是当前已经计算过的参数值,那么再进行计算将是重复计算。Fib(4)Fib(3)Finb(2)Fib(0)Finb(2)Fib(1)Fib(1)动态规划•利用动态规划思想解决之前的问题。publicintfib(intn){if(n==0){return0;}elseif(n==1){return1;}else{returnfib(n-1)+fib(n-2);}}publicintfib1(intn){int[]table=newint[n+1]for(i=0;itable.length;i++)if(i==0)table[i]=0;elseif(i==1)table[i]=1elsetable[i]=table[i-2]+table[i-1]returntable[n]}递归解决动态规划解决动态规划算法将已经计算过的子问题的解保存(这里用二维数组),下一次再需要计算时便可以直接提取使用最长公共子序列问题(LCS)S1:ACTTS2:AGCTACTT00000A01111G01111C01222T01233注意该二维数组赋值的规律,最右下角的数值即为这两个序列的LCS长度遗传算法4.1基本概念1.个体与种群●个体就是模拟生物个体而对问题中的对象(一般就是问题的解)的一种称呼,一个个体也就是搜索空间中的一个点。●种群(population)就是模拟生物种群而由若干个体组成的群体,它一般是整个搜索空间的一个很小的子集。2.适应度与适应度函数●适应度(fitness)就是借鉴生物个体对环境的适应程度,而对问题中的个体对象所设计的表征其优劣的一种测度。●适应度函数(fitnessfunction)就是问题中的全体个体与其适应度之间的一个对应关系。它一般是一个实值函数。该函数就是遗传算法中指导搜索的评价函数。3.染色体与基因染色体(chromosome)就是问题中个体的某种字符串形式的编码表示。字符串中的字符也就称为基因(gene)。例如:个体染色体9----1001(2,5,6)----0101011104.遗传操作亦称遗传算子(geneticoperator),就是关于染色体的运算。遗传算法中有三种遗传操作:●选择-复制(selection-reproduction)●交叉(crossover,亦称交换、交配或杂交)●变异(mutation,亦称突变)选择-复制通常做法是:对于一个规模为N的种群S,按每个染色体xi∈S的选择概率P(xi)所决定的选中机会,分N次从S中随机选定N个染色体,并进行复制。NjjiixfxfxP1)()()(这里的选择概率P(xi)的计算公式为交叉就是互换两个染色体某些位上的基因。s1′=01000101,s2′=10011011可以看做是原染色体s1和s2的子代染色体。例如,设染色体s1=01001011,s2=10010101,交换其后4位基因,即变异就是改变染色体某个(些)位上的基因。例如,设染色体s=11001101将其第三位上的0变为1,即s=11001101→11101101=s′。s′也可以看做是原染色体s的子代染色体。4.2基本遗传算法遗传算法基本流程框图生成初始种群计算适应度选择/复制交叉变异生成新一代种群终止?结束算法中的一些控制参数:■种群规模■最大换代数■交叉率(crossoverrate)就是参加交叉运算的染色体个数占全体染色体总数的比例,记为Pc,取值范围一般为0.4~0.99。■变异率(mutationrate)是指发生变异的基因位数所占全体染色体的基因总位数的比例,记为Pm,取值范围一般为0.0001~0.1。分子进化与系统发育生物大分子进化速率相对恒定•蛋白质和核酸等生物大分子在进化过程中氨基酸或核苷酸随着时间的替换(改变)数几乎是恒定的。生物大分子进化的保守性•对生物生存制约性大的生物大分子进化速度慢•生物大分子内部功能区结构变化速率较慢,而且功能越重要的区域变化速率越慢•蛋白质中越重要的氨基酸变化越慢•结构和化学性质相近的氨基酸之间的替换要比这两方面不同的氨基酸之间的替换共容易发生分子系统发育树如何构建系统发育树请参照书本UPGMA方法实例注意要能够最终画出系统发育树信息可视化背景•计算机图形学的产生和发展为可视化的诞生奠定基础•1987年正式将可视化分为:数据可视化、信息可视化、科学可视化大数据时代的到来为信息可视化带来了新的机遇和挑战。信息可视化模型RawDataTablesVISStructureViewsVisualFormData可视化结构映射数据转化视图转化InteractionsDataAnalysis信息可视化常用可视化结构(TreeMap)TreeMap是一种在有限空间里对分层结构的可视化结构模型。通过对形状大小和颜色的编码,TreeMap可以非常有效的展现属性结构中叶子节点的属性,可针对同层次或者不同层次的叶子节点进行比较。充分利用空间。F(6)F(5)F(4)F(4)F(3)F(3)F(2)F(3)F(2)F(2)F(1)F(2)F(1)F(2)F(1)这是我们常见的二叉树结构,表示Fib数列的运算过程TreeMapF(6)F(5)F(4)F(4)F(3)F(3)F(2)F(3)F(2)F(2)F(1)F(2)F(1)F(2)F(1)F(2)F(2)F(1)F(2)F(2)F(2)F(1)F(1)在TreeMap中,所有的不可分割的矩形块都是叶子节点,而这些矩形块通过组合构成的更大的矩形块也就是叶子节点的父节点,以此类推,从而将整个树形结构呈现信息可视化常用可视化结构(FishEye)Fisheye的应用FisheyeMenu鱼眼菜单(Fisheyemenus)对于帮助用户浏览很长、但有序的列表很有用处。该菜单可以动态的变换菜单条目的尺寸,将鼠标所在区域放大。这样便可以在一个屏幕上显示并操作整个菜单了,而无需传统的按钮、滚动条、或分级浏览结构。对于帮助用户轻松浏览很长的列表,鱼眼菜单很有潜力。可视化人机交互技术什么是人机交互?输入设备与屏幕之间的交互?人与屏幕之间的交互?可视化中的交互技术•Brushing•Focus+context+magiclens•pan+zoom•ParallelCoordinates•IndexCharts
本文标题:生物信息学
链接地址:https://www.777doc.com/doc-7071372 .html