您好,欢迎访问三七文档
第9卷第3期 上海大学学报(自然科学版) Vol.9,No.32003年6月 JOURNALOFSHANGHAIUNIVERSITY(NATURALSCIENCE) June2003:1007-2861(2003)03-0271-05X陆 巍, 王翼飞(上海大学理学院,上海200436):基因芯片是一项急速发展的新技术,该技术大致包含芯片设计、芯片制作和数据分析三个主要环节.该文综合介绍了在基因芯片的数据分析中所采用的信息挖掘方法,特别是一些行之有效的数学模型和算法.当前,基因芯片的信息挖掘已成为生物信息学研究的热点之一,而数学技术的应用将促使基因芯片技术日趋完善.:基因芯片;图像处理;聚类分析;判别分析:Q52 :AInformationMiningforGeneChipsLUWei, WANGYi-fei(SchoolofSciences,ShanghaiUniversity,Shanghai200436,China)Abstract:Thegenechiptechnique,anewtechniqueinmolecularbiology,consistsofthreemainsteps:chipdesign,chippreparation,anddataanalysis.Thispapersummarizesinformationminingmethodsindataanalysis,especiallysomeusefulmathematicalmodelsandalgorithms.Informationminingforgenechiphasnowbecomeoneofthehotareasinbioinformatics.Withtheapplicationofmathematics,thegenechiptechniquewillbecontinuallyimproved.Keywords:genechip;imageprocessing;clusteranalysis;discriminantanalysis 基因芯片技术是随着“人类基因组计划”(hu-mangenomeproject,HGP)的发展而发展起来的一项新技术,可广泛应用于基因序列分析、基因突变检测和多态性分析以及疾病的基因诊断等许多领域.按照芯片上固化的生物材料的不同,生物芯片(ar-ray或chip)又可划分为DNA芯片、蛋白质芯片、细胞芯片和组织芯片.以DNA芯片为例,其制备主要是以玻璃片或硅片为载体,采用原位合成或离片合成的方法将寡核苷酸片段或cDNA作为探针按顺序排列在载体上[1].为了提高检测的灵敏度和使用者的安全性,样品用荧光标记、生物素标记或同位素标记等标记[2].芯片经杂交反应后,再利用激光共聚焦显微镜或落射荧光显微镜等设备检测标记信号[3],并记录为特殊格式的数据文件(图1).利用计算机,通过对数据文件中杂交点的荧光强度信号的定量分析和信息挖掘就可以得到有关样品的重要生物学信息.目前,基因芯片的信息挖掘已成生物信息学研究的热点之一,引起了广泛的重视.特别是高密度的DNA微阵列(Microarray),由于其荷载了成千上万个DNA片段,可用于高通量的生物学检测,其开发和利用已进入商业化阶段,而其信息处理和信息挖X:2002-11-18 :国家863高技术研究发展计划(2002AA234021)资助项目 :陆 巍(1979~),男,上海人,硕士生,主要从事计算分子生物学的研究.掘更受关注.近年来,有关的报导日益增加.本文拟环绕DNA微阵列(Microarray)的计算机数据处理和信息挖掘对此领域作一较系统的介绍,并分析存在的问题以及可能的发展趋向.图1 完成杂交反应的微阵列图(部分)Fig.1 Microarrayimageafterhybridization(partial)1为了对高密度基因芯片实施信息挖掘,首先得将芯片的资料读入计算机,形成特殊格式的计算机数据文件.这一阶段主要是根据基因芯片的特点,利用图像处理技术从芯片上读取信息.这阶段的工作可称为基因芯片的信息预处理.信息预处理的质量好坏直接关系到后续的信息挖掘.因此,研究工作者都非常重视信息预处理,针对高密度芯片的特点,设计了各种有效的信息预处理方法.这阶段的工作主要是利用专用的扫描仪扫入基因芯片,生成计算机图像文件,通过网格划分(Gridding)确定杂交点范围(Segmentation),并通过信号强度提取等步骤,得到基因表达的荧光信号强度值并以列表形式输出[4,5].在高密度基因芯片(如DNA微阵列)的图像处理过程中面临的主要问题[5,6]有:(1)样点的重叠,高强度的样点可能会影响邻近的样点(图2);(2)由于实验类型不同,可能产生不同的样点外形(图3);(3)由实验过程中的污染而产生的噪声干扰.为有效地解决上述主要问题,需对基因芯片作信息预处理.信息预处理一般包含以下四个步骤.1.1对输入计算机中的微阵列图需要了解每行每列的样点个数,此外还需要了解相邻样点之间的距离,但由于芯片设计不同、实验情况不同,所以不可能有确切的数据,因此要对图片进行网格划分以便了解这些信息.此步骤的关键在于能自动处理各种不同的杂交阵列.目前使用的主要有离散傅里叶变换、Mann-Whitney检验等方法.由于尚无能对所有杂交阵列进行全自动划分的软件,在处理中还需人工辅助确定样点位置、去除背景噪声和错误的杂交.图2 重叠的样点Fig.2 Overlappingspots图3 不同外形的样点Fig.3 Spotswithuncommonshapes1.2杂交阵列图像处理工作的一个难点是从网格中鉴别样点区域.每个样点近似环形,这是由于机器手在玻片上放置cDNA的方式及处理玻片的方式所致.目前已有许多方法可用来对微阵列图像进行分割,例如固定周长法、可变周长法等.但由于cDNA沉积或杂交处理所引起的各种变化,样点可能只是近似环形,所以比较好的方法是可变外形的分割方法,主要有Mann-Whitney检验和SRG(SeededRe-gionGrowing)法等.SRG方法[4]:设有n个区域Ai,i=1,…,n.每个区域都由一些像素组成,这些像素被称为种子,且每个区域都分配到一个标记.每个区域可以有不同的大小且其中的像素不一定邻接.和任一区域邻接的所有像素都存放在集合T中:T={x|∪ni=1AiûN(x)I∪ni=1Ai≠0}.T中的像素按N的升序排列,其中N为该像素的强度同相邻区域像素强度平均值之差的绝对值.若像素x的强度为I(x),其邻接区域为U,U中包含N·272· 上海大学学报(自然科学版) 第9卷个像素,则有:N(x)=I(x)-1N∑y∈UI(y). 每一次循环将T中的第一个像素加入其邻接的区域,并重新计算N,按升序排列.若某一像素有多个邻接区域,可将其设定为边界.直到所有像素都已标记,循环结束.图4 SRG算法(B:背景;0:未标记;S:样点)Fig.4 SRGmethod(B:Background;0:Notlabelledyet;S:Target)1.3此步骤包括背景强度估计、饱和补偿以及信号强度值的提取.由于高值样点存在饱和与重叠干扰的问题,所以不能简单地将当前位置的样点强度值作为信号强度,否则可能产生较大的误差[7].为此需要建立精确的样点理论模型,并在此基础上进行样点的饱和补偿和干扰校正,实现精确的信号强度的提取.高斯参数模型[6]:设有一包含n个像素的样点,pi为每一像素的位置,zi为该像素的强度,i=1,…,n,令S={(pi,zi),p∈R2,zi∈R}为相应的集合.记高斯函数G(p,L,2)=exp[-12(p-L)ø2-1(p-L)],则高斯参数模型可定义为Z(p)=Z(a,p,L,2,b)=aG(p,L,2)+b,其中,a、b和L分别为比例系数、背景参数值和均值,而2=R2xRxyRxyR2y则为方差矩阵.高斯参数模型中的参数可以通过极大似然估计或最小平方误差来计算,也可采用M估计.除了采用高斯参数模型外,也可使用张文等人[7]根据同位素辐射感光原理建立的样点理论模型.在微阵列图像上选取若干个互相干扰较小或孤立的样点,根据其数值计算出优化的参数,即得到一个标准的样点模型.利用标准样点,可由饱和值换算出真实值,也可用其进行干扰校正.1.4由于样本差异、荧光标记效率和检出率的不平衡,需对原始提取信号进行均衡和修正才能对实验数据作进一步分析.标准化处理(Normalization)正是基于此种目的而进行的[8,9].2在一块基因芯片上往往含有成千上万个基因,一次可以同时检测这些基因的表达.利用同一种芯片在不同条件下(不同时间、不同细胞、不同外界条件)进行基因表达实验.所搜集的表达数据同原始数据放在一起,可形成一个数据表格(表1)作为进一步分析的初始资料.1np(n,p)Tab.1npdatamatrix(ngenes,pconditions)BreastColonLung…10.180.090.77…20.860.92-0.20…3-0.750.45-0.35…40.47-0.780.33…50.020.250.70…目前芯片数据分析有两个主要的研究方向:(1)分析基因或样本之间的相互关系,使用的统计方法主要是聚类分析;(2)基因芯片可用于监测基因在不同组织样品中的表达差异,例如在正常细胞和肿瘤细胞中.那么以某些在不同样品中表达差异显著的基因作为模版,通过判别分析就可建立有效的疾病诊断方法.2.1微阵列技术的价值不仅在于它是一种快速鉴别单个基因表达的方法,而且在于通过分析它可使研究者研究基因间的平行相互作用.聚类分析[10]通过各种不同的数学模型,对具有相同统计行为的多个基因进行归类,归为一个类的基因在功能上可能相似或关联.目前采用的聚类分析方法有系统聚类法、混合聚类法、神经网络方法等.2.1.1 系统聚类法(HierarchicalClusterMethod,Eisenetal.,1998)系统聚类法的基本思想:若对基因进行聚类,可先将n个基因各自看成一类,然后计算各类之间的距离,选择其中距离最小的两类合并成为一个新类,于是n个基因就聚成n-1类.计算这一新类与其它各类之间的距离,再合并其中距离最小的两类.如此反复进行,每次减少一类,直到所有样品归成一类.根据类与类之间距离的不同定义,又可得各种·273·第3期 陆 巍,等:基因芯片的信息挖掘不同的聚类法,常用的有:(1)最短距离法 定义类Gp与类Gq中两个最近的元素之间的距离为类Gp与类Gq之间的距离.(2)最长距离法 两个类之间的距离定义为两类中的元素间的最大距离.(3)类平均法 定义两类中任意两个元素之间距离的平均值为两类之间的类平均距离.2.1.2 K-均值算法(K-meansalgorithm,Tavazoieetal.,1999)动态聚类方法是一类常用的聚类法.该方法先确定某个评价聚类结果质量的准则函数,当给出某个初始分类后,采用迭代算法找出使准则函数取极值的最好聚类结果.K-均值算法是采用误差平方和为准则函数的动态聚类方法[11].2.1.3 自组织映射算法(Self-OrganizingMap,SOM,Tomayoetal.,1999)大脑中神经元之间的信息交互方式有很多种,然而邻近神经元之间的局部交互有一个共同的方式,就是侧向交互:最相近的“邻元”(约小于0.5mm)相互兴奋,较远的邻元(1~2mm)相互遏制,更远的又是弱兴奋.神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争,自适应地发展成检测不同信号的特殊检测器,这就是自组织特征映射的含义.人工两维自组织映射网络结构的总体连接与两层前馈网络相似,一层为输入层,另一层具有计算单元.两层前馈网络属于有监督学习,需要同时提供输入样本和相应的理想输出.引进竞
本文标题:基因芯片的信息挖掘
链接地址:https://www.777doc.com/doc-359800 .html