您好,欢迎访问三七文档
龙星课程—肿瘤生物信息学上机课程曹莎Email:scaorobin@sina.com课程安排•各类数据类型的介绍,简单的R入门;•基因表达数据和蛋白表达数据的相关性;•差异性表达的检验,假阳性检验(FDR),批次效应(batcheffect);•基因突变数据以及表达通路的富集分析•基因表达数据的相关性以及双聚类分析•各类数据的整合基因表达数据和metabolicprofiling的数据;基因表达数据和表观遗传数据的整合数据类型的介绍—基因表达数据•Microarray–高通量测量几万个探针–精度较低•如何获取?–GEODataset,array-express,TCGA•这些数据有何信息?•使用microarray数据须知•Organism•Experimentaldesign•Samplelist(Sampledistribution,samplesize)•Platform•Important!!!!数据类型的介绍—基因表达数据•RNA-seq•如何获取?–TCGA,SRA•这些数据测有何信息?Datalevelsanddatatypes•数据类型的介绍—基因组数据•Somaticpointmutation•如何获取?–TCGA,GEOSRA•这些数据测的是什么?有何信息?数据类型的介绍—表观遗传数据•DNA甲基化数据•如何获取?–TCGA,GEODataset•这些数据测的是什么,有何信息?数据类型的介绍—表观遗传数据•Histonemodification数据•如何获取?–Verylimited•这些数据测的是什么,有何信息?数据类型的介绍—蛋白质组学数据•Proteinarray•如何获取?–TCGA,literaturesearch•这些数据测的是什么?有何信息?数据类型的介绍—代谢组学数据•Metabolicprofiling•如何获取?–literaturesearch•这些数据测的是什么?有何信息?简单的R入门•简单的数据处理•统计检验•统计建模(回归,矩阵分解等)•可视化Print•print(matrix(c(1,2,3,4),2,2))•print(list(a,b,c))Basisfunctions•ls()•rm()•c()#creatingavector,c()isafunction•mode()#•class()#•mean(x)•median(x)•sd(x)•var(x)•cor(x,y)#•cov(x,y)CreatingSequences•1:5•5:1•seq(from=0,to=20,by=5)•1.1:10.1•1.1:10.3•a-rep(0,3)•rep(c(1,2,a),2)Basiccalculations•+•-•*•/•%%•^•%*%#matrixmultiply•log(x)•sin(x)•exp()•e•Pi•Inf•NADatamode:PhysicalTypemode(3.1415)#Modeofanumber[1]numericmode(c(2.7182,3.1415))#Modeofavectorofnumbers[1]numericmode(Moe)#Modeofacharacterstring[1]characterDataClass:Abstracttype•scalar•array(vector)•matrix•Fromarraytomatrix•factor(lookslikeavector,buthasspecialproperties,forCategoricalvariablesorgrouping)•data.framedata.framematrix•Samedatamodeineachcolumn•UniqueRow/columnnames(rownames,colnames)•Onerowofadata.frameisadata.frame•as.data.frame(****)•Samedatamodeinthewholematrix•CanhaverepeatedRow/columnnames•Onerowofmatrixisanarray(vector)•as.matrix(****)这门课处理的数据类型•Clinicaldata-data.frame•Experimentaldata-data.frameormatrix–Microarraydata–RNAseqdata–Somaticmutationdata–Proteinarray–DNAmethylationdataDatacombining•cbind–Combinedatabycolumn•rbind–Combinedatabyrow•Eg.a-matrix(0,2,2)b-matrix(1,2,2)cbind(a,b)rbind(a,b)length•a-c(1:5)•length(a)apply•ApplyFunctionsOverArrayMargins•apply(DATA,MARGIN,FUNCTION,...)–MARGIN=1forrows;2forcolumns•Eg.m-matrix(c(1:10,11:20),nrow=10,ncol=2)apply(m,1,mean)apply(m,2,mean)Pattern寻找•Whichcommand•which(****),****shouldbealogicaloperation•which(****),returntheindexofTRUEelementsinthelogicaloperation•Egx-floor(10*runif(10))xwhich(x5)x[which(x5)]ForloopForloop::Calculatethesumofallthevaluesinthevectorx-floor(10*runif(10))ForloopRealcomputerprogram!Eg.for(iin1:100){print(Helloworld!)print(i*i)}Forloopfor(***in***){}for(VARIABLEinTARGETSET){}for(iin1:100){}x-floor(10*runif(10))total_x-0for(iin1:length(x)){print(i)print(x[i])total_x-total_x+x[i]}Workingdirectory•getwd()•setwd(“****”)•list.files()•load(“****”)•save.image(“****”)实例•摘出coloncancer的clinicalinformation中所有二期和三期的样本步骤•将数据load进来•找到数据中所有的期的信息•用for循环将所有的一期,二期的样本摘出来,并且合并所有的数据
本文标题:龙星计划课程
链接地址:https://www.777doc.com/doc-1958846 .html