您好,欢迎访问三七文档
高维、相依和不完全数据的统计分析李国英中国科学院数学与系统科学研究院系统科学所现代科学技术和社会经济的许多领域都遇到高维、相依和不彻底数据的统计分析问题,它是目前统计学应用和理论中面临困苦最多、挑战最严峻,也是最有可能取得突破的研究领域之一。本文试就笔者个人的认识,分三部分介绍、讨论与该领域有关的情况和问题。首先简要讲述统计学的发展情况,然后介绍我国学者在相干领域中的研究成果,最后探讨该领域中一些值得注意的研究方向。本文旨在抛砖引玉,以期得到国内同仁对统计学发展更多的关心和反对。由于笔者程度和知识所限,定有疏漏和不妥之处,欢迎批评指正。统计学(statistics我国习惯上称为数理统计)研究效地收集、分析和解释数据,以提取信息、建立模型,并进行推断、预测和决策的方式和理论。人类在社会、生产和科学活动中常常通过实验、观测和调查获得数据(包括各种资料),再从数据中获得知识。统计学正是在这样的过程中产生和发展起来的。社会经济、科学技术和工农业生产的发展是它的源泉和动力,也是它的目的和归宿。统计学的本质性特征决定了它有广泛的应用性和很强的交叉性。大致从十七世纪开始,由于天文、物理、生物、遗传以及人口和社会调查等方面的需要而蒙发了统计学。例如,17世纪中期,J.Graunt在人口死亡等社会问题的研究中,发展了最早的描述统计;18世纪末19世纪初,A.M.Legendre和C.F.Gauss在研究测地学和天体物理的数据分析中,提出了最小二乘法和误差的正态分布理论;19世纪中期,F.Galton在研究生物遗传规律的过程中发明了相干分析和回归分析方式。关于统计学的早期历史可参阅陈希孺的文章《数理统计学小史》(《数理统计与管理》,1998年第2期至1999年第6期)。进入二十世纪以后,相继出现了几位伟大的数学家和统计学家K.Pearson、R.A.Fisher、A.N.Kolmogrov、N.Neyman、E.Pearson和A.Wald等,由于他们的奠基性工作,统计学方式和理论都有了很大发展,到四十年代中期成为一门成熟的学科。近五十多年,突飞猛进的社会经济和科学技术不断提出各种各样的统计学问题,计算机的急速发展为收集和分析数据提供了方便。这些都极大地推动了统计学的发展和应用。统计学的内容更加丰富,理论更加深刻,统计方式也越来越广泛深入地渗透到社会经济、科学技术和工农业生产的各个领域,对人类社会的繁荣进步起到了积极的推动作用。统计学也因此受到社会的承认和重视。例如,1984年美国《科学》杂志把顺计学列为1900年以来对人类生活影响最大的二十项科学成就的第十八项(第一项是塑料,第六项是电视,第十六项是计算机)。美国和印度等国家曾聘用统计学家作为国家元首的科学顾问。一些发达国家和地区的大部分大学设有统计系,许多大学还同时设有生物统计系或林业统计系等等;许多大企业聘用统计学家为其解决统计问题,例如美国的贝尔公司就拥有数十人的统计学家队伍,著名统计学家J.W.Tukey生前在该公司任职长达数十年。现在,统计学已经成为许多学科领域必不可少的工具;它还与一些学科相结合形成了相应的专业统计,例如,生物统计、计量经济、地质统计、气象统计、农业统计、林业统计、心理统计和教育统计等。在当今的信息和知识经济时代,人类研究的科学和社会问题更加高深、更加复杂、更加庞大,有效地收集和分析数据以提取信息和获得知识变得更加须臾不可离。而且发达的信息技术和高性能的计算机使收集、储存、传输数据和进行科学计算更加便捷。这就给统计学提出了许许多多更大、更难、更复杂的问题。例如,复杂系统的统计建模,经济金融中的预测和决策,高维、定性和不彻底数据的统计分析,数据库等巨型复杂数据的信息提取和知识发现,相依变量和动态系统的统计规律,小样本和相干信息的统计推断,信号和图象的统计处理等等。因此,统计学正面临着前所未有的巨大挑战和机遇,其中高维、相依和不彻底等复杂数据的统计分析是一个带有普遍墟履突出难题。例如,雷达网、信息网等接收和传输的信号数据,卫星遥感观测的图象数据,文字语焰履记录数据,DNA和蛋白质构造的测试数据,全国乃至全球的气象和环境数据,人口、企业、教育、科技、医疗卫生等社会调查数据,以及股市、保险、信用卡、房地产等经济金融数据,都是维数很高(数十、数百乃至上千维)、构造十分复杂的数据,许多数据还是前后相依(不独立)的;在工业、国防、天文和医学等领域存在大量的不彻底数据,即人们不能得到所关心的某些变量的数值,而只知道它们所在的区域,甚至彻底不知道部分变量钥锟分场合的数值(即缺失数据)。而且在实际问题中,往往同时遇到多种情况。例如,来自复杂现象的数据一般是高维的,许多时候还是相依的、动态的,有时还含有不彻底数据;图象和信号可以转化为高维数据处理,而信号一般是前后相依的动态数据;许多高维数据(例如DAN和基因数据),相对其维数而言,样本量相当小;许多小样本问题中常常含有不彻底数据等等。对于这些问题,统计学工作者和实际领域中的数据分析工作者都进行了许多研究,有些方面已经形成了一些比较有效的方式,但很多方面还处在探索阶段,缺乏系统有效的方式,更缺乏完整的统理论。近些年,特别是在发达国家中,有许多统计学家深入到实际领域,或与实际领域的专家合作,探索解决这些挑战性问题的途径。我们将在第三部分介绍一些有关的具体情况。二我国的统计学起步较挽。解放前只有以许宝禄先生为代表的少数几位统计学者,他们是四十年代从国外回来的。解放后,特别是在1956年的国家科学发展规划的推动下,统计学有了较大的发展。改革开放以来,统计学有了新的发展,从事统计学研究、应用和教学的队伍壮大了许多,先后成立了四个全国性学术团体,出版了几种专业刊物,北京大学等七所综合性或理工科大学成立了统计系(或概率统计系等),有近百所财经类高校设有统计系或统计专业;统计学的研究程度不断提高,应用范围不断扩大。我国的统计工作者在理论和应用研究方面也取得了丰硕的成果,不少成果达到国际先进、甚至领先程度。这里仅简要列举与该方向有关的成果。由于时间所限,未能全面收集有关情况,定有疏漏和不当之处,敬请原谅。经典统计学中与高维数据分析直接相干的是多元分析和线性模型的统计分析。早在四、五十年代,这方面的理论研究还处在早期阶段,我国统计学家许宝禄先生获得了一系列开创性研究成果,是国际上公认的奠基人之一。改革开放以来,我国有不少学者从事这方面的研究,成果也很多。例如,中国科学院研究生院陈希孺和中国科学技术大学赵林城比较系统地研究了多元线性回归的LS、和M估量的相合性、渐近正态性和线性表示等大样本性质,在一些情况下得到了或几乎得到了充分必要条件,有的问题得到了精确的阶估量和理想的界限。他们的成果在国际上有较大反响和许多引用,国际著名统计学家、美国科学院院士C.R.Rao等在专著中把他们的主要成果列为6条定理。此外,中国科学院应用数学所方开泰和上海财经大学张尧庭等在椭球总体的多元分析方面,中国科学院系统科学所吴启光和北京理工大学徐兴忠等在多种线性模型估量的容许性和其他统计决策问题方面,北京工业大学王松桂在线性回归的估量方面,以及东北师范大学史宁中在有约束的线性模型方面也都有不少好成果。比线性模型复杂的多元模型是非线性参数模型、半参数和非参数模型。在这些模型的理论方面我国统计学者也有许多工作。例如,中国科学院系统科学所成平等在研究半参数模型的渐近有效估量方面,陈希孺、赵林城和安徽大学陈桂景等在研究非参数回归、密度估量和非参数判别方面,东南大学韦博成等在用微分几何方式研究非线性(参数)回归方面,以及南京大学王金德在非线性回归估量的渐近性质方面均有一系列成果。在非参数理论的成果中,陈希孺和赵林城彻底解决了关于U统计量分布的非一致收敛速度问题,有关结果被美国《统计科学百科全书》以及美国和前苏联等出版的多本专著引述。自助法等重抽样方式也是一类非参数方式,主要是用来逼近那些无法从理论上给出的统计量分布及有关的量。北京大学郑忠国及其合作者与美国D.B.Rubin独立提出了一种与自助法功能相似的随机加权法。他们在多种模型下研究了统计量的随机加权逼近,结果表明该类方式无需重抽样也能达到用自助法的效果,在有些情况下还优于自助法。有关多元统计模型的另一类重要问题是模型的统计诊断,目的是了解实际数据与选用的模型能否吻合。韦博城、人民大学吴喜之以及云南大学王学仁和石磊等在模型和数据的统计诊断方面有许多好成果。云南大学的学者还把他们的成果用于地质探矿的数据分析等实际问题取得成功。解决数据与模型这一对矛盾的另一种途径是使用对模型不敏感的统计方式,即当模型与数据吻合或不太吻合时都能给出比较正确的结论,这就是稳健统计方式。中国科学院系统科学所李国英和张健等在多元位置和散布阵的稳健估量及其性质,位置M估量的崩溃性质等方面也取得了一些好成果。在多维试验设计方面,中国科学院数学所王元和应用数学所方开泰引进数论方式提出了均匀设计,能用于缺乏使用正交设计条件的情况。该设计方式已在国内的多个实际部门应用,效果良好。这一工作在国际上也受到重视。南开大学张润楚等在研究计算机试验设计方面也有一些好成果。七十年代中期出现的投影寻踪(projectionpursuit简称PP)技术是分析高维数据的较好方式,到八十年代初文献中还很少有理论研究。中国科学院系统科学所成祥和李国英领导的研究小组自八十年代中开始从事PP方式和理论的研究,构造了一些分析高维数据的新方式,研究了PP统计量的渐近性质和自助(Bootstrap)逼近,获得了一系列重要结果。例如,成平、朱力行和张健研究了多种PP拟合优度统计量尾概率的估量,对有的统计量得到了精确的阶,否定了前人的猜测;李国英和施沛德等对两类应用普遍的PPU和PPL统计量作出了统一处理,研究了它们的渐近分布及其自助逼近;张健和成平给出了一个一般性结果,解决了大部分PP检验的功效问题;李国英和张健等分别用PP技巧构造了几种多元质量控制图,比原有的控制图提高了检测效果。他们的工作曾多次在有关的国际学术会议上作邀请报告,受到国际同行的好评,在国内外文献中引用较多。有些成果还在国内的水文、气象、医学等方面得到了应用,解决了用传统方式难以处理的问题。与相依数据的统计分析关系密切的是时间序列分析。在这方面我国学者也有很好的工作。北京大学江泽培是这方面最资深的学术带头人。改革开放以来,他和他的学生何书元等在多元平稳序列的谱估量方面取得了一系列重要成果。有些成果还被北京大学谢衷洁、程乾生等应用到天文、地质和医学等实际数据的分析,获得了有价值的发现。中国科学院应用数学所安鸿志在时间序列分析中的重对数律,自回归的选元方式及其相容性,以及非线性和条件异方差模型的性质等方面有不少重要成果,有些成果在国际上有较多引用,受到好评。另一类重要的相依数据问题是统计信号处理。赵林城在信号检测和叠加指数信号的估量及其性质方面有不少好成果,受到国际同行的重视。他提出的一个信号检测准则被本国学者称为有效检测准则,在文献中多次被人引用和仿效。在我国较早从事不彻底数据分析研究的有北京大学陈家鼎和复旦大学郑祖康。他们在删失数据下的分布估量和参数估量理论方面作出了贡献。近年来由于可靠性研究的需要,不彻底数据的统计方式和理论取得了很大进展。例如,陈家鼎及其合作者用样本空间排序法对于可靠性中常用的寿命分布和一类增长模型,在多种不彻底数据情况下导出了在一定意仪舐的最优置信限。中国科学院系统科学所戴树森、于丹、李国英等对于常用的寿命分布和不彻底数据类型,以及可靠性构造相当一般的系统,给出了利用部件数据对系统可靠度进行综合评估的方式,对部件数据样本量的要求比前人的方式明显减少,而且评估精度也提高了。北大和系统所的工作显著推进了前人的理论结果,在相当程度上解决了中小样本情况下,单部件和系统的可靠性评估问题,很有实用价值,受到国防工业部门的欢迎和赞赏。戴树森、于丹、华东师范大学茆诗松以及上海师范大学费鹤良等研究了不彻底数据情况下加速寿命试验中的一些估量理论问题,有些成果已在电子元件筛选中得到应用,取得了较大的经济效益。北京工业大学杨振海等
本文标题:高维数据统计分析
链接地址:https://www.777doc.com/doc-1938316 .html