您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 数学建模中的统计方法介绍
同济大学数学系数学建模中的统计方法同济大学数学系数学建模中的统计方法介绍•数据预处理与统计软件的选择•显著性检验•拟合优度检验和独立性检验•非参数检验•方差分析•回归分析•主成分分析•因子分析•聚类分析•判别分析数据预处理•为什么要预处理数据•描述性数据汇总•数据清理•数据集成和变换•数据归约•数据离散化和概念分层产生3同济大学数学系4数据预处理的原因•正确性(Correctness)•一致性(Consistency)•完整性(Completeness)•可靠性(Reliability)数据质量的含义同济大学数学系现实世界的数据•不完整的–缺少属性值或某些感兴趣的属性,或仅包含聚集数据。•含噪声的–包含错误或存在偏离期望的离群值。•不一致的–采用的编码或表示不同,如属性名称不同•冗余的–如属性之间可以相互导出同济大学数学系6数据错误的不可避免性•数据输入和获得过程数据错误•数据集成所表现出来的错误•数据传输过程所引入的错误•据统计有错误的数据占总数据的5%左右同济大学数学系数据错误的危害性•高昂的操作费用•糟糕的决策制定•组织的不信任•分散管理的注意力同济大学数学系8数据预处理的形式•数据清理–补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致•数据集成–集成多个数据库、数据立方或文件•数据变换–规范化和聚集•数据归约–简化数据、但产生同样或相似的结果同济大学数学系数据预处理的形式同济大学数学系数据预处理的意义•现实世界的数据一般是脏的、不完整的和不一致的。•数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。•高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。•检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。同济大学数学系描述性数据汇总•获得数据的总体印象对于成功的数据预处理是至关重要的。•描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。•动机:更好的理解数据。•主要内容:度量数据的中心趋势和离散程度、描述数据汇总的图形显示。同济大学数学系度量数据的中心趋势•算数平均值–最常用•分布式度量–可以通过如下方法计算度量(即函数):将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。–求和、计数、最小、最大同济大学数学系度量数据的中心趋势…•代数度量–可以通过应用一个代数函数于一个或多个分布度量计算的度量。–均值、中列数•整体度量–必须对整个数据集计算的度量。–中位数、众数同济大学数学系代数度量•mean():•加权平均:•截断均值:去掉高、低极端值得到的均值。减小极端值对均值的影响。•中列数(midrange):(max+min)/211niixxn11niiiniiwxxw同济大学数学系整体度量•中位数(median):适用于倾斜的数据。近似值计算如下:•设N个数值排序,若N为奇数,中位数是有序集的中间值;若N为偶数,中位数是中间两个值的平均值。•例如:1,3,5,7中位数4•1,3,5,6,7中位数51/2()()lmediannfmedianLcf同济大学数学系整体度量•众数(mode):集合中出现频率最高的值。–单峰、多峰(双峰、三峰…)、无众数–对于适度倾斜的单峰频率曲线,有如下的经验关系:3()meanmodemeanmedian同济大学数学系17中位数、均值和众数同济大学数学系18•极差–最大值与最小值之差•四分位数–中位数是第50个百分位数,是第2个四分位数–第1个是第25个百分位数,Q1–中间四分位数极差IQR=Q3–Q1•离群点outlier–与数据的一般行为或模型不一致的数据对象•盒图•方差、标准差–反映了每个数与均值相比平均相差的数值度量数据的离散程度同济大学数学系度量数据的离散程度…•盒图boxplot,也称箱线图•从下到上五条线分别表示最小值、下四分位数Q1、中位数、上四分位数Q3和最大值•盒的长度等于IRQ•中位数用盒内的横线表示•盒外的两条线(胡须)分别延伸到最小和最大观测值。同济大学数学系盒形图同济大学数学系•盒图的功能•1.直观明了地识别数据集中的离群点•2.判断数据集的偏态和尾重•3.比较几批数据的形状同济大学数学系同济大学数学系23•直方图、•分位数图、分位数-分位数图(q-q图)•散布图、散布图矩阵•局部回归(Loess)曲线基本描述数据汇总的图形显示同济大学数学系直方图Histogram•概括给定属性分布的图形方法•每个矩形等宽同济大学数学系分位数图QuantilePlot•观察单变量数据分布的简单有效方法同济大学数学系散布图scatterplot•直接观察是否存在簇(cluster),离群点等•每个点对应一个坐标对同济大学数学系局部回归(Loess)曲线•添加一条光滑曲线到散布图同济大学数学系数据清理•现实世界的数据一般是不完整的、有噪声的和不一致的。•数据清理的任务:填充缺失的值,光滑噪声并识别离群点,纠正数据中的不一致。同济大学数学系29•忽略元组•人工填写空缺值•使用一个全局常量填充空缺值•使用属性的平均值填充空缺值•使用与给定元组属同一类的所有样本的平均值•使用最可能的值填充空缺值缺失值同济大学数学系30•分箱:–通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。•回归:–用一个函数(回归函数)拟合数据来光滑数据。•聚类:将类似的值聚集为簇。•其他:如数据归约、离散化和概念分层。噪声数据同济大学数学系31•分箱:•通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。–划分:等频、等宽–光滑:用箱均值、用箱中位数、用箱边界(去替换箱中的每个数据)噪声数据同济大学数学系分箱法光滑数据Sorteddataforprice(indollars):4,8,9,15,21,21,24,25,26,28,29,34*Partitionintoequal-frequency(equi-depth)bins:-Bin1:4,8,9,15-Bin2:21,21,24,25-Bin3:26,28,29,34*Smoothingbybinmeans:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin3:29,29,29,29*Smoothingbybinboundaries:-Bin1:4,4,4,15-Bin2:21,21,25,25-Bin3:26,26,26,34同济大学数学系•回归:用一个函数(回归函数)拟合数据来光滑数据。–线性回归–多元线性回归•聚类:将类似的值聚集为簇。检测离群点同济大学数学系回归Regressionxyy=x+1X1Y1Y1’同济大学数学系聚类ClusterAnalysis同济大学数学系数据清理作为一个过程•偏差检测–使用“元数据”–编码使用的不一致、数据表示的不一致、字段过载等–一些规则:唯一性规则、连续性规则、空值规则。–商业工具:数据清洗工具、数据审计工具•数据变换(纠正偏差)–数据迁移工具–提取/变换/载入(ETL)工具•加强交互性–数据清理工具:Potter’sWheel–开发数据变换操作规范说明语言同济大学数学系数据集成和变换•数据集成合并多个数据源中的数据,存放在一个一致的数据库(如数据仓库)中。•源数据可能包括多个数据库,数据立方体或一般文件。•数据变换将数据转换或统一成适合于挖掘的形式。同济大学数学系38•实体识别–元数据可帮助避免错误•属性冗余–相关分析•数据重复(元组冗余)•数据值冲突的检测与处理–表示、比例或编码不同数据集成同济大学数学系39•平滑:去掉数据中的噪声。技术包括分箱、回归、聚类。•聚集Aggregation:对数据进行汇总或聚集。•数据泛化(概化):使用概念分层,用高层概念替换低层或“原始”数据。•规范化:将属性数据按比例缩放,使之落入一个小的特定区间。最小-最大、Z-Score、按小数定标规范化。•属性构造(特征构造):由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。可以帮助提高准确率和对高维数据结构的理解。数据变换同济大学数学系规范化•1)最小-最大规范化:将原始数据v经线性变换,映射到区间[new_minA,new_maxA]例如:income的最大,最小值分别为9000,2000,则将它的值映射到[0,1]时,若income的值6800规范后为:(6800-2000)/(9000-2000)*(1-0)+0=0.686min'(_max_min)_minmaxminAAAAAAvvnewnewnew同济大学数学系•存在问题:•若存在离群点,可能影响规范化•若在规范化后添加新的数据,当新数据落在原数据的区间[minA,maxA]之外,将导致“越界”错误。同济大学数学系规范化…•2)z-score规范化(零均值规范化):属性A的值基于A的平均值和标准差规范化。•对离群点不敏感'AAvv同济大学数学系数据归约DataReduction•对海量数据进行复杂的数据分析和挖掘将需要很长时间,使得这种分析不现实或不可行。•数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近保持原数据的完整性。•对归约后的数据集挖掘将更有效,并产生相同(或几乎相同)的结果。同济大学数学系数据归约•数据归约策略:•(1)数据立方体聚集:对数据立方体做聚集操作•(2)属性子集选择:检测并删除不相关、弱相关或冗余的属性和维。•(3)维度归约:删除不重要的属性•(4)数值归约:–用规模较小的数据表示、替换或估计原始数据•(5)离散化和概念分层(concepthierarchy)产生–属性的原始数值用区间值或较高层的概念替换同济大学数学系数据立方体聚集•数据立方体存储多维聚集信息,提供对预计算的汇总数据进行快速访问。•如:立方体内存储季度销售额,若对年销售额感兴趣,可对数据执行聚集操作,例如sum()等。同济大学数学系同济大学数学系同济大学数学系属性子集选择•通过删除不相关或冗余的属性(或维)减小数据集。•其目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。•通过穷举搜索找出有属性的最佳子集是不现实的。通常采用压缩搜索空间的启发式算法。如贪心算法:从局部最优到全局最优。–逐步向前选择–逐步向后删除–向前选择和向后删除的结合–决策树归纳同济大学数学系维度归约•维度归约使用数据编码或变换,以便得到原数据的归约或“压缩”表示。分为无损和有损两种。•主要方法:–串压缩:无损,但只允许有限的数据操作。–小波变换(DWT):有损,适合高维数据。–主成分分析(PCA):有损,能更好地处理稀疏数据。同济大学数学系数值归约•通过选择替代的、“较小的”数据表示形式来减少数据量。•可以分为参数方法和非参数方法。–参数方法:回归(regression)和对数线性模型–非参数方法:直方图、聚类、抽样同济大学数学系抽样•用数据的小得多的随机样本(子集)不是大型数据集。•抽样方法–s个样本无放回简单随机抽样(SRSWOR)–s个样本有放回简单随机抽样(SRSWR)–聚类抽样–分层抽样同济大学数学系数据离散化和概念分层产生•数据离散化技术用少数区间标记替换连续属性的数值,从而减少和简化了原来的数据。•可以对一个属性递归地进行离散化,产生属性值的分层或多分辨率划分,称作概念分层。•概念分层(concepthierarchy)用于归约数据:用较高层的概念替换较低层的概念。同济大学数学系概念分层(-$400-$5,000)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($
本文标题:数学建模中的统计方法介绍
链接地址:https://www.777doc.com/doc-4899851 .html