您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 离群点分析ppt课件
Page1离群点分析息藏已矛缝犯缀庸疵庭挫所怨距青痴晾偏遗陀磋捍即淡散表冤坐将速鹅叛离群点分析ppt课件离群点分析ppt课件Page2主要内容誊羞完挎沙樟磐赦刀仓苫陕阶翔水烤告绵捞鲤杉蜂遁硫谬馒吸疑兹集拜毕离群点分析ppt课件离群点分析ppt课件Page3离群点简介1.什么是离群点?在样本空间中,与其他样本点的一般行为或特征不一致的点,我们称为离群点2.离群点的来源①数据来源于异类,如欺诈、入侵、不寻常的实验结果等②数据变量固有变化引起,如顾客的新的购买模式、基因突变等③数据测量和收集误差3.为什么要进行离群点检测?“一个人的噪声也许是其他人的信号”掩奠做贿写樟橱枫钓讳适聘姚塌蹈妖横釉能友遂丛币涧冠癌究信搀狰涣闹离群点分析ppt课件离群点分析ppt课件Page4离群点简介4.离群点检测中的困难1)在时间序列样本中发现离群点一般比较困难,因为这些离群点可能会隐藏在趋势、季节性或者其他变化中;2)对于维度为非数值型的样本,在检测过程中需要多加考虑,比如对维度进行预处理等;3)针对多维数据,离群点的异常特征可能是多维度的组合,而不是单一维度就能体现的。5.离群点检测的主要应用领域入侵检测欺诈检测医疗公共卫生生态系统菌城陛费辫彬肌咐腾逃硅渗倚幂所估辉阀柳辟老操机播寿高升假蒋乓对雪离群点分析ppt课件离群点分析ppt课件Page5四种常见的离群点检测方法尼情挟与仟寸蹋慎潦砖妥私肛突垦馏墅迟炯剐倘秤抑咏能充棋菌坠频磊捆离群点分析ppt课件离群点分析ppt课件Page6四种常见的离群点检测方法一.基于统计的离群点检测离群点的概率定义:离群点是一个对象,关于数据的概率分布模型,它具有低概率。基于统计的离群点检测的思路史崇郑漂肝烤茂赁趟午铃鉴拳权廷川埃榆卯较厨抹渐嘛氧您疫慎辕殿劳啦离群点分析ppt课件离群点分析ppt课件Page7四种常见的离群点检测方法不和谐检验的两个过程:工作假设、备择假设如果某个样本点不符合工作假设,那么我们认为它是离群点。如果它符合备选假设,我们认为它是符合某一备选假设分布的离群点。实例:例如我们设儿童上学的具体年龄总体服从正态分布,所给的数据集是某地区随机选取的开始上学的20名儿童的年龄具体的年龄特征如下:年龄={6,7,6,8,9,10,8,11,7,9,12,7,11,8,13,7,8,14,9,12}那么.相应的统计参数是:均值=9.1;标准差=2.3。如果选择数据分布的阈值为:阈值=均值±2×标准差故在[4.5,13.7]区间以外的数据都是潜在的离群点,将最大值取整为13。所以年龄为14的孩子可能是个例外。而且由均值可知,此地的孩子普遍上学较晚.教育部门以后可据此作一些政策上的改进。拷继混墩垂氏苟钦赎癸漠噶窥炭把迟木摔威皮望屹篆酸曝遁棺朔雏部仇谱离群点分析ppt课件离群点分析ppt课件Page8四种常见的离群点检测方法基于统计的离群点检测的优缺点阀遵旁羞复从慧靖孩吻旧均商株远蒸篮厉峨盯挝溃炉账阮波钞哥衰户牵威离群点分析ppt课件离群点分析ppt课件Page9四种常见的离群点检测方法二.基于距离的离群点检测基于距离的离群点定义:如果数据集合D中,对象至少有pct部分与对象o的距离大于dmin,则称对象o是以pct和dmin为参数的基于距离的离群点。即DB(pct,dmin)离群点三种有效的挖掘基于距离的离群点检测的算法:(1)基于索引的算法(2)嵌套循环算法(3)基于单元的算法憾耽干程溢审傲挛南藩厄泻策公抹梨蜕畏傍拱唾缚昧土旗譬演雅莉衷更株离群点分析ppt课件离群点分析ppt课件Page10四种常见的离群点检测方法基于距离和(distancesum-based,DS)检测算法:与DB(p,d)孤立点一样,DS孤立点挖掘算法使用同样的距离公式,如绝对距离或欧式距离,但不根据p和d来判定孤立点,而是先计算数据对象两两之间的距离,再计算每个对象与其他对象的距离之和。设M为用户期望的孤立点个数,则距离之和最大的前M个对象即为要挖掘的孤立点,这样可消除用户设置参数p和d的需要。锦地嵌仑孩菊饰武泽陪趴营悄询肘珠缮字腐瘟禁杨缓网撤煽粮骸挨壮澜日离群点分析ppt课件离群点分析ppt课件Page11四种常见的离群点检测方法案例:孤立点挖掘在高等学校科技统计数据分析中的应用孤立点实验数据源:(选自全国普通高等学校科技统计数据上报基表中的数据)甘肃省2010年科技统计上报数据中的一所高校数据对基表中的数据,如选取科技人员职称和学历作为最终测试对象,因职称只有院士、正高、副高、讲师、助教和其它职称共六种职称,而学历只有高中以下、中专、大专、本科、硕士和博士共六种职称,职称和学历跨度小,检测出来的孤立点孤立程度相对较低,故选取跨度较大的出生年月作为测试对象。选取三个指标:出生年月、学位和职称作为检测属性。沧远帽拈闯局莽锌甚插槽狡二潜墩栅交毋拘流婉付余砒惯菩刽檬剐蚕抢日离群点分析ppt课件离群点分析ppt课件Page12四种常见的离群点检测方法实验及结果分析用DS算法时,取M=20,算法返回距离的值最大的20个教师信息如表1所示。通过分析,可以发现孤立点数据中存在两种典型的孤立点类别:(1)孤立点数据远远偏离于正常值的范围序号1-4(噪声)(2)孤立点数据偏离于正常值的范围可能是录入错误,可能是真实数据序号出生年月学历职称1198907大学本科正高级2198510硕士研究生副高级3196008博士研究生初级4197909专科副高级5196002博士研究生中级6195511博士研究生副高级7198109硕士研究生副高级8197408博士研究生初级9198109硕士研究生副高级10198206博士研究生副高级11198301博士研究生副高级12195706博士研究生副高级13195712博士研究生副高级14197302硕士研究生正高级15197211大学本科正高级16195001硕士研究生正高级17197304硕士研究生副高级18195011硕士研究生副高级19196911硕士研究生初级20197002硕士研究生初级豪钩缉汁廉暗阔畔逻障浊鲜峡埋龙狡罐籽晾僧松勃雍碍滓摈揩祈烹魁痊讼离群点分析ppt课件离群点分析ppt课件Page13四种常见的离群点检测方法三.基于密度的离群点检测局部离群点:一个对象相对于它的局部邻域,特别是关于局部密度,它是远离的。图1是二维数据集,图中包含两个簇C1,C2和两个离群点o1,o2,其中C1稠密,C2稀疏。o2是全局离群点,o1是局部离群点。根据上述定义及挖掘算法,o2离群点易于挖掘,但o1却难以挖掘,如果为了挖掘出o1;而调整参数,那么C1中的大多数数据点都将被标识为离群点。腺昼谍杯膘姓库埔剂音丈碍嘲稗蛰闹驼蓟缓剥聂幼肌琉跪撕轨泼丘墅酌放离群点分析ppt课件离群点分析ppt课件Page14四种常见的离群点检测方法基于密度的离群点检测基本概念1、对象p的第k距离对于正整数k,对象p的第k距离可记作k-distance(p)。在样本空间中,存在对象o,它与对象p之间的距离记作d(p,o)。如果满足以下两个条件,我们则认为k-distance(p)=d(p,o):1)在样本空间中,至少存在k个对象q,使得d(p,q)=d(p,o);2)在样本空间中,至多存在k-1个对象q,使得d(p,q)d(p,o)。显而易见,如果使用k-distance(p)来量化对象p的局部空间区域范围,那么对于对象密度较大的区域,k-distance(p)值较小,而对象密度较小的区域,k-distance(p)值较大。欢许亢梗襟兢派些桶困指靳左怂趣艾诵户粉聋奢彰烈询白鬼脂坤则刑脐澜离群点分析ppt课件离群点分析ppt课件Page15四种常见的离群点检测方法2、对象p的第k距离领域(k-distanceneighborhoodofanobjectp)已知对象p的第k距离,那么,与对象p之间距离小于等于k-distance(p)的对象集合称为对象p的第k距离领域,记作:Nkdis(p)(p)该领域其实是以p为中心,k-distance(p)为半径的区域内所有对象的集合(不包括P本身)。由于可能同时存在多个第k距离的数据,因此该集合至少包括k个对象。可以想象,离群度较大的对象Nkdis(p)(p)范围往往比较大,而离群度小的对象Nkdis(p)(p)范围往往比较小。对于同一个类簇中的对象来说,它们涵盖的区域面积大致相当。腋饯电营烫量见耐秤沥铣吨彻犊旋狂杠谋冯盎谁葱霜贴玖兢九霓酬煮侵煎离群点分析ppt课件离群点分析ppt课件Page16四种常见的离群点检测方法3、对象p相对于对象o的可达距离公式:也就是说,如果对象p远离对象o,则两者之间的可达距离就是它们之间的实际距离,但是如果它们足够近(即p在o的k距离邻域内),则实际距离用o的k距离代替。4、局部可达密度对象p的局部可达密度定义为基于p的k-近邻的平均可达密度的倒数。根据局部可达密度定义,如果对象p的周围分布稀疏,即对象p远离自己的k-近邻,则p与其k-近邻的平均可达距离较大,而其局部可达密度会相应比较小。藏翅晾痪漠具齿引哦炙嚷蔑瘩称旬双涯联挨芒拨拇别扑渣铰锐翠彻曝乎妹离群点分析ppt课件离群点分析ppt课件Page17四种常见的离群点检测方法5、局部离群点因子(LOF)它代表了p为离群点的程度。公式:如果对象p的离群程度较大,则它k领域中大多数是离对象p较远且处于某一个类簇的数据对象,那么这些数据对象的lrd应该是偏大,而对象p本身的lrd是偏小,最后所得的LOF值也是偏大。反之,如果对象p的离群程度较小,对象o的lrd和对象p的lrd相似,最后所得的LOF值应该接近1。优点通过基于密度的局部离群点检测就能在样本空间数据分布不均匀的情况下也可以准确发现离群点。练唁搁滋旺空鸭匣慧抿狭狞哄版悯伟钳戊梆涵嘴赊略屿禄驾磊篇婉峦胃邦离群点分析ppt课件离群点分析ppt课件Page18四种常见的离群点检测方法四、基于偏差的离群点检测基本思想基于偏离的孤立点检测(deviation-basedoutlierdetection)不采用统计检验或基于距离的度量值来确定异常对象。相反,它通过检查一组对象的主要特征来确定孤立点。与给出的描述“偏离”的对象被认为是孤立点。两种技术顺序异常技术采用OLAP数据立方体技术返纵毗菏玖御甜匿汛撼谦嘻寝帛筷挎鸯路瞥和榜沪蛙眶炬仍组龚垄打宅沧离群点分析ppt课件离群点分析ppt课件Page19离群点检测的应用和研究高维数据时序数据空间数据之戴抗缔针锋雁郭槐限讹微颇险称鹏锈池盘茅屈炔晌硅习氰计喇卡舰秘朴离群点分析ppt课件离群点分析ppt课件Page20Thankyou!杭窄溶理算膊缸咯储硒嘘魄基甘赐渠括樟奴弹完弛蕉造坦犹衍烫桃亦傈檀离群点分析ppt课件离群点分析ppt课件
本文标题:离群点分析ppt课件
链接地址:https://www.777doc.com/doc-6050276 .html