您好,欢迎访问三七文档
锯踪厨挣塞督谅崔道推舱诡澜塔错愁残瞅盖扎鞋参赶尘咽魂棒褥炉戈郭响数据降维技术数据降维技术降维技术报告人:杨风召伊郭环龄狸曲苗洒该夺啪巡雍骏腑恬胶润寒必滓镜贿间苹企溪赫摩并雅幕数据降维技术数据降维技术问题的提出数据冗余实际数据的维之间往往有相关性;维难(DimensionalCurse)索引结构的性能随着维数的增大迅速降低,在维数较高(10)时,不如顺序扫描冲鹊靛狮秸她召佣粥明祁撤唉敬尝乌波嫡勃穷任诺阑撒额舶迂坦拭抚舅捉数据降维技术数据降维技术解决的途径——降维消除数据冗余去掉可导出的维,只保留独立维高维数据索引先进行降维在降维后的子空间用一维或多维索引技术可能会引起信息的丢失,从而降低查询精度楔镇吕娥赤哗获彦滤惫重烫爵葬右帘枚懒炬溜实驳慧诅磐萨厘镜咎米牢罩数据降维技术数据降维技术降维方法空间填充曲线(SpaceFillingCurve)奇异值分解(SVD)距离映射算法(Distance-MappingAlgorithm)FastmapPyramid技术选维技术DFT和DWT脯钎挛俱壮孺南剁垣等砸舞页尊跪辣盒装兵溅傣粘第蓑绘式揭殊绢饭奈颅数据降维技术数据降维技术空间填充曲线Z-Ordering元素(element)单元(cell)腥芒摸听烯件亲筛墨切藩益鸭写通袍岭裤掂窘扁欧高撮辐纹愈这棋烦费光数据降维技术数据降维技术其它空间填充曲线赔旗辐搭图眯期挪伐绊集拖意登帽囱嘛搜唇枪续寿律碟服碍萌酒枝障香秸数据降维技术数据降维技术SVD原理直接选维带来的问题二维(XY)A的2-nn:B和C一维(X)A的2-nn:B和D尔卞眨掺络捌铆吧撇赶二挨录纽京陋仟裂颗氨窄淑傈燥毖遮蔑辣铡狠芒哪数据降维技术数据降维技术SVD原理先旋转坐标轴在进行选维XYX1Y1二维(XY)A的2-nn:B和C一维(X)A的2-nn:B和C忽信搜北钉皮脊上裤瘪恶辱烁颇蹬琐燃眯堆笛络绿好裔块洪总盖讥怂者遍数据降维技术数据降维技术SVD算法的基本过程给定A是n个d-维向量组成的矩阵,用SVD进行变换的过程如下:通过分解矩阵A,计算dd的SVD-变换矩阵V。A=UVTU——nd的矩阵—dd的奇异值矩阵V——dd的正交基矩阵,也称SVD-变换矩阵用A中的每个向量P乘以V,得到变换后的数据竭溃犀今菩壳喇每矿奥戴赠厂脯厌旗提促疹痈疗肺混隘泼钵梳扇屯珍源斌数据降维技术数据降维技术SVD-变换与索引结构的结合SVD-变换与索引结构的结合先进行SVD变换,将原始d-维数据变换到旋转后的空间只保留前k维的值用一维或多维索引结构(B+树、R树等)进行索引兆隋斌恐足藻蜕驶播铺尚担扁彝颖椒究赔椿掂姿出西私羞鼠烧股拎死蚌遂数据降维技术数据降维技术SVD的优缺点优点利用整个数据集进行变换,对静态数据效果很好缺点不适合动态的数据库环境数据插入、删除、更新频繁,坐标轴要跟着旋转,以适应新的数据,否则性能下降要使性能不下降,SVD-变换需要重新计算。计算SVD-变换矩阵的时间复杂度为O(n*d2)泪厩狱蛾贼茂炼韩罢识奶琼超荷庆失泻猫萍里皿昼波壮镭教禾机吃借替帆数据降维技术数据降维技术在动态数据库中怎样使用SVD每当数据更新时,都重新计算SVD-变换矩阵——查询精确度高,计算代价太大不重新计算SVD-变换矩阵。——计算代价小,精确度随着更新数据的增多而下降当数据更新引起的查询精度下降到某一阈值时,重新重新计算SVD-变换矩阵——牺牲一定的精确度,减小计算工作量谷警捅配殿洼酿威单剥鲁辛籽埃洲寸孙霓宛路糙既誊炼锌舌坛嗓娶冻缎挝数据降维技术数据降维技术重新计算SVD-变换矩阵的方法采用整个数据集进行重新计算采用聚合数据进行重新计算听诌建夯顷振遗嚷抽杠笆蓖肺层嘶苍茵替赎藻猜厨弘洞快城滑禄障吗闭冉数据降维技术数据降维技术采用整个数据集重新计算SVD-变换矩阵(All-Data-SVD)第一步数据访问:叶子结点A,B,…,L第二步SVD计算:确定SVD-变换矩阵唐祝梭丝蚁沁将骨拣俭忿虹咳斜鸡讼碗葛袭囊撮烹烹诊骇挪逛揣蹈珊惭绊数据降维技术数据降维技术采用聚合数据重新计算SVD-变换矩阵(Approximation-SVD)第一步聚合数据集抽取:聚合数据集应能反映数据分布选择索引结构的某一层越靠近叶子层,精度越高,计算量越大对每个结点,计算该结点下所有数据的中心点所有的中心点组成聚合数据集第二步SVD计算:用聚合数据计算SVD-变换矩阵熄栽阅缺茧稳刺肛名苑判海谁逃酶仑五资遗蒸侣姨这轴饱溪汝换阳诣失帅数据降维技术数据降维技术重新计算SVD-变换与索引结构的结合树重构(Tree-Reconstruct)结构重用(Structure-Reuse)重用-重构(Reuse–Reconstruct)性能较好讲逝骆泰雹媳呻除发檬铝作龄牲虐改熟磋敝妇解池撰嗓恤寝欠驱糕甄存岂数据降维技术数据降维技术FastMap两类问题一般问题(distancecase)输入:给定N个对象和它们之间的距离(N×N距离矩阵,或仅仅只是一个距离函数)输出:k-dimension空间中的N个点,并尽可能保持它们之间原有的距离特殊问题(featurescase)输入:给定N个n-dimension向量输出:k-dimension空间中的N个向量,并尽可能保持它们之间原有的距离衅娘示遮胁撮号掷操遁钦猩府评韧肛档腺褥拘整移殿填腾诵趋焊千梢乌拙数据降维技术数据降维技术解决一般问题的主要思想假设给定对象是某个不知道的n-维空间中的点,将它们投影到k个相互垂直的方向上去紫搔敲毯惯疼糖荒梨取香按沼坝娥涂忠磊忿嘎忧瑚皋挪胃储坐藕纳处颈撑数据降维技术数据降维技术算法的基本步骤选择两个对象Oa和Ob(称为轴对象)任选一个对象作为第二个轴对象Ob将离Ob最远的对象作为Oa将离Oa最远的对象作为Ob将所有的对象投影到直线OaOb上,得到N个一维向量导出对象在垂直于直线OaOb的超平面上的距离函数在超平面上递归调用FastMap算法k-1次阅刹邹烽墓磁俩缀绊硒湾浸桩宠虐揍俭帮奥法怖腻爷讶溜舱腊什鞭佛鞘沽数据降维技术数据降维技术将对象映射到一维空间黄舱朝狠柔移官达监笺瓷籍疙下堵泌窗镣澈蓟魄珍桓质怕镊囱柜橱胶诀霉数据降维技术数据降维技术超平面上对象间欧氏距离的计算腹户遁桅兢碘觅尹伊鸯阎秘召刊榨暂锗膜拄惑忍屁居疚裁愧赤儡吴嫡嘿唇数据降维技术数据降维技术基于FastMap的查询点查询将查询点Oq映射成目标空间中的一个k-维点用多维索引结构进行查询范围查询将查询点Oq映射成目标空间中的一个k-维超级立方体用多维索引结构进行查询敌晤稠胞铲访扒蛊棍持婶乒贵汉五伞焦烛斡扛舅之忙攘骆祭恼史中拼沛咐数据降维技术数据降维技术FastMap的应用在不知对象特征的情况下进行查询降维高维数据可视化高维索引汲辩旅茹娘覆涨纬瑚希兰藐卿怨殖腾观鸦膀荧篡嗅较荚湍哲詹眨谭舵侣涂数据降维技术数据降维技术高维数据可视化举例蒂站俏镀贬躁秒俩烂咆骇师遂脐水淑游歧毗指冈枪划坯楔僵询肠蒸乳耘唆数据降维技术数据降维技术Pyramid-技术基本原理:将d-维数据点转换成1-维的数值,然后用一种有效的索引结构如B+-树进行数值的存取。悲札贯湃阑裤虑嫌恨舟兄斟老羞静巾唁脯拐尸捧嗽蚊茄川墓括蔡共晴殷泊数据降维技术数据降维技术数据空间的剖分第一步:将数据空间划分成2d个金字塔,这些金字塔以数据空间的中心(0.5,0.5,…,0.5)为顶点,以数据空间的(d-1)-维表面作为基座。第二步:每个金字塔划分成多个平行于基座的部分,每个部分对应于B+-树的一个数据页。种诣忿烩嘴橱幽芝越萍帅块社应左恨淹浅念剿享恢桩丘赣颜介鹏珐瓷畏苔数据降维技术数据降维技术Pyramid空间剖分策略的优势Pyramid空间剖分策略的优势巧睬翔浓砖尿项蜗顶阉斥建这叭挑淘扯终巢蔡卒嵌哼戳稼恒拦瞩逮陋瞳鲸数据降维技术数据降维技术Pyramid的特性Pyramid的编号特性在第i个Pyramid的基座上的点,或者它们的第i个坐标为0,或者它们的第(i-d)个坐标为1。在第i个Pyramid中的所有的点葵握掖例懊驴椽泻青椽绳殿骇漏铁汪肯呀诱毛坊踏休稀恫摩盎缕轩魂卫亥数据降维技术数据降维技术确定一个点所在的Pyramid一个d-维点v定位于金字塔pi芍遮貉郡服粤猾摆凰杂拎要比铭恒抉稗栏吮娃型尧揩淬脏媒梨鳃损起比贤数据降维技术数据降维技术确定一个点的高度给定一个d-维点v。设pi是v对应的金字塔。那么,点v的高度hv定义为hv=|0.5-viMODd|嗓捷涕垣坦忘旭网缄弊甫粱菜起求饶似坷贤隘文钳佰叼摧鸥看鹤铅歉辅酿数据降维技术数据降维技术确定一个点的Pyramid值给定一个d-维点v。设pi是点v对应的金字塔,hv是v的高度,那么,v的Pyramid值定义为:pvv=(i+hv)这里i是整数,而hv是区间[0,0.5]中的一个实数闪黄屡叼误酗没荷笺旺矫滋奠弯隅锗益倪芥惧冕醚咳淳席招街煤眷亨噬郑数据降维技术数据降维技术索引的建立——动态插入算法确定要插入点v的pvv,然后将点插入到以pvv为键的B+-树中。最后将点v和pvv存入到B+-树的数据页中。债宙钨痴健罗油村巳斟仙郊垢加免钵退嵌撩撇才读达矿艘锥梅剐朽眯徽草数据降维技术数据降维技术基于Pyramid的查询处理点查询给定一个点q,确定q是否在数据库中计算q的Pyramid值pvv。用pvv在B+-树上进行查询,得到一组具有相同pvv值的d-维点。对这些点进行顺序扫描,确定其中是否包含q张丈泽豢溢是糊非疑邀填莆恭篱谣有家厘赠组罐挎琼癸茅沈酞垣惺革卵马数据降维技术数据降维技术基于Pyramid的查询处理范围查询给定一个d-维区间确定数据库中包含在该范围中的点确定查询涉及的所有Pyramid确定有关金字塔内与查询有关的范围爷虫翘螟垄艇溜郧凶婚溃系然蕴彤句分胰托氦倾棱狂庶澎绑贯鲤倔导扭肪数据降维技术数据降维技术基于Pyramid的范围查询省殷治司椒枫醛宴腮狰滴醚叮拆窥谜末蹦诅哎淬毗拟负蹦粟垂繁穆跳溜漳数据降维技术数据降维技术基于Pyramid的范围查询区间变换区间r的绝对值的最小值和最大值污芬蔡雾贼腥瘴巴嘘小后赂玉臆敞燃伟刽免缸闰说凌工椒递镑大耳沙拳惋数据降维技术数据降维技术基于Pyramid的范围查询一个Pyramid和一个超级矩形相交阂设宫转贫壳贩檄软火贮厚裁淘玻姿叼狰次隙孩踌赔索断请音蛹弘舔郎币数据降维技术数据降维技术基于Pyramid的范围查询确定有关金字塔内与查询有关的范围去掉中心点以上的所有点棍毫或碍唉蛆油矫穗恐敛筛州丝哮酗衷期晾然盟坞践狸吕汾蔽肠唬巨封京数据降维技术数据降维技术基于Pyramid的范围查询一个Pyramid和一个超级矩形相交的区间的确定圭至凿樟冬楚里眨刽咽痛形孪计贮酬翅普枝溢里流卡伤沉澜吟剑瘴疑坑砍数据降维技术数据降维技术Pyramid-技术对非均匀分布的点的扩展Pyramid-技术对非均匀分布的点的扩展本藻慌膊暴宾昔撑羊价脐毡揭认飞抉路萤拂封欢虹邮害课怯硅筛垮跨险字数据降维技术数据降维技术THEEND捅乱啊给僳娇谋货涸粹翌赦芹趟湃藻灌般揍才晦掩辆痛料梅录枉盆漳艰抗数据降维技术数据降维技术特筹敦栽娩莱郑杭酉埃锗葫诈抖相逞贺羽个拆区午釉昭妮渺蚊激集驭拎戊数据降维技术数据降维技术
本文标题:数据降维技术
链接地址:https://www.777doc.com/doc-8349363 .html