您好,欢迎访问三七文档
2020/1/231ChinaAcademyofChineseMedicalSciences数据相似性度量中医药信息研究所李园白主要内容一、数据相似性度量二、数据分类2020/1/232一、数据相似性度量1、数据相似性度量基本概念和意义2、数据相似性度量比较常用方法2020/1/2331、数据相似性度量基本概念和意义相似性度量相似度是两类模式之间的相似程度,常用距离和相关系数来衡量对象之间的相似度,即为相似性度量。相似性的度量方法很多,有的用于专门领域,也有的适用于特定类型的数据,如何选择相似性的度量方法是一个相当复杂的问题。需要由领域专家确定采用哪些指标特征变量来精确刻画样本的性质,以及如何定义样本之间的相似性测度。2020/1/234意义1、图片搜索:2020/1/2352020/1/2362、文档相似性:2020/1/2372020/1/2382、文档识别2020/1/239相似期刊文献2020/1/23102、数据相似性度量比较常用方法(1)集合相似度(2)矢量相似度(3)概念相似度(4)欧式距离相似度以往中医药数据相似比较案例对应讲解2020/1/2311集合:集合是指具有某种特定性质的具体的或抽象的对象汇总成的集体,这些对象称为该集合的元素。元素1、元素2、元素3、元素4(1)集合相似度2020/1/2312集合1不同集合之间相似度比较2020/1/2313元素1、元素2、元素3、元素4元素3、元素5、元素4、元素6元素5、元素7、元素6、元素8集合1集合3集合2集合相似度计算方法常用:JACCARD相似系数DICE相似系数2020/1/2314JACCARD相似系数公式:X∩YX∪Y“∩”由所有属于集合X且属于集合Y的元素组成的集合,叫做X,Y的交集。集合1∩集合2=2(元素3、元素4)“∪”由所有属于X或属于Y的元素所组成的集合,叫做X,Y的并集集合1∪集合2=6(元素1、2\3\4\5\6)2020/1/2315元素1、元素2、元素3、元素4元素3、元素5、元素4、元素6集合1集合2集合1、集合2相似度=2/6=33.33%DICE相似系数公式:2*(X∩Y)X+Y2*24+4=50%JACCARD与DICE方法相似:2020/1/2316元素1、元素2、元素3、元素4元素3、元素5、元素4、元素6集合1集合2练习:1:中医药中集合相似度应用处方1:四物汤熟地黄;当归;白芍;川芎处方2:胶艾汤川芎;阿胶;甘草;艾叶;当归;白芍;生地黄问题:计算两个处方的JACCARD相似系数DICE相似系数2020/1/2317处方1:四物汤熟地黄;当归;白芍;川芎处方2:胶艾汤川芎;阿胶;甘草;艾叶;当归;白芍;生地黄JACCARD相似系数公式:X∩Y30.375=37.5%X∪Y8DICE相似系数公式:2*(X∩Y)60.545=54.5%X+Y112020/1/2318(1)集合相似度(2)矢量相似度(3)语义相似度(4)欧式距离相似度2020/1/2319(2)矢量相似度什么是矢量?又称向量,即有方向和大小的量。把只有大小但没有方向的量叫做数量矢量相似度?把样本中的元素处理简化为空间中的矢量进行运算,并且它以空间上的相似度表达两个样本的相似度2020/1/2320夹角余弦算法例如:A(1.2):X=1,Y=2B(4.3):X=4,Y=3求:A,B两点的相似度,公式2*OA*OB矢量相似度计算方法?21YAB0αCosαOA2+OB2-AB2∑A2*∑B2∑AB√===√2020/1/2322Cosα==A,B两点的坐标:A(1.2):X=1,Y=2;B(4.3):X=4,Y=3=1*4+2*3√12+22*√42+32=89.44%练习2:利用夹角余弦计算处方1和处方2的相似度:处方1:当归1g,川芎5g,白芍10g处方2:当归2g,川芎3g,白芍4g2020/1/2323练习2:利用夹角余弦计算处方1和处方2的相似度:处方1:当归1g,川芎5g,白芍10g处方2:当归2g,川芎3g,白芍4g计算:多了一个特征处方1:X=1Y=5Z=10处方2:X=2Y=3Z=41*2+5*3+10*4=94.34%2020/1/2324√12+52+102*√22+32+42(3)语义相似度语义相似度:基于某一语义分类体系的相似度计算。2020/1/2325实体万物物质生物动物兽鱼植物水果举例:比较鱼和水果相似度1、义原深度指义原p在整体义原层次体系中所处的层数位置Depth(鱼)=72、重合度。指两个义原p1和p2在义原层次体系中所拥有的相同父节点的路径长度,记为Spd(鱼,水果)=42020/1/2326实体万物物质生物动物兽鱼植物水果语义相似度公式2020/1/2327Spd(鱼,水果)=4Depth(鱼)=7Depth(水果)=6Sim(鱼,水果)=2*4/(7+6)=61.54实体万物物质生物动物兽鱼植物水果练习题3:计算:肝郁与风寒袭肺相似度2020/1/2328证侯脏腑以脏为中心的辨证证侯肺证候风邪犯肺风寒袭肺风痰遏肺肺失宣降......肝证候肝郁......证侯脏腑以脏为中心的辨证证侯肺证候风邪犯肺风寒袭肺风痰遏肺肺失宣降......肝证候肝郁......语义词典两者共同节点=3SIM(P1,P2)=2*SPD(P1,P2)DEPTH(P1)+DEPTH(P2)2*(3)6+5=0.5455(4)欧式距离相似度科研方法中:见“聚类分析”讲座。2020/1/2330在m维空间中两个点之间的距离。欧式距离√(X1-X2)2+(Y1-Y2)2+(Z1-Z2)2+(M1-M2)2+(N1-N2)2谢谢大家!2013-7-2
本文标题:中医药数据相似度
链接地址:https://www.777doc.com/doc-3246160 .html