您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 杨华-大数据时代技术与应用071873
杨华博士/副教授中国海洋大学信息科学与工程学院E-mail:hyang@ouc.edu.cn《纸牌屋》是“大数据”时代下的产物,其制作公司Netflix公司通过对3000万付费用户的收视习惯、剧情评论、演员喜好等数据精准分析定制内容,将全部13集内容一次全部推出而大获成功。浅蓝深蓝透明海洋•ToomuchVolume(Ihavetoomuchdata)•ToomuchVelocity(It’scomingatmetoofast)•ToomuchVariety(It’scomingatmefromtoomanyplacesintoomanyformats)数据爆炸:互联网催生大量数据“COPYRIGHTRESERVED”,“一键分享”1995年,Windows95,MB2004,Google上市,GB2014,大数据,TB,PB字节(B)、千字节(KB)、兆字节(MB)、吉字节(GB)、太字节(TB)、拍字节(PB)、艾字节(EB)、泽它字节(ZB,又称皆字节)、尧它字节(YB)表示、千亿亿亿字节(BB)封面故事:利用海量数据的最新策略研究人员怎样才能应对现代方法所产生的大量数据流?•不是随机样本,而是全体数据•不是精确性,而是混杂性•不是因果关系,而是相关关系1.AnalyticVisualizations(可视化分析)2.DataMiningAlgorithms(数据挖掘算法)3.PredictiveAnalyticCapabilities(预测性分析能力)4.SemanticEngines(语义引擎)5.DataQualityandMasterDataManagement(数据质量和数据管理)学习方式•1、监督式;•2、非监督式;•3、半监督式;•4、强化;算法类似性•1、回归算法;•2、基于实例的算法;•3、正则化方法;•4、决策树学习;•5、贝叶斯方法;•6、基于核的算法;•7、聚类算法;•8、关联规则学习;•9、人工神经网络•输入数据,被称作“训练数据”,并进行标识。•在建模时,将预测结果和实际结果进行比较,不断调整,直到预期的准确率。•应用:分类、回归•算法:逻辑回归、反向传递神经网络等数据不被标识,学习模型是为了推断出数据的内部结构。应用场景:企业数据,如关联规则学习、聚类数据部分被标识,部分不被标识。模型先学习数据的内部结构,再用于预测应用场景:图像识别,回归和分类算法:对标识数据进行建模,然后对未标识数据进行预测。数据:直接作为模型的反馈模型:必须对数据做出直接反应应用场景:动态系统和机器人控制学习方式•1、监督式;•2、非监督式;•3、半监督式;•4、强化;算法类似性•1、回归算法;•2、基于实例的算法;•3、正则化方法;•4、决策树学习;•5、贝叶斯方法;•6、基于核的算法;•7、聚类算法;•8、关联规则学习;•9、人工神经网络物理意义:试图采用对误差的衡量来描述变量之间的相关关系步骤▪确定变量▪建立预测模型▪进行相关分析▪计算预测误差▪确定预测值SIM手机的用户满意度与相关变量的线性回归分析因变量:“用户满意度”自变量:“质量”、“形象”和“价格”回归方程:用户满意度=0.008×形象+0.645×质量+0.221×价格指标显著性水平意义R20.89“质量”和“形象”解释了89%的“用户满意度”的变化程度F248.530.001回归方程的线性关系显著T(形象)0.001.000“形象”变量对回归方程几乎没有贡献T(质量)13.930.001“质量”对回归方程有很大贡献T(价格)5.000.001“价格”对回归方程有很大贡献指标显著性水平意义R0.89“质量”和“形象”解释了89%的“用户满意度”的变化程度F374.690.001回归方程的线性关系显著T(质量)15.150.001“质量”对回归方程有很大贡献T(价格)5.060.001“价格”对回归方程有很大贡献SIM手机的用户满意度与相关变量的线性回归分析因变量:“用户满意度”自变量:“质量”、“形象”和“价格”回归方程:用户满意度=0.008×形象+0.645×质量+0.221×价格EMV(建大厂)=(0.4)*($100,000)+(0.6)*(-$90,000)=-$14,000EMV(中型厂)=(0.4)*($60,000))+(0.6)*(-$10,000)=+$18,000EMV(建小厂)=(0.4)*($40,000)+(0.6)*(-$5,000)=+$13,000EMV(不建厂)=$0如果建一个大厂且市场较好就可实现$100,000的利润。如果市场不好则会导致$90,000的损失。但是,如果市场较好,建中型厂将会获得$60,000,小型厂将会获得$40,000,市场不好则建中型厂将会损失$10,000,小型厂将会损失$5,000。当然,还有一个选择就是什么也不干。最近的市场研究表明市场好的概率是0.4,也就是说市场不好的概率是0.6。根据EMV标准公司应该建一个中型厂()iixfx1()NijjjcaHx12()()()NxtxtxtAspatialcomplexdynamicalnetworkwithtime-varying(switching)topology•Consensus•Correctconsensus(Truelearning)•ControlManipulationMisinformationPOWEROFBIGDATAOFTHEDATAWisdomofcrowdsBYTHEDATAWhatuneedtochangeFORTHEDATAQualitymattersmost工商数据分析应用案例简介活跃度分析包括资本活跃度CRI(CapitalRelativeindex)和主体数量活跃度QRI(QuantityRelativeindex)。活跃度指数是衡量市场环境的体检表,也是实体经济的晴雨表,是一项重要的经济先行指标。活跃度指数与企业生存环境和市场投资环境密切相关,在市场环境转好时,投资踊跃,资本活跃度指数升高;反之,指数下降,表示投资人不愿向经济体注入资金,反映市场环境趋于恶化。案例一市场主体活跃度模型分析案例—市场主体活跃度模型活跃度指数与很多市场经济指标有相当密切的关系。CRI与财政收入呈现明显的相关关系。CRI与存款准备金率、CPI等也有明显相关关系。案例一市场主体活跃度模型案例分享—企业生命周期企业生命周期是反映某一国家或地区中市场环境优劣的重要指标,一般来讲,长寿企业对于区域市场经济秩序的稳定有一定积极作用,相对的非长寿企业对经济秩序的平稳有相应的负面影响。对不同维度中的企业分析其生命周期,可以客观反映区域细分市场的经济秩序,从而协助决策者准确把握影响区域市场经济秩序的主要因素。案例二市场主体退出路径案例分享—企业生命周期常规统计一般趋势分析生存规律挖掘基于规律的知识发现企业生命周期的分析层次基于工商登记数据分析企业生命周期,一般有两种常见的分析层次:常规统计、一般趋势分析。通过对数据的深度分析,还可以挖掘出区域企业的生存规律,并可以根据生存规律进一步总结出直观的,可用于实际监管工作的“知识”。善于发现数据背后的规律与价值案例二市场主体退出路径43Chapter#7案例分享—企业生命周期常规统计一般趋势分析案例二市场主体退出路径Chapter#7案例分享—企业生命周期生存规律挖掘基于规律的知识发现死亡高风险时间段---政府监管介入的最佳时机案例二市场主体退出路径不同产业,不同区域,不同规模市场主体存活率的研究有助于判别市场生态环境发生了哪些变化。产业生命周期模型对于政府产业扶持政策的出台也有着较强的参考意义。案例二市场主体退出路径用2000-2007年的数据预测2001-2007年成立企业在2008年末的存活数。预测2001-2007年成立企业在2008年末的存活总数为363322,实际存活个数为364927,误差为-0.44%。开业年开业数存活率预测存活个数实际存活个数误差个数误差200170,5060.419129,55028,8097412.57%200274,1110.462734,29333,5937002.08%200385,3060.510043,50842,6418672.03%200499,4850.569556,66055,4131,2472.25%200596,3560.643461,99763,941-1,944-3.04%200681,6980.749361,21563,288-2,073-3.28%200785,3530.891676,09877,242-1,144-1.48%案例二市场主体退出路径预测验证“偏好”(Preference)一词源自经济学术语,反映用户对某种物品或劳务的喜爱或不喜爱程度,这种喜爱或不喜爱与物品或劳务的价格及用户收入无关。偏好模型主要用于分析不同类型群体之间的结构差异。投资偏好等于1时,表明没有显著差异。当投资偏好1时,表明该群体有着显著的比较优势。案例三区域产业偏好分析模型案例五波士顿矩阵分析洞察产业变迁A类(优势行业)B类(支柱行业)C类(潜力行业)D类(弱势行业):案例五波士顿矩阵分析洞察产业变迁北京市2008、2009年重点行业产业迁移情况。如,2009年租赁和商务服务业优势地位近一步增强;科学研究、技术服务行业由支柱行业向优势行业转化;制造业则逐步从支柱行业向弱势行业转化。案例五智波士顿矩阵分析洞察产业变迁案例五智波士顿矩阵分析洞察产业变迁利润率%可视化案例GISofBeijingAdministrationforIndustryandCommerce地理分析系统-市场主体密度分析—使分析更加直观化根据市场主体GIS信息进行密度分析。叠加其他面数据信息,可直观看出主体的区域分布热点。密度分析:根据输入的点要素的分布,计算整个区域的数据分布情况,从而生成一个连续的表面。GISforSAICGISofBeijingAdministrationforIndustryandCommerce地理分析系统-市场主体密度分析—使分析更加直观化GISforSAICGISofBeijingAdministrationforIndustryandCommerce地理分析系统-市场主体密度分析—使分析更加直观化GISforSAICGISofBeijingAdministrationforIndustryandCommerce市场主体密度分析—叠加网格数据,点数据GISforSAICGISofBeijingAdministrationforIndustryandCommerce市场主体3D分析根据市场主体GIS信息进行3D分析。按照其属性值进行3维拉伸,直观展现主体的区域分布差异。3D分析:根据输入的点要素的分布,计算整个区域的数据分布高程情况,从而生成不同高度的3D图形。GISforSAICGISofBeijingAdministrationforIndustryandCommerce市场主体3D分析--外资2008-2010新增企业数量(区县)GISforSAICGISofBeijingAdministrationforIndustryandCommerce市场主体3D分析--外资2008-2010新增企业数量(工商所)GISforSAICGISofBeijingAdministrationforIndustryandCommerce市场主体3D分析--外资2008-2010新增企业数量(网格)GISforSAICGISofBeijingAdministrationforIndustryandCommerce市场主体3D分析外资2008-2010新增企业注册资本美国2008-2010新增企业注册资本银行业分布地形图果蔬业分布图GISforSAIC案例九族谱探寻算法分析案例—族谱图案例九族谱探寻算法分析案例—族谱图沈阳化工集团有限公司案例九族谱探寻算法Thankyou!
本文标题:杨华-大数据时代技术与应用071873
链接地址:https://www.777doc.com/doc-29606 .html