您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据-课程介绍_68400868391
12019年8月1日星期四大数据分析和内存计算第一讲:课程介绍李国良清华大学计算机系提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核2019年8月1日星期四32019年8月1日星期四大数据(BigData)时代来临移动互联网MobileInternet物联网InternetofThings新量级、新处理模式、新企业智能42019年8月1日星期四在Web2.0时代,人们从信息的被动接受者变成了主动创造者大数据举例互联网:社交网络、视频、图片、电子商务物联网:移动设备、传感器天文、地理、环境、气象、交通信息扫描书籍、历史文献、社会交互信息医疗扫描、电子病历2019年8月1日星期四大数据典型应用搜索引擎:Google、Bing、Baidu、…电子商务:淘宝、京东、Amazon、eBay…零售业:Walmart可能净利润增长水平为60%或以上政府公共服务欧洲政府部门每年3500亿美元,大约每年0.5%的增长率医疗服务美国每年3000亿美元,大约每年0.7%的增长率制造业产品开发、组装成本降低50%2019年8月1日星期四72019年8月1日星期四大数据潜力不同行业中,企业信息化成熟度差异明显政府等行业的信息化成熟度明显领先,总体处于扩展和整合优化阶段;除金融和电信之外的服务行业的信息化建设成熟度相对较低,仍处在成长阶段。对大数据的处理需求将启发对于IT系统投资新热点,证实IT推动业务发展,增加对IT投资。从IT系统走向大数据决策分析未来着眼点在于服务2000制造业金融电信政府互联网企业自动化走向初步信息化快速发展整体解决方案需求年600亿投资规模信息化走向移动互联化基本架构已经建立相对成熟500亿以上投资规模手工化向自动化转型:成熟度低成长阶段中国建筑信息化投入占总收入0.03%建筑流通移动互联化数据智能化大数据82019年8月1日星期四大数据潜力92019年8月1日星期四国外大公司的角逐雅虎提供静态的导航信息Google分析用户搜索信息,满足用户需求Facebook用户产生内容,创造需求。Google:满足用户需求,将互联网将变得越来越智能。Facebook:人际网络,创造新的需求。Google利用好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道,颠覆了微软卖软件拷贝赚钱的模式。互联网越来越智能Google精确掌握用户行为、获取需求102019年8月1日星期四国内大数据计划国内各地制定云计算“十二五”规划云计算、物联网园区中国各地制定或公布了云计算、物联网等产业规划;这些工程的初始着眼点在房地产,政绩工程居多,大数据作为核心内容端,使得政绩工程变为使用工程。云计算、物联网、社交化媒体、GIS为大数据提供了丰富的数据来源。因此大数据中包括的每个用户的身份、地点、时间、喜好、厌恶、社会关系等等大量的信息。伴随数据挖掘和分析的技术发展,我们即将步入基于大数据的智能化时代。提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核2019年8月1日星期四大数据诞生BigData专刊IT企业研究报告科学研究“第四范式”“十二五”规划美国重大研究计划DealingwithData专刊大数据计算辅助社会管理促进民生改善支持商业决策推动科技进步传染病预测海啸实时预警搜索与电子商务大数据研究意义智能交通大数据研究意义•居民消费价格指数(CPI)•CPI意义:–与民生密切相关的国家经济决策重要指标–反映通货膨胀率•目前存在问题:–“滞后、不科学”—原社科院金融发展室主任易宪容–“86%认为CPI与消费感受不符合”—中国政协网如何准确计算分析CPI大数据计算大数据定义及特点大数据是通过传统数据库技术和数据处理工具不能处理的庞大而复杂的数据集合。规模大(Volume)速度快(Velocity)类型多(Variety)价值密度低(Value)5亿用户8亿商品20亿PV/天用户评论3万条/秒5万订单/分钟提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核2019年8月1日星期四172019年8月1日星期四什么是“大数据”?海量数据(信息)非结构化数据Hadoop+Map/Reduce云计算数据(CloudData)数据密集型计算数据(DICData)182019年8月1日星期四大数据的性质(4V)Volume海量的数据规模Variety多样的数据类型ValueVelocity快速的数据流转巨大的数据价值192019年8月1日星期四大数据的性质实例——城市计算速度快(Velocity)北京出租车每分钟400万条定位数据类型多(Variety)POI、路网、轨迹、路况、评论价值密度低(Value)特殊事件(赛事、事故)用户评论(污染、堵塞)规模大(Volume)街旁网有1亿次签到数据机器&人工202019年8月1日星期四大数据——外延与应用密切相关的各类数据,强调对于支持实际应用所涉及到的多个来源且相互关联的大量、高速、异构、质量差的数据生产数据、设计数据、统计数据文本、多媒体数据、各种文档数据HeterogeneousInformationNetwork世界上的数据80%是非结构化数据80-20规则提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核2019年8月1日星期四222019年8月1日星期四与大数据相关的几个热点问题非结构化数据云计算与大数据Hadoop+HDFS+Map/ReduceNoSQL232019年8月1日星期四什么是半结构化/非结构化数据23SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog242019年8月1日星期四云计算与大数据云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化的资源的计算模式云计算是继大型主机、PC、互联网之后的IT领域的最新一次重大变革Amazon和Google是始作俑者虽然云计算和大数据是沿着不同的道路发展而来的,两者在技术和应用上相辅相成云计算提供的服务离不开它所能承载的大数据解决大数据的挑战,云计算模式是可行的方案云计算遭遇大数据是发展的必然趋势云计算与大数据云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化资源的计算模式云计算是继大型主机、PC、互联网之后的IT领域的最新一次重大变革Amazon和Google是始作俑者云计算技术、CTO、成本大数据业务、CEO、价值云计算遭遇大数据是发展的必然趋势262019年8月1日星期四Amazon云服务弹性计算云EC2简单存储服务S3简单数据库服务SimpleDB简单队列服务SQS弹性MapReduce服务内容推送服务CloudFront电子商务服务DevPay灵活支付服务FPS272019年8月1日星期四大数据技术就是Hadoop+M/R?来源于Google,在类似搜索引擎的查询并行化分析处理领域取得极大成功针对大规模数据密集型应用的编程范式(programmingparadigm)所基于的BigTable和HDFS是非常质朴的数据模型和存储系统适用领域有限,为大数据研究打开了思路,但绝不代表大数据技术全部回到起点来重新审视数据管理之目的28MapReduceMapReduce是一种编程模型,用于大规模数据集(一般大于1TB)的并行运算的实现特性用户自定义函数自动并行化容错I/O调度监听292019年8月1日星期四MapReduceDatastore1Datastorenmap(key1,values...)(key2,values...)(key3,values...)map(key1,values...)(key2,values...)(key3,values...)Inputkey*valuepairsInputkey*valuepairs==Barrier==:Aggregatesintermediatevaluesbyoutputkeyreducereducereducekey1,intermediatevalueskey2,intermediatevalueskey3,intermediatevaluesfinalkey1valuesfinalkey2valuesfinalkey3values...30Hadoop一个分布式系统和并行执行环境Hadoop这个框架实现了MapReduce,方便用户海量处理数据特点:扩容能力强成本低高效率可靠性适合场景大数据分析离线分析不适合场景少量数据复杂数据在线分析312019年8月1日星期四大数据和数据库的关系数据库界从一开始就探索过,但还是过于保守忘不掉ACID,舍不得Relation,忽视实际应用沉浸在自己的世界里空值理论(NullValue),泛关系(UniversalRelation)数据库设计的范式理论(FD,MVD,4NF,5NF,……)潜意识地奉行“一招鲜”(OneSizeFitsAll,OSFA)Hadoop+Map/Reduce+Bigtable+HDFS响亮一击回到起点来考虑数据管理问题,豁然开朗大数据是数据库的自然延伸数据库•关系代数•索引•查询优化•事务处理2019年8月1日星期四姓名学号班级年龄性别住址籍贯电话张三100计9120男北京海淀北京89150李四200计9219男北京东城北京88888王五300计9318女北京西城北京77777赵六400计9419女北京朝阳北京99999刘七500计9521男北京丰台北京88666课程名课程号地点教师DB15101李国良DB25102冯建华DM35103王建勇学号课程号分数1001992001983002972019年8月1日星期四2019年8月1日星期四事务处理•原子性(Atomicity)-不可分割•一致性(Consistency)-前后一致•隔离性(Isolation)-并发•持久性(Durability)-永久2019年8月1日星期四362019年8月1日星期四大数据的系统需求•Highperformance–高并发读写的需求高并发、实时动态获取和更新数据•HugeStorage–海量数据的高效率存储和访问的需求类似SNS网站,海量用户信息的高效率实时存储和查询•HighScalability&&HighAvailability–高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供7*24小时不间断服务37高并发读写大数据存储的核心需求高效率存储和访问高可扩展性和高可用性低成本建设运维保证一致性的开销过大,难以实现高并发存储性能受限于控制器,性能难以保证关系型表单存储难以适应不同数据类型上亿行数据的超级达标效率极低传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高许可和维护花费高昂无法简单的通过添加服务节点来扩展数据容量和负载能力,难以进行横向扩展数据库升级需要停机维护和数据迁移,导致服务中断不保证遵循ACID原则,提高并发读写性能Schema-Free存储适应不同数据类型舍弃SQL标准功能,尽量简化数据操作,提升效率MapReduce实现高效访问基于X86设备,价格低廉开源系统,节省许可费用支持水平扩展,可简单的通过添加服务节点来扩展数据容量和负载能力数据库升级不影响服务持续RDMSNoSQL2019年8月1日星期四382019年8月1日星期四大数据管理三个层次Web数据管理决策数据管理科学数据管理392019年8月1日星期四Web数据管理数据
本文标题:大数据-课程介绍_68400868391
链接地址:https://www.777doc.com/doc-25140 .html