您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 邬贺铨大数据时代的发展趋势
邬贺铨:大数据时代的发展趋势2013-07-2413:49:31来源:CIO时代网摘要:中国工程院副院长、院士、国家信息化专家咨询委员会委员邬贺铨先生首先以“大数据时代的发展趋势”为主题发表了精彩的演讲。关键词:大数据信息化CIO以“从大数据中挖掘大价值”为主题的“第二届中国大数据应用论坛”于2013年7月21日在北京大学英杰交流中心阳光大厅隆重举办。本次活动由北京大学信息化与信息管理研究中心和北京大学CIO班教务办公室主办,北达软协办,CIO时代网承办。各企事业单位信息化负责人、北大CIO班学员及有关媒体代表200多人荟萃于此,对大数据的众多议题进行了热烈讨论。中国工程院副院长、院士、国家信息化专家咨询委员会委员邬贺铨先生首先以“大数据时代的发展趋势”为主题发表了精彩的演讲。邬院士的精彩观点包括:大数据必然催生大带宽;云计算将改变互联网流量和流向,大数据将驱动大量部署的对等连接,网络节点位置从信源中心向能源中心扩展;大数据呼唤智能化的处理和分析。以下为演讲实录:中国工程院副院长、院士、国家信息化专家咨询委员会委员邬贺铨尊敬的北大的各位老师、各位专家、各位CIO,很高兴来参加这次论坛。最近这几天好像有点“CIO热”,上个礼拜Gartner在北京有CIO论坛,明天在上海也有CIO论坛,大数据论坛也是到处在开。今天的标题是“大数据应用”,我知道今天后面的几位报告人会讲到大数据在教育、医疗、商业等等方面的应用,所以我这里就只讲一下大数据时代的ICT趋势,会讲到四个方面的问题:大数据浪潮的到来、大带宽发展的趋势、大网络布局的演变、大数据挖掘的挑战。第一,大数据浪潮的到来。绿色图表示每个网民人均每个月下载流量,1998年每个网民一个月只需要一兆流量,2003年就需要一百兆,2008年就是1G,到2014年每个月要10个G的下载量。右边的图是讲全世界互联网流量累计达到1EB所需要的时间,2001年需要一年,2004年需要一个月,而今年只需要一天。2012年去年全世界互联网一天的信息量大概是1EB,可以刻满1.68亿张DVD,。现在全世界新产生的数据量每年增加40%,每两年数据翻一番。2012年、2013年产生数据量总和是人类有历史以来到2011年产生数据量的总和,两年的数据量等于一万年的总和,这个数据规模为1.8ZB,假如把这个数据装在32G的IPad上,要装575亿个,把这些iPad摞起来,可以摞起两座中国的长城。2020年全球数据将达到40ZB,如果将数据装在光盘上,这些光盘总重量等于424艘尼米兹号航母。所以说,大数据时代到来了。大数据有网络数据、企事业单位数据、政府数据,网络数据自媒体数据(比如社交网络、博客、微博等),有日志数据(比如搜索引擎,大家上网等等都会留下很多足迹),还有富媒体数据(视频、音频等等),每天的数据量很大。比如淘宝每天数据量就超过50个TB;新浪微博晚上高峰的时候一秒钟就要接收100万以上的响应请求;百度每天大概处理60亿次搜索请求,几十PB;中国联通每天记录用户上网条数,一秒钟记录83万条,一个月大概是300TB;国家电网信息中心目前累计收集了2PB的数据;北京公交一卡通,每天用公交一卡通的旅客有4000万刷卡记录,而北京地铁每天乘客1000万,把这些数据每天收集起来分析数据可以用于改善北京的交通状况,优化北京的公交线路。最大的流量是视频。美国TouTube网站一分钟有72小时的视频上载,到2016年互联网上的忙时流量是720Tbps,相当于全世界有6亿人同时看不一样的高清电影。到2016年每3分钟互联网传送360万小时视频,相当于全球已经生产的全部电影。这个电影用什么量衡量呢?如果一个人要看3分钟所传送的电影,需要34年不吃饭、不睡觉才能看完。最近两个月在TouTube上载的视频量是美国三大电视台--ABC、NBC、CBS自1948年以来24/7/365连续播出的内容,可以看到视频流量非常大。大数据无所不在。图中是美国的一家医院(UPMC),一年能收500TB数据;伦敦有200个交通摄像头,每天是8TB数据;伦敦才200个,北京有八十万个摄像头,数据量要比伦敦大得多了。还有其他方面的数据量,大数据无所不在。就监控而言,很多城市的摄像头多达几十万个,一个月的数据就达到数十个PB。北京公安局规定,所有超市,只要有开放食品架的,全都要装高清摄像头,能清晰的拍摄到走在架前人的脸部,以防投毒,防用针管装艾滋病毒、传染病毒打到液体里等,那么产生的数据就更大了。飞机的汽轮机产生的数据是Twitter的七倍,例如波音787,它每一个飞行来回可产生TB级的数据,美国每个月收集360万次飞行记录;监视机队25000个引擎,每个引擎的数据一天产生588GB;空客380软件有10亿行,每30分钟产生10TB的数据;风力发电机装有测量风速、螺距、油温等多种传感器,每隔几毫秒测一次,用于检测叶片、变速箱、变频器等的磨损程度;一个具有500个风机的风场一年会产生2PB的数据。这些数据用于预防性维护,可使风机寿命延长3年即达到18年,每年每风机的成本将降低17%。根据上面监测的统计,今天所有企业的信息存储总量已达2.2ZB,未来几年将年增67%。大数据的应用很多,比如淘宝,通过采集淘宝网上成交额比较高的390个类目的商品价格来搞出淘宝的CPI,比国家统计局公布的CPI更早的预测到经济状况。为什么?国家统计局统计的CPI主要根据是刚性的物品;比如食品,经济好、经济不好,人们都要吃饭,因此差别不大。可是淘宝上都是买化妆品、电子产品、服装,经济不好就会少买,因此淘宝CPI更能反映价格走势,一般来讲比我们国家统计局公布的CPI,能提前一个月到半个月预测到走势。中央首长到了淘宝看了以后就说“你们每天把淘宝的CPI送到中南海”。最近经济情况的下行压力很大,很多中小企业贷款很难,因为他们没用担保。阿里公司根据在淘宝网上中小公司遭遇的状况,筛选出财务健康、诚信企业,不要他们担保,阿里放贷300多亿元,坏账率仅0.3%。去年公布的四大商业银行坏账率是这个数字的13倍。商业银行是有担保的,而阿里没有担保。Google把5000万美国人频繁的搜索跟美国疾控中心流感数据进行比较,一个地方发生流感肯定有很多人在网上搜索这些词汇,因此根据这些词汇出现频率可以判断这个地方出现流感,Google在2009年的甲型H1N1流感出现时,它比美国疾控中心提前几个月发布公告。Google前雇员创办了Climate公司,从美国气象局获得几十年的天气数据,并与各地的农业状况、土壤状况关联起来,尚有需求的农场主说“谁问我明天种什么能赚钱,我告诉你,如果我说错了,我的赔偿要比保险公司还要更高。”到现在为止,据说他们从来还没赔过,不像我们国家的农民只是根据简单的判断,今年猪肉贵了,明年大量养猪,明年猪肉就便宜了,然后年猪肉又贵了。所以农业上的大数据应用是很有帮助的。第二,大带宽发展趋势。大数据必然驱动大带宽,这是全世界国际互联网干线的流量状况,根据美国的预测显示,2010年比2009年全世界的数据量增长了62%,按这个推断,10年国际互联网流量要增长1000倍,美国自身的互联网流量也是10年增长1000倍。这个曲线是全世界骨干网的流量,无论亚洲金融危机还是其他危机互联网,流量都不受影响,依旧保持高速增长。首先是光纤浏览,早年的是模拟的频分复用,90年代开启了光纤复用,当时叫数字的时分,TDM,当时一对光纤传2.5GB的三万电话电路;波分复用,一对光纤不仅仅可以传一个波长,可以同时传输多个波长,叫做波分复用。一对光纤在工程上已经传送1.6TB,相当于2000万电话电路。光纤通信虽然还可以采用更多的光纤技术,做到一对光纤传输16个TB,两亿电话电路。当然随着干线容量增加,我们希望系统更灵活,所以光互联网就出来了。总之,光纤传输能力十年扩大1000倍,目前来看还有很大发展空间,而且现在光纤光缆成本很低,中国生产世界一半的光纤光缆,同时也消耗了世界一半的光纤光缆,10年前中国的翻新光纤一公里卖到两千多人民币,去年报价是53元一公里光纤,现在光纤比面条便宜,极大地支撑了宽带化发展。可以看到,95年的时候数据总容量比较小,只有2.5G到10GB,波分数量也只有8到40个。到2010年可以看到,信道单波长已经做到100G,信道容量做到15个、50个波长。到2020年单波长要做到1T,总容量还会增大。右下角的图是中国联通169的网络,可以看到它每年都在扩容、增长。随着大数据时代来临,运营商还要大量的增加光纤容量。另外,不单是干线容量增加,我们也希望用户节路带宽增加,所以新的运营商会推动“光纤到户”,实际上“光纤到户”是广义的,并不真正是’光纤到户”,而是光纤到大区、光纤到大楼。在中国光纤到了一个大楼之后剩下的路线很短了,也可以传高比特率。现在光纤传输用的是无源光网络,从局域端到用户端是一个光纤,快到用户家门口进行分支,这里面向行叫10分,下行是广播式的。这样用户的带宽能做到,现在可以上到100兆。说了光纤,除了有线,我们希望无线也是宽带的。第一代移动中国通信在90年代的时候中国就退网了,那个时候是模一的电路交换,带宽比较差,现在大家比较多用的是第二代移动通信,它是GSMCDMA,带宽当时只有几百K,3G带宽是Mbps,现在中国基本上都是增强型3G,几十M。前年上海世博会上周围搞了眼镜型的3G,也叫LTE实验,现在在全国已经有16个城市在开展实验了。最近,工信部预计今年年底可能要发4G牌照,4G是在LTE基础上有进一步的改进,高速移动时就可以支持100M,低速在家里可以不要网线1G下载(这是峰值),在中国4G牌照没有发放的时候国际上已经开始第五代移动通信标准的研究了,第五代移动通信希望能够使用户享受到在运动状态下也能享受到1G峰值速率。当然每一代移动通信都是革命的,第一代移动通信蜂窝小区靠频率不同区分用户,叫做FDMA频分多址。第二代移动通信GSM是靠时分区分用户,叫TDMA时分多址,从第二代开始,第三代移动通信有CDMA的是码分多址,现在到第四代移动通信叫OFDMA,是正交频分多址,把频率的时间的、空间的因素都利用起来,使得移动通信的峰值速率平均每年加倍,10年1000倍。提高移动通信的峰值速率,当然这里面要付出很大的代价。你们可以看到,早年GSM只有kbps,后来到100k,到3G是Mbps甚至是10M量级,现在到LTE开始是百兆量级,随着移动通信峰值速率越来越高,我们的终端能力也越来越强,来不断提升终端的宽带化的能力。当然了,要提升这个能力现在面临很多挑战,比如说当手机离基站很近的时候,它可以直接从基站获得信号,当手机回到家里,可能楼的墙壁钢筋水泥太厉害了,这个时候穿不过去了,就要加上室内中继来接力,如果你在马路上当然你很靠近天线时没问题,当远离天线时要发展终端到终端,也就是你拿着手机走在路上,你没打电话、上网,但是不知不觉当了第三者,当了别人的二传手。回到家里,最好转到WIFI上,节省带宽和频率。总体来说,未来我们需要通过多点协作、多个基站服务一个用户,通过中继、各种天线以及终端的接力以及异构的网络来支撑移动通信的宽带化。比如说这个基站是回龙观,很多人晚上会住在那,晚上基站会很忙。而白天这些人都上班了,回龙观那边用手机打电话、上网的人少了,基站忙闲不均,有潮汐效应,怎么办呢?把每个小区基带处理部分集中起来,成为一个基带池,每个蜂窝小区只剩下射频,如果某个蜂窝小区的资源富裕可以调整给另外一个小区用,当然了形成基带池的好处不仅仅实现忙闲调配,而且有利于运营商集中调控,节省能源,也有利于基站选址。现在老百姓环保意识比较强,不希望自己的楼顶放基站天线,一方面大家抱怨信号不好、希望基站加密,另一方面老百姓又抱怨这个可能会对身体有影响。但实际上,中国移动通信环保标准是全球最高的。第三,大网络布局的演变。从图上可以看到,这是数据中心,整个高度是数据中心的总量,绿色部分是数据中心使用云计算的比例。我们可以看到,到2015年一般以上的数据中心都会用到云计算,连增22%。过去没有人谈云计算,80年
本文标题:邬贺铨大数据时代的发展趋势
链接地址:https://www.777doc.com/doc-2022295 .html