您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 其它相关文档 > 大数据技术在水电厂生产领域的应用思考
Lookingtothefuture从IT时代转向DT时代的云应用开发平台1展望未来从IT时代转向DT时代的云应用Lookingtothefuture大数据云计算工业4.0智慧移动互联网大数据技术在水电厂生产领域的应用思考大数据技术1水电大数据应用2行业应用前景展望33大数据的理解——4V特性具有4V特性的数据称为大数据巨大的数据量Volume集中储存/集中计算,已经无法处理巨大的数据量多结构化数据Variety水电厂的生产过程数据图片、视频、文档、机组振摆的波形文件等增长速度很快Velocity水电厂设备众多,采集频度高,存储已形成海量级别需对海量数据及时有效分析价值密度低Value单条数据并无太多价值,但庞大的数据量蕴含巨大财富巨大的数据量Volume多结构化数据Variety增长速度很快Velocity价值密度低Value数据即资源:4V数据单机的存储、IO、CPU有限降本增效时效性稳定性:单点故障(准)实时级高性能计算大数据时代的挑战串行计算吞吐量有限并行计算提高吞吐量存储、快速分析Pb级数据集可扩展集群计算框架处理异常可视化分布式计算Storm、SparkMapReduce、DataFlow……分布式消息队列Dubbo、Thrift、NettyKafka、ZeroMQ……大数据可视化HTML5、eCharts、GoogleChart、D3、Tableau……分布式内存数据库Redis、Gemfire、Memcached……大数据存储Hadoop、HBaseMongogDB、Cassandra、Postgresql、Mysql……DT:大数据技术2水电大数据应用水电行业使用大数据的优势大容量存储弹性分布式架构确保存储可动态扩展副本机制,确保数据安全支持多种数据类型无模式,支持结构化和半结构化数据支持视频、图片、文档对象存储并发写入支持多节点并发写入高性能读写平均每秒插入万条记录通过索引亿级记录精确查询毫秒级返回,模糊查询1s左右返回数据应用数据分析数据处理数据存储实时采集其他系统节点数据源其他领域交换数据数据分析、数据处理关系/实时/内存数据库数据交换汇集数据服务应用服务实时监测信息发布实时计算服务决策管理智能预警故障诊断移动巡检上报采集NoSQL数据库分布式文件存储(HDFS)数据采集SqoopKafka数据接入Storm流式计算分布式并行计算(M/R)分析挖掘算法(Mahout)离线计算(M/R)机器学习算法流式计算(Storm)工业实时数据处理内存计算(Spark)9水能优化利用源网协调运行设备安全评估业务协同互动数据服务:分布式存储平台,提供PB级的多种类型的数据存储能力,OTS、STS,RDS等01计算服务:分布式计算平台,提供基于分布式存储平台之上的弹性分布式计算能力02基础服务:消息队列服务、日志服务、权限服务、JDT等03应用服务:数据服务、推送服务、分析服务等0410数据服务11保存文件至hdfs:Stringhdfs_Adrress=newString(hdfs://10.144.118.241:9000/PM/);Configurationconf=newConfiguration();StringsavePath=hdfs_Adrress+siteId+/+type+/+relPath+/+fileId+fileType;//fileName;FileSystemfs=FileSystem.get(URI.create(savePath),conf);Pathpath=newPath(savePath);FSDataOutputStreamwriter=fs.create(path);writer.write(content.getBytes(UTF-8));writer.close();fs.close();读取文件:Stringhdfs_Adrress=newString(hdfs://10.144.118.241:9000/PM/);StringphysicalPath=hdfs_Adrress+vFile.getSiteid()+/+vFile.getFtype()+/+vFile.getPath().replace('\\','/');Configurationconf=newConfiguration();FileSystemfs=FileSystem.get(URI.create(physicalPath),conf);Pathf=newPath(physicalPath);if(fs.exists(f)){FSDataInputStreamin=fs.open(f);FileStatusfStatus=fs.getFileStatus(f);byte[]buffer=newbyte[Integer.parseInt(String.valueOf(fStatus.getLen()))];in.readFully(0,buffer);in.close();fs.close();}12Hadoop难以在企业中广泛普及的原因:缺乏对象数据库连接(ODBC)——许多BI工具只能被迫构建不同的Hadoop连接器Hadoop并不适用于所有类型的应用程序:如果数据分片是相互关联的,或者需要进行跨数据分片的计算,就可能涉及连接操作,很难运行在Hadoop上。HadoopMR不适合迭代式计算的原因。1)每次迭代从HDFS中获取数据的开销(由一个分布式缓存层来分摊)。2)Hadoop中缺乏长期存活的MR作业。通常,在MR作业外必须要执行终止条件检查,以便判断计算是否完成。这意味着在Hadoop的每一次迭代中,都需要初始化新的MR作业——初始化的开销可能会超过迭代计算本身,并可能导致显著的性能问题。131.基础分析:基础的数据分析操作,比如计算均值、中值、方差,以及次序统计量和计数等。对N个点而言,操作的时间复杂度:O(N)易并行,非常适合Hadoop2.线形代数运算:线性系统、特征值问题、以及诸如线性回归、主成分分析(PCA)之类的逆问题。线性回归是Hadoop可解的(Mahout有相关的实现),而PCA却不容易实现。矩阵形式的多元统计公式在Hadoop上很难实现:核PCA以及核回归3.广义的多体问题:距离、核,或者其他类型的点或者点集合(元组)间的关联性问题。计算复杂度:O(N2)甚至O(N3)典型问题:范围搜索、近邻搜索问题、非线性降维方法多体问题简单解:K均值聚类,可在Hadoop上实现;但复杂一点的比如核PCA、核支持向量机(SVM)以及核判别分析,就不行了4.图论计算:图形式的数据、或者可以通过图来建模的问题。图数据的计算包括:中心度、距离计算、以及排序。当统计模型是一张图的时候,图的搜索就变得直观重要了。概率的计算----推理一些可以当作线性代数问题的图论计算,可以在Hadoop上解决,如上2欧几里得图问题,很难在Hadoop上实现,广义的多体问题在处理大规模的稀疏图时,会面临很多计算的挑战,将他们在集群上进行分片会很困难。145.优化:函数的最小化(凸)和最大化(凹)问题。——目标、损失、开销或者能力的函数不同途径解决:随机方法非常适合在Hadoop中实现(Mahout有1个随机梯度下降的实现);线性及二次规划问题,很难再Hadoop上实现,因为涉及大矩阵上的复杂迭代和操作,尤其是高维矩阵。有1个解决优化问题的方法,Hadoop上可解,但需要实现1个All-Reduce的结构(Agarwal等,2011),该方法不支持容错,也没办法进行泛化。由于共轭梯度下降(CGD)本质上是迭代式的,很难在Hadoop上实现。(2011BOYD斯坦福大学的StephenBoyd)结合对偶分解和增强拉格朗日的优化算法——交替方向乘子法(ADMM),有一个基于消息传递接口(MPI)的高效实现。6.积分:贝叶斯推导及随机效应模型中,函数积分的数学操作用于低维积分的正交法,可以在Hadoop上实现,但高维积分则不然。解决高维积分的一个常见方法:马尔科夫链的蒙特卡罗方法(MCMC)(Andrieu,2003),很难在Hadoop上实现。MCMC本质是迭代式的,因为马尔科夫链需要在数次迭代后收敛成平稳分布。7.比对问题:涉及数据对象或者对象集合间匹配的问题。出现在许多不同的领域——重复图片的删除、天文学中不同仪器编载目录的匹配、计算生物学中的多重序列比对,等等。简单方法,就是将比对问题作为一个线性代数问题来处理——hadoop实现其他形式很难在Hadoop实现,动态规划,隐马尔可夫模型(HMM)都不行。需要注意:动态规划,需要用到迭代/递归。目录的交叉匹配问题,可以看作泛化的多体问题。15Mahout实现的机器学习算法算法类算法名中文名分类算法LogisticRegression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法NeuralNetwork神经网络RandomForests随机森林RestrictedBoltzmannMachines有限波尔兹曼机聚类算法CanopyClusteringCanopy聚类K-meansClusteringK均值算法FuzzyK-means模糊K均值ExpectationMaximizationEM聚类(期望最大化聚类)MeanShiftClustering均值漂移聚类HierarchicalClustering层次聚类DirichletProcessClustering狄里克雷过程聚类LatentDirichletAllocationLDA聚类SpectralClustering谱聚类关联规则挖掘ParallelFPGrowthAlgorithm并行FPGrowth算法回归LocallyWeightedLinearRegression局部加权线性回归降维/维约简SingularValueDecomposition奇异值分解PrincipalComponentsAnalysis主成分分析IndependentComponentAnalysis独立成分分析GaussianDiscriminativeAnalysis高斯判别分析进化算法并行化了Watchmaker框架推荐/协同过滤Non-distributedrecommendersTaste(UserCF,ItemCF,SlopeOne)DistributedRecommendersItemCF向量相似度计算RowSimilarityJob计算列间相似度VectorDistanceJob计算向量间距离非Map-Reduce算法HiddenMarkovModels隐马尔科夫模型集合方法扩展Collections扩展了java的Collections类16Mahout用map-reduce实现了部分数据挖掘算法,解决了并行挖掘的问题。这里说的“解决”是一个初步的概念,很多算法由于各种原因是无法用map-reduce并行实现的。代第一代第二代第三代Eg数据分析系统SASRWeka原生形式的SPSSMahoutPentahoRevolutionRSAS内存分析(Hadoop)ConcurrentSystemsSparkHaLoopGraphLabPregelSAS内存分析(Greenplum/Teradata)GiraphGoldenORBStanfordGPS基于Storm的机器学习扩展性垂直扩展水平扩展(基于Hadoop)水平扩展(超越Hadoop)可用算法大量可用的算法很少:串行逻辑回归线性SVM随机梯度下降K均值聚类随机森林更广泛:CGD交替最小二乘法(ALS)协同过滤核SVM置信传播矩阵分解Gibbs采样等不可用算法无很多:核SVM、多元SVM、共轭梯度下降CGD、ALS等泛化形式的多元逻辑回归、K均值聚类等,可用算法扩充的工作仍然在进行中容错性(FT)单点故障由于大多数工具都是基于Hadoop来开发的,因此都支持容错性容错:HaLoop、Spark非容错:
本文标题:大数据技术在水电厂生产领域的应用思考
链接地址:https://www.777doc.com/doc-3406372 .html