您好,欢迎访问三七文档
ETHINK大数据分析平台目录1大数据分析概述2ETHINK大数据分析解决方案ETHINK大数据分析案例分析3由于计算能力的指数级增长和人工智能技术的不断成熟,原来遥不可及、只存在于科幻小说中的所谓“黑科技”正在成为现实。万物互联、万物智联,基于大数据的人工智能时代的到来。大数据基因检测视频识别与深度学习智能工厂基于深度学习的智能机器人支付宝大数据安全预测账户风险大数据分析概述精准营销数据的价值大数据分析的价值大数据分析面临的环境大数据无处不在,而且正呈指数的形式增长。只有极少数开发者有能力构建人工智能应用。需要一个统一的大数据分析平台,让没有任何人工智能经验的人,在10分钟以内就可以从无到有搭建1个数据应用。这将促进大数据的产业化工程,以及与行业的深度融合,形成大数据分析的基础设施资料分析机器学习统计学专业知识工程开发存储挖掘数据采集一体化平台可视化需要一个大数据分析平台需要统计学、资料分析、机器学习、工程开发等方面的专业知识需要贯穿数据采集,存储,挖掘,可视化等全流程的系统因此大数据分析平台需具备的特点易用用户不需要开发,通过鼠标拖拽连接组件,数据处理组件,标准化算法组件、可视化组件,设置参数,即可完成开发,不用写一行代码先进具备算法与模型库,涵盖统计、挖掘、特征工程、深度学习、大规模机器学习、文本,图像,语音等领域的数据技术高效支撑海量数据的处理,以及更优的性能•日前国务院印发《促进大数据发展行动纲要》,《纲要》提出未来5至10年我国大数据发展和应用应实现的目标,将惠及全民,助力经济转型。•专栏8大数据关键技术及产品研发与产业化工程通过优化整合后的国家科技计划(专项、基金等),支持符合条件的大数据关键技术研发。加强大数据基础研究。融合数理科学、计算机科学、社会科学及其他应用学科,以研究相关性和复杂网络为主,探讨建立数据科学的学科体系;研究面向大数据计算的新体系和大数据分析理论,突破大数据认知与处理的技术瓶颈;面向网络、安全、金融、生物组学、健康医疗等重点需求,探索建立数据科学驱动行业应用的模型。大数据技术产品研发。加大投入力度,加强数据存储、整理、分析处理、可视化、信息安全与隐私保护等领域技术产品的研发,突破关键环节技术瓶颈。到2020年,形成一批具有国际竞争力的大数据处理、分析、可视化软件和硬件支撑平台等产品。提升大数据技术服务能力。促进大数据与各行业应用的深度融合,形成一批代表性应用案例,以应用带动大数据技术和产品研发,形成面向各行业的成熟的大数据解决方案。国务院印发《促进大数据发展行动纲要》ETHINK大数据分析平台结构ETHINK大数据分析平台功能架构基于ETHINK大数据商业智能平台,普通业务用户可以:ü快速整合和管理各类大数据,对信息进行高级分析ü可视化所有数据,对数据进行统计、挖掘、关联分析ü为构建报表、仪表板、图文报告、可视化分析、钻取分析、数据挖掘等应用提供了整套基于html5的设计环境ETHINK大数据分析平台ETHINK核心功能1)连接(环境的认知):环境的连接,通过传感器连接万物,通过采集连接各种系统,支持结构化,非结构化,视频,语音,互联网数据的连接。2)存储(数据的存储):提供集成环境下的列式存储,支持每秒百万级实时数据存储,并行扩展,PB级数据存储。3)挖掘(技术的衔接):深度学习、统计、特征学习、大规模机器学习等人工智能算法。基于内存计算。4)可视化(人的连接):人机接口,数据价值呈现,以及平板,移动化数据呈现。促进人与环境的反馈与交融。目录1大数据分析概述2ETHINK大数据分析解决方案ETHINK大数据分析案例解析3ETHINK大数据解决方案真正一站式大数据解决方案•简化大数据分析的过程,让人人都能够快速从数据获得决策智慧。•简洁的数据集成、数据清洗、数据预处理便可实现数据分析、数据挖掘、数据可视化、数据报告等的工具。•ETHINK是一个集成性的平台,能够将您所有的数据,加载到Hadoop,Spark平台,并能够可视化您的数据,挖掘您的数据的高效平台ETHINK是业界唯一的端到端的Hadoop、Spark平台上的大数据分析基础平台。企业级大数据平台模块竞争性比较特点数据连接支持数据类型更多,数据源更丰富支持传感器数据连接,支持政府开放数据连接,支持互联网开放数据连接,支持文本、视频、语音数据连接。数据存储同时支持实时数据,大数据存储,OLAP查询业界流行开源方案的增强版,线性扩成。数据挖掘业界第一个基于大数据拖拽式的数据挖掘与人工智能开发平台具备业界最丰富的数据挖掘算法与模型。数据可视化业界可视化能力最强。业界最丰富的数据可视化呈现与交互,呈现数据的价值。ETHINK大数据分析平台——数据连接互联网开放数据阿里云数据库,阿里云盘腾讯云数据库,微云,腾讯统计,腾讯开放数据百度云数据库,百度网盘统计局数据、世界银行数据、天气数据、政府开放数据、百度统计、腾讯统计、位置信息数据、金融基金股票数据等企业私有云企业数据库数据,企业大数据平台数据,文本数据,视频数据工业物联网数据传感器实时数据电信天翼云数据库更多...连接更多数据,识别更多数据种类,采集更有价值的数据ETHINK大数据分析平台——可视化数据可视化:900多种可视化组件、创造性关联分析和探索式关联分、析全面支持平板/手机/大屏等ETHINK大数据分析平台——可视化强大丰富的组件库ETHINK广泛的组件库,包括表格,图形,图表,地图,仪表盘等各种组件,用户还可以自定义自己的业务组件,使用户能够创建简单的数据可视化仪表板或惊艳的业务信息图表和可视化。ETHINK大数据分析平台——可视化ETHINK是基于HTML5,能够跨平台、跨系统,完美支持Android/Iphone等主流的智能终端。ETHINK支持所有流行的操作系统和常用的浏览器。这样用户就可以随时随地的通过各种设备来访问。HDFS分布式文件系统HBase实时、分布式、高维数据库MapReduce分布式计算ETHINKManager监控与管理平台Zookeeper分布式协调服务Sqoop关系数据ETL工具Flume数据收集工具ETHINK大数据分析平台——数据存储特点描述丰富的数据类型支持结构化、半结构化和非结构化的数据超强的存储能力基于最新的分布式列式存储,可存储具有数十亿行和上百万列的大表,可横向无限扩展PB级以上数据高可靠同一数据存储在不同机器的分布式系统中(多副本)Hive/Impala分布式数据仓库与查询计算ETHINK大数据分析平台——数据挖掘Impala,hbase,hiveETHINK计算sqlhdfsRgraphSparkSparkStreaming拖拽式设计用户体验流畅、展示丰富可视化图表一站式开发多终端展示文本分析算法与模型视频,图像分析语音识别统计特征工程深度学习自动数据准备自动模型选择ETHINK数据挖掘,支持鼠标拖拽的编程可视化,支持数据可视化和模型可视化。通过与Spark、sparkStreaming、R等开源技术对接,已经集成Kmeans、逻辑回归、随机森林、统计分析,以及深度学习,视频文本分析等50多种算法模型。ETHINK大数据分析平台——数据挖掘深度学习计算自组织数据挖掘卷积神经网络DMLCSAE深信度网络BSNETHINK数据挖掘提供我们自由的算法模型,如自组织数据挖掘,卷积神经网络,深信度神经网络,同时也对接了开源的例如DMLC,H2O,Mahout等框架。ETHINK大数据分析平台——数据挖掘ETHINK大数据挖掘支持WEB在线可视化开发。ETHINK大数据分析平台-数据挖掘ETHINK大数据分析平台,实现了业界常用的经典算法约30类,并自创20多类独有算法。并实现了深度学习,自组织数据挖掘,特征工程等海量数据的人工智能算法。算法类别经典算法自有算法深度学习算法分类算法决策树,贝叶斯,KNN,支持向量机,梯升树自组织数据挖掘,随机森林,随机决策树,一次迭代LR神经网络,卷积神经网络,深信度网络,限制波尔兹曼机回归算法线性回归,逻辑回归,svm,保序回归自组织数据挖掘,随机森林,随机决策树,一次迭代LRKNN,CNN,BSN,SAE,CAE聚类算法Kmeans,高斯混合模型,功率迭代聚类k-均值聚类 关联规则LDA,主成分分析,Backpropagation,AutoEncoder,RBM,Convolution. 时间序列 自组织数据挖掘 文本,视频,等非结构化Kmeans,协同过滤推荐算法,图计算,PageRank,TriangleCounting,ConnectedComponents 其它线性模型、广义线性模型、方差分析Commonalities,GLM,DRF,DeepFeatures,Feed-ForwardNeuralNetwork,特征权重算法 列与列关联分析,分层抽样,假设检验,随机数据生成,密度估计,sum,mean,var,sd,min,max,range,median,IQR(四分位间距)等为统计量,sort,order,rank与排序有关,其它还有ave,fivenum,mad,quantile,stem,协方差阵及相关阵计算biplot,biplot.princomp:多元数据biplot图cancor:典则相关princomp,线性模型、广义线性模型、方差分析 R语言支持ETHINK大数据分析平台优势1——算法智能性实现自动数据准备智能算法,包含数据清洗,数据变换,数据降维,分箱等数据处理技术。能根据输入数据自动剔除数据中噪音和干扰变量,对维度中明显的不合理值进行自动处理提高数据质量,选择对目标影响权重较大的维度,对数据进行降维操作,减少模型运行的复制度,提高模型运算的速度和准确性。自动数据准备离散化缺失值填充自动降维PCAFisherBayesianKNNLDAPP中间值众数KNN相关列Kmeans决策树KNNSTL如何从繁杂的、高维的数据中进行数据特征的选择与准备?ETHINK大数据分析平台优势1——算法智能性模型参数选择及优化是决定模型效果好坏的最重要因素,自动分类模型会根据用户的输入数据,自动进行参数优化,效果评测,最优模型选择等操作,自动选择出效果最好,结果最准确,应用最合适的分类模型。模型自动选择聚类分类预测神经网络随机森林支持向量机高斯混合贝叶斯梯度提升树逻辑回归相关列Kmeans决策树KNNGMDH最优结果的模型如何自动选择最优的算法?如何设置算法的参数最优配置?ETHINK大数据分析平台优势2——高性能u千亿级记录秒级查询(即席查询)uDAG图的分布式框架u基于内存的分布式文件系统u多迭代批量计算处理u弹性分布式数据集(RDD)u多次数据共享减少数据读取的IO开销(快速加载数据)Ethink高性能计算平台HadoopStorage(HDFS2,Hbase)YARNClusterResourceManagement并行算法库内存分析库Index,filtersSQL接口JDBC/ODBC交互界面ETHINK大数据分析平台优势3——实时数据物联网传感器Kafka分布式发布订阅消息HDFSHadoop集群flume制造中控大屏实时可视化数据监测采集消息缓存和持久化,同步采集和处理数据史数据保存历Ø上万个传感器节点,每秒发送多组数据Ø每秒可处理100万个100字节数据流Ø每天超过300GB级的数据写入Ø实时通过监控对设备进行预警爬虫数据mysql持久化处理HBase实时视图Storm在线实时流处理目录1大数据分析概述2ETHINK大数据分析解决方案ETHINK大数据分析案例解析3智慧工厂物联网仓储预测故障预警人工智能智能机器应用场景生产控制应用领域能耗预测质量检测工艺优化金融教育制造业电信政府大数据分析的应用ETHINK已经在国家智能制造2025的环境下,在制造业大数据里形成了核心竞争力和应用。并在政府大数据下,实现了多行业的大数据分析。制造业大数据产品数据•设计、建模、工艺、加工、测试、维护数据、产品结构、零部件配置关系、变更记录等运营数据•业务管理、生产设备、市场营销、质量控
本文标题:大数据分析平台47
链接地址:https://www.777doc.com/doc-26139 .html