您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > pentaho工具使用手册
Pentaho工具使用手册作者:马腾,李洪宇版本:1.0目录BI介绍.............................................................................................................................................2Pentaho产品介绍............................................................................................................................3Pentaho产品线设计........................................................................................................................4PentahoBIPlatform安装.................................................................................................................4PentahoDataIntegration-------Kettle................................................................................................8PentahoReportDesigner................................................................................................................13Saiku................................................................................................................................................24SchemaWorkbench........................................................................................................................28附件................................................................................................................................................33BI介绍1.BI基础介绍BI(BusinessIntelligence)即商务智能,它是一套完整的解决方案,利用数据仓库、数据挖掘技术对客户数据进行系统地储存和管理,并通过各种数据统计分析工具对客户数据进行分析,提供各种分析报告,为企业的各种经营活动提供决策信息。其中的关键点是数据管理,数据分析,支持决策。根据要解决问题的不同,BI系统的产出一般包括以下三种:2.BI系统的产出2.1固定格式报表固定格式报表是BI最基本的一种应用,其目的是展示当前业务系统的运行状态。固定格式报表一旦建立,用户就不可以更改报表的结构,只能依据数据库的数据不断刷新报表,以便取得较新的数据。在pentaho产品线中,我们使用pentahoreportdesigner来实现固定格式报表的需求。2.2OLAP分析OLAP分析是指创建一种动态的报表展示结构,用户可以在一个IT预定义的数据集中自由选择自己感兴趣的特性和指标,运用钻取,行列转换等分析手段实现得到知识,或者验证假设的目的。在pentaho产品线中,我们使用Saiku来实现OLAP分析的需求。2.3数据挖掘数据挖掘是BI的一种高级应用。数据挖掘是指从海量数据中通过数据挖掘技术得到有用的知识,并且以通俗易懂的方式表达知识,以便支持业务决策。在pentaho产品线中,我们使用weka来实现数据挖掘的需求。Pentaho产品介绍1.产品介绍Pentaho是世界上最流行的开源商业智能软件,以工作流为核心的、强调面向解决方案而非工具组件的BI套件,整合了多个开源项目,目标是和商业BI相抗衡。它是一个基于java平台的商业智能套件,之所以说是套件是因为它包括一个webserver平台和多个工具软件:报表,分析,图表,数据集成,数据挖掘等,可以说包括了商业智能的方方面面。2.Pentaho架构图Pentaho的架构图如下,简要解释如下:3rdpartyapplications指交易系统,也就是数据仓库的原系统。Data&ApplicationIntegration主要指定义数据仓库的元数据,在数据仓库结构设计完毕后,通过ETL过程将原系统数据送入数据仓库。BusinessIntelligencePlatform指pentaho提供的BI平台,在这个平台上可以进行平台安全设置,平台管理之类的工作,这个平台也是BI服务的基础。Reporting,Analysis,Dashboards,ProcessManagement是基于BI平台上Pentaho可以实现的服务,比如报表,分析,仪表盘,服务自动控制等。PresentationLayer指展示层,在这一层,我们可以把其下层做好的报表等分析结果通过门户网站,Email等各种方式展示给用户。Pentaho产品线设计1.产品线设计Pentaho作为一个开源的BI套件,商业版与社区版加起来共有几十种产品。考虑到恒信实际业务开展的情况,以及未来可能的需求,确定产品线如下。BIFunctionProductETLKettleMetadataManagementPentahoMetadataEditor(PME)OLAPSaiku+SchemaWorkbenchReporttoolsFixedreport:PentahoreportdesignerAd-hocreport:SaikuDashboard:CDEDataMiningWekaBIplatformPentahoBIPlatformRlanguageRBigDataPentahoforBigData产品线的设计并非一成不变,随着需求的增加,当某些需求无法利用现有的产品线实现时,可以继续添加组件,以便形成更为完善的BI体系。PentahoBIPlatform安装1.安装步骤将下载下来的biserver-ce-X.X.X-stable.zip文件解压到D:\下,将会产生administration-console和biserver-ce两个文件夹,前者是pentaho控制台,后者是pentahoBI服务器。默认时,PentahoBI平台会使用内置的JRE,它位于D:\biserver-ce\jre位置。如果用户机器上安装了JDK,并设置了JAVA_HOME,则PentahoBI平台会使用用户指定的JDK。运行D:\biserver-ce下的“start-pentaho.bat”批处理脚本能够启动PentahoBI服务器,它运行在ApacheTomcat容器中,并采纳了HSQLDB数据库()。2.启动/停止BIserver现在,打开浏览器,并访问,则将看到登录界面,当joe/password用户登录后,BI服务器的主界面将呈现在眼前。如果需要停止PentahoBI服务器,则于D:\biserver-ce目录下运行“stop-pentaho.bat”批处理脚本即可。它将同时停止PentahoBI服务器和HSQLDB数据库。3.启用/停止Pentaho管理控制台于D:\administration-console目录运行如下“start-pac.bat”批处理脚本能够启动Pentaho管理控制台。默认时,它宿主在JettyWeb容器中。将浏览器定位到网址后,并输入默认的admin/password用户,即可登录到Pentaho管理控制台中。Pentaho管理控制台是整个BI平台的重要后端软件,系统管理员通过它能够完成各类操作,比如维护用户及角色信息、注册新的业务库(数据库连接)、控制BI服务器中的各种敏感信息、使用调度服务等。如果要停止Pentaho管理控制台,则于D:\administration-console目录下运行“stop-pac.bat”批处理脚本即可。4.HSQLDB迁移到MySQLDB4.1迁移原因PentahoBI服务器的很多重要信息存储在数据库中,其默认使用HSQLDB数据库,即借助它存储自身的资料库,比如Quartz调度信息、业务资料库连接信息(数据源)等。HSQLDB是不能够支撑真实的企业应用的,生产环境必须替换它,因此我们需要将HSQLDB迁移至MySQL。4.2创建MySQL数据库分别执行下面加粗的sql脚本。先后顺序不限。运行方法是多种的,可以通过MySQLWorkbench导入工具实现。我们设定导入的MySQL数据库地址为jdbc:mysql://localhost:3307,用户名root,密码root。biserver-ce\data\mysql5\create_quartz_mysql.sqlbiserver-ce\data\mysql5\create_repository_mysql.sqlbiserver-ce\data\mysql5\create_sample_datasource_mysql.sql其中1.create_repository_mysql.sql创建hibernate数据库,用于存储用户授权认证,solutionrepository以及数据源。2.create_sample_datasource.sql为sample数据添加pentaho所有基本的实例数据源。3.create_quartz_mysql.sql为Quartz计划任务器创建资源库。4.3配置Pentaho1.给pentaho添加JDBC文件下载MySQL的JDBC驱动:MySQL—mysql-connector-java-x.x.x.jar将其拷贝至biserver-ce\tomcat\lib和administration-console\jdbc下,以便BIservice和administrationconsole访问MySQL数据库。2.修改以下文件biserver-ce\pentaho-solutions\system\applicationContext-spring-security-jdbc.xmlbiserver-ce\pentaho-solutions\system\applicationContext-spring-security-hibernate.propertiesbiserver-ce\pentaho-solutions\system\hibernate\hibernate-settings.xmlbiserver-ce\pentaho-solutions\system\hibernate\mysql5.hibernate.cfg.xmlbiserver-ce\tomcat\webapps\pentaho\META-INF\context.xml以上文件主要是替换SQL驱动,SQL用户名与密码等信息。修改详情如下,红色部分代表文件名,黑体代表更改点。applicationContext-spring-securit
本文标题:pentaho工具使用手册
链接地址:https://www.777doc.com/doc-3966467 .html