您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > ETL数据抽取方案简介
ETL工具Kettle学习笔记一、简介所谓ETL,就是Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。二、安装解压,运行其中的Spoon.bat,打开kettle的图形主界面。三、基本功能的使用点击左上角的新建按钮,点击Transformation可新建一个转换任务,点击Job新建一个工作流。之后可在界面左侧导航查看job或transformation的主对象树和核心对象。在transformation的主对象中选择DB连接可新建一个数据源连接。在核心对象中打开输入,找到“表输入”,然后将它拖动至主界面形成一个输入节点。再打开输出,找到“文本文件输出”并将其拖动至主界面形成一个输出节点。然后按住shift键点击输入节点并将鼠标拖动至输出节点形成一条连接线,表示数据输入到输出的流向。四、几个简单的例子1.将数据表中的数据导出到一个文本文件中新建一个transformation。在主对象树中右击DB连接新建一个数据库连接,可看到如下界面:按界面填写相应的主机地址,数据库名,数据库连接账户密码,如果是oracle则需要填写相应的表空间名,没有可以不写。点击界面下方的Test按钮可测试连接是否成功。选择核心对象,分别将“表输入“、”文本文件输出“拖动至主界面,然后连接两个节点。双击“表输入“节点可看到如下界面:选择我们刚刚新建的数据库连接;输入我们要导出表的SQL查询语句,然后其它设置均默认即可确定。点击预览可以预览即将导出的表。回到主界面,双击文本文件输出节点,出现如下界面:在文件名后点浏览选择要导出到的文件路径和文件名(注意路径中尽量不要有中文)。其余保留默认设置即可确定。回到主界面看到如下画面:点击左上角的开始按钮即可。如果之前没有保存,会提示你保存transformation,选择路径保存即可(注意路径中不能有中文否则会提示保存失败)。如果顺利,任务执行成功:在执行结果中点击日志可查看执行日志。打开导出文本文件的路径,可看到导出的文本文件。2.将存在关联的两个数据库的两张表导出到另一个数据库的另一张表内到导出的两张表如下:1)表T_USER所属db:testdb12)表T_ORG所属db:testdb2要导入的表T_USERINFO:数据为空。所属db:testdb3新建一个transformation,在主对象树中新建三个DB连接:testdb1,testdb2,testdb3.在核心对象中选择输入,拖动2个表输入节点到主界面,分别对应T_USER和T_ORG两张表:3.创建一个Job,并加入Windows的计划任务中定期执行五、大批量数据压力测试
本文标题:ETL数据抽取方案简介
链接地址:https://www.777doc.com/doc-2872490 .html