博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
自己总结的etl数挖掘据工具-Kettle
阅读量:6007 次
发布时间:2019-06-20

本文共 1334 字,大约阅读时间需要 4 分钟。

etl工作中

Kettle软件介绍
Pentaho Data Integration (Kettle)是Pentaho生态系统中默认的ETL工具。Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
通过非常直观的图形化编辑器(Spoon),您可以定义以XML格式储存的流程。在Kettle运行过程中,这些流程会以不同的方法编译。用到的工具包括命令行工具(Pan),小型服务器(Carte),数据库存储库(repository)(Kitchen)或者直接使用IDE(Spoon)。
 
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle 将 ELT 流程编译为 XML 格式,学起来十分简单,Pentaho Data Integration (Kettle) 使用 Java (Swing)开发。Kettle 作为编译器对 XML 格式书写的流程进行编译。这些功能和组件比起 Talend 在丰富性方面稍逊一些,但是您建立复杂 ETL 流程需要的一切元素。Kettle 的 JavaScript 引擎(和 Java 引擎)可以深层地控制对数据的处理。
Kettle使用教程:
Kettle自己有三个主要组件:Spoon,Kitchen,Pan。其中Spoon是一个图形化的界面,用于windows的时候,先设置环境变量:pentaho_java_home,例如:C:\Program Files\Java\jdk1.7.0_25,其实就是你的java安装目录,1.6以上即可。windows下双击Spoon.bat就可以了.

安装Kettle

1.由于软件是由java 编写 需要 先安装jdk jdk 版本要求是1.6

2.安装完成后 要在window 下 设置环境变量
3.在administratorbian变量path 中 增加java变量 ;C:\Program Files\Java\jdk1.6.0_43\bin
4.新建 系统变量 JAVA_HOME C:\Program Files\Java\jdk1.6.0_43

  1. 系统变量path 中 ;C:\Program Files\TortoiseSVN\bin;C:\Program Files\Java\jdk1.6.0_43\bin
    6.在dos 下 输入javac 测试 环境变量
    7.如果需要连接mysql 数据库需要把mysql 数据库的安装包mysql-connector-java-5.1.18-bin放到D:\工具\kettle\data-integration\libext\JDBC
    8.使用spoon 不需要安装 双击spoon 用户名admin 密码不输入 进入软件界面
    9.进入界面后 新建作业或者转换 进行数据库连接

转载于:https://blog.51cto.com/10975663/2064477

你可能感兴趣的文章
ASP.NET Core 2 学习笔记(八)URL重写
查看>>
vs2015 cordova环境安装【个人遇到的几个问题】
查看>>
数据结构------线段树1:概述与建树
查看>>
使用path制作各类型动画路径
查看>>
Linux yum出现GPG密钥不匹配
查看>>
AssetBundle使用模式
查看>>
apache cxf
查看>>
javascript语言精髓与编程实践摘要
查看>>
Red Hat 第四季度总营收为8.79亿美元,低于预期
查看>>
Node.js 事件循环
查看>>
用CSS绘制三角形
查看>>
区块链开发公司浅析未来区块链的发展趋势
查看>>
mysql5.7密码策略及修改技巧
查看>>
KDevelop 5.3.2 发布,跨平台 IDE
查看>>
JAVA中的设计模式一(单例模式)
查看>>
WEBGL学习【十】运动模型
查看>>
《癌症·真相》读书简摘
查看>>
社交网络分析(Social Network Analysis in Python)①
查看>>
JS数据结构与算法-栈
查看>>
Spring注入内部bean
查看>>