Pentaho 数据集成教程
什么是 Pentaho BI?
Pentaho 是一款商业智能工具,为客户提供广泛的商业智能解决方案。它能够进行报表制作、数据分析、数据集成、数据挖掘等。Pentaho 还提供一套全面的 BI 功能,可帮助您提高业务绩效和效率。
Pentaho 的特点
以下是 Pentaho 的重要特点
- 满足商业智能需求的 ETL 能力
- 了解 Pentaho 报表设计器
- 产品专业知识
- 提供并排子报表
- 解锁新功能
- 专业支持
- 查询与报表
- 提供增强功能
- 来自数据源的完全运行时元数据支持
Pentaho BI 套件
现在,我们将在本 Pentaho 教程中学习 Pentaho BI 套件

Pentaho BI 套件包括以下组件
Pentaho 报表
Pentaho 报表依赖于 JFreeReport 项目。它能帮助您满足业务报表需求。该组件还支持以 XLS、PDF、TXT 和 HTML 等流行格式进行计划性和按需报表发布。
分析
它提供广泛的分析功能,包括数据透视表视图。该工具提供了增强的 GUI 功能(使用 Flash 或 SVG)、集成的仪表板小部件、门户和工作流集成。
此外,Pentaho 电子表格服务允许用户在 MS Excel 中进行浏览、透视和使用图表。
仪表板
仪表板提供报表和分析功能,为 Pentaho 仪表板贡献内容。自助式仪表板设计器包含大量内置的仪表板模板和布局。它允许业务用户只需少量培训即可构建个性化仪表板。
数据挖掘
数据挖掘工具可以发现隐藏的模式和未来表现的指标。它提供了来自 Weka 项目的最全面的机器学习算法集,包括聚类、决策树、随机森林、主成分分析、神经网络等。
它允许您以图形方式查看数据、以编程方式与之交互,或使用多个数据源进行报表、进一步分析和其他流程。
Pentaho 数据集成
该组件用于集成存在于任何地方的数据。
丰富的转换库,包含超过150个开箱即用的映射对象。
它支持广泛的数据源,包括超过30个开源和专有数据库平台、平面文件。它还通过集成和管理 Hadoop 数据来帮助大数据分析。
谁在使用 Pentaho BI?
Pentaho BI 被许多软件专业人士广泛使用,例如
- 开源软件程序员
- 业务分析师和研究员
- 大学生
- 商业智能顾问
如何在 AWS 中安装 Pentaho
以下是在 AWS 中安装 Pentaho 的分步过程。
第1步) 点击“继续订阅”
访问 https://aws.amazon.com/marketplace/pp/prodview-mce2xdbgie4ro 并点击“继续”
第2步) 接受条款和条件
在下一页,接受许可协议
第3步) 点击“继续配置”
继续进行配置
第4步) 点击“继续启动”
保持默认设置,然后点击启动
第5步) 等待5分钟让实例启动
检查使用说明并等待
第6步) 获取公网 IP
复制实例的公网 IP。
第7步) 使用公网 IP 登录
粘贴实例的公网 IP 以访问 Pentaho。
Pentaho 的先决条件
- 硬件要求
- 软件要求
- 下载并安装 BI 套件
- 启动 BI 套件
- BI 套件的管理
硬件要求
只要您能满足最低软件要求,Pentaho Bl Suite 软件对计算机或网络硬件没有固定限制。安装这个商业智能工具很容易。然而,有一套推荐的系统规格
| 内存 | 最低 2GB |
| 硬盘空间 | 最低 1GB |
| 处理器 | 双核 EM64T 或 AMD64 |
软件要求
- 安装 Sun JRE 5.0
- 环境可以是 32 位或 64 位
- 支持的操作系统:Linux、Solaris、Windows、Mac
- 一个拥有现代网络浏览器界面的工作站,如 Chrome、Internet Explorer、Firefox
启动 Bl 服务器
- 在 Windows 上,从开始按钮点击启动 Bl 服务器图标。
- 在 Linux 操作系统上,在 /biserver-ce/ 目录下运行 start-pentaho 脚本
启动管理服务器
- 在 Windows 上,从开始按钮点击启动 Bl 企业服务器。
- 对于 Linux:转到命令窗口并在 /biserver-ce/administration-console/ 目录下运行启动脚本。
停止管理服务器
- 要在 Windows 中停止服务器,请点击停止 bi-server 图标。
- 在 Linux 上,您需要转到终端,进入安装目录并运行 stop.bat
Pentaho 管理控制台
报表设计器
它是一个高级报表创建工具。如果您想构建一个完整的数据驱动报表,这是一个理想的工具。该工具比 Pentaho 用户控制台的即席报表功能提供更多的灵活性和功能。
设计工作室
这是一个基于 Eclipse 的工具。它允许您手动编辑报表或分析。它广泛用于对现有报表进行无法通过报表设计器添加的修改。
聚合设计器
这个图形工具可让您提高 Mondrian 多维数据集的效率。
元数据编辑器
它用于向任何现有数据源添加自定义元数据层。
Pentaho 数据集成
Kettle 提取、转换和加载 (ETL) 工具,可实现
Pentaho 工具 vs. BI 堆栈
| Pentaho 工具 | BI 堆栈 |
|---|---|
| 数据集成 (PDI) | ETL |
| 它提供元数据编辑器 | 它提供元数据管理 |
| Pentaho BA | 分析 |
| 报表设计器 | 操作性报表 |
| Saiku | 即席报表 |
| CDE | 仪表板 |
| Pentaho 用户控制台 (PUC) | 治理/监控 |
Pentaho 的优势
现在在这个 Pentaho 数据集成教程中,我们将学习 Pentaho 商业智能工具的一些优点
- Pentaho BI 是一个非常直观的工具。掌握一些基本概念后,您就可以使用它。
- 简单易用的商业智能工具
- 提供广泛的 BI 功能,包括报表、仪表板、交互式分析、数据集成、数据挖掘等。
- 配备用户友好的界面,并提供各种工具从多个数据源检索数据
- 提供单一软件包来处理数据
- 拥有一个有很多贡献者的社区版以及企业版。
- 能够在 Hadoop 集群上运行
- 在步骤组件中编写的 JavaScript 代码可以在其他组件中重用。
Pentaho 的缺点
以下是使用 Pentaho BI 工具的缺点/弊端
- 界面设计可能较弱,并且所有组件没有统一的界面。
- 与其他 BI 工具相比,工具演进速度慢得多。
- Pentaho Business analytics 提供的组件数量有限。
- 社区支持较差。因此,如果您无法获得一个可用的组件,您需要等到下一个版本发布。
摘要
- Pentaho 是一款商业智能工具,为客户提供广泛的商业智能解决方案
- 它为商业智能需求提供 ETL 功能。
- Pentaho 套件提供报表、分析、仪表板和数据挖掘等组件
- Pentaho 商业智能被 1) 业务分析师 2) 开源软件程序员 3) 研究人员和 4) 大学生广泛使用。
- Pentaho 的安装过程包括:1) 硬件要求 2) 软件要求, 3) 下载 BI 套件, 4) 启动 BI 套件, 和 5) BI 套件的管理
- Pentaho 管理控制台的重要组件是 1) 报表设计器, 2) 设计工作室, 3) 聚合设计器 4) 元数据编辑器 5) Pentaho 数据集成
- Pentaho 是一个数据集成 (PDI) 工具,而 BI 堆栈是一个 ETL 工具。
- Pentaho 的最大优势是它是一个简单易用的商业智能工具。
- Pentaho 的主要缺点是,与其他 BI 工具相比,它的工具演进速度要慢得多







