如何用Pentaho Data Integration (Kettle) 读取XML

幻夢星雲 2026-01-04 00:00:00 次阅读

使用“Get data from XML”步骤读取XML文件最可靠，需规范XML格式、设对重复节点路径（如/orders/order），嵌套项（如items/item）需二级解析，注意编码、XPath及命名空间配置。

用 Pentaho Data Integration（Kettle）读取 XML 文件，核心是使用 “Get data from XML” 步骤，它专为解析结构化 XML 设计，比通用的 “Text file input” 更可靠、更灵活。

确保 XML 文件格式规范（有根节点、标签闭合、无非法字符），并提前查看其层级结构。例如：



  
    Alice
    299.99
    
      Laptop
      Mouse

注意：Kettle 默认按“重复节点”提取数据。上例中，是重复节点，应设为循环路径；是嵌套重复节点，需额外处理（见下文）。

在转换中添加该步骤后，关键设置包括：

XML source：选择“File”并指定路径（支持变量如 ${FILE_PATH}）
Repeat node：填写相对 XPath，如 /orders/order —— 这决定每行输出对应一个
Fields 标签页中定义字段：
- Field name：如 customer
- Element XPath：相对于 repeat node 的路径，如 customer（直接子元素）或 ../@id（取父节点属性）
- Type：选 String / Number / Date 等，匹配实际值类型
- Format/Length/Precision：按需填写，如金额设为 Number + 2 位小数

“Get data from XML” 本身不支持跨层级展开多个重复组。若需把每个拆成独立行，推荐组合方案：

先用 “Get data from XML” 提取级数据（含内容作为 XML 片段字段）
再接一个 “Get data from XML” 步骤，将上一步输出的 items_xml 字段作为 XML source（选 “XML from field”），repeat node 设为 items/item
用 “Join Rows (Cartesian product)” 或 “Stream lookup” 关联主订单信息（需提前加唯一键，如 order_id）

避免踩坑：

中文乱码？在步骤的 “Content” 标签页中，显式设置 Encoding 为 UTF-8（即使文件声明了也建议指定）
字段为空？检查 XPath 是否正确，是否用了 text()（如 customer/text()），或启用 “Ignore empty elements”
性能慢？大文件建议开启 “Use memory mapping”（在 Content 页），并限制预览行数
需要命名空间？在 “Content” 页勾选 “Support namespaces”，并在 XPath 中用前缀（如 ns:customer），同时在 “Namespaces” 表格里定义前缀与 URI 映射