如何用Pentaho Data Integration (Kettle) 读取XML

使用“Get data from XML”步骤读取XML文件最可靠,需规范XML格式、设对重复节点路径(如/orders/order),嵌套项(如items/item)需二级解析,注意编码、XPath及命名空间配置。

用 Pentaho Data Integration(Kettle)读取 XML 文件,核心是使用 “Get data from XML” 步骤,它专为解析结构化 XML 设计,比通用的 “Text file input” 更可靠、更灵活。

准备 XML 文件和了解结构

确保 XML 文件格式规范(有根节点、标签闭合、无非法字符),并提前查看其层级结构。例如:



  
    Alice
    299.99
    
      Laptop
      Mouse
    
  

注意:Kettle 默认按“重复节点”提取数据。上例中, 是重复节点,应设为循环路径; 是嵌套重复节点,需额外处理(见下文)。

配置 “Get data from XML” 步骤

在转换中添加该步骤后,关键设置包括:

  • XML source:选择“File”并指定路径(支持变量如 ${FILE_PATH}
  • Repeat node:填写相对 XPath,如 /orders/order —— 这决定每行输出对应一个
  • Fields 标签页中定义字段:
    • Field name:如 customer
    • Element XPath:相对于 repeat node 的路径,如 customer(直接子元素)或 ../@id(取父节点属性)
    • Type:选 String / Number / Date 等,匹配实际值类型
    • Format/Length/Precision:按需填写,如金额设为 Number + 2 位小数

处理多层嵌套(如 items/item)

“Get data from XML” 本身不支持跨层级展开多个重复组。若需把每个 拆成独立行,推荐组合方案:

  • 先用 “Get data from XML” 提取 级数据(含 内容作为 XML 片段字段)
  • 再接一个 “Get data from XML” 步骤,将上一步输出的 items_xml 字段作为 XML source(选 “XML from field”),repeat node 设为 items/item
  • 用 “Join Rows (Cartesian product)” 或 “Stream lookup” 关联主订单信息(需提前加唯一键,如 order_id)

常见问题与提示

避免踩坑:

  • 中文乱码?在步骤的 “Content” 标签页中,显式设置 EncodingUTF-8(即使文件声明了也建议指定)
  • 字段为空?检查 XPath 是否正确,是否用了 text()(如 customer/text()),或启用 “Ignore empty elements”
  • 性能慢?大文件建议开启 “Use memory mapping”(在 Content 页),并限制预览行数
  • 需要命名空间?在 “Content” 页勾选 “Support namespaces”,并在 XPath 中用前缀(如 ns:customer),同时在 “Namespaces” 表格里定义前缀与 URI 映射