Python如何将XML转换为Markdown格式

月夜之吻 2025-12-25 00:00:00 次阅读

Python不直接支持XML转Markdown，需解析XML后按语义映射为Markdown语法：用ElementTree或lxml解析，递归处理标签（如h1→#、ul→-），注意转义、换行与嵌套规则；推荐markdownify库处理HTML-like XML。

Python本身不直接支持XML转Markdown，但可以通过解析XML结构，再按语义规则生成对应Markdown文本。核心思路是：先用xml.etree.ElementTree或lxml读取XML，遍历节点，把标题、段落、列表、链接等元素映射为Markdown语法。

基础步骤：用ElementTree解析并递归转换

适合结构较简单、自定义程度高的XML（如自定义笔记、文档片段）：

使用xml.etree.ElementTree.parse()加载XML文件或字符串
编写递归函数，根据elem.tag判断语义：如"h1"→"# "，"p"→原样保留，"ul"/"ol"→转换为无序/有序列表
对elem.text和elem.tail做基本转义（如_、*在Markdown中有特殊含义，需考虑是否转义）
遇到a标签时，提取href属性，生成[text](url)格式

处理常见HTML-like XML（如从网页抓取的片段）

若XML实际是XHTML或类HTML结构（含div、strong、em等），推荐用lxml.html配合markdownify库：

pip install lxml markdownify
用lxml.html.fromstring(xml_str)解析（自动容错，比ElementTree更健壮）
调用markdownify.markdownify(html_element)一键转换（它已内置常见标签映射规则）
可继承markdownify.MarkdownConverter来自定义标签行为，比如把section转成二级标题，或忽略某些装饰性span

注意嵌套与换行细节

Markdown对空白和换行敏感，XML中常忽略格式，需主动补足：

块级元素（如h1、p、ul）前后加空行，避免被连成一行
列表项之间不加空行，但列表前后必须有空行
内联元素（strong、code）直接包裹文本，不额外加空格（除非原文本有）
保留XML中的换行符（\n）在text中，并在输出时按需规范化（如多个连续换行压缩为一个）

小工具示例（纯标准库，无第三方依赖）

以下代码可处理最简场景（支持h1–h6、p、ul、li、a）：

（注意：仅作示意，生产环境建议用markdownify）

import xml.etree.ElementTree as ET
def xml_to_md(elem):
if elem.tag == "h1": return f"# {elem.text or ''}"
if elem.tag == "h2": return f"## {elem.text or ''}"
if elem.tag == "p":  return elem.text or ""
if elem.tag == "ul":
items = [f"- {li.text or ''}" for li in elem if li.tag == "li"]
return "\n".join(items)
if elem.tag == "a" and "href" in elem.attrib:
href = elem.attrib["href"]
text = elem.text or href
return f"{text}"
return "".join(xml_to_md(e) for e in elem) + (elem.tail or "")
使用示例
xml_str = "
标题
一段文字
条目1"
root = ET.fromstring(xml_str)
print(xml_to_md(root))