400 8949 560

NEWS/新闻

分享你我感悟

您当前位置> 主页 > 新闻 > 技术开发

Python xml.dom.minidom库使用教程

发表时间:2026-01-09 00:00:00

文章作者:星降

浏览次数:

xml.dom.minidom 是 Python 轻量级 DOM 解析器,适合中小型 XML 文件;支持创建、解析、修改和删除节点,但存在空白符解析、无 XPath、内存占用高等限制。

xml.dom.minidom 是 Python 标准库中轻量级的 DOM 解析器,适合处理中小型 XML 文件,语法直观、上手快,但不适用于超大文件或需要高性能解析的场景。

创建和写入 XML 文档

minidom.getDOMImplementation() 创建空文档,再通过 createElementcreateTextNode 构建节点,最后用 appendChild 组织结构。

示例:生成一个简单的学生信息 XML:

from xml.dom.minidom import getDOMImplementation

impl = getDOMImplementation()
doc = impl.createDocument(None, "students", None)
root = doc.documentElement

student = doc.createElement("student")
student.setAttribute("id", "1001")

name = doc.createElement("name")
name.appendChild(doc.createTextNode("张三"))
student.appendChild(name)

age = doc.createElement("age")
age.appendChild(doc.createTextNode("20"))
student.appendChild(age)

root.appendChild(student)
print(doc.toprettyxml(indent="  "))

注意:toprettyxml() 默认会在每行末尾加换行符,若需去除空行,可传入 encoding="utf-8" 并自行处理字符串(如过滤空行),或使用第三方库如 xml.etree.ElementTree 替代。

解析已有 XML 字符串或文件

parse()(读文件)或 parseString()(读字符串)加载 XML,返回 Document 对象。

常用操作包括:

  • getElementsByTagName(tagName):获取所有匹配标签名的元素节点(返回 NodeList)
  • getAttribute(attrName):读取元素属性值
  • firstChild.datachildNodes[0].data:读取文本子节点内容(注意空格和换行也可能是 textNode)
  • hasChildNodes()nodeType == Node.ELEMENT_NODE 可用于安全遍历

建议在读取文本内容前先检查节点是否存在、是否为文本节点,避免 AttributeError。

修改和删除节点

minidom 支持动态修改文档结构:

  • appendChild()insertBefore() 添加节点
  • removeChild() 删除子节点(需持有父节点引用)
  • setAttribute() 修改或新增属性,用 removeAttribute() 删除属性
  • 修改文本内容:找到对应 Text 节点后,赋值给 nodeValue

例如更新学生年龄:

age_node = student.getElementsByTagName("age")[0]
age_node.firstChild.nodeValue = "21"

常见陷阱与注意事项

minidom 的 DOM 模型较“忠实”于 XML 规范,但也带来一些易错点:

  • 空白符(换行、缩进、空格)会被解析为 Text 节点,导致 childNodes 包含非预期节点 → 推荐用 getElementsByTagName 或遍历时判断 node.nodeType
  • 没有内置的 XPath 支持,复杂查询需手动遍历 → 如需 XPath,改用 lxml 或 xml.etree.ElementTree + xpath 扩展
  • 不支持命名空间的高级操作(如 prefix 绑定、namespaceURI 查询)→ 简单命名空间可用 getAttributeNS,但体验有限
  • 内存占用随文档大小线性增长,不适合 GB 级 XML → 此时应选 SAX 或 iterparse

不复杂但容易忽略。

相关案例查看更多