pandas read_xml - handling nested nodes beyond level 2 — Stack Overflow

在数据科学和数据分析领域，Python 的 pandas 库一直是处理结构化数据的利器。自 pandas 1.3 版本引入 read_xml 函数以来，用户可以直接将 XML 文件读入 DataFrame，极大地简化了 XML 数据的处理流程。然而，困扰众多开发者的一大痛点在于：当 XML 结构中出现超过两层的嵌套节点时，read_xml 默认行为无法正确展开深层子元素，导致数据丢失或结构错乱。近日，社区和官方文档均提供了新的解决方案，帮助用户突破这一限制。

问题溯源：两层嵌套的默认边界

read_xml 函数默认采用 lxml 解析器，并基于 XPath 表达式的路径规则来提取数据。其核心逻辑是将 XML 树映射为表格，每个元素对应一行，子元素对应列。但内置的自动层级检测机制仅能处理最多两层的嵌套结构——即根节点下的第一层子节点作为行，第二层子节点作为列。一旦出现第三层或更深层次的嵌套（例如 <book><author><name>John</name></author></book> 中 name 属于第三层），read_xml 会忽略该深层节点，或将其合并为字符串，导致数据精度下降。

例如，以下 XML 片段：

<catalog>
  <book>
    <title>Python 101</title>
    <author>
      <name>Alice</name>
      <email>alice@example.com</email>
    </author>
  </book>
</catalog>

当使用 pd.read_xml('books.xml') 时，DataFrame 中 author 列会显示为 {'name': 'Alice', 'email': 'alice@example.com'} 的字典形式，而不是自动展开为 author_name 和 author_email 两列。这一行为在数据清洗和后续分析中造成了额外的工作量。

突破方案：XPath 精准定位与参数调优

针对深层嵌套节点，社区推荐的解决方案主要有三种：

1. 显式指定 XPath 路径

read_xml 允许通过 xpath 参数直接声明要提取的数据路径。例如，要直接提取所有 name 节点，可以写为：

df = pd.read_xml('books.xml', xpath='/catalog/book/author/name')

这种方法会直接返回所有最深层的节点内容，但会丢失兄弟节点（如 email）以及上下文信息。若需要同时提取多个深层字段，可以使用 || 分隔多个 XPath，或使用 lxml 的 etree 功能自定义解析。

2. 使用 `iterparse` 与自定义解析器

对于高度复杂的嵌套结构，最佳实践是放弃默认解析，转而使用 lxml 的 iterparse 功能结合 pd.DataFrame 手动构建。例如：

from lxml import etree
import pandas as pd

records = []
for event, elem in etree.iterparse('books.xml', tag='book'):
    book = {}
    for child in elem.iter():
        if child.text and len(child.getchildren()) == 0:  # 只取叶节点
            book[child.tag] = child.text
    records.append(book)
df = pd.DataFrame(records)

这种方法虽然代码量稍大，但能精准控制每一层的映射关系，适用于深度复杂或元素重复的 XML。

3. 利用 `json_normalize` 临时转换

由于 read_xml 将深层嵌套转换为字典对象，可以先用默认方式读取，再通过 pd.json_normalize 对嵌套列展开。例如：

df_raw = pd.read_xml('books.xml')
df_expanded = pd.json_normalize(df_raw['author']).add_prefix('author_')
df_final = pd.concat([df_raw.drop(columns='author'), df_expanded], axis=1)

这一方法利用了 pandas 自身对字典的解包能力，无需额外引入解析逻辑，适合快速数据清洗。

官方进展与新功能展望

pandas 核心团队已在 GitHub 上收到多个关于嵌套深度的 issue，并计划在后续版本中增强 read_xml 的自动递归展开能力。最新的 pandas 2.1 版本已支持 styles 参数中的 xpath 多路径提取，同时 lxml 解析器也更新了对 <include> 等引用的处理。预计未来版本将提供类似 flatten_attributes 的参数，以实现深度递归，进一步降低用户成本。

实际应用建议

对于数据分析师而言，面对超过两层的 XML 嵌套时，建议按以下优先级选择方案：

如果深层节点数量有限且结构固定，优先使用 XPath 路径提取；
如果数据量大且结构复杂，采用 iterparse 自定义解析；
如果临时性需求，可用 json_normalize 快速展开。

此外，务必注意 XML 命名空间（namespace）的影响。read_xml 默认忽略命名空间，但若 XML 中有前缀，需在 XPath 中添加 {namespace_uri} 或使用 local-name() 函数。

结语

read_xml 的深层嵌套处理能力正在逐步完善，但短期内仍需用户借助上述方法手动突破两层限制。掌握这些技巧，不仅能让数据分析工作更加高效，也能为处理异构数据源打下坚实基础。随着 pandas 生态的持续进化，XML 与 DataFrame 之间的鸿沟有望进一步缩小。对于当前阶段，理解底层解析逻辑并灵活运用现有参数，仍是每一位数据工作者必备的技能。

pandas read_xml - handling nested nodes beyond level 2