xmltodict，一个有趣的 Python 库！

点击上方卡片关注我

设置星标学习更多技能

大家好，今天为大家分享一个有趣的 Python 库 - xmltodict。

Github地址：https://github.com/martinblech/xmltodict

xmltodict是一个轻量级且功能强大的Python第三方库，其设计理念是让XML数据处理变得如同操作JSON一样直观简单。该库基于高性能的Expat解析器构建，能够快速将XML文档转换为Python字典结构，也支持将字典数据逆向转换为XML格式。xmltodict最大的优势在于其简洁的API设计和出色的性能表现，特别适合处理复杂的XML数据转换任务。

安装

1、安装方法

xmltodict可以通过多种方式进行安装，最常用的方法是使用pip包管理器：

pip install xmltodict

对于Python 3环境，推荐使用：

pip3 install xmltodict

在系统级别安装可使用各操作系统的包管理器：

# Ubuntu/Debian系统
sudo apt-get install python3-xmltodict

# Fedora系统
sudo dnf install python-xmltodict

# openSUSE系统
sudo zypper in python3-xmltodict

# 使用conda安装
conda install anaconda::xmltodict

2、验证安装

安装完成后，可以通过以下命令验证xmltodict是否正确安装：

import xmltodict
print("xmltodict安装成功!")

# 快速测试基本功能
test_xml = "test"
result = xmltodict.parse(test_xml)
print(result)  # 应输出: {'root': {'item': 'test'}}

特性

JSON风格的XML处理：将XML数据转换为类似JSON的Python字典结构，操作直观简便
双向转换支持：提供parse()和unparse()方法，支持XML到字典以及字典到XML的双向转换
高性能解析器：基于Expat解析器构建，处理速度快，内存占用低
流式处理模式：支持大型XML文件的流式解析，适合处理GB级别的XML数据
属性和文本处理：智能处理XML属性和文本内容，使用@前缀标识属性，#text标识文本内容
命名空间支持：提供完整的XML命名空间处理能力，支持命名空间展开和折叠

基本功能

1、XML到字典的转换

下面的代码示例展示了xmltodict最核心的功能：将XML文档解析为Python字典。这个功能特别适用于需要处理API响应数据、配置文件或任何结构化XML内容的场景。

import xmltodict
import json

# 复杂XML示例
xml_data = """

    
        Great Gatsby
        F. Scott Fitzgerald
        10.99
    
    
        Brief History of Time
        Stephen Hawking
        15.99
    

"""

# 解析XML为字典
parsed_data = xmltodict.parse(xml_data)

# 美化输出查看结构
print(json.dumps(parsed_data, indent=2, ensure_ascii=False))

# 访问特定数据
books = parsed_data['bookstore']['book']
for book in books:
    print(f"书名: {book['title']['#text']}")
    print(f"作者: {book['author']}")
    print(f"价格: {book['price']['#text']} {book['price']['@currency']}")

2、字典到XML的转换

以下代码演示了如何将Python字典数据转换回XML格式。xmltodict的unparse方法支持美化输出，能够生成格式整齐、易于阅读的XML文档。

import xmltodict

# 构建字典数据
user_data = {
    'user': {
        '@id': '12345',
        'profile': {
            'name': '张三',
            'email': 'zhangsan@example.com',
            'preferences': {
                'language': 'zh-CN',
                'theme': 'dark',
                'notifications': {
                    '@enabled': 'true',
                    '#text': 'email'
                }
            }
        },
        'settings': {
            'privacy': 'public',
            'location': {
                '@visible': 'false',
                '#text': 'Beijing'
            }
        }
    }
}

# 转换为XML格式
xml_output = xmltodict.unparse(user_data, pretty=True)
print("生成的XML:")
print(xml_output)

# 保存到文件
with open('user_config.xml', 'w', encoding='utf-8') as f:
    f.write(xml_output)

高级功能

1、命名空间处理

xmltodict提供了强大的XML命名空间处理能力，允许开发者灵活控制命名空间的展开和折叠：

import xmltodict

# 包含命名空间的XML
namespaced_xml = """

      xmlns:books="http://books.com/"
      xmlns:authors="http://authors.com/">
    Library Catalog
    
        Python Programming
        John Doe
    

"""

# 启用命名空间处理
parsed_with_ns = xmltodict.parse(
    namespaced_xml, 
    process_namespaces=True
)

print("启用命名空间处理的结果:")
print(json.dumps(parsed_with_ns, indent=2))

# 自定义命名空间映射
namespace_map = {
    'http://defaultns.com/': None,  # 跳过默认命名空间
    'http://books.com/': 'bk',      # 简化books命名空间
    'http://authors.com/': 'auth'   # 简化authors命名空间
}

parsed_custom_ns = xmltodict.parse(
    namespaced_xml,
    process_namespaces=True,
    namespaces=namespace_map
)

print("\n自定义命名空间映射结果:")
print(json.dumps(parsed_custom_ns, indent=2))

2、流式处理大文件

对于大型XML文件，xmltodict提供了流式处理模式，能够显著降低内存使用量：

import xmltodict
from io import StringIO

def process_large_xml_stream():
    """演示流式处理大型XML文件"""
    
    # 模拟大型XML数据
    large_xml = """
    
        
            
                Laptop
                999.99
            
            
                Mouse
                29.99
            
            
                Keyboard
                79.99
            
        
    
    """
    
    # 定义回调函数处理每个产品
    def handle_product(path, item):
        """处理单个产品数据"""
        if len(path) == 2and path[1][0] == 'product':
            product_id = path[1][1]['id']
            print(f"处理产品 ID: {product_id}")
            print(f"产品名称: {item['name']}")
            print(f"产品价格: {item['price']}")
            print("-" * 30)
            
            # 返回True继续处理，返回False停止处理



    
            returnTrue
    
    # 使用流式处理模式
    xml_stream = StringIO(large_xml)
    xmltodict.parse(
        xml_stream,
        item_depth=3,  # 在第3层深度触发回调
        item_callback=handle_product
    )

# 执行流式处理演示
process_large_xml_stream()

实际应用场景

1、Web服务数据转换

在现代Web开发中，经常需要处理来自不同系统的XML数据并转换为JSON格式以便前端使用。xmltodict能够简化这个转换过程，特别适用于企业级系统集成和API数据格式转换场景。

import xmltodict
import json
from flask import Flask, request, jsonify

app = Flask(__name__)

class XMLDataProcessor:
    


    
"""XML数据处理服务"""
    
    def __init__(self):
        self.supported_formats = ['json', 'dict']
    
    def process_soap_response(self, soap_xml):
        """处理SOAP响应数据"""
        try:
            # 解析SOAP XML
            parsed_data = xmltodict.parse(soap_xml)
            
            # 提取实际业务数据
            envelope = parsed_data.get('soap:Envelope', {})
            body = envelope.get('soap:Body', {})
            
            # 移除SOAP包装，只保留业务数据
            business_data = {}
            for key, value in body.items():
                ifnot key.startswith('soap:'):
                    business_data[key] = value
            
            return {
                'success': True,
                'data': business_data,
                'original_soap': parsed_data
            }
            
        except Exception as e:
            return {
                'success': False,
                'error': str(e),
                'data': None
            }
    
    def convert_payment_notification(self, payment_xml):
        """转换支付通知XML"""
        payment_dict = xmltodict.parse(payment_xml)
        
        # 标准化支付数据格式
        standardized = {
            'transaction_id': payment_dict.get('payment', {}).get('@id'),
            'amount': float(payment_dict.get('payment', {}).get('amount', 0)),
            'currency': payment_dict.get('payment', {}).get('currency'),
            'status': payment_dict.get('payment', {}).get('status'),
            'timestamp': payment_dict.get('payment', {}).get('timestamp'),
            'merchant_data': payment_dict.get('payment', {}).get('merchant', {})
        }
        
        return standardized

@app.route('/convert/soap', methods=['POST'])



    
def convert_soap():
    """SOAP XML转换API端点"""
    xml_content = request.data.decode('utf-8')
    processor = XMLDataProcessor()
    result = processor.process_soap_response(xml_content)
    return jsonify(result)

@app.route('/convert/payment', methods=['POST'])
def convert_payment():
    """支付通知XML转换端点"""
    xml_content = request.data.decode('utf-8')
    processor = XMLDataProcessor()
    result = processor.convert_payment_notification(xml_content)
    return jsonify(result)

# 示例使用
if __name__ == '__main__':
    # 模拟SOAP响应数据
    soap_response = """
    
        
            
                
                    John Doe
                    john@example.com
                    Engineering
                
            
        
    
    """
    
    processor = XMLDataProcessor()
    result = processor.process_soap_response(soap_response)
    print("SOAP处理结果:")
    print(json.dumps(result, indent=2, ensure_ascii=False))

2、配置文件管理系统

在企业应用中，经常需要管理复杂的XML配置文件。xmltodict可以轻松实现配置文件的读取、修改和保存操作。

import xmltodict
import json



    
import os
from datetime import datetime
from typing import Dict, Any, Optional

class ConfigurationManager:
    """XML配置文件管理器"""
    
    def __init__(self, config_path: str):
        self.config_path = config_path
        self.config_data = {}
        self.backup_dir = 'config_backups'
        self._ensure_backup_dir()
    
    def _ensure_backup_dir(self):
        """确保备份目录存在"""
        ifnot os.path.exists(self.backup_dir):
            os.makedirs(self.backup_dir)
    
    def load_configuration(self) -> Dict[str, Any]:
        """加载XML配置文件"""
        try:
            with open(self.config_path, 'r', encoding='utf-8') as file:
                xml_content = file.read()
                self.config_data = xmltodict.parse(xml_content)
                return self.config_data
        except FileNotFoundError:
            print(f"配置文件未找到: {self.config_path}")
            return {}
        except Exception as e:
            print(f"配置文件加载失败: {str(e)}")
            return {}
    
    def backup_configuration(self) -> str:
        """备份当前配置"""
        timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
        backup_filename = f"config_backup_{timestamp}.xml"
        backup_path = os.path.join(self.backup_dir, backup_filename)
        
        try:
            if os.path.exists(self.config_path):
                with open(self.config_path, 'r', encoding='utf-8') as source:
                    with open(backup_path, 'w', encoding='utf-8') as backup:
                        backup.write(source.read())
                print(f"配置已备份到: {backup_path}")
                return backup_path
        except Exception as e:
            print(f"备份失败: {str(e)}")
            return


    
""
    
    def update_database_config(self, host: str, port: int, 
                             username: str, password: str, database: str):
        """更新数据库配置"""
        if'application'notin self.config_data:
            self.config_data['application'] = {}
        
        self.config_data['application']['database'] = {
            '@type': 'mysql',
            'connection': {
                'host': host,
                'port': str(port),
                'username': username,
                'password': password,
                'database': database,
                'pool': {
                    '@size': '10',
                    '@timeout': '30'
                }
            }
        }
    
    def update_logging_config(self, level: str, log_file: str, 
                            max_size: str = '100MB'):
        """更新日志配置"""
        if'application'notin self.config_data:
            self.config_data['application'] = {}
        
        self.config_data['application']['logging'] = {
            '@enabled': 'true',
            'level': level,
            'file': {
                '@path': log_file,
                '@maxSize': max_size,
                '@backup': 'true'
            },
            'format': '%(asctime)s - %(name)s - %(levelname)s - %(message)s'
        }
    
    def save_configuration(self) -> bool:
        """保存配置到文件"""
        try:
            # 先备份当前配置
            self.backup_configuration()
            
            # 生成新的XML内容
            xml_content = xmltodict.unparse(
                self.config_data, 
                pretty=True, 
                encoding='utf-8'
            )
            
            # 保存到文件
            with open(self.config_path, 'w'


    
, encoding='utf-8') as file:
                file.write(xml_content)
            
            print(f"配置已保存到: {self.config_path}")
            returnTrue
            
        except Exception as e:
            print(f"配置保存失败: {str(e)}")
            returnFalse
    
    def get_config_summary(self) -> Dict[str, Any]:
        """获取配置摘要"""
        summary = {
            'database_configured': False,
            'logging_configured': False,
            'total_sections': 0,
            'last_modified': None
        }
        
        if os.path.exists(self.config_path):
            summary['last_modified'] = datetime.fromtimestamp(
                os.path.getmtime(self.config_path)
            ).strftime('%Y-%m-%d %H:%M:%S')
        
        if self.config_data and'application'in self.config_data:
            app_config = self.config_data['application']
            summary['database_configured'] = 'database'in app_config
            summary['logging_configured'] = 'logging'in app_config
            summary['total_sections'] = len(app_config)
        
        return summary

# 使用示例
if __name__ == '__main__':
    # 创建配置管理器
    config_manager = ConfigurationManager('app_config.xml')
    
    # 加载现有配置
    config_manager.load_configuration()
    
    # 更新数据库配置
    config_manager.update_database_config(
        host='localhost',
        port=3306,
        username='app_user',
        password='secure_password',
        database='production_db'
    )
    
    # 更新日志配置
    config_manager.update_logging_config(
        level='INFO',
        log_file='/var/log/application.log',
        max_size='500MB'
    )
    
    # 保存配置
    config_manager.save_configuration()
    
    


    
# 显示配置摘要
    summary = config_manager.get_config_summary()
    print("配置摘要:")
    print(json.dumps(summary, indent=2, ensure_ascii=False))

总结

Python xmltodict库作为一个专业的XML处理工具，成功地将复杂的XML操作简化为直观的字典操作，极大地提升了Python开发者处理XML数据的效率和体验。该库基于高性能的Expat解析器构建，不仅保证了处理速度，还通过流式处理模式有效解决了大文件处理的内存问题。其双向转换能力、完整的命名空间支持和灵活的配置选项，使其在Web服务集成、配置文件管理、数据格式转换等多种应用场景中都能发挥重要作用。

如果你觉得文章还不错，请大家点赞、分享、留言下，因为这将是我持续输出更多优质文章的最强动力！

我们还为大家准备了Python资料，感兴趣的小伙伴快来找我领取一起交流学习哦！