前言
最近因为工作的需要,在使用 Python 来发送 SOAP 请求以测试 Web Service 的性能,由于 SOAP 是基于 XML 的,故免不了需要使用 python 来处理 XML 数据。在对比了几种方案后,最后选定使用 xml.etree.ElementTree
模块来实现。
这篇文章记录了使用 xml.etree.ElementTree
模块常用的几个操作,也算是总结一下,免得以后忘记了。分享出来也方法需要的朋友们参考学习,下面话不多说了,来一起看看详细的介绍吧。
概述
对比其他 Python 处理 XML 的方案,xml.etree.ElementTree
模块(下文我们以 ET 来表示)相对来说比较简单,接口也较友好。
官方文档 里面对 ET 模块进行了较为详细的描述,总的来说,ET 模块可以归纳为三个部分:ElementTree类,Element类以及一些操作 XML 的函数。
XML 可以看成是一种树状结构,ET 使用ElementTree类来表示整个 XML 文档,使用Element类来表示 XML 的一个结点。对整 XML 文档的操作一般是对ElementTree对象进行,而对 XML 结点的操作一般是对Element对象进行。
解析 XML 文件
ET 模块支持从一个 XML 文件构造ElementTree对象,例如我们的 XML 文件example.xml内容如下(下文会继续使用这个 XML 文档):
<"1.0" encoding="utf-8"?> <data> <country name="Liechtenstein"> <rank>1</rank> <year>2008</year> <gdppc>141100</gdppc> <neighbor name="Austria" direction="E"/> <neighbor name="Switzerland" direction="W"/> </country> <country name="Singapore"> <rank>4</rank> <year>2011</year> <gdppc>59900</gdppc> <neighbor name="Malaysia" direction="N"/> </country> </data>
可以使用 ET 模块的parse()
函数来从指定的 XML 文件构造一个ElementTree对象:
import xml.etree.ElementTree as ET # 获取 XML 文档对象 ElementTree tree = ET.parse('example.xml') # 获取 XML 文档对象的根结点 Element root = tree.getroot() # 打印根结点的名称 print root.tag
从 XML 文件构造好ElementTree对象后,还可以获取其结点,或者再继续对结点进行进一步的操作。
解析 XML 字符串
ET 模块的fromstring()函数提供从 XML 字符串构造一个Element对象的功能。
xml_str = ET.tostring(root) print xml_str root = ET.fromstring(xml_str) print root.tag
接着上面的代码,我们使用 ET 模块的tostring()
函数来将上面我们构造的root对象转化为字符串,然后使用fromstring()
函数重新构造一个Element对象,并赋值给root变量,这时root代表整个 XML 文档的根结点。
构造 XML
如果我们需要构造 XML 文档,可以使用 ET 模块的 Element类以及SubElement()
函数。
可以使用Element类来生成一个Element对象作为根结点,然后使用ET.SubElement()
函数生成子结点。
a = ET.Element('a') b = ET.SubElement(a, 'b') b.text = 'leehao.me' c = ET.SubElement(a, 'c') c.attrib['greeting'] = 'hello' d = ET.SubElement(a, 'd') d.text = 'www.leehao.me' xml_str = ET.tostring(a, encoding='UTF-8') print xml_str
输出:
<"hello" /><d>www.leehao.me</d></a>
如果需要输出到文件中,可以继续使用ElementTree.write()
方法来处理:
# 先构造一个 ElementTree 以便使用其 write 方法 tree = ET.ElementTree(a) tree.write('a.xml', encoding='UTF-8')
执行后,便会生成一个 XML 文件a.xml:
<"hello" /><d>www.leehao.me</d></a>
XML 结点的查找与更新
1. 查找 XML 结点
Element类提供了Element.iter()
方法来查找指定的结点。Element.iter()
会递归查找所有的子结点,以便查找到所有符合条件的结点。
# 获取 XML 文档对象 ElementTree tree = ET.parse('example.xml') # 获取 XML 文档对象的根结点 Element root = tree.getroot() # 递归查找所有的 neighbor 子结点 for neighbor in root.iter('neighbor'): print neighbor.attrib
输出:
{'direction': 'E', 'name': 'Austria'} {'direction': 'W', 'name': 'Switzerland'} {'direction': 'N', 'name': 'Malaysia'}
如果使用Element.findall()
或者Element.find()
方法,则只会从结点的直接子结点中查找,并不会递归查找。
for country in root.findall('country'): rank = country.find('rank').text name = country.get('name') print name, rank
输出:
Liechtenstein 1 Singapore 4
2. 更新结点
如果需要更新结点的文本,可以通过直接修改Element.text
来实现。如果需要更新结点的属性,可以通过直接修改Element.attrib
来实现。
对结点进行更新后,可以使用ElementTree.write()
方法将更新后的 XML 文档写入文件中。
# 获取 XML 文档对象 ElementTree tree = ET.parse('example.xml') # 获取 XML 文档对象的根结点 Element root = tree.getroot() for rank in root.iter('rank'): new_rank = int(rank.text) + 1 rank.text = str(new_rank) rank.attrib['updated'] = 'yes' tree.write('output.xml', encoding='UTF-8')
新生成的output.xml文件以下:
<"Liechtenstein"> <rank updated="yes">2</rank> <year>2008</year> <gdppc>141100</gdppc> <neighbor direction="E" name="Austria" /> <neighbor direction="W" name="Switzerland" /> </country> <country name="Singapore"> <rank updated="yes">5</rank> <year>2011</year> <gdppc>59900</gdppc> <neighbor direction="N" name="Malaysia" /> </country> </data>
对比example.xml文件,可以看到output.xml文件已更新。
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对的支持。
参考资料
- https://docs.python.org/2/library/xml.html#xml-vulnerabilities
- https://stackoverflow.com/questions/1912434/how-do-i-parse-xml-in-python
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
P70系列延期,华为新旗舰将在下月发布
3月20日消息,近期博主@数码闲聊站 透露,原定三月份发布的华为新旗舰P70系列延期发布,预计4月份上市。
而博主@定焦数码 爆料,华为的P70系列在定位上已经超过了Mate60,成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢?
根据目前爆料的消息来看,华为P70系列将推出三个版本,其中P70和P70 Pro采用了三角形的摄像头模组设计,而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智,但辨识度绝对拉满。
更新日志
- 雨林唱片《赏》新曲+精选集SACD版[ISO][2.3G]
- 罗大佑与OK男女合唱团.1995-再会吧!素兰【音乐工厂】【WAV+CUE】
- 草蜢.1993-宝贝对不起(国)【宝丽金】【WAV+CUE】
- 杨培安.2009-抒·情(EP)【擎天娱乐】【WAV+CUE】
- 周慧敏《EndlessDream》[WAV+CUE]
- 彭芳《纯色角3》2007[WAV+CUE]
- 江志丰2008-今生为你[豪记][WAV+CUE]
- 罗大佑1994《恋曲2000》音乐工厂[WAV+CUE][1G]
- 群星《一首歌一个故事》赵英俊某些作品重唱企划[FLAC分轨][1G]
- 群星《网易云英文歌曲播放量TOP100》[MP3][1G]
- 方大同.2024-梦想家TheDreamer【赋音乐】【FLAC分轨】
- 李慧珍.2007-爱死了【华谊兄弟】【WAV+CUE】
- 王大文.2019-国际太空站【环球】【FLAC分轨】
- 群星《2022超好听的十倍音质网络歌曲(163)》U盘音乐[WAV分轨][1.1G]
- 童丽《啼笑姻缘》头版限量编号24K金碟[低速原抓WAV+CUE][1.1G]