python处理xml文件（如何使用python解析超大XML文档）

其实python处理xml文件的问题并不复杂，但是又很多的朋友都不太了解如何使用python解析超大XML文档，因此呢，今天小编就来为大家分享python处理xml文件的一些知识，希望可以帮助到大家，下面我们一起来看看这个问题的分析吧！

本文目录

如何使用python解析超大XML文档
python解释xml文件遇到不合法字符，如何解决
python处理是Xml文件的，删除标签属性符合条件的！如＜data name＝“test“id＝“
python操作xml文件问题
python 怎么修改xml文件内容
如何正确的用python修改AndroidManifest.xml(史上最详细教程)
Python实现XML文件解析
python读取xml文件有哪些方法
python 如何从XML格式的文件中获取内容

如何使用python解析超大XML文档

这个任务的关键点有三处：一个是解析xml，获取node与edge的信息，python自带的xml.etree.ElementTree就可以；二是构造图的数据结构，可以用邻接链表；三是做BFS，这个是标准的图算法，在二的基础上不难实现。建议题主先试着自己做一做。加油。

python ElementTree处理gbk（或者gb2312）编码的XML文件的方法：1，py文件的编码是utf-8，即在文件最开始有如下语句声明编码方式：#-*-coding: utf-8-*-2，读取文件内容时转码为utf-8的：xml_file_text = open(xml_file_name).read().decode(’gbk’).encode(’utf-8’)这样在处理过程中均是utf-8编码的字符串

python处理是Xml文件的，删除标签属性符合条件的！如＜data name＝“test“id＝“

你可以使用 BeautifulSoup 套件:安装:pip install bs4如果觉得 html 解析器不敷使用，参考文档安装其他适合的解析器。如果想要详细了解 BeautifulSoup 也请参考官方文档(有中文版本)。测试档:以下是我使用的测试文件:# delete.txt126147# test.xml《re》《id》123《/id》《name》abc《/name》《/re》《re》《id》126《/id》《name》abc《/name》《/re》《re》《id》135《/id》《name》abc《/name》《/re》《re》《id》147《/id》《name》abc《/name》《/re》代码:from bs4 import BeautifulSoupwith open(’test.xml’) as reader:xml = reader.read()deleted_id = with open(’delete.txt’) as reader:for line in reader:line = line.strip()deleted_id.append(line)def has_delete_id(tag):return tag.name==’re’ and tag.id.string in deleted_idsoup = BeautifulSoup(xml, ’html.parser’)tags = soup(has_delete_id)for tag in tags:tag.decompose()print(soup.prettify())程式输出:《re》《id》123《/id》《name》abc《/name》《/re》《re》《id》135《/id》《name》abc《/name》《/re》代码说明:首先我们从 Beautiful Soup 的套件中汇入 BeautifulSoup 类from bs4 import BeautifulSoup接著分别从 delete.txt 和 test.xml 中读出要删除的 id 和主要的 xml 内容，下一步是实体化生成一个 BeautifulSoup对象 soup，我们采用 html.parser 解析器去解析 xml:soup = BeautifulSoup(xml, ’html.parser’)在此我们定义了一个用於过滤的 function has_delete_id，每一个在 xml 中的tag 只要是《re》 tag 且含有想要删除的《id》 tag 就会被检索出来:def has_delete_id(tag):return tag.name==’re’ and tag.id.string in deleted_id接著 soup(has_delete_id) 会帮助我们找到欲删除的 tag，接著走访搜索出来的这些 tag 并呼叫方法 decompose() 来从文件中删除该标签。最後 soup.prettify()可以帮助我们输出修改後的文件。

python操作xml文件问题

我给你个示例代码，你自己改改增加子节点那一段就好了。

#!/usr/bin/python# -*- coding=utf-8 -*-# author : wklken@yeah.net# date: 2012-05-25# version: 0.1from xml.etree.ElementTree import ElementTree,Elementdef read_xml(in_path): ’’’读取并解析xml文件 in_path: xml路径 return: ElementTree’’’ tree = ElementTree() tree.parse(in_path) return treedef write_xml(tree, out_path): ’’’将xml文件写出 tree: xml树 out_path: 写出路径’’’ tree.write(out_path, encoding="utf-8",xml_declaration=True)def if_match(node, kv_map): ’’’判断某个节点是否包含所有传入参数属性 node: 节点 kv_map: 属性及属性值组成的map’’’ for key in kv_map: if node.get(key) != kv_map.get(key): return False return True#---------------search -----def find_nodes(tree, path): ’’’查找某个路径匹配的所有节点 tree: xml树 path: 节点路径’’’ return tree.findall(path)def get_node_by_keyvalue(nodelist, kv_map): ’’’根据属性及属性值定位符合的节点，返回节点 nodelist: 节点列表 kv_map: 匹配属性及属性值map’’’ result_nodes = for node in nodelist: if if_match(node, kv_map): result_nodes.append(node) return result_nodes#---------------change -----def change_node_properties(nodelist, kv_map, is_delete=False): ’’’修改/增加 /删除节点的属性及属性值 nodelist: 节点列表 kv_map:属性及属性值map’’’ for node in nodelist: for key in kv_map: if is_delete: if key in node.attrib: del node.attrib else: node.set(key, kv_map.get(key)) def change_node_text(nodelist, text, is_add=False, is_delete=False): ’’’改变/增加/删除一个节点的文本 nodelist:节点列表 text : 更新后的文本’’’ for node in nodelist: if is_add: node.text += text elif is_delete: node.text = "" else: node.text = text def create_node(tag, property_map, content): ’’’新造一个节点 tag:节点标签 property_map:属性及属性值map content: 节点闭合标签里的文本内容 return 新节点’’’ element = Element(tag, property_map) element.text = content return element def add_child_node(nodelist, element): ’’’给一个节点添加子节点 nodelist: 节点列表 element: 子节点’’’ for node in nodelist: node.append(element) def del_node_by_tagkeyvalue(nodelist, tag, kv_map): ’’’同过属性及属性值定位一个节点，并删除之 nodelist: 父节点列表 tag:子节点标签 kv_map: 属性及属性值列表’’’ for parent_node in nodelist: children = parent_node.getchildren() for child in children: if child.tag == tag and if_match(child, kv_map): parent_node.remove(child) if __name__ == "__main__": #1. 读取xml文件 tree = read_xml("./test.xml") #2. 属性修改 #A. 找到父节点 nodes = find_nodes(tree, "processers/processer") #B. 通过属性准确定位子节点 result_nodes = get_node_by_keyvalue(nodes, {"name":"BProcesser"}) #C. 修改节点属性 change_node_properties(result_nodes, {"age": "1"}) #D. 删除节点属性 change_node_properties(result_nodes, {"value":""}, True) #3. 节点修改 #A.新建节点 a = create_node("person", {"age":"15","money":"200000"}, "this is the firest content") #B.插入到父节点之下 add_child_node(result_nodes, a) #4. 删除节点 #定位父节点 del_parent_nodes = find_nodes(tree, "processers/services/service") #准确定位子节点并删除之 target_del_node = del_node_by_tagkeyvalue(del_parent_nodes, "chain", {"sequency" : "chain1"}) #5. 修改节点文本 #定位节点 text_nodes = get_node_by_keyvalue(find_nodes(tree, "processers/services/service/chain"), {"sequency":"chain3"}) change_node_text(text_nodes, "new text") #6. 输出到结果文件 write_xml(tree, "./out.xml")

python 怎么修改xml文件内容

使用python自带的ElementTree模块，给你个例子你就知道了 xml文档《?xml version="1.0" encoding="utf-8"?》《config》《id》0《/id》《log_path》E:/Python《/log_path》《/config》Python 代码，修改id节的内容from xml.etree import ElementTreexml_file=’config.xml’xml=ElementTree.ElementTree(file=xml_file).getroot()xml.find(’id’).text=1

如何正确的用python修改AndroidManifest.xml(史上最详细教程)

AndroidManifest.xml这个文件如果你搞过android相关的东西(如果没搞过,我希望你去搞一下), 你一定很熟悉. 我们在工作可能会有一些动态修改或者获取manifest里面的值的情况, 那么今天涛哥就带你研究一下. 我们来看一下root.attrib的输出: 在versionName和versionCode前面的是什么? 没错, 就是我们上面配置的SPACE,所以如果我们要想正确的获取到值,别忘了加上. 通过上面我们可以看到, versionName和versionCode都是属于manifest根目录的成员因为权限属性(uses-permission)在manifest一级子属性因为activity不是manifest的一级子属性, 而是application的子属性 meta和service因为跟acitity是同级的, 所以处理方法一样, 我就不赘述了其实如果你搞明白了,manifest的本质是xml, 然后知道如何用python操作xml, 那么这个问题就变得很简单 ***隐藏网址***

Python实现XML文件解析

1. XML简介XML(eXtensible Markup Language)指可扩展标记语言，被设计用来传输和存储数据，已经日趋成为当前许多新生技术的核心，在不同的领域都有着不同的应用。它是web发展到一定阶段的必然产物，既具有SGML的核心特征，又有着HTML的简单特性，还具有明确和结构良好等许多新的特性。test.XML文件?12345678910111213?xmlversion=1.0encoding=utf-8?catalogmaxid4/maxidloginusername=pytestpasswd=123456caption

python读取xml文件有哪些方法

1、以下几种方法建议初学者使用：

xml.etree.ElementTree
xml.dom
xml.dom.minidom
xml.dom.pulldom
xml.parsers.expat
其中，第一个模块更加轻便简介，对于简单的xml文档，推荐使用

下面的方法涉及知识比较多，熟练掌握上面方法后可以了解使用：

2、Dom读取

3、Dom4j读取使用dom4j需要导入相关的jar包

import java.io.File;import java.util.Iterator;import java.util.List;

4、JDom读取使用jdom需要导入相关的jar包

import java.io.FileInputStream;

import java.io.InputStream;

5、Sax读取

6、properties的读取

python 如何从XML格式的文件中获取内容

十分像HTML，也是一层一层，在主要信息外面包一些报头。XML 被设计用来传输和存储数据，但本身是不工作的，只是一种结构。一边是document 信息，另一边是协同的schema contract。如需规定一个时区，您也可以通过在日期后加一个 "Z" 的方式，使用世界调整时间（UTC time）来输入一个日期 - 比如这样: 《start》2002-09-24Z《/start》参考资料：

关于本次python处理xml文件和如何使用python解析超大XML文档的问题分享到这里就结束了，如果解决了您的问题，我们非常高兴。

星码园

分享网站建设技术、IT技术等网络应用技术

python处理xml文件