如何从 Python 中的 XML 中的列表中提取子元素

如何解决如何从 Python 中的 XML 中的列表中提取子元素

我正在尝试使用 Python etree 库从 XML 列表中提取元素,并使用这些元素生成输出 JSON。

想法是通过一系列XPATH来提取我想要的元素。我不想遍历 XML 中的所有元素,因为它们太多了。

XML 看起来与此类似:

<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<Line xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
    <Data>
        <Date>2020-01-02</Date>
        <Id>id_1</Id>
        <CodDevice>567</CodDevice>
        <DataList>
            <Item>
                <Row>1</Row>
                <Value>34.67</Value>
                <Description>WHEELS</Description>
                <Tag>tag1</Tag>
            </Item>
            <Item>
                <Row>2</Row>
                <Value>38.04</Value>
                <Description>MOTOR</Description>
                <Tag>tag1</Tag>
            </Item>
        </DataList>
        <MetaList>
            <Metadata>
                <Row>1</Row>
                <Value>some value</Value>
            </Metadata>
        </MetaList>
    </Data>
</Line> 

我正在考虑的方法如下:

import xml.etree.ElementTree as ET
import json

data = """<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<Line xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
    <Data>
        <Date>2020-01-02</Date>
        <Id>id_1</Id>
        <CodDevice>567</CodDevice>
        <DataList>
            <Item>
                <Row>1</Row>
                <Value>34.67</Value>
                <Description>WHEELS</Description>
                <Tag>tag1</Tag>
            </Item>
            <Item>
                <Row>2</Row>
                <Value>38.04</Value>
                <Description>MOTOR</Description>
                <Tag>tag1</Tag>
            </Item>
        </DataList>
        <MetaList>
            <Metadata>
                <Row>1</Row>
                <Value>some value</Value>
            </Metadata>
        </MetaList>
    </Data>
</Line>     
"""

tag_list = [
'./Data/Date','./Data/Id','./Data/CodDevice','./Data/DataList/Item/Row','./Data/DataList/Item/Value','./Data/DataList/Item/Description','./Data/MetaList/Metadata/Row','./Data/MetaList/Metadata/Value'
]

elem_dict= {}
  
parser = ET.XMLParser(encoding="utf-8")
root = ET.fromstring(data,parser=parser)

for tag in tag_list:
    for item in root.findall(tag):
        elem_dict[item.tag] = item.text
print(json.dumps(elem_dict))

如您所见,我尝试生成一个 JSON,当我将 XPATH 传递给列表元素时,它会覆盖它们,生成以下输出:

{"Date": "2020-01-02","Id": "id_1","CodDevice": "567","Row": "1","Value": "some value","Description": "MOTOR"}

但我想得到的是类似于:

{"Id":"id_1","CodDevice":"567","DataList":[{"Row":1,"Value":34.67,"Description":"WHEELS"},{"Row":2,"Value":38.04,"Description":"MOTOR"}],"MetaList":[{"Row":1,"Value":some value}]}

我不知道我可以将库用于哪些功能的详细信息,也许有更有效的方法来实现这一点,但我正在忽略它...

关于如何解决这个问题的任何想法都会很棒。非常感谢!

解决方法

您的任务涉及:

  • 过滤源 XML 树,
  • 更改元素的名称及其结构(例如 Item 元素 到列表的元素)
  • 生成“多级”(嵌套)输出。

这就是为什么我认为最自然的方法是写一些 自定义代码。

从获取 XML 元素文本的函数开始(它将 进一步使用):

def getTxt(elem):
    return elem.text.strip()

然后定义另一个函数将子项添加到字典中:

def addChildren(dct,elem,childNames,fn=getTxt):
    for it in elem:
        tag = it.tag
        if tag in childNames:
            dct[tag] = fn(it)

参数:

  • dct - 要添加内容的字典。
  • elem - 源元素。
  • childNames - 要在 elem 中寻找和服务的孩子的名字。
  • fn - 为每个元素生成内容的函数。

要获取两个列表的内容,请定义另一个函数:

def getItems(elem):
    lst = []
    for it in elem:
        dct = {}
        addChildren(dct,it,['Row','Value','Description'])
        lst.append(dct)
    return lst

最后一步是主要代码,假设你有你的XML root 中的树:

dct = {}
nd = root.find('Data')
addChildren(dct,nd,['Date','Id','CodDevice'])
addChildren(dct,['DataList','MetaList'],getItems)

现在 dct 包含(经过一些重新格式化后):

{
  'Date': '2020-01-02','Id': 'id_1','CodDevice': '567','DataList': [
    {'Row': '1','Value': '34.67','Description': 'WHEELS'},{'Row': '2','Value': '38.04','Description': 'MOTOR'}
  ],'MetaList': [
    {'Row': '1','Value': 'some value'}
  ]
}

如果要将其保存为 JSON 字符串,请运行 json.dumpjson.dumps

我不确定输出是否应该包含 Date 键(您的 tag_list 包含它,但预期的输出没有)。 如果不需要,请从第一个 childNames 中删除 'Date'

,

通过字典理解来考虑 dictionary merging

data = root.find('.//Data')
elem_dict = {
              **{d.tag: d.text.strip() for d in data.findall('*') if d.text.strip() != ""},**{'DataList': [{i.tag: i.text.strip() for i in item.findall('*') if i.tag != 'Tag'} 
                               for item in data.findall('.//DataList/Item')]},**{'MetalList': [{m.tag: m.text.strip() for m in meta.findall('*')} 
                                for meta in data.findall('.//MetaList/Metadata')]}
             } 

print(json.dumps(elem_dict))
# {"Date": "2020-01-02","Id": "id_1","CodDevice": "567",#  "DataList": [{"Row": "1","Value": "34.67","Description": "WHEELS"},#               {"Row": "2","Value": "38.04","Description": "MOTOR"}],#  "MetalList": [{"Row": "1","Value": "some value"}]}

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 &lt;select id=&quot;xxx&quot;&gt; SELECT di.id, di.name, di.work_type, di.updated... &lt;where&gt; &lt;if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 &lt;property name=&quot;dynamic.classpath&quot; value=&quot;tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-