如何解决Spark:嵌套json数据和重复的列名pyspark
我正在处理深度嵌套的json
data
。我的目标是整理数据。我知道,当我想要的嵌套列称为attributes.id
,其中id
嵌套在attributes
列中时,可以使用以下表示法来做到这一点:
df = df.select('attributes.id')
问题在于df
中已经有一个名为id
的列,并且由于spark仅将.
之后的最后一部分保留为列名,因此我现在重复了列名。处理此问题的最佳方法是什么?理想情况下,新列将被称为attributes_id
,以区别于id
列。
解决方法
使用 let icon: HTMLElement;
let attribute = document.createAttribute('icon');
icon = document.createElement('fa-icon');
attribute.value = 'home';
icon.setAttributeNode(attribute);
this.elementRef.nativeElement.innerHTML = icon.outerHTML;
(或)
展平数据框,然后使用 git init
git remote add origin git@github.com:User/UserRepo.git
重命名数据框中的列。
.withColumn
.toDF()
如果要动态展平,请使用this链接答案。
,选择后,您可以.alias("attributes_id")
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。