如何解决如何在pyspark的json文件中添加方括号?
我正在尝试将数据转换并存储为遵循以下模式的json文件:
productHierarchySchema = StructType([
StructField("store_id",StringType(),False),StructField("nodes",ArrayType(StructType([
StructField("category_id",....
)
]))
)
])
现在,我可以将输入的JSON字符串转换为spark DataFrame:
def jsonToDataFrame(json,schema=None):
reader = spark.read
if schema:
reader.schema(schema)
return reader.json(sc.parallelize([json]))
final_df = jsonToDataFrame(input_data,productHierarchySchema)
问题在于按如下方式存储数据框
data_frame.coalesce(1).write.mode('overwrite').json(temp_location)
我有一个看起来像json的文件:
{"store_id":"aaa","nodes":[{"category_id":"30000","name":"nutella","subcategories":[{"category_id":"1127" ..... }
相反,我希望将整个json放在方括号中,如下所示:
[{"store_id":"aaa","subcategories":[{"category_id":"1127" ..... }]
我本以为有一种简单的方法可以做到这一点,但我找不到正确的方法。
真的很感谢在pyspark中进行此操作的任何建议。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。