如何解决在BigQuery之前使用Google Cloud Platform转换JSON,最佳做法?
我有一个深度嵌套的JSON文档,该文档的长度可变,并且具有与文档相对应的可变数组,我希望取消嵌套某些部分并将其写入BigQuery,而忽略其他部分。
我对Trifacta的Dataprep感到很兴奋,但是由于他们将访问数据,因此这对我的公司不起作用。我们使用医疗数据,并且只有Google授权。
有人在GCP中与其他解决方案一起转换JSON吗?该文档的性质是如此之长且嵌套,以至于在摄取之前编写自定义的Regex并在pod上运行它会占用大量计算资源。
解决方法
您可以尝试以下方法:
[1]使用jq
展平JSON文档:
cat source.json | jq -c '.[]' > target.json
[2]加载转换后的JSON文件(使用autodetect
):
bq load --autodetect --source_format=NEWLINE_DELIMITED_JSON mydataset.mytable target.json
结果:
,BigQuery会自动为嵌套数据创建RECORD(STRUCT)数据类型
Dataflow也可以用于此目的:
- 使用此产品,您可以创建仅在Google服务器上运行的Apache Beam预处理管道。
- 使用Beam的ParDo funcion,您可以将用Java,Python或Go编写的任何给定函数应用于嵌套数据。
- 这里有example,介绍了如何在Python中高效地做到这一点。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。