如何解决具有Dataprep的ETL-联合数据集
我是GCP的新手,我每天都在学习,而且我喜欢这个平台。 我正在使用GCP的dataprep联接几个csv文件(具有相同的列结构),处理一些数据并写入BigQuery。
我创建了一个存储(插槽)以将所有60个csv文件放入其中。我可以在dataprep中将数据集定义为所有这些文件的并集吗?还是必须为每个文件创建一个数据集?
非常感谢您的时间和精力。
解决方法
如果您的所有文件都在GCS的目录中,则可以将该目录作为单个数据集导入。 process与导入单个文件相同。不过,您必须确保该目录内所有文件的列结构完全相同。
如果为每个文件创建一个单独的数据集,则在使用UNION
page进行连接时,它们在结构上会更加灵活。
但是,如果您的用例只是将所有文件(〜60个)加载到Bigquery中的单个表中而不进行任何转换,那么我建议您仅使用BigQuery load作业。您可以在Cloud Storage URI中使用wildcard来指定所需的文件。当前,BigQuery加载作业为free of charge,因此与使用Dataprep相比,这将是一个非常经济高效的解决方案。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。