如何解决Azure数据流
我需要定期用新数据更新现有的30多个CSV文件集(追加到末尾)。还需要在将Y行添加到末尾时删除前X行。
我是否为此使用了正确的服务,并且使用了正确的方式?
-
Azure Blob存储用于存储现有文件和更新文件。
-
将DataFactory与DataFlows结合使用。我想要转换的CSV的PipeLine和DataFlow可以进行数据集的合并(现有+更新),生成 下沉文件集,将新组合的CSV放回Blob 存储。
-
Blob存储更新目录上的触发器,用于在上传新的更新文件时触发管道。
问题:
- 这是解决此问题的最佳方法吗,我需要一个用户输入最少的解决方案(只要他们要做的就是上传文件并下载新文件,我就会照顾Azure操作)
- 每个CSV文件是否需要管道和数据流?或者我可以为每种转换类型设置一种(即,一种仅用于附加,另一种用于附加和删除前X行)
- 我打算在blob存储中为每个CSV(30多个Dirs)创建一个目录,并为每个现有目录和更新文件创建一个数据集。
- 然后为每个输出文件创建一个数据集到一些new /目录中
解决方法
根据CSV的大小,您可以通过将新数据以及现有CSV文件都作为源在数据流内部执行追加操作,然后将这两个文件合并在一起以创建一个新文件文件。
或者,对于较大的文件,请使用“复制活动”“合并文件”设置将两个文件合并在一起。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。