首先我要说的是,能够从平面文件中获取1700万条记录,推送到远程盒子上的数据库并花费7分钟是令人惊讶的. SSIS真的太棒了.但是现在我有那些数据,如何删除重复数据?
更好的是,我想获取平面文件,从平面文件中删除重复项并将它们放回另一个平面文件中.
我在考虑:
数据流任务
>文件源(带有关联的文件连接)
>一个for循环容器
>一个脚本容器,包含一些逻辑来判断是否存在另一行
亲爱的,这个网站上的每个人都非常了解.
更新:I have found this link,might help in answering this question
解决方法
使用排序组件.
只需选择要对加载的行进行排序的字段,在左下角,您将看到一个复选框以删除重复项.此框仅根据排序条件删除任何重复的行
因此,在下面的示例中,如果我们仅对第一个字段进行排序,则行将被视为重复:
1 | sample A | 1 | sample B |
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。