如何在csv列中查找重复项，并删除没有重复项的任何行

如何解决如何在csv列中查找重复项，并删除没有重复项的任何行

我有一个csv，其数据如下所示：

777 Brockton Avenue,Abington,MA,2351
30 Memorial Drive,Avon,2322
250 Hartford Avenue,Bellingham,2351
700 Oak Street,Brockton,2301
66-4 Parkhurst Rd,Chelmsford,1824
591 Memorial Dr,Chicopee,2351
55 Brooksby Village Way,Danvers,2301

我想搜索最后一列（带有邮政编码的列），查找任何重复项，并删除没有没有重复项的任何行。

所以上面的数据将变成：

777 Brockton Avenue,2351
250 Hartford Avenue,2301
591 Memorial Dr,2301

我已经尝试使用Pandas和许多其他方法，但是这样做仍然有很多麻烦。有人对我该怎么做有任何想法吗？

解决方法

您可以使用dict通过邮政编码为行编制索引。 collections.defaultdict很不错，因为只要找到新的邮政编码，您就不必专门创建列表。在这种情况下，defaultdict将使用您提供的初始化程序（在这种情况下为list类）。

填充字典后，其值就是按邮政编码分组的列表，并且> 1的任何列表都符合您的条件。

import csv
import collections

zip_index = collections.defaultdict(list)
with open('test.csv',newline='') as fileobj:
    reader = csv.reader(fileobj)
    for row in reader:
        zip_index[row[-1]].append(row)

with open('output.csv','w',newline='') as fileobj:
    writer = csv.writer(fileobj)
    for rows in zip_index.values():
        if len(rows) > 1:
            writer.writerows(rows)

如果像原来的文章一样将其作为文本文件使用，则可以仅拆分每行并使用最后一个元素。使用字典来跟踪每个邮政编码的重复次数，然后在所有行中第二次循环，仅保留邮政编码超过一次的行：

lines = ["777 Brockton Avenue,Abington,MA,2351","30 Memorial Drive,Avon,2322","250 Hartford Avenue,Bellingham,"700 Oak Street,Brockton,2301","66-4 Parkhurst Rd,Chelmsford,1824","591 Memorial Dr,Chicopee,"55 Brooksby Village Way,Danvers,2301"]

## Get an overview of duplicates
zipdir = {}
for l in lines:
    try:
        zipdir[l.split(",")[-1]] +=1
    except:
        zipdir[l.split(",")[-1]] = 1

## Retain the ones with more than one occurrence
outlines = []
for l in lines:
    if zipdir[l.split(",")[-1]]>1:
        outlines.append(l)

在您的情况下，这将从数据中删除两个元素。通过仅将csv作为文件（infile = open("xy.csv","r")）打开并读取所有行作为列表（lines = infile.readlines()），可以从csv获得行列表。类似地，只需将行写成带有换行定界符（outfile.write("\n".join(outlines)）的连接字符串，就可以写出结果行列表。

此任务不需要软件包。

如何在csv列中查找重复项，并删除没有重复项的任何行

如何解决如何在csv列中查找重复项，并删除没有重复项的任何行

解决方法

相关推荐