如何解决使用熊猫获取事件列表 基准化
给出动物列表,例如:
animals = ['cat','dog','hamster','dolphin']
和熊猫数据框,df:
id animals
1 dog,cat
2 dog
3 cat,dolphin
4 cat,dog
5 hamster,dolphin
我想获得一个显示每个动物的发生情况的新数据框,例如:
animal ids
cat 1,3,4
dog 1,2,4
hamster 5
dolphin 3,5
我知道我可以运行一个循环并进行准备,但是我有超过80,000个单词的列表,数据帧超过100万行,因此使用循环来完成它需要很长时间。有没有更简单,更快捷的方法来使用数据框获取结果?
解决方法
让我们先尝试get_dummies
然后尝试dot
df.animals.str.get_dummies(',').T.dot(df.id.astype(str)+',').str[:-1]
Out[307]:
cat 1,3,4
dog 1,2,4
dolphin 3,5
hamster 5
dtype: object
如果考虑将列表添加reindex
df.animals.str.get_dummies(',').str[:-1].reindex(animals)
Out[308]:
cat 1,4
hamster 5
dolphin 3,5
dtype: object
,
基于NumPy的perf。 -
def list_occ(df):
id_col='id'
item_col='animals'
sidx = np.argsort(animals)
s = [i.split(',') for i in df[item_col]]
d = np.concatenate(s)
p = sidx[np.searchsorted(animals,d,sorter=sidx)]
C = np.bincount(p,minlength=len(animals))
l = list(map(len,s))
r = np.repeat(np.arange(len(l)),l)
v = df[id_col].values[r[np.lexsort((r,p))]]
out = pd.DataFrame({'ids':np.split(v,C[:-1].cumsum())},index=animals)
return out
样品运行-
In [41]: df
Out[41]:
id animals
0 1 dog,cat
1 2 dog
2 3 cat,dolphin
3 4 cat,dog
4 5 hamster,dolphin
In [42]: animals
Out[42]: ['cat','dog','hamster','dolphin']
In [43]: list_occ(df)
Out[43]:
ids
cat [1,4]
dog [1,4]
hamster [5]
dolphin [3,5]
基准化
使用给定的样本并简单地扩大项目数量。
# Setup
N = 100 # scale factor
s = [i.split(',') for i in df['animals']]
df_big = pd.DataFrame({'animals':[[j+str(ID) for j in i] for i in s for ID in range(1,N+1)]})
df_big['id'] = range(1,len(df_big)+1)
animals = np.unique(np.concatenate(df_big.animals)).tolist()
df_big['animals'] = [','.join(i) for i in df_big.animals]
df = df_big
时间-
# Using given df & scaling it up by replicating elems with progressive IDs
In [9]: N = 100 # scale factor
...: s = [i.split(',') for i in df['animals']]
...: df_big = pd.DataFrame({'animals':[[j+str(ID) for j in i] for i in s for ID in range(1,N+1)]})
...: df_big['id'] = range(1,len(df_big)+1)
...: animals = np.unique(np.concatenate(df_big.animals)).tolist()
...: df_big['animals'] = [','.join(i) for i in df_big.animals]
...: df = df_big
# @BEN_YO's soln-1
In [10]: %timeit df.animals.str.get_dummies(',').str[:-1]
163 ms ± 2.94 ms per loop (mean ± std. dev. of 7 runs,10 loops each)
# @BEN_YO's soln-2
In [11]: %timeit df.animals.str.get_dummies(',').str[:-1].reindex(animals)
166 ms ± 4.52 ms per loop (mean ± std. dev. of 7 runs,10 loops each)
# @Andy L.'s soln
%timeit (df.astype(str).assign(animals=df.animals.str.split(',')).explode('animals').groupby('animals').id.agg(','.join).reset_index())
13.4 ms ± 74 µs per loop (mean ± std. dev. of 7 runs,100 loops each)
In [12]: %timeit list_occ(df)
2.81 ms ± 101 µs per loop (mean ± std. dev. of 7 runs,100 loops each)
,
使用str.split
,explode
和agg.join
df_final = (df.astype(str).assign(animals=df.animals.str.split(','))
.explode('animals').groupby('animals').id.agg(','.join)
.reset_index())
Out[155]:
animals id
0 cat 1,4
1 dog 1,4
2 dolphin 3,5
3 hamster 5
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。