我有一个凌乱的数据集.每行8个单词,分布在196列中.任务是在每一行中找到包含该单词的列.示例:单词“ Pad”可以位于196列中的任何一列中,但我们知道它已经存在.我们需要知道它所在的列.感谢您的帮助.
最佳答案
我认为eq idxmax在这里是最简单的几个单词,并且完全匹配,并保证存在该位置.由于只有8个字,因此可能只是列表理解和连接结果:
样本数据:
import pandas as pd
import numpy as np
np.random.seed(123)
l = ['']*192 + ['paid','foo','bar','baz']
df = pd.DataFrame([np.random.choice(l,replace=False,size=196)
for i in range(5)])
码:
pd.concat([df.eq(word).idxmax(1).rename(word) for word in ['paid','baz']],axis=1)
# paid foo bar baz
#0 112 167 184 142
#1 186 93 17 173
#2 56 142 179 67
#3 15 78 38 79
#4 116 84 18 61
如果只需要检查列[4:196],请使用df.iloc [:,4:197] .eq(word)而不是检查每列
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。