如何解决python pandas或Filter中的管道或函数序列,然后汇总如dplyr
情境化。我是R使用者,但目前在python(带熊猫)之间切换。假设我有这个数据框
data = {'participant': ['p1','p1','p2','p3'],'metadata': ['congruent_1','congruent_2','incongruent_1','incongruent_2'],'reaction': [22000,25000,27000,35000]
}
df_s1 = pd.DataFrame(data,columns = ['participant','metadata','reaction'])
df_s1 = df_s1.append([df_s1]*15,ignore_index=True)
df_s1
我想通过以下方式重现在R(管道函数)中可以轻松完成的工作:
df_s1[(df_s1.metadata == "congruent_1") | (df_s1.metadata == "incongruent_1")].df_s1["reaction"].mean()
这是不可能的。将代码拆分为各个部分/变量,我就可以成功:
x = df_s1[(df_s1.metadata == "congruent_1") | (df_s1.metadata == "incongruent_1")]
x = x["reaction"].mean()
x
我会用dplyr的方式
ds_s1 %>%
filter(metadata == "congruent_1" | metadata == "incongruent_1") %>%
summarise(mean(reaction))
注意:我高度赞赏对网站的简洁引用,我可以在其中将R代码转换为Python。提供了几种文献,但格式混合且样式灵活。
谢谢
解决方法
您的意思是:
df_s1.loc[(df_s1.metadata == "congruent_1") | (df_s1.metadata == "incongruent_1"),"reaction"].mean()
或更简单的使用isin
:
df_s1.loc[df_s1.metadata.isin(["congruent_1","incongruent_1"]),"reaction"].mean()
出局:
24500.0
,
我们这里有.loc
df_s1.loc[(df_s1.metadata == "congruent_1") | (df_s1.metadata == "incongruent_1"),'reaction'].mean()
Out[117]: 24500.0
更改为isin
,因为Quang试图减少代码行
以R为底
mean(ds_s1$reaction[ds_s1$metadata%in%c('congruent_1','incongruent_1')])
,
除了其他建议的解决方案:
df_s1.query('metadata==["congruent_1","incongruent_1"]').agg({"reaction": "mean"})
reaction 24500.0
dtype: float64
,
使用 Python 中的 datar
(我是作者),您可以轻松地将代码从 R 移植到 Python:
from datar.all import *
data = tibble(
participant=['p1','p1','p2','p3'],metadata=['congruent_1','congruent_2','incongruent_1','incongruent_2'],reaction=[22000,25000,27000,35000]
)
df_s1 = data >> uncount(15)
df_s1 = df_s1 >> \
filter((f.metadata == "congruent_1") | (f.metadata == "incongruent_1")) >> \
group_by(f.metadata) >> \
summarise(reaction_mean=mean(f.reaction))
print(df_s1)
输出:
metadata reaction_mean
0 congruent_1 22000.0
1 incongruent_1 27000.0
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。