Pythons Pandas-有条件地循环数据框内的列并与参考数据集进行比较

我要做什么

我对Python有点陌生,并且使用熊猫库的经验有限。但是,我一直在尝试修改以下数据帧,以使程序获取3 CSV文件的内容,根据来自第一数据帧和第二数据帧的数据创建两个新变量,然后将它们串联在名为Pred_arg的var中-这是一个进行比较的参考数据框。

第三个CSV文件是测试结果-已为var df添加。

在此之后,我试图创建一个脚本来扫描var的每一列,并根据每个集群组至少具有ABCPred和BCEPred中的一个值的条件来返回true或false(在输出表中)-然后是目标是将结果打印到每个群集的结果表中,结果为true或false-如果群集结果中至少有1个True,则将该群集标记为true。

我的目标是:

Cluster Number  Status 
clu1            True          
clu2            True
clu3            False
...             ...
clu57           True

稍后我可以在其中使用group by function进行分组并计算所有True以及所有False-最终我需要删除所有返回false的行,但是我可以做到这一点

我到目前为止所做的事情

步骤1-从ABCPred中读取结果并整理

ABCPred = pd.read_csv(r"C:\Users\tonyr\OneDrive - Ulster University\PhD - Stratified medicine research projects\COVID19 paper 2020\Data\Output data\ABCPred_res(254).csv")
ABCPred.columns = ['Seq','drop1','drop2','drop3','drop4']
ABCPred = ABCPred[ABCPred['Seq'].notna()]
ABCPred = ABCPred.drop(columns = ['drop1','drop4'])
print(ABCPred)


                      Seq
0        AGAAAYYVGYLQPRTF
1          AGCLIGAEHVNNSY
2        AGTITSGWTFGAGAAL
3    AGTITSGWTFGAGAALQIPF
4            ALEPLVDLPIGI
..                    ...
248    YQTQTNSPRRARSVASQS
249    YSSANNCTFEYVSQPFLM
250  YSSANNCTFEYVSQPFLMDL
251    YTSALLAGTITSGWTFGA
252      YVGYLQPRTFLLKYNE

第2步-读取BCEPred和整洁的结果

BCEPred = pd.read_csv(r"C:\Users\tonyr\OneDrive - Ulster University\PhD - Stratified medicine research projects\COVID19 paper 2020\Data\Output data\BCEPred_res_cor.csv")
print(BCEPred)

            Seq
0       IHVSGTNGT
1        VYFASTEK
2        TTLDSKTQ
3         VYYHKNN
4         MDLEGKQ
5       SYLTPGDSS
6         DPLSETK
7        YAWNRKRI
8         QIAPGQT
9        NNLDSKVG
10       RLFRKSNL
11     ATVCGPKKST
12       GVLTESNK
13      VITPGTNTS
14        RVYSTGS
15  ASYQTQTNSPRRA
16        LPVSMTK
17       ICGDSTEC
18      IAVEQDKNT
19   QILPDPSKPSKR
20       GKIQDSLS
21        TLVKQLS
22      ECVLGQSKR
23        EVAKNLN
24       CKFDEDDS

第3步-我将这些数据帧添加到名为Pred_arg

的新数据帧中
Pred_arg = ABCPred.assign(ABCSeq = ABCPred['Seq'],BCEPred = BCEPred['Seq']).reset_index()
Pred_arg = Pred_arg.drop(columns = ['index','Seq'])
print(Pred_arg)

                   ABCSeq    BCEPred
0        AGAAAYYVGYLQPRTF  IHVSGTNGT
1          AGCLIGAEHVNNSY   VYFASTEK
2        AGTITSGWTFGAGAAL   TTLDSKTQ
3    AGTITSGWTFGAGAALQIPF    VYYHKNN
4            ALEPLVDLPIGI    MDLEGKQ
..                    ...        ...
248    YQTQTNSPRRARSVASQS        NaN
249    YSSANNCTFEYVSQPFLM        NaN
250  YSSANNCTFEYVSQPFLMDL        NaN
251    YTSALLAGTITSGWTFGA        NaN
252      YVGYLQPRTFLLKYNE        NaN

所以现在我创建了要比较的参考数据框

第4步-导入测试结果以进行比较

df = pd.read_csv(r"C:\Users\tonyr\OneDrive - Ulster University\PhD - Stratified medicine research projects\COVID19 paper 2020\Data\IEDB_dataset_run1.csv")
df = df.drop(columns = ['Alignment','Position','Description'])
df = df.drop(df[df.Peptide == '-'].index) #removes all rows where '-' exsists in the peptide column
df = df.drop(df[df['Peptide Number'] == 'Singleton'].index) #remove singletons

     Cluster Number Peptide Number               Peptide
1                 1              1  QDVNCTEVPVAIHADQLTPT
2                 1              2  DVNCTEVPVAIHADQLTPTW
3                 1              3  EVPVAIHADQLTPTWRVYST
4                 1              4  PVAIHADQLTPTWRVYSTGS
5                 1              5      DQLTPTWRVYSTGSNV
..              ...            ...                   ...
307              55              2    TQRNFYEPQIITTDNTFV
309              56              1      CCSCGSCCKFDEDDSE
310              56              2              CKFDEDDS
312              57              1    CCSCLKGCCSCGSCCKFD
313              57              2      CCSCLKGCCSCGSCCK

这就是我被困住的地方

我尝试基于第4步中的群集进行分组,尽管呈现的一切都很好,其中群集编号是从0到57的索引,但我无法使用该组来检查ABCPred和BCEPred是否在clu1中。 / p>

如果我尝试将isin用于一种情况(即ABCPred结果),则全部返回false

df_groups = df.groupby(["Cluster Number"])["Peptide"].apply(list)
df_groups.columns = ['Cluster Number','Seq(s)']
print(df_groups)

Cluster Number
1     [QDVNCTEVPVAIHADQLTPT,DVNCTEVPVAIHADQLTPTW,E...
2     [ISVTTEILPVSMTKTSVDCT,EILPVSMTKTSVDCTMYI,ILP...
3     [STEKSNIIRGWIFGTTLD,KSNIIRGWIFGTTLDS,IRGWIFG...
4     [YQPYRVVVLSFELLHAPATV,SFELLHAPATVCGP,FELLHAP...
5     [LHRSYLTPGDSSSG,HRSYLTPGDSSSGWTA,SYLTPGDSSSG...
6     [VYSSANNCTFEYVSQPFL,YSSANNCTFEYVSQPFLMDL,YSS...
7     [QIPFAMQMAYRFNG,PFAMQMAYRFNGIGVT,FAMQMAYRFNG...
8     [ASYQTQTNSPRRA,YQTQTNSPRRARSVASQS,YQTQTNSPRR...
9     [EMIAQYTSALLAGTITSG,YTSALLAGTITSGWTFGA,LAGTI...
10    [TPCSFGGVSVITPGTNTSNQ,PCSFGGVSVITPGTNTSNQV,P...
11    [RGVYYPDKVFRSSVLHSTQD,GVYYPDKVFRSSVLHSTQ,KVF...
12    [YNENGTITDAVDCA,NENGTITDAVDCALDP,ENGTITDAVDC...
13    [GVSPTKLNDLCFTNVYADSF,TKLNDLCFTNVYADSFVI,NDL...
14    [GVYYHKNNKSWMESEFRV,VYYHKNNKSWMESEFRVYSS,VYY...
15    [PFGEVFNATRFASVYAWNRK,TRFASVYAWNRKRI,RFASVYA...
16    [AGCLIGAEHVNNSY,GCLIGAEHVNNSYECD,LIGAEHVNNSY...
17    [TEIYQAGSTPCNGVEG,YQAGSTPCNGVEGFNC,QAGSTPCNG...
18    [QQFGRDIADTTDAVRDPQTL,QQFGRDIADTTDAV,QFGRDIA...
19    [YFPLQSYGFQ,LQSYGFQPTNGVGYQP,YGFQPTNGVGYQPYR...
20    [IHVSGTNGTKRFDNPVLPFN,IHVSGTNGT,VSGTNGTKRFDN...
21    [NLREFVFKNIDGYFKIYS,EFVFKNIDGYFKIYSKHT,FKNID...
22    [IAVEQDKNT,AVEQDKNTQEVFAQ,VEQDKNTQEVFAQV,QD...
23    [DKVEAEVQIDRLITGRLQSL,EAEVQIDRLITGRLQSLQTY,Q...
24    [DSLSSTASALGKLQDV,LSSTASALGKLQDVVNQN,LSSTASA...
25    [PGQTGKIADYNYKLPD,GQTGKIADYNYKLP,TGKIADYNYKL...
26    [YEQYIKWPWYIWLGFIAG,YEQYIKWPWYIWLGFI,YIKWPWY...
27    [TVEKGIYQTSNFRVQP,EKGIYQTSNFRVQPTE,KGIYQTSNF...
28    [KSNLKPFERDISTEIYQA,SNLKPFERDISTEIYQAGST,FER...
29     [VLYNSASFSTFKCYGVSP,FSTFKCYGVSPTKL,STFKCYGVSP]
30    [HGVVFLHVTYVPAQEK,GVVFLHVTYVPAQEKNFT,HVTYVPA...
31    [PGTNTSNQVAVLYQDV,GTNTSNQVAVLYQDVNCT,TSNQVAV...
32    [KQIYKTPPIKDFGGFN,KTPPIKDFGGFN,TPPIKDFGGFNFS...
33    [VTQQLIRAAEIRASANLAAT,VTQQLIRAAEIRASANLA,TQQ...
34     [GCVIAWNSNNLDSKVGGNYN,CVIAWNSNNLDSKV,NNLDSKVG]
35         [GNYNYLYRLFRKSNLKPF,NYLYRLFRKSNL,RLFRKSNL]
36    [GGFNFSQILPDPSKPSKR,SQILPDPSKPSKRSFI,QILPDPS...
37    [SSNFGAISSVLNDI,SNFGAISSVLNDILSRLD,ISSVLNDIL...
38      [QKEIDRLNEVAKNLNE,KEIDRLNEVAKNLNESLI,EVAKNLN]
39    [FPNITNLCPFGEVFNA,PNITNLCPFGEVFN,NITNLCPFGEV...
40                           [LTGTGVLTESNKKF,GVLTESNK]
41                           [VLPFNDGVYFASTE,VYFASTEK]
42                   [ECSNLLLQYGSFCTQLNRAL,LQYGSFCTQL]
43                          [EVRQIAPGQTGKIADY,QIAPGQT]
44                       [QLPPAYTNSFTR,PPAYTNSFTRGVYY]
45         [VTLADAGFIKQYGDCLGDIA,GFIKQYGDCLGDIAARDLIC]
46                            [TLVKQLS,LVKQLSSNFGAISS]
47                         [IGKIQDSLSSTASALG,GKIQDSLS]
48             [TNVVIKVCEFQFCNDP,VVIKVCEFQFCNDPFLGVYY]
49               [ESLIDLQELGKYEQYI,DLQELGKYEQYIKWPWYI]
50               [GDIAARDLICAQKFNGLT,RDLICAQKFNGLTVLP]
51                   [PQGFSALEPLVDLPIGIN,ALEPLVDLPIGI]
52               [VVIGIVNNTVYDPLQPEL,VIGIVNNTVYDPLQPE]
53                   [EILDITPCSFGGVSVI,EILDITPCSFGGVS]
54               [NFRVQPTESIVRFPNITN,VQPTESIVRFPNITNL]
55                 [WFVTQRNFYEPQII,TQRNFYEPQIITTDNTFV]
56                         [CCSCGSCCKFDEDDSE,CKFDEDDS]
57               [CCSCLKGCCSCGSCCKFD,CCSCLKGCCSCGSCCK]


rslt_df = Pred_arg['ABCSeq'].isin(df_groups)
print(rslt_df.describe()) ## comparason coming back all false !!!!!!!

count       253
unique        1
top       False
freq        253
Name: ABCSeq,dtype: object

我知道我很想念一些很简单的东西-但是想出一些新鲜的眼睛和指导对改善我的练习很有帮助。

更新

我似乎可以使用以下方法在单元格内容之间进行比较-尽管它相当粗糙

#comparing group to pred_arg
rslt_df1 = Pred_arg['ABCSeq'].isin(df['Peptide'])
rslt_df2 = Pred_arg['BCEPred'].isin(df['Peptide'])
rslt_df = df.assign(ABCSeq = rslt_df1,BCEPred = rslt_df2).reset_index()
concencus = Pred_arg['ABCSeq'].isin(df['Peptide']) & Pred_arg['BCEPred'].isin(df['Peptide'])

print(concencus.describe()) # working better

count       253
unique        2
top       False
freq        232
dtype: object

谢谢:)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Python中的函数(二) 在上一篇文章中提到了Python中函数的定义和使用,在这篇文章里我们来讨论下关于函数的一些更深的话题。在学习C语言函数的时候,遇到的问题主要有形参实参的区别、参数的传递和改变、变量的作用域。同样在Python中,关于对函数的理解和使用也存在这些问题。下面来逐一讲解。一.函
Python中的字符串 可能大多数人在学习C语言的时候,最先接触的数据类型就是字符串,因为大多教程都是以"Hello world"这个程序作为入门程序,这个程序中要打印的"Hello world"就是字符串。如果你做过自然语言处理方面的研究,并且用Python
Python 面向对象编程(一) 虽然Python是解释性语言,但是它是面向对象的,能够进行对象编程。下面就来了解一下如何在Python中进行对象编程。一.如何定义一个类 在进行python面向对象编程之前,先来了解几个术语:类,类对象,实例对象,属性,函数和方法。 类是对现实世界中一些事物的封装,
Python面向对象编程(二) 在前面一篇文章中谈到了类的基本定义和使用方法,这只体现了面向对象编程的三大特点之一:封装。下面就来了解一下另外两大特征:继承和多态。 在Python中,如果需要的话,可以让一个类去继承一个类,被继承的类称为父类或者超类、也可以称作基类,继承的类称为子类。并且Pytho
Python中的函数(一) 接触过C语言的朋友对函数这个词肯定非常熟悉,无论在哪门编程语言当中,函数(当然在某些语言里称作方法,意义是相同的)都扮演着至关重要的角色。今天就来了解一下Python中的函数用法。一.函数的定义 在某些编程语言当中,函数声明和函数定义是区分开的(在这些编程语言当中函数声明
在windows下如何快速搭建web.py开发框架 用Python进行web开发的话有很多框架供选择,比如最出名的Django,tornado等,除了这些框架之外,有一个轻量级的框架使用起来也是非常方便和顺手,就是web.py。它由一名黑客所创建,但是不幸的是这位创建者于2013年自杀了。据说现在由
将Sublime Text 2搭建成一个好用的IDE 说起编辑器,可能大部分人要推荐的是Vim和Emacs,本人用过Vim,功能确实强大,但是不是很习惯,之前一直有朋友推荐SUblime Text 2这款编辑器,然后这段时间就试了一下,就深深地喜欢上这款编辑器了...
Python中的模块 有过C语言编程经验的朋友都知道在C语言中如果要引用sqrt这个函数,必须用语句"#include<math.h>"引入math.h这个头文件,否则是无法正常进行调用的。那么在Python中,如果要引用一些内置的函数,该怎么处理呢?在Python中
Python的基础语法 在对Python有了基础的认识之后,下面来了解一下Python的基础语法,看看它和C语言、java之间的基础语法差异。一.变量、表达式和语句 Python中的语句也称作命令,比如print "hello python"这就是一条语句。 表达式,顾名思义,是
Eclipse+PyDevʽjango+Mysql搭建Python web开发环境 Python的web框架有很多,目前主流的有Django、Tornado、Web.py等,最流行的要属Django了,也是被大家最看好的框架之一。下面就来讲讲如何搭建Django的开发环境。一.准备工作 需要下载的
在windows下安装配置Ulipad 今天推荐一款轻便的文本编辑器Ulipad,用来写一些小的Python脚本非常方便。 Ulipad下载地址: https://github.com/limodou/ulipad http://files.cnblogs.com/dolphin0520/u...
Python中的函数(三) 在前面两篇文章中已经探讨了函数的一些相关用法,下面一起来了解一下函数参数类型的问题。在C语言中,调用函数时必须依照函数定义时的参数个数以及类型来传递参数,否则将会发生错误,这个是严格进行规定的。然而在Python中函数参数定义和传递的方式相比而言就灵活多了。一.函数参数的
在Notepad++中搭配Python开发环境 Python在最近几年一度成为最流行的语言之一,不仅仅是因为它简洁明了,更在于它的功能之强大。它不仅能够完成一般脚本语言所能做的事情,还能很方便快捷地进行大规模的项目开发。在学习Python之前我们来看一下Python的历史由来,"Pytho
Python中的条件选择和循环语句 同C语言、Java一样,Python中也存在条件选择和循环语句,其风格和C语言、java的很类似,但是在写法和用法上还是有一些区别。今天就让我们一起来了解一下。一.条件选择语句 Python中条件选择语句的关键字为:if 、elif 、else这三个。其基本形式如
关于raw_input( )和sys.stdin.readline( )的区别 之前一直认为用raw_input( )和sys.stdin.readline( )来获取输入的效果完全相同,但是最近在写程序时有类似这样一段代码:import sysline = sys.stdin.readline()
初识Python 跟学习所有的编程语言一样,首先得了解这门语言的编程风格和最基础的语法。下面就让我们一起来了解一下Python的编程风格。1.逻辑行与物理行 在Python中有逻辑行和物理行这个概念,物理行是指在编辑器中实际看到的一行,逻辑行是指一条Python语句。在Python中提倡一个物理行只
当我们的代码是有访问网络相关的操作时,比如http请求或者访问远程数据库,经常可能会发生一些错误,有些错误可能重新去发送请求就会成功,本文分析常见可能需要重试的场景,并最后给出python代码实现。
1.经典迭代器 2.将Sentence中的__iter__改成生成器函数 改成生成器后用法不变,但更加简洁。 3.惰性实现 当列表比较大,占内存较大时,我们可以采用惰性实现,每次只读取一个元素到内存。 或者使用更简洁的生成器表达式 4.yield from itertools模块含有大量生成器函数可
本文介绍简单介绍socket的常用函数,并以python-kafka中的源码socketpair为例,来讲解python socket的运用
python实践中经常出现编码相关的异常,大多网上找资料而没有理解原理,导致一次次重复错误。本文对常用Unicode、UTF-8、GB2312编码的原理进行介绍,接着介绍了python字符类型unicode和str以及常见编解码错误UnicodeEncodeError和UnicodeDEcodeEr