合并大pandas数据帧,其中一个值在两个之间

我需要在标识符和一个数据帧中的日期在另一个数据帧中的两个日期之间合并两个pandas数据帧.

数据帧A有一个日期(“fdate”)和一个ID(“cusip”):

我需要将此与此数据帧合并B:

在A.cusip == B.ncusip和A.fdate是在B.namedt和B.nameenddt之间.

在SQL中,这将是微不足道的,但是我可以看到如何在大pandas中做到这一点的唯一方法是首先无条件地合并在标识符上,然后过滤日期条件:

df = pd.merge(A,B,how='inner',left_on='cusip',right_on='ncusip')
df = df[(df['fdate']>=df['namedt']) & (df['fdate']<=df['nameenddt'])]

这真的是最好的办法吗?看来,如果可以在合并过滤器,以避免在合并之后但在过滤器完成之前避免有可能非常大的数据帧,那将会更好一些.

解决方法

目前没有这样做的平庸的方式.

这个答案曾经是解决多态性的问题,这是一个很糟糕的想法.

那么numpy.piecewise功能出现在另一个答案中,但是很少有解释,所以我想我会澄清一下这个功能如何使用.

分数方式(记忆重)

np.piecewise功能可用于生成自定义连接的行为.有很多开销涉及到,而不是很有效率的坚持,但它做的工作.

生产条件加盟

import pandas as pd
from datetime import datetime


presidents = pd.DataFrame({"name": ["Bush","Obama","Trump"],"president_id":[43,44,45]})
terms = pd.DataFrame({'start_date': pd.date_range('2001-01-20',periods=5,freq='48M'),'end_date': pd.date_range('2005-01-21','president_id': [43,43,45]})
war_declarations = pd.DataFrame({"date": [datetime(2001,9,14),datetime(2003,3,3)],"name": ["War in Afghanistan","Iraq War"]})

start_end_date_tuples = zip(terms.start_date.values,terms.end_date.values)
conditions = [(war_declarations.date.values >= start_date) &
              (war_declarations.date.values <= end_date) for start_date,end_date in start_end_date_tuples]

> conditions
[array([ True,True],dtype=bool),array([False,False],dtype=bool)]

这是一个数组的列表,其中每个数组告诉我们,我们拥有的两个战争声明中的每一个的时间跨度是否匹配.条件可能会与较大的数据集爆炸,因为它将是左df的长度和右df相乘.

分段“魔法”

现在分段将从术语中取得president_id,并将其放在war_declarations数据帧中,为每个相应的战争.

war_declarations['president_id'] = np.piecewise(np.zeros(len(war_declarations)),conditions,terms.president_id.values)
    date        name                president_id
0   2001-09-14  War in Afghanistan          43.0
1   2003-03-03  Iraq War                    43.0

现在要完成这个例子,我们只需要定期合并总统的名字.

war_declarations.merge(presidents,on="president_id",suffixes=["_war","_president"])

    date        name_war            president_id    name_president
0   2001-09-14  War in Afghanistan          43.0    Bush
1   2003-03-03  Iraq War                    43.0    Bush

多态(不行)

我想分享我的研究工作,所以即使这不能解决问题,我希望能够在这里至少有一个有用的答复.由于很难发现错误,有人可能尝试这样做,并认为他们有一个工作的解决方案,而实际上他们没有.

我唯一可以想到的方法是创建两个新类,一个PointInTime和一个Timespan

两者应该有__eq__方法,如果将PointInTime与包含它的Timespan进行比较,则返回true.

之后,您可以使用这些对象填充您的DataFrame,并加入他们所在的列.

这样的事情

class PointInTime(object):

    def __init__(self,year,month,day):
        self.dt = datetime(year,day)

    def __eq__(self,other):
        return other.start_date < self.dt < other.end_date

    def __neq__(self,other):
        return not self.__eq__(other)

    def __repr__(self):
        return "{}-{}-{}".format(self.dt.year,self.dt.month,self.dt.day)

class Timespan(object):
    def __init__(self,start_date,end_date):
        self.start_date = start_date
        self.end_date = end_date

    def __eq__(self,other):
        return self.start_date < other.dt < self.end_date

    def __neq__(self,other):
        return not self.__eq__(other)

    def __repr__(self):
        return "{}-{}-{} -> {}-{}-{}".format(self.start_date.year,self.start_date.month,self.start_date.day,self.end_date.year,self.end_date.month,self.end_date.day)

重要提示:我不会对datetime进行子类化,因为pandas会将datetime对象的列的dtype视为datetime dtype,而且由于时间不是,所以pandas默默地拒绝合并.

如果我们实例化这些类的两个对象,现在可以对它们进行比较:

pit = PointInTime(2015,1,1)
ts = Timespan(datetime(2014,1),datetime(2015,2,2))
pit == ts
True

我们也可以用这些对象填充两个DataFrames:

df = pd.DataFrame({"pit":[PointInTime(2015,PointInTime(2015,2),3)]})

df2 = pd.DataFrame({"ts":[Timespan(datetime(2015,5)),Timespan(datetime(2015,4,1))]})

然后合并的作品:

pd.merge(left=df,left_on='pit',right=df2,right_on='ts')

        pit                    ts
0  2015-2-2  2015-2-1 -> 2015-2-5
1  2015-2-2  2015-2-1 -> 2015-4-1

但只有一种.

PointInTime(2015,3)也应包含在Timespan(datetime(2015,1))的此连接中)

但它不是.

我认为大pandas将PointInTime(2015,3)与PointInTime(2015,2)进行比较,并假定由于它们不相等,3)不能等于Timespan(datetime(2015,1)),因为这个时间段等于PointInTime(2015,2)

像这样排序:

Rose == Flower
Lilly != Rose

因此:

Lilly != Flower

编辑:

我试图让所有PointInTime彼此相等,这改变了加入的行为,包括2015-3-3,但2015-2-2只包括在2015-2-1时代 – > 2015-2-5,所以这加强了我上述的假设.

如果有任何其他想法,请评论,我可以尝试.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


本篇内容主要讲解“sqlalchemy的常用数据类型怎么使用”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“sqlalche...
今天小编给大家分享一下sqlServer实现分页查询的方式有哪些的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家
这篇文章主要介绍“sqlmap之osshell怎么使用”,在日常操作中,相信很多人在sqlmap之osshell怎么使用问题上存在疑惑,小编查阅了各式资料,整理出
本篇内容介绍了“SQL注入的知识点有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧...
1. mssql权限sa权限:数据库操作,文件管理,命令执行,注册表读取等system。是mssql的最高权限db权限:文件管理,数据库操作等 users-administratorspublic权限:数据库操作 guest-users2、sql server注入执行命令查
sql执行计划如何查看?在SPL庞大的数据中我们不知道如何查看实际数据库中发生了什么事情,有必要定期进行查询优化和索引否则会影响我们后期的SQL的查询速度。那么针对这样的问题我们必须要知道SQL执行的计划,在本文中winwin7小编给大家分享下SQL执
SQL Server 是Microsoft 公司推出的关系型数据库管理系统。具有使用方便可伸缩性好与相关软件集成程度高等优点应用非常广泛。不过在使用中,我们会遇到非常多的错误,面对这么庞大的数据库环境,当然会有精确的错误代码的对照季,下面小编分享的
SQL Server本地账户无法登陆出现错误提示:error:40-Could not open a connenction to SQL Server的问题很常见,对于初学者来说可能不知道如何解决,一起来看看下面的解决方案。解决步骤如下:1、这种情况需要开启 SQL Server service
微软推出的SQL2008是一款非常好用的数据库软件,它稳定、功能强大,为众多企业提供了最佳的数据库解决方案,那么我们如何在Windows中安装它呢,一些朋友对SQL Server 2008的安装过程还不是很熟悉,下面就一起来看看SQL Server 2008详细安装图解...
本页概要如果您使用的是 SQL Server 2005备份和还原Sp_detach_db 和 Sp_attach_db 存储过程关于排序规则的说明导入和导出数据(在 SQL Server 数据库之间复
DBCC CHECKIDENT 检查指定表的当前标识值,如有必要,还对标识值进行更正。 语法 DBCC CHECKIDENT ( &#39;table_name&#39; [ , { NORESEED
这里对 SQL Server 字符串函数进行分门别类地列出,便于查阅和记忆,相信大家都在其它方面有高深的编程基础,从字面上来说大家都知道这些函数的意义,就不对这些函数作过多的解释了,主要谈些经验,具体
查询及删除重复记录的方法 1、查找表(people)中多余的重复记录,重复记录是根据单个字段(peopleId)来判断select*frompeoplewherepeopleIdin(selectpe
微软发SQL Server 2008第二个CTP预览版from: http://news.csdn.net/n/20070807/107158.html8月7日消息,微软公司本周发布了SQL Serv
症状当您将数据库备份恢复到另一台服务器时,可能会遇到孤立用户的问题。SQL Server 联机丛书中的孤立用户疑难解答主题中没有讲述解决此问题的具体步骤。本文介绍了如何解决孤立用户问题。更多信息虽然术
当登录SQL Server 2005时可能碰到错误: &#39;No Process is on the Other End of the Pipe&#39;。解决方法:(1)Open up SQL
概要本文描述如何映射标准登录和集成登录来解决在运行 SQL Server 的服务器之间移动数据库时的权限问题。更多信息当您将数据库从一个运行 SQL Server 的服务器移到另一个运行 SQL Se
----------------------------------------问题:该用户与可信的SQL SERVER 连接无关联使用sa用户或自建用户使用“SQL SERVER 身份认证”连接数据
更新日期: 2007 年 5 月 20 日 使用下表可以确定各种版本的 Microsoft SQL Server 2005 支持哪些功能。有关 SQL Server 2005 Enterprise E
当从Excel导入数据到Sql Sever中,可能会出现以下问题:&#xD;&#xA;对于指定的缓冲区大小而言,源列的数据太大