如何解决使用熊猫数据框的Haversine距离计算“无法将系列转换为<class'float'>”
我正在尝试在熊猫数据框上使用Haversine calc。
from math import radians,cos,sin,asin,sqrt
def haversine(lon1,lat1,lon2,lat2):
# convert decimal degrees to radians
lon1,lat2 = map(radians,[lon1,lat2])
# haversine formula
dlon = lon2 - lon1
dlat = lat2 - lat1
a = sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2
c = 2 * asin(sqrt(a))
r = 3956
return c * r
在使用以下代码时有效:
haversine(-73.9881286621093,40.7320289611816,-73.9901733398437,40.7566795349121)
但是,当我像这样对Pandas DataFrame使用它时:
train_data['Distance_Travelled'] = train_data.apply(lambda row: haversine(train_data['pickup_longitude'],train_data['pickup_latitude'],train_data['dropoff_longitude'],train_data['dropoff_latitude']),axis=1)
我收到以下错误消息。
"cannot convert the series to <class 'float'>"
我尝试了多种类型的转换,但是每次尝试都会导致相同的错误。我知道数学期望浮动,但是我不明白为什么Pandas系列不能被转换为浮动。
需要进行哪些编辑才能起作用,为什么?
解决方法
请勿使用apply
,因为它不是矢量化的。另外,请使用numpy中的矢量化函数:
def haversine(lon1,lat1,lon2,lat2):
lon1,lat2 = np.deg2rad([lon1,lat2])
dlon = lon2 - lon1
dlat = lat2 - lat1
a = np.sin(dlat/2)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2)**2
c = 2 * np.asin(np.sqrt(a))
r = 3956
return c * r
train_data['Distance_Travelled'] = haversine(train_data['pickup_longitude'],train_data['pickup_latitude'],train_data['dropoff_longitude'],train_data['dropoff_latitude']
)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。