如何解决将系列指定为Dask数据集中的一列
我第一次与Dask合作,但遇到了一些我无法解决的问题。我一直在尝试将“系列”分配为我的Dask数据集中的一列,但它不起作用。经过多次试验并收到错误消息后,我到了没有收到错误消息的地步,但是系列的仅一部分显示为数据集中的一列。在Data.head()上的合并看起来不错,但是当我运行Data.tail()时,有一堆NaN值应该有数字。我已经检查了系列的长度,这样就可以了。在“合并”过程中发生了一些事情,这使其忽略了我的系列的一部分。
我用于合并数据的行是
Data = Data.assign(Distances = dd.from_array(Distance))
由于它对于第一个值运行良好,因此我无法创建最小的可重现示例,对此我感到抱歉,但是变量Distance是一个带浮点数的numpy.ndarray,而Data是我的Dask数据集。
似乎当我运行dd.from_array函数时,它只是将原始数组的一部分转换为Series,而我不知道为什么。
如果您对如何解决有任何建议,将不胜感激!
更新
我能够通过显式通知dd.to_array函数中的chunksize大于我拥有的数据点数来解决这个问题。但是,这是正常的做法吗? Dask为什么不使用现有数据大小作为块大小的参考?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。