编程问答 - 编程之家

使用python分割数据框取决于csv文件大小

我有一个非常大的数据框,有超过一百万条记录和5列.我想将此数据帧保存到csv并将其拆分为多个部分,以便每个文件在压缩后最大不超过500MB.是否可以在不将数据帧保存到我的机器并在那里检查的情况下执行此操作？最佳答案如果不保存,您将无法知道CSV文件的大小.可以保存大数据框的一部分,并使用其文件大小来估算每行的大小.import pandas as pd b

运行bash命令在Python3中复制粘贴文件是否可靠？

使用以下代码在Python3中复制文件需要花费大量时间：shutil.copy(self.file,self.working_dir)但是,Linux的cp命令非常快.如果我尝试从Python3执行bash命令来复制大小大于100GB的文件,那么这对于生产服务器是否是可靠的选择？我已经看到this的答案,但是它的建议不是很快.最佳答案如果您在Windows上

Python密码术导出密钥到DER

过去使用PyCrypto时,我能够执行以下操作来生成RSA公钥的指纹：rsa_cipher = PKCS1_v1_5.new(RSA.importKey(pub_rsa_key)) hashlib.sha1(rsa_cipher._key.exportKey('DER')).hexdigest() 没有PyCrypto,我该如何做到相同？编辑我在pub_rs

获取输入数组和输出数组项以将模型转换为tflite格式

PS.请不要将我指向converting Keras model directly to tflite,因为我的.h5文件无法直接转换为.tflite.我以某种方式设法将我的.h5文件转换为.pb我关注了this Jupyter笔记本,使用Keras进行面部识别.然后,我将模型保存到model.h5文件,然后使用this将其转换为冻结图model.pb.现在

使用python请求登录laravel应用

我想使用python请求登录Laravel应用并在登录后获取首页的内容,我尝试过：import requests import re URL = 'laravelapp.url' session = requests.session() front = session.get(URL) csrf_token = re.findall(r'<inp

python-给定数据类型的所有列的列表

是否可以对熊猫中的数据类型进行分组？例如我需要“对象”或“浮动”类型的所有列的列表.此代码将返回我所需要的.我正在寻找一种更好的方法来实现这一目标(如果可能).from collections import defaultdict food_count = defaultdict(list) for i, v in dict(df.dtypes).item

如何在带有if __name __ =’__ main__’块的Python3中使用相对导入？

我正在制作一个包,如果__name __ =='__ main__'：测试用的块,则该包中的模块内部都有代码.但是我尝试在这些模块中使用相对导入会导致错误.我已经阅读了此主题以及其他十亿主题：Relative imports for the billionth time在将其标记为重复项之前,如果我想做的事情在Python3中是不可能的,那么我的问题是为什么

在python字典中为mypy指定键

假设我有一些类似的代码def get_x(d: dict) -> int: d['x'] 但是,我想告诉mypy d仅应包含某些键(例如,仅包含“ x”键).这样,如果我在尝试引用无效键d的代码中犯了一个错误,那么mypy将触发错误.我的问题是：>这可能吗？ Mypy可以验证字典密钥吗？>如果是,该如何完成？如果否,是否有首选的解决

numpy.where()在此示例中究竟如何选择元素？

从numpy docs起>>> np.where([[True, False], [True, True]], ... [[1, 2], [3, 4]], ... [[9, 8], [7, 6]]) array([[1, 8], [3, 4]]) 我以[[True,False

如何在不复制列的情况下合并熊猫数据帧

我有以下形式的数据：frame1 = pd.DataFrame({'supplier1_match0': ['x'], 'id': [1]}) frame2 = pd.DataFrame({'supplier1_match0': ['2x'], 'id': [2]}) 并希望将多个框架加入这样的框架：base_frame = pd.DataFrame({'i

带有重复行的2d NumPy数组重塑为3d

我有一个NumPy数组,如下所示：arr = np.array([[1,2,3,4,5],[6,7,8,9,10],[11,12,13,14,15],[16,17,18,19,20]]) 我正在寻找这样的安排：[[[6,7,8,9,10], [1,2,3,4,5]], [[11,12,13,14,15], [6,7,8,9,10]], [[16,

python-从日志文件中提取特定单词(不是关键字)

我正在尝试从下面的sample.txt中提取一些单词(如预期的输出所示)并将它们放在列表中.我在提取正确字段方面面临困难.我已经尝试了我的方法,但是在大多数情况下不起作用.我更喜欢使用python来执行此操作,但是可以使用其他语言.任何其他方法的指针都将受到赞赏.sample.log//************************************

python-Multiprocessing Pool.apply执行n-1次

我在multiprocessing.Pool.apply中遇到问题.我的目标是要有5个过程,每个过程用100个元素填充一个数组(此测试为100个),然后将数组合并为长度为500的单个数组.问题是,由于任何原因,最终只能包含400个元素了解.我尝试过更改池创建的进程数量,但是除了执行时间外,它什么都没有改变.import torch.multiprocessi

python-将多嵌套的dict / json加载到熊猫中

我正在尝试将一个非常混乱的多嵌套JSON加载到熊猫中.我已经在使用json_normalize,但是试图弄清楚我如何加入2个similair嵌套字典,以及解压缩它们的子字典和列表,这一直困扰着我.我对大熊猫的了解有限,但我假设如果可以解决的话,我可以利用它的性能优势.我有2个包含战争数据的字典,一个是从JSON API响应中加载的,另一个是在数据库中的.我正

python-有没有一种方法可以将新列添加到pandas数据框,并将新列的每个唯一值附加到数据框的每个现有行？

给定一个熊猫数据框：fruit_prices = [('apple', 5.99), ('orange', 4.99), ('pear', 6.99)] labels = ['fruit', 'price'] fruit_prices = pd.DataFrame.from_records(datasets, co

python-熊猫集团然后滚动和求和得到错误的结果

我想对A列进行分组,然后对B列的最后3行进行求和.df = pd.DataFrame() df['A'] = [1, 1, 1, 1, 2, 2, 2, 2] df['B'] = [1, 2, 3, 4, 1, 2, 3, 4] 我试过了.df['sum_B_previous_3'] = df.groupby('A').B.shift(1).rolling(

构建python项目

我需要知道如何设置__init__.py和import以便构造一个python项目,在这里我可以在整个包中使用完全限定的名称.该软件包将包含许多子软件包,其中可能包含冲突的名称.包中包含的类将彼此子类化,并包含彼此的引用.将生成该项目,因此使用完全限定的名称将使生活变得更加简单.这个示例项目代表了我要针对的结构,但只包含一个子项目,而IDE似乎对它运行时失败

CodeGo.net>如何计算包含在DataFrame中的按行表达式(如df.eval()但动态)？

假设您的DataFrame的列包含表达式(请参阅其他列),是否可以评估该列中包含的表达式？我知道可以使用pd.eval()和df.eval()进行按列操作(如下所示).示例取自：https://jakevdp.github.io/PythonDataScienceHandbook/03.12-performance-eval-and-query.html假设

张量操作python中的内存和时间

目标我的目标是计算公式的张量,您可以在下面看到.索引i,j,k,l从0到40以及p,m,x从0到80.Tensordot方法这个总和只是收缩6个巨大张量的索引.我试图通过允许这种计算的张量点来做到这一点,但是即使我先执行一个张量点然后再执行另一个张量点,我的问题还是内存. (我在colab中工作,所以我有12GB的可用内存)嵌套循环法但是控制B矩阵有一些附加

python-如何使用命令行在pytest中传递多个参数？

我想将输入作为命令行选项传递给pytest文件. https://stackoverflow.com/a/42145604/8031479这个问题很有帮助,但我不知道添加多个解析器采用.我尝试将其添加到我的conftest.py文件中,但没有帮助：def pytest_addoption(parser): ''' This funct