Pandas--read_csv,to_csv参数说明

文件读取 pandas.read_csv

pandas.read_csv(filepath_or_buffer, 
				sep=NoDefault.no_default, 
				delimiter=None, 
				header='infer', 
				names=NoDefault.no_default, 
				index_col=None, 
				usecols=None, 
				squeeze=None, 
				prefix=NoDefault.no_default, 
				mangle_dupe_cols=True, 
				dtype=None, 
				engine=None, 
				converters=None, 
				true_values=None, 
				false_values=None, 
				skipinitialspace=False, 
				skiprows=None, 
				skipfooter=0, 
				nrows=None, 
				na_values=None, 
				keep_default_na=True, 
				na_filter=True, 
				verbose=False, 
				skip_blank_lines=True, 
				parse_dates=None, 
				infer_datetime_format=False, 
				keep_date_col=False, 
				date_parser=None, 
				dayfirst=False, 
				cache_dates=True, 
				iterator=False, 
				chunksize=None, 
				compression='infer', 
				thousands=None, 
				decimal='.', 
				lineterminator=None, 
				quotechar='"', 
				quoting=0, 
				doublequote=True, 
				escapechar=None, 
				comment=None, 
				encoding=None, 
				encoding_errors='strict', 
				dialect=None, 
				error_bad_lines=None, 
				warn_bad_lines=None, 
				on_bad_lines=None, 
				delim_whitespace=False, 
				low_memory=True, 
				memory_map=False, 
				float_precision=None, 
				storage_options=None)

参数:

  • filepath_or_buffer:str, path object or file-like object.字符串。任何有效的字符串路径都可以,网址也行。
  • sep:str, default ‘,’。字符串,表示分隔符,默认为’,’ .。一个字符及以上都可以,注意如果是转义字符要加’’
  • delimiter:str, default None。字符串,sep的别名,默认None。
  • header:int, list of int, None, default ‘infer’。用作列名的行号,默认是0(第一行),如果没有列名默认None。
  • names:array-like, optional。结果的列名列表,与header=None共同使用。
  • index_col:int, str, sequence of int / str, or False, optional, default None。用作结果中行索引的列号或列名,可以是一个单一的名称\数字,也可以是一个分层索引。
  • usecols:list-like or callable, optional。返回列的子集。
  • squeeze:bool, default False。如果解析的数据仅包含一列,则返回一个Series。
  • prefix:str, optional。没有标题时要添加到列号的前缀
  • mangle_dupe_cols:bool, default True。重复的列将被指定为“ X”,“ X.1”,……“ X.N”,而不是“ X”……“ X”。如果列中的名称重复,则False将导致数据被覆盖。
  • dtype:Type name or dict of column -> type, optional。数据或列的数据类型。
  • engine:{‘c’, ‘python’, ‘pyarrow’}, optional。要使用的解析器引擎。C引擎速度更快,而python引擎当前功能更完善。
  • converters:dict, optional。包含列名称映射到函数的字典,例如{‘foo’: f}会把函数f应用到’foo’列。
  • true_values:list, optional。视为True的值
  • false_values:list, optional。视为False的值
  • skipinitialspace:bool, default False。在定界符后跳过空格。
  • skiprows:list-like, int or callable, optional。在文件开始处要跳过的行号(索引为0)或要跳过的行数(整数)。
  • skipfooter:int, default 0。忽略文件尾部的行数。
  • nrows:int, optional。从文件开头处读入的行数。
  • na_values:scalar, str, list-like, or dict, optional。需要用NA替换的值序列。
  • keep_default_na:bool, default True。解析数据时是否包括默认的NaN值。
  • na_filter:bool, default True。检测缺失值标记(空字符串和na_values的值)。请注意,如果将na_filter传递为False,则将忽略keep_default_na和 na_values参数。
  • verbose:bool, default False。打印各种解析器输出的信息,比如位于非数值列中的缺失值的数量。
  • skip_blank_lines:bool, default True。如果为True,跳过空白行,并且不解释为NaN值。
  • parse_dates:bool or list of int or names or list of lists or dict, default False。尝试将数据解析为datetime,默认为False。如果为True,将尝试解析所有的列。也可以指定列号或列名列来进行解析。如果列表的元素是元组或列表,将会把多个列组合在一起进行解析(例如日期\时间将拆分成两列)
  • infer_datetime_format:bool, default False。如果启用True和parse_dates,则pandas将尝试推断列中日期时间字符串的格式,并且如果可以推断出日期格式,就会切换到更快的解析它们的方法。
  • keep_date_col:bool, default False。如果连接列到解析日期上,保留被连接的列,默认为False。
  • date_parser:function, optional。用于解析日期的函数。
  • dayfirst:bool, default False。解析非明确日期时,DD / MM格式的日期,国际和欧洲格式。
  • cache_dates:bool, default True。如果为True,则使用唯一的转换日期缓存来应用datetime转换。
  • iterator:bool, default False。返回TextFileReader对象,用于零散地读入文件。
  • chunksize:int, optional。用于迭代的块大小。
  • compression:str or dict, default ‘infer’。用于对磁盘数据进行即时解压缩。设置为“无”将不进行解压缩。
  • thousands:str, optional。千位分隔符。
  • decimal:str, default ‘.’。识别为小数点的字符(例如,对于欧洲数据,请使用“,”)。
  • lineterminator:str (length 1), optional。用于将文件分成几行的字符。仅对C解析器有效。
  • quotechar:str (length 1), optional。用于表示引用项目的开始和结束的字符。
  • quoting:int or csv.QUOTE_* instance, default 0
  • doublequote:bool, default True。如果指定quotechar而未使用引号QUOTE_NONE,则指示是否将一个字段内的两个连续的quotechar元素解释为单个quotechar元素。
  • escapechar:str (length 1), optional。一字符字符串,用于转义其他字符。
  • comment:str, optional。在行结尾处分隔注释的字符。
  • encoding:str, optional。读/写时用于UTF的编码(例如’utf-8’)。
  • encoding_errors:str, optional, default “strict”。默认情况下,具有太多字段的行(例如,带有太多逗号的csv行)将引发异常,并且不会返回任何DataFrame。如果为False,则这些“坏行”将从返回的DataFrame中删除。
  • dialect:str or csv.Dialect, optional。如果提供的话,该参数将覆盖为以下参数的值(默认或不):delimiter, doublequote, escapechar, skipinitialspace, quotechar, and quoting。
  • warn_bad_lines:bool, optional, default None。如果error_bad_lines为False,而warn_bad_lines为True,则将为每个“坏行”输出警告。
  • on_bad_lines:{‘error’, ‘warn’, ‘skip’} or callable, default ‘error’
  • delim_whitespace:bool, default False。指定是否将空格(例如或)用作分隔符。
  • low_memory:bool, default True。在内部对文件进行分块处理,从而在解析时减少了内存使用。
  • memory_map:bool, default False。如果为filepath_or_buffer提供了文件路径,则将文件对象直接映射到内存中,然后直接从那里访问数据。使用此选项可以提高性能,因为不再有任何I / O开销。
  • float_precision:str, optional。指定C引擎应将哪个转换器用于浮点值。
  • storage_options:dict, optional。解析特殊的URL。如果为该参数提供非fsspec URL,则会引发错误。

返回值:
DataFrame or TextParser

import pandas as pd
pd.read_csv('data.csv')

分块读入文件

  1. 读取前五行,指明nrows=5
import pandas as pd

df = pd.read_csv('test.csv', nrows=5)

pandas.DataFrame.to_csv

DataFrame.to_csv(path_or_buf=None, 
				sep=',', 
				na_rep='', 
				float_format=None, 
				columns=None, 
				header=True, 
				index=True, 
				index_label=None, 
				mode='w', 
				encoding=None, 
				compression='infer', 
				quoting=None, 
				quotechar='"', 
				line_terminator=None, 
				chunksize=None, 
				date_format=None, 
				doublequote=True, 
				escapechar=None, 
				decimal='.', 
				errors='strict', 
				storage_options=None)

参数:

  • path_or_buf:str, path object, file-like object, or None, default None。字符串或文件目录,文件路径或对象,如果未提供,结果将作为字符串返回。如果传递了一个文件对象,应该用换行= ’ ',禁用通用换行符。
  • sep:str, default ‘,’。输出文件的字段分隔符。
  • na_rep:str, default ‘’。字符串,默认为 ‘’ 浮点数格式字符串。
  • float_format:str, default None。浮点数格式字符串。
  • columns:sequence, optional。写出列名。如果给定字符串列表,则假定为列名的别名。
  • header:bool or list of str, default True。指定行数用来作为列名,数据开始行数。
  • index:bool, default True。写入行名称(索引)。
  • index_label:str or sequence, or False, default None
  • mode:str。Python写模式,默认“w”
  • encoding:str, optional。表示在输出文件中使用的编码的字符串,Python 2上默认为“ASCII”和Python 3上默认为“UTF-8”。
  • compression:str or dict, default ‘infer’。表示在输出文件中使用的压缩的字符串,允许值为“gzip”、“bz2”、“xz”,仅在第一个参数是文件名时使用。
  • quoting:optional constant from csv module。默认值为to_csv.QUOTE_MINIMAL。如果设置了浮点格式,那么浮点将转换为字符串,因此csv.QUOTE_NONNUMERIC会将它们视为非数值的。
  • quotechar:str, default ‘"’。用于引用字段的字符
  • line_terminator:str, optional
  • chunksize:int or None。一次写入行。
  • date_format:str, default None。字符串对象转换为日期时间对象
  • doublequote:bool, default True。控制一个字段内的quotechar。
  • escapechar:str, default None。在适当的时候用来转义sep和quotechar的字符。
  • decimal:str, default ‘.’。字符识别为小数点分隔符。例如。欧洲数据使用 ​​’,’。
  • errors:str, default ‘strict’
  • storage_options:dict, optional

返回值:
None or str

df = pd.DataFrame({'name': ['Raphael', 'Donatello'],
                   'mask': ['red', 'purple'],
                   'weapon': ['sai', 'bo staff']})
df.to_csv(index=False)
# 'name,mask,weapon\nRaphael,red,sai\nDonatello,purple,bo staff\n'

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


学习编程是顺着互联网的发展潮流,是一件好事。新手如何学习编程?其实不难,不过在学习编程之前你得先了解你的目的是什么?这个很重要,因为目的决定你的发展方向、决定你的发展速度。
IT行业是什么工作做什么?IT行业的工作有:产品策划类、页面设计类、前端与移动、开发与测试、营销推广类、数据运营类、运营维护类、游戏相关类等,根据不同的分类下面有细分了不同的岗位。
女生学Java好就业吗?女生适合学Java编程吗?目前有不少女生学习Java开发,但要结合自身的情况,先了解自己适不适合去学习Java,不要盲目的选择不适合自己的Java培训班进行学习。只要肯下功夫钻研,多看、多想、多练
Can’t connect to local MySQL server through socket \'/var/lib/mysql/mysql.sock问题 1.进入mysql路径
oracle基本命令 一、登录操作 1.管理员登录 # 管理员登录 sqlplus / as sysdba 2.普通用户登录
一、背景 因为项目中需要通北京网络,所以需要连vpn,但是服务器有时候会断掉,所以写个shell脚本每五分钟去判断是否连接,于是就有下面的shell脚本。
BETWEEN 操作符选取介于两个值之间的数据范围内的值。这些值可以是数值、文本或者日期。
假如你已经使用过苹果开发者中心上架app,你肯定知道在苹果开发者中心的web界面,无法直接提交ipa文件,而是需要使用第三方工具,将ipa文件上传到构建版本,开...
下面的 SQL 语句指定了两个别名,一个是 name 列的别名,一个是 country 列的别名。**提示:**如果列名称包含空格,要求使用双引号或方括号:
在使用H5混合开发的app打包后,需要将ipa文件上传到appstore进行发布,就需要去苹果开发者中心进行发布。​
+----+--------------+---------------------------+-------+---------+
数组的声明并不是声明一个个单独的变量,比如 number0、number1、...、number99,而是声明一个数组变量,比如 numbers,然后使用 nu...
第一步:到appuploader官网下载辅助工具和iCloud驱动,使用前面创建的AppID登录。
如需删除表中的列,请使用下面的语法(请注意,某些数据库系统不允许这种在数据库表中删除列的方式):
前不久在制作win11pe,制作了一版,1.26GB,太大了,不满意,想再裁剪下,发现这次dism mount正常,commit或discard巨慢,以前都很快...
赛门铁克各个版本概览:https://knowledge.broadcom.com/external/article?legacyId=tech163829
实测Python 3.6.6用pip 21.3.1,再高就报错了,Python 3.10.7用pip 22.3.1是可以的
Broadcom Corporation (博通公司,股票代号AVGO)是全球领先的有线和无线通信半导体公司。其产品实现向家庭、 办公室和移动环境以及在这些环境...
发现个问题,server2016上安装了c4d这些版本,低版本的正常显示窗格,但红色圈出的高版本c4d打开后不显示窗格,
TAT:https://cloud.tencent.com/document/product/1340