如何解决导入.parquet文件的熊猫中的架构错误
我正在尝试通过熊猫导入本地.parquet文件以将其作为熊猫数据帧传递时遇到一些问题,
import pandas as pd
df_pandas2=pd.read_parquet('/.../classAds_'+year+month+day+'.parquet',engine='pyarrow')
这是主要输出
我只是将文件从spark hdfs目录放到本地目录中的一个木地板中,没有更多详细信息。这可能是问题之一吗?
如何在导入之前/之后解决此问题?
ValueError: Schema in /.../classAds_20201005.parquet/part-00000-d50deed1-2fc6-4aa9-8c4c-593a7faccdd2-c000.snappy.parquet was different.
CpuEff: double
my_remote_host: string
metadata
--------
{b'org.apache.spark.sql.parquet.row.metadata': b'{"type":"struct","fields":[{'
b'"name":"CpuEff","type":"doub'
b'le","nullable":true,"metadat'
b'a":{}},{"name":"my_remote_ho'
b'st","type":"string","nullabl'
b'e":true,"metadata":{}}]}'}
vs
CpuEff: double
my_remote_host: string
GLIDEIN_CMSSite: string
CRAB_Workflow: string
CRAB_Id: string
CRAB_Retry: int64
LastRemoteHost: string
metadata
--------
{b'org.apache.spark.sql.parquet.row.metadata': b'{"type":"struct","metadata":{}},{"nam'
b'e":"GLIDEIN_CMSSite","type":'
b'"string","me'
b'tadata":{}},{"name":"CRAB_Wo'
b'rkflow","nul'
b'lable":true,{'
b'"name":"CRAB_Id","type":"str'
b'ing","metada'
b'ta":{}},{"name":"CRAB_Retry"'
b',"type":"long","nullable":tr'
b'ue,{"name":"L'
b'astRemoteHost","type":"strin'
b'g","metadata'
b'":{}}]}'}
```
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。