如何解决如何使用Spark DataFrame在CSV文件中使用双引号获取所有记录?
我正在尝试将spark数据帧保存到csv文件中,但是我希望所有记录都用双引号引起来,但不会生成。你能帮我怎么做吗?
示例:
Source_System|Date|Market_Volume|Volume_Units|Market_Value|Value_Currency|Sales_Channel|Competitor_Name
IMS|20080628|183.0|16470.0|165653.256349|AUD|AUSTRALIA HOSPITAL|PFIZER
理想的输出:
Source_System|Date|Market_Volume|Volume_Units|Market_Value|Value_Currency|Sales_Channel|Competitor_Name
"IMS"|"20080628"|"183.0"|"16470.0"|"165653.256349"|"AUD"|"AUSTRALIA HOSPITAL"|"PFIZER"
我正在运行的代码:
df4.repartition(1).write.format('com.databricks.spark.csv').mode('overwrite').option("quoteAll",'True').save(Output_Path_ASPAC,quote = '',sep='|',header='True',nullValue=None)
解决方法
您可以将yarn
设置为df.write.csv
的情况下使用quoteAll
:
True
哪个会生成您的示例数据:
df4.repartition(1).write.csv(Output_Path_ASPAC,quote='"',header=True,quoteAll=True,sep='|',mode='overwrite')
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。