如何解决将页脚从 s3 中的 csv 文件跳过到 Athena
我在 AWS Athena 中创建外部表时遇到问题。我有超过 1000 个 csv 文件,所有文件都有页眉和页脚,我想创建一个 Athena 表来可视化和分析所有数据。
我尝试了以下代码,但似乎删除页脚的属性不起作用:
CREATE EXTERNAL TABLE test.multi_file_test(
`value1` string COMMENT '',`value2` string COMMENT '',`value3` string COMMENT '')
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\;'
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
's3://s3_path'
TBLPROPERTIES (
'areColumnsQuoted'='false','skip.header.line.count'='1','skip.footer.line.count'='1' <<<--- It doesn't seem to work
我得到了这个结果
value1 | value2 | value3 |
---|---|---|
from_file1 | A | 1 |
from_file1 | B | 1 |
footer_file1 | ||
from_file2 | A | 2 |
from_file2 | B | 2 |
footer_file2 | ||
from_file3 | A | 3 |
from_file3 | B | 3 |
footer_file3 |
但我需要得到这个结果:
value1 | value2 | value3 |
---|---|---|
from_file1 | A | 1 |
from_file1 | B | 1 |
from_file2 | A | 2 |
from_file2 | B | 2 |
from_file3 | A | 3 |
from_file3 | B | 3 |
任何建议或解决方案都会很棒。
谢谢大家
解决方法
恐怕在 amazon athena 中没有办法这样做。
,如果您使用的是 Athena 引擎版本 1,那么这将不起作用,因为它基于 Presto 0.172,其中属性 'skip.footer.line.count'='1'
添加在 Presto 0.199 中。您必须切换到基于 Presto 0.217 的 Athena 引擎版本 2 才能正常工作。
我已经在第 2 版中进行了测试,并且能够看到这项工作。有关在 Athena 中更改版本的信息,请参阅 this。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。