如何解决是否可以删除基础镶木地板文件而不会对DeltaLake _delta_log 这个总和是什么意思?如果从文件系统中删除实木复合地板怎么办?
在DeltaLake表上使用.vacuum()
非常慢(请参阅Delta Lake (OSS) Table on EMR and S3 - Vacuum takes a long time with no jobs)。
如果我手动删除了基础镶木地板文件,并且没有添加新的json
日志文件或添加新的.checkpoint.parquet
文件并更改指向该文件的_delta_log/_last_checkpoint
文件;如果有的话,对DeltaLake表的负面影响是什么?
很显然,时间旅行,即加载依赖于我删除的实木复合地板文件的表格的先前版本是行不通的。我想知道的是,在读取,写入或附加到DeltaLake表的当前版本时是否会有任何问题?
我想在pySpark中做什么:
### Assuming a working SparkSession as `spark`
from subprocess import check_output
import json
from pyspark.sql import functions as F
awscmd = "aws s3 cp s3://my_s3_bucket/delta/_delta_log/_last_checkpoint -"
last_checkpoint = str(json.loads(check_output(awscmd,shell=True).decode("utf-8")).get('version')).zfill(20)
s3_bucket_path = "s3a://my_s3_bucket/delta/"
df_chkpt_del = (
spark.read.format("parquet")
.load(f"{s3_bucket_path}/_delta_log/{last_checkpoint}.checkpoint.parquet")
.where(F.col("remove").isNotNull())
.select("remove.*")
.withColumn("deletionTimestamp",F.from_unixtime(F.col("deletionTimestamp")/1000))
.withColumn("delDateDiffDays",F.datediff(F.col("deletionTimestamp"),F.current_timestamp()))
.where(F.col("delDateDiffDays") < -7 )
)
这里有很多选择。一种可能是:
df_chkpt_del.select("path").toPandas().to_csv("files_to_delete.csv",index=False)
在这里我可以将files_to_delete.csv
读入bash数组,然后使用一个简单的bash for
循环将每个镶木文件s3路径传递到aws s3 rm
命令,以逐个删除文件。
这可能比vacuum()
慢,但是至少它在工作时不会消耗群集资源。
如果我这样做,我是否也必须:
- 编写一个新的
_delta_log/000000000000000#####.json
文件来正确记录这些更改? - 编写一个新的
000000000000000#####.checkpoint.parquet
文件以正确记录这些更改并更改_delta_log/_last_checkpoint
文件以指向该checkpoint.parquet
文件吗?
第二种选择会更容易。
但是,如果我只删除文件并且不更改_delta_log
中的任何内容,如果没有负面影响,那将是最简单的。
解决方法
TLDR。回答这个问题。
如果我手动删除了基础镶木地板文件,并且没有添加新的json日志文件,也没有添加新的.checkpoint.parquet文件并更改指向它的_delta_log / _last_checkpoint文件;如果有的话,对DeltaLake表的负面影响是什么?
是,这可能会破坏您的增量表。
让我简要回答delta-lake如何使用_delta_log
读取版本。
如果您要读取版本x
,它将进入从1
到x-1
的所有版本的增量日志,并将不断读取实木复合地板文件。每10个版本后,此过程的摘要就会另存为.checkpoint
,以使此求和过程高效。
这个总和是什么意思?
假设,
版本1日志中说,添加add file_1,file_2,file_3
版本2日志中说,添加delete file_1,and add file_4
因此,当阅读版本2时,总指令为
add file_1,file_3 -> delete file_1,and add file_4
因此,读取的结果文件将是file_3和file_4。
如果从文件系统中删除实木复合地板怎么办?
假设在版本3中,您从文件系统中删除了file_4
。如果您不使用.vacuum
,则增量日志将不会知道file_4
不存在,它将尝试读取它并失败。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。