从Glue运行时在两个AWS帐户之间进行写入时设置S3存储桶权限

如何解决从Glue运行时在两个AWS帐户之间进行写入时设置S3存储桶权限

我有一个Scala jar，我正在从AWS Glue作业中调用它。我的jar编写了将DataFrame写入另一个已启用KMS加密的AWS账户中的S3存储桶的操作。我可以写入存储桶，但是无法添加目标存储桶所有者访问文件的权限。如果仅使用Glue Writer但直接使用Spark，就可以实现此目的。我已经阅读了所有文档，并在hadoop配置中设置了以下存储桶策略。

def writeDataFrameInTargetLocation（sparkContext：SparkContext = null，dataFrame：DataFrame，location：字符串， fileFormat：字符串，saveMode：字符串，encryptionKey：Option [String] = Option.empty，kms_region：Option [String] = Option（“ us-west-2”））：单位= {

if（encryptionKey.isDefined）{ val region = if（kms_region.isDefined）kms_region.getOrElse（“ us-west-2”）其他 “ us-west-2”

    sparkContext.hadoopConfiguration.set("fs.s3.enableServerSideEncryption","false")
    sparkContext.hadoopConfiguration.set("fs.s3.cse.enabled","true")
    sparkContext.hadoopConfiguration.set("fs.s3.cse.encryptionMaterialsProvider","com.amazon.ws.emr.hadoop.fs.cse.KMSEncryptionMaterialsProvider")
    sparkContext.hadoopConfiguration.set("fs.s3.cse.kms.keyId",encryptionKey.get) // KMS key to encrypt the data with
      sparkContext.hadoopConfiguration.set("fs.s3.cse.kms.region",region) // the region for the KMS key
    sparkContext.hadoopConfiguration.set("fs.s3.canned.acl","BucketOwnerFullControl")
    sparkContext.hadoopConfiguration.set("fs.s3.acl.default","BucketOwnerFullControl")
    sparkContext.hadoopConfiguration.set("fs.s3.acl","bucket-owner-full-control")
    sparkContext.hadoopConfiguration.set("fs.s3.acl","BucketOwnerFullControl")
  }
  else {
    sparkContext.hadoopConfiguration.set("fs.s3.canned.acl","BucketOwnerFullControl")
  }

    val writeDF = dataFrame
      .repartition(5)
      .write

    
      writeDF
        .mode(saveMode)
        .option(Header,true)
        .format(fileFormat)
        .save(location)
    }

解决方法

您可能正在将S3AFileSystem实现用于“ s3”方案（即形式为“ s3://...”的URL）。您可以通过查看sparkContext.hadoopConfiguration.get("fs.s3.impl")进行检查。如果是这种情况，那么实际上您需要为“ fs.s3a.*”而不是“ fs.s3.*”设置hadoop属性。

那么正确的设置应该是：

sparkContext.hadoopConfiguration.set("fs.s3a.canned.acl","BucketOwnerFullControl")
sparkContext.hadoopConfiguration.set("fs.s3a.acl.default","BucketOwnerFullControl")

S3AFileSystem实现未使用“ fs.s3”下的任何属性。通过研究与以下hadoop源代码链接相关的代码，您可以看到这一点： https://github.com/apache/hadoop/blob/43e8ac60971323054753bb0b21e52581f7996ece/hadoop-tools/hadoop-aws/src/main/java/org/apache/hadoop/fs/s3a/Constants.java#L268

从Glue运行时在两个AWS帐户之间进行写入时设置S3存储桶权限

如何解决从Glue运行时在两个AWS帐户之间进行写入时设置S3存储桶权限

解决方法

相关推荐