如何解决如何在我的CF模板中设置Glue Crawler RecrawlPolicy
我想将我的粘合爬网程序设置为仅对s3存储桶中的新文件夹进行爬网。根据文档,看来我要将RecrawlBehavior设置为CRAWL_NEW_FOLDERS_ONLY。但是我在CloudFormation模板中找不到有关如何执行此操作的指导。
这是我的搜寻器的配置属性,但是对RecrawlBehavior的使用无效:
Configuration: "{\"Version\":1.0,\"RecrawlBehavior\":\"CRAWL_NEW_FOLDERS_ONLY\",\"CrawlerOutput\":{\"Partitions\":{\"AddOrUpdateBehavior\":\"InheritFromTable\"},\"Tables\":{\"AddOrUpdateBehavior\":\"MergeNewColumns\"}}}"
解决方法
据我了解,增量策略是Glue中的一个相对较新的功能,而Cloud尚不支持。
我可以建议克服此限制的一种解决方法是使用cloudformation创建一个搜寻器,然后使用AWS CLI更新其RecrawlPolicy属性。
使用cloudformation创建搜寻器并尝试使用CLI检索其属性时,RecrawlPolicy”将“ RecrawlBehavior”设置为“ CRAWL_EVERYTHING”。您可以使用以下命令将其更改为增量搜寻(仅对新文件夹进行搜寻)。
aws glue update-crawler
--name <crawlername>
--recrawl-policy '{"RecrawlBehavior": "CRAWL_NEW_FOLDERS_ONLY"}'
--schema-change-policy '{"UpdateBehavior":"LOG","DeleteBehavior":"LOG"}'
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。