如何解决与直接连接到数据库和检索数据相比,搜寻器有何优势?
在AWS Glue作业中,为了从DB或S3检索数据,我们可以使用两种方法。 1)使用Crawler 2)使用直接连接到DB或S3。
因此,我的问题是:与直接连接到数据库并检索数据相比,爬网程序有何优势?
解决方法
AWS Glue Crawlers将不会检索实际数据。抓取工具访问您的数据存储,并按优先级排序分类列表进行操作,以提取数据的架构和其他统计信息,然后使用此元数据填充胶水数据目录。可以将爬网程序安排为定期运行,以检测新数据的可用性以及对现有数据的更改,包括数据爬网程序对表定义所做的更改。抓取工具会自动向现有表中添加新表,新分区以及表定义的新版本。
AWS Glue数据目录成为之间的通用元数据存储库 Amazon Athena,Amazon Redshift Spectrum,Amazon S3。 AWS胶水爬行器 帮助构建此元数据存储库。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。