aws-glue - 编程之家

我希望从 AWS Glue 连接到弹性搜索。我遵循了这个<a href="https://stackoverflow.com/questions/62829791/input-data-to-aws-e

我正在关注 <a href="https://stackoverflow.com/questions/58205999/how-can-i-use-an-external-python-library-in-aws-glue">this</a> 之

我使用 Spark、Presto、Hadoop、Zeppelin、Hive 等创建了一个 EMR (v 5.32)。我启用了这些： <ol> <li>为 Presto 使

我需要从 AWS 胶水向 Postgres 数据库中插入一行，然后在它继续沿 ETL 管道向下时定期更新它的状态。我的

我有一个带有 Map 的 Step Function，可以使用自定义参数运行 5 个并行的 Glue 作业，如下所示： <pre><code>

嗨，我正在创建一个表格 - <pre><code>CREATE EXTERNAL TABLE `historyrecordjson`( `last_name` string COMMENT 'from dese

我需要计算 GLUE 中表格的统计信息。以下是我为计算表的统计信息而创建的当前设置。 <ol> <li>创建一

我是新的 AWS 胶水。我需要将动态框架中的每条记录写入 s3 中的自定义文件夹路径。例如 <hr/> 以

<strong>我的场景</strong> <ul> <li>我在具有 400 万条记录的 AWS 粘合作业中有一个 spark 数据框</li> <li>我需

我有一个 Glue 作业，它将数据从表数据目录复制到创建的表到 Redshift，如下所示： <ul> <li>catalog 中

我正在使用 Athena，并且每天要处理大约 1000 个原始压缩数据文件（每个文件 13MB）。我需要有效地处理

我正在使用 AWS Glue 将 dynamodb 表数据传输到 s3 存储桶。它的工作完全正常。但是我无法将新添加的数据

我正在尝试使用 AWS Glue 将数据从 dynamodb 发送到 s3。在文档中，提到作业书签将保持过去作业的状态，因

尝试从 s3 存储桶读取 Input.csv 文件，获取不同的值（并进行一些其他转换），然后写入 target.csv 文件，

我正在尝试构建一个从 S3 读取的分类器。爬虫作业完成了，但是当我在 Athena 中查询数据时，第四列在

我有一个 xml zip 文件。我可以使用胶水爬虫创建模式吗？我试图使用爬虫 XML 分类器并将分类器添加到

我正在通过 lambda 函数将缩小的 JSON 文件上传到 S3，该函数使用 API 调用提取数据并将一些数据保存为 JSO

我有这个代码片段，我只使用 100 条记录在独立模式下在本地运行： <pre><code>from awsglue.context import Glue

我有一个 AWS Glue 作业，它应该将动态框架中的结果写入 Redshift 数据库。为此，我设置了到 Redshift 的 Glu

我想使用 Aws 胶水（pyspark 代码）和 SNS 在电子邮件中将数据帧结果作为正文发送。您能否分享任何