aws-glue - 编程之家

我正在尝试运行一个简单的Glue作业，该作业将从AWS S3中获取内容并将其转储到AWS Aurora Postgresql中。虽然

我需要使用来自AWS GLUE的ETL和Python使用ETL从SQL Server数据库中提取信息，这是我想要做的 <pre><code>import

我已经在Glue中成功创建了一个表。但是在雅典娜中看不到。 <a href="https://i.stack.imgur.com/UB8l6.png" rel

我刚接触AWS Glue，想了解如何执行以下操作： <ol> <li>从AWS Glue中的URL提取CSV文件</li> <li>将数据集与我

我想限制用户在雅典娜的主表（不是CTAS表）中执行INSERT查询。如果可以的话，我能做到吗？用户将从La

我最近开始在AWS上探索一些ETL解决方案，并发现了AWS胶水。到目前为止，事实证明这是一个主要的时间

有一个庞大的数据集，每个数据集需要从一个帐户中的s3复制到另一个帐户，每个大约2 GB。对于源帐户

我每天将数据一次转储到<em> s3：// <bucket> /mydata/year=*/month=*/*.snappy.parquet </em>作为该月的累积数据。我有

我有一个aws胶水数据库，其名称中带有“-”。该数据库包含一堆表。我想知道是否可以重命名该数据

我正在尝试使用AWS Glue创建动态框架。当我尝试在动态框架中使用Additional_options时，出现以下错误 <pr

我几乎每天都会看到Glue Notebook错误（粘贴在下面）。我必须重新启动内核/关机/或其他很多东西。在属

我正在尝试使用搜寻器将rds（postgresql）表加载到胶目录中。有什么方法可以只从rds加载所需的表？ <p

AWS胶水星火2.4 Python3 胶水Version2.0 使用Colomn方法多次调用数据框后，我发现了StackOverflowException。<

我试图使用spark jdbc从表中读取5亿条记录，然后对该表进行性能联接。当我从sql developer执行sql时，需要2

看起来这是一个已知问题，但是我的情况有些不同。我的Athena表的数据源是一个s3存储桶，我对它进行了

看起来我不能一次将同一作业添加到工作流程中，但是我需要使用不同的参数多次运行同一Glue作业。不

在带有Scala的Spark中，我需要分离出具有<code>_corrupt_record</code>的传入数据。我有以下代码：

作为数据验证的一部分，我有处理多个表的用例。表的数量几乎是2000。由于SLA严格，现在需要同时处理

AWS Glue的新手。我正在尝试通过Glue作业插入redshift表，该作业具有S3搜寻器来读取csv文件和redshift映射的

我有一个要求，其中一列“ transaction_id”类型为Struct（Double，int）。我想将其转换为Double transactio