aws-glue - 编程之家

目标是使用Glue将数据（csv文件）从一个S3存储桶转换为另一个S3存储桶。我已经尝试过的：

我有2个AWS账户，我想从Y账户访问X AWS存储桶，这些是AWS账户，而不是用户。所以我创建了以下策略，但

我已经阅读了其他问题，对此选项感到困惑。我想阅读EMR Spark中的<code>Athena view</code>，并通过在google / st

我已在S3中放置了外部python库（* .whl），并通过在AWS Glue Job的“ Python库路径”参数中提及路径来访问该

我的AWS模板中有很多资源类型<code>AWS::Glue::Table</code>。而且我不会在模板之间复制粘贴代码段。因此，想

有一个AWS Glue搜寻器，该爬行器正在使用包含木地板文件的S3目录中的所有表创建数据目录。我需

如何从Glue Job调用AWS Sagemaker端点？ <pre><code>endpoint_name='I_created_EndPoint' from sagemaker.predictor import c

我正在尝试使用Dynamicframe.toDF将胶粘动态框架转换为spark数据框架，但出现此异常 <blockquote> 回溯（

如何最好地通过基于Glue，基于EMR的Spark Jobs配置上述AWS Sagemaker ML模型端点？正如我们在AWS文档<a hre

我有一个具有以下架构的数据框。 <code>translation_version</code>列下的<code>translations --> languages (no, pt,...)</

我想在AWS Glue中使用Datastax的<a href="https://mvnrepository.com/artifact/com.datastax.spark/spark-cassandra-connector_2.12/2.5.1"

是否有任何AWS服务可用于按计划执行用PHP编写的代码。例如，一个代码每24小时运行一次以完成某些工

我是Pyspark和AWS Glue的新手，尝试用Glue写入文件时遇到问题。当我尝试使用Glue的write_dynamic_frame_from_options

我正在从注册的分区转移到分区投影。以前，我的数据已按<code>p_year={yyyy}/p_month={MM}/p_day={dd}/p_hour=

我的Glue extra.py/library文件的目录结构如下： <pre><code>├── script1.py ├── folder1 │ └── script2

使用AWS胶水开发人员终端节点<code>Spark Version - 2.4</code> <code>Python Version- 3</code> 代码： <code>df=spark.r

我在本地开发了pandas etl脚本，并且运行良好。我准备了一个wheel文件并上传到s3。所有软件包均已

我是亚马逊的aws-glue的新手，但我仍在努力弄清楚。当前，我有一个python shell胶作业，每次执行它

我在AWS Glue上以ETL身份阅读了多个帖子。但是我收不到。有人可以用简单的词来解释AWS Glue的工作原理吗

我正在尝试在AWS Glue中创建ETL作业。用例如下：当运行ETL作业后在源表之一中添加一列，并且当我们尝试