google-cloud-dataproc - 编程之家

标题几乎说明了一切：我们正在将一些作业从 Cloudera 迁移到 GCP，为此，我们正在用 gsutil 对应项替换所

我正在从 gcs 读取 csv 文件，我需要遍历每一行并调用 api 以获取一些数据并将其附加到新的数据帧中。</

我正在使用 Spark BigQuery 连接器从 Dataproc 集群查询表和视图，我看到的是，在请求视图时未使用缓存，连

我目前正在通过 Spark Runner 向在 Google Dataproc 上运行的现有管道添加一些指标，我正在尝试确定如何访问

这是我所拥有的： <pre><code>gcloud dataproc workflow-templates create $TEMPLATE_ID --region $REGION gcloud beta dataproc wor

我正在尝试使用以下命令创建工作流模板 <code>gcloud dataproc workflow-templates create $TEMPLATE_ID --region $REGION</cod

我需要在一个 unicode 分隔文件（unicode 字符 - ."\uFFFD", 替换字符）上创建一个 hive 表为此，我们将 h

我想在 Spark 作业中创建 dataproc 集群时使用标志。例如，我使用以下命令行创建了我的集群： <p

Google 的文档说 <code>--initialization-actions</code> 需要一个 GCS URL 列表。如果我指定一个： <pre><code>--initial

所以我尝试使用这样的简单查询删除 Big Query 表中的一些行： <pre class="lang-py prettyprint-override"><code>clie

我已在 Google Cloud 上设置了 Dataproc 集群。它已启动并正在运行，我可以从“浏览器”控制台中的 SSH 访

我想使用 BigTable 作为 Flink 作业的接收器： <ol> <li>是否有开箱即用的连接器？</li> <li>我可以使用 Datas

我正在尝试读取 hive 表并将 spark DF 写入 JSON 文件。该文件忽略了空字段。 <pre><code>val dataframe = spark.sq

我正在 GCP Dataproc 中从 spark 2.4.7 升级到 spark 3.1。我正在执行 <code>sqoop import</code> 并将数据加载到 Parquet

我正在尝试使用 Google Dataproc 的 2.0-debian10 映像使用 Hive，但无法使用 Avro 格式创建简单的表。它在

我有一个用例，我需要从 Composer 执行 dataproc 工作流模板。我正在使用一组 gcloud 命令来执行工作流模板

Dataproc 作业中应该有成功/失败/挂起状态，当然我可以在 Cloud Console 上 Dataproc 下的作业部分看到这一点

我在 Google Cloud Platform 上创建了一个集群，该集群具有五个基于 Linux 的虚拟机 (VM)：一个主服务器和 4 个

Dataproc 集群是使用映像 <code>2.0.x</code> 和增量 io 包 <code>io.delta:delta-core_2.12:0.7.0</code> 创建的 Spark 版

在 Google Cloud 中使用 dataproc 映像版本 2.0.x，因为此 dataproc 映像版本中提供了 delta 0.7.0。不过这个dataproc