google-cloud-dataproc - 编程之家

我在 GCP 存储桶中有以下格式的数据： <pre><code>gs://bucket/my_table/data_date=2021-03-26/000 gs://bucket/my_table/data

我在 google dataproc 上运行 apache spark java 作业。该作业创建 spark 上下文、分析日志并最终关闭 spark 上下文

我正在 Google Cloud Dataproc 和 HBase 作为组件之一进行 POC。我创建了集群并且能够让集群与 HBase 服务

我尝试打开存储在 GCS 中的笔记本。我使用 Jupyter 创建了一个 Dataproc 集群，并连接了 Jupyter 网络界面。</

我想使用 hudi 从 dataproc 写入 gcs 存储桶。要使用 hudi 写入 gcs，它说将 prop fs.defaultFS 设置为值 gs://

我正在尝试将数据从 Sqlserver 数据库移动到 GCP 上的 Bigquery。为此，我们创建了一个 Dataproc 集群，我可以

我正在尝试将 Spark 作业配置为使用 Dataproc 集群上的固定资源运行，但是在作业运行 6 分钟后，我注意到

我正在尝试在 dataproc 集群中运行一个简单的 spark 脚本，该脚本需要使用 scala 和 java Cloud Storage 客户端库

如何将 Google Cloud Dataproc 上的 Hive 数据库连接到 Tableau Online 作为数据源？ Tableau Bridge 是否有助于在 Datapr

我创建了一个 <strong>Dataproc 工作流模板</strong>，没有我想使用 Cloud Scheduler 安排的参数。我采取了与 <str

Google Dataproc 上的所有笔记本在运行 <code># Works fine when column type is object (df.assign(a=df['a'].astype('obj

我正在尝试使用 GCP + Dataproc + PySpark 自动化流程。为此，我创建了以下脚本： <pre><code>data_project = proje

我通过这种方式向 dataproc 提交了一个 Spark 作业： <em>gcloud dataproc 作业提交 spark --cluster=$CLUSTER --regi

我有 50 多个数据融合管道在 DataFusion 的企业环境中同时运行。每次并发运行时，其中大约有 4 个随机失

为了加快我的集群实例化时间，我创建了一个自定义镜像，其中包含使用可用于 dataproc 镜像 1.5.34-debian10

我可以知道如何使用气流在 DataProc 集群上执行 HDFS 复制命令。使用气流创建集群后，我必须从 Google 存

我正在尝试使用以下链接在只有 CPU 的 GCP dataproc spark 集群上使用 tensorflow 多线程策略： <a href="https://clou

我正在尝试在 Scala 中实现一个 xgboost 模型，在 dataproc（谷歌云）中使用 zeppelin。这是我正在实施的代码

GCP dataproc - 当您终止 dataproc 集群时，HDFS 会自动删除。即使删除了 dataproc 集群，如何使其持久化 HDFS 也

<br/> 我最近开始在我的项目中使用 GCP，但在 Dataproc 集群中使用 Jupyter 笔记本中的存储桶时遇到了困难。