google-cloud-dataproc专题提供google-cloud-dataproc的最新资讯内容,帮你更好的了解google-cloud-dataproc。
标题几乎说明了一切:我们正在将一些作业从 Cloudera 迁移到 GCP,为此,我们正在用 gsutil 对应项替换所
我正在从 gcs 读取 csv 文件,我需要遍历每一行并调用 api 以获取一些数据并将其附加到新的数据帧中。</
我正在使用 Spark BigQuery 连接器从 Dataproc 集群查询表和视图,我看到的是,在请求视图时未使用缓存,连
我目前正在通过 Spark Runner 向在 Google Dataproc 上运行的现有管道添加一些指标,我正在尝试确定如何访问
这是我所拥有的: <pre><code>gcloud dataproc workflow-templates create $TEMPLATE_ID --region $REGION gcloud beta dataproc wor
我正在尝试使用以下命令创建工作流模板 <code>gcloud dataproc workflow-templates create $TEMPLATE_ID --region $REGION</cod
我需要在一个 unicode 分隔文件(unicode 字符 - ."\uFFFD", 替换字符)上创建一个 hive 表 为此,我们将 h
我想在 Spark 作业中创建 dataproc 集群时使用标志。 例如,我使用以下命令行创建了我的集群: <p
Google 的文档说 <code>--initialization-actions</code> 需要一个 GCS URL 列表。如果我指定一个: <pre><code>--initial
所以我尝试使用这样的简单查询删除 Big Query 表中的一些行: <pre class="lang-py prettyprint-override"><code>clie
我已在 Google Cloud 上设置了 Dataproc 集群。 它已启动并正在运行,我可以从“浏览器”控制台中的 SSH 访
我想使用 BigTable 作为 Flink 作业的接收器: <ol> <li>是否有开箱即用的连接器?</li> <li>我可以使用 Datas
我正在尝试读取 hive 表并将 spark DF 写入 JSON 文件。该文件忽略了空字段。 <pre><code>val dataframe = spark.sq
我正在 GCP Dataproc 中从 spark 2.4.7 升级到 spark 3.1。我正在执行 <code>sqoop import</code> 并将数据加载到 Parquet
我正在尝试使用 Google Dataproc 的 2.0-debian10 映像使用 Hive,但无法使用 Avro 格式创建简单的表。 它在
我有一个用例,我需要从 Composer 执行 dataproc 工作流模板。我正在使用一组 gcloud 命令来执行工作流模板
Dataproc 作业中应该有成功/失败/挂起状态,当然我可以在 Cloud Console 上 Dataproc 下的作业部分看到这一点
我在 Google Cloud Platform 上创建了一个集群,该集群具有五个基于 Linux 的虚拟机 (VM):一个主服务器和 4 个
Dataproc 集群是使用映像 <code>2.0.x</code> 和增量 io 包 <code>io.delta:delta-core_2.12:0.7.0</code> 创建的 Spark 版
在 Google Cloud 中使用 dataproc 映像版本 2.0.x,因为此 dataproc 映像版本中提供了 delta 0.7.0。不过这个dataproc