delta-lake - 编程之家

我有一个用例，我们需要将开源 Delta 表流式传输到多个查询中，并在分区列之一上进行过滤。例如，。

我使用的是 delta Lake oss 版本 0.8.0。假设我们使用原始数据计算了聚合数据和多维数据集，并使用 d

我目前正在写一些与 hive hook 相关的东西。当我把罐子放在蜂巢上使用时，我发现了一些有趣的东西。</p

技术栈- 火花：3.1.0 增量：0.7.0 斯卡拉：2.12.8 我正在创建我的 Delta 表 -（在 AWS EMR

我目前是一名初级数据开发人员，最近看到一篇帖子说 Azure Synapse 现在可以从 Delta 表创建 SQL 表。我尝

目标： 我想使用定期运行的 Spark 作业 A 更新 Delta Lake 表中的现有列，同时能够运行另一个

我正在运行此命令以从普通集群（未安装 hadoop）读取 Azure 数据块中的数据。 <pre class="lang-sh prettyprint

我当前的解决方案中有一个大型增量表，性能开始变慢。对该表的分析表明，最常用的列是名为 Date 的

我发布了 <a href="https://forums.databricks.com/questions/57978/if-i-create-a-delta-table-using-a-select-from-a-so.html" rel="nofollo

所以，问题是我删除了我的 delta 湖内容，然后我开始了我的 Spark 工作，随后又重新填充了 delta 湖。但

我有一个笔记本，我正在使用它来加载历史记录。每次加载 6 个月的数据，从 <code>2018-10-01</code> 开始。

我正在 Spark/Databricks 中将一个表中的数据合并到另一个表中。如果选择了所有列，我可以执行 and <code>upd

我正在尝试在 Delta Lake 合并调用 (python api) 中执行插入操作，条件是该行的 <code>id</code> 不得存在于 delta

我通过 ADF 管道连接 On Premise Db 并使用 DBFS 进行转换，然后插入到 SQL 表中。在 Delta Lake 中保留 Querable

我们必须根据实时数据在 Delta 上创建 Gold 表来自后端的数据是实时的，我想在金表中实时插入和更新它

我在 delta 湖中有一张表，其中包含以下 tbl 属性： <a href="https://i.stack.imgur.com/8Y8gV.png" rel="nofollow noreferrer

我有一台无法访问互联网的服务器，我想在其中使用 Delta Lake。所以在spark session中正常使用Delta Lake是行

我正在尝试在装有 MacOS Mojave 的 MacBook Pro 上安装 <code>delta-lake-reader[aws]</code>，但它失败了。我的笔记本

问题 我们在 ADLS Gen2 之上有一个 Delta Lake 设置，其中包含下表： <ul> <li><code>bronze.De

我在数据块的“数据”选项卡中看到增量表使用的文件数为 20000（大小：1.6TB）。但 delta 存储文件的