data-warehouse - 编程之家

我刚刚接受采访，无法回答一个问题：“事实表可以包含多少行？”和“事实表的最大大小是多少？”

我正在设计数据仓库，我的事实表需要一些帮助。我的事实表正在捕获已到期债务的事实，该表将

Hive表具有两个字段。构建表（托管表）时，将其定义为int类型（<code>user_role</code>，<code>label_type</code>）

我的经理在Teradata中从大量视图中使用类似的查询。运行需要10分钟。 <pre><code>select c1, c2, sum(c3), sum(c4

我有一个带有现有数据集市的简单数据仓库。该数据集市包含一个日期维度表。由于事实表的日期粒度

我已经开始学习AWS Redshift，并且遇到了许多我认为不利于数据仓库星形/雪花模式的事情。根据使

在设计星型模式时，我很难知道何时使用桥表。是否可以安全地假设，如果我要查找的属性位于多对多

以下Azure服务之间有什么区别？ <ul> <li> Azure Synapse Analytics（以前称为SQL DW）</li> <li> Azure Synapse Analytics

我有以下代码。为了获得cost_center，我必须进行2次连接-首先在billing_area_id和facility_id的组合上，如果没

我正在尝试在数据仓库中创建一个Star Schema / Galaxy Schema，并试图避免创建一个Snowflake Schema。我目前有6个

我总共有四个表：尺寸表-书籍和作者过渡表-书/作者交易事实由于书籍有多位作者，一位作者有

导入数据时我发现这很容易，但是找不到与服务器直接连接的方法（在这种情况下，这是来自sql server的a

对于用例来说，如果给定的业务活动使用的估计值在可用时被实际替换，那么最好的最佳实践/方法怎么

<h2>上下文</h2> 我正在使用Microsoft SQL Server 2016。有一个数据库表“ Raw_data”，其中包含计算机的状

我试图在查询下运行以合并到SSMS中的表（Azure Synapse，SQL Server）： <pre><code>Merge table_A as dest using table

我正在尝试为一个小型项目设计ERD模式。这是一个跟踪贷款（金额，利息，向谁，还款日期等）的贷款

通常使用ETL实现2类SCD，但是否可以使用实时数据处理（例如Spark Streaming或KSQL）来做到这一点？

我有一个问题，为什么在sql server中准备多维数据集时会有时间DIMENSION。通过按时学习，我一直学到数

在我的工作中，我们每天都会收到数千封包含附件（xlsx，csv，xml，html，pdf等）的电子邮件。这些电子邮

<h2> SCD类型1 </h2> 假设我已经根据来自操作系统的以下数据构建了SCD类型1： <pre><code>ID | CHANNEL_CODE | NAM