如何解决合并剩余的BigQuery加载数据
我有一个输入表:input
和一个或多个maptables
,其中输入包含多个标识符的数据和彼此堆叠的日期。模式如下:
#input
Id: string (might contain empty values)
Id2: string (might contain empty values)
Id3: string (might contain empty values)
Date: datetime
Value: number
#maptable_1
Id: string
Id2: string
Target_1: string
#maptable_2
Id3: string
Target_2: string
我现在要做的是运行一个管道,该管道为每个date/(id,id2,id3)
组合加载来自input
的数据,并对一个或多个maptables
(在两个一个DataFrame)。然后,将结果流式传输到具有以下模式的名为output
的第三个表:
#output
Id: string
Id2: string
Id3: string
Date: datetime
Value: number
Target_1: string (from maptable_1)
Target_2: string (from maptable_2)
Target_x: ...
现在我在想这不是很有效。如果我从映射表更改一个值,则必须为每个date/(id,id3)
组合重做所有管道。
-
因此,我想知道是否有可能在加载数据时直接应用左合并?这样的查询看起来如何?
-
对于多个映射表和目标列,这样做是否也有益?查询会不会变得太复杂或难以理解,尤其是因为id列不一样?
解决方法
这样的查询看起来如何?
以下是用于BigQuery标准SQL
INSERT `project.dataset.output`
SELECT *
FROM `project.dataset.input` i
LEFT JOIN `project.dataset.maptable_1` m1 USING(id,id2)
LEFT JOIN `project.dataset.maptable_2` m2 USING(id3)
对于多个映射表和目标列...
如果您的所有地图表都与问题中的两张地图相同/相似-在这种情况下,每张额外的地图只需要额外的LEFT JOIN
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。