databricks - 编程之家

我一直在玩Databrick笔记本，但遇到了一个奇怪的问题。逻辑是我从文件中读取<code>parsed_points_df</code>，对

我想列出dbfs中的所有文件，但我还将对文件的最后一次提交附加到路径中。 <pre><code>import sys, os import

我有以下配置： Databricks运行时版本 5.5 LTS（包括Apache Spark 2.4.3，Scala 2.11） Spark是否正确的连接字

我有一个过程，可以在一个强大的群集中并行运行100多个同一databricks笔记本。每个笔记本在其处理结束

我已经安装并配置了Databricks CLI，但是当我尝试使用它时，出现一条错误消息，表明它找不到本地发行者

我有一个用例，我想从dbfs加载python库。我无法找到一种方法来覆盖数据砖中的预安装库。

<h2>客观</h2> 我对术语有点困惑：我已经基于Kimball的数据建模方法构建了Data Lake（不是DW），现在不确定

在开发环境中，我使用Terrafrom部署Azure DataBrick，并可以使用workspace_url <a href="https://www.terraform.io/docs/provid

我有一个增量表，其中通过数据砖进行的多个作业可以同时将数据合并/向上插入到增量表中。如

我正在编写一个火花代码，将其从数据帧插入到mysql表中，但出现错误 <pre><code>df_to_write.write.format(&#34

我想将spark.task.maxFailures设置为大于4的值。使用Databricks 6.4运行时，如何设置该值？当我执行spark.co

在与Delta Lake查询讨论性能问题时，经常引用“小文件问题”。许多资料来源建议文件大小为1GB，以实现

我有按年/月/日划分的数据。我希望能够加载任意日期范围-开始日期和结束日期，而不只是特定的日期/

我正在尝试从其Python API访问redash，该python API是从<a href="https://pypi.org/project/redash-api-client/" rel="nofollow nore

我可以为Python和Scala（wheel和Jar）成功地独立创建软件包，然后将其上传到Databricks。但是，我想创建一个

我有一个ADLS，其中有几个文件夹，这些文件夹又包含子文件夹，依此类推，直到其中包含CSV或Parquet数据

我有一个想要下载HTML的阴谋人物。当我尝试时： <pre><code>fig.to_html() </code></pre> 它只会输出一些HTML

因此，在过去的几天里，我一直对此表示怀疑。我在反序列化我们正在生成并发送到Azure Event Hub的Avro文

<pre><code>My JSON data looks like this: { 'ABC': 5, 'TXZ':45, 'QWE':'Williams' } { 'ABC&#3

好吧，所以我试图将数据库从pyspark写入到蔚蓝的sql数据库，但是遇到日期时间超出范围值的问题。我知