databricks - 编程之家

我正在使用PySpark（约10个执行程序，每个执行程序有4-5个内核）以拼合形式从云存储中读取一些数据到Sp

我需要在spypark（Databricks）python中实现tf-idf函数。我有一个<a href="https://filebin.net/8d0fkupze5358dde" rel="nofollo

偶然地，我在Azure DataBricks上创建了自动群集。有什么办法可以删除它？我只想删除其中一个。<a href="htt

我刚接触数据砖，并且有一个查询。我有一个计划工作，可以调用sql笔记本 <pre><code>`try: dbut

当我运行下面的代码时，出现错误<em> java.lang.AssertionError：断言失败：找到重复的重写属性</em>。在更新

我想了解Scala中与以下代码等效的PySpark。我正在使用数据块。我需要以下相同的输出：- <strong>创

我正在尝试从azure databricks实例内部访问splunk。我要求在6个小时内运行查询。我将其分解为30分钟的窗口

我的源文件为.db格式，并存储在ADLS Gen2中。有没有办法从databricks笔记本中读取/写入这些* .db文件？谢谢。

<h2>客观</h2> 我正在将Spark应用程序从本地计算机（客户端模式）提交到具有databricks-connect（v6.6）的Databri

我正在尝试找到一种将数据框转换为要在另一个Databricks笔记本中使用的表的方法。我在R中找不到有关执

我具有bigint格式的visit_start_time_gmt字段，可以将其转换为date_time，但是现在我需要在另一列中删除时间戳

我目前正在使用spark 2.3.0，并升级到Spark 3.0.0。我的集群创建在Spark 2.3.0上运行良好，脚本调用如下

我们有一个在spark上运行的ETL作业，该作业从SQL Server读取数据。然后，通过应用mappartition对数据框执行

tl; dr 我的印象是，在交换阶段，我应该能够看到与<code>spark.sql.shuffle.partitions</code>中定义的任务

我正在寻找一种将ttl（生存时间）添加到deltaLake表中的方法，以便该表中的任何记录在固定跨度后自动

我有休假的csv <pre><code>Name,Department Sam,Software 1,Data Analytics </code></pre> “名称”列的一行包含值“ Sa

我正在尝试在我们的databricks环境中提取大约5 gig（内容大约为35）的tar.gz。我尝试用：提取它 <pre><cod

我正在尝试在Azure Databricks（Databricks版本6.6 / Scala 2.11）中安装GeoMesa-尝试遵循<a href="https://databricks.com/note

我正在尝试从Oracle转换为Databricks，没什么复杂的，数据是字符串类型（'24 -MAR-11'），并且我试图将其更

<h2>问题</h2> <em>什么是管理Spark表的架构的最佳方法？您是否看到选项2的任何缺点？您可以提出其他更