我可以使用Jupyter Lab使用Scala与databrick spark集群进行交互吗？

如何解决我可以使用Jupyter Lab使用Scala与databrick spark集群进行交互吗？

我可以使用Jupyter实验室连接到远程托管的数据块Spark集群吗？

有些关于databricks connect的知识库文章，它允许scala或java客户端进程控制spark集群。这是一个示例：
https://docs.databricks.com/dev-tools/databricks-connect.html

尽管KB文章涵盖了许多情况，但并未说明如何使用Jupyter笔记本使用 Scala 编程语言与数据块群集进行交互。我熟悉scala编程，但不熟悉Python。

解决方法

是的，尽管没有充分记录，但似乎有可能。这些步骤在Windows上对我有用。我在scala 2.12.10中使用了databricks v.7.1。

步骤1 。安装anaconda：https://repo.anaconda.com/

第2步。因为python似乎是笔记本电脑的首选语言，所以
您将需要手动安装和配置Scala内核
我可以使杏仁内核发挥作用：https://almond.sh/
安装杏仁时，请小心选择一个scala版本
与您将在远程集群中连接到的DBR运行时相对应。

第3步。现在，按照databricks-connect文档获取Scala程序以
通过intellij / sbt环境编译并连接到远程集群。
该文档可在此处找到。 https://docs.databricks.com/dev-tools/databricks-connect.html
这是一种完全受支持且相当传统的方法，可用于开发自定义模块。

步骤4 。创建可运行的Scala流程后，您将熟悉sbt。 build.sbt用于引用“ databricks-connect”分发。该发行版将位于以下位置：

unmanagedBase := new java.io.File("C:\\Users\\minime\\AppData\\Local\\Programs\\Python\\Python37\\Lib\\site-packages\\pyspark\\jars")

尽管intellij / sbt将那些依赖项编译到程序中很简单，但是要在almond / jupyter内核中完成等效的工作将需要更多的工作。

在返回jupyter笔记本之前，请运行新的Scala流程并允许其创建Spark会话。然后，在进程终止之前，使用“进程浏览器”找到相关的java.exe，然后在下部视图/窗格中显示手柄，然后将所有手柄复制到记事本中（进程浏览器中为Ctrl + A，记事本中为Ctrl + V ）。这为您提供了数据砖分发中的模块子集，这些子集实际上是在运行时加载到您的进程中的。

步骤5 。现在您已经有了相关的模块，您需要配置杏仁scala内核以将其加载到内存中。创建一个新的jupyter笔记本，然后选择scala内核，并使用如下代码加载所有模块：

interp.load.cp(ammonite.ops.Path(java.nio.file.FileSystems.getDefault().getPath( "C:/Users/minime/AppData/Local/Programs/Python/Python37/Lib/site-packages/pyspark/jars/whatever001-1.1.1.jar")))
interp.load.cp(ammonite.ops.Path(java.nio.file.FileSystems.getDefault().getPath( "C:/Users/minime/AppData/Local/Programs/Python/Python37/Lib/site-packages/pyspark/jars/whatever002-1.1.1.jar")))
interp.load.cp(ammonite.ops.Path(java.nio.file.FileSystems.getDefault().getPath( "C:/Users/minime/AppData/Local/Programs/Python/Python37/Lib/site-packages/pyspark/jars/whatever003-1.1.1.jar")))
...

请注意，分发中有很多罐子（可能是100个！？）。

您可能希望直接从Maven加载其他库（假设它们与scala 2.12.10和您的databricks-connect发行版兼容）

// Microsoft JDBC
 interp.load.ivy("com.microsoft.sqlserver" % "mssql-jdbc" % "8.2.1.jre8")


// Other libraries
 interp.load.ivy("joda-time" % "joda-time" % "2.10.5")
 interp.load.ivy("org.scalaj" %% "scalaj-http" % "2.3.0")
 interp.load.ivy("org.json4s" %% "json4s-native" % "3.5.3")
 interp.load.ivy("com.microsoft.azure"  % "msal4j"   % "1.6.1")


// Other libraries
interp.load.ivy("org.apache.hadoop" % "hadoop-azure" % "3.2.1")

公平警告...将库加载到杏仁内核时，有时按特定顺序加载它们很重要。我上面的示例并不是要告诉您通过interp.load加载它们的顺序。

第6步。如果一切按计划进行，您现在应该能够使用类似于在“第3步”中编写的代码来创建在jupyter笔记本中运行的spark会话。以上。

import org.apache.spark.sql._
val p_SparkSession = SparkSession.builder()
        .appName("APP_" + java.util.UUID.randomUUID().toString)
        .master("local") 
        .config("spark.cores.max","4") 
        .getOrCreate()

您的杏仁内核现在已通过databricks-connect分发连接到了远程集群。只要您不需要将任何功能或数据类型序列化到远程集群，一切都可以工作。在这种情况下，您可能会遇到各种序列化错误和空指针异常。这是一个示例：

java.lang.NullPointerException com.databricks.service.SparkServiceClassSync $ .checkSynced（SparkServiceClassSync.scala：244） org.apache.spark.sql.util.SparkServiceObjectOutputStream.writeReplaceClassDescriptor（SparkServiceObjectOutputStream.scala：82） ... org.apache.spark.sql.util.ProtoSerializer.serializePlan（ProtoSerializer.scala：377） com.databricks.service.SparkServiceRPCClientStub。$ anonfun $ executePlan $ 1（SparkServiceRPCClientStub.scala：193）

此答案将是第一个。我希望其他scala / spark / databricks专家可以帮助解决此配置中的其他问题，以便远程群集也可以使用我笔记本中声明的任何功能和数据类型。！

在我的第一个答案中，我指出了使用scala笔记本（在Jupyter实验室中使用杏仁）的主要挑战是我们缺少将任何功能或数据类型序列化并将其发送到由databricks托管。

我应该指出，遇到此限制时，我经常使用两种解决方法。

我恢复使用“火花壳” 。它是databricks-connect分发的标准组件。然后，我可以使用：load和：paste命令加载我的Scala代码的相关部分。出于某些原因，“ spark-shell”完全能够序列化功能和数据类型，以便将其动态发送到远程集群。在Jupyter笔记本电脑的背景下，杏仁核无法为我们做这些事情。
另一个解决方法是将数据帧 .collect（）返回驱动程序（在jupyter笔记本内核的内存内）。一旦收集了数据，我就可以对即使在仅在我的jupyter笔记本中找到的“原始”功能和“原始”数据类型的帮助下，它们也是如此。在这种情况下，我将无法获得分布式处理的性能优势。但是，尽管代码仍在开发中，但是我通常不会使用非常大的数据集，因此，如果驱动程序正在运行我的函数，或者工作程序正在运行，则不会有太大的不同。

希望这很清楚。我希望Databricks最终可以在jupyter实验室中看到允许scala程序员远程开发代码的好处。我认为他们应该成为选择一种scala内核并进行繁重工作以支持这种情况的人。到目前为止，他们可能相信自己在门户中的笔记本体验足以满足所有Scala程序员的需求。

我可以使用Jupyter Lab使用Scala与databrick spark集群进行交互吗？

如何解决我可以使用Jupyter Lab使用Scala与databrick spark集群进行交互吗？

解决方法

相关推荐