如何解决将数据框注册为临时视图的目的是什么?
我试图理解为什么我要在pyspark中将数据框注册为临时视图。
这是一个虚拟的例子
# Create spark dataframe
spark_df = spark.createDataFrame([(1,'foo'),(2,'bar'),],['id','txt'])
# Pull data using the dataframe
spark_df.selectExpr("id + 1")
# Register spark_df as a temporary view to the catalog
spark_df.createOrReplaceTempView("temp")
# Pull data using the view
spark.sql("select id + 1 from temp")
是否将数据框注册为临时视图:
- 只能在此实时Spark会话中访问数据
- 在两种情况下我都可以使用sql语句查询数据
- 提取数据几乎需要花费相同的时间(1万次模拟,但是我还没有火花集群,只有我的本地计算机)。
我没有看到将数据框存储为临时视图的好处,但是我在pyspark的每个入门类中都看到了它。我想念什么? Tks !!
解决方法
SQL是一种非常强大的语言,许多人认为它在某些情况下是有益的。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。