如何解决对于小尺寸数据,SparkML管道训练速度很慢,但是无法在pyspark上禁用约束传播密钥?
我正在尝试加速数据块上的Spark ML管道。
目前,为具有2000行3列的数据帧训练SparkML管道需要花费35分钟。
基于https://medium.com/@viirya/slowness-of-ml-pipeline-in-spark-6ec76d66042f, https://docs.tibco.com/pub/compute/1.2.0/TIB_compute_1.2.0_relnotes.pdf?id=1 和Spark: Dataframe action really slow when upgraded from 2.1.0 to 2.2.1
我需要禁用
CONSTRAINT_PROPAGATION_ENABLED
import pyspark.sql.conf as SQLConf
spark.conf.set(SQLConf.CONSTRAINT_PROPAGATION_ENABLED.enabled,false)
得到错误:
AttributeError: module 'pyspark.sql.conf' has no attribute 'CONSTRAINT_PROPAGATION_ENABLED'
如何访问密钥以便可以将其禁用?
谢谢
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。