如何解决如何从Scala的Spark DataFrame中分离出_corrupt_record?
在带有Scala的Spark中,我需要分离出具有_corrupt_record
的传入数据。
我有以下代码:
在这里,我将数据读入DF中-很好。
val data_frame_datasource0 = glueContext.getCatalogSource(database = "my-stream-database",tableName = "my-stream-table",tmpDir = "",transformationContext = "datasource0",additionalOptions = JsonOptions("""{"startingPosition": "TRIM_HORIZON","inferSchema": "true"}""")).getDataFrame()
在这里,我想创建一个DF,其中_corrupt_record
的数据与正常数据分开,以便以后可以将split_valid_corrupt_df(0)转储到错误的数据位置。
val split_valid_corrupt_df = data_frame_datasource0.splitRows(Seq("_corrupt_record"),transformationContext = "split_valid_corrupt_df",CallSite("Not provided",""),stageThreshold = 10,totalThreshold = 100)
但是_corrupt_record
没有分开。
我在这里想念什么?我是Spark的新手。我是否还需要其他Seq
或以某种方式为_corrupt_record
提供非空的过滤器?
谢谢
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。