Spark2x导出带有相同字段名的表，结果导出失败

问题

在Spark2x的spark-shell上执行如下语句失败：

val acctId = List(("49562", "Amal", "Derry"), ("00000", "Fred", "Xanadu"))

val rddLeft = sc.makeRDD(acctId)

val dfLeft = rddLeft.toDF("Id", "Name", "City")

//dfLeft.show

val acctCustId = List(("Amal", "49562", "CO"), ("Dave", "99999", "ZZ"))

val rddRight = sc.makeRDD(acctCustId)

val dfRight = rddRight.toDF("Name", "CustId", "State")

//dfRight.show

val dfJoin = dfLeft.join(dfRight, dfLeft("Id") === dfRight("CustId"), "outer")

dfJoin.show

dfJoin.repartition(1).write.format("com.databricks.spark.csv").option("delimiter", "\t").option("header", "true").option("treatEmptyValuesAsNulls", "true").option("nullValue", "").save("/tmp/outputDir")

回答

Spark2x中对join语句重名字段做了判断，需要修改代码保证保存的数据中无重复字段。

父主题： Spark2x常见问题

上一篇：加载空的part文件时，app无法显示在JobHistory的页面上

下一篇：为什么多次运行Spark应用程序会引发致命JRE错误

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问

Spark2x导出带有相同字段名的表，结果导出失败

问题

回答

相关文档

意见反馈

文档内容是否对您有帮助？