Hive校验的sum统计结果显示未达标
问题描述
对Hive进行大数据校验,Hive中的double字段保存的值为 1.7976931348623157E308 和 -1.7976931348623157E308 时 sum 统计结果显示未达标。
问题分析
使用spark-sql 客户端,进行sql操作,出现用同一个命令存在返回值不同的情况。
这是因为在进行大数据对数的求和计算时,由于分布式计算顺序的不确定性,可能会导致计算结果的不一致性。特别是处理接近或等于double类型最大值(1.7976931348623157E+308)的数据时,加上一个较小的数值(如2.0)可能会导致数值溢出,使得结果保持不变。这是double类型在处理极大数值时溢出的常见现象。