更新时间:2022-02-22 GMT+08:00
cache table使用指导
问题
cache table的作用是什么?cache table时需要注意哪些方面?
回答
Spark SQL可以将表cache到内存中,并且使用压缩存储来尽量减少内存压力。通过将表cache,查询可以直接从内存中读取数据,从而减少读取磁盘带来的内存开销。
但需要注意的是,被cache的表会占用executor的内存。尽管在Spark SQL采用压缩存储的方式来尽量减少内存开销、缓解GC压力,但当缓存的表较大或者缓存表数量较多时,将不可避免的影响executor的稳定性。
此时的最佳实践是,当不需要将表cache来实现查询加速时,应及时将表进行uncache以释放内存。可以执行命令uncache table table_name来uncache表。
被cache的表也可以在Spark Driver UI的Storage标签里查看。
父主题: SQL和DataFrame