更新时间:2024-07-24 GMT+08:00

配置Structured Streaming使用RocksDB做状态存储

本章节仅适用于MRS 3.3.0及之后版本。

配置场景

当大量的状态信息存储在默认的HDFS BackedStateStore,导致JVM GC占用大量时间时,可以通过如下配置,选择RocksDB作为状态后端。

配置参数

在Spark客户端的“spark-defaults.conf”配置文件中进行设置。

参数

说明

默认值

spark.sql.streaming.stateStore.providerClass

用于管理有状态流查询中的状态数据的类。此类必须是StateStoreProvider的子类,并且必须具有零参数构造函数。

配置参数值为org.apache.spark.sql.execution.streaming.state.RocksDBStateStoreProvider即可选择RocksDB作为状态后端。

org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider