配置Structured Streaming使用RocksDB做状态存储
本章节仅适用于MRS 3.3.0及之后版本。
配置场景
当大量的状态信息存储在默认的HDFS BackedStateStore,导致JVM GC占用大量时间时,可以通过如下配置,选择RocksDB作为状态后端。
配置参数
在Spark客户端的“spark-defaults.conf”配置文件中进行设置。
参数 |
说明 |
默认值 |
---|---|---|
spark.sql.streaming.stateStore.providerClass |
用于管理有状态流查询中的状态数据的类。此类必须是StateStoreProvider的子类,并且必须具有零参数构造函数。 配置参数值为org.apache.spark.sql.execution.streaming.state.RocksDBStateStoreProvider即可选择RocksDB作为状态后端。 |
org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider |