Doris集群管理
Doris产品介绍
Doris是基于MPP架构的高性能、实时的分析型数据库,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也可以支持高吞吐的复杂分析场景。因此,Doris能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB实验平台、日志检索分析、用户画像分析、订单分析等应用。
Doris最早是诞生于广告报表业务的Palo项目。目前Doris社区已经聚集了来自不同行业近百家企业的300余位贡献者,并且每月活跃贡献者人数也接近100位。2022年6月,Doris成功从Apache孵化器毕业,正式成为Apache顶级项目(Top-Level Project,TLP),Doris如今在中国乃至全球范围内都拥有着广泛的用户群体,截止目前,Doris已经在全球超过500家企业的生产环境中得到应用,在中国市值或估值排行前50的互联网公司中,有超过80%长期使用Doris。同时在一些传统行业如金融、能源、制造等领域也有着丰富的应用。
集群管理功能
- 集群创建:在CloudTable集群管理界面完成集群的创建。支持用户创建Doris集群时选择Frontends\Backends的计算规格、存储规格。
- 集群查看:在CloudTable集群管理界面可以查看集群详情。
- 集群管理:对创建的集群进行管理。
- 集群监控指标查看:对接CES服务,可以查看Doris集群相关的监控指标,用户以图形化的方式呈现集群运行状况。当指标出现异常时,通过消息通知用户和管理员,及时人工介入。
- 重启集群:因长时间不重启导致系统运行缓慢等情况下,用户需要重启集群。重启操作将有可能会导致正在运行中的业务数据丢失,如果需要执行重启操作,请确定不存在正在运行的业务,所有数据都已经保存。
- 删除集群:当用户不再需要集群时,可选择删除集群。此操作为高危操作,删除集群可能导致数据丢失,因此在执行删除操作之前,请确认不存在正在运行的业务,所有数据都已经保存。
- 扩容集群:用户根据实际需要或业务情况,动态的增加计算单元的个数,保证读写性能。集群自适应的实现负载均衡,保证业务不中断,平滑扩容。
产品优势
- 性能优异:自带高效的列式存储引擎,减少数据扫描量的同时还实现了超高的数据压缩比例。同时Doris还提供了丰富的索引结构来加速数据读取与过滤,利用分区分桶裁剪功能,Doris可以支持在线服务业务的超高并发,单节点最高可支持上千QPS。更进一步,Doris结合了向量化执行引擎来充分发挥现代化CPU并行计算能力,辅以智能物化视图技术实现预聚合加速,并可以通过查询优化器同时进行基于规划和基于代价的查询优化。
- 简单易用:支持标准ANSI SQL语法,包括单表聚合、排序、过滤和多表Join、子查询等,还支持窗口函数、Grouping Set等复杂SQL语法。除此之外,Doris还实现了MySQL协议兼容,用户可以通过各类客户端工具来访问Doris,并支持与BI工具的无缝对接。
- 架构精简:系统只有两个Frontend(FE)和Backend(BE)两个模块,其中FE节点负责用户请求的接入、查询计划的解析、元数据存储及集群管理等工作,BE节点负责数据存储和查询计划的执行,自身就是一个完备的分布式数据库管理系统,用户无需安装任何第三方管控组件即可运行起Doris集群。同时,任一模块都可以支持横向拓展,集群最高可以拓展到数百个节点,支持存储超过10PB的超大规模数据。
- 稳定可靠:支持数据多副本存储,集群具备自愈功能,自身的分布式管理框架可以自动管理数据副本的分布、修复和均衡,副本损坏时系统可以自动感知并进行修复。
- 生态丰富:提供丰富的数据同步方式,支持快速加载来自本地、Hadoop、Flink、Spark、Kafka、SeaTunnel等系统中的数据,也可以直接访问MySQL、PostgreSQL、Oracle、S3、Hive、Iceberg、Elasticsearch等系统中的数据而无需数据复制。同时存储在Doris中的数据也可以被Spark、Flink读取,并且可以输出给上游数据应用进行展示分析。