登 录
注 册
< 数 据 库
MySQL
ClickHouse
ES
Doris
MongoDB
Redis
其他DB
Druid介绍
热门推荐>>>
中台架构
中台建设与架构
Hadoop
源码分析-NN启动(三)
HBase
HBased对接Hive
Linux
Nginx高可用
Python
数据导出工具
Flink
3分钟搭建Flink SQL测试环境
Kafka
Kafka对接Flume
深度学习
卷积神经网络
数据结构与算法
选择合适的算法
MySQL
数据备份恢复
计算机系统
信号量同步线程
Hive
Hive调优参数大全
其他框架
Azkaban Flow1.0与2.0
ClickHouse
表引擎-其他类型
技术成长
最好的职业建议
精选书单
技术成长书单—机器学习
技术资讯
数据在线:计算将成为公共服务
开发工具
IntelliJ IDEA 20年发展回顾(二)
系统工具
Mac命令行工具
虚拟化
内存虚拟化概述
云原生
云原生构建现代化应用
云服务
一文搞懂公有云、私有云...
Java
Spring Boot依赖注入与Runners
Go
Go函数与方法
SQL
SQL模板
当前位置:
首页
>>
其他DB
>>
Druid介绍
Druid介绍
2023-09-10 16:42:03 星期日 发表于北京 阅读:570
![](/static/images/article_images/1694334661.096747.png) Apache Druid是一个实时分析型数据库,旨在对大型数据集进行快速的查询分析("OLAP"查询)。 Druid最常被当做数据库来用以支持实时摄取、高性能查询和高稳定运行的应用场景,同时,Druid也通常被用来助力分析型应用的图形化界面,或者当做需要快速聚合的高并发后端API,Druid最适合应用于面向事件类型的数据。 #### Druid应用场景——业务 点击流分析(Web端和移动端) 网络监测分析(网络性能监控) 服务指标存储 供应链分析(制造类指标) 应用性能指标分析 数字广告分析 商务智能 / OLAP Druid的核心架构吸收和结合了数据仓库、时序数据库以及检索系统)的优势,其主要特征如下: | 序号 | 特性 | 解释 | | ------------ | ------------ | ------------ | | 1 | 列式存储 | Druid使用列式存储,这意味着在一个特定的数据查询中它只需要查询特定的列,这样极地提高了部分列查询场景的性能。另外,每一列数据都针对特定数据类型做了优化存储,从而支持快速的扫描和聚合 | | 2 |可扩展的分布式系统 | Druid通常部署在数十到数百台服务器的集群中,并且可以提供每秒数百万条记录的接收速率,数万亿条记录的保留存储以及亚秒级到几秒的查询延迟 | | 3| 大规模并行处理 | Druid可以在整个集群中并行处理查询 | | 4| 实时或批量摄取 | Druid可以实时(已经被摄取的数据可立即用于查询)或批量摄取数据 | | 5| 自修复、自平衡、易于操作 | 作为集群运维操作人员,要伸缩集群只需添加或删除服务,集群就会在后台自动重新平衡自身,而不会造成任何停机。如果任何一台Druid服务器发生故障,系统将自动绕过损坏。 Druid设计为7*24全天候运行,无需出于任何原因而导致计划内停机,包括配置更改和软件更新 | | 6|不会丢失数据的云原生容错架构 | 一旦Druid摄取了数据,副本就安全地存储在深度存储介质(通常是云存储,HDFS或共享文件系统)中。即使某个Druid服务发生故障,也可以从深度存储中恢复您的数据。对于仅影响少数Druid服务的有限故障,副本可确保在系统恢复时仍然可以进行查询 | | 7| 用于快速过滤的索引 | Druid使用CONCISE或Roaring压缩的位图索引来创建索引,以支持快速过滤和跨多列搜索 | | 8| 基于时间的分区 | Druid首先按时间对数据进行分区,另外同时可以根据其他字段进行分区。这意味着基于时间的查询将仅访问与查询时间范围匹配的分区,这将大大提高基于时间的数据的性能 | | 9| 近似算法 | Druid应用了近似count-distinct,近似排序以及近似直方图和分位数计算的算法。这些算法占用有限的内存使用量,通常比精确计算要快得多。对于精度要求比速度更重要的场景,Druid还提供了精确count-distinct和精确排序 | | 10| 摄取时自动汇总聚合 | Druid支持在数据摄取阶段可选地进行数据汇总,这种汇总会部分预先聚合您的数据,并可以节省大量成本并提高性能 | #### Druid应用场景——技术 如果你的使用场景符合以下的几个特征,那么Druid是一个非常不错的选择: |序号 | 场景 | | ------------ | ------------ | | 1 | 数据插入频率比较高,但较少更新数据| | 2 | 大多数查询场景为聚合查询和分组查询(GroupBy),同时还有一定得检索与扫描查询| | 3 | 将数据查询延迟目标定位100毫秒到几秒钟之间| | 4 | 数据具有时间属性(Druid针对时间做了优化和设计)| | 5 | 在多表场景下,每次查询仅命中一个大的分布式表,查询又可能命中多个较小的lookup表| |6 |场景中包含高基维度数据列(例如URL,用户ID等),并且需要对其进行快速计数和排序 | | 7| 需要从Kafka、HDFS、对象存储(如Amazon S3)中加载数据| #### Druid不适用的场景 |序号 | 不适用场景 | | ------------ | ------------ | |1|根据主键对现有数据进行低延迟更新操作。Druid支持流式插入,但不支持流式更新(更新操作是通过后台批处理作业完成)延迟不重要的离线数据系统| |2|场景中包括大连接(将一个大事实表连接到另一个大事实表),并且可以接受花费很长时间来完成这些查询|