libin's个人网站3.0-HBase数据删除与Split

HBase数据删除与Split

2021-12-25 11:13:10 星期六阅读：888

![](/static/images/article_images/1693147574.605803.jpeg)

#### HBase真正删除数据的时间
我们在HBase客户端通过put覆盖数据，或者通过delete某一行数据的时候，HBase底层并没有真实的删除数据，只是做一个标记（其实删除数据的时候还是执行插入操作，只是插入的数据是标记）。在刚删除完数据一会还可以通过以下命令查看删除的数据

`hbase(main):001:0> scan "tablename", {RAW=>TRUE, VERSIONS=>10}`

**HBase真正删除数据的时机有两个**，分别是：

`Flush操作`：将内存中的数据写到HDFS的时候，会把用户已经删除的数据过滤掉（实际上，用户删除的数据在内存中还存在的）。对于覆盖操作，只会把最新版本的数据Flush到hdfs；对于delete操作，只会把delete标记写入到hdfs。

`Compact操作（全局 Compact）`：定期合并HFile文件的时候，会把多个HFile文件中相同记录（rowkey相同，列名相同，但是版本不同）的数据合并，根据时间戳对比取最新版本的数据保留。对于delete标签标记的数据，hbase会把多个HFile文件中相同记录（rowkey相同，列名相同）的数据删除后再合并。

注意：Min Compact操作不会删除数据，只有全局合并的时候会删除。

#### HBase Region Split
默认情况下，每个 Table 起初只有一个 Region，随着数据的不断写入，Region 会自动进行拆分。刚拆分时，两个子 Region 都位于当前的 Region Server，但处于负载均衡的考虑， HMaster 有可能会将某个 Region 转移给其他的 Region Server。

![](/static/images/article_images/1640401928.3566072.jpeg)

**Region Split 时机**:

1.当 1 个 region 中的某个 Store 下所有 StoreFile 的总大小超过 hbase.hregion.max.filesize， 该 Region 就会进行拆分(0.94 版本之前)。

2.当 1 个 region 中的某个 Store 下所有 StoreFile 的总大小超过 `Min(R^2 * "hbase.hregion.memstore.flush.size",hbase.hregion.max.filesize")`，该 Region 就会进行拆分，其 中 R 为当前 Region Server 中属于该 Table 的个数(0.94 版本之后)。

当前位置：首页 >> HBase >> HBase数据删除与Split

HBase数据删除与Split

技术交流
问题反馈

当前位置： 首页 >> HBase >> HBase数据删除与Split

HBase数据删除与Split

技术交流 问题反馈

当前位置：首页 >> HBase >> HBase数据删除与Split

技术交流
问题反馈