libin's个人网站3.0-HDFS慢磁盘监控

HDFS慢磁盘监控

2021-07-25 10:44:21 星期日阅读：2316

慢磁盘指的时写入数据非常慢的一类磁盘。其实慢性磁盘并不少见，当机器运行时间长了，上面跑的任务多了，磁盘的读写性能自然会退化，严重时就会出现写入数据延时的问题。

####如何发现慢磁盘？
正常在HDFS上创建一个目录，只需要不到1s的时间。如果你发现创建目录超过1分钟及以上，而且这个现象并不是每次都有。只是偶尔慢了一下，就很有可能存在慢磁盘。可以采用如下方法找出是哪块磁盘慢：

##### 一、通过上一次心跳时间
一般出现慢磁盘现象，会影响到DataNode与NameNode之间的心跳。正常情况心跳时间间隔是3s。超过3s说明有异常。
这个时间可在hdfs web监控页面查看到
![](/static/images/article_images/1627180412.40481.jpeg)

##### 二、测试磁盘的读写性能
这里主要用到Linux的fio命令

> **顺序读测试**

```shell
sudo fio -filename=/opt/service/hadoop/data/test.log 
-direct=1 
-iodepth 1 
-thread 
-rw=read 
-ioengine=psync-bs=16k 
-size=2G 
-numjobs=10 
-runtime=60 
-group_reporting -name=test_r
```
一般来说，如果是固态硬盘，大概在300 - 500MB左右的速度
Run status group 0 (all jobs):READ: bw=**360MiB/s (378MB/s)**, 360MiB/s-360MiB/s (378MB/s-378MB/s), io=20.0GiB (23.15GB), run=56885-56885msec

> **顺序写测试**

```shell
sudo fio -filename=/opt/service/hadoop/data/test.log 
-direct=1 
-iodepth 1 
-thread 
-rw=write 
-ioengine=psync-bs=16k 
-size=2G 
-numjobs=10 
-runtime=60 
-group_reporting -name=test_w
```

> **随机写测试**

```shell
sudo fio -filename=/opt/service/hadoop/data/test.log 
-direct=1 
-iodepth 1 
-thread 
-rw=randwrite 
-ioengine=psync-bs=16k 
-size=2G 
-numjobs=10 
-runtime=60 
-group_reporting -name=test_randw
```

> **混合随机读写测试**

```shell
sudo fio -filename=/opt/service/hadoop/data/test.log 
-direct=1 
-iodepth 1 
-thread 
-rw=randrw 
-rwmixread=70 
-ioengine=psync 
-bs=16k 
-size=2G 
-numjobs=10 
-runtime=60 
-group_reporting 
-name=test_r_w -ioscheduler=noop
```

**`一般来说，顺序读 > 顺序写 > 随机写 > 混合随机读写`**，在生产中可定制监控脚本，设置阈值，每天监控集群所有节点的磁盘健康状态

当前位置：首页 >> Hadoop >> HDFS慢磁盘监控

HDFS慢磁盘监控

技术交流
问题反馈

当前位置： 首页 >> Hadoop >> HDFS慢磁盘监控

HDFS慢磁盘监控

技术交流 问题反馈

当前位置：首页 >> Hadoop >> HDFS慢磁盘监控

技术交流
问题反馈