最近遇到一個服務器(Ubuntu Server 18.04 LTS 64位)負載幾千的值,但是CPU使用率并不是很高。如下圖:
一開始以為是平臺顯示問題,但是遠程到服務器以后,發現服務器就是這么高的負載值:
實際上也沒有什么等待CPU的進程:
過了十多分鐘這個負載值還在增加:
感覺這個系統負載出現了bug,是在疊加,根據1分鐘、5分鐘和15分鐘最近三十天的監控數據,發現負載快到1萬的時候,就會重新疊加計算。
提交了工單,讓售后幫忙分析是什么原因,但是他們也找不到原因。
第二天發現負載重新開始疊加了:
但是平臺歷史負載監控顯示并不是從0開始重新疊加的:
無意間發現另外一個dev環境的服務器也是一樣的問題:
直接重啟了這臺dev的服務器以后就正常了:
第一次遇到這么離奇的事情,個人猜測是有什么bug導致,大概率是zombie進程的問題。