出任何線上事故,先不說其他地方有問題,監(jiān)控部分是有問題的。聽著很甩鍋的一句話,仔細思考好像有道理。
這里,我對常用的監(jiān)控對象以及監(jiān)控指標分類整理,供大家參考:
①硬件監(jiān)控
包括:電源狀態(tài)、CPU 狀態(tài)、機器溫度、風扇狀態(tài)、物理磁盤、raid 狀態(tài)、內存狀態(tài)、網(wǎng)卡狀態(tài)。
②服務器基礎監(jiān)控
包括:
CPU:單個 CPU 以及整體的使用情況。
內存:已用內存、可用內存。
磁盤:磁盤使用率、磁盤讀寫的吞吐量。
網(wǎng)絡:出口流量、入口流量、TCP 連接狀態(tài)。
④中間件監(jiān)控
包括:
Nginx:活躍連接數(shù)、等待連接數(shù)、丟棄連接數(shù)、請求量、耗時、5XX 錯誤率。
Tomcat:線程數(shù)、當前線程數(shù)、請求量、耗時、錯誤量、堆內存使用情況、GC 次數(shù)和耗時。
緩存:成功連接數(shù)、阻塞連接數(shù)、已使用內存、內存碎片率、請求量、耗時、緩存命中率。
消息隊列:連接數(shù)、隊列數(shù)、生產速率、消費速率、消息堆積量。
⑤應用監(jiān)控系統(tǒng)
包括:
HTTP 接口:URL 存活、請求量、耗時、異常量。
RPC 接口:請求量、耗時、超時量、拒絕量。
JVM:GC 次數(shù)、GC 耗時、各個內存區(qū)域的大小、當前線程數(shù)、死鎖線程數(shù)。
線程池:活躍線程數(shù)、任務隊列大小、任務執(zhí)行耗時、拒絕任務數(shù)。
連接池:總連接數(shù)、活躍連接數(shù)。
日志監(jiān)控:訪問日志、錯誤日志。
業(yè)務指標:視業(yè)務來定,比如 PV、訂單量等。
小編此次分享就此結束,咱們下期再見。
聯(lián)系人:王經(jīng)理
手機電話:13609365179
聯(lián)系電話:0931-5135562
聯(lián)系電話:0931-8266869
郵箱:1181093560@qq.com
網(wǎng)址:www.t3xtd.cn
地址:甘肅省蘭州市城關區(qū)碧桂園金城云鼎8號樓1807室