2019年7月3日 星期三

修改 prometheus-operator rules

上週開始,prometheus-operator 開始狂發 etcdHighNumberOfFailedGRPCRequests alert ,然後 slack 就一直狂叫,有時一天數百個訊息。

而另一個也有裝 prometheus-operator 的 kubernetes cluster 卻沒有這情況,原本以為是 cluster 的問題,後來查了一下網路發現這可能是這條 rule 的 bug,不過這無法解釋為什麼另一個 kubernetes cluster 就不會產生 alert。

不過決定暫時先手動拿掉這條 rule ,因為是 operator 的架構,可以很直覺的去修改 rule 內容
kubectl -n monitoring edit prometheusrules.monitoring.coreos.com prometheus-prometheus-oper-etcd

把有關 etcdHighNumberOfFailedGRPCRequests 的 rule 移除掉即可 (我其實是 comment rule,但是儲存更新後,就自動把 comment 掉的 rule 給移除了)

順便補充一個連結,說明如何新增自己的 rule,同樣是因為 operator 的架構,讓新增 rule 的方式也變得很有彈性。

1 則留言:

sabrajaele 提到...

JAMU77-1 Casino Review 2021 - JTM Hub
JAMU77 원주 출장안마 is a mobile gaming 전라남도 출장샵 site that was launched in 2018 in the US. The casino 안동 출장마사지 was 인천광역 출장안마 established in 2018. Since then it has developed a 평택 출장마사지 solid reputation