隨風起伏的塵埃: 讓 prometheus-operator 監控 cluster 外部的 metrics

故事的緣起是在 enable 公司的 ceph dashboard plugin 時，發現 ceph 還有一個 prometheus 的 plugin ，這個 plugin 是一個 prometheus exporter ，也就是 enable 這個 plugin 後，就可以從

http://[ceph ip]:9283/metrics

取得 ceph 的 metrics data。那要如何設定讓 kubernetes 內的 prometheus 可以抓到 ceph 的 metrics ？故事就是這樣開始的...

我是用 prometheus-operator 的方式安裝的，這篇對 prometheus-operator 的架構有很不錯的介紹。從這邊可以知道，要新增 metrics 的關鍵在於 servicemonitor 這個 resource ，這是安裝 prometheus-operator 新增的 CRD resource 。

所以新增一個 servicemonitor 去設定要拉 metrics 的來源 service 就好了，簡單吧?
事情好像沒想像中那麼美好，ceph 是在 kubernetes 外部，cluster 內部沒有 ceph 相關的 svc 設定，這段要自己搞定。

凡事問 google ，找到這篇，節省了非常多的時間。

建立 ep => 建立 svc => 建立 servicemonitor

打完收工。

喔，不，文章中有一些小地方需要修正一下。
最主要的關鍵是文章裡 "BOOM" 那行找到的 label ，和現在 prometheus-operator 的設定不一樣，這應該是版本的關係。

修正 label 的部分，以及一些必要的修改 (像 ip 之類的)，剩下的還有一些小錯誤要修正，調整完後就差不多真的完工了。

kubectl apply 上面設定好的 yaml 後，就可以從 prometheus 的 UI 來驗證一下
* 從 Status 的 target 和 service discovery 可以看到新增的 servicemonitor 名稱
* 從資料篩選的地方輸入 ceph 就會自動跳出很多符合的名稱可以篩選，例如 ceph_bluefs_bytes_written_slow

prometheus 這邊搞定後，就往 grafana 前進，隨便找個 for ceph 的 dashboard ，例如編號 7056，從 grafana 匯入這個 dashboard ，就可以從 grafana 看到 ceph 的資料了。

就數值的部分和 ceph 本身的 dashboard 看起來都差不多，不過有一些小地方可能有點問題。畢竟是用別人現成的 dashboard，這個微調的部分就暫時不管了。

這樣對 prometheus-operator 的瞭解又多了一點，之後要拉其他的 application 的 metrics 就比較有把握了。

隨風起伏的塵埃

2019年6月20日星期四

讓 prometheus-operator 監控 cluster 外部的 metrics

沒有留言:

熱門文章

2019年6月20日 星期四

讓 prometheus-operator 監控 cluster 外部的 metrics

沒有留言:

2019年6月20日星期四