湾区日报是如何监控系统的健康情况的

2016/03/21 · 浏览量 2696 · 全部博文

最近试用了一下 datadog 做系统监控,效果很满意。这是监控湾区日报服务器的 dashboard: 

 

Datadog 在你的每台机器上装一个程序、用于发送各种关键指标到他们的服务器。他们提供了不少集成,改几行配置文件就能收集并发送 Nginx、Postgres、Redis 等常用软件的 metrics(不是很全面,但够用)。你自己的网站后台代码也可以写几行代码,发 metrics 到 Datadog 运行在你本地的程序(支持statsd,很快速),由它代为转发到他们的服务器。我后台代码主要是 Python,我用的是 Datadog 提供的Python library

采集了 metrics 后,就可以很方便地在 Datadog 上做漂亮的 dashboard,各种监控图。并且可以加警报,如果某个指标超标了、服务器挂了、或者什么异常情况,及时通过 Slack、邮件、PagerDuty等渠道通知你。比如这是 Datadog 通知我服务器挂了: 

 

目前我还只是用免费版的,基本够用了。监控之后,才发现原来我后台程序写得如此之烂,request latency 奇高无比,可见还有很大的改进空间,以后有时间慢慢改进吧。

总之,还是一如既往地使用『快糙猛』的方法、土办法,用最少的时间做最有价值的事情。这只是一个 side project 而已,系统监控做这样,足够了。从 datadog 的客户名单里还是能找到著名公司的。看来 datadog 适用于像我这种快糙猛的side project,也适用于大规模的production的监控。


我读过的好书、 用过的好工具推荐: