V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
shaomq
V2EX  ›  DevOps

大家都来说说你的(或者你们公司)网站,系统都用什么工具来做监控和报警

  •  1
     
  •   shaomq · 2013-02-01 10:30:14 +08:00 · 7731 次点击
    这是一个创建于 4323 天前的主题,其中的信息可能已经有所发展或是发生改变。
    大家的格式就参照我的格式吧,我先说说我的:

    网站规模:50台主机左右,包括20多台前端,10多台后端service,还有数据库,hadoop什么的
    主机和网络用Cacti + Nagios
    外部监控购买的基调网络的服务
    流量监控是用自己开发的工具
    一些内部业务KPI(比如订单)是集成的graphite来监控
    performance的监控也是自己开发的一个简单的工具

    现在考虑把各种监控和告警整合到一起,你也来说说你是用什么工具来做的监控?
    20 条回复    1970-01-01 08:00:00 +08:00
    Frannk
        1
    Frannk  
       2013-02-01 10:48:58 +08:00   ❤️ 1
    1.一般监控
    在用graphite集成监控和报警,统一报警

    2.实时网卡流量数据
    UDP上报,然后实时推送给浏览器画图和报警
    Foredoomed
        2
    Foredoomed  
       2013-02-01 10:50:15 +08:00
    statsd
    Frannk
        3
    Frannk  
       2013-02-01 11:08:53 +08:00
    @Foredoomed 我也在用
    BigZ
        4
    BigZ  
       2013-02-01 11:11:25 +08:00
    Cacti + Nagios,大家都是你这样做的,已经足够了

    另服务器都是品牌机,还跑着服务器厂商的监控软件
    BOYPT
        5
    BOYPT  
       2013-02-01 11:28:51 +08:00
    munin. 少量自开发的插件。
    allenwei
        6
    allenwei  
       2013-02-01 11:46:32 +08:00   ❤️ 1
    scout scoutapp.com, 现成的服务,少折腾,功能也不错
    c0878
        7
    c0878  
       2013-02-01 11:53:08 +08:00
    nagios+cacti
    还有AWS的cloudwatch
    报警通知用139邮箱- -
    Frannk
        8
    Frannk  
       2013-02-01 12:48:47 +08:00
    有人用微信报警吗
    swulling
        9
    swulling  
       2013-02-01 13:30:38 +08:00
    公司有专门的OP-RD开发的监控体系,但是说实话不好用。。
    zyAndroid
        10
    zyAndroid  
       2013-02-01 13:31:54 +08:00
    sentry, DNSPod
    ghbjy1128
        11
    ghbjy1128  
       2013-02-01 14:44:29 +08:00
    人肉
    fire9
        12
    fire9  
       2013-02-01 14:46:28 +08:00
    常用的开源工具+自己开发一些插件啥的就够用了。
    jianwen
        13
    jianwen  
       2013-02-01 15:43:56 +08:00
    Ganglia界面有点老气,但很很管用。资源占用非常少,还能接收来自Hadoop集群的JMX监控信息。

    http://ganglia.sourceforge.net/
    594duck
        14
    594duck  
       2013-02-02 00:50:42 +08:00
    我们已经比不过你了。。。你们都用监控了。。。。。。基本上都这样cacti做历史数据分析,nagios做实时报警。。。。没别的了。
    hidden
        15
    hidden  
       2013-02-02 01:04:01 +08:00
    @Frannk weixin没法儿做吧? 没有发消息接口,只有回消息的。 并且消息只有打开weixin才能接收。 严重的告警需要短信才靠谱。 一般的发邮件就可以了。
    glancesx
        16
    glancesx  
       2013-02-02 09:27:52 +08:00
    没人用zabbix吗,灵活,强大,集报警,画图。
    fire9
        17
    fire9  
       2013-02-22 14:26:20 +08:00
    @glancesx 就是用gd画图太丑,另外,缺点也不少。数据库需要优化,量大了需要自己fixed 一些bug。可以去参考一下pptv那篇关于zabbix的ppt
    princeofwales
        18
    princeofwales  
       2013-02-22 14:32:41 +08:00
    自开发+whatsup
    tititake
        19
    tititake  
       2013-02-22 15:29:21 +08:00
    Nagios做报警,Zabbix做系统使用分析,awstats处理web server日志
    glancesx
        20
    glancesx  
       2013-02-22 16:01:59 +08:00
    @fire9 pptv 规模太大了。话说线上环境到达一定规模,大部分开源程序都要自己改一下啊。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1209 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 18:15 · PVG 02:15 · LAX 10:15 · JFK 13:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.