V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lavdemo
V2EX  ›  问与答

618 电商搞促销,作为运维应该做什么?

  •  
  •   lavdemo · 2016-05-24 11:19:57 +08:00 · 3168 次点击
    这是一个创建于 3112 天前的主题,其中的信息可能已经有所发展或是发生改变。

    帮我的朋友问下。我不太了解电商行业。

    我的朋友他刚到电商公司做运维没多长时间,大家都在准备 618 大促销。结合过往各家的经验,他应该做哪些准备,有可能会遇见哪些问题,怎能预防?

    19 条回复    2016-05-26 10:33:43 +08:00
    forvtwoex
        1
    forvtwoex  
       2016-05-24 11:55:07 +08:00
    如果小公司就看看怎么提升带宽容量吧,大的就随大流了
    just4test
        2
    just4test  
       2016-05-24 12:32:45 +08:00   ❤️ 1
    先提升配置
    然后等着挂。
    tftk
        3
    tftk  
       2016-05-24 12:50:21 +08:00
    准备好临时维护的文案和网页
    lavdemo
        4
    lavdemo  
    OP
       2016-05-24 12:56:27 +08:00
    @just4test 等着挂?那么夸张?需要做些准备才行吧
    lyh3222
        5
    lyh3222  
       2016-05-24 13:09:33 +08:00
    应对断网啊停电之类的吧,可以临时加下内存什么的
    b821025551b
        6
    b821025551b  
       2016-05-24 13:12:58 +08:00
    该加带宽加带宽,该升配置升配置,准备好随机 refuse 脚本和事后道歉文案。
    just4test
        7
    just4test  
       2016-05-24 13:33:19 +08:00   ❤️ 1
    @lavdemo
    提升配置是最简单有效的方式。
    更多的方式可以从业务、架构入手。
    比如,使用队列下单代替立即下单。
    比如,数据库拆分。
    kozora
        8
    kozora  
       2016-05-24 13:38:34 +08:00   ❤️ 1
    1.数据库主从分布
    2.web 服务器负载均衡
    3.CDN
    gamexg
        9
    gamexg  
       2016-05-24 13:49:46 +08:00 via Android
    难道不是提前压测吗?
    ms2008
        10
    ms2008  
       2016-05-24 14:09:20 +08:00
    617 要早点儿睡。。。
    lavdemo
        11
    lavdemo  
    OP
       2016-05-24 14:51:25 +08:00
    @gamexg 对哦,压测。谢谢
    zts1993
        12
    zts1993  
       2016-05-24 15:28:06 +08:00   ❤️ 1
    压测
    降级方案演练
    lumen
        13
    lumen  
       2016-05-24 16:24:37 +08:00   ❤️ 2
    看了之前的答案,基本上都做好了背锅的准备。
    背锅的原因很简单,因为少做了一步工作,导致无限责任。
    这里有个有限责任方案可供参考:

    一、资源评估(重中之重,实力摔锅的重要依据)
       1.运维侧评估好当前资源,包括但不限于: IP 、带宽、存储、 DB 、服务器、网络设备
       2.运营及业务侧评估活动的人数、流量、包量峰值以及峰值出现的时间点(有可能是多个时间点)
       3.如果资源不足就要向公司要资源,如果公司也不能提供足够的资源,就反馈出来只能有损服务及具体的影响(意思是出了性能问题了这锅我们运维不背!)

    二、部署扩容并测试
       1.不管资源够不够,该部署就部署,该扩容就扩容
       2.联合业务侧一起测试,功能测试、压力测试,输出结果(用于实力摔锅!)
       3.注意避免和别的业务混合部署,以免压力过大影响了别的功能

    三、加强监控巡检
       1.Review 当前的监控,看是否有疏漏
       2.根据活动设置相应的监控,覆盖活动的所有关键路径

    四、准备故障处理预案
       1.针对可能出现的故障场景做好处理方案

    五、活动当天
       1.定时(比如每隔 30 分钟)查看监控视图
       2.团队成员轮流查看警报信息

    以上,只要不是人为原因,运维都不用背锅。
    至于其它什么随机 refues ,维护页面,道歉文案,那是业务和运营的事情了。
    WangYanjie
        14
    WangYanjie  
       2016-05-24 18:01:55 +08:00
    @just4test 精辟
    julyclyde
        15
    julyclyde  
       2016-05-25 14:20:05 +08:00
    如果不是京东淘宝天猫的话, 618 基本上并不需要做什么
    因为那几天流量会变少的
    cloudwise
        16
    cloudwise  
       2016-05-26 09:41:01 +08:00
    一定要压测,做活动服务器挂掉的不少呢。打个广告,可以试试我们家的压测宝( yacebao.com ):)
    lavdemo
        17
    lavdemo  
    OP
       2016-05-26 09:42:39 +08:00
    @julyclyde 真的吗?各家不是也有自己的活动吗?人群多少会不同吧?
    lavdemo
        18
    lavdemo  
    OP
       2016-05-26 10:02:19 +08:00
    @cloudwise 谢谢哈,好的话可以试试。
    julyclyde
        19
    julyclyde  
       2016-05-26 10:33:43 +08:00   ❤️ 1
    @lavdemo 人反正就那么多,钱反正就那么多,流向别处自然就不能流向这里
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2765 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 10:01 · PVG 18:01 · LAX 02:01 · JFK 05:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.