【稳定运营阶段游戏运维的自我突破】打破故障处理既定规则,将习惯变工具

QQ炫舞遭受网络攻击要较其他业务要高许多,同时其抗网络波动能力较弱,这会导致同一网络波动QQ炫舞会比其他游戏多掉线30%左右。
关于网络攻击类的故障,QQ炫舞与腾讯宙斯盾团队进行了深入的合作。高频率的调整防御策略,以防御各类型的攻击;黑洞设备的覆盖与扩容,极大的提升了防御范围与能力(超大流量)。保障了99%的攻击对业务无影响。

高频率的现网掉线导致运维每天都会接收到掉线告警,并需要上线去确认原因。这有损玩家体验、同时也增加了运维的工作量。因此运维侧开发了”掉线原因自动分析“app。在掉线告警产生的同时,通过固化的流程分析出原因,并及时周知;并生成掉线周报、月报,针对性的推动IDC改善网络环境,推动开发商优化网络模块。

通过此app及后续的项目,QQ炫舞的日掉线率下降了70%。

如下图是掉线故障处理新的思路,并已经通过工具实现自动化处理。

【稳定运营阶段游戏运维的自我突破】打破故障处理既定规则,将习惯变工具

DNF的突发多为版本bug导致。

针对类似问题,我们除了要求开发商提升版本质量、加大测试力度之外,还需要对突发的前、中、后进行控制。接入腾讯铁算盘,对金币、关键道具进行监控,以便在问题变严重前及时发现并处理;突发发生中,我们需要及时评估,通过停服、关闭单个活动等手段控制影响,并协调干系同事实时验证并确定修复方案;突发后需要回顾过程,如优化监控策略,缩短DB回档时间,减少停服时长等。

下图为对游戏内金币、道具产出的监控:

【稳定运营阶段游戏运维的自我突破】打破故障处理既定规则,将习惯变工具

为减少停服时间,运维侧制定了灵活(可以针对不同的大区或模块)的停服、起服作业(ijobs作业)

国内开发商在BUG类突发处理的配合度较高,会及时分享进度、原因、以及后续的规避方案;而韩国开发商在信息共享方面做得较少,只是单方面的进行bug修复,所以会出现一些重复的bug。因此运维需要与韩国开发商保持的良好沟通(最后一章节介绍了如何与开发商沟通)并建立信任关系,这样才能获得更多的信息,并获得更多的话语权。

由于韩国网络状况较好、外挂较少,所以开发商会把更多精力放在游戏的内容玩法上,高频率的版本更新节奏,会带来较多的游戏bug及安全漏洞,运维侧需要做好监控、提升操作效率、固化流程,以减少bug对游戏带来的影响。

去年今日运营文章

  1. 2024:  2023小红书《首届美丽大事件》招商案(0)
  2. 2024:  2023小红书黑胶计划招商方案(0)
  3. 2024:  2023小红书《宝藏成分工作室》帮助品牌与成分深度绑定,建立用户心智(0)
  4. 2024:  新媒体闯关地图-电子版(0)
  5. 2024:  60个2023年营销圈热点回顾,你关注过几个?(0)

原创文章,作者:爱运营,如若转载,请注明出处:https://www.iyunying.org/yunying/sqyy/5082.html

(0)
爱运营的头像爱运营管理员
上一篇 2015年1月20日 上午10:18
下一篇 2015年1月20日

推荐资讯

发表回复

登录后才能评论
分享本页
返回顶部