复杂的业务项目,存在超巨量的业务逻辑,依赖大量数据源和输出大量指标。每次改动如果出现一些代码错误还好,就怕出现一些配置错误或者其他依赖问题,系统不报错,但指标值偏差好多,这种情况很难发现。
我想通过异常检测来初步判断输入输出是否出现了异常,比如原本长度均值在 12K 的字段突然下降到 1K ,指标只出现一个值,但预期会有 5 个值这种。除了手撸一套检查脚本外,有没有一些成熟的框架能做这个的呀?
如果除了异常检测外,有别的方案,也麻烦各位大佬帮忙指出。多谢多谢
1
Manley 31 天前
插眼,看看有没有大佬推荐,我学习一下
|
2
xiaoxinshiwo 31 天前
playwright 代替人工输入和点击
|
3
xisha OP @xiaoxinshiwo 多谢推荐,了解了下这是个测试工具,但是这个场景需要的是线上实时或事后的异常数据检测及发现,发现一些非预期变更。
我举两个例子: 1.上游接口提供的数据在变更后,该 List 会在 12 条数据时截断,真实数据可能是 5-40 条,后来发现有段时间的指标平均值下降了很多,才找到原因,如果用时序异常检测,应该能发现。 2.线上接口,调用后会根据参数返回标签,正常会返回 5 枚举中的一个,上游运维错误后只能返回 1 个,这种通过异常数据检测应该也能发现。 现在的想法是有没有什么成熟方案,我这边初步想用 Flink 去日跑批,或者脚本日跑批。 |
4
qocja 31 天前
prometheus 加几个 metrics 就好吧,如果需要告警再来个 alertmanager 就完事了
|