资损常见治理思路
13 October 2025
总结了下资损常见的治理思路,包括一致性、卡单、幂等(重复执行无副作用)、合理性。
- 目录
维度 | 一致性 | 卡单 | 幂等(重复执行无副作用) | 合理性 |
---|---|---|---|---|
核心定义 | 多数据源 / 存储节点间的数据 “最终一致” 或 “强一致”,重点关注状态字段不一致问题 | 业务流程在关键节点停滞(未按预期向下流转),表现为 “状态卡住” | 同一请求(或重复请求)多次执行,产生的业务结果与 “仅执行一次” 完全一致,避免重复扣钱、重复发货等副作用 | 业务逻辑符合业务规则、赔付原则、财务合规 |
典型场景 | 稳定性问题:1. 强一致性:分布式事务;2. 最终一致性:MQ、重试;3. 跨数据源数据不一致;4. 跨服务数据同步 | 业务类问题:1. 任务下发失败;2. 回调丢失;3. 资源锁死(如分布式锁未释放导致流程阻塞); | 技术问题:1. 重复支付(用户多次点击支付按钮导致重复扣款);2. MQ 消息重复消费(如重试机制导致消息重复投递);3. 接口重试(如前端超时重试、网关重试导致重复执行业务逻辑); | 业务、技术问题:1. 边界值违规(如零空负);2. 财务合规违规(极大、极小);3. 逻辑冲突(如 “已取消订单” 仍能发起退款);4. 规则不合理,增值服务开通了错误的的国家 |
核心工作内容 | 1. 一致性方案设计;2. 不一致监控;3. 不一致数据修复(修复接口可重试) | 1. SLA 计算;2. 流程链路追踪(埋点监控关键节点状态流转);3. 阻塞原因洞察、归因;4. 异常单据修复 | 1. 幂等标识设计;2. 悲观锁;3. DB 幂等校验;4. 不幂等数据处理,迁移新库 | 1. 规则线上化;2. 边界值测试(覆盖极端场景,如 0 金额、超大数据量);3. 灰度;4. 仿真; |
影响面 | 涉及单量大,修复方式简单 | 影响用户体验 | 一旦下游无法兜底拦截会产生直接资损,优化成本高 | 大部分为 Bug,需要对业务有深刻理解,修数难度大 |
治理思路
推荐按照一致性、幂等、卡单、合理性的顺序进行治理。优先保证系统质量,再拔高监控解决细分场景的问题。
评估完整性
- 一致性:重点关注系统间数据一致性,监控系统间数据传输质量。需要列举核心系统调用来评估;
- 幂等:评估系统是否对重复请求有正确的处理机制,避免重复执行导致的副作用。需要列举核心单据来评估;
- 卡单:评估系统是否对关键节点的状态流转有监控和修复机制,避免业务流程停滞。需要通过单据核心状态&动作来评估;
- 合理性:评估系统是否符合业务规则、赔付原则、财务合规等要求,下钻到细分场景监控,监控代码 Bug。需要梳理下游使用的重点字段来评估,如订单金额、支付状态、退款金额等。
原文链接:资损常见治理思路,转载请注明来源!
–EOF–