13 October 2025

IMG-THUMBNAIL

总结了下资损常见的治理思路,包括一致性、卡单、幂等(重复执行无副作用)、合理性。
  • 目录

维度 一致性 卡单 幂等(重复执行无副作用) 合理性
核心定义 多数据源 / 存储节点间的数据 “最终一致” 或 “强一致”,重点关注状态字段不一致问题 业务流程在关键节点停滞(未按预期向下流转),表现为 “状态卡住” 同一请求(或重复请求)多次执行,产生的业务结果与 “仅执行一次” 完全一致,避免重复扣钱、重复发货等副作用 业务逻辑符合业务规则、赔付原则、财务合规
典型场景 稳定性问题:1. 强一致性:分布式事务;2. 最终一致性:MQ、重试;3. 跨数据源数据不一致;4. 跨服务数据同步 业务类问题:1. 任务下发失败;2. 回调丢失;3. 资源锁死(如分布式锁未释放导致流程阻塞); 技术问题:1. 重复支付(用户多次点击支付按钮导致重复扣款);2. MQ 消息重复消费(如重试机制导致消息重复投递);3. 接口重试(如前端超时重试、网关重试导致重复执行业务逻辑); 业务、技术问题:1. 边界值违规(如零空负);2. 财务合规违规(极大、极小);3. 逻辑冲突(如 “已取消订单” 仍能发起退款);4. 规则不合理,增值服务开通了错误的的国家
核心工作内容 1. 一致性方案设计;2. 不一致监控;3. 不一致数据修复(修复接口可重试) 1. SLA 计算;2. 流程链路追踪(埋点监控关键节点状态流转);3. 阻塞原因洞察、归因;4. 异常单据修复 1. 幂等标识设计;2. 悲观锁;3. DB 幂等校验;4. 不幂等数据处理,迁移新库 1. 规则线上化;2. 边界值测试(覆盖极端场景,如 0 金额、超大数据量);3. 灰度;4. 仿真;
影响面 涉及单量大,修复方式简单 影响用户体验 一旦下游无法兜底拦截会产生直接资损,优化成本高 大部分为 Bug,需要对业务有深刻理解,修数难度大

治理思路

推荐按照一致性、幂等、卡单、合理性的顺序进行治理。优先保证系统质量,再拔高监控解决细分场景的问题。

评估完整性

  • 一致性:重点关注系统间数据一致性,监控系统间数据传输质量。需要列举核心系统调用来评估;
  • 幂等:评估系统是否对重复请求有正确的处理机制,避免重复执行导致的副作用。需要列举核心单据来评估;
  • 卡单:评估系统是否对关键节点的状态流转有监控和修复机制,避免业务流程停滞。需要通过单据核心状态&动作来评估;
  • 合理性:评估系统是否符合业务规则、赔付原则、财务合规等要求,下钻到细分场景监控,监控代码 Bug。需要梳理下游使用的重点字段来评估,如订单金额、支付状态、退款金额等。

原文链接:资损常见治理思路,转载请注明来源!

EOF