分布式事务---saga模式

本文最后更新于 2025-03-07，文章超过7天没更新，应该是已完结了~

①传统分布式事务处理方式以及saga模式处理方式的对别

场景：电商订单处理

假设你有一个电商平台，订单的处理需要涉及到多个微服务，分别是：

订单服务（Order Service）：创建订单。
库存服务（Inventory Service）：检查并扣减库存。
支付服务（Payment Service）：处理支付。

用户下单时，流程是这样的：

订单服务接收到创建订单请求。
库存服务检查库存并扣减。
支付服务扣款并完成支付。

所有这些操作需要作为一个整体进行处理，要么全部成功，要么全部失败。这就是一个典型的分布式事务。

传统的两阶段提交（2PC）实现

在两阶段提交中，这个订单处理的事务会被拆成几个步骤，每个步骤都是一个“子事务”。我们来看一下如何在2PC中进行处理：

第一阶段（准备阶段）：

订单服务首先创建一个订单（但不提交）。

订单服务向协调者（事务管理器）报告：“我准备好创建订单了，等待提交。”

库存服务检查库存，并锁定相应的库存。

库存服务向协调者报告：“我已经检查了库存，并锁定了库存，准备扣减库存。”

支付服务向协调者报告：“我已经检查用户的账户余额，并准备好扣款。”

在这个阶段，所有服务都需要与协调者通信，告诉它自己准备好了。

第二阶段（提交阶段）：

协调者检查所有服务是否都报告了“准备好”。
如果所有服务都准备好，协调者发出“提交”命令，所有服务开始实际执行操作：

订单服务提交订单。
库存服务扣减库存。
支付服务扣款。

如果有任何一个服务报告“失败”或者没有准备好，协调者会发出“回滚”命令，所有服务撤销之前的操作：

订单服务删除订单。
库存服务恢复库存。
支付服务退款。

性能瓶颈分析：

多次通信和等待：每个步骤都需要进行多次网络通信。首先是“准备”阶段，接着是“提交”阶段。如果有网络延迟或者服务响应慢，所有服务都会被阻塞。
锁定资源：库存服务需要在准备阶段锁定库存记录，支付服务可能需要锁定支付相关的资源。如果这些操作都很耗时，其他事务就需要等待这些锁释放，造成性能瓶颈。
单点故障风险：如果协调者出现问题，整个事务无法继续，导致系统停滞。

Saga模式实现

相较于两阶段提交，Saga模式将一个大事务拆解为多个小事务，并且每个子事务都是独立执行的。关键在于，Saga模式通过补偿机制来保证事务的最终一致性，而不是依赖中心化的协调者进行控制。

Saga模式的实现步骤：

订单服务创建订单并发送事件（如“订单已创建”）。

订单服务完成自己的操作后，立即返回结果，不需要等待其他服务的完成。

库存服务接收到“订单已创建”事件后，检查库存并扣减库存。

如果库存充足，库存服务扣减库存，并发送事件（如“库存已扣减”）。
如果库存不足，则通过发送失败事件（如“库存不足”）来触发补偿操作。

支付服务接收到“库存已扣减”事件后，处理支付并扣款。

如果支付成功，支付服务发送事件（如“支付成功”）。
如果支付失败，则通过发送失败事件来触发补偿操作（如“支付失败”）。

补偿操作：如果任何服务失败，其他服务会执行补偿操作：

如果支付失败，支付服务会执行“退款”操作。
如果库存扣减失败，库存服务会执行“恢复库存”操作。
如果订单创建失败，订单服务会执行“删除订单”操作。

Saga模式的优势：

性能提升：

每个服务独立执行自己的事务，不需要等待其他服务的响应，因此并发性高，不会阻塞。
比如，订单服务创建订单时，它只关心自己的事务，库存服务和支付服务可以并行执行，不需要相互等待。

避免锁瓶颈：

每个服务处理自己的部分事务，而不是像两阶段提交那样锁定资源。比如，库存服务处理库存时，它只会锁定库存数据，处理完之后立即释放锁。

灵活的错误处理：

如果支付服务失败，Saga模式通过补偿机制自动恢复之前的操作，例如，自动退款并恢复库存。
这种机制是“异步”处理的，不会像两阶段提交那样需要立即回滚整个事务

特性	两阶段提交（2PC）	Saga模式
事务粒度	整个事务为一个大事务，所有服务依赖协调者	将大事务拆分为多个小事务，每个服务独立处理
资源锁定	在准备阶段锁定资源，可能导致性能瓶颈	每个服务处理自己的事务，不需要长时间锁定资源
容错与回滚	故障发生时，需要协调者统一回滚，复杂	通过补偿机制保证最终一致性，每个服务自行回滚
性能	由于多次通信、等待和锁资源，性能较低	每个服务并行执行，性能较好
实现复杂度	需要一个中心协调者，故障恢复较复杂	每个服务独立处理，补偿机制更灵活

总结：

两阶段提交：适用于事务处理要求严格一致性的场景，但性能较差，复杂度高，且容易造成锁瓶颈。
Saga模式：适用于分布式系统中的长事务处理，通过拆分事务并使用补偿操作，避免了两阶段提交的性能问题，保证了最终一致性，同时能支持高并发。

② 最终一致性与立即一致性

立即一致性（即强一致性）：指的是在一个操作完成后，所有相关的数据都会即时达到一致状态，确保所有节点的状态在同一时刻是相同的。例如，使用传统的ACID事务保证在同一时间内，所有操作都要么全部成功，要么全部回滚，数据始终保持一致。
最终一致性：则是在分布式系统中，系统允许数据在某一时刻不一致，但系统会通过一定的机制最终达到一致状态。最终一致性不要求在所有操作完成后立刻反映一致，而是保证在一定时间内，系统最终会自我修正，达到一致性。

③ 服务之间的依赖关系管理较复杂，难以监控和调试？怎么办

1. 服务之间的依赖关系复杂

微服务架构中，每个服务都有自己的职责和数据存储，而这些服务之间往往需要相互通信以完成一个复杂的业务流程。随着服务数量的增加，服务之间的依赖关系逐渐变得复杂。特别是，当一个服务需要调用多个其他服务时，如何管理这些依赖关系和协调它们的执行顺序就变得非常困难。
服务依赖链：服务之间的依赖关系通常是链式的，比如服务A调用服务B，服务B又依赖服务C。随着系统规模的扩大，这种依赖链会变得更长，出现依赖传递的问题。一个小的服务故障可能会引发连锁反应，导致其他多个服务也受到影响。
版本和接口变更：随着系统的发展，微服务的接口和数据格式会不断演进。当某个服务的API或数据格式发生变化时，可能会影响到所有依赖它的服务，导致系统出现不兼容问题。

2. 难以监控和调试

分布式系统的复杂性：微服务架构中的服务部署在不同的主机上，服务间通信通过网络进行，可能是同步的，也可能是异步的。由于没有单一的集中式日志和数据库，跨服务的调用链变得难以追踪，导致问题的定位和调试变得困难。
日志分散：每个微服务有自己的日志系统和存储，这些日志通常不具备跨服务的关联性。需要手动将这些分散的日志数据整合在一起，才能识别系统的故障源。
异步通信：微服务架构中大量采用异步通信（如消息队列、事件驱动等）。这种方式提高了系统的性能和灵活性，但也使得调试变得更加困难，因为请求和响应之间没有明确的同步关系，故障诊断和链路跟踪变得更加复杂。

3. 服务依赖与故障传播

单点故障风险：某个服务出现故障时，可能会引发连锁反应，影响多个依赖该服务的其他服务。这种故障传播的复杂性增加了系统的脆弱性。
资源竞争：多个服务共享同一个资源时（如数据库、外部API等），一部分服务的资源请求可能会影响到其他服务的性能，尤其是在高并发场景下，服务之间的资源竞争会引发性能瓶颈。

解决方案：

为了应对服务依赖关系管理复杂性、监控与调试困难等问题，可以采取以下几种策略：

1. 服务依赖关系的管理

服务契约管理（Contract First）：

契约驱动开发：为了避免服务之间的紧耦合，可以采用契约驱动开发（Contract-First Development），即在开发前明确各个服务之间的接口和协议。每个服务都要遵循一个明确定义的契约（例如，REST API的接口文档），确保不同服务之间的交互规范化。
API网关：通过API网关来集中管理所有微服务的接口和流量，API网关可以做身份认证、流量路由和负载均衡等工作，从而简化服务间的调用关系和依赖管理。

服务依赖图与微服务拓扑：

服务拓扑图：可以使用工具自动生成微服务的依赖图，直观地展示服务之间的关系和依赖链。通过可视化服务拓扑，开发人员和运维人员能够清晰地了解服务间的依赖，及时发现潜在的性能瓶颈和故障传播路径。
服务网格（Service Mesh）：服务网格（如Istio、Linkerd）提供了统一的服务间通信管理平台。通过服务网格，微服务的调用关系可以集中管理，流量控制、错误重试、超时设置等都可以通过配置文件来实现，减少了服务间的手动配置和管理。

2. 增强监控和可观察性

分布式追踪（Distributed Tracing）：

分布式追踪系统（如Jaeger、Zipkin）可以帮助开发人员追踪请求在多个服务间的流转路径。通过为每个请求生成一个全局唯一的追踪ID，系统可以将所有微服务的日志和请求链路关联起来，从而帮助快速定位问题。
例如，在一个用户请求到达后，使用分布式追踪记录该请求从服务A到服务B、再到服务C的所有操作。这样可以清晰地看到整个请求的生命周期，以及请求在哪个服务上发生了延迟或错误。

集中式日志管理：

采用集中式日志系统（如ELK（Elasticsearch, Logstash, Kibana）、**EFK（Elasticsearch, Fluentd, Kibana）**等），将所有服务的日志集中收集并索引。这些工具提供强大的搜索和可视化功能，可以帮助开发者在海量日志中快速找到与问题相关的日志信息。
在集中式日志系统中，结合唯一标识符（如追踪ID），可以关联不同服务的日志，方便进行问题诊断和追踪。

监控与告警：

使用Prometheus、Grafana等工具，结合服务的性能指标（如响应时间、CPU使用率、内存消耗等），进行实时监控。通过对微服务健康状况的持续监控，可以及早发现系统瓶颈、服务故障和性能问题。
配置告警规则，一旦某个服务出现异常（如响应时间过长、错误率增高等），系统可以自动触发告警通知开发人员或运维人员，减少故障的响应时间。

3. 减少服务间的故障传播

服务隔离与降级：

在微服务架构中，服务隔离（比如隔离失败）是减小故障传播范围的重要手段。可以通过熔断器模式（如Hystrix）来隔离某个服务的故障，防止其影响到其他服务。比如，当支付服务出现故障时，使用熔断器停止调用该服务，避免进一步的请求浪费资源。
限流和负载均衡也是减少故障传播的有效手段。通过API网关或服务网格进行限流和负载均衡，避免某个服务过载时对整个系统造成影响。

重试与回退策略：

微服务之间的调用需要具备一定的容错能力。例如，在网络故障或超时的情况下，可以采用重试机制，在一定次数的失败后才真正放弃请求。
对于一些操作需要支持回退策略，比如如果某个步骤执行失败，可以通过回滚或补偿操作恢复系统状态。这样，系统即使在部分服务失败的情况下也能继续运行，并最终达到一致性。

4. 版本控制与向后兼容

版本化API：

为了减少服务间接口变更带来的影响，微服务的API应该进行版本化管理。采用合适的版本管理策略，避免直接修改已有接口，从而避免依赖于该接口的服务出现问题。可以通过URL版本控制（如/api/v1/）或者请求头来进行API版本控制。

向后兼容性：

当微服务的接口或数据格式发生变化时，应保证新版本接口和老版本接口的兼容性，或者通过灰度发布逐步切换，确保老版本服务仍然能够正常工作，直到所有服务都更新完毕。

总结

微服务架构中的服务依赖关系管理和监控调试的难度是不可避免的挑战。为了有效应对这些问题，推荐采取以下策略：

使用契约管理和服务网格来简化和规范服务间的依赖关系。
引入分布式追踪、集中式日志管理和实时监控，增强系统的可观察性和故障排查能力。
通过服务隔离、熔断器、限流等方式减少故障传播，确保系统的高可用性。

通过这些措施，可以有效管理微服务之间的依赖关系，并在出现问题时快速定位和解决，提升系统的可维护性和可扩展性。

④ 补偿操作的幂等性是Saga模式的核心原则之一

1. 什么是幂等性？

幂等性指的是一个操作无论执行多少次，其效果都是相同的。例如：

数据库中执行 UPDATE user_balance SET balance = 100 WHERE user_id = 1，无论这个操作执行多少次，balance 都是 100，结果不变，因此它是幂等的。
相比之下，UPDATE user_balance SET balance = balance - 10 WHERE user_id = 1，每次执行会减少 10，结果会发生变化，因此它不是幂等的。

2. 为什么补偿操作需要幂等性？

在分布式系统中，网络抖动、超时重试、事件重复发送等情况都会导致同一个补偿操作被多次执行。若补偿操作不具有幂等性，重复执行可能会带来错误的结果，进一步影响系统的正确性。例如：

如果退款服务重复执行“增加用户账户余额”操作，用户账户余额可能被错误增加。
如果库存补偿操作重复执行“恢复库存”操作，库存数据可能出现不一致。

幂等性确保即使补偿操作被重复调用，也不会对系统造成破坏。

3. 幂等性在补偿操作中的实现方式

以下是常见的幂等性实现方法：

3.1 利用唯一事务ID

原理：给每个补偿操作分配一个唯一的事务ID，在操作前检查该ID是否已经处理过。如果已经处理过，则直接返回；如果没有处理过，则执行操作并记录处理状态。
实现：

在数据库中记录事务ID及其处理状态。
每次操作前检查ID是否已存在。
示例：

-- 检查事务ID是否已处理
SELECT status FROM transaction_log WHERE transaction_id = 'txn123';

-- 如果未处理，则执行补偿操作并记录事务ID
UPDATE inventory SET stock = stock + 1 WHERE product_id = 'p123';
INSERT INTO transaction_log (transaction_id, status) VALUES ('txn123', 'completed');

3.2 基于状态的操作

原理：操作只会在满足特定状态时执行，执行完成后更新状态。如果操作被重复触发，状态检查会阻止其再次执行。
示例：

如果某笔交易的状态已经从“处理中”变为“已补偿”，任何后续的补偿操作都会被直接忽略。
状态字段示例：

transaction_status：Pending → Compensated

3.3 写入幂等性操作

原理：使用天然幂等的数据库操作。例如：

INSERT IGNORE 或 ON DUPLICATE KEY UPDATE（MySQL）。
Redis的 SETNX 指令，仅在键不存在时设置值。

3.4 消息去重

原理：如果补偿操作依赖消息驱动，需要在消费消息前检查消息是否重复。
实现：

将消息的唯一ID存入缓存（如Redis）或数据库。
在消息处理前检查ID是否已存在。