A2TP (Aggregation Transmission Protocol) 研读

A2TP

在传统的网络聚合方案中，流量控制和聚合资源申请是耦合的。A2TP 提出了两个独立的拥塞窗口：

这种设计使得当交换机内存（Aggregator）满载时，任务可以减少 ACW 但保持 LCW，从而让多出的流量绕过交换机直接走传统的 PS（参数服务器）模式，而不是阻塞整个流水线。

A2TP 的推理基于三个探测信号，这是理解其逻辑的关键：

交换机内聚合资源是否拥塞，是通过**哈希冲突（Hash Collision）**来判断的。

公式 1： $\alpha_i = (1 - w) \times \alpha_{i-1} + w \times h_i$
解析： 这是一个指数加权移动平均（EWMA）。 $h_i$ 是当前 RTT 内发生哈希冲突的梯度比例。 $\alpha_i$ 越大，表示交换机里的聚合条目（Regisiter）竞争越激烈。

如何量化一个 Job 是否成了“拖油瓶”？

公式 3： $\gamma_i = \frac{n_i}{LCW_i}$
参数： $n_i$ 是当前 RTT 收到的 ACK（已聚合完成的结果）数量， $LCW_i$ 是发出的总包数。
直觉推理：
- 如果 $\gamma_i \approx 1$ ，说明发出去的梯度很快都聚合返回了，运行很快。
- 如果 $\gamma_i \to 0$ ，说明发出去很多，但回来的很少，说明该 Job 内部有 Worker 拖了后腿（Straggler），导致梯度在交换机里占着坑位死等。

当检测到拥塞时，A2TP 并不是简单地让所有 Job 都减速，而是根据“谁慢谁多让”的原则。

公式 5： $d_i = p_i^{\gamma_i}$
重要逻辑分析：
- $p_i$ 是基础的拥塞程度（由哈希冲突 $\alpha_i$ 算出，处于 0 到 1 之间）。
- 如果任务是落后者（ $\gamma_i$ 很小，接近 0），那么 $p_i^{\gamma_i}$ 会变得很大（例如 $0.5^{0.1} \approx 0.93$ ）。
- 如果任务是领先者（ $\gamma_i$ 很大，接近 1），那么 $p_i^{\gamma_i}$ 会变得较小（例如 $0.5^{1} = 0.5$ ）。
结论： 在更新 ACW 时（公式 4： $ACW_{i+1} = ACW_i \times (1 - \frac{d_i}{2})$ ），落后 Job 的聚合窗口会剧烈收缩，把宝贵的交换机聚合资源“让”给跑得快的 Job，从而提升整体集群的吞吐量。

这部分公式推理旨在确定参数 $H$ （触发聚合器降速的冲突阈值）的最优值。论文通过建模“锯齿形”窗口波动来推导：

公式 7 ( $C(t)$ ): 定义了时刻 $t$ 的冲突总数。
公式 10 ( $d \approx \sqrt{2/ACW^*}$ ): 推导出了窗口下降因子与稳定窗口大小的关系。这借鉴了 TCP 的稳态分析，但在聚合资源场景下做了适配。
最终推导目标 (公式 14): $C_{min} = \frac{MH}{1-H} + N - \frac{1}{2}\sqrt{\frac{2MN}{1-H}}$ $C_{min} = \frac{M H}{1 - H} + N - \frac{1}{2} \frac{2 M N}{1 - H}$
- 推理目的： A2TP 希望在稳态时，交换机由于随机哈希导致的“不可避免冲突”不要让窗口变得太低。为了保证 CPU/GPU 满载（聚合器满载利用），需要设置合理的 $H$ 使得 $C_{min} \ge 0$ 。
- 结论： 随着并发 Job 数 ( $N$ ) 增加，阈值 $H$ 也需要适度调高，以容忍正常的哈希竞争，避免过度反应导致性能下降。

第一步：看图 2。 重点理解“落后 Job (Job B)”是如何霸占聚合器资源却不产生有效产出的。这是论文要打的“靶子”。
第二步：深挖 Section 4.3.2。 搞清 $p_i$ （冲突感官）和 $\gamma_i$ （速度感官）是如何组合成 $d_i$ 的。这是本文最精妙的数学设计：利用幂函数特性让慢 Job 自动退场。
第三步：实验复核。 看图 8 和图 9。注意 A2TP 在落后程度（Straggling Level）增加时，其 Iteration Time 依然能保持稳定，而 ATP 和 SwitchML 会大幅恶化。

总结： 阅读公式时，请牢记 “Aggregator-aware” 的含义——公式推理的目的是让协议能“感知”谁快谁慢，并利用这种感知去不公平地分配有限的交换机内存资源，从而达成整体运行速度（Efficiency）的最大化。¹²