mHC 在 17 亿参数规模下的不稳定性炸弹技术分析
一、新闻概述
1. 标题
10,924 倍信号放大:17 亿参数规模下的不稳定性炸弹
2. 发布时间
2026 年 1 月 16 日
3. 来源
Taylor Kolasinski 技术博客
二、核心内容
1. 事件摘要
A. 主要内容
这是 mHC(Manifold Hyper-Connections)复现系列的第二部分。第一部分展示了 1000 万参数规模下的不稳定性,现在作者将规模扩展至 17 亿参数。
B. 核心亮点
- HC 在 17 亿参数下达到 10,924 倍信号放大
- mHC 保持完美的 1.0 倍稳定性
- 不稳定性从输入层开始,而非输出层
- 在 3 倍学习率压力测试中,HC 达到 14,765 倍
C. 关键数据
- 参数规模:1.7B - 2.5B(第一部分为 10M)
- 数据集:C4(300GB+)
- 硬件:8x H100 SXM5
- 最大 Amax:10,924x(超过 DeepSeek 论文报告的 3000x)
2. 背景介绍
A. 前置版本
第一部分在 1000 万参数的 TinyShakespeare 数据集上训练 Transformer,观察到 Hyper-Connections 爆炸至 9.2 倍信号放大。DeepSeek 论文报告在 270 亿参数下达到 3000 倍。
B. 相关上下文
作者租用了一个 8x H100 节点进行实验,试图追赶 DeepSeek 论文中报告的数值。结果显示不稳定性随着模型规模扩大而显著加剧。
三、详细报道
1. 实验设计
A. 架构对比
作者运行了 18 个实验,涵盖三种架构:
- Residual:标准的 x + F(x) 基线
- HC:无约束混合矩阵的 Hyper-Connections
- mHC:带 Sinkhorn 投影的 Manifold Hyper-Connections
B. 实验配置
- 深度:32 层和 48 层
- 随机种子:42、123、456(每种配置 3 个种子)
- 训练步数:5000 步
- 精度:bf16 混合精度
- 32 层模型:17.3 亿参数
- 48 层模型:25.4 亿参数
2. 实验结果
A. 损失曲线
所有三种方法收敛到相似的损失(约 5.4-6.0)。学习曲线几乎完全重叠,HC 没有学得更快,mHC 也没有学得更慢。Sinkhorn 约束基本上是免费的。
B. Amax 指标
Amax 衡量混合矩阵对信号的放大程度,1.0 表示中性,越高表示放大越强。
在深度 32 时:
- HC 的 Amax 攀升至 6,500x,伴随剧烈振荡
- mHC 稳定在 1.0
在深度 48 时:
- HC 爆发至 3,500x
- mHC 保持锁定在 1.0
C. 数据对比
| 方法 | 深度 | 最终损失 | 最大 Amax |
|---|---|---|---|
| Residual | 32 | 5.45 ± 0.04 | N/A |
| HC | 32 | 5.43 ± 0.03 | 10,924 ± 3,247 |
| mHC | 32 | 5.45 ± 0.03 | 1.00 ± 0.00 |
| Residual | 48 | 5.48 ± 0.04 | N/A |
| HC | 48 | 5.92 ± 0.19 | 3,721 ± 378 |
| mHC | 48 | 6.03 ± 0.20 | 1.00 ± 0.00 |
HC 在深度 32 时根据不同随机种子在约 7,600x 至 14,200x 之间波动,而 mHC 每次运行都是 1.00。没有方差,完美稳定。
3. 技术细节
A. 扩展定律
graph LR
A[10M 参数] -->|9.2x| B[Part 1]
C[1.7B 参数] -->|10,924x| D[Part 2]
E[27B 参数] -->|3,000x| F[DeepSeek]
D -->|推测| G[10B → 50,000x]
D -->|推测| H[100B → 400,000x]对数坐标图显示:
- Part 1:10M 参数 → 9.2x
- Part 2:1.7B 参数 → 10,924x
- DeepSeek:27B 参数 → 3,000x(报告值)
趋势线显示在 100 亿参数时可能达到约 50,000x,在 1000 亿参数时达到约 400,000x。
B. 为什么模型没有崩溃
令人意外的是,所有 HC 运行都没有崩溃。14,765 倍信号放大,10,924 倍在深度 32。损失没有发散,训练没有出现 NaN。模型继续学习。
可能的原因:
- 梯度裁剪拯救了局面:在范数 1.0 处裁剪防止了最严重的爆炸
- 5000 步不够:训练更长时间可能会爆炸
- 模型太小:在 1000 亿参数时动态可能不同
C. 逐层分析
graph TB
subgraph HC
L0[Layer 0] -->|最先变红| L1[Layer 1-47]
end
subgraph mHC
M0[Layer 0] -->|全绿| M1[Layer 1-47]
end
L0 -->|Amax > 2.0| Exp[早期训练]
M0 -->|Amax = 1.0| Stable[整个训练过程]令人惊讶的是,不稳定性从输入层开始,而非输出层。
在 HC 中,第 0 层(最上面一行)在训练早期首先变红,其混合矩阵超过 Amax 2.0,而更深的层保持相对稳定。深度似乎不是问题,而是第 0 层。唯一处理原始输入的层。
为什么是第 0 层?与前面有 LayerNorm 的更深层不同,第一个混合矩阵直接作用于原始嵌入。其他层看到的是归一化、变换后的表示。但第 0 层必须处理嵌入表产生的任何内容。如果缩放不完美匹配,第 0 层学会补偿。在 HC 中,补偿可能意味着放大。
mHC 在所有层和所有训练步骤中都是均匀的绿色。Sinkhorn 投影限制了最大值,同时防止任何层漂移。
D. 信号流可视化
graph LR
Input[输入 1.0] --> L8[第 8 层]
L8 --> L16[第 16 层]
L16 --> L24[第 24 层]
L24 --> L32[第 32 层]
L32 --> HCOut[HC 输出 532x]
L32 --> mHCOut[mHC 输出 1.000003x]
style HCOut fill:#ff6b6b
style mHCOut fill:#51cf66在步骤 3000 时,进入 HC 网络的信号在输出时放大了 532 倍。同一信号通过 mHC 输出时为 1.000003 倍,基本保持不变。
LayerNorm 和非线性似乎吸收了其中很多,但这意味着它们花费容量仅仅是为了抵消上游的混乱。
四、压力测试
在 3 倍学习率下的压力测试结果:
| 配置 | 最大 Amax |
|---|---|
| HC d32 @ 3x LR | ~5,400x |
| HC d48 @ 3x LR | ~3,800x |
| HC d64 @ 3x LR | 14,765x |
| mHC(所有配置) | 1.0 |
深度 64 模型在 Amax 达到 14,765x 之前在 2,000x 和 10,000x 之间剧烈振荡,混合矩阵完全失控。
mHC 在每种配置、每个学习率下都是平坦、稳定且无聊的 1.0。
五、影响分析
1. 技术意义
这是一个定时炸弹场景。不稳定性存在,但尚未导致灾难性故障。在更大规模或更长训练时间下,炸弹可能会引爆。
2. 实践建议
如果实现 Hyper-Connections:
- 使用 Sinkhorn 投影:约 10 行代码,消除规模下真正危险的失败模式
- 训练期间监控 Amax:如果看到攀升超过 10 倍,正在积累不稳定性
- 第 0 层是预警信号:特别密切地监视输入混合矩阵
- 约束没有性能成本:mHC 运行与 HC 损失完全匹配
3. 守恒定律
每个残差连接都是一个守恒定律。mHC 强制执行它。
在 17 亿规模下,HC 以信号在训练期间增长 10,000 倍违反了守恒。mHC 强制执行它,信号保持。
在 1000 万参数时,违反守恒是可生存的。第一部分看到的 9.2 倍放大很烦人但可管理。
在 17 亿参数时,它是一颗炸弹。10,924 倍放大意味着应该为幅度 1 的信号现在是幅度 10,924。梯度更新对抗这种放大,而优化器做额外工作来补偿网络的内部混乱。
六、实验环境
- 硬件:Lambda Labs 8x H100 SXM5 节点
- 运行时间:约 17 小时
- 数据和代码:公开可用(W&B 仪表板包含完整配置、指标和系统日志)
七、开放问题
1. HC 实际上会失败吗?
看到了 10,924 倍放大,但训练没有发散。这是潜在风险,还是更长的训练会导致失败?
2. 扩展定律是什么?
10M → 9.2x。1.7B → 10,924x。在 10B 时会发生什么?
作者希望将扩展定律追踪到 100 亿参数。趋势线显示那里可能有 50,000 倍放大。该实验在技术上已准备就绪,但需要计算预算的大幅提升。