mHC 在 17 亿参数规模下的不稳定性炸弹技术分析

一、新闻概述

1. 标题

10,924 倍信号放大:17 亿参数规模下的不稳定性炸弹

2. 发布时间

2026 年 1 月 16 日

3. 来源

Taylor Kolasinski 技术博客

二、核心内容

1. 事件摘要

A. 主要内容

这是 mHC(Manifold Hyper-Connections)复现系列的第二部分。第一部分展示了 1000 万参数规模下的不稳定性,现在作者将规模扩展至 17 亿参数。

B. 核心亮点

  • HC 在 17 亿参数下达到 10,924 倍信号放大
  • mHC 保持完美的 1.0 倍稳定性
  • 不稳定性从输入层开始,而非输出层
  • 在 3 倍学习率压力测试中,HC 达到 14,765 倍

C. 关键数据

  • 参数规模:1.7B - 2.5B(第一部分为 10M)
  • 数据集:C4(300GB+)
  • 硬件:8x H100 SXM5
  • 最大 Amax:10,924x(超过 DeepSeek 论文报告的 3000x)

2. 背景介绍

A. 前置版本

第一部分在 1000 万参数的 TinyShakespeare 数据集上训练 Transformer,观察到 Hyper-Connections 爆炸至 9.2 倍信号放大。DeepSeek 论文报告在 270 亿参数下达到 3000 倍。

B. 相关上下文

作者租用了一个 8x H100 节点进行实验,试图追赶 DeepSeek 论文中报告的数值。结果显示不稳定性随着模型规模扩大而显著加剧。

三、详细报道

1. 实验设计

A. 架构对比

作者运行了 18 个实验,涵盖三种架构:

  • Residual:标准的 x + F(x) 基线
  • HC:无约束混合矩阵的 Hyper-Connections
  • mHC:带 Sinkhorn 投影的 Manifold Hyper-Connections

B. 实验配置

  • 深度:32 层和 48 层
  • 随机种子:42、123、456(每种配置 3 个种子)
  • 训练步数:5000 步
  • 精度:bf16 混合精度
  • 32 层模型:17.3 亿参数
  • 48 层模型:25.4 亿参数

2. 实验结果

A. 损失曲线

所有三种方法收敛到相似的损失(约 5.4-6.0)。学习曲线几乎完全重叠,HC 没有学得更快,mHC 也没有学得更慢。Sinkhorn 约束基本上是免费的。

B. Amax 指标

Amax 衡量混合矩阵对信号的放大程度,1.0 表示中性,越高表示放大越强。

在深度 32 时:

  • HC 的 Amax 攀升至 6,500x,伴随剧烈振荡
  • mHC 稳定在 1.0

在深度 48 时:

  • HC 爆发至 3,500x
  • mHC 保持锁定在 1.0

C. 数据对比

方法深度最终损失最大 Amax
Residual325.45 ± 0.04N/A
HC325.43 ± 0.0310,924 ± 3,247
mHC325.45 ± 0.031.00 ± 0.00
Residual485.48 ± 0.04N/A
HC485.92 ± 0.193,721 ± 378
mHC486.03 ± 0.201.00 ± 0.00

HC 在深度 32 时根据不同随机种子在约 7,600x 至 14,200x 之间波动,而 mHC 每次运行都是 1.00。没有方差,完美稳定。

3. 技术细节

A. 扩展定律

graph LR
    A[10M 参数] -->|9.2x| B[Part 1]
    C[1.7B 参数] -->|10,924x| D[Part 2]
    E[27B 参数] -->|3,000x| F[DeepSeek]
    D -->|推测| G[10B → 50,000x]
    D -->|推测| H[100B → 400,000x]

mermaid

对数坐标图显示:

  • Part 1:10M 参数 → 9.2x
  • Part 2:1.7B 参数 → 10,924x
  • DeepSeek:27B 参数 → 3,000x(报告值)

趋势线显示在 100 亿参数时可能达到约 50,000x,在 1000 亿参数时达到约 400,000x。

B. 为什么模型没有崩溃

令人意外的是,所有 HC 运行都没有崩溃。14,765 倍信号放大,10,924 倍在深度 32。损失没有发散,训练没有出现 NaN。模型继续学习。

可能的原因:

  • 梯度裁剪拯救了局面:在范数 1.0 处裁剪防止了最严重的爆炸
  • 5000 步不够:训练更长时间可能会爆炸
  • 模型太小:在 1000 亿参数时动态可能不同

C. 逐层分析

graph TB
    subgraph HC
        L0[Layer 0] -->|最先变红| L1[Layer 1-47]
    end
    subgraph mHC
        M0[Layer 0] -->|全绿| M1[Layer 1-47]
    end
    L0 -->|Amax > 2.0| Exp[早期训练]
    M0 -->|Amax = 1.0| Stable[整个训练过程]

mermaid

令人惊讶的是,不稳定性从输入层开始,而非输出层。

在 HC 中,第 0 层(最上面一行)在训练早期首先变红,其混合矩阵超过 Amax 2.0,而更深的层保持相对稳定。深度似乎不是问题,而是第 0 层。唯一处理原始输入的层。

为什么是第 0 层?与前面有 LayerNorm 的更深层不同,第一个混合矩阵直接作用于原始嵌入。其他层看到的是归一化、变换后的表示。但第 0 层必须处理嵌入表产生的任何内容。如果缩放不完美匹配,第 0 层学会补偿。在 HC 中,补偿可能意味着放大。

mHC 在所有层和所有训练步骤中都是均匀的绿色。Sinkhorn 投影限制了最大值,同时防止任何层漂移。

D. 信号流可视化

graph LR
    Input[输入 1.0] --> L8[第 8 层]
    L8 --> L16[第 16 层]
    L16 --> L24[第 24 层]
    L24 --> L32[第 32 层]
    L32 --> HCOut[HC 输出 532x]
    L32 --> mHCOut[mHC 输出 1.000003x]

    style HCOut fill:#ff6b6b
    style mHCOut fill:#51cf66

mermaid

在步骤 3000 时,进入 HC 网络的信号在输出时放大了 532 倍。同一信号通过 mHC 输出时为 1.000003 倍,基本保持不变。

LayerNorm 和非线性似乎吸收了其中很多,但这意味着它们花费容量仅仅是为了抵消上游的混乱。

四、压力测试

在 3 倍学习率下的压力测试结果:

配置最大 Amax
HC d32 @ 3x LR~5,400x
HC d48 @ 3x LR~3,800x
HC d64 @ 3x LR14,765x
mHC(所有配置)1.0

深度 64 模型在 Amax 达到 14,765x 之前在 2,000x 和 10,000x 之间剧烈振荡,混合矩阵完全失控。

mHC 在每种配置、每个学习率下都是平坦、稳定且无聊的 1.0。

五、影响分析

1. 技术意义

这是一个定时炸弹场景。不稳定性存在,但尚未导致灾难性故障。在更大规模或更长训练时间下,炸弹可能会引爆。

2. 实践建议

如果实现 Hyper-Connections:

  • 使用 Sinkhorn 投影:约 10 行代码,消除规模下真正危险的失败模式
  • 训练期间监控 Amax:如果看到攀升超过 10 倍,正在积累不稳定性
  • 第 0 层是预警信号:特别密切地监视输入混合矩阵
  • 约束没有性能成本:mHC 运行与 HC 损失完全匹配

3. 守恒定律

每个残差连接都是一个守恒定律。mHC 强制执行它。

在 17 亿规模下,HC 以信号在训练期间增长 10,000 倍违反了守恒。mHC 强制执行它,信号保持。

在 1000 万参数时,违反守恒是可生存的。第一部分看到的 9.2 倍放大很烦人但可管理。

在 17 亿参数时,它是一颗炸弹。10,924 倍放大意味着应该为幅度 1 的信号现在是幅度 10,924。梯度更新对抗这种放大,而优化器做额外工作来补偿网络的内部混乱。

六、实验环境

  • 硬件:Lambda Labs 8x H100 SXM5 节点
  • 运行时间:约 17 小时
  • 数据和代码:公开可用(W&B 仪表板包含完整配置、指标和系统日志)

七、开放问题

1. HC 实际上会失败吗?

看到了 10,924 倍放大,但训练没有发散。这是潜在风险,还是更长的训练会导致失败?

2. 扩展定律是什么?

10M → 9.2x。1.7B → 10,924x。在 10B 时会发生什么?

作者希望将扩展定律追踪到 100 亿参数。趋势线显示那里可能有 50,000 倍放大。该实验在技术上已准备就绪,但需要计算预算的大幅提升。


参考资料

  1. 10,924x: The Instability Bomb at 1.7B Scale
  2. DeepSeek 论文
  3. Part 1: mHC Reproduction
最后修改:2026 年 01 月 19 日
如果觉得我的文章对你有用,请随意赞赏