中国AGI-Next前沿峰会技术分析:基模四杰论剑大模型未来
一、峰会背景
2025年初,清华大学基础模型北京市重点实验室发起AGI-Next前沿峰会,汇集了中国大模型领域四位领军人物:智谱唐杰、月之暗面杨植麟(Kimi)、阿里林俊旸(千问)、腾讯姚顺雨。这场"基模四杰"的论剑,信息密度极高,揭示了中国AGI发展的技术路径、范式变革与未来挑战。
二、核心观点摘要
唐杰(智谱)
- Chat范式已基本结束,下一步是从"对话"走向"做事"
- DeepSeek的出现标志着对话型模型的收敛
- 强化学习可验证环境(RLVR)成为关键技术方向
- 三类Scaling:数据与模型规模、推理、自学习环境
杨植麟(Kimi)
- Transformer的核心优势在于Token Efficiency
- MUON二阶优化器实现2倍Token效率提升
- Kimi Linear架构实现线性复杂度的长序列处理
- 做模型本质是创造一种世界观(Taste)
林俊旸(千问)
- 中国想在AI赛道反超,概率约20%,已非常乐观
- 多模态是智能体的必然方向
- Reasoning能力成为核心竞争力
- 全模态模型(三进三出)是目标
姚顺雨(腾讯)
- toC和toB发生明显分化
- toB场景智能越高,生产力越高
- toC场景大部分人用不着那么强的智能
- 垂直整合vs模型应用分层
三、技术发展脉络分析
3.1 从Chat到Agent的范式转变
唐杰在演讲中明确指出:DeepSeek横空出世后,Chat这一代问题基本已被解决。这迫使我们思考下一步方向。新的范式不再只是"对话",而是让每个人真正用AI完成一件具体的事情。
从Chat走向做事,是一个明显的转折点。当时摆在我们面前的,主要有两条思路:
- 围绕Thinking能力,结合Coding与Agent
- 让模型更深度地与环境交互,用AI直接辅助研究
智谱最终优先选择了前一条路径,强化Thinking能力并引入Coding场景。
graph TB
subgraph "Chat范式"
A1[问答] --> A2[对话]
A2 --> A3[个性化]
end
subgraph "做事范式"
B1[Thinking能力] --> B2[Coding能力]
B2 --> B3[Agent能力]
B3 --> B4[环境交互]
end
A3 --> B1
B4 --> B5[真实任务执行]
style B5 fill:#90EE90
style A3 fill:#FFB6C13.2 Token Efficiency与长上下文
杨植麟提出了两个核心优化方向:
Token Efficiency:希望尽可能把曲线往左边平移,当越往左边移动时,Token Efficiency越高,意味着可以用尽可能少的Token得到一样的效果。
Long Context:今天非常复杂的任务,必须在超长的Context下才能够完成。延长Context之后,Loss必然是下降,而且只有一个好的Agent才能下降得更多。
Transformer相比LSTM的优势,核心在于Token Efficiency。在很短的Context下,Transformer并不是更好的架构。但是当Context非常长的时候,Transformer显著比LSTM更好。
3.3 强化学习的新范式
今年一个重要变化是RLVR(可验证强化学习)。过去强化学习难以大规模推进,核心原因在于依赖人类反馈,而人类反馈存在噪音大、覆盖场景有限的问题。
如果引入可验证环境,模型就可以自主探索、自动获得反馈,在闭环中持续成长。但这里的难点也非常明显:所谓"可验证",在数学、编程等领域相对容易定义;可一旦扩展到更广泛的任务,仍然需人工判断。
3.4 多模态发展路径
林俊旸指出:如果你想做一个智能的东西,天然的应该是Multimodal。人有眼睛和耳朵可以做更多的事情。但更多的考虑是Foundation有更多的生产力,能不能更好地帮助人类。
理想的情况下,2022年设计的系统是中间有一个大脑,我们不知道那个大脑是什么东西,但是我们知道不同的模态和任务都应该进入到这个大脑,从这个大脑输出去,这个才是真正的想象当中的AGI。
graph TD
subgraph "输入模态"
A1[文本]
A2[视觉]
A3[语音]
end
subgraph "统一大脑"
B[Foundation Model/统一理解与生成]
end
subgraph "输出模态"
C1[文本生成]
C2[图像生成]
C3[视频生成]
C4[语音生成]
end
A1 --> B
A2 --> B
A3 --> B
B --> C1
B --> C2
B --> C3
B --> C4
B --> D[AGI通用智能体]
style B fill:#FFD700
style D fill:#98FB98四、技术架构演进
graph LR
subgraph "数据与模型"
A1[预训练] --> A2[SFT]
A2 --> A3[强化学习]
end
subgraph "Scaling三维度"
B1[Scaling数据与模型] --> C1[提升智能上限]
B2[Scaling推理] --> C2[更长思考时间]
B3[Scaling自学习环境] --> C3[环境交互反馈]
end
A3 --> B1
A3 --> B2
A3 --> B3
C1 --> D[智能体能力提升]
C2 --> D
C3 --> D
style D fill:#87CEEB4.1 优化器革新
Kimi团队发现基于MUON二阶优化器的效果会非常好,有2倍的Token Efficiency提升。只用50%的数据就可以达到一样的Test Loss。
在训练过程中,Muon会出现Logit爆炸的问题。通过QK-clip方法解决:
- 加Clip后,对效果是没有任何影响
- Logits会健康很多
- 很好稳定训练的作用
这使得全新的优化器可以在一万亿参数的kimiK2级别做稳定训练。
4.2 线性注意力机制
kimi Delta Attention是一个新的线性注意力机制。最主要的原因是在长距离任务上会掉点,当Context变长之后,用线性注意力效果是打不过全注意力的。
kimi Linear最重要的一点是让这种线性注意力的机制能够在很长程的任务上,甚至比全注意力做得更好,但是同时又更快,因为它是线性的,所以效率会高非常多。
4.3 系统一与系统二
人类认知是双系统,系统一和系统二。
- 系统一完成了95%的任务,比如"你今晚吃饭吗",随口回答"吃",这些是系统一背下来的
- 系统二只在更复杂的情境中启动,占比大约5%
对于大模型来讲同样的道理:
- 系统一可以对应一个大规模模型,让它通过模式匹配与知识提取,覆盖大量常见问答与常规任务
- 系统二可以对应更强的知识融合与推理机制,例如指令微调、思维链等,使模型能处理更复杂的推理与决策
- 人脑在睡眠中会发生无意识的整合与巩固
对应到今天的路径,可以把其分为三类Scaling:
- Scaling数据与模型规模,提升智能上限
- Scaling推理,让思考时间更长,用更多计算与搜索找到更优解
- Scaling自学习环境,让模型有更多与外界交互的机会,从环境中获得反馈
五、中美差距分析
5.1 客观因素
算力限制:美国的Compute可能整体比我们大1-2个数量级。OpenAI等机构将大量Computer投入到下一代的Research当中去,而中国相对捉襟见肘,光交付可能就已经占据绝大部分Computer。
光刻机瓶颈:如果最终算力变成了Bottleneck,中国的光刻机到底能不能突破,这是一个关键问题。
市场环境:toB市场在中国和美国存在显著差异。支付意愿、企业文化都有所不同。
5.2 主观因素
冒险精神:中国想要突破新的范式或者做非常冒险事情的人可能还不够多,这里面有经济环境、商业环境包括文化的因素。
研究文化:中国大家还是更喜欢做更安全的事情。今天预训练这个事情已经被证明可以做出来了,大家都很有信心几个月或者一段时间内就把这个问题搞清楚。
但如果探索一个长期记忆或者持续学习,这个事情大家不知道怎么做、不知道能不能做起来,这个事情还是比较困难的。
榜单依赖:中国对于刷榜或者数字看的更重一些。需要走出这些榜单的束缚,能够坚持自己觉得是不是正确的过程。
5.3 反超概率评估
林俊旸认为:中国能在AI赛道反超的概率约20%,这已经是非常乐观的估计。
姚顺雨相对乐观,认为概率还是挺高的。关键在于:
- 光刻机等算力基础设施能否突破
- 能否有更成熟的toB市场
- 能否有更多人愿意做前沿探索或新的范式突破
六、未来发展方向
6.1 2025年重点方向
唐杰判断2025年会成为AI for Science的重要突破年份。随着多项基础能力的提升,AI能够参与的科研任务范围将显著扩大。
同时,多模态感统会成为今年的重点方向。具备这种能力之后,AI才能在真实工作环境中执行长链路、长时效任务。
6.2 Agent发展的三个阶段
杨强提出Agent应该有四个阶段:
- 目标的定义(人为定义vs自动定义)
- 规划(人定义vsAI自动定义)
目前我们处于非常初级的阶段,目标也是人定义的,规划也是由人来做的。
6.3 AGI的可执行定义
张钹院士提出AGI应该满足五个关键能力:
- 时空一致的多模态理解与生成:关键在时空一致性
- 可控的在线学习与适应:强化学习最重要的是可控性问题
- 可验证的推理与长期执行与规划:推理必须要可检验
- 可校准的反思与元认知:反思必须可回溯、可检验
- 跨任务强泛化:跨任务的强化问题
七、技术挑战与解决方案
7.1 泛化能力问题
模型如何从Scaling走向真正的泛化能力,是核心问题。当前路径是通过Scaling提升泛化能力,但客观来说,模型的泛化水平仍有很大提升空间。
7.2 记忆与持续学习
人类具备多层级记忆结构,包括短期记忆、工作记忆和长期记忆。未来如何从个体记忆扩展到群体级、文明级的记忆结构,并将其纳入模型可持续学习框架,是一个重要问题。
7.3 自主学习与反思
当前模型已经具备初步的反思能力,但更深层次的自我认知仍然存在巨大争议。通过持续的自我评估与自我批判,模型能够逐步分辨哪些行为是有效的,哪些路径还有优化空间。
7.4 冷启动问题
很多应用场景本身几乎没有现成数据,更多是代码逻辑,典型的冷启动问题。早期采集并整合了大量数据,通过SFT和特定领域的强化学习,在部分场景中取得了较好效果。
但很快会发现一个现实问题:传统的iPhone use或手机交互,本质是点按钮,而AI的交互对象并非人。
八、AI时代的企业家责任
张钹院士提出,AI时代的企业家应该具备六个方面的职责:
- 重新定义价值的创造:人工智能不是给大家简单的提供产品和服务,而是把知识、伦理和应用变成可复用的工具,去实现对人类的造福
- 把人工智能作为像水和电那样通用的技术交给人类
- 把社会责任担当起来
- 治理问题:对齐与约束
- AI时代,企业家会变成光荣的、神圣的职业之一
九、总结
本次峰会揭示了中国大模型发展的几个关键趋势:
- 范式转变:从Chat走向做事,从对话走向Agent
- 技术突破:MUON优化器、线性注意力、RLVR等技术推动效率提升
- 多模态融合:全模态模型成为目标
- 中美差距:算力、市场、文化等多方面因素
- 未来方向:自主学习、长程推理、具身智能
中国在AI领域的追赶之路充满挑战,但也充满机遇。正如林俊旸所说:"能干这一行就非常不错了,能做大模型这件事情已经非常幸运了。"
关键在于:一群聪明人真的敢做特别冒险的事;环境可能更好一些;我们能不能坚持。
如果笨笨地坚持,也许走到最后的就是我们。