清华AGI-Next前沿峰会深度分析
一、概述
2025年底,清华大学基础模型北京市重点实验室发起AGI-Next前沿峰会,"基模四杰"全员到场:智谱唐杰、Kimi杨植麟、阿里林俊旸,以及远程接入的姚顺雨。这场峰会呈现了中国大模型领域最高水平的思考与判断。
核心问题:大模型发展的范式正在发生转变。从Chat到做事,从预训练到强化学习,从单一模态到多模态融合,从工具到Agent,整个行业正处于关键的转折点。
二、系统组成与核心要素
1. 大模型能力发展轨迹
graph TD
A[2020年<br/>简单QA] --> B[2021-2022年<br/>数学计算与基础推理]
B --> C[2023-2024年<br/>复杂推理与代码能力]
C --> D[2025年<br/>Agent与环境交互]
D --> E[未来方向<br/>多模态感统与持续学习]2. 训练范式演进
graph LR
subgraph 第一阶段
A1[预训练] --> A2[知识记忆]
end
subgraph 第二阶段
B1[SFT对齐] --> B2[理解人类意图]
end
subgraph 第三阶段
C1[强化学习] --> C2[复杂任务执行]
end
subgraph 第四阶段
D1[RLVR] --> D2[可验证环境自主探索]
end
第一阶段 --> 第二阶段 --> 第三阶段 --> 第四阶段3. 系统一与系统二认知架构
graph TB
subgraph 系统一
A1[模式匹配] --> A2[快速响应]
A2 --> A3[覆盖95%日常任务]
end
subgraph 系统二
B1[思维链推理] --> B2[复杂决策]
B2 --> B3[处理5%复杂任务]
end
subgraph 自学习模块
C1[睡眠式整合] --> C2[知识巩固]
C2 --> C3[噪声清理]
end
输入 --> 系统一
输入 --> 系统二
系统一 --> 自学习模块
系统二 --> 自学习模块
自学习模块 --> 输出三、核心观点分析
1. 唐杰:从Chat到做事的范式转变
关键判断:DeepSeek横空出世后,Chat这一代问题基本已被解决,下一步的核心是让AI真正完成具体任务。
技术路径选择:
- 思路一:围绕Thinking能力,结合Coding与Agent
- 思路二:让模型更深度与环境交互,如DeepResearch
最终选择:优先强化Thinking能力并引入Coding场景。
RLVR(可验证强化学习)的价值:
- 数学、编程等领域容易定义可验证环境
- 模型可自主探索、自动获得反馈
- 挑战:可验证场景正在耗尽,需进入半自动验证或不可验证任务空间
2. 杨植麟:Token Efficiency与Long Context
核心原理:Scaling Law是将能源转化为智能的过程。
两个关键优化方向:
A. Token Efficiency
- 用更少Token达到同样效果
- MUON优化器实现2倍Token Efficiency提升
- 本质是提升智能上限,因为Token数量有限
B. Long Context
- 复杂任务必须超长Context才能完成
- kimi Linear架构实现线性复杂度
- 在长程任务上比全注意力机制效果更好
世界观创造论:做模型本质上是在创造一种世界观,需要Taste和审美。智能不同于电力等可交换商品,每个模型产生的Token具有独特性。
3. 林俊旸:全模态Agent的探索
多模态策略:
- Visual Understanding:操作手机、操控电脑
- VL模型当LLM用,保持语言智力不降智
- Coding输入可以是图像或视频
生成能力:
- Qwen-Image系列接近真人水平
- 编辑是比生成更大的需求
- 符合物理规律的图像生成
务实判断:中国想在AI赛道反超很难,20%概率已经非常乐观。关键差距在于:
- 算力投入:美国整体比中国大1-2个数量级
- 创新环境:创新往往发生在"富人"手中,"穷人"被迫做效率优化
4. 姚顺雨:toB与toC的分化
关键观察:
- toC:大部分人大部分时候不需要那么强的智能
- toB:智能越高,生产力越高,价值越大
垂直整合vs分层:
- toC:垂直整合成立(ChatGPT、豆包)
- toB:模型与应用分层趋势明显
中国机会:
- 一旦范式被发现,中国可以快速复现并局部优化
- 关键瓶颈:光刻机、算力、toB市场成熟度
- 更大的挑战:能否引领新范式突破
四、关键技术路径
1. 三类Scaling
graph TD
A[Scaling目标] --> B[Scaling数据与模型]
A --> C[Scaling推理]
A --> D[Scaling自学习环境]
B --> E[提升智能上限]
C --> F[更长思考时间找更优解]
D --> G[与环境交互获得反馈]
E --> H[参考人类学习范式]
F --> H
G --> H2. Agent能力层级
graph LR
A[Coding基础] --> B[简单工具调用]
B --> C[Computer Use]
C --> D[手机Agent]
D --> E[异步超长链路任务]3. 多模态融合发展
graph TB
subgraph 输入模态
A1[文本]
A2[视觉]
A3[语音]
end
subgraph 统一大脑
B[统一理解与生成]
end
subgraph 输出能力
C1[文本生成]
C2[图像生成]
C3[语音生成]
C4[视频生成]
end
A1 --> B
A2 --> B
A3 --> B
B --> C1
B --> C2
B --> C3
B --> C4五、未来挑战与方向
1. 下一代AGI范式的可能方向
多模态感统
- 人通过视觉、听觉、触觉形成整体认知
- 模型需建立类似的原生多模态机制
- 感统能力不足会直接影响判断和行动
记忆与持续学习
- 人类具备多层级记忆结构:短期、工作、长期记忆
- 个体记忆与群体级、文明级记忆的结合
- 将记忆纳入可持续学习框架
反思与自我认知
- 当前模型已具备初步反思能力
- 深层次自我认知仍存在争议
- 需要探索更高层次的元认知能力
2. 训练效率的瓶颈
问题:
- 继续Scaling有收益,但效率不高
- 数据从10TB扩展到100TB,收益与成本的平衡
- 每次重训基座+RL的成本巨大
解决方向:
- 定义"Intelligence Efficiency"(智能效率)
- 寻找用更少投入获得同样智能增量的范式
- 这可能是瓶颈式突破的机会
3. Agent落地的关键挑战
技术挑战:
- 冷启动问题:复杂任务缺乏现成数据
- 强化学习风险:数据不足易陷入局部最优
- 长链路任务:几十步甚至上百步的执行稳定性
工程挑战:
- API与GUI的混合方案
- 全异步训练框架
- 真实环境数据采集
4. 中国AI发展的机遇与挑战
有利因素:
- 一旦范式被发现,可以快速复现并优化
- 工程和实现能力强大
- 电力和基础设施优势
- 年轻一代冒险精神增强
关键瓶颈:
- 光刻机和算力产能
- 软件生态
- toB市场成熟度与支付意愿
- 引领新范式突破的创新文化
三位专家的概率判断:
- 林俊旸:20%,已经非常乐观
- 姚顺雨:概率挺高,前提是解决算力和创新文化问题
- 唐杰:需要一群敢冒险的聪明人、更好的环境、坚持
六、张钹院士的理论框架
1. 当前大语言模型的本质
原理:使用分布式语义,将语义转化为高维稠密向量空间的几何结构,使语言处理变成数学计算问题。
五个缺失:
- 指称缺失
- 真知和因果缺失
- 语用缺失
- 多义和动态语境缺失
- 闭环行为缺失
根本原因:语义定义不完备,模型本身是近似的。
2. AGI的可执行定义
张钹院士提出五个关键能力:
- 时空一致的多模态理解与落地
- 可控的在线学习与适应
- 可验证的推理与长期执行与规划
- 可校准的反思与元认知
- 跨任务强泛化
3. AI主体的三个层次
graph TD
A[功能-行动主体] --> B[规范-责任主体]
B --> C[体验-意识主体]
A --> A1[目前已达成]
A --> A2[帮助人类完成工具性任务]
B --> B1[技术难度较高]
B --> B2[需要机器担负责任]
C --> C1[最大挑战]
C --> C2[机器意识问题]七、总结与展望
1. 范式转变的确定性
- Chat时代基本结束,"做事"成为新焦点
- 预训练收益递减,后训练和强化学习成为关键
- 从单一模型到复杂智能体系的演进
2. 技术路径的多元化
- 思考型Agent vs 环境交互型Agent
- Token效率 vs 长上下文
- 垂直整合 vs 模型应用分层
3. 中美竞争的实质
- 美国在算力和新范式探索上领先
- 中国在工程实现和局部优化上优势明显
- 关键差距在于引领新范式的能力
4. 2026年的关键变量
- Scaling仍会继续,但效率成为瓶颈
- 新范式可能在学术界诞生
- Agent开始在真实场景创造经济价值
- 多模态感统和持续学习可能取得突破
5. 企业家的新使命
张钹院士指出,AI时代的企业家需要承担新的职责:
- 重新定义价值创造
- 将知识、伦理和应用变成可复用工具
- 承担社会治理责任
- AI时代的企业家将成为光荣而神圣的职业
参考资料:
- 清华大学基础模型北京市重点实验室 AGI-Next前沿峰会
- 量子位:《姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲!基模四杰中关村论英雄》