清华AGI-Next前沿峰会深度分析

一、概述

2025年底,清华大学基础模型北京市重点实验室发起AGI-Next前沿峰会,"基模四杰"全员到场:智谱唐杰、Kimi杨植麟、阿里林俊旸,以及远程接入的姚顺雨。这场峰会呈现了中国大模型领域最高水平的思考与判断。

核心问题:大模型发展的范式正在发生转变。从Chat到做事,从预训练到强化学习,从单一模态到多模态融合,从工具到Agent,整个行业正处于关键的转折点。

二、系统组成与核心要素

1. 大模型能力发展轨迹

graph TD
    A[2020年<br/>简单QA] --> B[2021-2022年<br/>数学计算与基础推理]
    B --> C[2023-2024年<br/>复杂推理与代码能力]
    C --> D[2025年<br/>Agent与环境交互]
    D --> E[未来方向<br/>多模态感统与持续学习]

能力发展轨迹

2. 训练范式演进

graph LR
    subgraph 第一阶段
        A1[预训练] --> A2[知识记忆]
    end

    subgraph 第二阶段
        B1[SFT对齐] --> B2[理解人类意图]
    end

    subgraph 第三阶段
        C1[强化学习] --> C2[复杂任务执行]
    end

    subgraph 第四阶段
        D1[RLVR] --> D2[可验证环境自主探索]
    end

    第一阶段 --> 第二阶段 --> 第三阶段 --> 第四阶段

训练范式演进

3. 系统一与系统二认知架构

graph TB
    subgraph 系统一
        A1[模式匹配] --> A2[快速响应]
        A2 --> A3[覆盖95%日常任务]
    end

    subgraph 系统二
        B1[思维链推理] --> B2[复杂决策]
        B2 --> B3[处理5%复杂任务]
    end

    subgraph 自学习模块
        C1[睡眠式整合] --> C2[知识巩固]
        C2 --> C3[噪声清理]
    end

    输入 --> 系统一
    输入 --> 系统二
    系统一 --> 自学习模块
    系统二 --> 自学习模块
    自学习模块 --> 输出

双系统认知架构

三、核心观点分析

1. 唐杰:从Chat到做事的范式转变

关键判断:DeepSeek横空出世后,Chat这一代问题基本已被解决,下一步的核心是让AI真正完成具体任务。

技术路径选择

  • 思路一:围绕Thinking能力,结合Coding与Agent
  • 思路二:让模型更深度与环境交互,如DeepResearch

最终选择:优先强化Thinking能力并引入Coding场景。

RLVR(可验证强化学习)的价值

  • 数学、编程等领域容易定义可验证环境
  • 模型可自主探索、自动获得反馈
  • 挑战:可验证场景正在耗尽,需进入半自动验证或不可验证任务空间

2. 杨植麟:Token Efficiency与Long Context

核心原理:Scaling Law是将能源转化为智能的过程。

两个关键优化方向

A. Token Efficiency

  • 用更少Token达到同样效果
  • MUON优化器实现2倍Token Efficiency提升
  • 本质是提升智能上限,因为Token数量有限

B. Long Context

  • 复杂任务必须超长Context才能完成
  • kimi Linear架构实现线性复杂度
  • 在长程任务上比全注意力机制效果更好

世界观创造论:做模型本质上是在创造一种世界观,需要Taste和审美。智能不同于电力等可交换商品,每个模型产生的Token具有独特性。

3. 林俊旸:全模态Agent的探索

多模态策略

  • Visual Understanding:操作手机、操控电脑
  • VL模型当LLM用,保持语言智力不降智
  • Coding输入可以是图像或视频

生成能力

  • Qwen-Image系列接近真人水平
  • 编辑是比生成更大的需求
  • 符合物理规律的图像生成

务实判断:中国想在AI赛道反超很难,20%概率已经非常乐观。关键差距在于:

  • 算力投入:美国整体比中国大1-2个数量级
  • 创新环境:创新往往发生在"富人"手中,"穷人"被迫做效率优化

4. 姚顺雨:toB与toC的分化

关键观察

  • toC:大部分人大部分时候不需要那么强的智能
  • toB:智能越高,生产力越高,价值越大

垂直整合vs分层

  • toC:垂直整合成立(ChatGPT、豆包)
  • toB:模型与应用分层趋势明显

中国机会

  • 一旦范式被发现,中国可以快速复现并局部优化
  • 关键瓶颈:光刻机、算力、toB市场成熟度
  • 更大的挑战:能否引领新范式突破

四、关键技术路径

1. 三类Scaling

graph TD
    A[Scaling目标] --> B[Scaling数据与模型]
    A --> C[Scaling推理]
    A --> D[Scaling自学习环境]

    B --> E[提升智能上限]
    C --> F[更长思考时间找更优解]
    D --> G[与环境交互获得反馈]

    E --> H[参考人类学习范式]
    F --> H
    G --> H

三类Scaling

2. Agent能力层级

graph LR
    A[Coding基础] --> B[简单工具调用]
    B --> C[Computer Use]
    C --> D[手机Agent]
    D --> E[异步超长链路任务]

Agent能力层级

3. 多模态融合发展

graph TB
    subgraph 输入模态
        A1[文本]
        A2[视觉]
        A3[语音]
    end

    subgraph 统一大脑
        B[统一理解与生成]
    end

    subgraph 输出能力
        C1[文本生成]
        C2[图像生成]
        C3[语音生成]
        C4[视频生成]
    end

    A1 --> B
    A2 --> B
    A3 --> B
    B --> C1
    B --> C2
    B --> C3
    B --> C4

多模态融合

五、未来挑战与方向

1. 下一代AGI范式的可能方向

多模态感统

  • 人通过视觉、听觉、触觉形成整体认知
  • 模型需建立类似的原生多模态机制
  • 感统能力不足会直接影响判断和行动

记忆与持续学习

  • 人类具备多层级记忆结构:短期、工作、长期记忆
  • 个体记忆与群体级、文明级记忆的结合
  • 将记忆纳入可持续学习框架

反思与自我认知

  • 当前模型已具备初步反思能力
  • 深层次自我认知仍存在争议
  • 需要探索更高层次的元认知能力

2. 训练效率的瓶颈

问题

  • 继续Scaling有收益,但效率不高
  • 数据从10TB扩展到100TB,收益与成本的平衡
  • 每次重训基座+RL的成本巨大

解决方向

  • 定义"Intelligence Efficiency"(智能效率)
  • 寻找用更少投入获得同样智能增量的范式
  • 这可能是瓶颈式突破的机会

3. Agent落地的关键挑战

技术挑战

  • 冷启动问题:复杂任务缺乏现成数据
  • 强化学习风险:数据不足易陷入局部最优
  • 长链路任务:几十步甚至上百步的执行稳定性

工程挑战

  • API与GUI的混合方案
  • 全异步训练框架
  • 真实环境数据采集

4. 中国AI发展的机遇与挑战

有利因素

  • 一旦范式被发现,可以快速复现并优化
  • 工程和实现能力强大
  • 电力和基础设施优势
  • 年轻一代冒险精神增强

关键瓶颈

  • 光刻机和算力产能
  • 软件生态
  • toB市场成熟度与支付意愿
  • 引领新范式突破的创新文化

三位专家的概率判断

  • 林俊旸:20%,已经非常乐观
  • 姚顺雨:概率挺高,前提是解决算力和创新文化问题
  • 唐杰:需要一群敢冒险的聪明人、更好的环境、坚持

六、张钹院士的理论框架

1. 当前大语言模型的本质

原理:使用分布式语义,将语义转化为高维稠密向量空间的几何结构,使语言处理变成数学计算问题。

五个缺失

  • 指称缺失
  • 真知和因果缺失
  • 语用缺失
  • 多义和动态语境缺失
  • 闭环行为缺失

根本原因:语义定义不完备,模型本身是近似的。

2. AGI的可执行定义

张钹院士提出五个关键能力:

  1. 时空一致的多模态理解与落地
  2. 可控的在线学习与适应
  3. 可验证的推理与长期执行与规划
  4. 可校准的反思与元认知
  5. 跨任务强泛化

3. AI主体的三个层次

graph TD
    A[功能-行动主体] --> B[规范-责任主体]
    B --> C[体验-意识主体]

    A --> A1[目前已达成]
    A --> A2[帮助人类完成工具性任务]

    B --> B1[技术难度较高]
    B --> B2[需要机器担负责任]

    C --> C1[最大挑战]
    C --> C2[机器意识问题]

主体层次

七、总结与展望

1. 范式转变的确定性

  • Chat时代基本结束,"做事"成为新焦点
  • 预训练收益递减,后训练和强化学习成为关键
  • 从单一模型到复杂智能体系的演进

2. 技术路径的多元化

  • 思考型Agent vs 环境交互型Agent
  • Token效率 vs 长上下文
  • 垂直整合 vs 模型应用分层

3. 中美竞争的实质

  • 美国在算力和新范式探索上领先
  • 中国在工程实现和局部优化上优势明显
  • 关键差距在于引领新范式的能力

4. 2026年的关键变量

  • Scaling仍会继续,但效率成为瓶颈
  • 新范式可能在学术界诞生
  • Agent开始在真实场景创造经济价值
  • 多模态感统和持续学习可能取得突破

5. 企业家的新使命

张钹院士指出,AI时代的企业家需要承担新的职责:

  • 重新定义价值创造
  • 将知识、伦理和应用变成可复用工具
  • 承担社会治理责任
  • AI时代的企业家将成为光荣而神圣的职业

参考资料

  • 清华大学基础模型北京市重点实验室 AGI-Next前沿峰会
  • 量子位:《姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲!基模四杰中关村论英雄》
最后修改:2026 年 01 月 13 日
如果觉得我的文章对你有用,请随意赞赏