中国AGI-Next前沿峰会技术分析:基模四杰论剑大模型未来

一、峰会背景

2025年初,清华大学基础模型北京市重点实验室发起AGI-Next前沿峰会,汇集了中国大模型领域四位领军人物:智谱唐杰、月之暗面杨植麟(Kimi)、阿里林俊旸(千问)、腾讯姚顺雨。这场"基模四杰"的论剑,信息密度极高,揭示了中国AGI发展的技术路径、范式变革与未来挑战。

二、核心观点摘要

唐杰(智谱)

  • Chat范式已基本结束,下一步是从"对话"走向"做事"
  • DeepSeek的出现标志着对话型模型的收敛
  • 强化学习可验证环境(RLVR)成为关键技术方向
  • 三类Scaling:数据与模型规模、推理、自学习环境

杨植麟(Kimi)

  • Transformer的核心优势在于Token Efficiency
  • MUON二阶优化器实现2倍Token效率提升
  • Kimi Linear架构实现线性复杂度的长序列处理
  • 做模型本质是创造一种世界观(Taste)

林俊旸(千问)

  • 中国想在AI赛道反超,概率约20%,已非常乐观
  • 多模态是智能体的必然方向
  • Reasoning能力成为核心竞争力
  • 全模态模型(三进三出)是目标

姚顺雨(腾讯)

  • toC和toB发生明显分化
  • toB场景智能越高,生产力越高
  • toC场景大部分人用不着那么强的智能
  • 垂直整合vs模型应用分层

三、技术发展脉络分析

3.1 从Chat到Agent的范式转变

唐杰在演讲中明确指出:DeepSeek横空出世后,Chat这一代问题基本已被解决。这迫使我们思考下一步方向。新的范式不再只是"对话",而是让每个人真正用AI完成一件具体的事情。

从Chat走向做事,是一个明显的转折点。当时摆在我们面前的,主要有两条思路:

  1. 围绕Thinking能力,结合Coding与Agent
  2. 让模型更深度地与环境交互,用AI直接辅助研究

智谱最终优先选择了前一条路径,强化Thinking能力并引入Coding场景。

graph TB
    subgraph "Chat范式"
        A1[问答] --> A2[对话]
        A2 --> A3[个性化]
    end

    subgraph "做事范式"
        B1[Thinking能力] --> B2[Coding能力]
        B2 --> B3[Agent能力]
        B3 --> B4[环境交互]
    end

    A3 --> B1
    B4 --> B5[真实任务执行]

    style B5 fill:#90EE90
    style A3 fill:#FFB6C1

范式转变

3.2 Token Efficiency与长上下文

杨植麟提出了两个核心优化方向:

Token Efficiency:希望尽可能把曲线往左边平移,当越往左边移动时,Token Efficiency越高,意味着可以用尽可能少的Token得到一样的效果。

Long Context:今天非常复杂的任务,必须在超长的Context下才能够完成。延长Context之后,Loss必然是下降,而且只有一个好的Agent才能下降得更多。

Transformer相比LSTM的优势,核心在于Token Efficiency。在很短的Context下,Transformer并不是更好的架构。但是当Context非常长的时候,Transformer显著比LSTM更好。

3.3 强化学习的新范式

今年一个重要变化是RLVR(可验证强化学习)。过去强化学习难以大规模推进,核心原因在于依赖人类反馈,而人类反馈存在噪音大、覆盖场景有限的问题。

如果引入可验证环境,模型就可以自主探索、自动获得反馈,在闭环中持续成长。但这里的难点也非常明显:所谓"可验证",在数学、编程等领域相对容易定义;可一旦扩展到更广泛的任务,仍然需人工判断。

3.4 多模态发展路径

林俊旸指出:如果你想做一个智能的东西,天然的应该是Multimodal。人有眼睛和耳朵可以做更多的事情。但更多的考虑是Foundation有更多的生产力,能不能更好地帮助人类。

理想的情况下,2022年设计的系统是中间有一个大脑,我们不知道那个大脑是什么东西,但是我们知道不同的模态和任务都应该进入到这个大脑,从这个大脑输出去,这个才是真正的想象当中的AGI。

graph TD
    subgraph "输入模态"
        A1[文本]
        A2[视觉]
        A3[语音]
    end

    subgraph "统一大脑"
        B[Foundation Model/统一理解与生成]
    end

    subgraph "输出模态"
        C1[文本生成]
        C2[图像生成]
        C3[视频生成]
        C4[语音生成]
    end

    A1 --> B
    A2 --> B
    A3 --> B

    B --> C1
    B --> C2
    B --> C3
    B --> C4

    B --> D[AGI通用智能体]

    style B fill:#FFD700
    style D fill:#98FB98

多模态架构

四、技术架构演进

graph LR
    subgraph "数据与模型"
        A1[预训练] --> A2[SFT]
        A2 --> A3[强化学习]
    end

    subgraph "Scaling三维度"
        B1[Scaling数据与模型] --> C1[提升智能上限]
        B2[Scaling推理] --> C2[更长思考时间]
        B3[Scaling自学习环境] --> C3[环境交互反馈]
    end

    A3 --> B1
    A3 --> B2
    A3 --> B3

    C1 --> D[智能体能力提升]
    C2 --> D
    C3 --> D

    style D fill:#87CEEB

技术架构

4.1 优化器革新

Kimi团队发现基于MUON二阶优化器的效果会非常好,有2倍的Token Efficiency提升。只用50%的数据就可以达到一样的Test Loss。

在训练过程中,Muon会出现Logit爆炸的问题。通过QK-clip方法解决:

  • 加Clip后,对效果是没有任何影响
  • Logits会健康很多
  • 很好稳定训练的作用

这使得全新的优化器可以在一万亿参数的kimiK2级别做稳定训练。

4.2 线性注意力机制

kimi Delta Attention是一个新的线性注意力机制。最主要的原因是在长距离任务上会掉点,当Context变长之后,用线性注意力效果是打不过全注意力的。

kimi Linear最重要的一点是让这种线性注意力的机制能够在很长程的任务上,甚至比全注意力做得更好,但是同时又更快,因为它是线性的,所以效率会高非常多。

4.3 系统一与系统二

人类认知是双系统,系统一和系统二。

  • 系统一完成了95%的任务,比如"你今晚吃饭吗",随口回答"吃",这些是系统一背下来的
  • 系统二只在更复杂的情境中启动,占比大约5%

对于大模型来讲同样的道理:

  1. 系统一可以对应一个大规模模型,让它通过模式匹配与知识提取,覆盖大量常见问答与常规任务
  2. 系统二可以对应更强的知识融合与推理机制,例如指令微调、思维链等,使模型能处理更复杂的推理与决策
  3. 人脑在睡眠中会发生无意识的整合与巩固

对应到今天的路径,可以把其分为三类Scaling:

  1. Scaling数据与模型规模,提升智能上限
  2. Scaling推理,让思考时间更长,用更多计算与搜索找到更优解
  3. Scaling自学习环境,让模型有更多与外界交互的机会,从环境中获得反馈

五、中美差距分析

5.1 客观因素

算力限制:美国的Compute可能整体比我们大1-2个数量级。OpenAI等机构将大量Computer投入到下一代的Research当中去,而中国相对捉襟见肘,光交付可能就已经占据绝大部分Computer。

光刻机瓶颈:如果最终算力变成了Bottleneck,中国的光刻机到底能不能突破,这是一个关键问题。

市场环境:toB市场在中国和美国存在显著差异。支付意愿、企业文化都有所不同。

5.2 主观因素

冒险精神:中国想要突破新的范式或者做非常冒险事情的人可能还不够多,这里面有经济环境、商业环境包括文化的因素。

研究文化:中国大家还是更喜欢做更安全的事情。今天预训练这个事情已经被证明可以做出来了,大家都很有信心几个月或者一段时间内就把这个问题搞清楚。

但如果探索一个长期记忆或者持续学习,这个事情大家不知道怎么做、不知道能不能做起来,这个事情还是比较困难的。

榜单依赖:中国对于刷榜或者数字看的更重一些。需要走出这些榜单的束缚,能够坚持自己觉得是不是正确的过程。

5.3 反超概率评估

林俊旸认为:中国能在AI赛道反超的概率约20%,这已经是非常乐观的估计。

姚顺雨相对乐观,认为概率还是挺高的。关键在于:

  1. 光刻机等算力基础设施能否突破
  2. 能否有更成熟的toB市场
  3. 能否有更多人愿意做前沿探索或新的范式突破

六、未来发展方向

6.1 2025年重点方向

唐杰判断2025年会成为AI for Science的重要突破年份。随着多项基础能力的提升,AI能够参与的科研任务范围将显著扩大。

同时,多模态感统会成为今年的重点方向。具备这种能力之后,AI才能在真实工作环境中执行长链路、长时效任务。

6.2 Agent发展的三个阶段

杨强提出Agent应该有四个阶段:

  1. 目标的定义(人为定义vs自动定义)
  2. 规划(人定义vsAI自动定义)

目前我们处于非常初级的阶段,目标也是人定义的,规划也是由人来做的。

6.3 AGI的可执行定义

张钹院士提出AGI应该满足五个关键能力:

  1. 时空一致的多模态理解与生成:关键在时空一致性
  2. 可控的在线学习与适应:强化学习最重要的是可控性问题
  3. 可验证的推理与长期执行与规划:推理必须要可检验
  4. 可校准的反思与元认知:反思必须可回溯、可检验
  5. 跨任务强泛化:跨任务的强化问题

七、技术挑战与解决方案

7.1 泛化能力问题

模型如何从Scaling走向真正的泛化能力,是核心问题。当前路径是通过Scaling提升泛化能力,但客观来说,模型的泛化水平仍有很大提升空间。

7.2 记忆与持续学习

人类具备多层级记忆结构,包括短期记忆、工作记忆和长期记忆。未来如何从个体记忆扩展到群体级、文明级的记忆结构,并将其纳入模型可持续学习框架,是一个重要问题。

7.3 自主学习与反思

当前模型已经具备初步的反思能力,但更深层次的自我认知仍然存在巨大争议。通过持续的自我评估与自我批判,模型能够逐步分辨哪些行为是有效的,哪些路径还有优化空间。

7.4 冷启动问题

很多应用场景本身几乎没有现成数据,更多是代码逻辑,典型的冷启动问题。早期采集并整合了大量数据,通过SFT和特定领域的强化学习,在部分场景中取得了较好效果。

但很快会发现一个现实问题:传统的iPhone use或手机交互,本质是点按钮,而AI的交互对象并非人。

八、AI时代的企业家责任

张钹院士提出,AI时代的企业家应该具备六个方面的职责:

  1. 重新定义价值的创造:人工智能不是给大家简单的提供产品和服务,而是把知识、伦理和应用变成可复用的工具,去实现对人类的造福
  2. 把人工智能作为像水和电那样通用的技术交给人类
  3. 把社会责任担当起来
  4. 治理问题:对齐与约束
  5. AI时代,企业家会变成光荣的、神圣的职业之一

九、总结

本次峰会揭示了中国大模型发展的几个关键趋势:

  1. 范式转变:从Chat走向做事,从对话走向Agent
  2. 技术突破:MUON优化器、线性注意力、RLVR等技术推动效率提升
  3. 多模态融合:全模态模型成为目标
  4. 中美差距:算力、市场、文化等多方面因素
  5. 未来方向:自主学习、长程推理、具身智能

中国在AI领域的追赶之路充满挑战,但也充满机遇。正如林俊旸所说:"能干这一行就非常不错了,能做大模型这件事情已经非常幸运了。"

关键在于:一群聪明人真的敢做特别冒险的事;环境可能更好一些;我们能不能坚持。

如果笨笨地坚持,也许走到最后的就是我们。


参考资料

  1. 姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲!基模四杰中关村论英雄
最后修改:2026 年 01 月 13 日
如果觉得我的文章对你有用,请随意赞赏