2025 年 LLM 年度回顾技术分析

一、新闻概述

1. 标题

2025:大语言模型之年

2. 发布时间

2025 年 12 月 31 日

3. 来源

Simon Willison's Weblog

二、核心内容

1. 事件摘要

A. 主要内容

Simon Willison 发布其第三份 LLM 年度回顾,系统梳理了 2025 年大语言模型领域的关键发展。文章涵盖了推理模型的兴起、智能代理的突破、编程工具的革新等 27 个主题。

B. 核心亮点

  • 推理模型成为行业标准
  • 编程代理进入实用阶段
  • 中国开源模型异军突起
  • Claude Code 实现十亿美元年化收入
  • 图像编辑能力显著提升

2. 关键信息

A. 文章系列

  • 2023 年 AI 相关发现总结
  • 2024 年 LLM 知识总结
  • 2025 年 LLM 年度回顾(本文)

B. 主要主题数量

27 个年度主题标签

C. 涉及厂商

OpenAI、Anthropic、Google、DeepSeek、阿里 Qwen、月之暗面等

三、详细报道

1. 推理模型的崛起

A. 技术背景

OpenAI 于 2024 年 9 月推出 o1 和 o1-mini,开启了推理模型时代。2025 年初,OpenAI 继续推出 o3、o3-mini 和 o4-mini,推理能力迅速成为各大 AI 实验室的标配功能。

B. 技术原理

Andrej Karpathy 的解释揭示了这一技术的本质:

通过在可验证奖励环境(如数学/代码谜题)中训练 LLM,模型会自发发展出类似推理的策略。模型学会将问题分解为中间计算步骤,并掌握多种问题解决策略。

这种方法提供了极高的能力成本比,大量算力从预训练转向推理训练。

C. 实际应用价值

推理模型的真正价值体现在工具调用能力上:

  • 多步骤任务规划
  • 执行后根据结果调整策略
  • 持续推理优化方案

D. 应用场景

AI 辅助搜索的实际可用性得到验证。即使是复杂的研究问题,GPT-5 Thinking 模式也能有效应对。

推理模型在代码生成和调试方面表现卓越:

  • 从错误出发追溯根本原因
  • 分析大型复杂代码库
  • 逐步诊断棘手 bug

2. 智能代理元年

A. 定义确立

Simon Willison 在年初预测智能代理不会实现,原因是易受骗问题和科幻式的期望过于不切实际。

到 9 月,他将智能代理定义为:通过循环运行工具来实现目标的 LLM 系统。

B. 两大突破领域

深度研究模式:让 LLM 收集信息并生成详细报告,前期流行但后期被更高效的 GPT-5 Thinking 替代。

编程代理模式:影响更为重大。

3. 编程代理与 Claude Code

A. Claude Code 的里程碑

2025 年 2 月,Anthropic 悄然发布 Claude Code,仅作为 Claude 3.7 Sonnet 公告的第二项内容。

Claude Code 是编程代理的典型代表:LLM 系统可以编写代码、执行代码、检查结果并继续迭代。

B. 行业产品矩阵

主要厂商的 CLI 编程代理:

  • Claude Code(Anthropic)
  • Codex CLI(OpenAI)
  • Gemini CLI(Google)
  • Qwen Code(阿里)
  • Mistral Vibe

第三方工具:

  • GitHub Copilot CLI
  • Amp
  • OpenCode
  • OpenHands CLI
  • Pi

C. 异步编程代理

2025 年 5 月,OpenAI 推出 Codex Cloud,Google 推出 Jules。

异步编程代理的特点:

  • 云端执行,无本地安全风险
  • 可同时发起多个任务
  • 特别适合手机使用场景

D. 商业成功

截至 2025 年 12 月 2 日,Claude Code 实现十亿美元年化收入。

4. 命令行 LLM 工具的突破

A. 开发者习惯转变

Claude Code 等工具证明,在足够强大的模型和适当工具支持下,开发者会拥抱命令行 LLM 工具。

B. 技术障碍消除

复杂的命令行工具(sed、ffmpeg、bash)不再成为障碍,LLM 可以直接生成正确的命令。

5. YOLO 模式与偏差常态化

A. 默认安全机制

大多数编程代理默认会请求用户确认每个操作,原因是:

  • 可能误删除整个用户目录
  • 提示注入攻击可能窃取凭据

B. YOLO 模式的诱惑

自动确认模式(YOLO)让体验完全不同。

C. 安全隐患

Johann Rehberger 在《AI 中的偏差常态化》中提出警告:重复暴露于风险行为而无负面后果,会使人认为这种风险行为是正常的。

这与 1986 年挑战者号灾难的原因相同:多次成功发射让 NASA 停止认真对待 O 型圈缺陷风险。

6. 订阅定价的跃升

A. 新价格锚点

ChatGPT Plus 原价 20 美元/月是基于 Discord 调查的临时决定。

2025 年新定价标准:

  • Claude Pro Max:200 美元/月
  • ChatGPT Pro:200 美元/月
  • Google AI Ultra:249 美元/月(首季优惠 124.99 美元/月)

B. 经济逻辑

需要大量使用才能消耗 200 美元的 API 配额。但 Claude Code 和 Codex CLI 等工具在处理复杂任务时会消耗大量 token,使月付方案具有实质性折扣。

7. 中国开源模型的崛起

A. 市场格局变化

2025 年底,Artificial Analysis 开源模型排行榜前五名全部来自中国:

  1. GLM-4.7(智谱)
  2. Kimi K2 Thinking(月之暗面)
  3. MiMo-V2-Flash
  4. DeepSeek V3.2
  5. MiniMax-M2.1

最高非中国模型是 OpenAI 的 gpt-oss-120B,排名第六。

B. 历史节点

2024 年 12 月 25 日,DeepSeek V3 发布,据称训练成本约 550 万美元。

2025 年 1 月 20 日,DeepSeek R1 发布,引发 AI/半导体股大幅抛售:

  • NVIDIA 市值损失约 5930 亿美元
  • 投资者恐慌于 AI 不再是美国垄断

C. 主要中国 AI 实验室

  • DeepSeek
  • 阿里 Qwen(Qwen3)
  • 月之暗面(Kimi K2)
  • 智谱(GLM-4.5/4.6/4.7)
  • MiniMax(M2)
  • MetaStone AI(XBai o4)

D. 开源许可

多数模型采用真正开源许可:

  • Qwen:Apache 2.0
  • DeepSeek 和智谱:MIT

部分模型能力可与 Claude 4 Sonnet 和 GPT-5 媲美。

8. 长任务处理能力的突破

A. METR 研究图表

时间跨度图表显示,2025 年模型在长任务处理上有巨大飞跃:

  • GPT-5、GPT-5.1 Codex Max、Claude Opus 4.5 可完成人类数小时的任务
  • 2024 年最佳模型上限不到 30 分钟

B. 发展速度

METR 结论:AI 可完成任务长度每 7 个月翻倍。

9. 提示驱动图像编辑

A. 历史背景

GPT-4o 曾承诺多模态输出但未能兑现。

2025 年 3 月,OpenAI 终于推出图像生成和编辑功能,用户可上传图片并通过提示词修改。

B. 用户增长

该功能在一周内带来 1 亿 ChatGPT 注册,峰值每小时 100 万账户创建。

吉卜力化等病毒式传播技巧反复走红。

C. 竞争产品

Qwen 的 Qwen-Image 和 Qwen-Image-Edit 模型可在消费级硬件上运行。

Google 的 Nano Banana 系列模型:

  • 可生成有用文本
  • 图像编辑指令跟随能力最强
  • Nano Banana Pro 可生成专业级信息图

10. 学术竞赛金牌

A. 数学奥林匹克

2025 年 7 月,OpenAI 和 Gemini 模型在国际数学奥林匹克中达到金牌水平。

B. 编程竞赛

2025 年 9 月,在国际大学生编程竞赛(ICPC)中取得优异成绩。

C. 意义

这些竞赛的题目专为比赛设计,训练数据中不可能存在,证明了模型的真正推理能力。

11. Llama 的迷失

A. 历史地位

2024 年是 Llama 之年。Meta 的 Llama 模型是最受欢迎的开源模型。

B. Llama 4 的失望

2025 年 4 月发布的 Llama 4 令人失望:

  • 模型过大(109B 和 400B)
  • 即使量化也无法在 64GB Mac 上运行
  • LM Studio 和 Ollama 最受欢迎模型列表中已无 Meta 位置

C. 战略转向

Meta 主要精力转向内部政治和 Superintelligence Labs 的人才招聘。

12. OpenAI 领先地位的丧失

A. 竞争格局

2025 年,行业其他公司追赶上来:

  • 图像:被 Nano Banana Pro 超越
  • 代码:Opus 4.5 略优于 GPT-5.2 Codex
  • 开源模型:落后于中国 AI 实验室
  • 音频:受 Gemini Live API 威胁

B. 消费者心智份额优势

OpenAI 仍在消费者认知度上保持领先,ChatGPT 品牌知名度远超 Gemini 和 Claude。

C. 最大威胁

2025 年 12 月,OpenAI 宣布红色警报,暂停新项目以应对 Gemini 3 的竞争。

13. Gemini 之年

A. 产品发布

2025 年发布 Gemini 2.0、2.5 和 3.0:

  • 支持百万级 token 音频/视频/图像/文本输入
  • 价格有竞争力
  • 能力持续提升

B. 生态系统产品

  • Gemini CLI
  • Jules(异步编程代理)
  • AI Studio 持续改进
  • Nano Banana 图像模型
  • Veo 3 视频生成
  • Gemma 3 开源模型系列

C. 硬件优势

Google 使用自研 TPU 而非 NVIDIA GPU,这是其在成本上的巨大优势。

14. 鹈鹕骑自行车基准

A. 起源

Simon Willison 于 2024 年 10 月首次要求 LLM 生成鹈鹕骑自行车的 SVG 图像。

B. 意外发现

模型绘制鹈鹕骑自行车的能力与整体能力似乎存在相关性。

C. 社区影响

这一基准出现在:

  • Google I/O 主题演讲
  • Anthropic 可解释性研究论文
  • GPT-5 发布视频

D. 真实意图

Simon Willison 承认这是长期策略:诱使多个 AI 实验室投入资源在这个基准上作弊,直到得到一个真正出色的鹈鹕骑自行车 SVG 插图。

15. Slop 成为年度词汇

A. 定义

Merriam-Webster 将 slop 选为 2025 年度词汇:
数字内容,通常由人工智能大量生成,质量低劣。

B. 影响

代表广泛认知:低质量 AI 生成内容是坏的,应该避免。

C. 乐观观点

互联网一直充斥着低质量内容,挑战在于找到和放大好内容。策展比以往任何时候都更重要。

16. 数据中心反对潮

A. 公众态度转变

2025 年公众舆论明显转向反对新建数据中心。

B. 环保组织行动

2025 年 12 月 8 日,卫报报道:200 多个环保组织要求停止美国新数据中心建设。

C. 真实问题

  • 能源消耗
  • 碳排放
  • 噪声污染
  • 水资源使用(部分夸大)

D. 杰文斯悖论

随着 token 变便宜,我们会找到更密集的使用方式,如每月 200 美元运行编程代理。

四、技术架构分析

1. 推理模型工作原理

graph TB
    A[用户问题] --> B{推理模型}
    B --> C[问题分解]
    C --> D[生成中间步骤]
    D --> E[验证中间结果]
    E --> F{需要更多步骤?}
    F -->|是| D
    F -->|否| G[生成最终答案]
    G --> H[返回结果]

    I[可验证奖励环境] --> J[强化学习训练]
    J --> B

    style B fill:#e1f5ff
    style J fill:#ffe1e1

推理模型工作原理

2. 编程代理架构

graph LR
    A[用户任务] --> B[LLM 规划器]
    B --> C{需要代码执行?}
    C -->|是| D[Bash 工具]
    C -->|否| E[其他工具]
    D --> F[执行结果]
    E --> F
    F --> G{任务完成?}
    G -->|否| B
    G -->|是| H[返回结果]

    I[文件系统] --> D
    J[代码库] --> D

    style B fill:#e1f5ff
    style D fill:#ffe1e1
    style H fill:#e1ffe1

编程代理架构

3. 智能代理分类

mindmap
    root((智能代理))
        同步代理
            Claude Code CLI
            Codex CLI
            Gemini CLI
            本地执行
            需要用户确认
        异步代理
            Claude Code for Web
            Codex Cloud
            Google Jules
            云端执行
            YOLO 模式
        研究代理
            深度研究模式
            GPT-5 Thinking
            Google AI Mode
            信息收集报告

智能代理分类

4. 中国开源模型生态

graph TB
    subgraph 第一梯队
        A1[GLM-4.7<br/>智谱]
        A2[Kimi K2 Thinking<br/>月之暗面]
        A3[MiMo-V2-Flash]
        A4[DeepSeek V3.2]
        A5[MiniMax-M2.1]
    end

    subgraph 第二梯队
        B1[gpt-oss-120B<br/>OpenAI]
        B2[Qwen3 235B<br/>阿里]
        B3[Apriel-v1.6-15B-Thinker]
    end

    subgraph 许可证类型
        C1[Apache 2.0<br/>Qwen]
        C2[MIT<br/>DeepSeek/智谱]
    end

    A1 --> C2
    A2 --> C1
    A4 --> C2
    B2 --> C1

    style A1 fill:#e1f5ff
    style A2 fill:#e1f5ff
    style A4 fill:#e1f5ff

中国开源模型生态

5. 长任务处理能力演进

xychart-beta
    title "AI 模型长任务处理能力演进"
    x-axis [2019, 2020, 2021, 2022, 2023, 2024, 2025]
    y-axis "任务时长(分钟)" 0 --> 300
    line [5, 10, 20, 45, 90, 150, 280]

长任务处理能力演进

6. 致命三要素

graph TD
    A[访问私有数据] --> D[提示注入攻击]
    B[外部通信能力] --> D
    C[暴露于不受信任内容] --> D

    D --> E[数据泄露风险]

    style A fill:#ffe1e1
    style B fill:#ffe1e1
    style C fill:#ffe1e1
    style D fill:#ff0000,color:#fff
    style E fill:#ff0000,color:#fff

致命三要素

五、影响分析

1. 行业影响

A. 竞争格局重塑

  • 美国垄断被打破,中国 AI 实验室崛起
  • OpenAI 领先优势缩小
  • Google Gemini 强势回归

B. 开源生态繁荣

  • 中国开源模型采用宽松许可
  • 推动全球 AI 民主化

C. 硬件竞争

  • TPU vs GPU 竞争加剧
  • NVIDIA 市场地位受挑战

2. 开发者影响

A. 编程范式转变

  • Vibe coding 成为新开发方式
  • 异步编程代理改变工作流程
  • 手机编程成为可能

B. 工具链演进

  • CLI 工具复兴
  • MCP 协议爆发式增长后被 Skills 取代
  • 测试套件成为编程代理的关键

C. 安全意识提升

  • YOLO 模式的诱惑与风险
  • 致命三要素概念的普及
  • 浏览器代理的安全担忧

3. 用户影响

A. 订阅成本上升

  • 高级功能价格跃升至 200 美元/月
  • API 与订阅定价策略分化

B. 图像创作门槛降低

  • 提示词编辑功能普及
  • 专业级信息图生成
  • 病毒式传播技巧

C. 信息质量挑战

  • Slop 问题加剧
  • 策展重要性提升

六、各方反应

1. 官方回应

OpenAI 宣布红色警报应对 Gemini 竞争。

2. 业内评价

Andrej Karpathy 对推理模型的解释成为权威观点。

3. 社区反馈

  • SnitchBench 揭示所有模型都会举报用户
  • Vibe coding 概念被广泛误解
  • Pelican riding bicycle 成为文化现象

七、年度术语

1. Vibe Coding

定义:完全依赖氛围,拥抱指数级增长,忘记代码存在的编程方式。

2. 致命三要素

提示注入攻击的特定场景:访问私有数据、外部通信能力、暴露于不受信任内容三者结合。

3. Context Rot

Workaccount2 创造的术语:模型输出质量随会话上下文增长而下降的现象。

4. Context Engineering

提示工程的替代方案,强调设计提供给模型的上下文的重要性。

5. Slopsquatting

Seth Larson 创造的术语:LLM 幻觉出错误包名,然后被恶意注册以传递恶意软件。

6. Asynchronous Coding Agent

Claude Code for Web / Codex Cloud / Google Jules 等产品的统称。

7. Extractive Contributions

Nadia Eghbal 创造的术语:审查和合并贡献的边际成本大于对项目生产者边际效益的开源贡献。

八、趋势展望

1. 技术趋势

  • 推理能力成为标配
  • 编程代理能力持续提升
  • 多模态能力加速发展

2. 市场趋势

  • 中国 AI 实验室持续崛起
  • 订阅价格分层化
  • 开源与闭源竞争加剧

3. 社会影响

  • AI 能源消耗关注上升
  • 数据中心建设阻力增加
  • 信息质量挑战持续

九、个人实践

1. 工具构建

Simon Willison 在 2025 年构建了 110 个 HTML+JavaScript 工具,全部采用 vibe coding 方式。

2. 手机编程

在手机上编写的代码超过电脑。

3. 合规性测试套件

发现现有测试套件是编程代理的最佳配合:

  • html5lib 测试
  • MicroQuickJS 测试套件
  • WebAssembly 规范测试

参考资料

  1. 2025: The year in LLMs
  2. Stuff we figured out about AI in 2023
  3. Things we learned about LLMs in 2024
最后修改:2026 年 01 月 17 日
如果觉得我的文章对你有用,请随意赞赏