2025 大语言模型年度回顾技术分析

一、新闻概述

1. 标题

2025 大语言模型年度回顾

2. 发布时间

2026 年 1 月 16 日

3. 来源

翻译整理自 Simon Willison's Weblog 的《2025: The year in LLMs》,由 Tw93 (@HiTw93) 翻译并整理

二、核心内容

1. 事件摘要

A. 主要内容

本文是对大语言模型(LLM)领域 2025 年度发展的全面回顾,总结了过去 12 个月中发生的所有重要事件和趋势。这是 Simon Willison 对 LLM 领域的第三篇年度回顾文章。

B. 核心亮点

  • 推理模型成为主流,OpenAI 的 o 系列、Google 的 Gemini 等纷纷推出推理能力
  • Agent 从概念走向实用,编码 Agent 和深度搜索成为两大主流场景
  • 中国开源模型全面崛起,占据排行榜前列
  • Claude Code 年化收入达 10 亿美元
  • 新定价标杆出现,200 美元/月的高端订阅服务

2. 关键信息

A. 涉及技术

  • 推理模型(RLVR:基于可验证奖励的强化学习)
  • Agent 系统
  • 编码 Agent
  • 图像生成与编辑
  • 开源模型

B. 重要数据

  • Claude Code 年化收入:10 亿美元
  • METR 研究:AI 能处理的任务长度每 7 个月翻倍
  • Artificial Analysis 开源模型排行榜前五全是国产模型
  • OpenAI 图像编辑功能上线一周新增 1 亿用户

3. 背景介绍

A. 历史回顾

这是第三篇年度回顾,前两年的回顾包括:

  • 2023 年我们搞懂了哪些 AI 事情
  • 2024 年我们在 LLM 上学到的东西

B. 相关上下文

2025 年充满了各种趋势,有些相互交织,有些则彻底改变了我们使用和构建 AI 的方式。

三、详细报道

1. 推理之年

A. 技术突破

2024 年 9 月,OpenAI 通过 o1 和 o1-mini 拉开了推理(也叫基于可验证奖励的强化学习 RLVR)模型的序幕。2025 年初,他们又接连推出 o3、o3-mini 和 o4-mini,将这一能力推向主流。

B. 技术原理

Andrej Karpathy 对此有个精辟解释:

通过在大量可自动验证奖励的环境中(比如数学题或编程谜题)训练 LLM,模型会自发发展出人类看起来像"推理"的策略,比如把问题拆解成中间步骤,来回尝试不同解法。

RLVR 的性价比极高,以至于原本用于预训练的算力被大量转投于此。因此,2025 年的能力进步主要来自更长的 RL 训练,而非更大的模型规模。

C. 应用场景

推理模型的主要应用价值:

  • AI 辅助搜索:GPT-5 Thinking 等系统能高效回答复杂的调研问题
  • 代码生成和调试:能从错误出发,逐层深入大型代码库定位根本原因
  • 工具驱动:能规划多步任务、执行、观察结果并动态调整计划

D. 技术架构

graph LR
    A[可验证奖励环境] -->|强化学习训练| B[推理模型]
    B -->|能力提升| C[多步任务规划]
    B -->|能力提升| D[工具调用]
    C --> E[AI 搜索]
    C --> F[代码调试]
    D --> G[Agent 系统]

推理模型技术架构

2. Agent 之年

A. Agent 定义

到了 9 月,作者给出了自己的定义:

Agent 就是能通过循环调用工具来达成目标的 LLM 系统

B. 发展历程

年初作者曾预测 Agent 不会真正落地,因为:

  • 2024 年大家嘴上都在说 Agent,但几乎没人做出能用的例子
  • 每个人对 Agent 的定义还不一样

C. 实际成果

如果将 Agent 定义为"能通过多步工具调用完成有用工作的 LLM 系统",那它已经来了,而且非常实用。目前两大主流场景是:

  • 编程
  • 深度搜索

"深度研究"模式(让 LLM 花 15 分钟以上生成详细报告)如今已式微,因为 GPT-5 Thinking 和 Google 的 AI Mode 能在几秒内给出类似质量的结果。

3. 编码 Agent 与 Claude Code 之年

A. Claude Code 发布

2025 年 2 月,Anthropic 静悄悄地发布了 Claude Code,甚至没单独发博客,只是夹在 Claude 3.7 Sonnet 的公告里。

B. 版本说明

为什么从 3.5 跳到 3.7?因为 Anthropic 在 2024 年 10 月悄悄升级了 3.5,但没改名,社区只好把新版叫 3.6,结果官方直接跳过了这个数字。

C. 产品特性

Claude Code 是"编码 Agent"的代表:能写代码、执行、看结果、再迭代。

D. 市场格局

2025 年,各大厂纷纷推出自己的 CLI 编码 Agent:

厂商产品

  • Claude Code
  • OpenAI 的 Codex CLI
  • Google 的 Gemini CLI
  • 阿里的 Qwen Code
  • Mistral 的 Mistral Vibe

厂商中立选项

  • GitHub Copilot CLI
  • Amp
  • OpenCode
  • OpenHands CLI
  • Pi

IDE 集成
主流 IDE 如 Zed、VS Code、Cursor 也大力集成编码 Agent。

E. 异步编码 Agent

2025 年 9 月,Anthropic 推出 Claude Code for Web,一个异步编码 Agent,你提交任务后可以去做别的事,它完成后会自动提 PR。

OpenAI 的 Codex Cloud(年底改名 Codex Web)和 Google 的 Jules 也在 5 月上线同类服务。

异步模式的优势:

  • 规避了本地执行任意代码的安全风险
  • 能同时发起多个任务
  • 可以在手机上一键触发,几分钟后就有结果

F. 商业成功

截至 2025 年 12 月 2 日,Anthropic 宣布 Claude Code 年化收入已达 10 亿美元!

graph TD
    A[Claude Code 发布] -->|2 月| B[编码 Agent 元年]
    B -->|9 月| C[Claude Code for Web]
    B -->|其他厂商跟进| D[Codex CLI]
    B -->|其他厂商跟进| E[Gemini CLI]
    B -->|其他厂商跟进| F[Qwen Code]
    C -->|异步模式| G[自动提 PR]
    D -->|12 月| H[年化收入 10 亿美元]

编码 Agent 发展时间线

4. 终端 LLM 之年

A. 终端工具崛起

Claude Code 等工具的爆火证明:只要模型够强、工具链够好,开发者完全愿意在终端里用 LLM。

B. 应用场景

现在连 sed、ffmpeg 这种复杂命令,LLM 都能直接帮你写出来。

5. YOLO 与偏差常态化之年

A. YOLO 模式

大多数编码 Agent 默认会请求用户确认每一步操作,但很多人会开启自动确认模式(俗称 YOLO 模式)。Codex CLI 甚至把 --dangerously-bypass-approvals-and-sandbox 简写为 --yolo。

去掉安全限制后,体验像换了产品。

B. 异步 Agent 的安全优势

异步编码 Agent(如 Claude Code for Web)天然适合 YOLO 模式,因为不碰你的本地机器。

C. 偏差常态化风险

安全研究员 Johann Rehberger 在《AI 中的偏差常态化》一文中指出:

当人们反复进行高风险操作却未遭惩罚,就会逐渐视其为正常。这正是 1986 年挑战者号航天飞机灾难的根源。

他警告:我们越久不出事,离"AI 挑战者时刻"就越近。

6. $200/月订阅之年

A. 定价历史

ChatGPT Plus 的 20 美元定价,最初只是 Nick Turley 在 Discord 上搞了个 Google 表单投票决定的。这个价格沿用至今。

B. 新定价标杆

2025 年,新定价标杆出现了:

  • Claude Pro Max 20x 计划:200 美元/月
  • ChatGPT Pro:200 美元/月
  • Google AI Ultra:249 美元/月(首三个月半价)

C. 消费者行为

虽然各公司未公布各档用户占比,但显然有人愿意买单。作者自己就曾花 100 美元/月用 Claude,等当前免费额度用完就会升级到 200 档。

D. 定价逻辑

按理说,重度用户按 token 付费更划算,但像 Claude Code 这类工具处理复杂任务时 token 消耗极快,200 美元套餐反而成了折扣。

7. 中国开源模型登顶之年

A. 市场格局变化

2024 年,中国 AI 实验室已有 Qwen 2.5 和早期 DeepSeek 等亮眼模型,但还不算颠覆性。2025 年彻底变了。

仅作者博客上关于中国 AI 的文章就有 67 篇,年末还漏掉了 GLM-4.7 和 MiniMax-M2.1 等重要发布。

B. 排行榜数据

截至 2025 年 12 月 30 日,Artificial Analysis 的开源模型排行榜前五全是国产:

  1. GLM-4.7
  2. Kimi K2 Thinking
  3. MiMo-V2-Flash
  4. DeepSeek V3.2
  5. MiniMax-M2.1

最高排名的非中国模型是 OpenAI 的 gpt-oss-120B(high),仅排第六。

C. 里程碑事件

这场革命始于 2024 年圣诞发布的 DeepSeek 3(训练成本仅 550 万美元),随后 2025 年 1 月 DeepSeek R1 发布,甚至引发 NVIDIA 单日市值蒸发 5930 亿美元,市场恐慌 AI 不再是美国垄断。

D. 主要中国 AI 实验室

  • DeepSeek(Hugging Face)
  • 阿里 Qwen(Qwen3)
  • 月之暗面(Kimi K2)
  • 智谱(GLM-4.5/4.6/4.7)
  • MiniMax(M2)
  • MetaStone AI(XBai o4)

E. 开源程度

多数模型不仅开源权重,还采用 OSI 认可的许可证(如 Apache 2.0、MIT),部分性能已接近 Claude 4 Sonnet 和 GPT-5。

可惜的是,它们仍未公开完整训练数据和训练代码,但研究论文推动了高效训练与推理的前沿。

graph TB
    A[2024 年] -->|DeepSeek 3| B[成本革命]
    B -->|550 万美元训练成本| C[引发关注]
    C -->|2025 年 1 月| D[DeepSeek R1]
    D -->|发布| E[NVIDIA 市值蒸发]
    E -->|5930 亿美元| F[市场恐慌]
    F -->|2025 年底| G[中国模型登顶]
    G -->|前五名| H[全是国产模型]

中国开源模型崛起历程

8. 长任务之年

A. METR 研究

METR 机构发布了一张关键图表:《LLM 能独立完成的软件工程任务时长》。

B. 能力跃升

2025 年,GPT-5、GPT-5.1 Codex Max、Claude Opus 4.5 已能完成人类需数小时的任务,而 2024 年最强模型只能处理 30 分钟以内的任务。

C. 发展规律

METR 总结:AI 能处理的任务长度每 7 个月翻倍。虽然作者不确定这趋势能否持续,但它清晰展现了 Agent 能力的跃进。

9. 提示驱动图像编辑之年

A. OpenAI 图像编辑

2024 年 5 月,GPT-4o 宣称支持多模态输出("o" 代表 omni),但图像生成功能迟迟未上线。

直到 2025 年 3 月,OpenAI 终于在 ChatGPT 中推出图像编辑功能:用户上传图片,用提示词修改。一周内新增 1 亿用户,峰值每小时 100 万注册!

"吉卜力化"(把照片变成宫崎骏风格)等玩法病毒式传播。

B. API 发展

OpenAI 后续推出 gpt-image-1 API,10 月发布更便宜的 gpt-image-1-mini,12 月又升级到 gpt-image-1.5。

C. 开源阵营

阿里 Qwen 在 8 月发布 Qwen-Image 和 Qwen-Image-Edit,后者甚至能在消费级硬件上运行。11 月和 12 月又更新了两个版本。

D. Google Nano Banana

最大惊喜来自 Google:Nano Banana 系列。

  • 3 月预览
  • 8 月正式发布 Gemini 2.5 Flash Image(即 Nano Banana)
  • 11 月 Nano Banana Pro:可生成专业级信息图、带复杂文字的图像,已成为生产力工具

E. Anthropic 的缺席

有趣的是,Anthropic 至今未推出类似功能,可能因其专注专业工作流。但 Nano Banana Pro 正迅速证明:视觉创作也是专业工作的一部分。

10. 模型斩获学术竞赛金牌之年

A. 国际数学奥林匹克

2025 年 7 月,OpenAI 和 Google Gemini 的推理模型在国际数学奥林匹克(IMO)中获得金牌——题目是全新设计的,不可能出现在训练数据中,且模型未使用任何外部工具。

B. 国际大学生程序设计竞赛

9 月,两家又在国际大学生程序设计竞赛(ICPC)中取得类似成绩,这次允许代码执行环境,但无网络访问。

C. 技术意义

虽然竞赛专用模型未公开,但 Gemini 的 Deep Think 和 OpenAI 的 GPT-5 Pro 应该是近似版本。

11. Llama 迷失之年

A. 2024 年的高光

2024 年是 Llama 的高光时刻:Meta 的 Llama 3 系列(尤其是 3.1、3.2)是开源模型的标杆。

B. 2025 年的失望

但 2025 年 4 月发布的 Llama 4 令人失望:

  • 模型太大(Scout 109B、Maverick 400B)
  • 连量化后都无法在 64GB MacBook 上运行

C. 市场反应

更糟的是,LMArena 测试用的模型和实际发布的还不一致,如今,LM Studio 和 Ollama 上最流行的模型已不是 Meta 的,而是 Llama 3.1(排名也不高)。

D. 未来不确定性

Meta 今年的 AI 新闻多是内部政治和天价挖人组建 Superintelligence Labs,未来是否继续开源 Llama 已成疑问。

12. OpenAI 失去领先之年

A. 2024 年的领导地位

2024 年,OpenAI 凭借 o1 和 o3 仍是绝对领导者。

B. 2025 年的竞争格局

但 2025 年,对手全面追上:

  • 图像生成不如 Nano Banana Pro
  • 代码能力略逊于 Claude Opus 4.5
  • 开源模型被中国实验室超越
  • 语音领域受 Gemini Live API 挑战

C. 唯一优势

唯一优势是消费者心智份额:没人知道 LLM 是什么,但人人都听过 ChatGPT。

D. 最大威胁

最大威胁来自 Gemini,12 月 OpenAI 内部发出"Code Red"警报,暂停新项目全力应对 Gemini 3 的竞争。

13. Gemini 之年

A. 产品发布

Google Gemini 2025 年表现极为出色:

  • 连续发布 Gemini 2.0、2.5、3.0,均支持百万 token 多模态输入
  • 推出 Gemini CLI(后被 Qwen 复用为 Qwen Code)
  • 异步编码 Agent Jules
  • Nano Banana 图像模型
  • Veo 3 视频生成
  • Gemma 3 开源模型家族

B. 核心优势

最大优势在于底层:Google 用自研 TPU,而非 NVIDIA GPU。当别人还在为 GPU 成本发愁时,Google 的训练和推理成本可能低得多。

C. 命名由来

"Gemini"(双子座)这名字源于 DeepMind 和 Google Brain 团队合并,算是组织架构的产物。

14. 其他重要趋势

A. 鹈鹕骑自行车之年

2024 年 10 月,作者首次让 LLM 画"鹈鹕骑自行车"的 SVG——本意是搞笑,因为鹈鹕体型怪、自行车难画,且训练数据里大概率没有。

意外发现:模型画鹈鹕骑车的能力,与其整体能力高度相关。

AI 实验室似乎也注意到了:Google I/O 演示中闪过一秒,Anthropic 的可解释性论文提到它,OpenAI 甚至在 HQ 参观时让作者在 GPT-5 发布视频里聊这个。

但作者怀疑它们没专门为此训练——因为即使最强模型画的鹈鹕依然很烂!

B. Vibe Coding 之年

2 月,Andrej Karpathy 提出 Vibe Coding:完全靠"感觉"编程,让 LLM 写一切,自己只说"把侧边栏 padding 减半"这种话,错误直接粘贴报错信息让 LLM 修,不看 diff,不深究逻辑。

核心是"忘记代码存在",靠 LLM 快速原型。

但这个词很快被滥用,变成"所有 AI 辅助编程"的代称。作者多次撰文澄清:

  • 并非所有 AI 编程都是 Vibe Coding
  • 专业工程应叫 Vibe Engineering
  • 最终目标是交付经过验证能工作的代码,无论怎么写出来的

C. 致命三要素之年

2025 年 6 月,作者提出新术语:致命三要素——指攻击者通过 prompt injection,诱使 Agent 窃取用户私有数据。

这个词故意模糊,迫使人们主动查定义,从而理解其严重性。目前看来,传播效果不错,尚未出现误用。

D. 手机编程之年

2025 年,作者在手机上写的代码比电脑还多。主要靠 Vibe Coding:在 iPhone 上用 Claude Artifacts 或 ChatGPT 提示,生成代码后粘贴到 GitHub Web 编辑器,或等 PR 自动创建后在 Mobile Safari 里合并。

作者的 110 个小工具大多这样诞生。

11 月前,作者觉得手机代码只是玩具。但 12 月,用 Claude Code 在 iPhone 上完成了 MicroQuickJS C 库的 Python 移植,效果出乎意料。

E. 一致性测试套件之年

2025 年底的重大发现:最新编码 Agent + 前沿模型,在有现成测试套件的情况下极其高效。

作者把这类测试套件称为 conformance suites,已成功用于:

  • html5lib 测试
  • MicroQuickJS 测试
  • WebAssembly spec/test(未公开项目)

如果你在 2026 年要推广新协议或新语言,强烈建议配套提供语言无关的一致性测试套件。这能极大降低 LLM 适配门槛。

F. 本地模型变好,但云模型变得更好

2024 年底,Llama 3.3 70B 让作者重燃本地运行 LLM 的兴趣——首次在 64GB MacBook 上体验到 GPT-4 级别模型。

2025 年 1 月,Mistral Small 3(24B,Apache 2.0)用三分之一内存达到同等水平,还能留内存跑其他应用。

中国开源模型进一步推动了 20–32B 参数的"甜点区"。

作者确实用本地模型完成了一些离线工作。但云模型进步更快:编码 Agent 需要可靠、高频的工具调用能力,目前尚无本地模型能稳定胜任 Bash 调用。

作者的下一台笔记本会配 128GB 内存,或许 2026 年的开源模型能改变局面。目前,仍依赖云端前沿模型。

G. Slop 之年

2024 年,作者参与推广了 slop 一词(指 AI 量产的低质数字内容),被《卫报》《纽约时报》引用。

2025 年,Merriam-Webster 将其评为年度词汇。作者喜欢这个词,因为它表达了共识:低质 AI 内容有害,应被抵制。

不过,互联网历来充斥垃圾内容,关键还是筛选与放大优质内容。Slop 可能只是让这问题更突出,而非本质改变。

H. 数据中心变得极不受欢迎之年

2025 年,公众对新建 AI 数据中心的反对声浪急剧上升。

12 月,《卫报》报道:200 多个环保组织要求暂停美国新建数据中心。地方层面的抵制也愈演愈烈。

虽然有人认为"耗水问题"被夸大(实际主要是能源、碳排放和噪音),但 Jevons 悖论依然存在:token 越便宜,我们用得越狠(比如每月花 200 美元跑编码 Agent)。

四、影响分析

1. 行业影响

A. 技术趋势

  • 推理能力成为标配:几乎所有主流 AI 模型都具备了某种形式的推理能力
  • Agent 从概念到实用:编码 Agent 和深度搜索成为主流应用场景
  • 开源模型崛起:中国开源模型在性能上已接近甚至超越部分闭源模型
  • 硬件竞争加剧:Google 的 TPU vs NVIDIA GPU,成本竞争白热化

B. 竞争格局

  • OpenAI 失去绝对领先地位:在图像生成、代码能力、开源模型等方面被竞争对手超越
  • Google Gemini 强势崛起:凭借 TPU 成本优势和全产品线布局成为最大威胁
  • 中国 AI 实验室异军突起:DeepSeek、Qwen、Kimi 等在开源模型排行榜上占据前列
  • Anthropic 专注垂直领域:Claude Code 在编码 Agent 领域取得商业成功

2. 用户影响

A. 开发者

  • 编程方式变革:Vibe Coding 和编码 Agent 改变了传统的编程流程
  • 终端工具复兴:LLM 让命令行工具再次流行
  • 手机编程成为可能:异步 Agent 让移动设备编程变得实用

B. 普通用户

  • 订阅成本上升:200 美元/月的高端订阅服务出现
  • 图像创作民主化:提示驱动图像编辑让普通人也能创作专业级图像
  • AI 搜索质量提升:推理模型让复杂问题的答案更加准确

C. 安全风险

  • Prompt injection 威胁:浏览器集成的 AI 面临严重安全风险
  • YOLO 模式的隐患:自动确认模式可能导致"挑战者时刻"
  • 数据泄露风险:致命三要素组合可能导致敏感数据泄露

3. 技术趋势

A. 短期趋势(2026 年)

  • 推理能力进一步普及:更多模型将具备推理模式切换
  • Agent 能力持续提升:长任务处理能力将继续增强
  • 本地模型追赶云端:128GB 内存笔记本可能让本地模型实用化

B. 中长期趋势

  • 硬件成本成为竞争关键:TPU vs GPU 的竞争将决定行业格局
  • 开源与闭源的界限模糊:部分开源模型性能已接近闭源
  • AI 数据中心面临监管:环保和社区反对可能导致政策限制

C. 生态影响

  • 一致性测试套件将成为标准:降低 LLM 适配门槛
  • MCP 协议可能被 Skills 取代:更简单的工具定义格式
  • 终端 LLM 生态繁荣:命令行工具与 LLM 深度集成

五、各方反应

1. 官方回应

  • Anthropic:Claude Code 年化收入达 10 亿美元,证明编码 Agent 的商业价值
  • OpenAI:12 月发出"Code Red"警报,全力应对 Gemini 3 的竞争
  • Google:Gemini 系列快速迭代,TPU 成本优势显现

2. 业内评价

A. 专家观点

  • Andrej Karpathy:提出 Vibe Coding 概念,重新定义 AI 辅助编程
  • Johann Rehberger:警告偏差常态化风险,可能引发"AI 挑战者时刻"
  • METR 机构:AI 能处理的任务长度每 7 个月翻倍

B. 社区反馈

  • Llama 用户:对 Llama 4 表示失望,转向其他开源模型
  • 编码 Agent 用户:YOLO 模式虽然危险但体验极佳
  • 中国 AI 社区:开源模型登顶排行榜引发自豪感

3. 用户反馈

A. 正面评价

  • Claude Code 用户:编码效率显著提升,愿意支付 200 美元/月
  • 图像编辑用户:OpenAI 图像编辑功能一周内新增 1 亿用户
  • 手机编程用户:移动设备编程从玩具变为实用工具

B. 负面评价

  • 安全研究员:浏览器集成 AI 面临严重的 prompt injection 风险
  • 环保组织:200 多个组织要求暂停新建 AI 数据中心
  • Llama 粉丝:对 Meta 的 Llama 4 表示失望

C. 中立观察

  • 行业分析师:OpenAI 失去领先地位,但仍保有消费者心智份额
  • 学术界:模型在学术竞赛中表现出色,但专用模型未公开
  • 投资者:中国开源模型的崛起引发对美国 AI 垄断的质疑

六、相关链接

1. 原文链接

  • Simon Willison's Weblog: 2025: The year in LLMs
  • 2023 年回顾:2023 年我们搞懂了哪些 AI 事情
  • 2024 年回顾:2024 年我们在 LLM 上学到的东西

2. 相关工具

  • Claude Code: https://claude.ai/code
  • Simon Willison 的工具集: tools.simonwillison.net
  • Artificial Analysis 开源模型排行榜

3. 技术文档

  • OpenAI API 文档
  • Google Gemini 文档
  • Anthropic Claude 文档

参考资料

  1. Simon Willison's Weblog - 2025: The year in LLMs
  2. Tw93 的翻译整理 - Twitter/X
最后修改:2026 年 01 月 17 日
如果觉得我的文章对你有用,请随意赞赏