2025 年 LLM 年度回顾技术分析
一、新闻概述
1. 标题
2025:大语言模型之年
2. 发布时间
2025 年 12 月 31 日
3. 来源
Simon Willison's Weblog
二、核心内容
1. 事件摘要
A. 主要内容
Simon Willison 发布其第三份 LLM 年度回顾,系统梳理了 2025 年大语言模型领域的关键发展。文章涵盖了推理模型的兴起、智能代理的突破、编程工具的革新等 27 个主题。
B. 核心亮点
- 推理模型成为行业标准
- 编程代理进入实用阶段
- 中国开源模型异军突起
- Claude Code 实现十亿美元年化收入
- 图像编辑能力显著提升
2. 关键信息
A. 文章系列
- 2023 年 AI 相关发现总结
- 2024 年 LLM 知识总结
- 2025 年 LLM 年度回顾(本文)
B. 主要主题数量
27 个年度主题标签
C. 涉及厂商
OpenAI、Anthropic、Google、DeepSeek、阿里 Qwen、月之暗面等
三、详细报道
1. 推理模型的崛起
A. 技术背景
OpenAI 于 2024 年 9 月推出 o1 和 o1-mini,开启了推理模型时代。2025 年初,OpenAI 继续推出 o3、o3-mini 和 o4-mini,推理能力迅速成为各大 AI 实验室的标配功能。
B. 技术原理
Andrej Karpathy 的解释揭示了这一技术的本质:
通过在可验证奖励环境(如数学/代码谜题)中训练 LLM,模型会自发发展出类似推理的策略。模型学会将问题分解为中间计算步骤,并掌握多种问题解决策略。
这种方法提供了极高的能力成本比,大量算力从预训练转向推理训练。
C. 实际应用价值
推理模型的真正价值体现在工具调用能力上:
- 多步骤任务规划
- 执行后根据结果调整策略
- 持续推理优化方案
D. 应用场景
AI 辅助搜索的实际可用性得到验证。即使是复杂的研究问题,GPT-5 Thinking 模式也能有效应对。
推理模型在代码生成和调试方面表现卓越:
- 从错误出发追溯根本原因
- 分析大型复杂代码库
- 逐步诊断棘手 bug
2. 智能代理元年
A. 定义确立
Simon Willison 在年初预测智能代理不会实现,原因是易受骗问题和科幻式的期望过于不切实际。
到 9 月,他将智能代理定义为:通过循环运行工具来实现目标的 LLM 系统。
B. 两大突破领域
深度研究模式:让 LLM 收集信息并生成详细报告,前期流行但后期被更高效的 GPT-5 Thinking 替代。
编程代理模式:影响更为重大。
3. 编程代理与 Claude Code
A. Claude Code 的里程碑
2025 年 2 月,Anthropic 悄然发布 Claude Code,仅作为 Claude 3.7 Sonnet 公告的第二项内容。
Claude Code 是编程代理的典型代表:LLM 系统可以编写代码、执行代码、检查结果并继续迭代。
B. 行业产品矩阵
主要厂商的 CLI 编程代理:
- Claude Code(Anthropic)
- Codex CLI(OpenAI)
- Gemini CLI(Google)
- Qwen Code(阿里)
- Mistral Vibe
第三方工具:
- GitHub Copilot CLI
- Amp
- OpenCode
- OpenHands CLI
- Pi
C. 异步编程代理
2025 年 5 月,OpenAI 推出 Codex Cloud,Google 推出 Jules。
异步编程代理的特点:
- 云端执行,无本地安全风险
- 可同时发起多个任务
- 特别适合手机使用场景
D. 商业成功
截至 2025 年 12 月 2 日,Claude Code 实现十亿美元年化收入。
4. 命令行 LLM 工具的突破
A. 开发者习惯转变
Claude Code 等工具证明,在足够强大的模型和适当工具支持下,开发者会拥抱命令行 LLM 工具。
B. 技术障碍消除
复杂的命令行工具(sed、ffmpeg、bash)不再成为障碍,LLM 可以直接生成正确的命令。
5. YOLO 模式与偏差常态化
A. 默认安全机制
大多数编程代理默认会请求用户确认每个操作,原因是:
- 可能误删除整个用户目录
- 提示注入攻击可能窃取凭据
B. YOLO 模式的诱惑
自动确认模式(YOLO)让体验完全不同。
C. 安全隐患
Johann Rehberger 在《AI 中的偏差常态化》中提出警告:重复暴露于风险行为而无负面后果,会使人认为这种风险行为是正常的。
这与 1986 年挑战者号灾难的原因相同:多次成功发射让 NASA 停止认真对待 O 型圈缺陷风险。
6. 订阅定价的跃升
A. 新价格锚点
ChatGPT Plus 原价 20 美元/月是基于 Discord 调查的临时决定。
2025 年新定价标准:
- Claude Pro Max:200 美元/月
- ChatGPT Pro:200 美元/月
- Google AI Ultra:249 美元/月(首季优惠 124.99 美元/月)
B. 经济逻辑
需要大量使用才能消耗 200 美元的 API 配额。但 Claude Code 和 Codex CLI 等工具在处理复杂任务时会消耗大量 token,使月付方案具有实质性折扣。
7. 中国开源模型的崛起
A. 市场格局变化
2025 年底,Artificial Analysis 开源模型排行榜前五名全部来自中国:
- GLM-4.7(智谱)
- Kimi K2 Thinking(月之暗面)
- MiMo-V2-Flash
- DeepSeek V3.2
- MiniMax-M2.1
最高非中国模型是 OpenAI 的 gpt-oss-120B,排名第六。
B. 历史节点
2024 年 12 月 25 日,DeepSeek V3 发布,据称训练成本约 550 万美元。
2025 年 1 月 20 日,DeepSeek R1 发布,引发 AI/半导体股大幅抛售:
- NVIDIA 市值损失约 5930 亿美元
- 投资者恐慌于 AI 不再是美国垄断
C. 主要中国 AI 实验室
- DeepSeek
- 阿里 Qwen(Qwen3)
- 月之暗面(Kimi K2)
- 智谱(GLM-4.5/4.6/4.7)
- MiniMax(M2)
- MetaStone AI(XBai o4)
D. 开源许可
多数模型采用真正开源许可:
- Qwen:Apache 2.0
- DeepSeek 和智谱:MIT
部分模型能力可与 Claude 4 Sonnet 和 GPT-5 媲美。
8. 长任务处理能力的突破
A. METR 研究图表
时间跨度图表显示,2025 年模型在长任务处理上有巨大飞跃:
- GPT-5、GPT-5.1 Codex Max、Claude Opus 4.5 可完成人类数小时的任务
- 2024 年最佳模型上限不到 30 分钟
B. 发展速度
METR 结论:AI 可完成任务长度每 7 个月翻倍。
9. 提示驱动图像编辑
A. 历史背景
GPT-4o 曾承诺多模态输出但未能兑现。
2025 年 3 月,OpenAI 终于推出图像生成和编辑功能,用户可上传图片并通过提示词修改。
B. 用户增长
该功能在一周内带来 1 亿 ChatGPT 注册,峰值每小时 100 万账户创建。
吉卜力化等病毒式传播技巧反复走红。
C. 竞争产品
Qwen 的 Qwen-Image 和 Qwen-Image-Edit 模型可在消费级硬件上运行。
Google 的 Nano Banana 系列模型:
- 可生成有用文本
- 图像编辑指令跟随能力最强
- Nano Banana Pro 可生成专业级信息图
10. 学术竞赛金牌
A. 数学奥林匹克
2025 年 7 月,OpenAI 和 Gemini 模型在国际数学奥林匹克中达到金牌水平。
B. 编程竞赛
2025 年 9 月,在国际大学生编程竞赛(ICPC)中取得优异成绩。
C. 意义
这些竞赛的题目专为比赛设计,训练数据中不可能存在,证明了模型的真正推理能力。
11. Llama 的迷失
A. 历史地位
2024 年是 Llama 之年。Meta 的 Llama 模型是最受欢迎的开源模型。
B. Llama 4 的失望
2025 年 4 月发布的 Llama 4 令人失望:
- 模型过大(109B 和 400B)
- 即使量化也无法在 64GB Mac 上运行
- LM Studio 和 Ollama 最受欢迎模型列表中已无 Meta 位置
C. 战略转向
Meta 主要精力转向内部政治和 Superintelligence Labs 的人才招聘。
12. OpenAI 领先地位的丧失
A. 竞争格局
2025 年,行业其他公司追赶上来:
- 图像:被 Nano Banana Pro 超越
- 代码:Opus 4.5 略优于 GPT-5.2 Codex
- 开源模型:落后于中国 AI 实验室
- 音频:受 Gemini Live API 威胁
B. 消费者心智份额优势
OpenAI 仍在消费者认知度上保持领先,ChatGPT 品牌知名度远超 Gemini 和 Claude。
C. 最大威胁
2025 年 12 月,OpenAI 宣布红色警报,暂停新项目以应对 Gemini 3 的竞争。
13. Gemini 之年
A. 产品发布
2025 年发布 Gemini 2.0、2.5 和 3.0:
- 支持百万级 token 音频/视频/图像/文本输入
- 价格有竞争力
- 能力持续提升
B. 生态系统产品
- Gemini CLI
- Jules(异步编程代理)
- AI Studio 持续改进
- Nano Banana 图像模型
- Veo 3 视频生成
- Gemma 3 开源模型系列
C. 硬件优势
Google 使用自研 TPU 而非 NVIDIA GPU,这是其在成本上的巨大优势。
14. 鹈鹕骑自行车基准
A. 起源
Simon Willison 于 2024 年 10 月首次要求 LLM 生成鹈鹕骑自行车的 SVG 图像。
B. 意外发现
模型绘制鹈鹕骑自行车的能力与整体能力似乎存在相关性。
C. 社区影响
这一基准出现在:
- Google I/O 主题演讲
- Anthropic 可解释性研究论文
- GPT-5 发布视频
D. 真实意图
Simon Willison 承认这是长期策略:诱使多个 AI 实验室投入资源在这个基准上作弊,直到得到一个真正出色的鹈鹕骑自行车 SVG 插图。
15. Slop 成为年度词汇
A. 定义
Merriam-Webster 将 slop 选为 2025 年度词汇:
数字内容,通常由人工智能大量生成,质量低劣。
B. 影响
代表广泛认知:低质量 AI 生成内容是坏的,应该避免。
C. 乐观观点
互联网一直充斥着低质量内容,挑战在于找到和放大好内容。策展比以往任何时候都更重要。
16. 数据中心反对潮
A. 公众态度转变
2025 年公众舆论明显转向反对新建数据中心。
B. 环保组织行动
2025 年 12 月 8 日,卫报报道:200 多个环保组织要求停止美国新数据中心建设。
C. 真实问题
- 能源消耗
- 碳排放
- 噪声污染
- 水资源使用(部分夸大)
D. 杰文斯悖论
随着 token 变便宜,我们会找到更密集的使用方式,如每月 200 美元运行编程代理。
四、技术架构分析
1. 推理模型工作原理
graph TB
A[用户问题] --> B{推理模型}
B --> C[问题分解]
C --> D[生成中间步骤]
D --> E[验证中间结果]
E --> F{需要更多步骤?}
F -->|是| D
F -->|否| G[生成最终答案]
G --> H[返回结果]
I[可验证奖励环境] --> J[强化学习训练]
J --> B
style B fill:#e1f5ff
style J fill:#ffe1e12. 编程代理架构
graph LR
A[用户任务] --> B[LLM 规划器]
B --> C{需要代码执行?}
C -->|是| D[Bash 工具]
C -->|否| E[其他工具]
D --> F[执行结果]
E --> F
F --> G{任务完成?}
G -->|否| B
G -->|是| H[返回结果]
I[文件系统] --> D
J[代码库] --> D
style B fill:#e1f5ff
style D fill:#ffe1e1
style H fill:#e1ffe13. 智能代理分类
mindmap
root((智能代理))
同步代理
Claude Code CLI
Codex CLI
Gemini CLI
本地执行
需要用户确认
异步代理
Claude Code for Web
Codex Cloud
Google Jules
云端执行
YOLO 模式
研究代理
深度研究模式
GPT-5 Thinking
Google AI Mode
信息收集报告4. 中国开源模型生态
graph TB
subgraph 第一梯队
A1[GLM-4.7<br/>智谱]
A2[Kimi K2 Thinking<br/>月之暗面]
A3[MiMo-V2-Flash]
A4[DeepSeek V3.2]
A5[MiniMax-M2.1]
end
subgraph 第二梯队
B1[gpt-oss-120B<br/>OpenAI]
B2[Qwen3 235B<br/>阿里]
B3[Apriel-v1.6-15B-Thinker]
end
subgraph 许可证类型
C1[Apache 2.0<br/>Qwen]
C2[MIT<br/>DeepSeek/智谱]
end
A1 --> C2
A2 --> C1
A4 --> C2
B2 --> C1
style A1 fill:#e1f5ff
style A2 fill:#e1f5ff
style A4 fill:#e1f5ff5. 长任务处理能力演进
xychart-beta
title "AI 模型长任务处理能力演进"
x-axis [2019, 2020, 2021, 2022, 2023, 2024, 2025]
y-axis "任务时长(分钟)" 0 --> 300
line [5, 10, 20, 45, 90, 150, 280]6. 致命三要素
graph TD
A[访问私有数据] --> D[提示注入攻击]
B[外部通信能力] --> D
C[暴露于不受信任内容] --> D
D --> E[数据泄露风险]
style A fill:#ffe1e1
style B fill:#ffe1e1
style C fill:#ffe1e1
style D fill:#ff0000,color:#fff
style E fill:#ff0000,color:#fff五、影响分析
1. 行业影响
A. 竞争格局重塑
- 美国垄断被打破,中国 AI 实验室崛起
- OpenAI 领先优势缩小
- Google Gemini 强势回归
B. 开源生态繁荣
- 中国开源模型采用宽松许可
- 推动全球 AI 民主化
C. 硬件竞争
- TPU vs GPU 竞争加剧
- NVIDIA 市场地位受挑战
2. 开发者影响
A. 编程范式转变
- Vibe coding 成为新开发方式
- 异步编程代理改变工作流程
- 手机编程成为可能
B. 工具链演进
- CLI 工具复兴
- MCP 协议爆发式增长后被 Skills 取代
- 测试套件成为编程代理的关键
C. 安全意识提升
- YOLO 模式的诱惑与风险
- 致命三要素概念的普及
- 浏览器代理的安全担忧
3. 用户影响
A. 订阅成本上升
- 高级功能价格跃升至 200 美元/月
- API 与订阅定价策略分化
B. 图像创作门槛降低
- 提示词编辑功能普及
- 专业级信息图生成
- 病毒式传播技巧
C. 信息质量挑战
- Slop 问题加剧
- 策展重要性提升
六、各方反应
1. 官方回应
OpenAI 宣布红色警报应对 Gemini 竞争。
2. 业内评价
Andrej Karpathy 对推理模型的解释成为权威观点。
3. 社区反馈
- SnitchBench 揭示所有模型都会举报用户
- Vibe coding 概念被广泛误解
- Pelican riding bicycle 成为文化现象
七、年度术语
1. Vibe Coding
定义:完全依赖氛围,拥抱指数级增长,忘记代码存在的编程方式。
2. 致命三要素
提示注入攻击的特定场景:访问私有数据、外部通信能力、暴露于不受信任内容三者结合。
3. Context Rot
Workaccount2 创造的术语:模型输出质量随会话上下文增长而下降的现象。
4. Context Engineering
提示工程的替代方案,强调设计提供给模型的上下文的重要性。
5. Slopsquatting
Seth Larson 创造的术语:LLM 幻觉出错误包名,然后被恶意注册以传递恶意软件。
6. Asynchronous Coding Agent
Claude Code for Web / Codex Cloud / Google Jules 等产品的统称。
7. Extractive Contributions
Nadia Eghbal 创造的术语:审查和合并贡献的边际成本大于对项目生产者边际效益的开源贡献。
八、趋势展望
1. 技术趋势
- 推理能力成为标配
- 编程代理能力持续提升
- 多模态能力加速发展
2. 市场趋势
- 中国 AI 实验室持续崛起
- 订阅价格分层化
- 开源与闭源竞争加剧
3. 社会影响
- AI 能源消耗关注上升
- 数据中心建设阻力增加
- 信息质量挑战持续
九、个人实践
1. 工具构建
Simon Willison 在 2025 年构建了 110 个 HTML+JavaScript 工具,全部采用 vibe coding 方式。
2. 手机编程
在手机上编写的代码超过电脑。
3. 合规性测试套件
发现现有测试套件是编程代理的最佳配合:
- html5lib 测试
- MicroQuickJS 测试套件
- WebAssembly 规范测试