Anthropic Performance Takehome VLIW SIMD 架构技术分析
一、新闻概述
1. 标题
Anthropic 公布原始性能测试项目:挑战 Claude Opus 4.5 的 VLIW 优化极限
2. 发布时间
2026 年 1 月
3. 来源
Anthropic GitHub 仓库
二、核心内容
1. 事件摘要
A. 主要内容
Anthropic 开放了其原始性能测试项目,这是一个自定义 VLIW(超长指令字)SIMD(单指令多数据流)架构模拟器的优化挑战。该项目原本用于面试评估,现在向公众开放,允许任何人尝试超越 Claude Opus 4.5 的性能表现。
B. 核心亮点
- 自定义 VLIW SIMD 架构模拟器
- 树形并行遍历算法优化
- 多个性能基准阈值可供挑战
- 完整的测试套件和性能分析工具
2. 关键信息
A. 版本信息
- 项目仓库:anthropics/original_performance_takehome
- 代码语言:Python(88.7%)和 HTML(11.3%)
- 开源状态:Public
B. 性能基准(时钟周期)
- 2164 周期:Claude Opus 4(长时间优化后)
- 1790 周期:Claude Opus 4.5(2 小时内)
- 1579 周期:Claude Opus 4.5(2 小时测试时计算)
- 1548 周期:Claude Sonnet 4.5(超长优化时间)
- 1487 周期:Claude Opus 4.5(11.5 小时优化)
- 1363 周期:Claude Opus 4.5(改进测试时计算)
C. 挑战目标
优化到 1487 周期以下,超越 Claude Opus 4.5 发布时的最佳性能
3. 背景介绍
A. 项目起源
这是 Anthropic 原始性能测试项目,在 Claude Opus 4.5 开始在 2 小时内超越人类表现之前,该项目用于评估候选人的性能优化能力。
B. 相关上下文
该项目展示了当前 AI 模型在代码优化任务上的能力,同时也为开发者提供了一个有趣的技术挑战。
三、详细报道
1. 主要内容
A. 架构设计
项目实现了一个自定义 VLIW SIMD 架构模拟器,包含以下核心组件:
- 多个执行引擎:ALU、Vector ALU、Load、Store、Flow
- 不同的插槽限制:每个引擎每周期可执行的指令数量不同
- 向量长度固定为 8(VLEN=8)
B. 核心问题
实现一个并行树遍历内核,在树的每个节点上执行以下操作:
- 更新当前输入值:cur_inp_val = myhash(cur_inp_val ^ node_val)
- 根据更新后的值的奇偶性选择分支
- 偶数向左,奇数向右
- 到达树底部时回绕到顶部
C. 优化目标
最小化执行时钟周期数
2. 技术细节
A. 内存布局
graph TB
subgraph 输入
A[Tree 高度]
B[Batch Size]
C[Rounds]
end
subgraph 内存布局
D[Header 7 字]
E[Forest Values]
F[Input Indices]
G[Input Values]
end
subgraph 核心 Kernel
H[外层循环 Rounds]
I[内层循环 Batch]
J[Tree 遍历逻辑]
K[Hash 计算]
end
A --> D
B --> F
C --> H
E --> J
J --> K
K --> GB. 树遍历算法
graph LR
A[当前索引] --> B[加载节点值]
B --> C[val ^ node_val]
C --> D[myhash 计算]
D --> E{val 偶数?}
E -->|是| F[左分支 2*idx+1]
E -->|否| G[右分支 2*idx+2]
F --> H{超出树高度?}
G --> H
H -->|是| I[回到根节点 idx=0]
H -->|否| J[保持新索引]C. VLIW 架构特性
graph TD
subgraph VLIW 指令并行
A1[ALU Slots 12]
A2[Vector ALU 6]
L1[Load Slots 2]
S1[Store Slots 2]
F1[Flow Slots 1]
end
M[内存 Memory] <--> L1
M <--> S1
L1 --> A1
L1 --> A2
A1 --> S1
A2 --> S1
F1 -.控制.-> A1
F1 -.控制.-> A2D. 插槽限制
- ALU:12 个插槽
- Vector ALU:6 个插槽
- Load:2 个插槽
- Store:2 个插槽
- Flow:1 个插槽
- Debug:64 个插槽
E. Hash 函数
项目使用了一个自定义的 32 位 Hash 函数,包含 6 个阶段的混合操作,使用加法、异或、位移等操作。
3. 数据与事实
A. 性能数据
- 基准实现:147734 周期
- 最佳 AI 实现:1363 周期
- 性能提升:超过 100 倍
B. 项目数据
- Stars:638
- Forks:95
- 主要语言:Python
四、影响分析
1. 行业影响
A. 技术趋势
- 展示了 AI 在代码优化领域的强大能力
- 推动了 VLIW SIMD 架构在教育中的应用
- 为性能优化教育提供了实践案例
B. 竞争格局
- Anthropic 通过此类项目展示其 AI 模型的技术能力
- 与其他 AI 公司的性能基准测试形成对比
2. 用户影响
A. 现有用户
- 为性能优化爱好者提供挑战平台
- 帮助学习者理解底层计算机架构
B. 潜在用户
- 寻求性能优化工作的开发者
- 对计算机架构感兴趣的学生
C. 职业机会
- 优化到 1487 周期以下可直接联系 Anthropic 求职
- 提供了一个展示技术能力的渠道
3. 技术趋势
A. 技术方向
- VLIW SIMD 架构在高性能计算中的重要性
- AI 辅助代码优化的潜力
B. 生态影响
- 推动性能优化工具的发展
- 促进计算机架构教育的普及
五、各方反应
1. 官方回应
Anthropic 表示,该项目原本是内部性能测试,现在开放给公众,让更多人体验性能优化的挑战。
2. 业内评价
A. 专家观点
- 该项目设计精巧,涵盖了多个性能优化技术点
- 是评估性能优化能力的好方法
B. 社区反馈
- GitHub 上获得了大量 Star 和 Fork
- 开发者社区对这种开放挑战形式表示欢迎
3. 用户反馈
A. 正面评价
- 提供了学习底层架构的好机会
- 挑战性适中,有明确的优化目标
B. 关注点
- 部分用户希望能提供更多优化提示
- 社区期待看到更多类似的开放挑战
六、相关链接
1. 官方资源
- GitHub 仓库:https://github.com/anthropics/original_performance_takehome
- 性能招聘邮箱:performance-recruiting@anthropic.com
2. 技术文档
- Chrome Trace Event Format 文档
- Perfetto 性能分析工具