Anthropic Performance Takehome VLIW SIMD 架构技术分析

一、新闻概述

1. 标题

Anthropic 公布原始性能测试项目:挑战 Claude Opus 4.5 的 VLIW 优化极限

2. 发布时间

2026 年 1 月

3. 来源

Anthropic GitHub 仓库

二、核心内容

1. 事件摘要

A. 主要内容

Anthropic 开放了其原始性能测试项目,这是一个自定义 VLIW(超长指令字)SIMD(单指令多数据流)架构模拟器的优化挑战。该项目原本用于面试评估,现在向公众开放,允许任何人尝试超越 Claude Opus 4.5 的性能表现。

B. 核心亮点

  • 自定义 VLIW SIMD 架构模拟器
  • 树形并行遍历算法优化
  • 多个性能基准阈值可供挑战
  • 完整的测试套件和性能分析工具

2. 关键信息

A. 版本信息

  • 项目仓库:anthropics/original_performance_takehome
  • 代码语言:Python(88.7%)和 HTML(11.3%)
  • 开源状态:Public

B. 性能基准(时钟周期)

  • 2164 周期:Claude Opus 4(长时间优化后)
  • 1790 周期:Claude Opus 4.5(2 小时内)
  • 1579 周期:Claude Opus 4.5(2 小时测试时计算)
  • 1548 周期:Claude Sonnet 4.5(超长优化时间)
  • 1487 周期:Claude Opus 4.5(11.5 小时优化)
  • 1363 周期:Claude Opus 4.5(改进测试时计算)

C. 挑战目标

优化到 1487 周期以下,超越 Claude Opus 4.5 发布时的最佳性能

3. 背景介绍

A. 项目起源

这是 Anthropic 原始性能测试项目,在 Claude Opus 4.5 开始在 2 小时内超越人类表现之前,该项目用于评估候选人的性能优化能力。

B. 相关上下文

该项目展示了当前 AI 模型在代码优化任务上的能力,同时也为开发者提供了一个有趣的技术挑战。

三、详细报道

1. 主要内容

A. 架构设计

项目实现了一个自定义 VLIW SIMD 架构模拟器,包含以下核心组件:

  • 多个执行引擎:ALU、Vector ALU、Load、Store、Flow
  • 不同的插槽限制:每个引擎每周期可执行的指令数量不同
  • 向量长度固定为 8(VLEN=8)

B. 核心问题

实现一个并行树遍历内核,在树的每个节点上执行以下操作:

  • 更新当前输入值:cur_inp_val = myhash(cur_inp_val ^ node_val)
  • 根据更新后的值的奇偶性选择分支
  • 偶数向左,奇数向右
  • 到达树底部时回绕到顶部

C. 优化目标

最小化执行时钟周期数

2. 技术细节

A. 内存布局

graph TB
    subgraph 输入
        A[Tree 高度]
        B[Batch Size]
        C[Rounds]
    end

    subgraph 内存布局
        D[Header 7 字]
        E[Forest Values]
        F[Input Indices]
        G[Input Values]
    end

    subgraph 核心 Kernel
        H[外层循环 Rounds]
        I[内层循环 Batch]
        J[Tree 遍历逻辑]
        K[Hash 计算]
    end

    A --> D
    B --> F
    C --> H
    E --> J
    J --> K
    K --> G

架构图

B. 树遍历算法

graph LR
    A[当前索引] --> B[加载节点值]
    B --> C[val ^ node_val]
    C --> D[myhash 计算]
    D --> E{val 偶数?}
    E -->|是| F[左分支 2*idx+1]
    E -->|否| G[右分支 2*idx+2]
    F --> H{超出树高度?}
    G --> H
    H -->|是| I[回到根节点 idx=0]
    H -->|否| J[保持新索引]

遍历流程图

C. VLIW 架构特性

graph TD
    subgraph VLIW 指令并行
        A1[ALU Slots 12]
        A2[Vector ALU 6]
        L1[Load Slots 2]
        S1[Store Slots 2]
        F1[Flow Slots 1]
    end

    M[内存 Memory] <--> L1
    M <--> S1
    L1 --> A1
    L1 --> A2
    A1 --> S1
    A2 --> S1
    F1 -.控制.-> A1
    F1 -.控制.-> A2

VLIW 架构图

D. 插槽限制

  • ALU:12 个插槽
  • Vector ALU:6 个插槽
  • Load:2 个插槽
  • Store:2 个插槽
  • Flow:1 个插槽
  • Debug:64 个插槽

E. Hash 函数

项目使用了一个自定义的 32 位 Hash 函数,包含 6 个阶段的混合操作,使用加法、异或、位移等操作。

3. 数据与事实

A. 性能数据

  • 基准实现:147734 周期
  • 最佳 AI 实现:1363 周期
  • 性能提升:超过 100 倍

B. 项目数据

  • Stars:638
  • Forks:95
  • 主要语言:Python

四、影响分析

1. 行业影响

A. 技术趋势

  • 展示了 AI 在代码优化领域的强大能力
  • 推动了 VLIW SIMD 架构在教育中的应用
  • 为性能优化教育提供了实践案例

B. 竞争格局

  • Anthropic 通过此类项目展示其 AI 模型的技术能力
  • 与其他 AI 公司的性能基准测试形成对比

2. 用户影响

A. 现有用户

  • 为性能优化爱好者提供挑战平台
  • 帮助学习者理解底层计算机架构

B. 潜在用户

  • 寻求性能优化工作的开发者
  • 对计算机架构感兴趣的学生

C. 职业机会

  • 优化到 1487 周期以下可直接联系 Anthropic 求职
  • 提供了一个展示技术能力的渠道

3. 技术趋势

A. 技术方向

  • VLIW SIMD 架构在高性能计算中的重要性
  • AI 辅助代码优化的潜力

B. 生态影响

  • 推动性能优化工具的发展
  • 促进计算机架构教育的普及

五、各方反应

1. 官方回应

Anthropic 表示,该项目原本是内部性能测试,现在开放给公众,让更多人体验性能优化的挑战。

2. 业内评价

A. 专家观点

  • 该项目设计精巧,涵盖了多个性能优化技术点
  • 是评估性能优化能力的好方法

B. 社区反馈

  • GitHub 上获得了大量 Star 和 Fork
  • 开发者社区对这种开放挑战形式表示欢迎

3. 用户反馈

A. 正面评价

  • 提供了学习底层架构的好机会
  • 挑战性适中,有明确的优化目标

B. 关注点

  • 部分用户希望能提供更多优化提示
  • 社区期待看到更多类似的开放挑战

六、相关链接

1. 官方资源

2. 技术文档

  • Chrome Trace Event Format 文档
  • Perfetto 性能分析工具

参考资料

  1. Anthropic Performance Takehome GitHub Repository
最后修改:2026 年 01 月 21 日
如果觉得我的文章对你有用,请随意赞赏