videocut-skills:Claude Code 视频剪辑 Agent 技术分析

一、项目概述

1. 基本信息

videocut-skills 是一个基于 Claude Code Skills 的视频剪辑自动化工具,通过 AI Agent 实现口播视频的智能剪辑流程。

项目仓库:https://github.com/Ceeon/videocut-skills
开源协议:MIT License
活跃度:310 星标、69 分支、3 关注者

2. 核心亮点

A. 智能化剪辑

  • 逐字口误检测,精准定位问题片段
  • 自动识别静音片段(≥1 秒)
  • 语气词智能处理(嗯、哎等)

B. 高质量字幕

  • Whisper 大模型转录
  • 词典纠错优化
  • 字幕质量优于剪映

C. 自适应学习

  • 自更新机制,从错误中学习
  • 越用越懂用户剪辑习惯

二、功能分析

1. 核心功能模块

graph TB
    A[videocut-skills] --> B[剪口播]
    A --> C[剪辑]
    A --> D[字幕]
    A --> E[自更新]
    A --> F[安装]

    B --> B1[音频转录]
    B --> B2[口误识别]
    B --> B3[静音检测]
    B --> B4[语气词处理]
    B --> B5[生成审查稿]

    C --> C1[FFmpeg 剪辑]
    C --> C2[执行删除]
    C --> C3[循环审查]

    D --> D1[Whisper 转录]
    D --> D2[词典纠正]
    D --> D3[烧录字幕]

    E --> E1[记录反馈]
    E --> E2[更新规则]

    F --> F1[环境准备]
    F --> F2[模型下载]

videocut-skills 功能架构

2. 功能详情

A. 口误识别

逐字检测视频中的口误、重复、停顿等问题,确保不漏不误。

B. 静音检测

自动识别时长超过 1 秒的静音片段,为剪辑提供参考。

C. 语气词处理

识别并标记嗯、哎等语气词,精确删除冗余内容。

D. 字幕生成

使用 Whisper large-v3 模型进行音频转录,配合词典纠正机制生成高质量字幕。

E. 自更新

从用户反馈中学习,持续优化剪辑规则和识别精度。

三、技术架构

1. Skill 清单

Skill功能触发词
videocut:安装环境准备、模型下载安装、初始化
videocut:剪口播转录 + 口误/静音识别 → 审查稿剪口播、处理视频
videocut:剪辑执行 FFmpeg 剪辑 + 循环审查执行剪辑、确认
videocut:字幕字幕生成与烧录加字幕、生成字幕
videocut:自更新从错误中学习,更新规则更新规则、记录反馈

2. 技术依赖

A. 核心依赖

  • Python 3.8+:脚本运行环境
  • FFmpeg:视频处理引擎
  • FunASR:口误识别模型
  • Whisper large-v3:字幕生成模型

B. 模型资源

  • 模型大小约 5GB
  • 首次安装自动下载

3. 工作流程

graph TD
    A[开始] --> B{首次使用?}
    B -->|是| C[执行安装]
    B -->|否| D[剪口播]
    C --> D

    D --> E[音频转录]
    E --> F[口误识别]
    F --> G[静音检测]
    G --> H[语气词处理]
    H --> I[生成审查稿]

    I --> J{用户确认?}
    J -->|确认| K[执行剪辑]
    J -->|修改| I

    K --> L[FFmpeg 删除片段]
    L --> M[重新审查]
    M --> N{还有口误?}
    N -->|是| J
    N -->|否| O[生成字幕]

    O --> P[Whisper 转录]
    P --> Q[词典纠正]
    Q --> R[烧录字幕]

    R --> S{发现问题?}
    S -->|是| T[自更新]
    S -->|否| U[完成]
    T --> U

videocut-skills 工作流程

四、安装与使用

1. 安装步骤

A. 下载 Skills

克隆项目到 Claude Code skills 目录:

git clone https://github.com/Ceeon/videocut-skills.git ~/.claude/skills/videocut

B. 安装环境

打开 Claude Code,输入指令:

/videocut:安装

AI 会自动安装依赖并下载模型(约 5GB)。

2. 使用流程

A. 剪口播

/videocut:剪口播

AI 自动完成:转录 → 识别口误/静音/语气词 → 生成审查稿 → 等待用户确认。

B. 执行剪辑

/videocut:剪辑

确认后执行删除操作,循环审查直到零口误。

C. 加字幕

/videocut:字幕

Whisper 转录 → 词典纠正 → 烧录字幕。

D. 自更新

/videocut:自更新

告诉 AI 你的偏好,它会记住并优化。

五、技术特点

1. Agent 化设计

将复杂剪辑流程拆解为多个 Skill,每个 Skill 专注于特定任务,符合 Agent 编程范式。

2. 人机协作

生成审查稿后需要用户确认,确保剪辑质量,避免误删重要内容。

3. 循环优化

执行剪辑后重新审查,循环直到零口误,保证输出质量。

4. 自适应学习

通过自更新机制,系统能从用户反馈中学习,持续优化规则。

六、应用场景

1. 口播视频制作

适用于教程、演讲、访谈等需要大量口误清理的场景。

2. 批量处理

可处理多个视频文件,提高制作效率。

3. 字幕制作

高质量字幕生成,适合需要多语言字幕的场景。

七、项目价值

1. 技术创新

A. Claude Code Skills 应用

展示了 Claude Code Skills 在自动化工作流中的强大能力。

B. AI Agent 实践

提供了 AI Agent 在视频编辑领域的实践案例。

C. 多模型集成

整合 FunASR、Whisper 等多个 AI 模型,实现端到端自动化。

2. 实用价值

A. 提高效率

自动化口误识别和剪辑,大幅减少人工操作时间。

B. 降低门槛

无需专业剪辑技能,通过自然语言指令完成复杂操作。

C. 质量保证

循环审查机制确保剪辑质量,避免遗漏。

3. 生态贡献

A. 开源社区

为 Claude Code 生态贡献实用工具,推动 AI 辅助编程发展。

B. 可扩展性

模块化设计便于其他开发者在此基础上扩展功能。

八、发展前景

1. 技术演进

A. 模型优化

随着 ASR 模型持续进步,识别精度将进一步提升。

B. 功能扩展

可增加更多剪辑功能,如配乐、特效等。

C. 平台支持

可能扩展到其他 AI 编程工具平台。

2. 应用拓展

A. 多语言支持

目前主要针对中文,可扩展到更多语言。

B. 专业领域

针对不同领域(如新闻、教育)优化识别规则。

C. 协作功能

支持多人协作编辑和版本管理。

九、总结

videocut-skills 是一个创新的视频剪辑自动化工具,通过 Claude Code Skills 将复杂的剪辑流程简化为自然语言指令。项目展示了 AI Agent 在专业领域的应用潜力,为创作者提供了高效的自动化解决方案。

项目的核心价值在于:

  1. 将 AI 能力与专业工具深度结合
  2. 人机协作确保输出质量
  3. 自适应学习持续优化体验

随着 AI 技术不断发展,这类自动化工具将在内容创作领域发挥越来越重要的作用。


参考资料

  1. videocut-skills GitHub 仓库
最后修改:2026 年 01 月 19 日
如果觉得我的文章对你有用,请随意赞赏