一、新闻概述

1. 标题

Kyutai 发布 Pocket TTS：可在 CPU 上运行的轻量级语音合成系统

2. 发布时间

2026 年 1 月（项目开源时间）

3. 来源

Kyutai 实验室官方 GitHub 仓库

二、核心内容

1. 事件摘要

A. 主要内容

法国 AI 研究机构 Kyutai 开源了 Pocket TTS，一个专为 CPU 优化的轻量级文本转语音（TTS）系统。

B. 核心亮点

无需 GPU，可在普通 CPU 上高效运行
模型体积小，仅 100M 参数
支持音频流式输出，首字延迟约 200ms
生成速度快于实时速度，在 MacBook Air M4 上约 6 倍实时速度
支持语音克隆功能
可处理无限长度的文本输入

2. 关键信息

A. 版本信息

当前版本：v1.0.3（最新版本）

B. 技术规格

Python 支持：3.10、3.11、3.12、3.13、3.14
PyTorch 要求：2.5 及以上版本
仅需 CPU 版 PyTorch
模型参数量：100M

C. 授权许可

MIT 开源许可证

3. 背景介绍

A. 开发机构

Kyutai 是法国一家专注于 AI 研究的实验室，由 Xavier Niel 资助成立。

B. 相关资源

官方演示网站：kyutai.org/pocket-tts
Hugging Face 模型卡
技术报告和学术论文

三、详细报道

1. 主要内容

A. 技术特性

Pocket TTS 是一个轻量级的文本转语音应用，专门设计用于在 CPU 上高效运行。用户无需配置 GPU 或使用云端 API，只需通过 pip 安装即可使用。

B. 核心功能

CPU 优先设计：无需 GPU 加速
音频流式输出：边生成边播放
低延迟：首个音频块约 200ms
高效资源利用：仅使用 2 个 CPU 核心
语音克隆：支持自定义语音
长文本支持：可处理无限长度输入

C. 使用方式

提供三种使用方式：

命令行工具（CLI）
Python API 库
本地 Web 服务器

2. 技术细节

A. 系统架构

graph TB
    Input[文本输入] --> Preprocess[预处理模块]
    Preprocess --> Model[TTS 模型<br/>100M 参数]
    Model --> Stream[流式输出]
    Stream --> Output[音频输出]

    Model --> Voice[语音状态]
    Voice --> Clone[语音克隆]

    VoiceState[语音状态缓存] -.缓存.-> Model

Pocket TTS 系统架构

B. 工作流程

sequenceDiagram
    participant U as 用户
    participant C as CLI/API
    participant M as TTS 模型
    participant V as 语音状态

    U->>C: 输入文本 + 语音选择
    C->>V: 加载语音状态
    V-->>C: 返回语音嵌入
    C->>M: 文本 + 语音嵌入
    M-->>C: 流式音频数据
    C-->>U: 返回音频文件/流

Pocket TTS 工作流程

C. 性能指标

指标	数值
首字延迟	~200ms
生成速度	~6x 实时速度（MacBook Air M4）
CPU 占用	2 核心
模型大小	100M 参数

D. 语音克隆

支持多种预置语音：

alba
marius
javert
jean
fantine
cosette
eponine
azelma

同时支持使用自定义音频文件进行语音克隆。推荐在使用前对音频样本进行降噪处理。

3. 数据与事实

A. 项目数据

GitHub Stars：2.7k+
Forks：293
Contributors：11
最新版本：v1.0.3

B. 代码构成

Python：89.5%
HTML：10.3%
Dockerfile：0.2%

四、影响分析

1. 行业影响

A. 技术趋势

证明了小型模型在 CPU 上也能实现高质量的语音合成
为边缘设备部署 TTS 提供了新选择
推动了轻量级 AI 模型的发展

B. 竞争格局

相比传统的云端 TTS 服务：

优势：隐私保护、无需网络、成本更低
劣势：目前仅支持英语、语音种类有限

相比其他开源 TTS：

优势：无需 GPU、部署简单、体积小
劣势：语言支持单一

2. 用户影响

A. 开发者

快速集成 TTS 功能到应用
无需配置复杂的 GPU 环境
MIT 许可证，商业使用友好

B. 最终用户

离线使用 TTS 功能
更好的隐私保护
自定义语音克隆

C. 企业用户

降低 TTS 部署成本
数据不出本地，符合隐私要求
易于集成到现有系统

3. 技术趋势

A. 模型小型化

Pocket TTS 证明了小型模型（100M 参数）也能达到实用效果，这与当前追求大模型的趋势形成对比。

B. 边缘计算

CPU 优先设计使得 TTS 可以部署在更多边缘设备上，推动语音技术在物联网、移动设备等场景的应用。

C. 开源生态

MIT 许可证和完善的 API 设计，有助于社区贡献和生态发展。

五、各方反应

1. 社区反馈

A. GitHub 社区

项目迅速获得 2.7k+ Stars
293 个 Fork，显示开发者兴趣浓厚
11 位贡献者参与开发

B. 社区实现

已有多个社区实现的浏览器版本：

Candle（Rust + WebAssembly）
jax-js（JavaScript ML 库）
ONNX Runtime Web 版本

2. 应用项目

已有项目基于 Pocket TTS 构建：

pocket-reader：浏览器屏幕阅读器
pocket-tts-wyoming：Home Assistant Voice 集成

3. 未支持功能

社区正在贡献以下功能：

浏览器 WebAssembly 版本
torch.compile() 优化版本
文本输入中的停顿控制
INT8 量化支持

六、技术使用指南

1. 安装方法

使用 uv（推荐）：

uvx pocket-tts generate

使用 pip：

pip install pocket-tts
pocket-tts generate

2. 基本使用

命令行生成：

pocket-tts generate --voice alba --text "Hello world"

Python API 使用：

from pocket_tts import TTSModel
import scipy.io.wavfile

tts_model = TTSModel.load_model()
voice_state = tts_model.get_state_for_audio_prompt("alba")
audio = tts_model.generate_audio(voice_state, "Hello world, this is a test.")
scipy.io.wavfile.write("output.wav", tts_model.sample_rate, audio.numpy())

3. Web 服务器模式

pocket-tts serve

访问 http://localhost:8000 使用 Web 界面。

七、限制与注意事项

1. 当前限制

仅支持英语
GPU 加速无明显效果
暂不支持文本停顿控制
暂不支持 INT8 量化

2. 使用规范

项目明令禁止以下用途：

未经授权的语音模仿或克隆
传播虚假信息
生成违法、有害、骚扰性内容

八、相关链接

1. 官方资源

GitHub 仓库：github.com/kyutai-labs/pocket-tts
官方演示：kyutai.org/pocket-tts
技术报告：kyutai.org/blog/2026-01-13-pocket-tts
论文：arxiv.org/abs/2509.06926

2. 模型资源

Hugging Face 模型卡：huggingface.co/kyutai/pocket-tts
语音仓库：huggingface.co/kyutai/tts-voices

3. 社区实现

Candle 版本：github.com/babybirdprd/pocket-tts
jax-js 版本：github.com/ekzhang/jax-js
ONNX 版本：github.com/KevinAHM/pocket-tts-onnx-export

分类 语音合成 下的文章

Pocket TTS CPU 轻量级语音合成开源项目技术分析