feat: Integrate IndexTTS2 model and update related schemas and frontend components

2026-03-12 13:30:53 +08:00
parent e5b5a16364
commit 8aec4f6f44
151 changed files with 40077 additions and 85 deletions
--- a/README.zh.md
+++ b/README.zh.md
@@ -13,7 +13,8 @@
 - 自定义语音：预定义说话人语音
 - 语音设计：自然语言描述创建语音
 - 语音克隆：上传音频克隆语音
- 有声书生成：上传 EPUB 文件，通过 LLM 自动提取角色并分配语音，生成多角色有声书
+- **IndexTTS2**：高质量语音克隆，支持情感控制（高兴、愤怒、悲伤、恐惧、惊讶等），由 [IndexTTS2](https://github.com/iszhanjiawei/indexTTS2) 驱动
+- 有声书生成：上传 EPUB 文件，通过 LLM 自动提取角色并分配语音，生成多角色有声书；支持为每个角色单独启用 IndexTTS2
 - 双后端支持：支持本地模型和阿里云 TTS API 切换
 - 多语言支持：English、简体中文、繁體中文、日本語、한국어
 - JWT 认证、异步任务、语音缓存、暗黑模式
@@ -148,6 +149,25 @@ hf download Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice --local-dir ./Qwen3-TTS-12Hz-0.
 hf download Qwen/Qwen3-TTS-12Hz-0.6B-Base --local-dir ./Qwen3-TTS-12Hz-0.6B-Base
 ```

+**IndexTTS2 模型（可选，用于情感控制语音克隆）**
+
+IndexTTS2 是可选功能。如需使用，在同一 `Qwen/` 目录下运行：
+
+```bash
+# 仅下载所需文件，无需下载完整仓库
+hf download IndexTeam/IndexTTS-2 \
+  bpe.model config.yaml feat1.pt feat2.pt gpt.pth s2mel.pth wav2vec2bert_stats.pt \
+  --local-dir ./IndexTTS2
+```
+
+然后安装 indextts 包：
+```bash
+git clone https://github.com/iszhanjiawei/indexTTS2.git
+cd indexTTS2
+pip install -e . --no-deps
+cd ..
+```
+
 **最终目录结构：**

 Docker 部署（`docker/models/`）：
@@ -169,7 +189,15 @@ Qwen3-TTS-webUI/
        ├── Qwen3-TTS-Tokenizer-12Hz/
        ├── Qwen3-TTS-12Hz-1.7B-CustomVoice/
        ├── Qwen3-TTS-12Hz-1.7B-VoiceDesign/
-        └── Qwen3-TTS-12Hz-1.7B-Base/
+        ├── Qwen3-TTS-12Hz-1.7B-Base/
+        └── IndexTTS2/          ← 可选，用于 IndexTTS2 功能
+            ├── bpe.model
+            ├── config.yaml
+            ├── feat1.pt
+            ├── feat2.pt
+            ├── gpt.pth
+            ├── s2mel.pth
+            └── wav2vec2bert_stats.pt
 ```

 ### 3. 后端配置