chore: remove obsolete test files for IndexTTS2 and grok-4 response format

fix: update gitignore paths from canto-backend/frontend to backend/frontend
Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-04-07 18:13:39 +08:00 · 2026-04-07 18:13:26 +08:00 · 2026-04-07 18:11:00 +08:00 · 2026-04-07 18:03:29 +08:00 · 2026-04-07 14:51:30 +08:00 · 2026-04-07 14:17:29 +08:00
354 changed files with 880 additions and 2439 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -26,16 +26,16 @@ checkpoints/
 docker/models/
 docker/data/
 docker/.env
-qwen3-tts-frontend/node_modules/
-qwen3-tts-frontend/dist/
-qwen3-tts-frontend/.env
-qwen3-tts-frontend/.env.local
+frontend/node_modules/
+frontend/dist/
+frontend/.env
+frontend/.env.local
 CLAUDE.md
 样本.mp3
 aliyun.md
 /nginx.conf
 deploy.md
-qwen3-tts-backend/scripts
-qwen3-tts-backend/examples
-qwen3-tts-backend/qwen3-tts.service
-qwen3-tts-frontend/.env.production
+backend/scripts
+backend/examples
+backend/canto.service
+frontend/.env.production
--- a/qwen3-tts-backend/api/init.py
+++ b/qwen3-tts-backend/api/init.py
--- a/README.zh.md
+++ b/README.zh.md
@@ -1,348 +0,0 @@
-# Qwen3-TTS WebUI
-
-> **⚠️ 注意：** 本项目由大量 AI 生成，目前处于不稳定状态。稳定版将在 [Releases](../../releases) 中发布。
-
-**非官方** 基于 Qwen3-TTS 的文本转语音 Web 应用，支持自定义语音、语音设计和语音克隆，提供直观的 Web 界面。
-
-> 这是一个非官方项目。如需查看官方 Qwen3-TTS 仓库，请访问 [QwenLM/Qwen3-TTS](https://github.com/QwenLM/Qwen3-TTS)。
-
-[English Documentation](./README.md)
-
-## 功能特性
-
- 自定义语音：预定义说话人语音
- 语音设计：自然语言描述创建语音
- 语音克隆：上传音频克隆语音
- **IndexTTS2**：高质量语音克隆，支持情感控制（高兴、愤怒、悲伤、恐惧、惊讶等），由 [IndexTTS2](https://github.com/iszhanjiawei/indexTTS2) 驱动
- 有声书生成：上传 EPUB 文件，通过 LLM 自动提取角色并分配语音，生成多角色有声书；支持为每个角色单独启用 IndexTTS2
- 双后端支持：支持本地模型和阿里云 TTS API 切换
- 多语言支持：English、简体中文、繁體中文、日本語、한국어
- JWT 认证、异步任务、语音缓存、暗黑模式
-
-## 界面预览
-
-### 桌面端 - 亮色模式
-![亮色模式](./images/lightmode-english.png)
-
-### 桌面端 - 暗黑模式
-![暗黑模式](./images/darkmode-chinese.png)
-
-### 移动端
-<table>
-  <tr>
-    <td width="50%"><img src="./images/mobile-lightmode-custom.png" alt="移动端亮色模式" /></td>
-    <td width="50%"><img src="./images/mobile-settings.png" alt="移动端设置" /></td>
-  </tr>
-</table>
-
-### 有声书生成
-![有声书概览](./images/audiobook-overview.png)
-
-<table>
-  <tr>
-    <td width="50%"><img src="./images/audiobook-characters.png" alt="有声书角色列表" /></td>
-    <td width="50%"><img src="./images/audiobook-chapters.png" alt="有声书章节列表" /></td>
-  </tr>
-</table>
-
-## 技术栈
-
-**后端**: FastAPI + SQLAlchemy + PyTorch + JWT
- 使用 PyTorch 直接推理 Qwen3-TTS 模型
- 异步任务处理与批量优化
- 支持本地模型 + 阿里云 API 双后端
-
-**前端**: React 19 + TypeScript + Vite + Tailwind + Shadcn/ui
-
-## Docker 部署
-
-预构建镜像已发布至 Docker Hub：[bdim404/qwen3-tts-backend](https://hub.docker.com/r/bdim404/qwen3-tts-backend)、[bdim404/qwen3-tts-frontend](https://hub.docker.com/r/bdim404/qwen3-tts-frontend)
-
-**前置要求**：Docker、Docker Compose、NVIDIA GPU + [NVIDIA Container Toolkit](https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html)
-
-```bash
-git clone https://github.com/bdim404/Qwen3-TTS-WebUI.git
-cd Qwen3-TTS-webUI
-
-# 下载模型到 docker/models/（参见下方"安装部署 > 下载模型"）
-mkdir -p docker/models docker/data
-
-# 配置
-cp docker/.env.example docker/.env
-# 编辑 docker/.env，设置 SECRET_KEY
-
-cd docker
-
-# 拉取预构建镜像
-docker compose pull
-
-# 启动（仅 CPU）
-docker compose up -d
-
-# 启动（GPU 加速）
-docker compose -f docker-compose.yml -f docker-compose.gpu.yml up -d
-```
-
-访问 `http://localhost`，默认账号：`admin` / `admin123456`
-
-## 安装部署
-
-### 环境要求
-
- Python 3.9+ 并支持 CUDA（用于本地模型推理）
- Node.js 18+（用于前端）
- Git
-
-### 1. 克隆仓库
-
-```bash
-git clone https://github.com/bdim404/Qwen3-TTS-WebUI.git
-cd Qwen3-TTS-webUI
-```
-
-### 2. 下载模型
-
-**重要**: 模型**不会**自动下载，需要手动下载。
-
-详细信息请访问官方仓库：[Qwen3-TTS 模型](https://github.com/QwenLM/Qwen3-TTS)
-
-进入模型目录：
-```bash
-# Docker 部署
-mkdir -p docker/models && cd docker/models
-
-# 本地部署
-cd qwen3-tts-backend && mkdir -p Qwen && cd Qwen
-```
-
-**方式一：通过 ModelScope 下载（推荐中国大陆用户）**
-
-```bash
-pip install -U modelscope
-
-modelscope download --model Qwen/Qwen3-TTS-Tokenizer-12Hz --local_dir ./Qwen3-TTS-Tokenizer-12Hz
-modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local_dir ./Qwen3-TTS-12Hz-1.7B-CustomVoice
-modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --local_dir ./Qwen3-TTS-12Hz-1.7B-VoiceDesign
-modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-Base --local_dir ./Qwen3-TTS-12Hz-1.7B-Base
-```
-
-可选的 0.6B 模型（更小、更快）：
-```bash
-modelscope download --model Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice --local_dir ./Qwen3-TTS-12Hz-0.6B-CustomVoice
-modelscope download --model Qwen/Qwen3-TTS-12Hz-0.6B-Base --local_dir ./Qwen3-TTS-12Hz-0.6B-Base
-```
-
-**方式二：通过 Hugging Face 下载**
-
-```bash
-pip install -U "huggingface_hub[cli]"
-
-hf download Qwen/Qwen3-TTS-Tokenizer-12Hz --local-dir ./Qwen3-TTS-Tokenizer-12Hz
-hf download Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local-dir ./Qwen3-TTS-12Hz-1.7B-CustomVoice
-hf download Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --local-dir ./Qwen3-TTS-12Hz-1.7B-VoiceDesign
-hf download Qwen/Qwen3-TTS-12Hz-1.7B-Base --local-dir ./Qwen3-TTS-12Hz-1.7B-Base
-```
-
-可选的 0.6B 模型（更小、更快）：
-```bash
-hf download Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice --local-dir ./Qwen3-TTS-12Hz-0.6B-CustomVoice
-hf download Qwen/Qwen3-TTS-12Hz-0.6B-Base --local-dir ./Qwen3-TTS-12Hz-0.6B-Base
-```
-
-**IndexTTS2 模型（可选，用于情感控制语音克隆）**
-
-IndexTTS2 是可选功能。如需使用，在同一 `Qwen/` 目录下运行：
-
-```bash
-# 仅下载所需文件，无需下载完整仓库
-hf download IndexTeam/IndexTTS-2 \
-  bpe.model config.yaml feat1.pt feat2.pt gpt.pth s2mel.pth wav2vec2bert_stats.pt \
-  --local-dir ./IndexTTS2
-```
-
-然后安装 indextts 包：
-```bash
-git clone https://github.com/iszhanjiawei/indexTTS2.git
-cd indexTTS2
-pip install -e . --no-deps
-cd ..
-```
-
-**最终目录结构：**
-
-Docker 部署（`docker/models/`）：
-```
-Qwen3-TTS-webUI/
-└── docker/
-    └── models/
-        ├── Qwen3-TTS-Tokenizer-12Hz/
-        ├── Qwen3-TTS-12Hz-1.7B-CustomVoice/
-        ├── Qwen3-TTS-12Hz-1.7B-VoiceDesign/
-        └── Qwen3-TTS-12Hz-1.7B-Base/
-```
-
-本地部署（`qwen3-tts-backend/Qwen/`）：
-```
-Qwen3-TTS-webUI/
-└── qwen3-tts-backend/
-    └── Qwen/
-        ├── Qwen3-TTS-Tokenizer-12Hz/
-        ├── Qwen3-TTS-12Hz-1.7B-CustomVoice/
-        ├── Qwen3-TTS-12Hz-1.7B-VoiceDesign/
-        ├── Qwen3-TTS-12Hz-1.7B-Base/
-        └── IndexTTS2/          ← 可选，用于 IndexTTS2 功能
-            ├── bpe.model
-            ├── config.yaml
-            ├── feat1.pt
-            ├── feat2.pt
-            ├── gpt.pth
-            ├── s2mel.pth
-            └── wav2vec2bert_stats.pt
-```
-
-### 3. 后端配置
-
-```bash
-cd qwen3-tts-backend
-
-# 创建虚拟环境
-python -m venv venv
-source venv/bin/activate  # Windows: venv\Scripts\activate
-
-# 安装依赖
-pip install -r requirements.txt
-
-# 安装 Qwen3-TTS
-pip install qwen-tts
-
-# 创建配置文件
-cp .env.example .env
-
-# 编辑配置文件
-# 本地模型：设置 MODEL_BASE_PATH=./Qwen
-# 仅阿里云 API：设置 DEFAULT_BACKEND=aliyun
-nano .env  # 或使用其他编辑器
-```
-
-**重要的后端配置** (`.env` 文件)：
-```env
-MODEL_DEVICE=cuda:0              # 使用 GPU（或 cpu 使用 CPU）
-MODEL_BASE_PATH=./Qwen           # 已下载模型的路径
-DEFAULT_BACKEND=local            # 使用本地模型用 'local'，API 用 'aliyun'
-DATABASE_URL=sqlite:///./qwen_tts.db
-SECRET_KEY=your-secret-key-here  # 请修改此项！
-```
-
-启动后端服务：
-```bash
-# 使用 uvicorn 直接启动
-uvicorn main:app --host 0.0.0.0 --port 8000 --reload
-
-# 或使用 conda（如果你喜欢）
-conda run -n qwen3-tts uvicorn main:app --host 0.0.0.0 --port 8000 --reload
-```
-
-验证后端是否运行：
-```bash
-curl http://127.0.0.1:8000/health
-```
-
-### 4. 前端配置
-
-```bash
-cd qwen3-tts-frontend
-
-# 安装依赖
-npm install
-
-# 创建配置文件
-cp .env.example .env
-
-# 启动开发服务器
-npm run dev
-```
-
-### 5. 访问应用
-
-在浏览器中打开：`http://localhost:5173`
-
-**默认账号**：
- 用户名：`admin`
- 密码：`admin123456`
- **重要**: 登录后请立即修改密码！
-
-### 生产环境部署
-
-用于生产环境：
-
-```bash
-# 后端：使用 gunicorn 或类似的 WSGI 服务器
-cd qwen3-tts-backend
-gunicorn main:app -w 4 -k uvicorn.workers.UvicornWorker -b 0.0.0.0:8000
-
-# 前端：构建静态文件
-cd qwen3-tts-frontend
-npm run build
-# 使用 nginx 或其他 Web 服务器提供 'dist' 文件夹
-```
-
-## 配置
-
-### 后端配置
-
-后端 `.env` 关键配置：
-
-```env
-SECRET_KEY=your-secret-key
-MODEL_DEVICE=cuda:0
-MODEL_BASE_PATH=../Qwen
-DATABASE_URL=sqlite:///./qwen_tts.db
-
-DEFAULT_BACKEND=local
-
-ALIYUN_REGION=beijing
-ALIYUN_MODEL_FLASH=qwen3-tts-flash-realtime
-ALIYUN_MODEL_VC=qwen3-tts-vc-realtime-2026-01-15
-ALIYUN_MODEL_VD=qwen3-tts-vd-realtime-2026-01-15
-```
-
-**后端选项：**
-
- `DEFAULT_BACKEND`: 默认 TTS 后端，可选值：`local` 或 `aliyun`
- **本地模式**: 使用本地 Qwen3-TTS 模型（需要配置 `MODEL_BASE_PATH`）
- **阿里云模式**: 使用阿里云 TTS API（需要用户在设置页面配置 API 密钥）
-
-**阿里云配置：**
-
- 用户需要在 Web 界面的设置页面添加阿里云 API 密钥
- API 密钥经过加密后安全存储在数据库中
- 超级管理员可以控制是否为所有用户启用本地模型
- 获取阿里云 API 密钥，请访问 [阿里云控制台](https://dashscope.console.aliyun.com/)
-
-## 使用说明
-
-### 切换后端
-
-1. 登录 Web 界面
-2. 进入设置页面
-3. 配置您偏好的后端：
-   - **本地模型**：选择"本地模型"（需要超级管理员启用本地模型）
-   - **阿里云 API**：选择"阿里云"并添加您的 API 密钥
-4. 选择的后端将默认用于所有 TTS 操作
-5. 也可以通过 API 的 `backend` 参数为单次请求指定不同的后端
-
-### 管理阿里云 API 密钥
-
-1. 在设置页面找到"阿里云 API 密钥"部分
-2. 输入您的阿里云 API 密钥
-3. 点击"更新密钥"保存并验证
-4. 系统会在保存前验证密钥的有效性
-5. 可随时使用删除按钮删除密钥
-
-## 特别鸣谢
-
-本项目基于阿里云 Qwen 团队开源的 [Qwen3-TTS](https://github.com/QwenLM/Qwen3-TTS) 官方仓库构建。特别感谢 Qwen 团队开源如此强大的文本转语音模型。
-
-## 许可证
-
-Apache-2.0 license 
--- a/qwen3-tts-backend/.env.example
+++ b/qwen3-tts-backend/.env.example
--- a/qwen3-tts-backend/.gitignore
+++ b/qwen3-tts-backend/.gitignore
--- a/qwen3-tts-backend/core/init.py
+++ b/qwen3-tts-backend/core/init.py
--- a/qwen3-tts-backend/api/admin.py
+++ b/qwen3-tts-backend/api/admin.py
--- a/qwen3-tts-backend/api/audiobook.py
+++ b/qwen3-tts-backend/api/audiobook.py
@@ -69,7 +69,7 @@ def _char_to_response(c, db: Session) -> AudiobookCharacterResponse:
        if vd:
            vd_name = vd.name
            meta = vd.meta_data or {}
-            vd_speaker = meta.get('speaker') or vd.aliyun_voice_id or vd.instruct or None
+            vd_speaker = meta.get('speaker') or vd.instruct or None
    return AudiobookCharacterResponse(
        id=c.id,
        project_id=c.project_id,
@@ -80,7 +80,7 @@ def _char_to_response(c, db: Session) -> AudiobookCharacterResponse:
        voice_design_id=c.voice_design_id,
        voice_design_name=vd_name,
        voice_design_speaker=vd_speaker,
-        use_indextts2=c.use_indextts2 or False,
+
    )


@@ -561,7 +561,7 @@ async def regenerate_character_preview_endpoint(
    from core.audiobook_service import generate_character_preview
    
    try:
-        await generate_character_preview(project_id, char_id, current_user, db)
+        await generate_character_preview(project_id, char_id, current_user, db, force_recreate=True)
        return {"message": "Preview generated successfully"}
    except ValueError as e:
        raise HTTPException(status_code=400, detail=str(e))
@@ -740,14 +740,18 @@ async def update_character(
        description=data.description,
        instruct=data.instruct,
        voice_design_id=data.voice_design_id,
-        use_indextts2=data.use_indextts2,
+
    )

-    if data.instruct is not None and char.voice_design_id:
+    if (data.instruct is not None or data.gender is not None) and char.voice_design_id:
        voice_design = crud.get_voice_design(db, char.voice_design_id, current_user.id)
+        logger.info(f"update_character: char_id={char_id}, voice_design_id={char.voice_design_id}, found={voice_design is not None}")
        if voice_design:
-            voice_design.instruct = data.instruct
+            if data.instruct is not None:
+                voice_design.instruct = data.instruct
+            voice_design.voice_cache_id = None
            db.commit()
+            logger.info(f"update_character: cleared voice_cache_id for design {voice_design.id}")

    return _char_to_response(char, db)

--- a/qwen3-tts-backend/api/auth.py
+++ b/qwen3-tts-backend/api/auth.py
@@ -1,5 +1,5 @@
 from datetime import timedelta
-from typing import Annotated
+from typing import Annotated, Optional
 from fastapi import APIRouter, Depends, HTTPException, status, Request
 from fastapi.security import OAuth2PasswordBearer, OAuth2PasswordRequestForm
 from sqlalchemy.orm import Session
@@ -14,26 +14,34 @@ from core.security import (
    decode_access_token
 )
 from db.database import get_db
-from db.crud import get_user_by_username, get_user_by_email, create_user, change_user_password, get_user_preferences, update_user_preferences, can_user_use_local_model, can_user_use_nsfw, get_system_setting
-from schemas.user import User, UserCreate, Token, PasswordChange, AliyunKeyVerifyResponse, UserPreferences, UserPreferencesResponse
+from db.crud import get_user_by_username, get_user_by_email, create_user, change_user_password, get_user_preferences, update_user_preferences, can_user_use_nsfw, get_system_setting
+from schemas.user import User, UserCreate, Token, PasswordChange, UserPreferences, UserPreferencesResponse
 from schemas.audiobook import LLMConfigResponse

 router = APIRouter(prefix="/auth", tags=["authentication"])

-oauth2_scheme = OAuth2PasswordBearer(tokenUrl="/auth/token")
+oauth2_scheme = OAuth2PasswordBearer(tokenUrl="/auth/token", auto_error=not settings.DEV_MODE)

 limiter = Limiter(key_func=get_remote_address)

 async def get_current_user(
-    token: Annotated[str, Depends(oauth2_scheme)],
+    token: Annotated[Optional[str], Depends(oauth2_scheme)],
    db: Session = Depends(get_db)
 ) -> User:
+    if settings.DEV_MODE and not token:
+        user = get_user_by_username(db, username="admin")
+        if user:
+            return user
+
    credentials_exception = HTTPException(
        status_code=status.HTTP_401_UNAUTHORIZED,
        detail="Could not validate credentials",
        headers={"WWW-Authenticate": "Bearer"},
    )

+    if token is None:
+        raise credentials_exception
+
    username = decode_access_token(token)
    if username is None:
        raise credentials_exception
@@ -99,6 +107,16 @@ async def login(

    return {"access_token": access_token, "token_type": "bearer"}

+@router.get("/dev-token", response_model=Token)
+async def dev_token(db: Session = Depends(get_db)):
+    if not settings.DEV_MODE:
+        raise HTTPException(status_code=status.HTTP_403_FORBIDDEN, detail="Not available outside DEV_MODE")
+    user = get_user_by_username(db, username="admin")
+    if not user:
+        raise HTTPException(status_code=status.HTTP_404_NOT_FOUND, detail="Admin user not found")
+    access_token = create_access_token(data={"sub": user.username})
+    return {"access_token": access_token, "token_type": "bearer"}
+
@router.get("/me", response_model=User)
@limiter.limit("30/minute")
 async def get_current_user_info(
@@ -137,31 +155,6 @@ async def change_password(

    return user

-@router.get("/aliyun-key/verify", response_model=AliyunKeyVerifyResponse)
-@limiter.limit("10/minute")
-async def verify_aliyun_key(
-    request: Request,
-    current_user: Annotated[User, Depends(get_current_user)],
-    db: Session = Depends(get_db)
-):
-    from core.security import decrypt_api_key
-    from core.tts_service import AliyunTTSBackend
-
-    encrypted = get_system_setting(db, "aliyun_api_key")
-    if not encrypted:
-        return AliyunKeyVerifyResponse(valid=False, message="No Aliyun API key configured")
-
-    api_key = decrypt_api_key(encrypted)
-    if not api_key:
-        return AliyunKeyVerifyResponse(valid=False, message="Failed to decrypt API key")
-
-    aliyun_backend = AliyunTTSBackend(api_key=api_key, region=settings.ALIYUN_REGION)
-    health = await aliyun_backend.health_check()
-
-    if health.get("available", False):
-        return AliyunKeyVerifyResponse(valid=True, message="Aliyun API key is valid and working")
-    return AliyunKeyVerifyResponse(valid=False, message="Aliyun API key is not working.")
-
@router.get("/preferences", response_model=UserPreferencesResponse)
@limiter.limit("30/minute")
 async def get_preferences(
@@ -171,14 +164,10 @@ async def get_preferences(
 ):
    prefs = get_user_preferences(db, current_user.id)

-    available_backends = ["aliyun"]
-    if can_user_use_local_model(current_user):
-        available_backends.append("local")
-
    return {
-        "default_backend": prefs.get("default_backend", "aliyun"),
+        "default_backend": "local",
        "onboarding_completed": prefs.get("onboarding_completed", False),
-        "available_backends": available_backends
+        "available_backends": ["local"]
    }

@router.put("/preferences")
@@ -189,13 +178,6 @@ async def update_preferences(
    current_user: Annotated[User, Depends(get_current_user)],
    db: Session = Depends(get_db)
 ):
-    if preferences.default_backend == "local":
-        if not can_user_use_local_model(current_user):
-            raise HTTPException(
-                status_code=status.HTTP_403_FORBIDDEN,
-                detail="Local model is not available. Please contact administrator."
-            )
-
    updated_user = update_user_preferences(
        db,
        current_user.id,
--- a/qwen3-tts-backend/api/jobs.py
+++ b/qwen3-tts-backend/api/jobs.py
--- a/qwen3-tts-backend/api/tts.py
+++ b/qwen3-tts-backend/api/tts.py
@@ -70,14 +70,7 @@ async def process_custom_voice_job(

        logger.info(f"Processing custom-voice job {job_id} with backend {backend_type}")

-        user_api_key = None
-        if backend_type == "aliyun":
-            from db.crud import get_system_setting
-            encrypted = get_system_setting(db, "aliyun_api_key")
-            if encrypted:
-                user_api_key = decrypt_api_key(encrypted)
-
-        backend = await TTSServiceFactory.get_backend(backend_type, user_api_key)
+        backend = await TTSServiceFactory.get_backend()

        audio_bytes, sample_rate = await backend.generate_custom_voice(request_data)

@@ -133,19 +126,9 @@ async def process_voice_design_job(

        logger.info(f"Processing voice-design job {job_id} with backend {backend_type}")

-        user_api_key = None
-        if backend_type == "aliyun":
-            from db.crud import get_system_setting
-            encrypted = get_system_setting(db, "aliyun_api_key")
-            if encrypted:
-                user_api_key = decrypt_api_key(encrypted)
+        backend = await TTSServiceFactory.get_backend()

-        backend = await TTSServiceFactory.get_backend(backend_type, user_api_key)
-
-        if backend_type == "aliyun" and saved_voice_id:
-            audio_bytes, sample_rate = await backend.generate_voice_design(request_data, saved_voice_id)
-        else:
-            audio_bytes, sample_rate = await backend.generate_voice_design(request_data)
+        audio_bytes, sample_rate = await backend.generate_voice_design(request_data)

        timestamp = datetime.utcnow().strftime("%Y%m%d_%H%M%S")
        filename = f"{user_id}_{job_id}_{timestamp}.wav"
@@ -200,14 +183,6 @@ async def process_voice_clone_job(

        logger.info(f"Processing voice-clone job {job_id} with backend {backend_type}")

-        from core.security import decrypt_api_key
-        user_api_key = None
-        if backend_type == "aliyun":
-            from db.crud import get_system_setting
-            encrypted = get_system_setting(db, "aliyun_api_key")
-            if encrypted:
-                user_api_key = decrypt_api_key(encrypted)
-
        with open(ref_audio_path, 'rb') as f:
            ref_audio_data = f.read()

@@ -233,7 +208,7 @@ async def process_voice_clone_job(
                ref_audio_data = f.read()
            ref_audio_hash = cache_manager.get_audio_hash(ref_audio_data)

-        if request_data.get('x_vector_only_mode', False) and backend_type == "local":
+        if request_data.get('x_vector_only_mode', False):
            x_vector = None
            cache_id = None

@@ -287,9 +262,9 @@ async def process_voice_clone_job(
            logger.info(f"Job {job_id} completed (x_vector_only_mode)")
            return

-        backend = await TTSServiceFactory.get_backend(backend_type, user_api_key)
+        backend = await TTSServiceFactory.get_backend()

-        if voice_design_id and backend_type == "local":
+        if voice_design_id:
            from db.crud import get_voice_design
            design = get_voice_design(db, voice_design_id, user_id)
            cached = await cache_manager.get_cache_by_id(design.voice_cache_id, db)
@@ -339,34 +314,20 @@ async def create_custom_voice_job(
    current_user: User = Depends(get_current_user),
    db: Session = Depends(get_db)
 ):
-    from core.security import decrypt_api_key
-    from db.crud import get_user_preferences, can_user_use_local_model
+    from db.crud import can_user_use_local_model

-    user_prefs = get_user_preferences(db, current_user.id)
-    preferred_backend = user_prefs.get("default_backend", "aliyun")
-
-    can_use_local = can_user_use_local_model(current_user)
-
-    backend_type = req_data.backend if hasattr(req_data, 'backend') and req_data.backend else preferred_backend
-
-    if backend_type == "local" and not can_use_local:
+    if not can_user_use_local_model(current_user):
        raise HTTPException(
            status_code=status.HTTP_403_FORBIDDEN,
            detail="Local model is not available. Please contact administrator."
        )

-    if backend_type == "aliyun":
-        from db.crud import get_system_setting
-        if not get_system_setting(db, "aliyun_api_key"):
-            raise HTTPException(
-                status_code=status.HTTP_400_BAD_REQUEST,
-                detail="Aliyun API key not configured. Please contact administrator."
-            )
+    backend_type = "local"

    try:
        validate_text_length(req_data.text)
        language = validate_language(req_data.language)
-        speaker = validate_speaker(req_data.speaker, backend_type)
+        speaker = validate_speaker(req_data.speaker)

        params = validate_generation_params({
            'max_new_tokens': req_data.max_new_tokens,
@@ -430,48 +391,24 @@ async def create_voice_design_job(
    current_user: User = Depends(get_current_user),
    db: Session = Depends(get_db)
 ):
-    from core.security import decrypt_api_key
-    from db.crud import get_user_preferences, can_user_use_local_model, get_voice_design, update_voice_design_usage
+    from db.crud import can_user_use_local_model, get_voice_design, update_voice_design_usage

-    user_prefs = get_user_preferences(db, current_user.id)
-    preferred_backend = user_prefs.get("default_backend", "aliyun")
+    if not can_user_use_local_model(current_user):
+        raise HTTPException(
+            status_code=status.HTTP_403_FORBIDDEN,
+            detail="Local model is not available. Please contact administrator."
+        )

-    can_use_local = can_user_use_local_model(current_user)
-
-    backend_type = req_data.backend if hasattr(req_data, 'backend') and req_data.backend else preferred_backend
-
-    saved_voice_id = None
+    backend_type = "local"

    if req_data.saved_design_id:
        saved_design = get_voice_design(db, req_data.saved_design_id, current_user.id)
        if not saved_design:
            raise HTTPException(status_code=404, detail="Saved voice design not found")

-        if saved_design.backend_type != backend_type:
-            raise HTTPException(
-                status_code=400,
-                detail=f"Saved design backend ({saved_design.backend_type}) doesn't match current backend ({backend_type})"
-            )
-
        req_data.instruct = saved_design.instruct
-        saved_voice_id = saved_design.aliyun_voice_id
-
        update_voice_design_usage(db, req_data.saved_design_id, current_user.id)

-    if backend_type == "local" and not can_use_local:
-        raise HTTPException(
-            status_code=status.HTTP_403_FORBIDDEN,
-            detail="Local model is not available. Please contact administrator."
-        )
-
-    if backend_type == "aliyun":
-        from db.crud import get_system_setting
-        if not get_system_setting(db, "aliyun_api_key"):
-            raise HTTPException(
-                status_code=status.HTTP_400_BAD_REQUEST,
-                detail="Aliyun API key not configured. Please contact administrator."
-            )
-
    try:
        validate_text_length(req_data.text)
        language = validate_language(req_data.language)
@@ -553,29 +490,15 @@ async def create_voice_clone_job(
    current_user: User = Depends(get_current_user),
    db: Session = Depends(get_db)
 ):
-    from core.security import decrypt_api_key
-    from db.crud import get_user_preferences, can_user_use_local_model, get_voice_design
+    from db.crud import can_user_use_local_model, get_voice_design

-    user_prefs = get_user_preferences(db, current_user.id)
-    preferred_backend = user_prefs.get("default_backend", "aliyun")
-
-    can_use_local = can_user_use_local_model(current_user)
-
-    backend_type = backend if backend else preferred_backend
-
-    if backend_type == "local" and not can_use_local:
+    if not can_user_use_local_model(current_user):
        raise HTTPException(
            status_code=status.HTTP_403_FORBIDDEN,
            detail="Local model is not available. Please contact administrator."
        )

-    if backend_type == "aliyun":
-        from db.crud import get_system_setting
-        if not get_system_setting(db, "aliyun_api_key"):
-            raise HTTPException(
-                status_code=status.HTTP_400_BAD_REQUEST,
-                detail="Aliyun API key not configured. Please contact administrator."
-            )
+    backend_type = "local"

    ref_audio_data = None
    ref_audio_hash = None
@@ -600,9 +523,6 @@ async def create_voice_clone_job(
            if not design:
                raise ValueError("Voice design not found")

-            if design.backend_type != backend_type:
-                raise ValueError(f"Voice design backend ({design.backend_type}) doesn't match request backend ({backend_type})")
-
            if not design.voice_cache_id:
                raise ValueError("Voice design has no prepared clone prompt. Please call /voice-designs/{id}/prepare-clone first")

--- a/qwen3-tts-backend/api/users.py
+++ b/qwen3-tts-backend/api/users.py
@@ -5,7 +5,6 @@ from slowapi import Limiter
 from slowapi.util import get_remote_address

 from api.auth import get_current_user
-from config import settings
 from core.security import get_password_hash
 from db.database import get_db
 from db.crud import (
@@ -17,7 +16,7 @@ from db.crud import (
    update_user,
    delete_user
 )
-from schemas.user import User, UserCreateByAdmin, UserUpdate, UserListResponse, AliyunKeyUpdate, AliyunKeyVerifyResponse
+from schemas.user import User, UserCreateByAdmin, UserUpdate, UserListResponse
 from schemas.audiobook import LLMConfigUpdate, LLMConfigResponse, NsfwSynopsisGenerationRequest, NsfwScriptGenerationRequest

 router = APIRouter(prefix="/users", tags=["users"])
@@ -181,63 +180,6 @@ async def delete_user_by_id(
        )


-@router.post("/system/aliyun-key")
-@limiter.limit("5/minute")
-async def set_system_aliyun_key(
-    request: Request,
-    key_data: AliyunKeyUpdate,
-    db: Session = Depends(get_db),
-    _: User = Depends(require_superuser)
-):
-    from core.security import encrypt_api_key
-    from core.tts_service import AliyunTTSBackend
-    from db.crud import set_system_setting
-
-    api_key = key_data.api_key.strip()
-    aliyun_backend = AliyunTTSBackend(api_key=api_key, region=settings.ALIYUN_REGION)
-    health = await aliyun_backend.health_check()
-    if not health.get("available", False):
-        raise HTTPException(status_code=status.HTTP_400_BAD_REQUEST, detail="Invalid Aliyun API key.")
-    set_system_setting(db, "aliyun_api_key", encrypt_api_key(api_key))
-    return {"message": "Aliyun API key updated"}
-
-
-@router.delete("/system/aliyun-key")
-@limiter.limit("5/minute")
-async def delete_system_aliyun_key(
-    request: Request,
-    db: Session = Depends(get_db),
-    _: User = Depends(require_superuser)
-):
-    from db.crud import delete_system_setting
-    delete_system_setting(db, "aliyun_api_key")
-    return {"message": "Aliyun API key deleted"}
-
-
-@router.get("/system/aliyun-key/verify", response_model=AliyunKeyVerifyResponse)
-@limiter.limit("10/minute")
-async def verify_system_aliyun_key(
-    request: Request,
-    db: Session = Depends(get_db),
-    _: User = Depends(require_superuser)
-):
-    from core.security import decrypt_api_key
-    from core.tts_service import AliyunTTSBackend
-    from db.crud import get_system_setting
-
-    encrypted = get_system_setting(db, "aliyun_api_key")
-    if not encrypted:
-        return AliyunKeyVerifyResponse(valid=False, message="No Aliyun API key configured")
-    api_key = decrypt_api_key(encrypted)
-    if not api_key:
-        return AliyunKeyVerifyResponse(valid=False, message="Failed to decrypt API key")
-    aliyun_backend = AliyunTTSBackend(api_key=api_key, region=settings.ALIYUN_REGION)
-    health = await aliyun_backend.health_check()
-    if health.get("available", False):
-        return AliyunKeyVerifyResponse(valid=True, message="Aliyun API key is valid and working")
-    return AliyunKeyVerifyResponse(valid=False, message="Aliyun API key is not working.")
-
-
@router.put("/system/llm-config")
@limiter.limit("10/minute")
 async def set_system_llm_config(
--- a/qwen3-tts-backend/api/voice_designs.py
+++ b/qwen3-tts-backend/api/voice_designs.py
@@ -33,9 +33,7 @@ def to_voice_design_response(design) -> VoiceDesignResponse:
        id=design.id,
        user_id=design.user_id,
        name=design.name,
-        backend_type=design.backend_type,
        instruct=design.instruct,
-        aliyun_voice_id=design.aliyun_voice_id,
        meta_data=meta_data,
        preview_text=design.preview_text,
        ref_audio_path=design.ref_audio_path,
@@ -58,8 +56,6 @@ async def save_voice_design(
            user_id=current_user.id,
            name=data.name,
            instruct=data.instruct,
-            backend_type=data.backend_type,
-            aliyun_voice_id=data.aliyun_voice_id,
            meta_data=data.meta_data,
            preview_text=data.preview_text
        )
@@ -153,7 +149,6 @@ async def prepare_and_create_voice_design(
            user_id=current_user.id,
            name=data.name,
            instruct=data.instruct,
-            backend_type="local",
            meta_data=data.meta_data,
            preview_text=data.preview_text,
            voice_cache_id=cache_id,
@@ -200,12 +195,6 @@ async def prepare_voice_clone_prompt(
    if not design:
        raise HTTPException(status_code=404, detail="Voice design not found")

-    if design.backend_type != "local":
-        raise HTTPException(
-            status_code=400,
-            detail="Voice clone prompt preparation is only supported for local backend"
-        )
-
    if not can_user_use_local_model(current_user):
        raise HTTPException(
            status_code=403,
--- a/qwen3-tts-backend/config.py
+++ b/qwen3-tts-backend/config.py
@@ -25,6 +25,7 @@ class Settings(BaseSettings):
    WORKERS: int = Field(default=1)
    LOG_LEVEL: str = Field(default="info")
    LOG_FILE: str = Field(default="./app.log")
+    DEV_MODE: bool = Field(default=False)

    RATE_LIMIT_PER_MINUTE: int = Field(default=50)
    RATE_LIMIT_PER_HOUR: int = Field(default=1000)
@@ -36,12 +37,6 @@ class Settings(BaseSettings):
    MAX_TEXT_LENGTH: int = Field(default=1000)
    MAX_AUDIO_SIZE_MB: int = Field(default=10)

-    ALIYUN_REGION: str = Field(default="beijing")
-
-    ALIYUN_MODEL_FLASH: str = Field(default="qwen3-tts-flash-realtime")
-    ALIYUN_MODEL_VC: str = Field(default="qwen3-tts-vc-realtime-2026-01-15")
-    ALIYUN_MODEL_VD: str = Field(default="qwen3-tts-vd-realtime-2026-01-15")
-
    DEFAULT_BACKEND: str = Field(default="local")

    AUDIOBOOK_PARSE_CONCURRENCY: int = Field(default=3)
@@ -60,7 +55,10 @@ class Settings(BaseSettings):
        return v

    def validate(self):
-        if self.SECRET_KEY == "your-secret-key-change-this-in-production":
+        if self.DEV_MODE:
+            import warnings
+            warnings.warn("DEV_MODE is enabled — authentication is bypassed. Do NOT use in production.")
+        elif self.SECRET_KEY == "your-secret-key-change-this-in-production":
            raise ValueError("Insecure default SECRET_KEY is not allowed. Please set a strong SECRET_KEY in environment.")

        Path(self.CACHE_DIR).mkdir(parents=True, exist_ok=True)
--- a/qwen3-tts-backend/db/init.py
+++ b/qwen3-tts-backend/db/init.py
--- a/qwen3-tts-backend/core/audiobook_service.py
+++ b/qwen3-tts-backend/core/audiobook_service.py
@@ -335,7 +335,7 @@ async def generate_ai_script(project_id: int, user: User, db: Session) -> None:
        crud.delete_audiobook_segments(db, project_id)
        crud.delete_audiobook_characters(db, project_id)

-        backend_type = user.user_preferences.get("default_backend", "aliyun") if user.user_preferences else "aliyun"
+        backend_type = "local"

        for char_data in characters_data:
            name = char_data.get("name", "旁白")
@@ -449,7 +449,7 @@ async def generate_ai_script_chapters(project_id: int, user: User, db: Session)
            for c in db_characters
        ]
        char_map = {c.name: c for c in db_characters}
-        backend_type = user.user_preferences.get("default_backend", "aliyun") if user.user_preferences else "aliyun"
+        backend_type = "local"

        ps.append_line(key, f"[AI剧本] 开始生成 {num_chapters} 章大纲...\n")
        ps.append_line(key, "")
@@ -618,7 +618,7 @@ async def continue_ai_script_chapters(project_id: int, additional_chapters: int,
            for c in db_characters
        ]
        char_map = {c.name: c for c in db_characters}
-        backend_type = user.user_preferences.get("default_backend", "aliyun") if user.user_preferences else "aliyun"
+        backend_type = "local"

        existing_chapters = crud.list_audiobook_chapters(db, project_id)
        existing_chapters_data = [
@@ -839,7 +839,7 @@ async def analyze_project(project_id: int, user: User, db: Session, turbo: bool
        crud.delete_audiobook_segments(db, project_id)
        crud.delete_audiobook_characters(db, project_id)

-        backend_type = user.user_preferences.get("default_backend", "aliyun") if user.user_preferences else "aliyun"
+        backend_type = "local"

        for char_data in characters_data:
            name = char_data.get("name", "旁白")
@@ -1437,7 +1437,7 @@ async def process_all(project_id: int, user: User, db: Session) -> None:
    logger.info(f"process_all: project={project_id} complete")


-async def generate_character_preview(project_id: int, char_id: int, user: User, db: Session) -> None:
+async def generate_character_preview(project_id: int, char_id: int, user: User, db: Session, force_recreate: bool = False) -> None:
    """Generate a short audio preview for a specific character."""
    project = crud.get_audiobook_project(db, project_id, user.id)
    if not project:
@@ -1470,21 +1470,17 @@ async def generate_character_preview(project_id: int, char_id: int, user: User,
    preview_text = f"你好，我是{preview_name}{preview_desc}"

    from core.tts_service import TTSServiceFactory
-    from core.security import decrypt_api_key

-    backend_type = user.user_preferences.get("default_backend", "aliyun") if user.user_preferences else "aliyun"
-    user_api_key = None
-    if backend_type == "aliyun":
-        encrypted = crud.get_system_setting(db, "aliyun_api_key")
-        if encrypted:
-            user_api_key = decrypt_api_key(encrypted)
-        elif user.aliyun_api_key:
-            user_api_key = decrypt_api_key(user.aliyun_api_key)
-
-    backend = await TTSServiceFactory.get_backend(backend_type, user_api_key)
+    backend = await TTSServiceFactory.get_backend()

    try:
-        if backend_type == "local" and not design.voice_cache_id:
+        if force_recreate and design.voice_cache_id:
+            design.voice_cache_id = None
+            db.commit()
+            db.refresh(design)
+            logger.info(f"Cleared voice_cache_id for char {char_id} (force_recreate)")
+
+        if not design.voice_cache_id:
            logger.info(f"Local voice cache missing for char {char_id}. Bootstrapping now...")
            from core.model_manager import ModelManager
            from core.cache_manager import VoiceCacheManager
@@ -1524,73 +1520,46 @@ async def generate_character_preview(project_id: int, char_id: int, user: User,
            db.commit()
            logger.info(f"Bootstrapped local voice cache for preview: design_id={design.id}, cache_id={cache_id}")

-        if backend_type == "aliyun" and not design.aliyun_voice_id:
-            from core.tts_service import AliyunTTSBackend
-            if isinstance(backend, AliyunTTSBackend):
-                try:
-                    voice_id = await backend._create_voice_design(
-                        instruct=_get_gendered_instruct(char.gender, design.instruct),
-                        preview_text=preview_text,
-                    )
-                    design.aliyun_voice_id = voice_id
-                    db.commit()
-                    logger.info(f"Bootstrapped aliyun voice_id for preview: design_id={design.id}, voice_id={voice_id}")
-                except Exception as e:
-                    logger.warning(f"Failed to bootstrap aliyun voice_id for preview, falling back to instruct: {e}")
-
-        if backend_type == "aliyun":
-            if design.aliyun_voice_id:
-                audio_bytes, _ = await backend.generate_voice_design(
-                    {"text": preview_text, "language": "zh"},
-                    saved_voice_id=design.aliyun_voice_id
-                )
-            else:
-                audio_bytes, _ = await backend.generate_voice_design({
-                    "text": preview_text,
-                    "language": "zh",
-                    "instruct": _get_gendered_instruct(char.gender, design.instruct),
-                })
-        else:
-            if design.voice_cache_id:
-                from core.cache_manager import VoiceCacheManager
-                cache_manager = await VoiceCacheManager.get_instance()
-                cache_result = await cache_manager.get_cache_by_id(design.voice_cache_id, db)
-                x_vector = cache_result['data'] if cache_result else None
-                if x_vector:
-                    audio_bytes, _ = await backend.generate_voice_clone(
-                        {
-                            "text": preview_text,
-                            "language": "Auto",
-                            "max_new_tokens": 512,
-                            "temperature": 0.3,
-                            "top_k": 10,
-                            "top_p": 0.9,
-                            "repetition_penalty": 1.05,
-                        },
-                        x_vector=x_vector
-                    )
-                else:
-                    audio_bytes, _ = await backend.generate_voice_design({
+        if design.voice_cache_id:
+            from core.cache_manager import VoiceCacheManager
+            cache_manager = await VoiceCacheManager.get_instance()
+            cache_result = await cache_manager.get_cache_by_id(design.voice_cache_id, db)
+            x_vector = cache_result['data'] if cache_result else None
+            if x_vector:
+                audio_bytes, _ = await backend.generate_voice_clone(
+                    {
                        "text": preview_text,
                        "language": "Auto",
-                        "instruct": _get_gendered_instruct(char.gender, design.instruct),
                        "max_new_tokens": 512,
                        "temperature": 0.3,
                        "top_k": 10,
                        "top_p": 0.9,
                        "repetition_penalty": 1.05,
-                    })
+                    },
+                    x_vector=x_vector
+                )
            else:
                audio_bytes, _ = await backend.generate_voice_design({
                    "text": preview_text,
                    "language": "Auto",
-                    "instruct": design.instruct,
+                    "instruct": _get_gendered_instruct(char.gender, design.instruct),
                    "max_new_tokens": 512,
                    "temperature": 0.3,
                    "top_k": 10,
                    "top_p": 0.9,
                    "repetition_penalty": 1.05,
                })
+        else:
+            audio_bytes, _ = await backend.generate_voice_design({
+                "text": preview_text,
+                "language": "Auto",
+                "instruct": design.instruct,
+                "max_new_tokens": 512,
+                "temperature": 0.3,
+                "top_k": 10,
+                "top_p": 0.9,
+                "repetition_penalty": 1.05,
+            })

        with open(audio_path, "wb") as f:
            f.write(audio_bytes)
@@ -1672,7 +1641,7 @@ async def generate_ai_script_nsfw(project_id: int, user: User, db: Session) -> N
        crud.delete_audiobook_segments(db, project_id)
        crud.delete_audiobook_characters(db, project_id)

-        backend_type = user.user_preferences.get("default_backend", "aliyun") if user.user_preferences else "aliyun"
+        backend_type = "local"

        for char_data in characters_data:
            name = char_data.get("name", "旁白")
--- a/qwen3-tts-backend/core/batch_processor.py
+++ b/qwen3-tts-backend/core/batch_processor.py
--- a/qwen3-tts-backend/core/cache_manager.py
+++ b/qwen3-tts-backend/core/cache_manager.py
--- a/qwen3-tts-backend/core/cleanup.py
+++ b/qwen3-tts-backend/core/cleanup.py
--- a/qwen3-tts-backend/core/config.py
+++ b/qwen3-tts-backend/core/config.py
--- a/qwen3-tts-backend/core/database.py
+++ b/qwen3-tts-backend/core/database.py
--- a/qwen3-tts-backend/core/init_admin.py
+++ b/qwen3-tts-backend/core/init_admin.py
--- a/qwen3-tts-backend/core/llm_service.py
+++ b/qwen3-tts-backend/core/llm_service.py
@@ -321,26 +321,17 @@ class LLMService:

    @staticmethod
    def _emotion_limits(violence_level: int, eroticism_level: int) -> tuple[str, str]:
-        v = violence_level / 10
-        e = eroticism_level / 10
-        female_happy = round(0.20 + 0.45 * e, 2)
-        angry   = round(0.15 + 0.65 * v, 2)
-        sad     = round(0.10 + 0.40 * v, 2)
-        fear    = round(0.10 + 0.60 * v, 2)
-        hate    = round(0.35 + 0.25 * max(v, e), 2)
-        low     = round(0.35 + 0.45 * e, 2)
-        surprise= round(0.10 + 0.35 * max(v, e), 2)
-        limits = (
-            f"愤怒={angry}、悲伤={sad}、恐惧={fear}、厌恶={hate}、低沉={low}、惊讶={surprise}、"
-            f"开心：男性角色上限=0.20，女性角色上限={female_happy}"
-        )
        guidance_parts = []
-        if violence_level >= 4:
-            guidance_parts.append(f"暴力程度{violence_level}/10，台词中的愤怒、恐惧、悲伤情绪必须强烈外露，不得克制")
-        if eroticism_level >= 4:
-            guidance_parts.append(f"色情程度{eroticism_level}/10，女性台词中的开心、低沉、挑逗情绪应充分表达")
+        if violence_level >= 7:
+            guidance_parts.append(f"暴力程度{violence_level}/10，激烈场景的愤怒/恐惧/悲伤强度应用7-10级，不得克制")
+        elif violence_level >= 4:
+            guidance_parts.append(f"暴力程度{violence_level}/10，台词中的愤怒/恐惧/悲伤情绪可用4-7级")
+        if eroticism_level >= 7:
+            guidance_parts.append(f"色情程度{eroticism_level}/10，女性台词中的开心/低沉情绪应用7-10级充分表达")
+        elif eroticism_level >= 4:
+            guidance_parts.append(f"色情程度{eroticism_level}/10，女性台词中的开心/低沉情绪可用4-7级")
        guidance = "；".join(guidance_parts)
-        return limits, guidance
+        return "", guidance

    async def generate_chapter_script(
        self,
@@ -383,11 +374,9 @@ class LLMService:
            "  【角色名】\"对话内容\"（情感词:强度）\n\n"
            "情感标注规则：\n"
            "- 情感词可选：开心、愤怒、悲伤、恐惧、厌恶、低沉、惊讶\n"
-            "- 单一情感：（情感词:强度），如（开心:0.5）、（悲伤:0.3）\n"
-            "- 混合情感：（情感1:比重+情感2:比重），如（开心:0.6+悲伤:0.2）、（愤怒:0.3+恐惧:0.4）\n"
-            "- 混合情感时每个情感的比重独立设定，反映各自对情绪的贡献\n"
-            f"- 各情感比重上限（严格不超过）：{limits_str}\n"
-            "- 鼓励使用低值（0.05–0.10）表达微弱、内敛或一闪而过的情绪，无需非强即无\n"
+            "- 每行只允许标注一个情感词，格式：（情感词:强度级别），强度为1–10的整数，10最强\n"
+            "- 示例：（开心:6）、（悲伤:3）、（愤怒:8）\n"
+            "- 鼓励使用低值（1–3）表达微弱、内敛或一闪而过的情绪，无需非强即无\n"
            "- 确实没有任何情绪色彩时可省略整个括号\n"
            + char_personality_str
            + narrator_rule
@@ -468,18 +457,15 @@ class LLMService:
            "所有非对话的叙述文字归属于旁白角色。\n"
            "同时根据语境为每个片段判断是否有明显情绪，有则在 emo_text 中标注，无则留空。\n"
            "可选情绪词：开心、愤怒、悲伤、恐惧、厌恶、低沉、惊讶。\n"
-            "emo_text 格式规则：\n"
-            "  单一情感：直接填情感词，用 emo_alpha 设置强度，如 emo_text=\"开心\", emo_alpha=0.3\n"
-            "  混合情感：用 情感词:比重 格式拼接，emo_alpha 设为 1.0，如 emo_text=\"开心:0.6+悲伤:0.2\", emo_alpha=1.0\n"
-            "各情感比重上限（严格不超过）：开心=0.20、愤怒=0.15、悲伤=0.1、恐惧=0.1、厌恶=0.35、低沉=0.35、惊讶=0.10。\n"
-            "鼓励用低值（0.05–0.10）表达微弱或内敛的情绪，不要非强即无；完全无情绪色彩时 emo_text 置空。\n"
+            "emo_text 只允许单一情感词；emo_alpha 为1–10的整数表示强度（10最强）；完全无情绪色彩时 emo_text 置空，emo_alpha 为 0。\n"
+            "鼓励用低值（1–3）表达微弱或内敛的情绪，不要非强即无。\n"
            + personality_str
            + "同一角色的连续台词，情绪应尽量保持一致或仅有微弱变化，避免相邻片段间情绪跳跃。\n"
            "只输出JSON数组，不要有其他文字，格式如下：\n"
            '[{"character": "旁白", "text": "叙述文字", "emo_text": "", "emo_alpha": 0}, '
-            '{"character": "角色名", "text": "淡淡的问候", "emo_text": "开心", "emo_alpha": 0.08}, '
-            '{"character": "角色名", "text": "激动的欢呼", "emo_text": "开心", "emo_alpha": 0.18}, '
-            '{"character": "角色名", "text": "含泪的笑", "emo_text": "开心:0.12+悲伤:0.08", "emo_alpha": 1.0}]'
+            '{"character": "角色名", "text": "淡淡的问候", "emo_text": "开心", "emo_alpha": 3}, '
+            '{"character": "角色名", "text": "激动的欢呼", "emo_text": "开心", "emo_alpha": 8}, '
+            '{"character": "角色名", "text": "愤怒的质问", "emo_text": "愤怒", "emo_alpha": 7}]'
        )
        user_message = f"请解析以下章节文本：\n\n{chapter_text}"
        result = await self.stream_chat_json(system_prompt, user_message, on_token, max_tokens=16384, usage_callback=usage_callback)
--- a/qwen3-tts-backend/core/metrics.py
+++ b/qwen3-tts-backend/core/metrics.py
--- a/qwen3-tts-backend/core/model_manager.py
+++ b/qwen3-tts-backend/core/model_manager.py
--- a/qwen3-tts-backend/core/progress_store.py
+++ b/qwen3-tts-backend/core/progress_store.py
--- a/qwen3-tts-backend/core/security.py
+++ b/qwen3-tts-backend/core/security.py
--- a/backend/core/tts_service.py
+++ b/backend/core/tts_service.py
@@ -0,0 +1,286 @@
+import asyncio
+import functools
+import logging
+from abc import ABC, abstractmethod
+from typing import Tuple, Optional
+
+logger = logging.getLogger(__name__)
+
+
+class TTSBackend(ABC):
+    @abstractmethod
+    async def generate_custom_voice(self, params: dict) -> Tuple[bytes, int]:
+        pass
+
+    @abstractmethod
+    async def generate_voice_design(self, params: dict) -> Tuple[bytes, int]:
+        pass
+
+    @abstractmethod
+    async def generate_voice_clone(self, params: dict, ref_audio_bytes: bytes) -> Tuple[bytes, int]:
+        pass
+
+    @abstractmethod
+    async def health_check(self) -> dict:
+        pass
+
+
+class LocalTTSBackend(TTSBackend):
+    def __init__(self):
+        self.model_manager = None
+        # Add a lock to prevent concurrent VRAM contention and CUDA errors on local GPU models
+        self._gpu_lock = asyncio.Lock()
+
+    async def initialize(self):
+        from core.model_manager import ModelManager
+        self.model_manager = await ModelManager.get_instance()
+
+    async def generate_custom_voice(self, params: dict) -> Tuple[bytes, int]:
+        await self.model_manager.load_model("custom-voice")
+        _, tts = await self.model_manager.get_current_model()
+
+        loop = asyncio.get_event_loop()
+        async with self._gpu_lock:
+            result = await loop.run_in_executor(
+                None,
+                functools.partial(
+                    tts.generate_custom_voice,
+                    text=params['text'],
+                    language=params['language'],
+                    speaker=params['speaker'],
+                    instruct=params.get('instruct', ''),
+                    max_new_tokens=params['max_new_tokens'],
+                    temperature=params['temperature'],
+                    top_k=params['top_k'],
+                    top_p=params['top_p'],
+                    repetition_penalty=params['repetition_penalty'],
+                )
+            )
+
+        import numpy as np
+        wavs, sample_rate = result if isinstance(result, tuple) else (result, 24000)
+        audio_data = wavs[0] if isinstance(wavs, list) else wavs
+        return self._numpy_to_bytes(audio_data), sample_rate
+
+    async def generate_voice_design(self, params: dict) -> Tuple[bytes, int]:
+        await self.model_manager.load_model("voice-design")
+        _, tts = await self.model_manager.get_current_model()
+
+        loop = asyncio.get_event_loop()
+        async with self._gpu_lock:
+            result = await loop.run_in_executor(
+                None,
+                functools.partial(
+                    tts.generate_voice_design,
+                    text=params['text'],
+                    language=params['language'],
+                    instruct=params['instruct'],
+                    max_new_tokens=params['max_new_tokens'],
+                    temperature=params['temperature'],
+                    top_k=params['top_k'],
+                    top_p=params['top_p'],
+                    repetition_penalty=params['repetition_penalty'],
+                )
+            )
+
+        import numpy as np
+        wavs, sample_rate = result if isinstance(result, tuple) else (result, 24000)
+        audio_data = wavs[0] if isinstance(wavs, list) else wavs
+        return self._numpy_to_bytes(audio_data), sample_rate
+
+    async def generate_voice_clone(self, params: dict, ref_audio_bytes: bytes = None, x_vector=None) -> Tuple[bytes, int]:
+        from utils.audio import process_ref_audio
+
+        await self.model_manager.load_model("base")
+        _, tts = await self.model_manager.get_current_model()
+
+        loop = asyncio.get_event_loop()
+
+        async with self._gpu_lock:
+            if x_vector is None:
+                if ref_audio_bytes is None:
+                    raise ValueError("Either ref_audio_bytes or x_vector must be provided")
+
+                ref_audio_array, ref_sr = process_ref_audio(ref_audio_bytes)
+
+                x_vector = await loop.run_in_executor(
+                    None,
+                    functools.partial(
+                        tts.create_voice_clone_prompt,
+                        ref_audio=(ref_audio_array, ref_sr),
+                        ref_text=params.get('ref_text', ''),
+                        x_vector_only_mode=False,
+                    )
+                )
+
+            wavs, sample_rate = await loop.run_in_executor(
+                None,
+                functools.partial(
+                    tts.generate_voice_clone,
+                    text=params['text'],
+                    language=params['language'],
+                    voice_clone_prompt=x_vector,
+                    max_new_tokens=params['max_new_tokens'],
+                    temperature=params['temperature'],
+                    top_k=params['top_k'],
+                    top_p=params['top_p'],
+                    repetition_penalty=params['repetition_penalty'],
+                )
+            )
+
+        import numpy as np
+        audio_data = wavs[0] if isinstance(wavs, list) else wavs
+        if isinstance(audio_data, list):
+            audio_data = np.array(audio_data)
+        return self._numpy_to_bytes(audio_data), sample_rate
+
+    async def health_check(self) -> dict:
+        return {
+            "available": self.model_manager is not None,
+            "current_model": self.model_manager.current_model_name if self.model_manager else None
+        }
+
+    @staticmethod
+    def _numpy_to_bytes(audio_array) -> bytes:
+        import numpy as np
+        import io
+        import wave
+
+        if isinstance(audio_array, list):
+            audio_array = np.array(audio_array)
+
+        audio_array = np.clip(audio_array, -1.0, 1.0)
+        audio_int16 = (audio_array * 32767).astype(np.int16)
+
+        buffer = io.BytesIO()
+        with wave.open(buffer, 'wb') as wav_file:
+            wav_file.setnchannels(1)
+            wav_file.setsampwidth(2)
+            wav_file.setframerate(24000)
+            wav_file.writeframes(audio_int16.tobytes())
+
+        buffer.seek(0)
+        return buffer.read()
+
+
+class IndexTTS2Backend:
+    _gpu_lock = asyncio.Lock()
+
+    # Level 10 = these raw weights. Scale linearly: level N → N/10 * max
+    EMO_LEVEL_MAX: dict[str, float] = {
+        "开心": 0.75, "happy": 0.75,
+        "愤怒": 0.08, "angry": 0.08,
+        "悲伤": 0.90, "sad": 0.90,
+        "恐惧": 0.10, "fear": 0.10,
+        "厌恶": 0.50, "hate": 0.50,
+        "低沉": 0.35, "low": 0.35,
+        "惊讶": 0.35, "surprise": 0.35,
+    }
+
+    # Emotion keyword → index mapping
+    # Order: [happy, angry, sad, fear, hate, low, surprise, neutral]
+    _EMO_KEYWORDS = [
+        ['喜', '开心', '快乐', '高兴', '欢乐', '愉快', 'happy', '热情', '兴奋', '愉悦', '激动'],
+        ['怒', '愤怒', '生气', '恼', 'angry', '气愤', '愤慨'],
+        ['哀', '悲伤', '难过', '忧郁', '伤心', '悲', 'sad', '感慨', '沉重', '沉痛', '哭'],
+        ['惧', '恐惧', '害怕', '恐', 'fear', '担心', '紧张'],
+        ['厌恶', '厌', 'hate', '讨厌', '反感'],
+        ['低落', '沮丧', '消沉', 'low', '抑郁', '颓废'],
+        ['惊喜', '惊讶', '意外', 'surprise', '惊', '吃惊', '震惊'],
+    ]
+
+    @staticmethod
+    def _emo_text_to_vector(emo_text: str) -> Optional[list]:
+        tokens = [t.strip() for t in emo_text.split('+') if t.strip()]
+        matched = []
+        for tok in tokens:
+            if ':' in tok:
+                name_part, w_str = tok.rsplit(':', 1)
+                try:
+                    weight: Optional[float] = float(w_str)
+                except ValueError:
+                    weight = None
+            else:
+                name_part = tok
+                weight = None
+            name_lower = name_part.lower().strip()
+            for idx, words in enumerate(IndexTTS2Backend._EMO_KEYWORDS):
+                for word in words:
+                    if word in name_lower:
+                        matched.append((idx, weight))
+                        break
+        if not matched:
+            return None
+        vec = [0.0] * 8
+        has_explicit = any(w is not None for _, w in matched)
+        if has_explicit:
+            for idx, w in matched:
+                vec[idx] = w if w is not None else 0.5
+        else:
+            score = 0.8 if len(matched) == 1 else 0.5
+            for idx, _ in matched:
+                vec[idx] = 0.2 if idx == 1 else score
+        return vec
+
+    async def generate(
+        self,
+        text: str,
+        spk_audio_prompt: str,
+        output_path: str,
+        emo_text: str = None,
+        emo_alpha: float = 0.6,
+    ) -> bytes:
+        from core.model_manager import IndexTTS2ModelManager
+        manager = await IndexTTS2ModelManager.get_instance()
+        tts = await manager.get_model()
+        loop = asyncio.get_event_loop()
+
+        emo_vector = None
+        if emo_text and len(emo_text.strip()) > 0:
+            resolved_emo_text = emo_text
+            resolved_emo_alpha = emo_alpha
+            if emo_alpha is not None and emo_alpha > 1:
+                level = min(10, max(1, round(emo_alpha)))
+                name = emo_text.strip()
+                max_val = self.EMO_LEVEL_MAX.get(name)
+                if max_val is None:
+                    name_lower = name.lower()
+                    for key, val in self.EMO_LEVEL_MAX.items():
+                        if key in name_lower or name_lower in key:
+                            max_val = val
+                            break
+                if max_val is None:
+                    max_val = 0.20
+                weight = round(level / 10 * max_val, 4)
+                resolved_emo_text = f"{name}:{weight}"
+                resolved_emo_alpha = 1.0
+            raw_vector = self._emo_text_to_vector(resolved_emo_text)
+            if raw_vector is not None:
+                emo_vector = [v * resolved_emo_alpha for v in raw_vector]
+            logger.info(f"IndexTTS2 emo_text={repr(emo_text)} emo_alpha={emo_alpha} → resolved={repr(resolved_emo_text)} emo_vector={emo_vector}")
+
+        async with IndexTTS2Backend._gpu_lock:
+            await loop.run_in_executor(
+                None,
+                functools.partial(
+                    tts.infer,
+                    spk_audio_prompt=spk_audio_prompt,
+                    text=text,
+                    output_path=output_path,
+                    emo_vector=emo_vector,
+                    emo_alpha=1.0,
+                )
+            )
+        with open(output_path, 'rb') as f:
+            return f.read()
+
+
+class TTSServiceFactory:
+    _local_backend: Optional[LocalTTSBackend] = None
+
+    @classmethod
+    async def get_backend(cls, backend_type: str = None, user_api_key: Optional[str] = None) -> TTSBackend:
+        if cls._local_backend is None:
+            cls._local_backend = LocalTTSBackend()
+            await cls._local_backend.initialize()
+        return cls._local_backend
--- a/qwen3-tts-backend/indextts/init.py
+++ b/qwen3-tts-backend/indextts/init.py
--- a/qwen3-tts-backend/db/crud.py
+++ b/qwen3-tts-backend/db/crud.py
@@ -114,21 +114,6 @@ def change_user_password(
    db.refresh(user)
    return user

-def update_user_aliyun_key(
-    db: Session,
-    user_id: int,
-    encrypted_api_key: Optional[str]
-) -> Optional[User]:
-    user = get_user_by_id(db, user_id)
-    if not user:
-        return None
-
-    user.aliyun_api_key = encrypted_api_key
-    user.updated_at = datetime.utcnow()
-    db.commit()
-    db.refresh(user)
-    return user
-
 def create_job(db: Session, user_id: int, job_type: str, input_data: Dict[str, Any]) -> Job:
    job = Job(
        user_id=user_id,
@@ -244,8 +229,11 @@ def delete_cache_entry(db: Session, cache_id: int, user_id: int) -> bool:
 def get_user_preferences(db: Session, user_id: int) -> dict:
    user = get_user_by_id(db, user_id)
    if not user or not user.user_preferences:
-        return {"default_backend": "aliyun", "onboarding_completed": False}
-    return user.user_preferences
+        return {"default_backend": "local", "onboarding_completed": False}
+    prefs = dict(user.user_preferences)
+    if prefs.get("default_backend") == "aliyun":
+        prefs["default_backend"] = "local"
+    return prefs

 def update_user_preferences(db: Session, user_id: int, preferences: dict) -> Optional[User]:
    user = get_user_by_id(db, user_id)
@@ -276,7 +264,7 @@ def update_system_setting(db: Session, key: str, value: dict) -> SystemSettings:
    return setting

 def can_user_use_local_model(user: User) -> bool:
-    return user.is_superuser or user.can_use_local_model
+    return True

 def can_user_use_nsfw(user: User) -> bool:
    return user.is_superuser or user.can_use_nsfw
@@ -286,8 +274,6 @@ def create_voice_design(
    user_id: int,
    name: str,
    instruct: str,
-    backend_type: str,
-    aliyun_voice_id: Optional[str] = None,
    meta_data: Optional[Dict[str, Any]] = None,
    preview_text: Optional[str] = None,
    voice_cache_id: Optional[int] = None,
@@ -297,9 +283,7 @@ def create_voice_design(
    design = VoiceDesign(
        user_id=user_id,
        name=name,
-        backend_type=backend_type,
        instruct=instruct,
-        aliyun_voice_id=aliyun_voice_id,
        meta_data=meta_data,
        preview_text=preview_text,
        voice_cache_id=voice_cache_id,
@@ -331,8 +315,6 @@ def list_voice_designs(
        VoiceDesign.user_id == user_id,
        VoiceDesign.is_active == True
    )
-    if backend_type:
-        query = query.filter(VoiceDesign.backend_type == backend_type)
    return query.order_by(VoiceDesign.last_used.desc()).offset(skip).limit(limit).all()

 def count_voice_designs(
@@ -340,13 +322,10 @@ def count_voice_designs(
    user_id: int,
    backend_type: Optional[str] = None
 ) -> int:
-    query = db.query(VoiceDesign).filter(
+    return db.query(VoiceDesign).filter(
        VoiceDesign.user_id == user_id,
        VoiceDesign.is_active == True
-    )
-    if backend_type:
-        query = query.filter(VoiceDesign.backend_type == backend_type)
-    return query.count()
+    ).count()

 def delete_voice_design(db: Session, design_id: int, user_id: int) -> bool:
    design = get_voice_design(db, design_id, user_id)
@@ -609,7 +588,6 @@ def update_audiobook_character(
    description: Optional[str] = None,
    instruct: Optional[str] = None,
    voice_design_id: Optional[int] = None,
-    use_indextts2: Optional[bool] = None,
 ) -> Optional[AudiobookCharacter]:
    char = db.query(AudiobookCharacter).filter(AudiobookCharacter.id == char_id).first()
    if not char:
@@ -624,8 +602,6 @@ def update_audiobook_character(
        char.instruct = instruct
    if voice_design_id is not None:
        char.voice_design_id = voice_design_id
-    if use_indextts2 is not None:
-        char.use_indextts2 = use_indextts2
    db.commit()
    db.refresh(char)
    return char
--- a/qwen3-tts-backend/db/database.py
+++ b/qwen3-tts-backend/db/database.py
--- a/qwen3-tts-backend/db/migrate_add_local_permission.py
+++ b/qwen3-tts-backend/db/migrate_add_local_permission.py
--- a/qwen3-tts-backend/db/models.py
+++ b/qwen3-tts-backend/db/models.py
@@ -34,13 +34,12 @@ class User(Base):
    hashed_password = Column(String(255), nullable=False)
    is_active = Column(Boolean, default=True, nullable=False)
    is_superuser = Column(Boolean, default=False, nullable=False)
-    aliyun_api_key = Column(Text, nullable=True)
    llm_api_key = Column(Text, nullable=True)
    llm_base_url = Column(String(500), nullable=True)
    llm_model = Column(String(200), nullable=True)
    can_use_local_model = Column(Boolean, default=False, nullable=False)
    can_use_nsfw = Column(Boolean, default=False, nullable=False)
-    user_preferences = Column(JSON, nullable=True, default=lambda: {"default_backend": "aliyun", "onboarding_completed": False})
+    user_preferences = Column(JSON, nullable=True, default=lambda: {"default_backend": "local", "onboarding_completed": False})
    created_at = Column(DateTime, default=datetime.utcnow, nullable=False)
    updated_at = Column(DateTime, default=datetime.utcnow, onupdate=datetime.utcnow, nullable=False)

@@ -105,9 +104,7 @@ class VoiceDesign(Base):
    id = Column(Integer, primary_key=True, index=True)
    user_id = Column(Integer, ForeignKey("users.id"), nullable=False, index=True)
    name = Column(String(100), nullable=False)
-    backend_type = Column(String(20), nullable=False, index=True)
    instruct = Column(Text, nullable=False)
-    aliyun_voice_id = Column(String(255), nullable=True)
    meta_data = Column(JSON, nullable=True)
    preview_text = Column(Text, nullable=True)
    ref_audio_path = Column(String(500), nullable=True)
@@ -121,7 +118,6 @@ class VoiceDesign(Base):
    user = relationship("User", back_populates="voice_designs")

    __table_args__ = (
-        Index('idx_user_backend', 'user_id', 'backend_type'),
        Index('idx_user_active', 'user_id', 'is_active'),
    )

@@ -176,8 +172,6 @@ class AudiobookCharacter(Base):
    description = Column(Text, nullable=True)
    instruct = Column(Text, nullable=True)
    voice_design_id = Column(Integer, ForeignKey("voice_designs.id"), nullable=True)
-    use_indextts2 = Column(Boolean, default=False, nullable=False)
-
    project = relationship("AudiobookProject", back_populates="characters")
    voice_design = relationship("VoiceDesign")
    segments = relationship("AudiobookSegment", back_populates="character")
--- a/qwen3-tts-backend/deploy/nginx.conf
+++ b/qwen3-tts-backend/deploy/nginx.conf
@@ -1,4 +1,4 @@
-upstream qwen_tts_backend {
+upstream canto_backend {
    server 127.0.0.1:8000;
 }

@@ -13,7 +13,7 @@ server {
    proxy_send_timeout 300s;

    location / {
-        proxy_pass http://qwen_tts_backend;
+        proxy_pass http://canto_backend;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
@@ -34,20 +34,20 @@ server {
    }

    location /outputs/ {
-        alias /opt/qwen3-tts-backend/outputs/;
+        alias /opt/canto-backend/outputs/;
        autoindex off;
        add_header Cache-Control "public, max-age=3600";
        add_header Content-Disposition "attachment";
    }

    location /health {
-        proxy_pass http://qwen_tts_backend/health;
+        proxy_pass http://canto_backend/health;
        proxy_set_header Host $host;
        access_log off;
    }

    location /metrics {
-        proxy_pass http://qwen_tts_backend/metrics;
+        proxy_pass http://canto_backend/metrics;
        proxy_set_header Host $host;
        allow 127.0.0.1;
        deny all;
--- a/qwen3-tts-backend/deploy/qwen-tts.service
+++ b/qwen3-tts-backend/deploy/qwen-tts.service
@@ -1,15 +1,15 @@
 [Unit]
-Description=Qwen3-TTS Backend API Service
+Description=Canto Backend API Service
 After=network.target

 [Service]
 Type=simple
 User=qwen-tts
 Group=qwen-tts
-WorkingDirectory=/opt/qwen3-tts-backend
-Environment="PATH=/opt/conda/envs/qwen3-tts/bin:/usr/local/bin:/usr/bin:/bin"
-EnvironmentFile=/opt/qwen3-tts-backend/.env
-ExecStart=/opt/conda/envs/qwen3-tts/bin/python main.py
+WorkingDirectory=/opt/canto-backend
+Environment="PATH=/opt/conda/envs/canto/bin:/usr/local/bin:/usr/bin:/bin"
+EnvironmentFile=/opt/canto-backend/.env
+ExecStart=/opt/conda/envs/canto/bin/python main.py
 Restart=on-failure
 RestartSec=10s
 StandardOutput=append:/var/log/qwen-tts/app.log
--- a/qwen3-tts-backend/indextts/gpt/init.py
+++ b/qwen3-tts-backend/indextts/gpt/init.py
--- a/qwen3-tts-backend/indextts/gpt/conformer/init.py
+++ b/qwen3-tts-backend/indextts/gpt/conformer/init.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/init.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/init.py
--- a/qwen3-tts-backend/indextts/gpt/conformer/attention.py
+++ b/qwen3-tts-backend/indextts/gpt/conformer/attention.py
--- a/qwen3-tts-backend/indextts/gpt/conformer/embedding.py
+++ b/qwen3-tts-backend/indextts/gpt/conformer/embedding.py
--- a/qwen3-tts-backend/indextts/gpt/conformer/subsampling.py
+++ b/qwen3-tts-backend/indextts/gpt/conformer/subsampling.py
--- a/qwen3-tts-backend/indextts/gpt/conformer_encoder.py
+++ b/qwen3-tts-backend/indextts/gpt/conformer_encoder.py
--- a/qwen3-tts-backend/indextts/gpt/model_v2.py
+++ b/qwen3-tts-backend/indextts/gpt/model_v2.py
--- a/qwen3-tts-backend/indextts/gpt/perceiver.py
+++ b/qwen3-tts-backend/indextts/gpt/perceiver.py
--- a/qwen3-tts-backend/indextts/gpt/transformers_generation_utils.py
+++ b/qwen3-tts-backend/indextts/gpt/transformers_generation_utils.py
--- a/qwen3-tts-backend/indextts/gpt/transformers_gpt2.py
+++ b/qwen3-tts-backend/indextts/gpt/transformers_gpt2.py
--- a/qwen3-tts-backend/indextts/gpt/transformers_modeling_utils.py
+++ b/qwen3-tts-backend/indextts/gpt/transformers_modeling_utils.py
--- a/qwen3-tts-backend/indextts/infer_indextts2.py
+++ b/qwen3-tts-backend/indextts/infer_indextts2.py
--- a/qwen3-tts-backend/indextts/s2mel/dac/init.py
+++ b/qwen3-tts-backend/indextts/s2mel/dac/init.py
--- a/qwen3-tts-backend/indextts/s2mel/dac/main.py
+++ b/qwen3-tts-backend/indextts/s2mel/dac/main.py
--- a/qwen3-tts-backend/indextts/s2mel/dac/model/init.py
+++ b/qwen3-tts-backend/indextts/s2mel/dac/model/init.py
--- a/qwen3-tts-backend/indextts/s2mel/dac/model/base.py
+++ b/qwen3-tts-backend/indextts/s2mel/dac/model/base.py
--- a/qwen3-tts-backend/indextts/s2mel/dac/model/dac.py
+++ b/qwen3-tts-backend/indextts/s2mel/dac/model/dac.py
--- a/qwen3-tts-backend/indextts/s2mel/dac/model/discriminator.py
+++ b/qwen3-tts-backend/indextts/s2mel/dac/model/discriminator.py
--- a/qwen3-tts-backend/indextts/s2mel/dac/model/encodec.py
+++ b/qwen3-tts-backend/indextts/s2mel/dac/model/encodec.py
--- a/qwen3-tts-backend/indextts/s2mel/dac/nn/init.py
+++ b/qwen3-tts-backend/indextts/s2mel/dac/nn/init.py
--- a/qwen3-tts-backend/indextts/s2mel/dac/nn/layers.py
+++ b/qwen3-tts-backend/indextts/s2mel/dac/nn/layers.py
--- a/qwen3-tts-backend/indextts/s2mel/dac/nn/loss.py
+++ b/qwen3-tts-backend/indextts/s2mel/dac/nn/loss.py
--- a/qwen3-tts-backend/indextts/s2mel/dac/nn/quantize.py
+++ b/qwen3-tts-backend/indextts/s2mel/dac/nn/quantize.py
--- a/qwen3-tts-backend/indextts/s2mel/dac/utils/init.py
+++ b/qwen3-tts-backend/indextts/s2mel/dac/utils/init.py
--- a/qwen3-tts-backend/indextts/s2mel/dac/utils/decode.py
+++ b/qwen3-tts-backend/indextts/s2mel/dac/utils/decode.py
--- a/qwen3-tts-backend/indextts/s2mel/dac/utils/encode.py
+++ b/qwen3-tts-backend/indextts/s2mel/dac/utils/encode.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/audio.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/audio.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/activations.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/activations.py
--- a/backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/init.py
+++ b/backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/init.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/activation1d.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/activation1d.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/anti_alias_activation.cpp
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/anti_alias_activation.cpp
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/anti_alias_activation_cuda.cu
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/anti_alias_activation_cuda.cu
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/compat.h
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/compat.h
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/load.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/load.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/type_shim.h
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/cuda/type_shim.h
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/torch/init.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/torch/init.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/torch/act.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/torch/act.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/torch/filter.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/torch/filter.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/torch/resample.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/alias_free_activation/torch/resample.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/bigvgan.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/bigvgan.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/config.json
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/config.json
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/env.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/env.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/meldataset.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/meldataset.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/utils.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/bigvgan/utils.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/campplus/DTDNN.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/campplus/DTDNN.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/campplus/layers.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/campplus/layers.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/commons.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/commons.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/diffusion_transformer.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/diffusion_transformer.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/encodec.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/encodec.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/flow_matching.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/flow_matching.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/gpt_fast/generate.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/gpt_fast/generate.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/gpt_fast/model.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/gpt_fast/model.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/gpt_fast/quantize.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/gpt_fast/quantize.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/length_regulator.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/length_regulator.py
--- a/qwen3-tts-backend/indextts/s2mel/modules/wavenet.py
+++ b/qwen3-tts-backend/indextts/s2mel/modules/wavenet.py
--- a/qwen3-tts-backend/indextts/utils/maskgct/models/codec/init.py
+++ b/qwen3-tts-backend/indextts/utils/maskgct/models/codec/init.py
--- a/qwen3-tts-backend/indextts/utils/arch_util.py
+++ b/qwen3-tts-backend/indextts/utils/arch_util.py
--- a/qwen3-tts-backend/indextts/utils/checkpoint.py
+++ b/qwen3-tts-backend/indextts/utils/checkpoint.py
--- a/qwen3-tts-backend/indextts/utils/common.py
+++ b/qwen3-tts-backend/indextts/utils/common.py
--- a/qwen3-tts-backend/indextts/utils/feature_extractors.py
+++ b/qwen3-tts-backend/indextts/utils/feature_extractors.py
--- a/qwen3-tts-backend/indextts/utils/front.py
+++ b/qwen3-tts-backend/indextts/utils/front.py
--- a/qwen3-tts-backend/indextts/utils/maskgct/models/codec/facodec/init.py
+++ b/qwen3-tts-backend/indextts/utils/maskgct/models/codec/facodec/init.py
--- a/qwen3-tts-backend/indextts/utils/maskgct/models/codec/amphion_codec/codec.py
+++ b/qwen3-tts-backend/indextts/utils/maskgct/models/codec/amphion_codec/codec.py
--- a/qwen3-tts-backend/indextts/utils/maskgct/models/codec/amphion_codec/quantize/init.py
+++ b/qwen3-tts-backend/indextts/utils/maskgct/models/codec/amphion_codec/quantize/init.py
--- a/Show More
+++ b/Show More
Author	SHA1	Message	Date
bdim404	1ab7bdef1c	chore: remove obsolete test files for IndexTTS2 and grok-4 response format	2026-04-07 18:13:39 +08:00
bdim404	6d93025453	fix: update gitignore paths from canto-backend/frontend to backend/frontend Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-07 18:13:26 +08:00
bdim404	60489eab59	refactor: rename canto-backend → backend, canto-frontend → frontend Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-07 18:11:00 +08:00
bdim404	2fa9c1fcb6	refactor: rename backend/frontend dirs and remove NovelWriter submodule - Rename qwen3-tts-backend → canto-backend - Rename qwen3-tts-frontend → canto-frontend - Remove NovelWriter embedded repo Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-07 18:03:29 +08:00
bdim404	777a7ec006	feat: update genre and subgenre labels to Chinese localization	2026-04-07 14:51:30 +08:00
bdim404	a144540cbe	feat: update emotion handling and adjust alpha levels in TTS and LLM services	2026-04-07 14:17:29 +08:00
bdim404	a8d6195cdb	feat: enhance logging for character updates and voice cache management	2026-04-07 11:38:35 +08:00
bdim404	b395cb0b98	Refactor localization files and remove Aliyun references	2026-04-07 11:37:47 +08:00
bdim404	2662b494c5	feat: add regenerate all previews functionality and update localization strings	2026-04-07 11:03:11 +08:00
bdim404	96b2eaf774	feat: add edit character dialog with localization support	2026-04-07 10:50:29 +08:00
bdim404	d170ba3362	feat: add DEV_MODE configuration and implement dev-token endpoint for authentication	2026-04-07 10:39:07 +08:00