自制语音合成系统 (TTS)

用Trae写代码方式已成功实现以下功能。

一、功能清单

自由文本输入，支持中英文等多语言

9 种音色

Vivian(活泼女声)、Serena(温柔女声)、Uncle_Fu(中年男声)、Dylan(年轻男声)、Eric(磁性男声)、Ryan(美式男声)、Aiden(英音男声)、Ono_Anna(日语女声)、Sohee(韩语女声)

7 种情感

neutral、happy、sad、angry、surprised、fearful、disgusted

9 种场景

闲聊对话、课堂教学、比赛解说、深夜电台广播、剧情解说、诗歌朗诵、科普知识推广、产品推广、脱口秀表演

20 种角色微调

温和客服、赛场解说、新闻主播、电台主持人、故事讲述者、知识讲师、产品推销员、脱口秀演员、深夜电台 DJ、邻家大哥哥等 Instruct 控制

三种模式：仅情感 / 场景+情感 / 角色+情感

语速调节 0.5x ~ 2.0x 可调滑块

音调调节 -10 ~ +10 可调滑块

二、架构

┌──────────────────────────┐

│ Streamlit Web UI (端口 8501) │

│ ┌───────┬───────────────┐ │

│ │ 设备信息 │ TTS 语音合成 │ 历史播放记录 │ │

│ └─────┴──────────┴──────

↓ │

│ Qwen3TTSModel (模型加载层) │

│ ↓ │

│ PyTorch 2.6.0 + CUDA 12.4 (GPU 加速) │

│ ↓ │

│ SoX v14.4.2 (音频后处理) │

│ ↓ │

│
Qwen3-TTS-12Hz-0.6B-CustomVoice 模型 │

└──────────────────────────

三、环境搭建 win10或win11下：

安装组件	版本/路径	用途
Python	3.11.9	运行时环境
PyTorch	2.6.0+cu124	GPU 加速推理
CUDA Toolkit	12.4	GPU 计算驱动
SoX	14.4.2	音频格式转换与处理
Streamlit	1.58.0	Web 前端框架
qwen-tts	0.1.1	TTS 模型接口库
soundfile	0.13.1	WAV 音频写入
GPU卡	Tesla P100-PCIE-16GB	推理硬件（无GPU卡，可以走cpu方案）

Python 依赖包：

torch, torchvision, torchaudio # PyTorch 核心套件 (CUDA 12.4)

streamlit # Web UI 框架

qwen-tts # Qwen3-TTS 模型封装

soundfile / librosa # 音频读写与处理

transformers / accelerate # 模型加载加速

safetensors # 安全张量格式读取

提示AI做成.py文件，AI会自动化安装好运行环境，并写好批处理文件，运行后打开网页用本地地址访问即可使用。

（以下是批处理案例，具体根据安装物理盘符位置来定义）

文件名：启动.bat

@echo off

chcp 65001 >nul

echo ========================================

echo AI TTS Streamlit Launcher

echo ========================================

echo.

REM === 设置完整的环境变量（必须在 Python 启动前）===

set "PATH=D:\Python\Python311\Lib\site-packages orch\lib;D:\AIdown\cuda\bin;D:\sox-14-4-2;%PATH%"

REM === 显示当前 PATH（调试用）===

echo [INFO] PATH configured with:

echo - PyTorch lib: D:\Python\Python311\Lib\site-packages orch\lib

echo - CUDA bin: D:\AIdown\cuda\bin

echo - SoX: D:\sox-14-4-2

echo.

REM === 启动 Streamlit ===

echo [LAUNCH] Starting Streamlit...

echo.

"D:\Python\Python311\python.exe" -m streamlit run "d:\AIdown\ai_audio_streamlit.py" --server.port 8501 --server.headless true --server.runOnSave false

pause

展开阅读全文

更新时间：2026-06-06

标签：数码系统男声脱口秀模型女声可调音频情感电台张量框架