自制语音合成系统 (TTS)

用Trae写代码方式已成功实现以下功能。

一、功能清单

自由文本输入,支持中英文等多语言

9 种音色

Vivian(活泼女声)、Serena(温柔女声)、Uncle_Fu(中年男声)、Dylan(年轻男声)、Eric(磁性男声)、Ryan(美式男声)、Aiden(英音男声)、Ono_Anna(日语女声)、Sohee(韩语女声)

7 种情感

neutral、happy、sad、angry、surprised、fearful、disgusted

9 种场景

闲聊对话、课堂教学、比赛解说、深夜电台广播、剧情解说、诗歌朗诵、科普知识推广、产品推广、脱口秀表演

20 种角色微调

温和客服、赛场解说、新闻主播、电台主持人、故事讲述者、知识讲师、产品推销员、脱口秀演员、深夜电台 DJ、邻家大哥哥等 Instruct 控制

三种模式:仅情感 / 场景+情感 / 角色+情感

语速调节 0.5x ~ 2.0x 可调滑块

音调调节 -10 ~ +10 可调滑块

二、架构

┌──────────────────────────┐

│ Streamlit Web UI (端口 8501) │

│ ┌───────┬───────────────┐ │

│ │ 设备信息 │ TTS 语音合成 │ 历史播放记录 │ │

│ └─────┴──────────┴──────

↓ │

│ Qwen3TTSModel (模型加载层) │

│ ↓ │

│ PyTorch 2.6.0 + CUDA 12.4 (GPU 加速) │

│ ↓ │

│ SoX v14.4.2 (音频后处理) │

│ ↓ │


Qwen3-TTS-12Hz-0.6B-CustomVoice 模型 │

└──────────────────────────

三、环境搭建 win10或win11下:

安装组件

版本/路径

用途

Python

3.11.9

运行时环境

PyTorch

2.6.0+cu124

GPU 加速推理

CUDA Toolkit

12.4

GPU 计算驱动

SoX

14.4.2

音频格式转换与处理

Streamlit

1.58.0

Web 前端框架

qwen-tts

0.1.1

TTS 模型接口库

soundfile

0.13.1

WAV 音频写入

GPU卡

Tesla P100-PCIE-16GB

推理硬件(无GPU卡,可以走cpu方案)


Python 依赖包:

torch, torchvision, torchaudio # PyTorch 核心套件 (CUDA 12.4)

streamlit # Web UI 框架

qwen-tts # Qwen3-TTS 模型封装

soundfile / librosa # 音频读写与处理

transformers / accelerate # 模型加载加速

safetensors # 安全张量格式读取

提示AI做成.py文件,AI会自动化安装好运行环境,并写好批处理文件,运行后打开网页用本地地址访问即可使用。

(以下是批处理案例,具体根据安装物理盘符位置来定义)

文件名:启动.bat

@echo off

chcp 65001 >nul

echo ========================================

echo AI TTS Streamlit Launcher

echo ========================================

echo.

REM === 设置完整的环境变量(必须在 Python 启动前)===

set "PATH=D:\Python\Python311\Lib\site-packages orch\lib;D:\AIdown\cuda\bin;D:\sox-14-4-2;%PATH%"

REM === 显示当前 PATH(调试用)===

echo [INFO] PATH configured with:

echo - PyTorch lib: D:\Python\Python311\Lib\site-packages orch\lib

echo - CUDA bin: D:\AIdown\cuda\bin

echo - SoX: D:\sox-14-4-2

echo.

REM === 启动 Streamlit ===

echo [LAUNCH] Starting Streamlit...

echo.

"D:\Python\Python311\python.exe" -m streamlit run "d:\AIdown\ai_audio_streamlit.py" --server.port 8501 --server.headless true --server.runOnSave false

pause

展开阅读全文

更新时间:2026-06-06

标签:数码   系统   男声   脱口秀   模型   女声   可调   音频   情感   电台   张量   框架

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034844号

Top