Muyan-TTS：开源播客级零样本语音合成TTS系统,支持个性化语音克隆-果果导航

Muyan-TTS 产品介绍

Muyan-TTS 是什么？

Muyan-TTS 是一款为播客场景优化的零样本语音合成（Zero-shot TTS）模型，预训练数据量超过 10 万小时的播客语音内容，能以惊人的自然度合成任意文本的语音。它通过结合大型语言模型与 SoVITS 编码器架构，将文本和语音对齐，生成逼真的音频输出。

其增强版本 Muyan-TTS-SFT，支持通过“几十分钟目标说话人语音”的微调实现个性化语音克隆，非常适合定制化语音内容生产。

🔧 Muyan-TTS应用场景

播客制作人：快速将文案转化为自然语音，极大减少录音与剪辑工作量。
语音助手开发：为对话机器人提供个性语音表达，提升用户体验。
数字人/虚拟主播：构建拥有独特语音风格的数字形象，便于社媒传播。
语言学习平台：合成标准、真实的语音内容，用于听力训练或自动朗读。
有声书及教育内容生产者：批量生成高质量语音内容，加速内容上架。

🧠 Muyan-TTS主要功能

Zero-shot语音合成：无需任何训练即可生成高质量语音，仅需参考音频与提示文本。
Few-shot语者克隆（SFT）：用几十分钟语音数据即可训练专属语音模型。
多模型推理选择：支持base（零样本）与sft（微调）两种合成模式。
API部署接口：可部署本地服务，快速集成到生产系统中。
支持VLLM加速推理：加速大语言模型部分，提高生成效率。
完整开源代码与模型发布：已公开 Hugging Face、ModelScope、WiseModel 平台模型权重及训练代码。

👤 Muyan-TTS目标用户

播客及音频内容创作者
虚拟主播制作公司
教育科技企业
语音AI开发者
数字人/元宇宙内容团队

🚀 如何使用 Muyan-TTS？

Muyan-TTS安装步骤：

git clone https://github.com/MYZY-AI/Muyan-TTS.gitcd Muyan-TTSconda create -n muyan-tts python=3.10 -yconda activate muyan-ttsmake buildsudo apt install ffmpeg# 安装FFmpeg

快速体验Muyan-TTS：

使用命令行运行：

python tts.py

或部署API：

python api.py# 默认启动在8020端口

调用API合成语音：

import requestsresponse = requests.post("http://localhost:8020/get_tts", json={"ref_wav_path": "assets/Claire.wav","prompt_text": "...","text": "Welcome to the captivating world of podcasts...",})with open("tts.wav", "wb") as f:f.write(response.content)

💰 免费试用Muyan-TTS与定价模式

目前完全开源，模型权重、训练代码均可通过以下平台免费获取：

Hugging Face: Muyan-TTS
ModelScope
WiseModel

训练成本说明（参考值）：

模块	GPU小时	费用（估算）
数据处理	60K（A10）	\$30K
LLM预训练	19.2K（A100）	\$19.2K
解码器训练	1.34K（A100）	\$1.34K
总计	–	\$50.54K

⚖️ 模型性能对比（语音合成速度 r 值，越低越快）

模型	CosyVoice2	Spark-TTS	GPT-SoVITS v3	🔥 Muyan-TTS
r ↓	2.19	1.31	0.48	0.33（最快）

📊 Muyan-TTS效果评测

合成质量：在播客音色、情绪与语速方面表现出色。
语者相似度（SFT模型）：个性化训练仅需数十分钟即可实现高还原度。
推理效率：在A100 GPU上拥有领先合成速度，适合实时或大规模语音生成任务。
使用便捷度：支持终端命令与API两种调用方式，适配开发与内容团队不同需求。

🔁 Muyan-TTS替代工具推荐

工具名	简要介绍
Bark by Suno	多语言、风格化TTS，适合娱乐内容
GPT-SoVITS	社区活跃，语者克隆能力优秀
OpenVoice	支持跨语种语音克隆的TTS系统
Coqui TTS	支持训练与部署多说话人模型
XTTS by Tortoise	超高自然度语音合成，支持多说话人控制

❓ Muyan-TTS常见问题解答（FAQ）

Q：Muyan-TTS 支持中文吗？
A：不支持。目前仅训练于英文播客数据，适合英文语音合成。

Q：使用 SFT 模型是否必须使用 Claire 的语音？
A：是，官方训练好的 SFT 模型基于 Claire 语音。自定义训练则可替换为任意说话人。

Q：能否用于商业用途？
A：需查看 GitHub 上许可证（MIT 或其他），多数情况下允许商用。

📢 AI工具网点评

Muyan-TTS 是目前语音播客生成领域最具实用性的开源 TTS 工具之一。其以极低的合成延迟、出色的自然度及灵活的个性化支持，成为面向播客、数字人、虚拟语音助手等场景的极佳选择。相比 GPT-SoVITS，更注重播客风格和效率，对于内容创作者和AI产品团队具有很强吸引力。

数据评估

Muyan-TTS浏览人数已经达到3.4K，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：Muyan-TTS的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找Muyan-TTS的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站果果导航提供的Muyan-TTS都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由果果导航实际控制，在2025年11月23日上午10:19收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，果果导航不承担任何责任。

果果导航致力于优质、实用的网络站点资源收集与分享！本文地址https://guoguo.org.cn/sites/13629.html转载请注明