2026/1/28 15:40:34
网站建设
项目流程
自助游网站开发分析报告,微网站建设及微信公众号,湖北建设执业注册管理中心网站,东莞网站推广优化网站GLM-TTS 是智谱AI开源的一个新型的文本转语音#xff08;TTS#xff09;系统#xff0c;它能在“零样本”条件下模仿声音#xff0c;在极少的语音样本模仿声音#xff0c;生成自然、有情绪的语音#xff0c;并且让合成语音更有情感和表现力。它的特点是可控、自然、支持实…GLM-TTS 是智谱AI开源的一个新型的文本转语音TTS系统它能在“零样本”条件下模仿声音在极少的语音样本模仿声音生成自然、有情绪的语音并且让合成语音更有情感和表现力。它的特点是可控、自然、支持实时推理。GLM-TTS 就像是“情感版的语音生成器”不仅能把文字变成声音还能让声音带上情绪和个性。它的应用场景非常广泛尤其适合需要自然、富有表现力语音的领域。GLM-TTS 测试下来相比同类文本转语音系统除了克隆音色相似度更高外在情感表达和自然度方便也更好还有就是长文本生成更稳定且速度快生成的音频质量也更高。缺点是对显卡要求高至少需要8G显存长文本对显卡要求更高。今天分享的 GLM-TTS 一键包基于原版WebUI新增了音色管理功能支持自定义保存和加载音色新增批量生成功能支持一键上传多个txt文档批量生成语音。批量生成需要更多的显存资源大家根据自己显卡选择批量生成的数量。下载地址点此下载主要特点零样本语音克隆只需 3–10 秒的语音片段就能快速模仿目标声音。情感控制通过多奖励强化学习GRPO让语音带有情绪和表现力而不是平淡机械。高质量合成生成的语音在清晰度和自然度上接近商业系统并且字符错误率CER更低。精细控制支持“音素 文本”混合输入能精确控制发音尤其适合多音字。实时推理支持流式生成适合需要即时反馈的场景。双语支持针对中英文混合文本进行了优化。应用领域虚拟助手与客服机器人让语音更自然、更有情感提升用户体验。有声读物与播客快速生成不同风格和情绪的朗读减少人工录音成本。游戏与虚拟角色为 NPC 或虚拟角色生成个性化、有情感的声音。教育与培训在语言学习或在线课程中提供更生动的语音讲解。无障碍应用帮助视障人士获得更自然的语音反馈。使用教程建议N卡显存8G起支持50系显卡分别下载主程序压缩包和模型ckpt文件夹解压主程序移动ckpt目录到主程序下即可。上传需要克隆的参考音频输入参考文本输入需要生成文字内容设置相关参数生成即可。音色管理上传需要保存的音色音频和参考文本输入音色名称保存。右侧加载音色选择音色输入需要生成的文字内容生成即可。批量生成批量上传多个txt文本文档刷新音色选择音色批量生成。生成结果保存在 batch_outputs 目录可一键下载打包文件。实测8G显存开启共享显存也能运行但速度略慢建议10G起长文本建议12G显存起。软件目录结构 ckpt/├── flow/│ │ └── flow.pt│ ├── llm/│ │ └── model-00001-of-00002.safetensors│ └── vq32k-phoneme-tokenizer/│ └── tokenizer.model deepface/ tools/......