网站SEO优化实训广西百色公司注册
2026/4/24 8:48:12 网站建设 项目流程
网站SEO优化实训,广西百色公司注册,多个域名的网站,静态网站入侵一、GPT-SoVITS 简介 GPT-SoVITS 是一款开源的语音合成#xff08;TTS#xff09;工具#xff0c;结合了 GPT 模型的文本理解能力与 SoVITS#xff08;Sound of Voice In Text-to-Speech#xff09;的声纹模拟技术#xff0c;能够实现高自然度、个性化的语音合成。它支持…一、GPT-SoVITS 简介GPT-SoVITS 是一款开源的语音合成TTS工具结合了 GPT 模型的文本理解能力与 SoVITSSound of Voice In Text-to-Speech的声纹模拟技术能够实现高自然度、个性化的语音合成。它支持通过少量音频样本克隆特定音色同时具备多语言合成、情感调节等功能广泛应用于语音助手、有声内容创作等场景。用户可通过网页界面或 API 接口输入文本生成对应语音文件如 WAV、MP3 等格式。二、使用 GPT-SoVITS 进行 TTS 转换的流程环境部署下载项目源码安装 Python 及相关依赖如 PyTorch、FastAPI 等部分版本需配置模型文件如预训练 GPT 模型、SoVITS 模型。这里建议使用整合包推荐使用V2版本的整合包。可参考https://blog.csdn.net/ergdfhgerty/article/details/149021178文章的内容。GPT-SoVITS 学习和v2版本下载地址为https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4#KTvnO启动服务项目中的启动脚本为api_v2.py启动本地服务通常默认端口为 9880。项目启动的方法复制go-webui.bat文件重命名为api_v2.bat将代码修改为如下set SCRIPT_DIR%~dp0 set SCRIPT_DIR%SCRIPT_DIR:~0,-1% cd /d %SCRIPT_DIR% set PATH%SCRIPT_DIR%\runtime;%PATH% runtime\python.exe -I api_v2.py启动方式为双击api_v2.bat文件但是一定要注意这里面不能传入参数zh_CN否则运行不通过要在api_v2.py文件中指定text_lang和prompt_text的具体类型如下所示APP.get(/tts) async def tts_get_endpoint( text: str None, text_lang: str zh-CN, ref_audio_path: str None, aux_ref_audio_paths: list None, prompt_lang: str zh-CN, prompt_text: str , top_k: int 5, top_p: float 1, temperature: float 1, text_split_method: str cut0, batch_size: int 1, batch_threshold: float 0.75, split_bucket: bool True, speed_factor: float 1.0, fragment_interval: float 0.3, seed: int -1, media_type: str wav, streaming_mode: bool False, parallel_infer: bool True, repetition_penalty: float 1.35, sample_steps: int 32, super_sampling: bool False, ):API 调用若通过代码调用可使用 FastAPI 提供的接口http://127.0.0.1:9880/tts传入文本、语音参数等获取合成的音频数据。Fay数字人在调用时的设置首先要在gptsovits_v3.py文件中指定参考音频和音频的文本注意要修改成正确的音频路径音频和音频的文本要对应同时音频不能超过10秒音频使用格式为Windows PCM的wav如下所示def to_sample(self, text, style) : url http://127.0.0.1:9880/tts data { text: text, # str.(required) text to be synthesized text_lang: zh, # str.(required) language of the text to be synthesized ref_audio_path: D:/GPT-SoVITS-v2pro-20250604/111.wav, # str.(required) reference audio path. prompt_text: 迅捷音频转换器是一款专业级软件集音频格式转换、视频提取音频、音频剪辑, # str.(optional) prompt text for the reference audio prompt_lang: zh, # str.(required) language of the prompt text for the reference audio top_k: 5, # int.(optional) top k sampling top_p: 1, # float.(optional) top p sampling temperature: 1, # float.(optional) temperature for sampling text_split_method: cut5, # str.(optional) text split method, see text_segmentation_method.py for details. batch_size: 1, # int.(optional) batch size for inference batch_threshold: 0.75, # float.(optional) threshold for batch splitting. split_bucket: True, # bool.(optional) whether to split the batch into multiple buckets. speed_factor:1.0, # float.(optional) control the speed of the synthesized audio. fragment_interval:0.3, # float.(optional) to control the interval of the audio fragment. seed: -1, # int.(optional) random seed for reproducibility. media_type: wav, # str.(optional) media type of the output audio, support wav, raw, ogg, aac. streaming_mode: False, # bool.(optional) whether to return a streaming response. parallel_infer: True, # bool.(optional) whether to use parallel inference. repetition_penalty: 1.35 # float.(optional) repetition penalty for T2S model. }这里音频处理软件可使用cool edit pro软件这是一款专业的音乐编辑软件软件拥有非常强大的功能帮助用户进行各种各样的音频编辑绘制玩法多种多样带给用户非常舒适的体验下载链接https://www.365xiazai.com/soft/12050.html。相关参考视频GPT-SoVITS教程6-新增自动选取参考音频和保存音频历史功能三、API 调用 GPT-SoVITS 相关内容总结1. 参考教程B 站教程地址GPT-SoVITS 教程 5 - 如何调用 API2. API 调用核心步骤与参数说明1api.py 文件参数解析文件顶部明确了运行脚本时可传入的执行参数主要包括模型路径-sSoVITS 模型路径、-gGPT 模型路径可在 config.py 中预设默认参考音频参数调用请求缺少参考音频时使用-dr默认参考音频路径-dt默认参考音频文本-dl默认参考音频语种支持 “中文”“英文”“日文” 及缩写 “zh”“en”“ja”运行配置-d推理设备“cuda” 或 “cpu”-a绑定地址默认 “127.0.0.1”-p绑定端口默认 9880可在 config.py 中指定-fp/-hp覆盖 config.py 使用全精度 / 半精度推理输出与文本处理-sm流式返回模式默认不启用可选 “close”“normal”“keepalive” 及缩写 “c”“n”“k”-mt音频编码格式流式默认 ogg非流式默认 wav支持 “wav”“ogg”“aac”-cp文本切分符号默认空需以 “,.。” 字符串形式传入模型组件路径-hbcnhubert 路径、-bbert 路径。2启动 API 服务运行脚本在终端中执行python api.py或runtime\python.exe api.py可直接运行后续推理时指定参数或启动时传入参数如指定默认参考音频、设备等。验证启动出现网址即代表接口开启默认如http://127.0.0.1:9880。3内网共享设置获取本机 IPv4 地址打开新终端输入ipconfig找到 “无线局域网适配器 WLAN” 项下的 IPv4 地址替换地址用 IPv4 地址替换默认网址中的 “0.0.0.0”同一内网设备可通过该地址调用接口例如http://10.10.9.169:9880。4查看 API 文档在启动的网址后添加/docs即可查看 FastAPI 自动生成的接口文档包含请求格式、参数说明等。3. 请求格式GET 与 POST1使用预设参考音频GET 请求http://127.0.0.1:9880?text待合成文本text_language语种示例http://127.0.0.1:9880?text先帝创业未半而中道崩殂...text_languagezhPOST 请求JSON 格式{ text: 待合成文本, text_language: 语种 }2使用预设参考音频并指定分割符号GET 请求http://127.0.0.1:9880?text待合成文本text_language语种cut_punc切分符号示例http://127.0.0.1:9880?text先帝创业未半...text_languagezhcut_punc。POST 请求JSON 格式{ text: 待合成文本, text_language: 语种, cut_punc: 切分符号 }3手动指定当次推理的参考音频GET 请求http://127.0.0.1:9880?refer_wav_path音频路径prompt_text参考文本prompt_language参考语种text待合成文本text_language文本语种示例http://127.0.0.1:9880?refer_wav_path123.wavprompt_text一二三。prompt_languagezhtext先帝创业未半...text_languagezhPOST 请求JSON 格式{ refer_wav_path: 音频路径, prompt_text: 参考文本, prompt_language: 参考语种, text: 待合成文本, text_language: 文本语种 }4更换默认参考音频endpoint/change_referGET 请求http://127.0.0.1:9880/change_refer?refer_wav_path新音频路径prompt_text新参考文本prompt_language新语种POST 请求JSON 格式{ refer_wav_path: 新音频路径, prompt_text: 新参考文本, prompt_language: 新语种 }4. 响应说明成功合成请求直接返回音频流http code 200更换参考音频请求返回 JSONhttp code 200。失败返回包含错误信息的 JSONhttp code 400。5. 拓展与改良方案原生 API 功能不足时可参考改良版接口CSDN 博客《GPT-SoVITS 项目的 API 改良与使用》支持动态切换模型和情绪的改良代码《针对 GPT-SoVITS 项目的 API 接口改进》可直接覆盖原 api.py新增切换模型、情绪的接口支持 GET/POST。相关参考文章https://blog.csdn.net/ergdfhgerty/article/details/149021178https://blog.csdn.net/Polo_fang/article/details/140521946四、常见问题及解决方法针对 FastAPI 页面空白问题问题访问 FastAPI 页面如 docs 文档页时显示空白链接正确但无内容核心原因页面依赖的 CSS 和 JavaScript 资源通常来自国外 CDN加载失败导致界面无法渲染。解决方法方法一使用网络加速工具若有 “魔法” 工具网络加速工具开启后重新访问页面通常可解决 CDN 资源加载问题。方法二安装fastapi_cdn_host库替换 CDN步骤 1安装库打开终端CMD 或 PowerShell进入项目的runtime\Lib\site-packages目录或项目虚拟环境目录执行命令pip install fastapi_cdn_host注若项目使用独立 runtime 环境需确保库安装到该环境的site-packages中而非系统全局 Python 环境。 如果安装在全局Python环境中需要把fastapi_cdn_host库复制到runtime\Lib\sitepackages里一共有两个文件夹的内容fastapi_cdn_host和fastapi_cdn_host-0.9.2.dist-info可以根据文件生成时间确定哪些是需要复制的文件夹整合包bat运行的环境库不是主机的而是runtime里的。步骤 2修改代码打开项目中的api_v2.py文件在代码中添加以下内容在文件顶部约 123 行后添加导入语句import fastapi_cdn_host在 FastAPI 实例化后约 147 行后通常是APP FastAPI(...)之后添加fastapi_cdn_host.patch_docs(APP)步骤 3重启服务保存文件后重新运行启动脚本双击api_v2.bat再次访问页面即可。方法三使用 Steam 等工具加速下载并安装 Steam 工具启动后选择 “加速 Steam 社区” 等模式利用其网络加速功能间接解决 CDN 资源加载问题。注意事项若安装库后仍无效需确认fastapi_cdn_host已正确放置在项目 runtime 的site-packages目录中部分整合包的环境独立需手动复制或在该目录下执行安装命令。若上述方法均失败可尝试更换网络环境如手机热点或检查防火墙 / 安全软件是否拦截了资源加载。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询