2026/2/15 18:47:57
网站建设
项目流程
别人品牌的域名做网站吗,下载app软件商店,怎么免费建立个人网站,wordpress更改注册地址作者#xff1a;杨亦诚#xff0c;纪书杰#xff0c;周涛#xff0c;任而今 引言
如果你希望让自己的 AIPC 能像真人一样又能听、又能说#xff0c;那么 Fun-ASR-Nano 和 FunCosyVoice 3.0 是非常值得关注的两款模型#xff0c;轻量化的设计#xff0c;使他们能同时兼顾…作者杨亦诚纪书杰周涛任而今引言如果你希望让自己的 AIPC 能像真人一样又能听、又能说那么 Fun-ASR-Nano 和 FunCosyVoice 3.0 是非常值得关注的两款模型轻量化的设计使他们能同时兼顾性能和效果并可根据用户习惯持续Finetune优化非常适合在端侧设备进行部署。Fun-ASR-Nano是通义实验室打造的端到端语音识别模型训练数据量级达到数千万小时能理解上下文、能适应行业术语、还能实时低延迟转写支持 31 种语言教育、金融等场景也都能精准识别不易乱码也不容易“幻觉”。Fun-CosyVoice 3.0是基于 LLM 的高级 TTS 模型相比 2.0 在语音自然度、音色相似度和韵律表现上都有明显提升。它主打“零样本、多语种、野外语音合成”意思就是给它一段参考声音它几乎马上能模仿出来。本文会通过实时语音翻译示例带你一步步了解如何通过 Intel® OpenVINO™ 工具把这两个模型优化成更轻量、推理更快、部署更灵活的版本从而在 AIPC 上获得理想的性能。内容列表1. 实时语音翻译Demo2. Fun-ASR-Nano模型部署3. Fun-CosyVoice 3.0模型部署4. 总结实时语音翻译Demo利用 OpenVINO™ 工具套件我们将经过深度性能优化的Fun-CosyVoice 3.0与FunASRNano模型进行整合在 Intel AIPC 上构建出一个高效实时的“语音 → 翻译 → 语音”全流程系统。此外得益于 Intel 平台充足的算力资源我们针对 Fun-CosyVoice 3.0模型在AIPC本地进行了进一步的on-device finetune, 提升特定音色的生成效果。在这个系统中FunASRNano 负责对输入语音进行快速而精准的识别将用户的语音内容实时转写成文本随后文本会被送入 Qwen3 语言模型执行语义理解与跨语言翻译最后经过我们Finetune过的CosyVoice3 会基于输入的文本内容与参考音色合成出高保真、自然流畅的目标语言语音。整个流程不仅实现了实时双向语音交互还支持声音克隆能力系统能够提取用户的声纹特征并在翻译后的语音输出中保持原有的音色与说话风格使转换后的语音更加自然可信。凭借 OpenVINO™ 的加速与模型轻量化能力该方案可在 AIPC 上以极低延迟、较低能耗的方式稳定运行。以下的视频展示了该 Demo 的实际运行效果呈现了从语音输入到翻译输出的完整实时交互过程。FunASR_nano-Qwen3-CosyVioceFun-ASR-Nano模型部署模型地址https://www.modelscope.cn/models/FunAudioLLM/Fun-ASR-Nano-2512完整示例可参考https://github.com/openvino-dev-samples/openvino_notebooks/blob/funasr/notebooks/funasr-nano/funasr-nano.ipynb预转换模型https://www.modelscope.cn/models/snake7gun/Fun-ASR-Nano-2512-fp16-ov1. 环境准备首先在 Python 环境中执行以下指令即可准备好运行所需依赖python -m venv py_venv./py_venv/Scripts/activate.batpip install torch2.7.1 torchvision0.22.1 nncf openvino2025.4 optimum-intel1.26.1 modelscopegit clone https://github.com/FunAudioLLM/Fun-ASR.gitefe63c122929bcca095fedc537c3081c5c4ee062cd Fun-ASRpip install -r requirementpython -m venv py_venv./py_venv/Scripts/activate.batpip install torch2.7.1 torchvision0.22.1 nncf openvino2025.4 optimum-intel1.26.1 modelscopegit clone https://github.com/FunAudioLLM/Fun-ASR.gitefe63c122929bcca095fedc537c3081c5c4ee062cd Fun-ASRpip install -r requirement2. 模型下载和转换在部署模型之前我们首先需要将原始的PyTorch模型转换为OpenVINOTM的IR静态图格式以实现更轻量化的部署和最佳的性能表现。为此我们封装一个专门针对Fun-ASR-Nano的ov_funasr_helper.py脚本用于模型的转换与pipeline重构模型转换方法如下使用命令行终端将原始模型下载到本地:modelscope download --model FunAudioLLM/Fun-ASR-Nano-2512 --local_dir ./ Fun-ASR-Nano-2512modelscope download --model FunAudioLLM/Fun-ASR-Nano-2512 --local_dir ./ Fun-ASR-Nano-2512运行python转换脚本from ov_funasr_helper import convert_funasrconvert_funasr(model_idFun-ASR-Nano-2512,model_pathFun-ASR-Nano-ov,)from ov_funasr_helper import convert_funasrconvert_funasr(model_idFun-ASR-Nano-2512,model_pathFun-ASR-Nano-ov,)该转换脚本会将整个模型拆分成Text Embedding Audio Encoder和LLM三个子模型他们分别的功能是Audio Encoder:处理提取的音频特征,并将其转换为语言模型可以理解的音频嵌入向量。Text Embedding: 将文本标记转换为语言模型的嵌入向量。语言模型 (LLM):基于 Qwen3 的大型语言模型,接收合并后的音频和文本嵌入作为输入,并生成转录输出。下一步我们会利用这些模型替换原始模型中相对应的PyTorch模块以重构Pipeline。3. 模型部署同样ov_funasr_helper.py脚本也可以被用来进行模型部署任务在ov_funasr_helper.py中我们封装了和原始模型pipeline使用方法相近的OVFunASRNano对象使用示例如下from ov_funasr_helper import OVFunASRNanomodel_dir Fun-ASR/Fun-ASR-Nano-ovm OVFunASRNano(model_dir, deviceGPU)wav_path Fun-ASR-Nano-2512/example/zh.mp3res m.inference(data_in[wav_path])text res[0][0][text]print(text)from ov_funasr_helper import OVFunASRNanomodel_dir Fun-ASR/Fun-ASR-Nano-ovm OVFunASRNano(model_dir, deviceGPU)wav_path Fun-ASR-Nano-2512/example/zh.mp3res m.inference(data_in[wav_path])text res[0][0][text]print(text)通过修改device为“NPU”你也可以将Pipeline中的LLM部分部署到NPU上以更好地平衡性能和能耗。运行结果如下输入音频https://download.csdn.net/download/gc5r8w07u/92593707输出文本“开放时间早上九点至下午五点。”CosyVoice 3.0模型部署原始模型地址https://www.modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512完整示例可参考https://github.com/openvino-dev-samples/openvino_notebooks/blob/cosyvoice/notebooks/cosyvoice3-tts/cosyvoice3-tts.ipy预转换模型https://www.modelscope.cn/models/snake7gun/Fun-CosyVoice3-0.5B-2512-fp16-ov1. 环境准备python -m venv py_venv./py_venv/Scripts/activate.batpip install nncf openvino2025.4 modelscopegit clone https://github.com/FunAudioLLM/CosyVoice.git8b54619760fcb78abf5e4637a88e19c1b9ab53c9cd CosyVoicepip install -r requirementpython -m venv py_venv./py_venv/Scripts/activate.batpip install nncf openvino2025.4 modelscopegit clone https://github.com/FunAudioLLM/CosyVoice.git8b54619760fcb78abf5e4637a88e19c1b9ab53c9cd CosyVoicepip install -r requirement2. 模型下载和转换类似Fun-ASR-Nano的方案我们也提供了ov_cosyvoice_helper.py脚本进行模型格式转换和推理任务的封装模型转换方法如下使用命令行终端将原始模型下载到本地:modelscope download --model FunAudioLLM/Fun-CosyVoice3-0.5B-2512 --local_dir ./ Fun-CosyVoice3-0.5B-2512modelscope download --model FunAudioLLM/Fun-CosyVoice3-0.5B-2512 --local_dir ./ Fun-CosyVoice3-0.5B-2512运行python转换脚本from ov_cosyvoice_helper import convert_cosyvoiceconvert_cosyvoice(model_idFun-CosyVoice3-0.5B-2512,model_pathFun-CosyVoice3-0.5B-2512-ov,)from ov_cosyvoice_helper import convert_cosyvoiceconvert_cosyvoice(model_idFun-CosyVoice3-0.5B-2512,model_pathFun-CosyVoice3-0.5B-2512-ov,)该转换脚本会将整个模型拆分成Flow Embedding, Flow Estimator, Text Embedding, Speech Embedding, Hift和LLM 6个子模型。他们的作用分别为Text Embedding:将文本标记转换为语言模型的嵌入向量。Speech Embedding:从参考音频中提取说话人嵌入向量,用于语音克隆。语言模型 (LLM):基于 Qwen2 的大型语言模型,根据文本和说话人条件生成语音标记。Flow Embedding:将语音标记嵌入到流匹配模型中。Flow Estimator:一个条件流匹配 (CFM) 模型,从语音标记嵌入生成梅尔频谱图。HiFT (基于 HiFi-GAN 的声码器): 将梅尔频谱图转换为高保真音频波形。3. 模型部署通过OVCosyVoice3类我们可以初始化以上这些模型对象并将他们加载到不同的硬件单元。使用示例如下cosyvoice OVCosyVoice3(model_dirFun-CosyVoice3-0.5B-2512-ov,deviceCPU, # Default device for all modelsllm_deviceGPU, # LLM model device (defaults to device)flow_deviceGPU, # Flow model device (defaults to device)hift_deviceCPU, # HiFT model device (defaults to device)frontend_deviceCPU, # Frontend model device (defaults to device))cosyvoice OVCosyVoice3(model_dirFun-CosyVoice3-0.5B-2512-ov,deviceCPU, # Default device for all modelsllm_deviceGPU, # LLM model device (defaults to device)flow_deviceGPU, # Flow model device (defaults to device)hift_deviceCPU, # HiFT model device (defaults to device)frontend_deviceCPU, # Frontend model device (defaults to device))接下来我们可以利用初始化后的cosyvoice对象部署模型任务由于OpenVINOTM对象的封装函数接口基本和原模型是一致因此可以直接兼容原始模型示例例如zero shot模式print(Running zero_shot inference...)for i, j in enumerate(cosyvoice.inference_zero_shot(八百标兵奔北坡北坡炮兵并排跑炮兵怕把标兵碰标兵怕碰炮兵炮。,You are a helpful assistant.|endofprompt|希望你以后能够做的比我还好呦。,./asset/zero_shot_prompt.wav,streamFalse)):torchaudio.save(ov_zero_shot_{}.wav.format(i), j[tts_speech], cosyvoice.sample_rate)print(fSaved ov_zero_shot_{i}.wav)print(Running zero_shot inference...)for i, j in enumerate(cosyvoice.inference_zero_shot(八百标兵奔北坡北坡炮兵并排跑炮兵怕把标兵碰标兵怕碰炮兵炮。,You are a helpful assistant.|endofprompt|希望你以后能够做的比我还好呦。,./asset/zero_shot_prompt.wav,streamFalse)):torchaudio.save(ov_zero_shot_{}.wav.format(i), j[tts_speech], cosyvoice.sample_rate)print(fSaved ov_zero_shot_{i}.wav)或是指令控制模式print(Running instruct2 inference (Cantonese)...)for i, j in enumerate(cosyvoice.inference_instruct2(好少咯一般系放嗰啲国庆啊中秋嗰啲可能会咯。,You are a helpful assistant. 请用广东话表达。|endofprompt|,./asset/zero_shot_prompt.wav,streamFalse)):torchaudio.save(ov_instruct_{}.wav.format(i), j[tts_speech], cosyvoice.sample_rate)print(fSaved ov_instruct_{i}.wav)print(Running instruct2 inference (Cantonese)...)for i, j in enumerate(cosyvoice.inference_instruct2(好少咯一般系放嗰啲国庆啊中秋嗰啲可能会咯。,You are a helpful assistant. 请用广东话表达。|endofprompt|,./asset/zero_shot_prompt.wav,streamFalse)):torchaudio.save(ov_instruct_{}.wav.format(i), j[tts_speech], cosyvoice.sample_rate)print(fSaved ov_instruct_{i}.wav)同时该模型还支持声音克隆以下为声音克隆功能的效果展示· 克隆原音https://download.csdn.net/download/gc5r8w07u/92593704· 克隆后的音频输出https://download.csdn.net/download/gc5r8w07u/92593706总结本文系统展示了如何利用 OpenVINO™ 在 Intel AIPC 上高效部署Fun-ASR-Nano与Fun-CosyVoice 3.0两大端侧语音模型。借助配套的辅助脚本我们不仅能够将原始模型便捷地转换为更轻量、更适合端侧推理的IRIntermediate Representation格式还可以灵活地将模型调度到不同的硬件单元CPU / GPU / NPU从而在性能、延迟与能耗之间实现最优平衡。通过这样的全链路优化方案AIPC 不仅能够以极低延迟完成语音识别、语义理解与语音生成的完整流程还大幅降低了部署复杂度使实时语音交互、跨语言翻译以及声音克隆等高阶能力在端侧设备上成为可能。这为未来更智能、更自然的人机交互体验奠定了坚实基础也展示了 OpenVINO™ 在端侧 AI 加速领域的核心价值。OpenVINO 小助手微信OpenVINO-China如需咨询或交流相关信息欢迎添加OpenVINO小助手微信加入专属社群与技术专家实时沟通互动。