2026/3/11 13:26:12
网站建设
项目流程
河北省建设工程招标投标协会网站,厦门网站建设外包,网络营销师报名,wordpress 旅行社GLM-ASR-Nano-2512是智谱Z.AI开源的1.5B参数语音识别模型#xff0c;专注于中文方言识别和低音量语音处理#xff0c;性能超越Whisper。支持粤语等多种方言#xff0c;能识别低音量语音#xff0c;错误率仅4.10%。适合企业会议转写、客服中心等场景#xff0c;支持本地部署…GLM-ASR-Nano-2512是智谱Z.AI开源的1.5B参数语音识别模型专注于中文方言识别和低音量语音处理性能超越Whisper。支持粤语等多种方言能识别低音量语音错误率仅4.10%。适合企业会议转写、客服中心等场景支持本地部署和微调。相比Whisper在中文场景更具优势但语言覆盖较窄。硬件要求适中8GB显存即可运行。对于需要处理中文方言和低音量语音的语音识别项目是理想选择。语音识别模型我之前都是用Belle-whisper-large-v3-zh小巧、快速但是方言支持和准确性差一点意思。最近智谱Z.AI 开源了 GLM-ASR-Nano-2512一个专门针对方言识别优化的语音识别模型支持粤语等多种方言还能识别超小声音的低音量语音这下子会议录音转文字的难题有解了本文就详细介绍一下介绍本地部署方法。简介GLM-ASR-Nano-2512 是智谱Z.AI 于2025年12月发布的开源语音识别模型只有1.5B 参数体积不大但性能硬核官方测评在多个基准测试中超越 OpenAI Whisper V3核心亮点方言识别能力除了标准普通话和英语模型专门针对粤语和其他中国方言做了优化。做过会议纪要的朋友都知道方言混着普通话说的场景传统ASR直接崩溃。这个模型填补了这个空白。低音量语音识别这个feature我真的爱了。专门训练了悄悄话场景——开会时离麦克风远的人、电话录音声音弱的情况、嘈杂环境下压低声音说话……传统模型直接忽略的音频它能捞回来。SOTA性能在开源模型中平均错误率只有4.10在Wenet Meeting真实会议场景和Aishell-1标准普通话等中文基准测试中表现亮眼。17种语言支持WER≤20%的高可用性语言多达17种覆盖面广。下图是官方的benchmark结果可以看到GLM-ASR-Nano在多个指标上全面领先Benchmark results支持的语言列表Supported Languages List与 Whisper 的对比问题来了OpenAI 的 Whisper 也是开源的还支持100多种语言为什么要选 GLM-ASR选 GLM-ASR-Nano 的场景✅ 需要识别粤语、四川话等中国方言✅ 会议录音中有很多低音量发言✅ 需要本地部署数据不出域✅ 想针对特定领域医疗、法律、金融做微调✅ 追求性价比不想付API费用选 Whisper 的场景✅ 需要100语言的广泛覆盖✅ 需要成熟的社区生态和文档✅ 需要翻译功能边转写边翻译✅ 处理全球各地口音的内容说白了如果你的业务场景是中文为主、涉及方言、或者有低音量语音识别需求GLM-ASR-Nano 是更优解。如果是国际化场景、多语种混搭Whisper 生态更成熟。硬件要求这个模型对硬件要求不算苛刻最低配置GPU8GB 显存RTX 3060 起步内存16GB存储5GB 模型权重生产环境推荐GPUNVIDIA A100、V100 或同级别内存32GB存储SSD以加速模型加载官方说用 faster-whisper 优化后在中端GPU如降频的1080Ti上可以实现比实时更快的解码速度。安装首先安装依赖pip install -r requirements.txtsudo apt install ffmpeg需要从源码安装 transformers 5.0.0pip install githttps://github.com/huggingface/transformers使用基础用法 - transformers 5.0.0from transformers import AutoModel, AutoProcessorimport torchdevice cudaif torch.cuda.is_available() elsecpurepo_id zai-org/GLM-ASR-Nano-2512processor AutoProcessor.from_pretrained(repo_id)model AutoModel.from_pretrained(repo_id, dtypetorch.bfloat16, device_mapdevice)messages [ { role: user, content: [ { type: audio, url: example_zh.wav, }, {type: text, text: Please transcribe this audio into text}, ], }]inputs processor.apply_chat_template( messages, tokenizeTrue, add_generation_promptTrue, return_dictTrue, return_tensorspt)inputs inputs.to(device, dtypetorch.bfloat16)outputs model.generate(**inputs, max_new_tokens128, do_sampleFalse)print(processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokensTrue))使用 vLLM 部署服务我是用vllm起的首先需要升级至vLLM 0.14.0稳定版但是它对应的transformers是v4.57.6需要单独升级它从源码安装 Transformers 即可pip install githttps://github.com/huggingface/transformers然后就是V5.0版本了 启动脚本python -m vllm.entrypoints.openai.api_server --model /data/models/GLM-ASR-Nan0-2512 \--trust-remote-code \--dtype bfloat16 \--host 0.0.0.0 \--port 8000Python 调用from openai import OpenAI# Modify with the actual server addressclient OpenAI(base_urlhttp://localhost:8000/v1, api_keydummy)# Transcribe audio filewith open(audio.mp3, rb) as audio_file: transcript client.audio.transcriptions.create( modelGLM-ASR-Nano-2512, fileaudio_file ) print(transcript.text)使用 SGLang 部署服务SGLang 支持高吞吐量批处理适合生产环境# 拉取开发版docker镜像docker pull lmsysorg/sglang:dev# 进入容器后运行pip install githttps://github.com/huggingface/transformerspython3 -m sglang.launch_server --model-path zai-org/GLM-ASR-Nano-2512 --served-model-name glm-asr --host 0.0.0.0 --port 8000然后用 OpenAI 兼容的 API 调用from openai import OpenAIopenai_api_key EMPTYopenai_api_base http://127.0.0.1:8000/v1client OpenAI(api_keyopenai_api_key, base_urlopenai_api_base)response client.chat.completions.create( modelglm-asr, messages[ { role: user, content: [ { type: audio_url, audio_url: {url: example_zh.wav} }, { type: text, text: Please transcribe this audio into text }, ] } ], max_tokens1024,)print(response.choices[0].message.content.strip())批量推理如果需要处理多个音频文件可以一次性传入from transformers import GlmAsrForConditionalGeneration, AutoProcessorprocessor AutoProcessor.from_pretrained(zai-org/GLM-ASR-Nano-2512)model GlmAsrForConditionalGeneration.from_pretrained(zai-org/GLM-ASR-Nano-2512, dtypeauto, device_mapauto)inputs processor.apply_transcription_request([ audio1.mp3, audio2.mp3,])inputs inputs.to(model.device, dtypemodel.dtype)outputs model.generate(**inputs, do_sampleFalse, max_new_tokens500)decoded_outputs processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokensTrue)print(decoded_outputs)应用场景根据官方和社区反馈这个模型特别适合以下场景企业会议转写支持方言混杂、远距离发言者识别客服中心不同地区客户口音各异方言识别是刚需医疗记录医生口述病历往往声音轻、语速快媒体与广播地方电视台、网络主播内容转写边缘设备部署1.5B参数可以在消费级GPU上运行下载地址平台链接 Hugging Facehttps://huggingface.co/zai-org/GLM-ASR-Nano-2512 ModelScopehttps://modelscope.cn/models/ZhipuAI/GLM-ASR-Nano-2512GitHubhttps://github.com/zai-org/GLM-ASR⚠️注意如果你在2025年12月27日之前下载过模型需要重新拉取最新版本因为模型权重格式已更新以兼容 transformers 和 SGLang。总结GLM-ASR-Nano-2512 是目前开源ASR模型中针对中文方言识别和低音量语音处理最优秀的选择。1.5B的参数量意味着更低的部署成本对于企业级私有化部署来说这是个实打实的利好。优点 粤语等方言识别能力强 低音量语音处理效果好 开源免费可本地部署和微调 支持 transformers 5.x、vLLM、SGLang 等主流推理框架局限语言覆盖不如 Whisper 广100 vs 17种社区生态还在建设中transformers 需要从源码安装5.0.0如果你正在做语音识别相关的项目特别是面向中文用户、涉及方言场景的强烈建议试一试这个模型。AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享01.从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点02.AI大模型学习路线图还有视频解说全过程AI大模型学习路线03.学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的04.大模型面试题目详解05.这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念通过动态追踪大模型开发、数据标注伦理等前沿技术趋势构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】