2026/4/8 3:08:55
网站建设
项目流程
青岛网站制作公司哪家正规,微信代运营加盟,安徽房产网站建设,可以做兼职的网站有哪些工作梦晨 发自 凹非寺量子位 | 公众号 QbitAI英伟达在开源模型上玩的很激进#xff1a;“最高效的开放模型家族”Nemotron 3#xff0c;混合Mamba-Transformer MoE架构、NVFP4低精度训练全用上。而且开放得很彻底#xff1a;不仅开放模型权重#xff0c;还要把超过10万亿token的…梦晨 发自 凹非寺量子位 | 公众号 QbitAI英伟达在开源模型上玩的很激进“最高效的开放模型家族”Nemotron 3混合Mamba-Transformer MoE架构、NVFP4低精度训练全用上。而且开放得很彻底不仅开放模型权重还要把超过10万亿token的训练数据、预训练和后训练软件、训练配方全部公开。与其他开源模型相比性能有竞争力且速度快1.5-3.3倍。把Mamba和Transformer混着用Nemotron 3在架构层面追求推理效率的最大化。传统Transformer的自注意力机制需要对不断增长的KV Cache做线性扫描序列越长计算开销越大。英伟达的解决方案是大量使用Mamba-2层替代自注意力层——Mamba层在生成时只需要存储固定大小的状态不受序列长度影响。以Nano型号为例整个模型主要由交替堆叠的Mamba-2层和MoE层构成自注意力层只保留了少数几个。论文给出的层排布模式是5个Mamba-2MoE的重复单元接3个同样结构的单元再来1个包含注意力层的单元最后是4个Mamba-2MoE单元。在8k输入、16k输出的典型推理场景下Nemotron 3 Nano 30B-A3B的吞吐量是Qwen3-30B-A3B的3.3倍。序列越长优势越明显。与此同时模型在长上下文任务上的表现并没有打折扣。论文展示了一组RULER基准测试的结果在100万token输入长度下Nemotron 3 Nano基座模型拿到了68.2分而在同样条件下训练的Nemotron 2 Nano 12B只有23.43分出现了断崖式下跌。MoE混合架构在长度外推上的鲁棒性明显更好。LatentMoE在潜空间里做专家路由针对Super和Ultra这两个更大的模型英伟达提出了LatentMoE架构在潜在空间中进行专家计算。MoE层在实际部署时会遇到两类瓶颈低延迟场景下每次只处理几十到几百个token此时从显存读取专家权重成为主要开销。高吞吐场景下一次处理数千token此时专家间的all-to-all通信成为瓶颈。两种情况下开销都与隐藏维度d线性相关。LatentMoE的做法是先把token从原始隐藏维度d投影到一个更小的潜在维度ℓ通常是d的四分之一在这个低维空间里完成专家路由和计算最后再投影回原始维度。这样一来每个专家的权重加载量和通信量都降低了d/ℓ倍。省下来的计算预算被用于增加专家数量和每个token激活的专家数。标准MoE用128个专家、激活6个LatentMoE用512个专家、激活22个。两者的总参数量和激活参数量几乎相同都是8B激活、73B总参但LatentMoE在所有下游任务上都取得了更好的成绩——MMLU-Pro从48.30提升到52.87代码任务从51.95提升到55.14数学任务从78.32提升到80.19。需要注意的是路由门控网络、共享专家计算以及非专家层仍然保留在原始维度因为这些部分对瓶颈的贡献很小。用NVFP4训练250亿tokenSuper和Ultra还采用了NVFP4格式进行训练这是英伟达在低精度训练上的又一次探索。NVFP4是一种4位浮点格式采用E2M1的元素格式2位指数、1位尾数配合16元素的微块缩放和E4M3格式的块缩放因子。在GB300上FP4的峰值吞吐量是FP8的3倍。论文显示团队已经用NVFP4格式稳定训练了高达25万亿token。与BF16训练相比Nano模型的损失差距控制在1%以内8B激活参数的更大模型差距进一步缩小到0.6%以内。在MMLU、GSM8K、HumanEval等下游任务上NVFP4训练的模型与BF16版本的准确率曲线几乎完全重合。不过并非所有层都适合量化到NVFP4。团队发现Mamba输出投影层在量化后会出现高达40%的flush-to-zero现象因此保留在MXFP8精度QKV投影和注意力投影保留在BF16以维持少量注意力层的保真度网络最后15%的层也保持高精度以确保稳定性。MTP层和潜在投影由于对推理时间影响很小同样保留在BF16。多环境强化学习一把训到底Nemotron 3的后训练采用了多环境强化学习覆盖数学推理、竞赛编程、指令遵循、软件工程、搜索、对话、通用工具使用、长上下文等多种任务。与之前分阶段训练不同能力的做法不同这次英伟达选择同时训练所有任务。论文指出这种同步训练方式更稳定更不容易出现reward hacking也避免了分阶段训练常见的能力退化问题。AIME25数学分数从80提升到90LiveCodeBench从65提升到72τ²-Bench工具使用从40提升到50左右全程呈稳定上升趋势。高效的推理吞吐量在这里发挥了重要作用。大规模RL需要生成海量rollout样本Nemotron 3的混合架构相比其他开源模型有显著优势。团队还采用了异步RL架构来解耦训练和推理并利用多token预测加速rollout生成。训练算法方面使用GRPO配合masked importance sampling来处理训练策略和rollout策略之间的差异。整个后训练软件栈以Apache 2.0协议开源包括NeMo-RL可扩展RL训练和NeMo-GymRL环境集合两个仓库。此外Nemotron 3还支持推理时的思维预算控制。用户可以指定思维链的最大token数当模型达到预算时追加一个标记即可让模型基于部分思维链生成最终回答。论文给出了准确率与平均生成token数之间的权衡曲线这为实际部署中的效率-精度平衡提供了细粒度控制。论文地址https://arxiv.org/abs/2512.20856一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 点亮星标 科技前沿进展每日见