«

NVIDIA Nemotron 3 Super 重磅发布:120B 参数 MoE 混合架构,Agentic AI 的效率与推理新王者!

Sean 发布于 阅读:13 科技


大家好,我是 ng.cc,今天来聊聊刚刚发布的重磅开源模型——NVIDIA Nemotron 3 Super2026 年 3 月 11 日,NVIDIA 正式推出 Nemotron 3 Super(全称 NVIDIA-Nemotron-3-Super-120B-A12B),这是一款专为 Agentic AI(代理式 AI) 打造的开放权重模型。它总参数 120B,但激活参数仅 12B,采用革命性的 Hybrid Mamba-Transformer + Latent MoE + Multi-Token Prediction (MTP) 混合架构,搭配原生 1M token 上下文窗口,一举解决多代理系统中两大痛点:“思考税”(thinking tax)“上下文爆炸”(context explosion)为什么说它“超级”?传统大模型在处理复杂多步任务(如软件开发代理、代码库全量分析、网络安全 triage)时,经常陷入两个死循环:* 每一步都调用大模型 → 思考成本暴增(thinking tax)

Nemotron 3 Super 直接用架构创新解决:* Hybrid 骨干:Mamba-2 层负责线性时间序列处理(内存/算力效率提升 4 倍),Transformer Attention 层负责精确关联回忆,MoE 层负责参数扩展。

实测结果惊人:* 吞吐量比上一代 Nemotron Super 高 5 倍,精度提升 2 倍

实际应用场景有多强?1. 软件开发代理:一次性加载整个代码仓库,端到端生成 + 调试代码(CodeRabbit、Factory、Greptile 已经在用)

  1. 网络安全 triage:处理海量日志 + 历史攻击记录,自主决策
  2. 企业工作流自动化:IT 工单、文献调研、金融报告分析(Perplexity、Palantir、Siemens 等已集成)
  3. 多代理协作:Super 负责复杂规划,搭配 Nemotron 3 Nano 处理轻量步骤,形成高效分工

更酷的是,它支持 reasoning trace 可配置:开启 enable_thinking=True 就会先输出思考过程再给最终答案,完美适配 Agent 场景!**完全开放!开发者福音* 权重 & 数据集**:Hugging Face 直接下载(BF16 / FP8 / NVFP4 多种量化版)

最低硬件需求:单机 64GB 统一内存即可本地运行(Unsloth 已支持 GGUF 量化),商用许可超级友好(NVIDIA Nemotron Open Model License)。

链接:* Hugging Face 主页:https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B


扫描二维码,在手机上阅读