NVIDIA Nemotron 3 Super 重磅发布:120B 参数 MoE 混合架构,Agentic AI 的效率与推理新王者!
大家好,我是 ng.cc,今天来聊聊刚刚发布的重磅开源模型——NVIDIA Nemotron 3 Super!2026 年 3 月 11 日,NVIDIA 正式推出 Nemotron 3 Super(全称 NVIDIA-Nemotron-3-Super-120B-A12B),这是一款专为 Agentic AI(代理式 AI) 打造的开放权重模型。它总参数 120B,但激活参数仅 12B,采用革命性的 Hybrid Mamba-Transformer + Latent MoE + Multi-Token Prediction (MTP) 混合架构,搭配原生 1M token 上下文窗口,一举解决多代理系统中两大痛点:“思考税”(thinking tax) 和 “上下文爆炸”(context explosion)。为什么说它“超级”?传统大模型在处理复杂多步任务(如软件开发代理、代码库全量分析、网络安全 triage)时,经常陷入两个死循环:* 每一步都调用大模型 → 思考成本暴增(thinking tax)
- 对话历史 + 工具输出 + 文档累积 → token 数爆炸式增长
Nemotron 3 Super 直接用架构创新解决:* Hybrid 骨干:Mamba-2 层负责线性时间序列处理(内存/算力效率提升 4 倍),Transformer Attention 层负责精确关联回忆,MoE 层负责参数扩展。
- Latent MoE:全新低秩隐空间路由技术!相同成本下可激活 4 倍专家,让模型在 Python 逻辑 vs SQL 逻辑上实现更细粒度专业化。
- Multi-Token Prediction (MTP):一次前向传播预测多个未来 token,不仅提升 Chain-of-Thought 推理质量,还原生支持 speculative decoding,推理速度最高提升 3 倍。
- 原生 NVFP4 预训练:在 NVIDIA Blackwell 平台上直接用 4-bit 浮点训练,推理速度比 Hopper 上的 FP8 快 4 倍,精度零损失。
实测结果惊人:* 吞吐量比上一代 Nemotron Super 高 5 倍,精度提升 2 倍
- 在 AIME 2025、Terminal Bench、SWE-Bench Verified 等基准上同尺寸领先
- PinchBench 得分 85.6%,成为开源 Agent 性能最强模型
- 支持 1M token 原生上下文,让代理能记住整个代码库或上千页报告而不会“失忆”
实际应用场景有多强?1. 软件开发代理:一次性加载整个代码仓库,端到端生成 + 调试代码(CodeRabbit、Factory、Greptile 已经在用)
- 网络安全 triage:处理海量日志 + 历史攻击记录,自主决策
- 企业工作流自动化:IT 工单、文献调研、金融报告分析(Perplexity、Palantir、Siemens 等已集成)
- 多代理协作:Super 负责复杂规划,搭配 Nemotron 3 Nano 处理轻量步骤,形成高效分工
更酷的是,它支持 reasoning trace 可配置:开启 enable_thinking=True 就会先输出思考过程再给最终答案,完美适配 Agent 场景!**完全开放!开发者福音* 权重 & 数据集**:Hugging Face 直接下载(BF16 / FP8 / NVFP4 多种量化版)
- https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16
- NVIDIA NIM:一键部署微服务
- 支持平台:Perplexity、OpenRouter、Cloudflare Workers AI、Google Cloud Vertex AI、Together AI、Fireworks、DeepInfra 等数十家
- 训练工具全开源:NeMo Gym、NeMo RL、NeMo Curator 全套食谱 + 25 万亿 token 预训练数据集 + 4000 万样本后训练数据
最低硬件需求:单机 64GB 统一内存即可本地运行(Unsloth 已支持 GGUF 量化),商用许可超级友好(NVIDIA Nemotron Open Model License)。
链接:* Hugging Face 主页:https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B
