NVIDIA Nemotron 3 Super 重磅发布：120B 参数 MoE 混合架构，Agentic AI 的效率与推理新王者！

Sean 发布于 2026-3-18 15:29 阅读：13 科技

大家好，我是 ng.cc，今天来聊聊刚刚发布的重磅开源模型——NVIDIA Nemotron 3 Super！2026 年 3 月 11 日，NVIDIA 正式推出 Nemotron 3 Super（全称 NVIDIA-Nemotron-3-Super-120B-A12B），这是一款专为 Agentic AI（代理式 AI） 打造的开放权重模型。它总参数 120B，但激活参数仅 12B，采用革命性的 Hybrid Mamba-Transformer + Latent MoE + Multi-Token Prediction (MTP) 混合架构，搭配原生 1M token 上下文窗口，一举解决多代理系统中两大痛点：“思考税”（thinking tax） 和 “上下文爆炸”（context explosion）。为什么说它“超级”？传统大模型在处理复杂多步任务（如软件开发代理、代码库全量分析、网络安全 triage）时，经常陷入两个死循环：* 每一步都调用大模型 → 思考成本暴增（thinking tax）

对话历史 + 工具输出 + 文档累积 → token 数爆炸式增长

Nemotron 3 Super 直接用架构创新解决：* Hybrid 骨干：Mamba-2 层负责线性时间序列处理（内存/算力效率提升 4 倍），Transformer Attention 层负责精确关联回忆，MoE 层负责参数扩展。

Latent MoE：全新低秩隐空间路由技术！相同成本下可激活 4 倍专家，让模型在 Python 逻辑 vs SQL 逻辑上实现更细粒度专业化。
Multi-Token Prediction (MTP)：一次前向传播预测多个未来 token，不仅提升 Chain-of-Thought 推理质量，还原生支持 speculative decoding，推理速度最高提升 3 倍。
原生 NVFP4 预训练：在 NVIDIA Blackwell 平台上直接用 4-bit 浮点训练，推理速度比 Hopper 上的 FP8 快 4 倍，精度零损失。

实测结果惊人：* 吞吐量比上一代 Nemotron Super 高 5 倍，精度提升 2 倍

在 AIME 2025、Terminal Bench、SWE-Bench Verified 等基准上同尺寸领先
PinchBench 得分 85.6%，成为开源 Agent 性能最强模型
支持 1M token 原生上下文，让代理能记住整个代码库或上千页报告而不会“失忆”

实际应用场景有多强？1. 软件开发代理：一次性加载整个代码仓库，端到端生成 + 调试代码（CodeRabbit、Factory、Greptile 已经在用）

网络安全 triage：处理海量日志 + 历史攻击记录，自主决策
企业工作流自动化：IT 工单、文献调研、金融报告分析（Perplexity、Palantir、Siemens 等已集成）
多代理协作：Super 负责复杂规划，搭配 Nemotron 3 Nano 处理轻量步骤，形成高效分工

更酷的是，它支持 reasoning trace 可配置：开启 enable_thinking=True 就会先输出思考过程再给最终答案，完美适配 Agent 场景！**完全开放！开发者福音* 权重 & 数据集**：Hugging Face 直接下载（BF16 / FP8 / NVFP4 多种量化版）

https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16
NVIDIA NIM：一键部署微服务
支持平台：Perplexity、OpenRouter、Cloudflare Workers AI、Google Cloud Vertex AI、Together AI、Fireworks、DeepInfra 等数十家
训练工具全开源：NeMo Gym、NeMo RL、NeMo Curator 全套食谱 + 25 万亿 token 预训练数据集 + 4000 万样本后训练数据

最低硬件需求：单机 64GB 统一内存即可本地运行（Unsloth 已支持 GGUF 量化），商用许可超级友好（NVIDIA Nemotron Open Model License）。

链接：* Hugging Face 主页：https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B

NVIDIA 官方博客：https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/
技术报告 PDF：https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf

扫描二维码，在手机上阅读