NVIDIA ha anunciado oficialmente la nueva familia NVIDIA Nemotron 3, una generación de modelos de IA abiertos diseñada para el desarrollo de sistemas de IA agente y multiagente a gran escala. La nueva línea introduce una arquitectura mixta latente Mixture-of-Experts (MoE) que mejora de forma sustancial la eficiencia, la velocidad de inferencia y la escalabilidad frente a la generación anterior.
Nemotron 3 se lanza en tres tamaños —Nano, Super y Ultra— y forma parte de la estrategia de NVIDIA para impulsar IA abierta, transparente y soberana, permitiendo a empresas y administraciones construir sistemas alineados con sus propios datos, normativas y valores.
Arquitectura MoE híbrida: eficiencia sin sacrificar razonamiento
La clave técnica de Nemotron 3 es una arquitectura híbrida MoE, en la que solo una fracción de los parámetros totales está activa en cada inferencia. Esto permite:
Reducir de forma drástica el coste computacional
Aumentar el throughput de tokens
Escalar a cientos de agentes colaborativos con baja latencia
La familia Nemotron 3 está pensada específicamente para IA agente, donde múltiples modelos cooperan para resolver tareas complejas en flujos de trabajo largos.
 700 640.png)
Tres modelos, tres objetivos claros
La familia Nemotron 3 se divide en:
Nemotron 3 Nano (30B / 3B activos)
Modelo altamente eficiente para tareas dirigidas como depuración de código, recuperación de información, asistentes de IA y resumen de contenidos.
Nemotron 3 Super (~100B / 10B activos)
Orientado a razonamiento avanzado y aplicaciones multiagente con alta precisión y baja latencia.
Nemotron 3 Ultra (~500B / 50B activos)
Diseñado como motor de razonamiento profundo para flujos de trabajo complejos, investigación avanzada y planificación estratégica.
 700 640.png)
Nemotron 3 Nano: hasta 4× más rápido y 60% menos tokens de razonamiento
Disponible desde hoy, Nemotron 3 Nano es el modelo más eficiente de la familia en términos de coste computacional. NVIDIA afirma que logra:
Hasta 4× más throughput de tokens frente a Nemotron 2 Nano
Reducción de hasta el 60% en la generación de tokens de razonamiento
Ventana de contexto de 1 millón de tokens, lo que mejora la coherencia en tareas largas y multietapa
Según Artificial Analysis, organización independiente especializada en benchmarks de IA, Nemotron 3 Nano es el modelo abierto más eficiente y preciso de su clase, situándose en el cuadrante óptimo entre inteligencia y velocidad de salida.
Super y Ultra: entrenamiento 4-bit NVFP4 sobre Blackwell
Los modelos Nemotron 3 Super y Ultra utilizan el formato de entrenamiento NVFP4 (4 bits) sobre la arquitectura NVIDIA Blackwell, lo que permite:
Reducir significativamente el uso de memoria
Acelerar el entrenamiento
Mantener precisión comparable a formatos de mayor bitwidth
Gracias a esta eficiencia, NVIDIA afirma que modelos de hasta 500B parámetros pueden entrenarse sobre infraestructura existente, sin requerir rediseños masivos de centros de datos.
Adopción temprana y ecosistema abierto
Numerosas compañías ya están integrando Nemotron en sus flujos de trabajo, entre ellas:
Accenture, Cadence, CrowdStrike, Cursor, Deloitte, EY, Oracle Cloud Infrastructure, Palantir, Perplexity, ServiceNow, Siemens y Zoom.
Startups respaldadas por Mayfield también están utilizando Nemotron 3 para crear AI teammates, reforzando la colaboración humano–IA desde la fase de prototipo hasta el despliegue empresarial.
 700 640.png)
Disponibilidad y despliegue
Nemotron 3 Nano
Disponible desde hoy en Hugging Face y a través de proveedores de inferencia como Baseten, Deepinfra, Fireworks, FriendliAI, OpenRouter y Together AI.
Disponible como NVIDIA NIM microservice, permitiendo despliegue seguro y escalable en infraestructura acelerada por NVIDIA.
Próximamente en AWS (Amazon Bedrock), además de Google Cloud, Coreweave, Nebius, Nscale y Yotta.
Nemotron 3 Super y Ultra
Disponibles en la primera mitad de 2026.
 700 640.png)
Un paso clave hacia la IA abierta y soberana
Con Nemotron 3, NVIDIA refuerza su apuesta por modelos abiertos de alto rendimiento que permiten a desarrolladores y organizaciones elegir el tamaño exacto del modelo según su carga de trabajo, desde decenas hasta cientos de agentes, manteniendo razonamiento avanzado y costes controlados.
La combinación de arquitectura MoE híbrida, entrenamiento en 4 bits y ventanas de contexto masivas posiciona a Nemotron 3 como una de las propuestas más ambiciosas del ecosistema de IA abierta actual.