DeepSeek vuelve a sacudir el panorama de la inteligencia artificial con una nueva generación de modelos pensados para procesar textos extensos sin consumir recursos desorbitados. La compañía china presenta la familia DeepSeek‑V4, diseñada para reducir la carga de cómputo y mantener un rendimiento competitivo frente a gigantes como OpenAI, Google y Anthropic, así como frente a rivales emergentes como Kimi K 2.6.
Los desarrolladores aseguran que esta iteración mantiene la apertura de sus pesos y añade mejoras arquitectónicas que optimizan la atención en contextos largos, algo clave para aplicaciones que manejan grandes volúmenes de información. A continuación se detallan las novedades técnicas, los resultados en benchmarks y cómo acceder a los modelos.
Arquitectura y novedades técnicas: eficiencia para textos largos
DeepSeek continúa con la estrategia de Mixture‑of‑Experts (MoE) pero incorpora mecanismos de atención híbrida para limitar el coste que impone la longitud del contexto. El resultado es una familia compuesta por dos variantes con objetivos distintos:
- DeepSeek‑V4‑Pro: arquitectura MoE con un total aproximado de 1,6 billones de parámetros, aunque en cada inferencia solo se activan unos 49.000 millones.
- DeepSeek‑V4‑Flash: una versión pensada para latencia baja, con 284.000 millones de parámetros en total y alrededor de 13.000 millones activos por consulta.
La clave práctica está en dos técnicas combinadas que comprimen y filtran la información de clave‑valor (KV):
- Atención dispersa comprimida: agrupa y reduce bloques de clave‑valor antes de aplicar una atención selectiva sobre las entradas más relevantes.
- Atención altamente comprimida: lleva la reducción del caché KV más lejos, minimizando memoria necesaria y operaciones.
Según los autores, estas optimizaciones permiten que DeepSeek‑V4‑Pro necesite aproximadamente el 27% de las operaciones de cómputo que requería la versión V3.2 y use solo el 10% del caché KV, lo que facilita ejecutar inferencias con menos recursos.
Cómo rinde frente a otros modelos: fortalezas y limitaciones
Los ensayos internos publicados en Hugging Face muestran un perfil de rendimiento mixto: sobresale en tareas específicas pero no alcanza a los sistemas de última generación en todos los ámbitos.
Aspectos donde destaca
- Conocimiento general y SimpleQA‑Verified: mejora notablemente respecto a versiones previas de DeepSeek.
- Competición en programación: en Codeforces su rendimiento sitúa al modelo en una posición comparable con candidatos humanos (alrededor del puesto 23), y el paper afirma que es el primer modelo abierto que iguala a GPT‑5.4 en esa tarea concreta.
- Recuperación en contextos largos: supera a Gemini‑3.1‑Pro en la capacidad de extraer información cuando la ventana de contexto es muy extensa.
Limitaciones frente a modelos cerrados
- En tareas de razonamiento complejo y conocimiento profundo, DeepSeek‑V4‑Pro‑Max aún se queda por detrás de Gemini‑3.1‑Pro y de GPT‑5.4 en algunas métricas.
- En capacidades de agente y orquestación de tareas, su rendimiento es comparable al de otros proyectos de código abierto, pero no logra superar a los sistemas propietarios de Google, OpenAI y Anthropic.
Estrategia de código abierto, disponibilidad y uso práctico
La compañía mantiene un enfoque abierto: los pesos están disponibles para descarga en Hugging Face, lo que permite a investigadores y equipos integrarlos y ejecutar pruebas propias. Entre las diferencias operativas entre las dos variantes destacan:
- V4‑Pro: mejor conocimiento del mundo y mayor capacidad para tareas complejas de agente; prioriza profundidad sobre latencia.
- V4‑Flash: respuesta más rápida y rendimiento razonable en razonamiento y tareas sencillas de agente; útil donde la latencia es crítica.
Para quienes quieran probar los modelos, las opciones disponibles son:
- Descargar los pesos desde la página del proyecto en Hugging Face.
- Utilizar la interfaz web o las aplicaciones móviles (iOS y Android) que la compañía ha puesto a disposición.
- Desplegar localmente o en la nube, teniendo en cuenta que, aunque más eficientes, los modelos aún requieren GPUs potentes o alternativas como los chips Ascend de Huawei para cargas a gran escala.
Analistas del sector han señalado que la mayor eficiencia de estos modelos puede impulsar la demanda de hardware especializado: ejecutar inferencias a gran volumen sigue siendo un negocio de inversión en chips y GPUs, pese a las mejoras arquitectónicas.
Artículos similares
- Precios Galaxy S26 y S26 Ultra en México: oficiales y más caros
- Intel Core Series 2 supera a AMD y Qualcomm en rendimiento de procesadores
- GPT-5.1-Codex-Max de OpenAI: IA que programa sola durante 24 horas
- OpenAI lanza GPT-5.3 Codex Spark: IA que programa en una fracción de segundo
- Snapdragon Reality Elite: chip con IA de Qualcomm para gafas y cascos con potencia extrema

Tomás Villalba es un periodista especializado en ciencia y tecnología. Sus artículos destacan la inteligencia artificial, el espacio, la robótica y las innovaciones digitales que están transformando el mundo. Con un estilo claro y preciso, ayuda a los lectores a comprender los avances que influyen en su vida diaria.






