El alto costo de entrenar modelos de IA impulsa el desarrollo de versiones más pequeñas, rápidas y con menor consumo de recursos
17.09.2025 • 07:33hs • Rendimiento récord
Rendimiento récord
¿Cómo hizo Alibaba para entrenar su IA Qwen3-Next por u$s500.000 mientras otros gastan millones?
Para Alibaba entrenar modelos de IA de última generación puede costar una fracción de lo que invierten gigantes como OpenAI. Así lo demostró con la presentación de su nueva familia de modelos Qwen3-Next, destacando una eficiencia impresionante que incluso supera a la lograda por DeepSeek R1.
Alibaba Cloud, la división en la nube de la compañía, definió este desarrollo como "el futuro de los LLMs eficientes" y explicó que los nuevos modelos son 13 veces más pequeños que su modelo más grande anterior, lanzado apenas una semana antes.
Quienes estén interesados en conocer este producto, pueden hacerlo directamente en la web de Alibaba, seleccionándolo desde el menú desplegable en la parte superior izquierda.
Uno de los modelos de esta familia que se destaca es el Qwen3-Next-80B-A3B, que, según los desarrolladores, es hasta 10 veces más rápido que el Qwen3-32B presentado en abril. Pero lo más llamativo es que esta velocidad se consigue con una reducción del 90% en los costos de entrenamiento.
En ese sentido, el AI Index Report de la Universidad de Stanford estima que:
- OpenAI gastó u$s78 millones en cómputo para entrenar GPT-4
- Google invirtió u$s191 millones en Gemini Ultra
- Qwen3-Next habría costado solo u$s500.000 en su fase de entrenamiento, según Emad Mostaque, fundador de Stability AI
Aunque Alibaba no comprartió cifras exactas, sí explicó que Qwen3-Next-80B-A3B utilizó "solo el 9,3% del coste computacional (horas de GPU) de Qwen3-32B".
Qwen3-Next-80B-A3B supera a DeepSeek R1 y Kimi-K2 con menos recursos
Según pruebas de Artificial Analysis muestran que Qwen3-Next-80B-A3B supera a DeepSeek R1 y Kimi-K2. Aunque no es el modelo más potente -GPT-5, Grok 4, Gemini 2.5 Pro y Claude 4.1 Opus lo superan-, su rendimiento se destaca por su su bajo costo de entrenamiento.
Por otra parte, su eficiencia se debe en parte a la arquitectura Mixture of Experts (MoE), que divide el modelo en subredes neuronales llamadas "expertos". Mientras DeepSeek-V3 y Kimi-K2 usan 256 y 384 expertos, Qwen3-Next-80B-A3B tiene 512, aunque solo activa 10 a la vez.
Otro factor clave es la atención híbrida. Los modelos tradicionales pierden eficiencia con entradas largas porque necesitan más cómputo. Qwen3-Next-80B-A3B usa la técnica "Gated DeltaNet", de MIT y NVIDIA, que decide qué información guardar y qué descartar, logrando atención precisa y económica.
Así, alcanza un rendimiento similar al Qwern3-235B-A22B-Thinking-2507, el modelo más potente de Alibaba.
El alto costo de entrenar IA ha impulsado la creación de modelos más pequeños, especializados y eficientes. Tencent lanzó recientemente modelos con menos de 7.000 millones de parámetros, y la startup Z.ai presentó GLM-4.5 Air, con solo 12.000 millones activos.
Mientras que, modelos como GPT-5 o Claude requieren muchos más parámetros y más potencia de cómputo.