El boom de DeepSeek: cómo funciona y cuánto cuesta realmente

En los últimos días, el mundo de la Inteligencia Artificial se vio revolucionado con la aparición de una nueva herramienta llamada DeepSeek, la cual pareciera haber llegado "de la nada" para arrasar con todo.

Esta nueva tecnología, desarrollada en China, combina dos conceptos muy atractivos para el sector: inteligencia artificial y código abierto.

Con su diseño completamente open source, DeepSeek R1 permite a los usuarios descargar, modificar y adaptar la herramienta según sus necesidades. Esta flexibilidad no solo democratiza el acceso a la IA, sino que también abre un nuevo frente de competencia para las grandes tecnológicas como OpenAI y Nvidia.

En diálogo con iProUP, Fredi Vivas, CEO y fundador de RockingData y experto en Inteligencia Artificial, asegura que "esta es la primera vez que un modelo chino de código abierto y gratuito iguala a los líderes occidentales".

DeepSeek: ¿costo solo u$s6 millones?

Uno de los aspectos que más sorprendió tras este importante lanzamiento fue que, según algunas fuentes, su costo habría sido de solo u$s6 millones, una cifra considerablemente más baja en comparación a otras IA con habilidades similares.

Sin embargo, Vivas indica que en realidad "no hay cifras oficiales ni total transparencia sobre este tema". El experto explica que "lo engañoso con esto es que el cálculo de u$s6 millones debe provenir de un dato basado en los costos de las placas, o sea el hardware que se usó para el entrenamiento".

En este sentido, no se contemplarían muchos otros costos. Por ejemplo si hablamos solo del modelo, habría que tener en cuenta cuando se vuelve a correr el entrenamiento, probando diferentes cosas, los experimentos realizados, la recolección de los datos, el diseño lógico del algoritmo en sí mismo, entre otras cosas.

En esta línea, Vivas detalla que la construcción de una Inteligencia Artificial de este estilo se basa en 3 factores:

hardware (en este casos las placas)
datos de entrenamiento
algoritmo

En este caso, hubo innovaciones en los 3 puntos para poder lograr lo que se consiguió, que es un modelo que en muchas pruebas supera en rendimiento a Chat GPT y que lo hace de forma más económica para el usuario, según comenta el especialista.

El verdadero atractivo de DeepSeek: su enfoque de código abierto

Según explica Vivas, el enfoque de código abierto de DeepSeek es realmente una ventaja: "Se pueden leer papers de cómo funciona, descargarlo y hacerlo correr en una computadora, ver algo de info del entrenamiento y puede darse una adopción más sencilla en por ejemplo una pequeña empresa, por el ahorro que puede implicar".

Esto se da así porque, los modelos y técnicas de DeepSeek se publicaron bajo la licencia MIT gratuita, lo que significa que cualquiera puede descargarlos y modificarlos.

"DeepSeek no es el primer modelo de lenguaje open source, pero pienso que se hizo tan famoso por la cuestión geopolítica y los costos, además de por supuesto porque funciona bien", apunta Vivas, quien indica que ahora es interesante ver si esto se traslada a la utilización real cotidiana en usuarios y empresas.

DeepSeek R1: cómo funciona específicamente

DeepSeek R1, que está especializado en razonamiento, superó en pruebas de rendimiento a los modelos más avanzados de OpenAI en pruebas clave de matemáticas y programación.

Vivas explica que, un modelo denominado de "razonamiento" intenta resolver problemas complejos paso a paso. Estos modelos son mejores en muchas tareas que requieren contexto y tienen múltiples partes interrelacionadas, como la comprensión lectora y la planificación estratégica.

"El modelo R1 es una versión modificada del modelo V3, que incluye el uso de la técnica llamada aprendizaje por refuerzo. Este aprendizaje por refuerzo permite que el modelo sea capaz de aprender por sí mismo mediante prueba y error, igual que aprendemos a andar en bici", añade.

Otras 3 técnicas que se usaron para conseguir mayor eficiencia, según el experto en IA, son la idea matemática llamada "escasez", una forma inteligente de comprimir los datos relevantes y en el caso de la versión V3 almacena la información en la memoria de la computadora.

Temas relacionados