Google lanzó oficialmente Gemma 3n, la última versión de su serie de modelos de inteligencia artificial abierta. Esta tecnología destaca por su capacidad multimodal y porque puede ejecutarse directamente en hardware con limitaciones, como teléfonos móviles, sin necesidad de conectarse a la nube.
Luego de mostrarse por primera vez en el evento Google I/O, Gemma 3n está disponible para que desarrolladores e investigadores puedan descargarlo y utilizarlo libremente.
A diferencia del modelo cerrado Gemini, pensado para usuarios generales, Gemma está orientado a proyectos independientes y de investigación.
Gemma es la línea de IA abierta de Google, separada de su modelo propietario Gemini. Con esta tercera versión, la compañía incorporó soporte nativo para trabajar no solo con texto, sino también con imágenes, audio y video. Las versiones anteriores solo manejaban texto.
Gracias a estas capacidades multimodales, Gemma 3n puede generar contenido textual a partir de distintos formatos de datos, y facilita su uso en aplicaciones móviles, asistentes inteligentes, plataformas educativas, entre otras aplicaciones.
Una innovación clave en esta versión es su arquitectura base, llamada MatFormer. Esta estructura funciona como una muñeca rusa, y permite que el modelo adapte su tamaño y rendimiento según la tarea, lo que optimiza el uso de los recursos disponibles.
Gemma 3n de Google: disponibilidad, aplicaciones y rendimiento
Gemma 3n está disponible en dos versiones: E2B y E4B, con 5.000 y 8.000 millones de parámetros, respectivamente.
Gracias a tecnologías como Per Layer Embeddings (PLE) y nuevos codificadores para audio y visión, su consumo de memoria es similar al de modelos mucho más pequeños, por lo que puede correr incluso en dispositivos con solo 2GB de RAM.
Por otra parte, Gemma 3n mejora notablemente en áreas como el razonamiento, la programación y el soporte multilingüe, algo que le permite procesar texto en 140 idiomas y ofrece comprensión multimodal en 35 idiomas.
Para el reconocimiento de imágenes y video, usa MobileNet-V5, un sistema diseñado para funcionar rápido incluso en celulares, capaz de procesar video a 60 cuadros por segundo en teléfonos Pixel.
Por su parte, el codificador de audio facilita funciones como el reconocimiento de voz y la traducción directamente en el dispositivo, sin conexión a internet.
Los desarrolladores pueden acceder a Gemma 3n a través de plataformas como Hugging Face, Kaggle y Google AI Studio. Esta apertura favorece la integración rápida en proyectos que buscan ejecutar IA localmente, algo esencial para quienes valoran la privacidad, el ahorro energético o la reducción de costos.
Además, Gemma 3n es el primer modelo con menos de 10.000 millones de parámetros en superar 1.300 puntos en la prueba LMArena, un estándar para evaluar la calidad de los modelos de lenguaje.