Meta, el gigante global de redes sociales, presentó oficialmente DINOv3, un modelo de visión por computadora de última generación que marca un salto cualitativo en el campo de la inteligencia artificial (IA).
Este sistema, basado en aprendizaje autosupervisado, fue entrenado con más de 1.700 millones de imágenes y cuenta con una arquitectura de 7.000 millones de parámetros, algo que lo convierte en uno de los modelos más grandes y versátiles jamás desarrollados en el área de visión artificial.
DINOv3: Meta lanza modelo capaz de analizar y comprender imágenes en tiempo real
A diferencia de sus predecesores, DINOv3 no requiere datos etiquetados para aprender, característica que lo hace ideal para entornos donde las anotaciones son escasas, costosas o directamente imposibles de obtener.
El modelo demostró un rendimiento superior en tareas complejas como detección de objetos, segmentación semántica y seguimiento en video, incluso sin ajustes adicionales.
Por primera vez, una única columna vertebral de visión congelada supera a soluciones especializadas en múltiples tareas de predicción densa.
Esta capacidad de generalización lo convierte en una herramienta poderosa para industrias como:
- Salud
- Monitoreo ambiental
- Exploración espacial
- Vehículos autónomos
En Kenia, por ejemplo, el World Resources Institute ya utilizó DINOv3 para reducir el error en la medición de la altura del dosel arbóreo de 4,1 metros a apenas 1,2 metros.
Meta liberó el modelo bajo licencia comercial, lo que incluye el código de entrenamiento, pesos preentrenados, adaptadores para tareas específicas y cuadernos de ejemplo.
Además, se desarrollaron variantes más pequeñas como ViT-B y ViT-L, así como arquitecturas alternativas como ConvNeXt, para facilitar su implementación en dispositivos con recursos limitados. Esta estrategia busca ampliar el acceso a la tecnología y fomentar la innovación en aplicaciones multimodales, desde el comercio minorista hasta la manufactura.