La plataforma de GPUs de Nvidia para desarrollar y ejecutar AI conversacional que comprende y responde a las solicitudes de lenguaje natural ha logrado algunos hitos clave y ha batido algunos récords que tienen grandes implicaciones para cualquiera que desarrolle su tecnología, incluyendo compañías grandes y pequeñas, ya que gran parte de el código que han utilizado para lograr estos avances es de código abierto, escrito en PyTorch y fácil de ejecutar.

Los mayores logros que Nvidia anunció hoy incluyen su récord en el entrenamiento de BERT, uno de los modelos de lenguaje IA más avanzados del mundo y un modelo de vanguardia ampliamente considerado como un buen estándar para el procesamiento del lenguaje natural.

La plataforma de inteligencia artificial de Nvidia pudo entrenar al modelo en solo 53 minutos, y el modelo entrenado pudo inferir con éxito (es decir, aplicar la capacidad aprendida lograda a través del entrenamiento para lograr resultados) en menos de 2 milisegundos (10 milisegundos se considera una marca alta en la industria), otro récord.

Estos avances se amplían y brindan beneficios del mundo real para cualquiera que trabaje con su IA de conversación y hardware de GPU de PNL.

Nvidia logró sus tiempos récord para el entrenamiento en uno de sus sistemas SuperPOD que está compuesto por 92 sistemas Nvidia DGX-2H con 1,472 GPU V100, y gestionó la inferencia en GPU Nvidia T4 con Nvidia TensorRT, que superó el rendimiento de CPU optimizadas en gran magnitud. Sin embargo puso a disposición el código de capacitación BERT y la muestra BERT optimizada de TensorRT a través de GitHub para que todos puedan aprovecharla.

Junto con estos hitos, el ala de Investigación de Nvidia también construyó y entrenó el modelo de lenguaje más grande jamás basado en "Transformadores", que es la tecnología que subyace también al BERT. Este modelo personalizado incluye 8.300 millones de parámetros, lo que lo hace 24 veces más grande que BERT-Large, el modelo BERT más grande actual.

Nvidia ha titulado este modelo "Megatron" y también ofreció el código PyTorch que usó para entrenar este modelo para que otros también puedan entrenar sus propios modelos de lenguaje similares basados ​​en Transformers.

Te puede interesar