NVIDIA anunció su aceleración del nuevo modelo de lenguaje abierto Phi-3 Mini de Microsoft con NVIDIA TensorRT-LLM , una biblioteca de código abierto para optimizar la inferencia de modelos de lenguaje grandes cuando se ejecuta en GPU NVIDIA desde la PC a la nube.
Phi-3 Mini incluye la capacidad de modelos 10 veces más grandes y tiene licencia tanto para investigación como para uso comercial amplio, lo que hace avanzar a Phi-2 desde sus raíces exclusivas para investigación. Las estaciones de trabajo con GPU NVIDIA RTX o PC con GPU GeForce RTX tienen el rendimiento para ejecutar el modelo localmente usando Windows DirectML o TensorRT-LLM.
El modelo tiene 3.800 millones de parámetros y fue entrenado con 3,3 billones de tokens en solo siete días en 512 GPU NVIDIA H100 Tensor Core.
Phi-3 Mini tiene dos variantes, una que admite tokens de 4k y la otra que admite tokens de 128K, que es el primer modelo de su clase para contextos muy largos. Esto permite a los desarrolladores utilizar 128.000 tokens (las partes atómicas del lenguaje que procesa el modelo) al hacerle una pregunta, lo que da como resultado respuestas más relevantes del modelo.
Los desarrolladores pueden probar Phi-3 Mini con la ventana contextual de 128K en ai.nvidia.com , donde está empaquetado como NVIDIA NIM, un microservicio con una interfaz de programación de aplicaciones estándar que se puede implementar en cualquier lugar.
Creando eficiencia para el borde
Los desarrolladores que trabajan en robótica autónoma y dispositivos integrados pueden aprender a crear e implementar IA generativa a través de tutoriales impulsados por la comunidad, como en Jetson AI Lab , e implementar Phi-3 en NVIDIA Jetson .
Con solo 3.800 millones de parámetros, el modelo Phi-3 Mini es lo suficientemente compacto como para funcionar de manera eficiente en dispositivos periféricos. Los parámetros son como botones, en la memoria, que se han ajustado con precisión durante el proceso de entrenamiento del modelo para que el modelo pueda responder con alta precisión a las indicaciones de entrada.
Phi-3 puede ayudar en casos de uso con costos y recursos limitados, especialmente para tareas más simples. El modelo puede superar a algunos modelos más grandes en puntos de referencia de lenguajes clave y, al mismo tiempo, ofrecer resultados dentro de los requisitos de latencia.
TensorRT-LLM admitirá la ventana de contexto larga de Phi-3 Mini y utiliza muchas optimizaciones y núcleos como LongRoPE , FP8 y procesamiento por lotes en vuelo, que mejoran el rendimiento de inferencia y la latencia. Las implementaciones de TensorRT-LLM pronto estarán disponibles en la carpeta de ejemplos de GitHub . Allí, los desarrolladores pueden convertir al formato de punto de control TensorRT-LLM, que está optimizado para la inferencia y se puede implementar fácilmente con NVIDIA Triton Inference Server .
Desarrollo de sistemas abiertos
NVIDIA contribuye activamente al ecosistema de código abierto y ha lanzado más de 500 proyectos bajo licencias de código abierto.
Al contribuir a muchos proyectos externos como JAX, Kubernetes, OpenUSD, PyTorch y el kernel de Linux, NVIDIA también admite una amplia variedad de fundaciones y organismos de estándares de código abierto.
Las noticias de hoy amplían las colaboraciones de larga data de NVIDIA con Microsoft, que han allanado el camino para innovaciones que incluyen la aceleración de DirectML , la nube de Azure, la investigación de IA generativa y la atención médica y las ciencias biológicas.