Por: Chaim Gartenberg, Colaborador de palabras clave
Google anunció su modelo Gemini de próxima generación : Gemini 1.5. Además de las grandes mejoras en velocidad y eficiencia, una de las innovaciones de Gemini 1.5 es su larga ventana de contexto (En inglés Long Context Window), que mide cuántos tokens (los bloques de construcción más pequeños, como parte de una palabra, imagen o video) que el modelo puede procesar en una vez. Para ayudar a comprender la importancia de este hito, le pedimos al equipo del proyecto Google DeepMind que explicara qué son las ventanas de contexto largas y cómo esta característica experimental innovadora puede ayudar a los desarrolladores de muchas maneras.
Las ventanas de contexto son importantes porque ayudan a los modelos de IA a recordar información durante una sesión. ¿Alguna vez has olvidado el nombre de alguien en medio de una conversación unos minutos después de haberlo dicho, o has corrido por una habitación para tomar una libreta y anotar un número de teléfono que te acaban de dar? Recordar cosas en el flujo de una conversación también puede ser complicado para los modelos de IA: es posible que haya tenido una experiencia en la que un chatbot «olvidó» información después de algunos turnos. Ahí es donde las ventanas de contexto largas pueden ayudar.
Anteriormente, Gemini podía procesar hasta 32.000 tokens a la vez, pero 1.5 Pro (el primer modelo 1.5 que lanzamos para pruebas tempranas) tiene una ventana de contexto de hasta 1 millón de tokens (la ventana de contexto más larga de cualquier modelo básico a gran escala). hasta la fecha. De hecho, incluso hemos probado con éxito hasta 10 millones de tokens en nuestra investigación. Y cuanto más larga sea la ventana de contexto, más texto, imágenes, audio, código o vídeo podrá asimilar y procesar un modelo.
«Nuestro plan original era lograr 128.000 tokens en contexto, y pensé que establecer un listón ambicioso sería bueno, así que sugerí 1 millón de tokens», dice el científico investigador de Google DeepMind Nikolay Savinov, uno de los líderes de investigación del proyecto de contexto largo. «Y ahora incluso hemos superado eso en nuestra investigación por 10 veces».
Para dar este tipo de salto adelante, el equipo tuvo que realizar una serie de innovaciones en aprendizaje profundo. “Hubo un avance que llevó a otro y a otro, y cada uno de ellos abrió nuevas posibilidades”, explica Denis Teplyashin, ingeniero de Google DeepMind. «Y luego, cuando todos se juntaron, nos sorprendió bastante descubrir lo que podían hacer, saltando de 128.000 tokens a 512.000 tokens, a 1 millón de tokens y, recientemente, a 10 millones de tokens en nuestra investigación interna».
Los datos sin procesar que puede manejar 1.5 Pro abren formas completamente nuevas de interactuar con el modelo. En lugar de resumir un documento de decenas de páginas, por ejemplo, puede resumir documentos de miles de páginas. Mientras que el modelo anterior podía ayudar a analizar miles de líneas de código, gracias a su innovadora ventana de contexto larga, 1.5 Pro puede analizar decenas de miles de líneas de código a la vez.
«En una prueba, incorporamos una base de código completa y escribimos documentación para ella, lo cual fue realmente genial», dice Machel Reid, científico investigador de Google DeepMind. «Y hubo otra prueba en la que pudo responder con precisión preguntas sobre la película Sherlock Jr. de 1924 después de que le dimos al modelo la película completa de 45 minutos para que la ‘mirara'».
1.5 Pro también puede razonar a partir de los datos proporcionados en un mensaje. “Uno de mis ejemplos favoritos de los últimos días es este idioma raro, el kalamang, que hablan menos de 200 personas en todo el mundo y sobre el que existe un manual de gramática”, dice Machel. “El modelo no puede hablarlo por sí solo si simplemente le pides que lo traduzca a este idioma, pero con la ventana de contexto larga expandida, puedes poner todo el manual de gramática y algunos ejemplos de oraciones en contexto, y el modelo pudo aprender a traducir del inglés al Kalamang a un nivel similar al de una persona que aprende del mismo contenido”.
Gemini 1.5 Pro viene de serie con una ventana contextual de 128.000 tokens, pero un grupo limitado de desarrolladores y clientes empresariales pueden probarlo con una ventana contextual de hasta 1 millón de tokens a través de AI Studio y Vertex AI en una vista previa privada. La ventana de contexto completa de 1 millón de tokens es computacionalmente intensiva y aún requiere más optimizaciones para mejorar la latencia, en lo que estamos trabajando activamente a medida que la ampliamos.
Y mientras el equipo mira hacia el futuro, continúa trabajando para hacer que el modelo sea más rápido y eficiente, con la seguridad en el centro. También buscan ampliar aún más la ventana de contexto largo, mejorar las arquitecturas subyacentes e integrar nuevas mejoras de hardware. «10 millones de tokens a la vez ya está cerca del límite térmico de nuestras Unidades de Procesamiento Tensor; aún no sabemos dónde está el límite, y el modelo podría ser capaz de generar aún más a medida que el hardware continúe mejorando», dice Nikolay.
El equipo está entusiasmado de ver qué tipo de experiencias pueden lograr también los desarrolladores y la comunidad en general. «Cuando vi por primera vez que teníamos un millón de tokens en contexto, mi primera pregunta fue: ‘¿Para qué usas esto?'», dice Machel. «Pero ahora creo que la imaginación de las personas se está expandiendo y encontrarán formas cada vez más creativas de utilizar estas nuevas capacidades».