Enlaces rápidos
El campo del procesamiento del lenguaje natural (PLN) ha sido testigo de una tremenda revolución en los últimos años, con la aparición de grandes modelos de lenguaje (LLM) que ofrecen capacidades excepcionales para comprender y procesar el lenguaje humano. Gemini 1.5 es uno de los últimos modelos y ofrece enormes posibilidades contextuales. El modelo Google Gemini 1.5 ahora viene con una enorme ventana contextual de XNUMX millón de íconos únicos, eclipsando a sus competidores directos como ChatGPT, Claude y otros chatbots impulsados por IA.
La ventana contextual de un millón de tokens en Gemini 1.5 cambia las reglas del juego, ya que permite que el modelo tenga una comprensión más profunda y precisa del lenguaje. Con una mayor capacidad contextual, el modelo puede analizar más palabras y frases que rodean una palabra u oración determinada, lo que le ayuda a inferir mejor el significado. Verificar Llega Gemini AI de Google: ¿Destaca más que ChatGPT en el mundo de la IA?
¿Qué es la ventana de contexto?
Al responder a sus consultas, como explicar un concepto o resumir un texto, los modelos de IA tienen límites en la cantidad de datos que pueden tener en cuenta para generar una respuesta. El tamaño máximo de texto que se puede considerar se llama ventana de contexto.
Aquí hay otra manera de ver este concepto. Supongamos que fue a una tienda de comestibles a comprar algunas verduras y artículos para el hogar sin su lista de compras. La cantidad máxima de alimentos que recuerda al comprar es la ventana contextual. Cuantas más compras recuerdes, mayores serán tus posibilidades de no arruinar tus planes de compras designados. Del mismo modo, cuanto más grande sea la ventana de contexto de un modelo de IA, es más probable que el modelo recuerde todo lo que necesita para brindarle los mejores resultados.
En el momento de escribir este artículo, la ventana de contexto Claude 2.1 de Anthropic con 200 tokens es la ventana de contexto más grande de cualquier modelo de IA disponible públicamente. Le sigue GPT-4 Turbo con una ventana contextual de 128 tokens. Google Gemini 1.5 ofrece un millón de ventanas contextuales, cuatro veces más grande que cualquier otra cosa en el mercado. Esto lleva a la gran pregunta: ¿Qué tiene de especial una ventana contextual con un millón de iconos distintos? Verificar ¿Cuál es el límite de tokens de ChatGPT y puede omitirlo?
¿Por qué la ventana de contexto en Gemini 1.5 es tan importante?
Para decirlo con más detalle, la ventana de contexto de 200 de Claude AI significa que puede aceptar un libro de alrededor de 150 palabras y proporcionarle respuestas. Esto es realmente enorme. ¡Pero Google Gemini 1.5 podrá contener 700000 palabras a la vez!
Cuando introduces un gran bloque de texto en las indicaciones de un chatbot de IA como ChatGPT o Gemini, intenta absorber la mayor cantidad de texto posible, pero la cantidad que puede absorber depende de su ventana de contexto. Entonces, si tienes una conversación de 100 palabras en un modelo que sólo puede manejar 28 palabras, y luego comienzas a hacerle preguntas que requieren que tenga pleno conocimiento de las 100 palabras de la conversación, lo estás preparando para el fracaso. .
Imagínese ver sólo 20 minutos de una película de una hora y que le pidan que explique toda la película. ¿Qué tan buenos serán tus resultados? O se niega a responder o simplemente inventa cosas, que es exactamente lo que hará un chatbot de IA, lo que resultará en... Alucinaciones de inteligencia artificial.
Ahora bien, si crees que nunca has tenido que introducir 100 palabras en un chatbot, eso no es lo único que importa. La ventana de contexto va más allá del texto enviado al modelo de IA en un solo mensaje. Los modelos de IA tienen en cuenta toda la conversación que tienes durante una sesión de chat para garantizar que sus respuestas sean lo más relevantes posible.
Entonces, aunque no le estés dando al modelo un libro de 100 palabras, tus conversaciones de ida y vuelta y las respuestas que da se suman al cálculo de la ventana de contexto. ¿Te preguntas por qué ChatGPT o Gemini de Google siguen olvidando cosas que les dijiste anteriormente en la conversación? Es posible que se haya quedado sin espacio en la ventana de contexto y haya comenzado a olvidar cosas.
La ventana de contexto más grande es especialmente importante para tareas que requieren una comprensión profunda del contexto, como resumir artículos extensos, responder preguntas complejas o mantener una narrativa coherente en el texto generado. ¿Quieres escribir una novela de 50 palabras que tenga una narrativa coherente en todo momento? ¿Quieres un modelo que pueda “ver” y responder preguntas en un video de una hora? ¡Necesitas una ventana de contexto más grande!
En resumen, la ventana de contexto más grande de Gemini 1.5 puede mejorar significativamente el rendimiento de su modelo de IA, reduciendo las alucinaciones y aumentando drásticamente la precisión y la capacidad de seguir mejor las instrucciones.
¿Gemini 1.5 estará a la altura de las expectativas?
Si todo va según lo planeado, Gemini 1.5 probablemente superará a los mejores modelos de IA del mercado. Sin embargo, dados los numerosos fracasos de Google a la hora de construir un modelo de IA estable, es importante ser cautelosos. Abrir la ventana de contexto del formulario por sí solo no mejora automáticamente el formulario.
He estado usando la ventana de contexto de 2.1k Claude 200 durante varios meses desde su lanzamiento, y una cosa me quedó clara: una ventana de contexto más grande realmente puede mejorar la sensibilidad al contexto, pero los problemas con el rendimiento del modelo subyacente pueden hacer que un contexto más grande sea problemático. para ello.
¿Google Gemini 1.5 cambiará las reglas del juego? Actualmente, las redes sociales están llenas de críticas entusiastas sobre Gemini 1.5 por parte de usuarios de acceso temprano. Sin embargo, la mayoría de las reseñas de cinco estrellas provienen de casos de uso apresurados o simplistas. Un buen lugar para comprobar cómo funciona el Gemini 1.5 en la naturaleza es el informe técnico de Google Géminis 1.5 [PDF]. El informe muestra que incluso durante las "pruebas controladas", el modelo no pudo recuperar todos los detalles finos de los documentos dentro del tamaño de su ventana contextual.
Una ventana de contexto de un millón de tokens ya es un logro técnico impresionante, pero sin la capacidad de recuperar de manera confiable los detalles del documento, una ventana de contexto más grande tiene poco valor práctico y puede convertirse en la causa de una menor precisión y alucinaciones adicionales. Puedes ver ahora Más allá de ChatGPT: ¿una visión para el futuro de los chatbots y la IA generativa?