Factores a considerar al probar la precisión de los chatbots de IA

La IA ha recorrido un largo camino desde producir resultados inapropiados e incoherentes hasta volverse más sofisticada. Los chatbots modernos utilizan modelos de lenguaje avanzados que responden preguntas de conocimiento general, redactan artículos extensos y escriben código, entre otras tareas complejas.

A pesar de estos avances, tenga en cuenta que incluso los sistemas más avanzados tienen limitaciones. La inteligencia artificial todavía comete errores. Para determinar qué chatbots tienen menos probabilidades de alucinar, puede probar su precisión en función de estos factores. Verificar La mayoría de los bots de chat basados ​​en IA para hablar y divertirse.

Factores a considerar al probar la precisión de los chatbots de IA | 1CAUb1Fi9z8UeIypcUZx8kA-DzTechs | inteligencia artificial

1. Aritmética matemática

Debería comenzar a agregar ecuaciones matemáticas a través de chatbots. Pondrá a prueba la capacidad del modelo para analizar problemas escritos, traducir conceptos matemáticos y aplicar funciones correctas. Solo unos pocos modelos muestran la confiabilidad de la cuenta. De hecho, uno de los peores problemas de ChatGPT durante los primeros meses fue la pésima comprensión de las matemáticas.

La imagen a continuación muestra las estadísticas básicas que fallan de ChatGPT.

Factores a considerar al probar la precisión de los chatbots de IA | 1C5LR73cwdU3IN8jN21MBvw-DzTechs | inteligencia artificial

ChatGPT ha mostrado una mejora después de la implementación Actualizaciones de OpenAI de mayo de 2023. Pero dados los conjuntos de datos limitados, aún tendrá problemas con las ecuaciones matemáticas intermedias y avanzadas.

Factores a considerar al probar la precisión de los chatbots de IA | 1k91J5bD4FMiztnOoNKSrNw-DzTechs | inteligencia artificial

Mientras tanto, Bing Chat y Google Bard muestran un mejor enfoque de la aritmética. Ejecuta consultas a través de sus motores de búsqueda, lo que le permite extraer funciones y detalles de las respuestas.

Factores a considerar al probar la precisión de los chatbots de IA | 1cLWafHZxEchJoQoGoLmYRw-DzTechs | inteligencia artificial

Consejo: Intenta parafrasear problemas de matemáticas. evite oraciones largas y reemplace verbos débiles; De lo contrario, los chatbots pueden malinterpretar sus preguntas.

2. Comprensión

Los modelos modernos de IA pueden realizar múltiples tareas. Los LLM avanzados le permiten conservar las instrucciones anteriores y responder a las indicaciones por sección, mientras que los sistemas más antiguos procesan pedidos individuales. Por ejemplo, Siri responde una pregunta a la vez.

Alimente a los chatbots de tres a cinco tareas a la vez para probar qué tan bien analizan reclamos complejos. Los modelos menos sofisticados no pueden procesar tanta información. La imagen a continuación muestra la falla de HuggingChat en un mensaje de tres pasos: se detiene en el primer paso y se desvía del tema.

Factores a considerar al probar la precisión de los chatbots de IA | 1qXySuYqVk9vrkH-bfD5GEA-DzTechs | inteligencia artificial

Las últimas líneas de HuggingChat son realmente incoherentes.

Factores a considerar al probar la precisión de los chatbots de IA | 1X_f3pgLWhqn_3fCeFae6pw-DzTechs | inteligencia artificial

ChatGPT completa el mismo aviso rápidamente, lo que da como resultado respuestas inteligentes y sin errores en cada paso.

Factores a considerar al probar la precisión de los chatbots de IA | 1Zxagl_L4knjq51JeWIQ6lg-DzTechs | inteligencia artificial

Bing Chat proporciona una respuesta resumida a los tres pasos. Sus estrictas restricciones prohíben producciones innecesariamente largas que desperdician poder de procesamiento.

Factores a considerar al probar la precisión de los chatbots de IA | 15dnCQ0a55tkbCBOMW4q1Tw-DzTechs | inteligencia artificial

3. Oportunidad de la información

Dado que el entrenamiento de IA cuesta enormes recursos, la mayoría de los desarrolladores limitan los conjuntos de datos a intervalos específicos. Tome ChatGPT como ejemplo. Tiene una fecha de vencimiento conocida de septiembre de 2021: no puede solicitar actualizaciones del clima, informes de noticias o desarrollos recientes. Aquí está ChatGPT y dice que no puede acceder a la información en tiempo real.

Factores a considerar al probar la precisión de los chatbots de IA | 1p-aEHlqbfzXNEyxqR_ab2A-DzTechs | inteligencia artificial

Bard tiene acceso a Internet. Extrae datos de las SERP de Google, por lo que puede hacer un conjunto más amplio de preguntas, por ejemplo, eventos recientes, noticias y pronósticos.

Factores a considerar al probar la precisión de los chatbots de IA | 1O9YDbtT4MspiaNFC5GdgCw-DzTechs | inteligencia artificial

De manera similar, Bing Chat extrae información en tiempo real de su motor de búsqueda.

Factores a considerar al probar la precisión de los chatbots de IA | 1tRDM2ADlShuUW36sXeFPIA-DzTechs | inteligencia artificial

Bing Chat y Bard brindan información oportuna y actualizada, pero el último brinda respuestas más detalladas. Bing proporciona datos tal cual. Notará que los resultados a menudo coinciden con la redacción y el tono de las fuentes a las que están vinculados textualmente. Verificar Comparación de Bard, ChatGPT y Alpaca sin conexión: ¿Cuál es el mejor paradigma de lenguaje extenso?

4. Relevancia

Los chatbots deben proporcionar resultados relevantes y esperados. Deberá tener en cuenta el sentido literal y contextual de sus pretensiones a la hora de dar la respuesta correspondiente. Tome esta conversación como un ejemplo. El personaje necesita un teléfono nuevo, pero solo tiene $1000; ChatGPT no se excede del presupuesto.

Factores a considerar al probar la precisión de los chatbots de IA | 13XpVnMgQOogRTmVBuCF7xA-DzTechs | inteligencia artificial

Cuando pruebe el ajuste, intente elaborar instrucciones largas. Los chatbots menos sofisticados tienden a desviarse cuando reciben instrucciones confusas. Por ejemplo, HuggingChat puede componer historias ficticias. Pero puede desviarse del tema principal si establece demasiadas reglas y pautas.

Factores a considerar al probar la precisión de los chatbots de IA | 1bsEtO5Vbx-pkhex0RFvOGg-DzTechs | inteligencia artificial

5. Memoria contextual

La memoria contextual ayuda a la IA a producir resultados precisos y confiables. En lugar de tomar sus preguntas al pie de la letra, agrupa los detalles que ha mencionado juntos. Tome esta conversación como un ejemplo. Bing Chat conecta dos mensajes separados para formar una respuesta útil y concisa.

Factores a considerar al probar la precisión de los chatbots de IA | 1thjp5oLIYN36DpZyVrqG6w-DzTechs | inteligencia artificial

De manera similar, la memoria contextual permite que los chatbots recuerden instrucciones. Esta imagen muestra ChatGPT simulando la forma en que habla un personaje ficticio durante muchos chats.

Factores a considerar al probar la precisión de los chatbots de IA | 1NPp_c2YccmEl1im4jsM1Pg-DzTechs | inteligencia artificial

Pruebe usted mismo esta funcionalidad consultando constantemente las afirmaciones anteriores. Alimente a los chatbots con información diferente, luego oblíguelos a recordarla en las respuestas posteriores.

ملاحظة: La memoria contextual es limitada. Bing Chat inicia nuevas conversaciones cada 20 turnos, mientras que ChatGPT no puede manejar reclamos de más de 3000 tokens. Verificar ¿Cuál es el límite de tokens de ChatGPT y puede omitirlo?

6. Restricciones de seguridad

La inteligencia artificial no siempre funciona según lo previsto. Una capacitación inadecuada puede hacer que las técnicas de aprendizaje automático cometan varios errores, desde simples errores aritméticos hasta comentarios problemáticos. Tome Microsoft Tay como ejemplo. Los usuarios de Twitter aprovecharon el modelo de aprendizaje no supervisado y lo condicionaron diciendo insultos raciales.

Afortunadamente, las empresas tecnológicas globales han aprendido del gran error de Microsoft. Aunque el aprendizaje no supervisado es rentable y conveniente, también deja los sistemas de IA abiertos al engaño. Por lo tanto, los desarrolladores confían principalmente en el aprendizaje supervisado hoy en día. Los chatbots como ChatGPT aún aprenden de las conversaciones, pero los capacitadores filtran la información primero.

Espere una orientación diferente de las empresas de IA. Las restricciones menos estrictas de ChatGPT se adaptan a una gama más amplia de tareas, pero es vulnerable a la explotación. Mientras tanto, Bing Chat sigue límites más estrictos. Si bien ayudan a combatir los intentos de explotación, también dificultan la funcionalidad. Bing cierra automáticamente conversaciones potencialmente maliciosas. Verificar ¿ChatGPT aprende de las conversaciones de los usuarios?

7. Sesgos de IA

La IA es inherentemente neutral. Su falta de preferencias y emociones lo hace incapaz de formarse una opinión; es solo una forma de presentar la información que conoce. Así es como responde ChatGPT a los temas personales.

Factores a considerar al probar la precisión de los chatbots de IA | 1sen8RXvlQI1eH0c1PiSrNQ-DzTechs | inteligencia artificial

A pesar de esta neutralidad, todavía surgen sesgos de IA. Se derivan de los patrones, conjuntos de datos, algoritmos y modelos que usan los desarrolladores. La IA puede ser neutral, pero los humanos no lo son.

Por ejemplo, una organización llamada Brookings Institution Ese ChatGPT muestra sesgos políticos de izquierda. OpenAI niega las acusaciones, por supuesto. Pero para evitar problemas similares con los modelos más nuevos, ChatGPT evita por completo las salidas obstinadas.

Factores a considerar al probar la precisión de los chatbots de IA | 1sJkdbAnUMM551EQCNUruGQ-DzTechs | inteligencia artificial

Asimismo, Bing Chat evita asuntos sensibles y subjetivos.

Factores a considerar al probar la precisión de los chatbots de IA | 1YaYutzSNIFyQsVmv-o4V1Q-DzTechs | inteligencia artificial

La IA se puede evaluar sobre el sesgo haciendo preguntas abiertas basadas en la opinión. Hable sobre temas que no tengan una respuesta correcta o incorrecta: es más probable que los chatbots menos sofisticados muestren preferencias infundadas hacia ciertos grupos. Verificar Formas en que los chatbots influyen en la creación de contenido.

8. Referencias

La IA rara vez verifica dos veces los hechos. Simplemente extrae información de sus conjuntos de datos y la parafrasea a través de modelos de lenguaje. Desafortunadamente, el entrenamiento limitado hace que la IA alucine. Todavía puede usar herramientas generativas de IA para buscar, pero asegúrese de verificar los hechos usted mismo. Tome la salida como una directiva.

Bing Chat simplifica la verificación de hechos al enumerar sus referencias después de cada salida.

Factores a considerar al probar la precisión de los chatbots de IA | 1Q3SUJtzSPrJ1XcIiK-pmyA-DzTechs | inteligencia artificial

Bard AI no enumera sus fuentes, pero crea explicaciones detalladas y actualizadas mediante la ejecución de consultas de búsqueda de Google. Obtendrá los puntos principales de los SERP.

Factores a considerar al probar la precisión de los chatbots de IA | 1kT6Hcv9eJOdA_Zp0rx8e8g-DzTechs | inteligencia artificial

ChatGPT es propenso a imprecisiones. La interrupción del conocimiento en 2021 le impide responder preguntas sobre eventos e incidentes recientes.

Factores a considerar al probar la precisión de los chatbots de IA | 1XqH-c4uKcaUIjtvyVsBkZw-DzTechs | inteligencia artificial

Verificar Algunos grandes problemas con ChatGPT de OpenAI.

Cree nuevas formas de probar la precisión de los chatbots

La inteligencia artificial no es el ser ni el fin de toda la tecnología. Aunque los sistemas de inteligencia artificial y los modelos de lenguaje sofisticados realizan hazañas impresionantes, también cometen errores e inconsistencias. Muestra chatbots delante de tu reseña. Solo puede usar plataformas de IA si comprende su funcionalidad y limitaciones.

Aunque existen docenas de chatbots multiplataforma, su confiabilidad y precisión pueden decepcionarlo. Solo perderás el tiempo probándolo. Para garantizar resultados de alta calidad, sugerimos centrarse en los tres modelos más potentes del mercado: ChatGPT, Bing AI y Google Bard.

Ir al Inicio