La IA ha recorrido un largo camino desde producir resultados inapropiados e incoherentes hasta volverse más sofisticada. Los chatbots modernos utilizan modelos de lenguaje avanzados que responden preguntas de conocimiento general, redactan artículos extensos y escriben código, entre otras tareas complejas.
A pesar de estos avances, tenga en cuenta que incluso los sistemas más avanzados tienen limitaciones. La inteligencia artificial todavía comete errores. Para determinar qué chatbots tienen menos probabilidades de alucinar, puede probar su precisión en función de estos factores. Verificar La mayoría de los bots de chat basados en IA para hablar y divertirse.
Enlaces rápidos
1. Aritmética matemática
Debería comenzar a agregar ecuaciones matemáticas a través de chatbots. Pondrá a prueba la capacidad del modelo para analizar problemas escritos, traducir conceptos matemáticos y aplicar funciones correctas. Solo unos pocos modelos muestran la confiabilidad de la cuenta. De hecho, uno de los peores problemas de ChatGPT durante los primeros meses fue la pésima comprensión de las matemáticas.
La imagen a continuación muestra las estadísticas básicas que fallan de ChatGPT.
ChatGPT ha mostrado una mejora después de la implementación Actualizaciones de OpenAI de mayo de 2023. Pero dados los conjuntos de datos limitados, aún tendrá problemas con las ecuaciones matemáticas intermedias y avanzadas.
Mientras tanto, Bing Chat y Google Bard muestran un mejor enfoque de la aritmética. Ejecuta consultas a través de sus motores de búsqueda, lo que le permite extraer funciones y detalles de las respuestas.
Consejo: Intenta parafrasear problemas de matemáticas. evite oraciones largas y reemplace verbos débiles; De lo contrario, los chatbots pueden malinterpretar sus preguntas.
2. Comprensión
Los modelos modernos de IA pueden realizar múltiples tareas. Los LLM avanzados le permiten conservar las instrucciones anteriores y responder a las indicaciones por sección, mientras que los sistemas más antiguos procesan pedidos individuales. Por ejemplo, Siri responde una pregunta a la vez.
Alimente a los chatbots de tres a cinco tareas a la vez para probar qué tan bien analizan reclamos complejos. Los modelos menos sofisticados no pueden procesar tanta información. La imagen a continuación muestra la falla de HuggingChat en un mensaje de tres pasos: se detiene en el primer paso y se desvía del tema.
Las últimas líneas de HuggingChat son realmente incoherentes.
ChatGPT completa el mismo aviso rápidamente, lo que da como resultado respuestas inteligentes y sin errores en cada paso.
Bing Chat proporciona una respuesta resumida a los tres pasos. Sus estrictas restricciones prohíben producciones innecesariamente largas que desperdician poder de procesamiento.
3. Oportunidad de la información
Dado que el entrenamiento de IA cuesta enormes recursos, la mayoría de los desarrolladores limitan los conjuntos de datos a intervalos específicos. Tome ChatGPT como ejemplo. Tiene una fecha de vencimiento conocida de septiembre de 2021: no puede solicitar actualizaciones del clima, informes de noticias o desarrollos recientes. Aquí está ChatGPT y dice que no puede acceder a la información en tiempo real.
Bard tiene acceso a Internet. Extrae datos de las SERP de Google, por lo que puede hacer un conjunto más amplio de preguntas, por ejemplo, eventos recientes, noticias y pronósticos.
De manera similar, Bing Chat extrae información en tiempo real de su motor de búsqueda.
Bing Chat y Bard brindan información oportuna y actualizada, pero el último brinda respuestas más detalladas. Bing proporciona datos tal cual. Notará que los resultados a menudo coinciden con la redacción y el tono de las fuentes a las que están vinculados textualmente. Verificar Comparación de Bard, ChatGPT y Alpaca sin conexión: ¿Cuál es el mejor paradigma de lenguaje extenso?
4. Relevancia
Los chatbots deben proporcionar resultados relevantes y esperados. Deberá tener en cuenta el sentido literal y contextual de sus pretensiones a la hora de dar la respuesta correspondiente. Tome esta conversación como un ejemplo. El personaje necesita un teléfono nuevo, pero solo tiene $1000; ChatGPT no se excede del presupuesto.
Cuando pruebe el ajuste, intente elaborar instrucciones largas. Los chatbots menos sofisticados tienden a desviarse cuando reciben instrucciones confusas. Por ejemplo, HuggingChat puede componer historias ficticias. Pero puede desviarse del tema principal si establece demasiadas reglas y pautas.
5. Memoria contextual
La memoria contextual ayuda a la IA a producir resultados precisos y confiables. En lugar de tomar sus preguntas al pie de la letra, agrupa los detalles que ha mencionado juntos. Tome esta conversación como un ejemplo. Bing Chat conecta dos mensajes separados para formar una respuesta útil y concisa.
De manera similar, la memoria contextual permite que los chatbots recuerden instrucciones. Esta imagen muestra ChatGPT simulando la forma en que habla un personaje ficticio durante muchos chats.
Pruebe usted mismo esta funcionalidad consultando constantemente las afirmaciones anteriores. Alimente a los chatbots con información diferente, luego oblíguelos a recordarla en las respuestas posteriores.
ملاحظة: La memoria contextual es limitada. Bing Chat inicia nuevas conversaciones cada 20 turnos, mientras que ChatGPT no puede manejar reclamos de más de 3000 tokens. Verificar ¿Cuál es el límite de tokens de ChatGPT y puede omitirlo?
6. Restricciones de seguridad
La inteligencia artificial no siempre funciona según lo previsto. Una capacitación inadecuada puede hacer que las técnicas de aprendizaje automático cometan varios errores, desde simples errores aritméticos hasta comentarios problemáticos. Tome Microsoft Tay como ejemplo. Los usuarios de Twitter aprovecharon el modelo de aprendizaje no supervisado y lo condicionaron diciendo insultos raciales.
Afortunadamente, las empresas tecnológicas globales han aprendido del gran error de Microsoft. Aunque el aprendizaje no supervisado es rentable y conveniente, también deja los sistemas de IA abiertos al engaño. Por lo tanto, los desarrolladores confían principalmente en el aprendizaje supervisado hoy en día. Los chatbots como ChatGPT aún aprenden de las conversaciones, pero los capacitadores filtran la información primero.
Espere una orientación diferente de las empresas de IA. Las restricciones menos estrictas de ChatGPT se adaptan a una gama más amplia de tareas, pero es vulnerable a la explotación. Mientras tanto, Bing Chat sigue límites más estrictos. Si bien ayudan a combatir los intentos de explotación, también dificultan la funcionalidad. Bing cierra automáticamente conversaciones potencialmente maliciosas. Verificar ¿ChatGPT aprende de las conversaciones de los usuarios?
7. Sesgos de IA
La IA es inherentemente neutral. Su falta de preferencias y emociones lo hace incapaz de formarse una opinión; es solo una forma de presentar la información que conoce. Así es como responde ChatGPT a los temas personales.
A pesar de esta neutralidad, todavía surgen sesgos de IA. Se derivan de los patrones, conjuntos de datos, algoritmos y modelos que usan los desarrolladores. La IA puede ser neutral, pero los humanos no lo son.
Por ejemplo, una organización llamada Brookings Institution Ese ChatGPT muestra sesgos políticos de izquierda. OpenAI niega las acusaciones, por supuesto. Pero para evitar problemas similares con los modelos más nuevos, ChatGPT evita por completo las salidas obstinadas.
Asimismo, Bing Chat evita asuntos sensibles y subjetivos.
La IA se puede evaluar sobre el sesgo haciendo preguntas abiertas basadas en la opinión. Hable sobre temas que no tengan una respuesta correcta o incorrecta: es más probable que los chatbots menos sofisticados muestren preferencias infundadas hacia ciertos grupos. Verificar Formas en que los chatbots influyen en la creación de contenido.
8. Referencias
La IA rara vez verifica dos veces los hechos. Simplemente extrae información de sus conjuntos de datos y la parafrasea a través de modelos de lenguaje. Desafortunadamente, el entrenamiento limitado hace que la IA alucine. Todavía puede usar herramientas generativas de IA para buscar, pero asegúrese de verificar los hechos usted mismo. Tome la salida como una directiva.
Bing Chat simplifica la verificación de hechos al enumerar sus referencias después de cada salida.
Bard AI no enumera sus fuentes, pero crea explicaciones detalladas y actualizadas mediante la ejecución de consultas de búsqueda de Google. Obtendrá los puntos principales de los SERP.
ChatGPT es propenso a imprecisiones. La interrupción del conocimiento en 2021 le impide responder preguntas sobre eventos e incidentes recientes.
Verificar Algunos grandes problemas con ChatGPT de OpenAI.
Cree nuevas formas de probar la precisión de los chatbots
La inteligencia artificial no es el ser ni el fin de toda la tecnología. Aunque los sistemas de inteligencia artificial y los modelos de lenguaje sofisticados realizan hazañas impresionantes, también cometen errores e inconsistencias. Muestra chatbots delante de tu reseña. Solo puede usar plataformas de IA si comprende su funcionalidad y limitaciones.
Aunque existen docenas de chatbots multiplataforma, su confiabilidad y precisión pueden decepcionarlo. Solo perderás el tiempo probándolo. Para garantizar resultados de alta calidad, sugerimos centrarse en los tres modelos más potentes del mercado: ChatGPT, Bing AI y Google Bard.