Enlaces rápidos
El rápido desarrollo de las herramientas de IA depende en gran medida de la disponibilidad de datos de entrenamiento de alta calidad. Con el uso cada vez mayor de estas herramientas en diversos campos, las empresas comenzaron a enfrentar un nuevo desafío representado por la falta de datos de capacitación disponibles. Esta deficiencia puede dificultar el desarrollo y mejora del rendimiento de modelos inteligentes. Entonces, ¿cómo podemos entrenar la IA para que siga creciendo y siendo útil para nosotros?
Se podría pensar que Internet y sus datos son recursos inagotables, pero las herramientas de inteligencia artificial han consumido casi todos los datos disponibles para mí. Ahora bien, antes de que se preocupe, esto no detendrá el desarrollo de la IA; todavía hay muchos datos listos para entrenar sistemas de IA. Existen soluciones innovadoras que pueden ayudar a superar este problema, permitiendo que se sigan mejorando y potenciando las capacidades de IA. Verificar Herramientas de inteligencia artificial que responderán preguntas de archivos PDF.
1. Siempre se agregan más datos en línea
En resumen, dice el Instituto de Investigación en Inteligencia Artificial Epoch Los datos de alta calidad con los que entrenar la IA podrían agotarse en 2026.
La palabra clave allí es "puede". La cantidad de datos agregados a Internet aumenta cada año, por lo que algo drástico puede cambiar antes de 2026. Sin embargo, esta sigue siendo una estimación justa: de cualquier manera, los sistemas de inteligencia artificial se quedarán sin buenos datos en algún momento.
Sin embargo, debemos recordar que cada año se añaden online unos 147 zettabytes de datos (según... Temas explosivos). Sólo un zettabyte equivale a 1,000,000,000,000,000,000,000 bits de datos. En términos reales, son más de 30 mil millones de películas 4K (reales, pero insondables). Es una cantidad asombrosa de información que la IA debe examinar.
Sin embargo, la inteligencia artificial está consumiendo datos más rápido de lo que la humanidad puede producirlos...
2. La IA puede olvidar datos de baja calidad
Por supuesto, no todos los 147 zettabytes de datos son buenos datos. Hay más en esto de lo que parece. Pero se estima que la IA también consumirá datos lingüísticos de baja calidad en 2050.
reportado Reuters Photobucket, que alguna vez fue uno de los repositorios de fotografías más grandes del mundo, está en conversaciones para otorgar licencias de su vasta biblioteca a empresas de capacitación en inteligencia artificial. Las fotos tienen datos para entrenar modelos como DALL-E y Midjourney, pero incluso eso podría agotarse en 2060. Aquí también hay un problema mayor: Photobucket ha incluido fotos de plataformas de redes sociales de la década de XNUMX como Myspace, lo que significa que no son de tan alto nivel como las actuales. fotografía. Esto conduce a datos de baja calidad.
Photobucket no está solo. En febrero de 2024, Google llegó a un acuerdo con Reddit, que permitía al gigante de las búsquedas utilizar los datos de los usuarios de la plataforma de redes sociales para entrenar inteligencia artificial. Otras plataformas de redes sociales también proporcionan datos de los usuarios con fines de formación en IA; Algunos lo usan para entrenar modelos internos de IA, como Meta's Llama.
Sin embargo, si bien se puede extraer cierta información de datos de baja calidad, se informa que Microsoft está desarrollando una forma para que la IA "ignore" los datos de forma selectiva. Principalmente, esta solución se utilizará para cuestiones de propiedad intelectual, pero también puede significar que las herramientas puedan olvidar lo que han aprendido de conjuntos de datos de baja calidad.
Podemos alimentar a la IA con más datos sin ser demasiado selectivos; Estos sistemas de IA pueden luego elegir qué es más útil para aprender.
3. El reconocimiento de voz desbloquea datos disponibles en vídeos y podcasts
Hasta ahora, los datos alimentados por las herramientas de IA han consistido en gran medida en texto y, en menor medida, imágenes. Sin duda, esto cambiará, y probablemente ya lo haya hecho, porque el software de reconocimiento de voz significará que la abundancia de vídeos y podcasts disponibles también podrá entrenar la inteligencia artificial.
Vale la pena señalar que OpenAI desarrolló la red neuronal de código abierto para el reconocimiento automático de voz (ASR). Susurro, utilizando 680.000 horas de datos multilingües y multitarea. Luego, OpenAI introdujo más de un millón de horas de información de videos de YouTube en su modelo de lenguaje grande, GPT-4.
Este es un modelo ideal para otros sistemas de IA, que utilizan el reconocimiento de voz para transcribir vídeo y audio de muchas fuentes y ejecutan esos datos a través de sus propios modelos de IA.
de acuerdo a Statista, cada minuto se suben a YouTube más de 500 horas de vídeo, una cifra que se ha mantenido bastante constante desde 2019. Y eso sin mencionar otras plataformas de vídeo y audio como Dailymotion y Podbean. Si la IA puede centrar su atención en nuevos conjuntos de datos como estos, todavía quedará una enorme cantidad de información por extraer.
4. La IA se ha apegado en gran medida al idioma inglés.
Eso no es todo lo que podemos aprender de Whisper. OpenAI entrenó el modelo utilizando 117000 horas de datos de audio en idiomas distintos del inglés. Esto es especialmente interesante porque muchos sistemas de IA se han entrenado principalmente utilizando el idioma inglés o viendo otras culturas a través de una lente occidental.
En esencia, la mayoría de las herramientas están sujetas a la cultura de sus creadores.
Tomemos ChatGPT como ejemplo. Poco después de su lanzamiento en 2022,... Jill Walker Rettberg, profesor de cultura digital en la Universidad de Bergen, Noruega, experimentó con ChatGPT y concluyó lo siguiente:
“ChatGPT no sabe mucho sobre la cultura noruega. O mejor dicho, se supone que todo lo que sabe sobre la cultura noruega lo aprendió principalmente de fuentes inglesas… ChatGPT es claramente compatible con los valores y las leyes estadounidenses. En muchos casos estos valores se aproximan a los valores noruegos y europeos, pero no siempre es así.
Por lo tanto, los sistemas de IA podrían desarrollarse para que más personas multinacionales interactúen con ellos, o utilizar idiomas y culturas más diversas para entrenar dichos sistemas. Actualmente, muchos modelos de IA están limitados a una única biblioteca; Podría crecer si se le dieran las llaves de las bibliotecas de todo el mundo.
5. Las editoriales pueden ayudar a desarrollar la inteligencia artificial
La propiedad intelectual es obviamente un gran problema, pero algunos editores pueden ayudar a avanzar en la IA celebrando acuerdos de licencia. Esto significa proporcionar a las herramientas datos de alta calidad, es decir, fiables, extraídos de libros, en lugar de información de baja calidad procedente de fuentes en línea.
De hecho, se dice que Meta, propietaria de Facebook, Instagram y Whatsapp, ha considerado comprar Simon & Schuster, una de las editoriales de las “Cinco Grandes”. La idea era utilizar la literatura publicada por la empresa para entrenar la IA de Meta. El acuerdo finalmente fracasó, quizás debido a la zona gris ética de la empresa que procesa IP sin el consentimiento previo de los escritores.
Otra opción que se ha considerado parece ser la compra de derechos de licencia individuales para nuevos títulos. Esto debería causar grandes preocupaciones a los creadores, pero seguirá siendo una forma interesante de desarrollar herramientas de inteligencia artificial cuando se agoten los datos utilizables. Verificar Cómo crear y utilizar éticamente arte basado en IA.
6. Los datos sintéticos son el futuro
Todas las demás soluciones aún son limitadas, pero hay una opción que podría hacer que la IA prospere en el futuro: los datos sintéticos. El asunto ya se está investigando como una posibilidad muy real.
Entonces, ¿qué son los datos sintéticos? Son datos generados por inteligencia artificial; Así como los humanos crean datos, este método hará que la IA cree datos con fines de entrenamiento.
De hecho, la IA puede crear vídeos deepfake convincentes. Este video deepfake se puede enviar a la IA para que pueda aprender de lo que es esencialmente un escenario ficticio. Después de todo, esta es una de las principales formas en que los humanos aprendemos: leemos o miramos algo para comprender el mundo que nos rodea.
Es probable que los sistemas de inteligencia artificial ya hayan consumido información artificial. Los deepfakes han difundido información engañosa y falsa en línea, por lo que cuando los sistemas de inteligencia artificial escanean contenido en línea, es lógico que algunas personas hayan estado expuestas a contenido falso.
Sí, hay un lado siniestro en esto. También puede dañar o limitar los sistemas de inteligencia artificial, reforzando y propagando los errores cometidos por esas herramientas. Las empresas están trabajando para eliminar el problema; Sin embargo, la frase “Las IA aprenden unas de otras y cometen errores” es el argumento de muchos escenarios de pesadilla de ciencia ficción. Verificar Tu guía completa para proteger tu privacidad en la era de la inteligencia artificial.
7. Hacer un mejor uso de la inteligencia artificial
Las herramientas de inteligencia artificial son controvertidas. Tiene muchas desventajas, pero los críticos ignoran sus beneficios. Por ejemplo, Red de Auditoría y Consultoría PwC [PDF] La inteligencia artificial podría aportar hasta 15.7 billones de dólares a la economía mundial para 2030.
Además, la IA ya se utiliza en todo el mundo. Probablemente lo hayas usado hoy de una forma u otra, quizás sin siquiera darte cuenta. Ahora que el genio está fuera de la botella, la clave es definitivamente entrenarlo con datos confiables y de alta calidad para que podamos aprovecharlos adecuadamente.
La inteligencia artificial tiene sus pros y sus contras. Definitivamente hay que encontrar un equilibrio.
Las herramientas de IA se enfrentan cada vez más al desafío de la falta de datos de capacitación disponibles, lo que amenaza con socavar su progreso y desarrollo. Para superar este desafío, se están adoptando soluciones innovadoras, como el uso de datos sintéticos, aprovechar el aprendizaje no supervisado y promover la colaboración entre organizaciones para compartir datos. Estas soluciones ayudan a proporcionar nuevas fuentes de datos, garantizando que los modelos inteligentes continúen mejorando y desarrollándose de manera eficiente y efectiva. Puedes ver ahora Formas en que la IA puede ayudar a los ciberdelincuentes.