OpenAI utilizó millones de vídeos de YouTube para entrenar GPT-4
The Wall Street Journal informó que las empresas de inteligencia artificial se estaban topando con un muro cuando se trata de recopilar datos de capacitación de alta calidad. Sumado a esto, The New York Times detalló algunas de las formas en que las empresas han abordado esto. Como era de esperar, implica hacer cosas que caen en el área gris y confusa de la ley de derechos de autor de IA.
La historia comienza con OpenAI que, desesperado por obtener datos de entrenamiento, supuestamente desarrolló su modelo de transcripción de audio Whisper para superar cualquier obstáculo, transcribiendo más de un millón de horas de videos de YouTube para entrenar GPT-4, su modelo de lenguaje más avanzado. Según The New York Times, la compañía sabía que esto era legalmente cuestionable pero creía que su uso era legítimo. El presidente de OpenAI, Greg Brockman, participó personalmente en la recopilación de los vídeos que se utilizaron, escribe el Times.
El artículo del Times sostiene que la compañía agotó los suministros de datos útiles en 2021 y discutió la transcripción de videos, podcasts y audiolibros de YouTube después de analizar otros recursos. Para entonces, había entrenado sus modelos con datos que incluían código informático de Github, bases de datos de movimientos de ajedrez y contenido de tareas escolares de Quizlet.
Google también recopiló transcripciones de YouTube, según las fuentes del Times. Al respecto, Matt Bryant, portavoz de Google, dijo que la compañía ha entrenado a sus modelos “en algunos contenidos de YouTube, de acuerdo con nuestros acuerdos con los creadores de YouTube”.
El Times escribe que el departamento legal de Google pidió al equipo de privacidad de la compañía que modificara el lenguaje de su política para ampliar lo que podía hacer con los datos de los consumidores, como sus herramientas de oficina como Google Docs. Según se informa, la nueva política se publicó intencionalmente el 1 de julio para aprovechar la distracción del fin de semana festivo del Día de la Independencia.
Meta también chocó con los límites de una buena disponibilidad de datos de entrenamiento, y en grabaciones que escuchó el Times, su equipo de IA discutió su uso no permitido de obras protegidas por derechos de autor mientras trabajaba para ponerse al día con OpenAI. La empresa, después de revisar “libros, ensayos, poemas y artículos de noticias en inglés casi disponibles en Internet”, aparentemente consideró tomar medidas como pagar las licencias de los libros o incluso comprar directamente una editorial importante. Aparentemente, también estaba limitada en la forma en que podía utilizar los datos de los consumidores por los cambios centrados en la privacidad que realizó a raíz del escándalo de Cambridge Analytica.
Google, OpenAI y el mundo del entrenamiento de IA en general están luchando con datos de entrenamiento que se evaporan rápidamente para sus modelos, que mejoran cuanto más datos absorben. El Journal escribió esta semana que las empresas pueden superar el contenido nuevo para 2028.
Las posibles soluciones a ese problema mencionado por el Journal el lunes incluyen modelos de entrenamiento sobre datos «sintéticos» creados por sus propios modelos o el llamado «aprendizaje curricular», que implica alimentar a los modelos con datos de alta calidad de manera ordenada usando mucha menos información, pero ninguno de estos enfoques ha sido probado todavía. Pero la otra opción de las empresas es utilizar todo lo que puedan encontrar, tengan permiso o no, y basándose en múltiples demandas presentadas en el último año, esa manera es, digamos, más que un poco complicada.
Vía – TheVerge