Apple, Anthropic y Nvidia en la mira por utilizar videos de YouTube para entrenamiento IA
Más de 170.000 vídeos de YouTube forman parte de un enorme conjunto de datos que se utilizó para entrenar sistemas de inteligencia artificial para algunas de las mayores empresas de tecnología, según una investigación de Proof News y publicada conjuntamente con Wired. Apple, Anthropic, Nvidia y Salesforce se encuentran entre las empresas de tecnología que utilizaron los datos de “Subtítulos de YouTube” que fueron extraídos de la plataforma de video sin permiso. El conjunto de datos de entrenamiento es una colección de subtítulos tomados de videos de YouTube que pertenecen a más de 48.000 canales; no incluye imágenes de los videos.
En el conjunto de datos aparecen vídeos de creadores populares como MrBeast y Marques Brownlee, al igual que clips de medios de comunicación como ABC News, la BBC y The New York Times. En el conjunto de datos aparecen más de 100 vídeos de The Verge, junto con muchos otros vídeos de Vox.
«Apple ha obtenido datos para su IA de varias empresas, escribió Brownlee, conocido por su alias MKBHD, en una publicación en X. «Uno de ellos extrajo toneladas de datos/transcripciones de videos de YouTube, incluido el mío». Y añadió: «Este será un problema en evolución durante mucho tiempo».
El conjunto de datos de subtítulos es parte de una colección más amplia de material de la organización sin fines de lucro EleutherAI llamada The Pile. La colección de código abierto conocida como Pile también contiene conjuntos de datos de libros, artículos de Wikipedia y más. El año pasado, un análisis de un conjunto de datos llamado Books3 reveló qué trabajos de los autores se habían utilizado para entrenar sistemas de IA, y el conjunto de datos ha sido citado en demandas de los autores contra las empresas que lo utilizaron para entrenar la IA.
Las empresas de IA rara vez son voluntariamente transparentes sobre los datos que ingresan en sus sistemas de IA. Cómo se utiliza específicamente el contenido de YouTube ha sido una pregunta clave en los últimos meses. En marzo, cuando OpenAI presentó su poderosa herramienta de generación de videos, Sora, CTO Mira Murati esquivó repetidamente las preguntas sobre si el sistema estaba entrenado en videos de YouTube.
En entrevistas anteriores, el director ejecutivo de YouTube, Neal Mohan, dijo que el uso de contenido de vídeo para entrenar la IA (incluidas las transcripciones) violan los términos de la plataforma.
Vía – TheVerge