-
Los modelos de IA generativa requieren grandes volúmenes de datos textuales de alta calidad para entrenar, y el contenido periodístico ofrece un lenguaje estructurado, verificado y con rigor editorial ideal para este propósito.
-
Según el AI Index Report del Stanford Institute for Human-Centered AI, alrededor del 40% de los datasets más usados en el entrenamiento de modelos en inglés contienen información proveniente de medios noticiosos, directa o indirectamente.
-
El uso no autorizado del contenido periodístico para entrenar IA ha generado tensiones legales y comerciales.
La inteligencia artificial no solo está revolucionando la forma en que consumimos información, también está redefiniendo qué se considera valioso en la economía digital. En esa transformación, el periodismo ha dejado de ser solo una herramienta para informar y ha empezado a convertirse en materia prima para entrenar algoritmos. No se trata ya de lectores humanos, sino de modelos que aprenden, predicen y generan lenguaje a partir de lo que una vez fue producto editorial.
Google, que durante años evitó involucrarse de lleno en negociaciones de licencias para IA, ahora parece cambiar de rumbo. De acuerdo con Bloomberg, la firma busca reclutar a por lo menos 20 medios de comunicación como parte de un programa piloto, en un movimiento que parece más defensivo que visionario: OpenAI y Perplexity ya llevan ventaja, firmando acuerdos con grandes editoriales para garantizarse acceso exclusivo a contenido valioso.
Esta carrera no es solo por datos, sino por legitimidad. La presión regulatoria y el temor a litigios por el uso no autorizado de contenido han forzado a los gigantes tecnológicos a replantear su relación con los medios. Ahora buscan sellos de aprobación. Pero detrás de esta diplomacia superficial, se mantiene una realidad estructural: los medios generan contenido con valor informativo, las tecnológicas lo traducen en valor computacional.
Mientras algunas plataformas resisten la tentación como YouTube, que ha puesto límites al uso de su contenido para entrenamiento de la IA de OpenAI, otros podrían no tener esa posibilidad. Lo que está en juego no es solo quién entrena la mejor IA, sino qué modelo económico prevalecerá en el ecosistema del conocimiento digital.
Y es que, el entrenamiento de los modelos de inteligencia artificial generativa depende, en su núcleo, de enormes cantidades de datos textuales. Para que estos sistemas comprendan el lenguaje humano, produzcan respuestas coherentes y generen contenidos relevantes, necesitan exponerse a ejemplos ricos en estructura, intención y contexto. En ese proceso, el contenido periodístico se ha vuelto particularmente valioso.
A diferencia de otros tipos de texto disponibles en línea como foros, comentarios o entradas de blogs, el periodismo profesional ofrece un lenguaje claro, fuentes verificadas, jerarquías informativas bien definidas y un tratamiento editorial riguroso. Es decir, un entorno ideal para que los modelos aprendan no solo a escribir, sino a hacerlo con credibilidad, precisión y relevancia temática.
Según un informe del AI Index Report 2024 elaborado por el Stanford Institute for Human-Centered AI, la calidad y procedencia de los datos utilizados para entrenar modelos se ha convertido en uno de los temas más relevantes del debate ético y técnico.
El reporte destaca que el 40% de los datasets más influyentes para entrenar modelos de lenguaje en inglés contienen información extraída de sitios noticiosos, ya sea de forma directa o a través de repositorios como Common Crawl.
Pero este uso no siempre ha sido consentido. De hecho, medios como The New York Times, Gannett y Axel Springer han iniciado acciones legales o renegociaciones contractuales tras descubrir que parte de su contenido fue utilizado para entrenar modelos sin autorización.
El trasfondo de esta tensión es económico: mientras las plataformas tecnológicas monetizan los resultados de estos modelos, los productores originales del contenido no siempre reciben una compensación justa o transparente.
Además, el auge de la IA generativa está desafiando las lógicas de autoría, propiedad intelectual y modelo de negocio en la industria editorial.
Este nuevo paradigma plantea una pregunta clave para el futuro de la información: ¿qué ocurre cuando el contenido deja de valorarse por su función social y pasa a entenderse como materia prima computacional?
Ahora lee:
Labubus superan a gigantes de la industria juguetera como Mattel y Sanrio
Louis Vuitton creó su propio anime para promocionar perfume
Walmart y su apuesta por la IA ¿puede compensar la jornada laboral de 40 horas?