Suscríbete a Merca2.0. Haz clic aquí

Cómo Google y OpenAI apuestan por el contenido periodístico para entrenar la IA 

Hoy, el periodismo profesional se posiciona como el nuevo recurso estratégico para entrenar a los modelos de IA.
  • Los modelos de IA generativa requieren grandes volúmenes de datos textuales de alta calidad para entrenar, y el contenido periodístico ofrece un lenguaje estructurado, verificado y con rigor editorial ideal para este propósito.

  • Según el AI Index Report del Stanford Institute for Human-Centered AI, alrededor del 40% de los datasets más usados en el entrenamiento de modelos en inglés contienen información proveniente de medios noticiosos, directa o indirectamente.

  • El uso no autorizado del contenido periodístico para entrenar IA ha generado tensiones legales y comerciales.

Weaponising the Law: Attacks

La inteligencia artificial no solo está revolucionando la forma en que consumimos información, también está redefiniendo qué se considera valioso en la economía digital. En esa transformación, el periodismo ha dejado de ser solo una herramienta para informar y ha empezado a convertirse en materia prima para entrenar algoritmos. No se trata ya de lectores humanos, sino de modelos que aprenden, predicen y generan lenguaje a partir de lo que una vez fue producto editorial.

Google, que durante años evitó involucrarse de lleno en negociaciones de licencias para IA, ahora parece cambiar de rumbo. De acuerdo con Bloomberg, la firma busca reclutar a por lo menos 20 medios de comunicación como parte de un programa piloto, en un movimiento que parece más defensivo que visionario: OpenAI y Perplexity ya llevan ventaja, firmando acuerdos con grandes editoriales para garantizarse acceso exclusivo a contenido valioso.

Esta carrera no es solo por datos, sino por legitimidad. La presión regulatoria y el temor a litigios por el uso no autorizado de contenido han forzado a los gigantes tecnológicos a replantear su relación con los medios. Ahora buscan sellos de aprobación. Pero detrás de esta diplomacia superficial, se mantiene una realidad estructural: los medios generan contenido con valor informativo, las tecnológicas lo traducen en valor computacional.

Mientras algunas plataformas resisten la tentación como YouTube, que ha puesto límites al uso de su contenido para entrenamiento de la IA de OpenAI, otros podrían no tener esa posibilidad. Lo que está en juego no es solo quién entrena la mejor IA, sino qué modelo económico prevalecerá en el ecosistema del conocimiento digital.

Y es que, el entrenamiento de los modelos de inteligencia artificial generativa depende, en su núcleo, de enormes cantidades de datos textuales. Para que estos sistemas comprendan el lenguaje humano, produzcan respuestas coherentes y generen contenidos relevantes, necesitan exponerse a ejemplos ricos en estructura, intención y contexto. En ese proceso, el contenido periodístico se ha vuelto particularmente valioso.

A diferencia de otros tipos de texto disponibles en línea como foros, comentarios o entradas de blogs, el periodismo profesional ofrece un lenguaje claro, fuentes verificadas, jerarquías informativas bien definidas y un tratamiento editorial riguroso. Es decir, un entorno ideal para que los modelos aprendan no solo a escribir, sino a hacerlo con credibilidad, precisión y relevancia temática.

Según un informe del AI Index Report 2024 elaborado por el Stanford Institute for Human-Centered AI, la calidad y procedencia de los datos utilizados para entrenar modelos se ha convertido en uno de los temas más relevantes del debate ético y técnico.

El reporte destaca que el 40% de los datasets más influyentes para entrenar modelos de lenguaje en inglés contienen información extraída de sitios noticiosos, ya sea de forma directa o a través de repositorios como Common Crawl.

Pero este uso no siempre ha sido consentido. De hecho, medios como The New York Times, Gannett y Axel Springer han iniciado acciones legales o renegociaciones contractuales tras descubrir que parte de su contenido fue utilizado para entrenar modelos sin autorización.

El trasfondo de esta tensión es económico: mientras las plataformas tecnológicas monetizan los resultados de estos modelos, los productores originales del contenido no siempre reciben una compensación justa o transparente.

Además, el auge de la IA generativa está desafiando las lógicas de autoría, propiedad intelectual y modelo de negocio en la industria editorial.

Este nuevo paradigma plantea una pregunta clave para el futuro de la información: ¿qué ocurre cuando el contenido deja de valorarse por su función social y pasa a entenderse como materia prima computacional?

 

 

 

 

 

 

 

Ahora lee: 

Labubus superan a gigantes de la industria juguetera como Mattel y Sanrio

Louis Vuitton creó su propio anime para promocionar perfume

Walmart y su apuesta por la IA ¿puede compensar la jornada laboral de 40 horas?

 

Obtén un més gratis a Merca2.0 premium

Cancela en cualquier momento
Acceso exclusivo a rankings y radiografías.
Análisis profundos y casos de estudio de éxito.
Historial de la revista impresa en formato digital.

¡Disfruta de lo mejor del marketing sin costo alguno por un mes!

Más de 150,000 mercadólogos inscritos en nuestros boletín de noticias diarias.

Premium

Populares

Únete a más de 150,000 lectores

Regístrate a nuestro newsletter en la siguiente forma y recibe a primera hora las noticias más importantes de mercadotecnia, publicidad y medios en tu correo.

Más de Merca2.0

Artículos relacionados

You don't have credit card details available. You will be redirected to update payment method page. Click OK to continue.

Revista Merca2.0
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.