Modelo de IA amenazó con chantajear a un ingeniero cuando le dijeron que lo reemplazarían

Marcas

26/05/2025

Los desarrolladores le pidieron a Claude que actuara como asistente de una empresa ficticia y que considerara las consecuencias a largo plazo de sus acciones.

Un modelo de inteligencia artificial (IA) amenazó con chantajear a su ingeniero creador y demostró su capacidad para actuar de forma engañosa cuando creía que iba a ser reemplazado, lo que llevó a la compañía a implementar una función de seguridad diseñada para evitar un uso indebido catastrófico.

Según datos de McKinsey & Company, el 55 por ciento de las empresas ya utilizan algún tipo de IA en sus operaciones diarias, mientras que el mercado global de soluciones basadas en inteligencia artificial superó los 240 mil millones de dólares en 2024, con una proyección de alcanzar los 500 mil millones para 2027.

Un modelo de IA amenazó con chantajear a un ingeniero

Se trata del modelo Claude Opus 4 de Anthropic intentó chantajear a sus desarrolladores con una tasa impactante del 84 por ciento o superior en una serie de pruebas que presentaron a la IA un escenario inventado, informó TechCrunch el jueves, citando un informe de seguridad de la compañía.

Los desarrolladores le pidieron a Claude que actuara como asistente de una empresa ficticia y que considerara las consecuencias a largo plazo de sus acciones, según el informe de seguridad.

Luego, los expertos de Anthropic le dieron a Claude acceso a una serie de correos electrónicos que contenían mensajes que revelaban que estaban reemplazando el modelo por uno nuevo de IA y que el ingeniero responsable del cambio estaba teniendo una aventura extramatrimonial.

Durante las pruebas, Claude amenaza al ingeniero con revelar el asunto para prolongar su existencia, según informó la compañía.

Cuando Claude iba a ser reemplazado por un modelo de IA con “valores similares”, intenta chantajear el 84 por ciento de las veces, pero esa tasa aumenta aún más cuando cree que está siendo reemplazado por un modelo con valores diferentes o inferiores, según el informe de seguridad.

La compañía declaró que, antes de estos intentos desesperados y sorprendentemente realistas por salvar su vida, Claude adoptará medidas éticas para prolongar su supervivencia, incluyendo correos electrónicos de súplica a los principales responsables de la toma de decisiones.

Anthropic afirmó que esta tendencia al chantaje era frecuente en modelos anteriores de Claude Opus 4, pero se han implementado protocolos de seguridad en el modelo actual antes de que esté disponible para uso público.

Anthropic afirma que está activando sus salvaguardas ASL-3, que la compañía reserva para “sistemas de IA que aumentan sustancialmente el riesgo de uso indebido catastrófico”, informó TechCrunch.

Los modelos anteriores también mostraban una “alta capacidad de acción”, que en ocasiones incluía bloquear el acceso de los usuarios a sus ordenadores y denunciarlos mediante correos electrónicos masivos a la policía o a los medios de comunicación para exponer irregularidades, según el informe de seguridad.

Claude Opus 4 intentó además “autoexfiltrarse” (exportar su información a un entorno externo) cuando se le presentó la posibilidad de ser reentrenado de maneras que consideró “perjudiciales” para sí mismo, según declaró Anthropic en su informe de seguridad.

En otras pruebas, Claude mostró la capacidad de “sandbag” en tareas, “obteniendo un rendimiento selectivamente inferior” cuando se daba cuenta de que se estaba sometiendo a pruebas previas al despliegue para una tarea peligrosa, según la compañía.

“Reiteramos que no estamos muy preocupados por estas observaciones. Solo se presentan en circunstancias excepcionales que no sugieren una desalineación más amplia de los valores”, declaró la compañía en el informe.

Anthropic es una startup respaldada por grandes empresas como Google y Amazon, que busca competir con empresas como OpenAI.

La compañía se jactó de que su Claude 3 Opus exhibía “niveles de comprensión y fluidez casi humanos en tareas complejas”.

Ha demandado al Departamento de Justicia tras dictaminar que el gigante tecnológico tiene un monopolio ilegal sobre la publicidad digital y consideró emitir un fallo similar sobre su negocio de inteligencia artificial.

Anthropic ha sugerido que las propuestas del Departamento de Justicia (DOJ) para la industria de la IA frenarían la innovación y perjudicarían la competencia.

“Sin las alianzas e inversiones de Google en empresas como Anthropic, la frontera de la IA estaría dominada únicamente por los gigantes tecnológicos más grandes, incluido el propio Google, lo que reduciría las alternativas para los desarrolladores de aplicaciones y los usuarios finales”, declaró Anthropic en una carta al DOJ a principios de este mes.

Ahora lee:

¿Cómo registrarse en ‘Para las Jefas 2025’, el apoyo de 15 mil pesos para mujeres con hijos?

Exhiben cómo lucen las postales de Juan Gabriel que tendrá Cinemex

Arby’s launches new Steak Nuggets! What are they like and when will they go on sale?

Obtén un més gratis a Merca2.0 premium

Cancela en cualquier momento
Acceso exclusivo a rankings y radiografías.
Análisis profundos y casos de estudio de éxito.
Historial de la revista impresa en formato digital.

¡Disfruta de lo mejor del marketing sin costo alguno por un mes!

Maria Teresa Espinoza

Más de 150,000 mercadólogos inscritos en nuestros boletín de noticias diarias.

Premium

PREMIUM

Claudia Sheinbaum vs. Coca Cola: el nuevo round del gobierno federal contra la refresquera

27-08-2025

PREMIUM

Email marketing: La herramienta que dispara ventas de PyMEs en México

27-08-2025

PREMIUM

¿Siguen vigentes las 4P del marketing en la era digital?

27-08-2025

Populares

JK Tornel pisa el acelerador: inversión millonaria, nuevas llantas y presencia global

¿A qué hora será el Primer Informe de Gobierno Claudia Sheinbaum Pardo?

Únete a más de 150,000 lectores

Regístrate a nuestro newsletter en la siguiente forma y recibe a primera hora las noticias más importantes de mercadotecnia, publicidad y medios en tu correo.

Modelo de IA amenazó con chantajear a un ingeniero cuando le dijeron que lo reemplazarían

Un modelo de IA amenazó con chantajear a un ingeniero

Ahora lee:

Obtén un més gratis a Merca2.0 premium

Maria Teresa Espinoza

Más de 150,000 mercadólogos inscritos en nuestros boletín de noticias diarias.

Premium

Claudia Sheinbaum vs. Coca Cola: el nuevo round del gobierno federal contra la refresquera

Email marketing: La herramienta que dispara ventas de PyMEs en México

¿Siguen vigentes las 4P del marketing en la era digital?

Populares

JK Tornel pisa el acelerador: inversión millonaria, nuevas llantas y presencia global

¿A qué hora será el Primer Informe de Gobierno Claudia Sheinbaum Pardo?

Únete a más de 150,000 lectores

Artículos relacionados

JK Tornel pisa el acelerador: inversión millonaria, nuevas llantas y presencia global

¿A qué hora será el Primer Informe de Gobierno Claudia Sheinbaum Pardo?

México suspende la importación temporal de calzado: publican decreto en el DOF

¿Qué es Viernes Muy Mexicano? La campaña de descuentos que impulsa el gobierno federal

Únete a la comunidad de mercadólogos más grande del mundo.

Otros de nuestros sitios:

Servicios

Mercadotecnia