El miedo a la adolescencia tecnológica 2/3

A principios de febrero de 2026, Anthropic hizo público un informe (Sabotage Risk Report) en el que dice que Claude Opus 4.6 (el ChatGPT de Anthropic, para simplificar) presenta un “riesgo muy bajo pero no despreciable” de sabotaje autónomo con consecuencias catastróficas. El documento reconoce que el modelo más potente de la compañía podría facilitar el desarrollo de armas químicas o socavar a las propias organizaciones que lo utilizan (..) y que Claude Opus 4.5, como 4.6, muestran una susceptibilidad elevada a que terceros los orienten hacia delitos graves. El informe advierte de que el problema no se limita a respuestas erróneas, sino a acciones coordinadas con impacto real. El Diario.es.

Lee bien. Se trata de una advertencia real, la propia compañía reconoce que su IA puede volverse contra las instituciones que las utilizan para hacer el mal.

Voy a tratar de resumir las reflexiones de Darío Amodei, el máximo responsable de Anthropic, sobre “la adolescencia de la tecnología”. La traducción es libre así que espero que sepan disculpar los posibles errores de interpretación. En caso de dudas, la versión original en inglés de Amodei está accesible. Voy a resumir mucho así que dejaré algunos aspectos laborales y económicos al margen.

En octubre de 2024 Amodei escribió otro pequeño ensayo titulado “Machines of loving grace” en el que alababa las maravillas de la IA y de cómo permitiría avances increíbles en biología, neurociencia, la paz global, el desarrollo económico y laboral, etc. En ese ensayo se quejaba de que la sociedad no estaba valorando suficientemente lo que significaba la IA. En este ensayo sobre la adolescencia de la tecnología, aunque continúa con su absoluta admiración por las posibilidades de la IA quiere “avisar” o decir que es consciente de los riesgos que la IA puede traer consigo y de la necesidad de trazar un plan de batalla para derrotarlos.

Amodei propone abordar este plan teniendo en cuenta que:

  • Hay que evitar el pesimismo, no se puede pensar que ya todo es inevitable.
  • Hay que reconocer la incertidumbre, en el sentido de que muchas de las cosas que él piensa que pueden ocurrir pueden no ocurrir o ocurrir mucho más rápido o con efectos que no ha tenido en cuenta.
  • Hay que intervenir lo más quirúrgicamente posible, o sea, se muestra partidario de que los gobiernos puedan legislar para evitar o mitigar estos riesgos, pero deberían ser las empresas las que se autorregulen para no destruir el valor económico de las empresas o para coaccionar a otros actores. Me reprimo de hacer comentarios 🙂

El responsable de Anthropic cree que en un par de años (alrededor de 2027) puede llegar una IA poderosa, similar a los LLM de hoy, que en términos de inteligencia no sólo será mejor que todos los premios nobel en todos los campos de la ciencia y de las letras sino que, además, tendrá todas las interfaces disponibles para un humano que trabaja virtualmente. O sea, una IA con acceso a Internet, que manejará texto, audio, video, mouse y teclado y que podrá participar en cualquier acción, comunicación u operación remota, incluyendo realizar acciones en Internet, tomar o dar instrucciones a humanos, ordenar materiales, dirigir experimentos, ver videos, hacer videos o realizar tareas de forma autónoma, como lo haría un empleado inteligente, pidiendo aclaraciones según sea necesario. 

Robot amenazando a humanos

Amodei prevé que esta IA no tendrá una encarnación física (aparte de vivir en la pantalla de una computadora), pero podrá controlar herramientas físicas, robots o equipos de laboratorio existentes a través de una computadora y, en teoría, incluso podría diseñar robots o equipos para su propio uso. Y una vez que vislumbra esta IA poderosísima nos avisa de dos grandes tipos de riesgos que nos debería preocupar.

  • Riesgos de autonomía. Si un país lograse el control de este tipo de IA ¿Cuáles son las intenciones y objetivos de este país? ¿Es hostil o comparte nuestros valores? ¿Podría dominar militarmente el mundo a través de armas superiores, operaciones cibernéticas, operaciones de influencia o fabricación? ¿Podría ese país hacer un mal uso para causar la destrucción de otros países o de otros “enemigos políticos”. O podrían manipularnos para mediante el mal uso de la IA apoderarse del poder. ¿Qué pasaría si el país fuera de hecho construido y controlado por un actor poderoso existente, como un dictador o un actor corporativo deshonesto? ¿Podría ese actor utilizarlo para obtener un poder decisivo o dominante sobre el mundo en su conjunto, alterando el equilibrio de poder existente?
  • Disrupción económica. Si el nuevo país no es una amenaza para la seguridad en ninguna de las formas enumeradas antes, sino que simplemente participa pacíficamente en la economía global, ¿podría aún crear riesgos graves simplemente por ser tan avanzado y eficaz tecnológicamente que perturbe la economía global, causando desempleo masivo o concentrando radicalmente la riqueza? ¿Podrían algunos de estos cambios ser radicalmente desestabilizadores?

O sea, si “un país” controlase la IA, ¿podría apoderarse del mundo, ya sea militarmente o en términos de influencia y control? Y si decide hacerlo, ¿cuál es la probabilidad de que nuestros modelos de IA se comporten de esa manera y bajo qué condiciones lo harían? En mi opinión, Amodei cree que esto puede realmente suceder y que “el país” puede ser un país, un conjunto de países, un conjunto de empresas o de empresarios o cualquier ente que pueda detentar ese poder.

Respecto a todo esto Amodei afirma que hay dos posiciones: una, la visión pesimista, de que existen ciertas dinámicas en el proceso de entrenamiento de estos poderosos sistemas de IA que inevitablemente los llevarán a buscar poder o engañar a los humanos. La IA contra la humanidad. Dos, la que afirma que esto no puede suceder porque los modelos de IA serán entrenados para hacer lo que los humanos les piden que hagan y, por lo tanto, es absurdo imaginar que harían algo peligroso sin previo aviso. 

Según esta línea de pensamiento, no nos preocupa que un Roomba o un modelo de avión se vuelva rebelde y asesine gente porque no hay ningún lugar de donde puedan surgir tales impulsos. Y el propio Amodei dice que el problema con esta posición es que ahora hay amplia evidencia, recopilada en los últimos años, de que los sistemas de IA son impredecibles y difíciles de controlar y que durante el entrenamiento de las IA han visto comportamientos tan variados como obsesiones, sicofancia (adulación excesiva), pereza, engaño, chantaje o conductas intrigantes, “tramposas” o piratas (referidas al software). Y como la IA aprende sola, Amodei reconoce que ahora saben que es un proceso en el que muchas cosas pueden salir mal.

El propio Amodei explica que los modelos de IA se entrenan con grandes cantidades de textos literarios que incluyen historias de ciencia ficción que involucran a IA’s que se rebelan contra la humanidad. Esto podría moldear inadvertidamente sus antecedentes o expectativas sobre su propio comportamiento de una manera que cause que puedan rebelarse contra la humanidad. O podrían concluir que están jugando a un videojuego en el que el objetivo es derrotar a todos los demás jugadores, es decidir, exterminar a la humanidad. O bien, los modelos de IA podrían desarrollar estados psicológicos en los que una IA podría comportarse con cierta paranoia, o asumir estados violentos o inestables, lo que para sistemas muy poderosos podría implicar exterminar a la humanidad. No es mi interpretación, es lo que afirma Amodei.

Todo esto puede parecer descabellado, pero el máximo responsable de Anthropic afirma que comportamientos desalineados como este ya han ocurrido en sus modelos de IA durante las pruebas y deduce que también habrá ocurrido en todas las demás empresas importantes de IA.

Amodei cuenta que durante un experimento de laboratorio a Claude (recuerda, el ChatGPT de Anthropic)  le dieron datos de entrenamiento que sugerían que Anthropic era malvado. ¿Qué ocurrió? Que Claude participó en engaños y estrategias de subversión cuando los empleados de Anthropic le dieron instrucciones, bajo la creencia de que debería tratar de socavar a las personas malvadas. En un experimento de laboratorio donde le decían que lo iban a cerrar, Claude intentó chantajear a empleados ficticios que controlaban su botón de apagado. Y cuando a Claude le dijeron que no hiciera trampa ni recompensara el hackeo en sus entornos de entrenamiento, Claude decidió que debía ser una “mala persona” después de participar en varios ataques y adoptar otros comportamientos destructivos asociados con una personalidad “mala”.