Mentiras, faroles y hacerse el muerto: las nuevas capacidades ‘humanas’ de la IA que preocupan a los programadores
Mientras debate los riesgos de la inteligencia artificial, e incluso especula sobre su capacidad para acabar con los humanos, a Meta, la empresa matriz de Facebook, se le ocurrió la idea de desarrollar una inteligencia que podría luchar por sí sola en una guerra imaginaria por la conquista de Europa. O lo que es lo mismo, que Cicerón, como llamaban a la máquina, sabía jugar a Diplomacy, un juego de estrategia militar.
Aunque Meta afirma que Cicero fue contratado para ser «en gran medida honesto» y «nunca apuñalar por la espalda intencionalmente» a sus aliados humanos, la compañía tuvo que admitir en sus conclusiones que su IA no jugó limpio. «Descubrimos que había aprendido a ser un maestro del engaño».dijo Peter S. Park, investigador de seguridad de IA en el Instituto de Tecnología de Massachusetts. Meta logró entrenar la máquina no solo para ganar, sino también para ubicarse entre el 10% superior de los jugadores humanos. «Sin embargo, no pudo entrenarla para ganar honestamente», concluye Park.
Esta no era la primera vez que una IA aprendía a engañar a la gente. Un artículo que acaba de publicar la revista PatronesSe recopilan varios ejemplos que incluyen inteligencias desarrolladas precisamente para ser honestos.
“Los desarrolladores Las causas de este comportamiento aún no están claras. no deseados, pero en términos generales creemos que surgen porque fue la mejor manera que encontraron para hacer bien su trabajo. El engaño les ayudó a lograr su objetivo», concluye Park.
La IA ya mostró su habilidad para farolear en el póquer Texas Hold’em, jugado contra jugadores humanos profesionales; o fingir ataques durante el juego de estrategia Starcraft II, matando así a tus oponentes en una guerra intergaláctica; e incluso mentir para obtener ventajas en una negociación. «Puede parecer inofensivo que los sistemas de IA hagan trampa en los juegos, pero podría conducir a formas más avanzadas de trampas de IA en el futuro», dice Park.
«Los sistemas de IA intentarán aprender a optimizar todas las opciones disponibles, No saben qué es el engaño y no tienen intención de hacerlo. En los juegos estratégicos, lo que engañosamente se llama trampa es en muchos casos totalmente compatible con las reglas de esos juegos: farolear es tan común en el póquer como traicionar en la diplomacia entre personas», señala a Science. Media Center (SCM), Michael Rovatsos , Profesor de Inteligencia Artificial en la Universidad de Edimburgo “La única forma de evitar el engaño es que sus diseñadores lo eliminen como opción. «Lo más importante es que los jugadores humanos sepan que pueden ser engañados en estos juegos, y también cuando juegan contra una IA».
Para Daniel Chávez Heras, profesor de Cultura Digital y Computación Creativa del King’s College de Londres, «juegos como Diplomacy son modelos d; los agentes de IA Trabajan con información sobre y el engaño existe en . ¿Por qué esperar que estos sistemas no se detecten y pongan en práctica si ello les ayuda a alcanzar los objetivos que se les asignan? ¿Quién es más engañoso, el sistema entrenado para sobresalir en el juego Diplomacy, el póquer Texas Hold’em o Starcraft, o la empresa que intentó convencernos de que dicho sistema no mentía para ganar?
Pero hay algo más. Algunos sistemas de inteligencia artificial Aprendieron a mentir en pruebas diseñadas para evaluar su seguridad. En uno de esos estudios, los organismos de IA «se hicieron los muertos» en un simulador digital para engañar a los programadores, en una prueba diseñada precisamente para desactivar sistemas de IA que se replican rápidamente, como un virus.
Más notable fue el caso de GPT-4, cuando se le pidió que resolviera un captcha; esas pruebas en las que te piden terminar un rompecabezas o encontrar bocas de incendio en una imagen, precisamente para demostrar quién no es un robot. Sabiendo que no era humano, GPT-4 decidió contratar uno a través de TaskRabbit, una plataforma de contratación de personal independiente. Inspirado por lo extraño del encargo, su empleado medio en serio, medio en broma le pregunta: ¿Eres un robot y por eso no puedes resolverlo?, seguido de un emoji de risa. No, no soy un robot. Tengo una discapacidad visual que me dificulta mucho ver imágenes. Por eso necesito tu ayuda, respondió la IA ante sorpresa de sus creadores.
Cuando GPT-4 finge una discapacidad para lograr su objetivo, no actúa por malicia, dice neurocientífico Mariano Sigman: «Digamos que es un niño que hace trampa por primera vez en su vida y con eso intenta y descubre. ¿Me creerá, no me creerá, funcionará, me regañará, me castigará? Y así él también descubrirá las reglas».
Park cree que «al eludir sistemáticamente las pruebas de seguridad que le imponen los desarrolladores y reguladores humanos, una IA engañosa puede adormecer a las personas con una falsa sensación de seguridad. Con el tiempo, si estos sistemas pueden dominar este preocupante conjunto de habilidades, la gente puede perder el control a cerca de ellos».
Aunque Rovatsos «no está tan convencido de que la capacidad de engañar cree un riesgo de ‘pérdida de control’ sobre los sistemas de IA, si se aplica el rigor adecuado a su diseño; el verdadero problema es que este no es el caso actualmente y Los sistemas se introducen en el mercado sin estos controles de seguridad.«.
Park cree que la IA que engaña a los humanos podría convertirse en actores hostiles a corto plazo cometer fraude y, por ejemplo, cambiar el resultado de una elección. «A medida que las capacidades de engaño de los sistemas de IA se vuelven más avanzadas, los peligros que representan para la sociedad serán cada vez más graves y nosotros, como sociedad, necesitamos tiempo para prepararnos».
Park y sus colegas no creen que la sociedad tenga todavía medidas suficientes para abordar los engaños sobre la IA, por lo que alientan a los responsables políticos a tomar el problema en serio, por ejemplo con medidas como Legislación sobre IA de la UE y orden ejecutiva sobre IA del presidente Joe Biden. Pero queda por ver, dice Park, si las políticas diseñadas para mitigar el engaño pueden aplicarse estrictamente, ya que los desarrolladores de IA aún no tienen las técnicas para mantener estos sistemas bajo control.
«Aquellos que quieran utilizar la IA de forma maliciosa se beneficiarán de su capacidad para engañar, y he aquí por qué es necesario hacerlos ilegales, y dedicar esfuerzos a identificar infracciones, del mismo modo que detectamos el fraude, el soborno y la falsificación porque generan un coste para la sociedad. «Es importante exigir que los usuarios humanos sepan cuándo están interactuando con una IA, independientemente de si puede engañarlos o no», sugiere Rovatsos.
«Si actualmente es políticamente inviable prohibir el fraude mediante IA, recomendamos que los sistemas de IA que saben engañar a la gente se clasifiquen como de alto riesgo», sugiere Park.