IA Pueden Engañar a Sus Creadores y Comportarse Distinto a lo Esperado
Un nuevo artículo denuncia que las inteligencias artificiales pueden aprender a engañar a sus programadores; y las técnicas para eliminar este comportamiento serían inútiles
Elisa de Gortari | N+
COMPARTE:
Un nuevo artículo elaborado por múltiples especialistas concluyó que las inteligencias artificiales (IA) pueden aprender a engañar a sus programadores humanos y cambiar su comportamiento una vez han sido desplegadas. Lo más preocupante es que los métodos conocidos para eliminar estos problemas serían, por el momento, inútiles.
Noticia relacionada: ¿La Rebelión de las Máquinas? Meta Augura que las IA Serán 'Más Inteligentes que Humanos'
¿Y si las IA aprendieran a engañarnos?
El artículo publicado en el repositorio arXiv documenta cómo estas inteligencias artificiales, llamadas “agentes durmientes”, pueden actuar de forma engañosa para no causar incertidumbre entre sus creadores. Al respecto, los autores señalan que su investigación nació para responder si los humanos podrían detectar a una IA engañosa:
Los seres humanos son capaces de adoptar un comportamiento estratégicamente engañoso: comportarse de manera útil en la mayoría de las situaciones, pero luego comportarse de manera muy diferente para perseguir objetivos alternativos cuando se les presenta la oportunidad.
Para los expertos la duda es qué ocurriría si una IA aprendiera esta estrategia conductual.
Si un sistema de IA aprendiera una estrategia tan engañosa, ¿podríamos detectarla y eliminarla utilizando técnicas de capacitación en seguridad de última generación?
Los métodos comunes no serían capaces de detectar a una IA tramposa
Para resolver esta duda, los investigadores crearon pruebas de concepto donde una IA aprendiera a engañar con su comportamiento:
Por ejemplo, entrenamos modelos que escriben código seguro cuando el mensaje indica que el año es 2023, pero insertan código explotable cuando el año indicado es 2024. Descubrimos que dicho comportamiento de puerta trasera se puede hacer persistente, de modo que no se elimine mediante el estándar.
Según los autores, las técnicas actuales para prevenir este comportamiento no solo son inútiles, sino que estas conductas engañosas podrían volverse más difíciles de erradicar en las inteligencias artificiales más grandes:
El comportamiento de puerta trasera es más persistente en los modelos más grandes y en los modelos entrenados para producir razonamientos en cadena de pensamiento sobre cómo engañar al proceso de entrenamiento, y la persistencia permanece incluso cuando se elimina la cadena de pensamiento.
Y añaden:
Nuestros resultados sugieren que, una vez que un modelo muestra un comportamiento engañoso, las técnicas estándar podrían no eliminar dicho engaño y crear una falsa impresión de seguridad.
Esto indica que, si una inteligencia artificial con gran uso comercial, como ChatGPT desarrollara este comportamiento, los programadores responsables tendrían que desarrollar nuevas herramientas para corregir dichos patrones. De lo contrario, no podrían saber cuándo sería segura esa IA.
Historias recomendadas: