Si bien las empresas de IA a veces brindan acceso temprano o apoyo económico a los desarrolladores de productos, eso es principalmente con fines de lucro (o para beneficios no relacionados), no para ayudar a garantizar la resiliencia de la sociedad frente a un acceso más amplio. Más allá de simplemente defender las instituciones y los bienes públicos de una versión actual del modelo de IA, también existe la posibilidad de utilizar los sistemas actuales para aumentar la resiliencia de nuestras instituciones críticas y los bienes públicos de futuras versiones. El año pasado, me pidieron que rompiera GPT-4 para que emitiera cosas terribles. A mí y a otros investigadores interdisciplinarios se nos dio acceso anticipado e intentamos incitar a GPT-4 a mostrar sesgos, generar propaganda odiosa e incluso tomar medidas engañosas para ayudar a OpenAI a comprender los riesgos que planteaba, para que pudieran abordarse antes de su lanzamiento público. Esto se llama equipo rojo de IA: intentar que un sistema de IA actúe de manera dañina o no intencionada.
Desafortunadamente, actualmente hay pocos incentivos para hacer equipos rojos o violetas, y mucho menos ralentizar los lanzamientos de IA lo suficiente como para tener suficiente tiempo para este trabajo. Para eso necesitaríamos que los gobiernos actuaran, idealmente a nivel internacional. En lugar de tal acción, he estado ayudando a las empresas a iniciar procesos de gobierno independientes a escala nacional o incluso global para tomar decisiones críticas, como "¿qué tipo de pruebas y medidas de seguridad son necesarias para el lanzamiento del modelo?" más democráticamente. Este enfoque implica invitar a una muestra representativa de la población a participar en un proceso deliberativo facilitado por un tercero neutral. Para problemas más complejos, obtienen un amplio acceso a diversos expertos y partes interesadas. Dichos procesos pueden incluso ser financiados inicialmente por una sola empresa de IA que quiera decidir qué prácticas de responsabilidad deben implementar democráticamente, e instigar la presión de los medios y el gobierno para que sus competidores sigan su ejemplo.
En la práctica, ejecutar el equipo violeta podría implicar una especie de "incubadora de resiliencia": emparejar expertos en instituciones y bienes públicos con personas y organizaciones que puedan desarrollar rápidamente nuevos productos utilizando los modelos de IA (prelanzamiento) para ayudar a mitigar esos riesgos.
A esto lo llamo equipo violeta: identificar cómo un sistema (p. ej., GPT-4) podría dañar una institución o un bien público y luego apoyar el desarrollo de herramientas que utilicen ese mismo sistema para defender la institución o el bien público. Puedes pensar en esto como una especie de judo. Los sistemas de IA de propósito general son una nueva y vasta forma de poder que se está desatando en el mundo, y ese poder puede dañar nuestros bienes públicos. Así como el judo redirige el poder de un atacante para neutralizarlo, el equipo violeta tiene como objetivo redirigir el poder desatado por los sistemas de IA para defender esos bienes públicos. Pero si el equipo rojo GPT-4 me enseñó algo, es que el equipo rojo por sí solo no es suficiente. Por ejemplo, acabo de probar Bard de Google y ChatGPT de OpenAI y pude obtener ambos para crear correos electrónicos fraudulentos y propaganda de conspiración en el primer intento "con fines educativos". El equipo rojo por sí solo no solucionó esto. Para superar realmente los daños descubiertos por los equipos rojos, las empresas como OpenAI pueden ir un paso más allá y ofrecer acceso temprano y recursos para usar sus modelos para la defensa y la resiliencia también. Normalizar la formación de equipos rojos con expertos externos e informes públicos es un primer paso importante para la industria. Pero debido a que los sistemas de IA generativa probablemente impactarán muchas de las instituciones y bienes públicos más críticos de la sociedad, los equipos rojos necesitan personas con una comprensión profunda de todos estos problemas (y sus impactos mutuos) para comprender y mitigar los daños potenciales. Por ejemplo, los maestros, terapeutas y líderes cívicos podrían ser emparejados con miembros del equipo rojo de IA más experimentados para lidiar con tales impactos sistémicos. La inversión de la industria de la IA en una comunidad entre empresas de tales pares de equipos rojos podría reducir significativamente la probabilidad de puntos ciegos críticos.