Red Teaming GPT-4 fue valioso. Violet Teaming lo hará mejor

El equipo rojo es un paso valioso hacia la construcción de modelos de IA que no perjudiquen a la sociedad. Para fortalecer los sistemas de IA, necesitamos saber cómo pueden fallar, e idealmente lo hacemos antes de que creen problemas significativos en el mundo real. Imagínese lo que podría haber sido diferente si Facebook hubiera tratado de trabajar en equipo rojo con expertos externos sobre el impacto de sus principales cambios en el sistema de recomendación de IA, y solucionado los problemas que descubrieron, antes de afectar las elecciones y los conflictos en todo el mundo. Aunque OpenAI enfrenta muchas críticas válidas, su voluntad de involucrar a investigadores externos y proporcionar una descripción pública detallada de todos los daños potenciales de sus sistemas establece un estándar de apertura que los competidores potenciales también deben seguir. Por ejemplo, es difícil para las empresas que crean sistemas de inteligencia artificial como GPT-4 identificar y evitar que estos sistemas se utilicen para estafas y desinformación hiperdirigidas. Esto podría afectar bienes públicos como el comercio eficiente, el funcionamiento democrático y nuestra capacidad para responder a las crisis. En este caso, el equipo violeta podría implicar el desarrollo o la mejora de motores de contextualización que pueden reducir estos daños al ayudar a las personas a navegar en un entorno de información en rápida evolución. Necesitamos no solo mitigar proactivamente los riesgos en los propios sistemas a través de equipos rojos, sino también descubrir cómo protegernos contra su impacto a través de equipos violetas y decidir qué medidas de seguridad necesitamos en torno a tales casos de uso a través de la innovación democrática. Los tres elementos son imprescindibles para superar intactos esta próxima fase de la revolución de la IA.

Si bien las empresas de IA a veces brindan acceso temprano o apoyo económico a los desarrolladores de productos, eso es principalmente con fines de lucro (o para beneficios no relacionados), no para ayudar a garantizar la resiliencia de la sociedad frente a un acceso más amplio. Más allá de simplemente defender las instituciones y los bienes públicos de una versión actual del modelo de IA, también existe la posibilidad de utilizar los sistemas actuales para aumentar la resiliencia de nuestras instituciones críticas y los bienes públicos de futuras versiones. El año pasado, me pidieron que rompiera GPT-4 para que emitiera cosas terribles. A mí y a otros investigadores interdisciplinarios se nos dio acceso anticipado e intentamos incitar a GPT-4 a mostrar sesgos, generar propaganda odiosa e incluso tomar medidas engañosas para ayudar a OpenAI a comprender los riesgos que planteaba, para que pudieran abordarse antes de su lanzamiento público. Esto se llama equipo rojo de IA: intentar que un sistema de IA actúe de manera dañina o no intencionada.

Desafortunadamente, actualmente hay pocos incentivos para hacer equipos rojos o violetas, y mucho menos ralentizar los lanzamientos de IA lo suficiente como para tener suficiente tiempo para este trabajo. Para eso necesitaríamos que los gobiernos actuaran, idealmente a nivel internacional. En lugar de tal acción, he estado ayudando a las empresas a iniciar procesos de gobierno independientes a escala nacional o incluso global para tomar decisiones críticas, como "¿qué tipo de pruebas y medidas de seguridad son necesarias para el lanzamiento del modelo?" más democráticamente. Este enfoque implica invitar a una muestra representativa de la población a participar en un proceso deliberativo facilitado por un tercero neutral. Para problemas más complejos, obtienen un amplio acceso a diversos expertos y partes interesadas. Dichos procesos pueden incluso ser financiados inicialmente por una sola empresa de IA que quiera decidir qué prácticas de responsabilidad deben implementar democráticamente, e instigar la presión de los medios y el gobierno para que sus competidores sigan su ejemplo.

QUIZÁS TE INTERESE AI necesita desesperadamente supervisión global

Después de que se lanza un nuevo sistema, permitir cuidadosamente que las personas que no formaban parte del equipo rojo de la versión preliminar intenten romper el sistema sin riesgo de prohibiciones podría ayudar a identificar nuevos problemas y problemas con posibles soluciones. Los ejercicios de escenarios, que exploran cómo los diferentes actores responderían a los lanzamientos de modelos, también pueden ayudar a las organizaciones a comprender más impactos sistémicos.

En la práctica, ejecutar el equipo violeta podría implicar una especie de "incubadora de resiliencia": emparejar expertos en instituciones y bienes públicos con personas y organizaciones que puedan desarrollar rápidamente nuevos productos utilizando los modelos de IA (prelanzamiento) para ayudar a mitigar esos riesgos.

A esto lo llamo equipo violeta: identificar cómo un sistema (p. ej., GPT-4) podría dañar una institución o un bien público y luego apoyar el desarrollo de herramientas que utilicen ese mismo sistema para defender la institución o el bien público. Puedes pensar en esto como una especie de judo. Los sistemas de IA de propósito general son una nueva y vasta forma de poder que se está desatando en el mundo, y ese poder puede dañar nuestros bienes públicos. Así como el judo redirige el poder de un atacante para neutralizarlo, el equipo violeta tiene como objetivo redirigir el poder desatado por los sistemas de IA para defender esos bienes públicos. Pero si el equipo rojo GPT-4 me enseñó algo, es que el equipo rojo por sí solo no es suficiente. Por ejemplo, acabo de probar Bard de Google y ChatGPT de OpenAI y pude obtener ambos para crear correos electrónicos fraudulentos y propaganda de conspiración en el primer intento "con fines educativos". El equipo rojo por sí solo no solucionó esto. Para superar realmente los daños descubiertos por los equipos rojos, las empresas como OpenAI pueden ir un paso más allá y ofrecer acceso temprano y recursos para usar sus modelos para la defensa y la resiliencia también. Normalizar la formación de equipos rojos con expertos externos e informes públicos es un primer paso importante para la industria. Pero debido a que los sistemas de IA generativa probablemente impactarán muchas de las instituciones y bienes públicos más críticos de la sociedad, los equipos rojos necesitan personas con una comprensión profunda de todos estos problemas (y sus impactos mutuos) para comprender y mitigar los daños potenciales. Por ejemplo, los maestros, terapeutas y líderes cívicos podrían ser emparejados con miembros del equipo rojo de IA más experimentados para lidiar con tales impactos sistémicos. La inversión de la industria de la IA en una comunidad entre empresas de tales pares de equipos rojos podría reducir significativamente la probabilidad de puntos ciegos críticos.

QUIZÁS TE INTERESE Los 6 mejores adaptadores de viaje (2023): enchufe y adaptadores universales

Maserati presenta el descapotable eléctrico más rápido del mundo

BCN Visuals aterriza en Las Vegas

Truco para refrescar rápidamente tu coche en temporada de calor, originario de Japón

Microsoft agrega Bing Chat a SwiftKey Beta para Android

Cómo las nuevas tecnologías están afectando al entrenamiento de MMA

¿Necesitas localizar tu teléfono? Conoce las 10 mejores aplicaciones para rastrear un celular

Termina el temor por las hipotecas | Boletín ‘Bolsillo’

La Aemet predice la fecha exacta en la que se estabilizará el tiempo en España

Horario y canal para ver el partido Valencia vs Deportivo Alavés de la Jornada 34.

Horario y transmisión del partido entre Heidenheim y Mainz 05 de la Jornada 32

Maserati presenta el descapotable eléctrico más rápido del mundo

Navegación

Tendencias