
En Europa y California, las reglas de privacidad brindan a las personas la capacidad de solicitar que se elimine o corrija la información si es inexacta. Pero eliminar algo de un sistema de IA que es inexacto o que alguien no quiere puede no ser sencillo, especialmente si los orígenes de los datos no están claros. Tanto Renieris como Edwards cuestionan si GDPR podrá hacer algo al respecto a largo plazo, incluida la defensa de los derechos de las personas. “No hay idea de cómo hacer eso con estos modelos de lenguaje tan grandes”, dice Edwards de la Universidad de Newcastle. “No tienen provisión para eso”. “Existe esta podredumbre en los cimientos de los componentes básicos de esta tecnología, y creo que va a ser muy difícil de curar”, dice Elizabeth Renieris, investigadora asociada sénior del Instituto de Ética en IA de Oxford y autora de prácticas de datos. Ella señala que muchos conjuntos de datos utilizados para entrenar sistemas de aprendizaje automático han existido durante años, y es probable que haya pocas consideraciones de privacidad cuando se juntaron.
La acción es la primera tomada contra ChatGPT por un regulador occidental y destaca las tensiones de privacidad en torno a la creación de modelos de IA generativos gigantes, que a menudo se entrenan en grandes extensiones de datos de Internet. Así como los artistas y las empresas de medios se han quejado de que los desarrolladores de IA generativa han usado su trabajo sin permiso, el regulador de datos ahora dice lo mismo para la información personal de las personas.
Cuando OpenAI lanzó GPT-3 en julio de 2020, ofreció un vistazo de los datos utilizados para entrenar el modelo de lenguaje grande. Millones de páginas extraídas de la web, publicaciones de Reddit, libros y más se utilizan para crear el sistema de texto generativo, según un documento técnico. En estos datos se recoge parte de la información personal que comparte sobre usted en línea. Estos datos ahora están causando problemas a OpenAI.
En términos generales, para que una empresa recopile y use la información de las personas bajo el RGPD, debe basarse en una de las seis justificaciones legales, que van desde que alguien da su permiso hasta que la información se requiere como parte de un contrato. Edwards dice que, en este caso, hay esencialmente dos opciones: obtener el consentimiento de las personas, lo que OpenAI no hizo, o argumentar que tiene "intereses legítimos" para usar los datos de las personas, lo cual es "muy difícil", dice Edwards. The Garante le dice a WIRED que cree que esta defensa es "inadecuada".
El 31 de marzo, el regulador de datos de Italia emitió una decisión de emergencia temporal exigiendo que OpenAI deje de usar la información personal de millones de italianos que está incluida en sus datos de capacitación. Según el regulador, Garante per la Protezione dei Dati Personali, OpenAI no tiene el derecho legal de usar la información personal de las personas en ChatGPT. En respuesta, OpenAI ha impedido que las personas en Italia accedan a su chatbot mientras brinda respuestas a los funcionarios, que están investigando más a fondo. La acción del regulador italiano, que también está tomando el chatbot Replika, tiene el potencial de ser el primero de muchos casos que examinan las prácticas de datos de OpenAI. GDPR permite a las empresas con sede en Europa designar un país que se ocupará de todas sus quejas; Irlanda se ocupa de Google, Twitter y Meta, por ejemplo. Sin embargo, OpenAI no tiene una base en Europa, lo que significa que, según el RGPD, cada país puede presentar quejas en su contra. Garante de Italia cree que ChatGPT tiene cuatro problemas bajo GDPR: OpenAI no tiene controles de edad para evitar que las personas menores de 13 años usen el sistema de generación de texto; puede proporcionar información sobre personas que no es precisa; y a las personas no se les ha dicho que sus datos fueron recopilados. Quizás lo más importante es que su cuarto argumento afirma que "no existe una base legal" para recopilar información personal de las personas en las oleadas masivas de datos que se utilizan para entrenar a ChatGPT. Las reglas de GDPR de Europa, que cubren la forma en que las organizaciones recopilan, almacenan y usan los datos personales de las personas, protegen los datos de más de 400 millones de personas en todo el continente. Estos datos personales pueden ser cualquier cosa, desde el nombre de una persona hasta su dirección IP; si se pueden usar para identificar a alguien, pueden contar como su información personal. A diferencia del mosaico de reglas de privacidad a nivel estatal en los Estados Unidos, las protecciones de GDPR se aplican si la información de las personas está disponible gratuitamente en línea. En resumen: el hecho de que la información de alguien sea pública no significa que pueda aspirarla y hacer lo que quiera con ella.
El golpe de Italia a OpenAI también se produce cuando el escrutinio de los grandes modelos de IA aumenta constantemente. El 29 de marzo, los líderes tecnológicos pidieron una pausa en el desarrollo de sistemas como ChatGPT, por temor a sus implicaciones futuras. Judin dice que la decisión italiana destaca preocupaciones más inmediatas. “Esencialmente, estamos viendo que el desarrollo de IA hasta la fecha podría tener una gran deficiencia”, dice Judin.
“Los italianos han descubierto su farol”, dice Lilian Edwards, profesora de derecho, innovación y sociedad en la Universidad de Newcastle en el Reino Unido. "Parecía bastante evidente en la UE que se trataba de una violación de la ley de protección de datos". “Cómo recopilar datos legalmente para entrenar conjuntos de datos para usar en todo, desde algoritmos regulares hasta alguna IA realmente sofisticada, es un problema crítico que debe resolverse ahora, ya que estamos en el punto de inflexión para este tipo de tecnología. terminado”, dice Jessica Lee, socia del bufete de abogados Loeb and Loeb.
