ChatGPT tiene un gran problema de privacidad

Hasta ahora, ha habido al menos un caso relevante, cuando la Comisión Federal de Comercio de EE. UU. ordenó a la compañía anteriormente conocida como Weight Watchers que eliminara los algoritmos creados a partir de datos que no tenía permiso para usar. Pero con un mayor escrutinio, tales órdenes podrían volverse más comunes. “Dependiendo, obviamente, de la infraestructura técnica, puede ser difícil borrar completamente su modelo de todos los datos personales que se usaron para entrenarlo”, dice Judin, del regulador de datos de Noruega. "Si el modelo fuera entrenado con datos personales recopilados ilegalmente, significaría que, en esencia, tal vez no podría usar su modelo". Sin embargo, el documento técnico de GPT-4 incluye una sección sobre privacidad, que dice que sus datos de capacitación pueden incluir "información personal disponible públicamente", que proviene de varias fuentes. El documento dice que OpenAI toma medidas para proteger la privacidad de las personas, incluidos los modelos de "ajuste fino" para evitar que las personas soliciten información personal y eliminar la información de las personas de los datos de entrenamiento "cuando sea factible". La política de privacidad de OpenAI no menciona directamente sus razones legales para usar la información personal de las personas en los datos de entrenamiento, pero dice que se basa en "intereses legítimos" cuando "desarrolla" sus servicios. La compañía no respondió a la solicitud de comentarios de WIRED. A diferencia de GPT-3, OpenAI no ha publicado ningún detalle de los datos de entrenamiento que se incluyeron en ChatGPT, y se cree que GPT-4 es varias veces más grande.

En Europa y California, las reglas de privacidad brindan a las personas la capacidad de solicitar que se elimine o corrija la información si es inexacta. Pero eliminar algo de un sistema de IA que es inexacto o que alguien no quiere puede no ser sencillo, especialmente si los orígenes de los datos no están claros. Tanto Renieris como Edwards cuestionan si GDPR podrá hacer algo al respecto a largo plazo, incluida la defensa de los derechos de las personas. “No hay idea de cómo hacer eso con estos modelos de lenguaje tan grandes”, dice Edwards de la Universidad de Newcastle. “No tienen provisión para eso”. “Existe esta podredumbre en los cimientos de los componentes básicos de esta tecnología, y creo que va a ser muy difícil de curar”, dice Elizabeth Renieris, investigadora asociada sénior del Instituto de Ética en IA de Oxford y autora de prácticas de datos. Ella señala que muchos conjuntos de datos utilizados para entrenar sistemas de aprendizaje automático han existido durante años, y es probable que haya pocas consideraciones de privacidad cuando se juntaron.

El trabajo italiano

La acción es la primera tomada contra ChatGPT por un regulador occidental y destaca las tensiones de privacidad en torno a la creación de modelos de IA generativos gigantes, que a menudo se entrenan en grandes extensiones de datos de Internet. Así como los artistas y las empresas de medios se han quejado de que los desarrolladores de IA generativa han usado su trabajo sin permiso, el regulador de datos ahora dice lo mismo para la información personal de las personas.

Cuando OpenAI lanzó GPT-3 en julio de 2020, ofreció un vistazo de los datos utilizados para entrenar el modelo de lenguaje grande. Millones de páginas extraídas de la web, publicaciones de Reddit, libros y más se utilizan para crear el sistema de texto generativo, según un documento técnico. En estos datos se recoge parte de la información personal que comparte sobre usted en línea. Estos datos ahora están causando problemas a OpenAI.

En términos generales, para que una empresa recopile y use la información de las personas bajo el RGPD, debe basarse en una de las seis justificaciones legales, que van desde que alguien da su permiso hasta que la información se requiere como parte de un contrato. Edwards dice que, en este caso, hay esencialmente dos opciones: obtener el consentimiento de las personas, lo que OpenAI no hizo, o argumentar que tiene "intereses legítimos" para usar los datos de las personas, lo cual es "muy difícil", dice Edwards. The Garante le dice a WIRED que cree que esta defensa es "inadecuada".

QUIZÁS TE INTERESE Es demasiado fácil hacer que el chatbot Bard de Google mienta

OpenAI no está solo. Es probable que muchos de los problemas planteados por el regulador italiano lleguen al núcleo de todo el desarrollo de sistemas de aprendizaje automático e inteligencia artificial generativa, dicen los expertos. La UE está desarrollando regulaciones de IA, pero hasta ahora se han tomado relativamente pocas medidas contra el desarrollo de sistemas de aprendizaje automático en lo que respecta a la privacidad.

El 31 de marzo, el regulador de datos de Italia emitió una decisión de emergencia temporal exigiendo que OpenAI deje de usar la información personal de millones de italianos que está incluida en sus datos de capacitación. Según el regulador, Garante per la Protezione dei Dati Personali, OpenAI no tiene el derecho legal de usar la información personal de las personas en ChatGPT. En respuesta, OpenAI ha impedido que las personas en Italia accedan a su chatbot mientras brinda respuestas a los funcionarios, que están investigando más a fondo. La acción del regulador italiano, que también está tomando el chatbot Replika, tiene el potencial de ser el primero de muchos casos que examinan las prácticas de datos de OpenAI. GDPR permite a las empresas con sede en Europa designar un país que se ocupará de todas sus quejas; Irlanda se ocupa de Google, Twitter y Meta, por ejemplo. Sin embargo, OpenAI no tiene una base en Europa, lo que significa que, según el RGPD, cada país puede presentar quejas en su contra. Garante de Italia cree que ChatGPT tiene cuatro problemas bajo GDPR: OpenAI no tiene controles de edad para evitar que las personas menores de 13 años usen el sistema de generación de texto; puede proporcionar información sobre personas que no es precisa; y a las personas no se les ha dicho que sus datos fueron recopilados. Quizás lo más importante es que su cuarto argumento afirma que "no existe una base legal" para recopilar información personal de las personas en las oleadas masivas de datos que se utilizan para entrenar a ChatGPT. Las reglas de GDPR de Europa, que cubren la forma en que las organizaciones recopilan, almacenan y usan los datos personales de las personas, protegen los datos de más de 400 millones de personas en todo el continente. Estos datos personales pueden ser cualquier cosa, desde el nombre de una persona hasta su dirección IP; si se pueden usar para identificar a alguien, pueden contar como su información personal. A diferencia del mosaico de reglas de privacidad a nivel estatal en los Estados Unidos, las protecciones de GDPR se aplican si la información de las personas está disponible gratuitamente en línea. En resumen: el hecho de que la información de alguien sea pública no significa que pueda aspirarla y hacer lo que quiera con ella.

Datos del modelo

El golpe de Italia a OpenAI también se produce cuando el escrutinio de los grandes modelos de IA aumenta constantemente. El 29 de marzo, los líderes tecnológicos pidieron una pausa en el desarrollo de sistemas como ChatGPT, por temor a sus implicaciones futuras. Judin dice que la decisión italiana destaca preocupaciones más inmediatas. “Esencialmente, estamos viendo que el desarrollo de IA hasta la fecha podría tener una gran deficiencia”, dice Judin.

“Los italianos han descubierto su farol”, dice Lilian Edwards, profesora de derecho, innovación y sociedad en la Universidad de Newcastle en el Reino Unido. "Parecía bastante evidente en la UE que se trataba de una violación de la ley de protección de datos". “Cómo recopilar datos legalmente para entrenar conjuntos de datos para usar en todo, desde algoritmos regulares hasta alguna IA realmente sofisticada, es un problema crítico que debe resolverse ahora, ya que estamos en el punto de inflexión para este tipo de tecnología. terminado”, dice Jessica Lee, socia del bufete de abogados Loeb and Loeb.

QUIZÁS TE INTERESE Sensor de temperatura y humedad de Xiaomi: un aliado para tus plantas, alimentos y mascotas

Decisiones similares podrían seguir en toda Europa. En los días transcurridos desde que Italia anunció su investigación, los reguladores de datos en Francia, Alemania e Irlanda se pusieron en contacto con Garante para solicitar más información sobre sus hallazgos. “Si el modelo de negocio ha sido simplemente buscar en Internet todo lo que se pueda encontrar, entonces podría haber un problema realmente importante aquí”, dice Tobias Judin, jefe internacional de la autoridad de protección de datos de Noruega, que está monitoreando los desarrollos. Judin agrega que si un modelo se basa en datos que pueden recopilarse ilegalmente, plantea dudas sobre si alguien puede usar las herramientas legalmente. “Existe esta estratificación y esta cadena de suministro compleja de cómo esos datos finalmente llegan a algo como GPT-4”, dice Renieris. "Realmente nunca ha habido ningún tipo de protección de datos por diseño o por defecto". En 2022, los creadores de una base de datos de imágenes ampliamente utilizada, que ha ayudado a entrenar modelos de IA durante una década, sugirieron que las imágenes de los rostros de las personas deberían estar borrosas en el conjunto de datos.

Cómo las nuevas tecnologías están afectando al entrenamiento de MMA

¿Necesitas localizar tu teléfono? Conoce las 10 mejores aplicaciones para rastrear un celular

Los tres mejores electrodomésticos pequeños para invertir antes de finalizar 2023

«Redmi Note 13 Pro+: La Revolución de la Gama Media en Smartphones»

El cometa Nishimura iluminará el cielo este domingo

Revisemos cómo la conectividad y los dispositivos inteligentes revolucionarán la salud del futuro

Cómo las nuevas tecnologías están afectando al entrenamiento de MMA

Las remontadas más épicas de la historia de La Liga Española

¿Necesitas localizar tu teléfono? Conoce las 10 mejores aplicaciones para rastrear un celular

«Motorola Edge 40 Neo: Una Revolución Visual a 144 Hz por Menos de 400 euros»

Percy Jackson and the Olympians: la serie que promete revivir la magia de los dioses griegos

Navegación

Tendencias

Cómo las nuevas tecnologías están afectando al entrenamiento de MMA

Las remontadas más épicas de la historia de La Liga Española

¿Necesitas localizar tu teléfono? Conoce las 10 mejores aplicaciones para rastrear un celular

«Motorola Edge 40 Neo: Una Revolución Visual a 144 Hz por Menos de 400 euros»

Subscríbete a Nuestra Newsletter

ChatGPT tiene un gran problema de privacidad

Keep Reading

Navegación

Tendencias

Subscríbete a Nuestra Newsletter