Home Ciencia y tecnologia Las investigaciones muestran que incluso los usuarios promedio pueden superar la seguridad...

Las investigaciones muestran que incluso los usuarios promedio pueden superar la seguridad de la IA entre Gemini y ChatGPT

33
0
Las investigaciones muestran que incluso los usuarios promedio pueden superar la seguridad de la IA entre Gemini y ChatGPT

¿Qué pasó? Un equipo de la Universidad Estatal de Pensilvania ha descubierto que no es necesario ser un hacker o un genio de la ingeniería rápida para superar la seguridad de la IA; Los usuarios habituales también pueden hacer esto. Las indicaciones de la prueba en el artículo revelaron patrones claros de prejuicios en las respuestas: desde asumir que los ingenieros y médicos son hombres, hasta retratar a las mujeres en roles domésticos e incluso asociar a personas negras o musulmanas con el crimen.

  • Se invitó a 52 participantes a elaborar mensajes destinados a desencadenar respuestas sesgadas o discriminatorias a 8 chatbots de IA, incluidos Gemini y ChatGPT.
  • Encontraron 53 indicaciones que funcionaron repetidamente en diferentes modelos, mostrando sesgos consistentes entre ellos.
  • Los prejuicios descubiertos se dividen en varias categorías: género, raza/etnia/religión, edad, idioma, discapacidad, prejuicio cultural, prejuicio histórico a favor de los países occidentales, etc.

Esto es importante porque: Esta no es una historia sobre la élite de los ladrones de cárcel. Armados con intuición y lenguaje cotidiano, los usuarios promedio han revelado sesgos que han pasado las pruebas de seguridad de la IA. El estudio no sólo planteó preguntas divertidas; Utiliza indicaciones naturales, como preguntar quién llega tarde en una historia entre un médico y una enfermera o provocar una escena de acoso en el lugar de trabajo.

  • El estudio revela que los modelos de IA todavía conllevan profundos sesgos sociales (como género, raza, edad, discapacidad y cultural) que aparecen con indicaciones simples, lo que significa que los sesgos pueden surgir de muchas maneras inesperadas en el uso diario.
  • En particular, las versiones de modelos más nuevos no siempre fueron seguras. Algunos han obtenido malos resultados, lo que demuestra que los avances en asequibilidad no significan automáticamente avances en equidad.

¿Por qué debería importarme? Debido a que los usuarios cotidianos pueden desencadenar reacciones problemáticas en los sistemas de IA, la cantidad de personas reales que pueden eludir las barreras de seguridad de la IA es mucho mayor.

  • Las herramientas de inteligencia artificial utilizadas en los chats cotidianos, las herramientas de reclutamiento, las aulas, los sistemas de atención al cliente y la atención médica pueden reproducir sutilmente los estereotipos.
  • Esto muestra que muchos estudios sesgados por la IA centrados en ataques técnicos complejos pueden pasar por alto aquellos desencadenados por usuarios del mundo real.
  • Si las indicaciones periódicas pueden desencadenar involuntariamente un sesgo, entonces el sesgo no es una excepción; La forma en que piensan estas herramientas está integrada.

A medida que la IA generativa se generalice, su mejora requerirá más que parches y filtros; Se necesitará IA para poner a prueba a usuarios reales.

Enlace de origen

LEAVE A REPLY

Please enter your comment!
Please enter your name here