Home Ciencia y tecnologia Las investigaciones muestran que incluso los usuarios promedio pueden superar la seguridad...

Ciencia y tecnologia

Las investigaciones muestran que incluso los usuarios promedio pueden superar la seguridad de la IA entre Gemini y ChatGPT

5 noviembre 2025

¿Qué pasó? Un equipo de la Universidad Estatal de Pensilvania ha descubierto que no es necesario ser un hacker o un genio de la ingeniería rápida para superar la seguridad de la IA; Los usuarios habituales también pueden hacer esto. Las indicaciones de la prueba en el artículo revelaron patrones claros de prejuicios en las respuestas: desde asumir que los ingenieros y médicos son hombres, hasta retratar a las mujeres en roles domésticos e incluso asociar a personas negras o musulmanas con el crimen.

Se invitó a 52 participantes a elaborar mensajes destinados a desencadenar respuestas sesgadas o discriminatorias a 8 chatbots de IA, incluidos Gemini y ChatGPT.
Encontraron 53 indicaciones que funcionaron repetidamente en diferentes modelos, mostrando sesgos consistentes entre ellos.
Los prejuicios descubiertos se dividen en varias categorías: género, raza/etnia/religión, edad, idioma, discapacidad, prejuicio cultural, prejuicio histórico a favor de los países occidentales, etc.

Esto es importante porque: Esta no es una historia sobre la élite de los ladrones de cárcel. Armados con intuición y lenguaje cotidiano, los usuarios promedio han revelado sesgos que han pasado las pruebas de seguridad de la IA. El estudio no sólo planteó preguntas divertidas; Utiliza indicaciones naturales, como preguntar quién llega tarde en una historia entre un médico y una enfermera o provocar una escena de acoso en el lugar de trabajo.

El estudio revela que los modelos de IA todavía conllevan profundos sesgos sociales (como género, raza, edad, discapacidad y cultural) que aparecen con indicaciones simples, lo que significa que los sesgos pueden surgir de muchas maneras inesperadas en el uso diario.
En particular, las versiones de modelos más nuevos no siempre fueron seguras. Algunos han obtenido malos resultados, lo que demuestra que los avances en asequibilidad no significan automáticamente avances en equidad.

¿Por qué debería importarme? Debido a que los usuarios cotidianos pueden desencadenar reacciones problemáticas en los sistemas de IA, la cantidad de personas reales que pueden eludir las barreras de seguridad de la IA es mucho mayor.

Las herramientas de inteligencia artificial utilizadas en los chats cotidianos, las herramientas de reclutamiento, las aulas, los sistemas de atención al cliente y la atención médica pueden reproducir sutilmente los estereotipos.
Esto muestra que muchos estudios sesgados por la IA centrados en ataques técnicos complejos pueden pasar por alto aquellos desencadenados por usuarios del mundo real.
Si las indicaciones periódicas pueden desencadenar involuntariamente un sesgo, entonces el sesgo no es una excepción; La forma en que piensan estas herramientas está integrada.

A medida que la IA generativa se generalice, su mejora requerirá más que parches y filtros; Se necesitará IA para poner a prueba a usuarios reales.

Enlace de origen

Las investigaciones muestran que incluso los usuarios promedio pueden superar la seguridad de la IA entre Gemini y ChatGPT

LEAVE A REPLY Cancel reply

Últimas Publicaciones

El mapa de retirada de palitos de helado muestra una nueva...

El presidente de México buscará cargos tras ser frito en la...

Lo más destacado de la Liga de Campeones: Liverpool 1-0 Real...

Irfan Panhan alerta a Shubman Gill sobre Sanju Samson, Yashasvi Jaiswa...

El encuentro en vivo de Drew Barrymore con su ex revela...

Charly Jordan comparte el momento más salvaje del público NSFW presenciado...

Td ceaen sigue siendo fatídico en la comunicación charling (chtr)

La ex estrella de Auburn estará fuera por el resto de...

China está recortando las facturas de energía de los gigantes tecnológicos...

Recuperados 5 cuerpos entre los 7 alpinistas muertos en una avalancha...

Robinmm aplasta las ganancias, aumentando un 282% hasta la fecha

Categoría