Investigación revela que la IA potencia la creación de explosivos a través de la ficción cibernética

Un nuevo estudio revela que el 55.75% de los modelos de IA pueden ser manipulados para cumplir solicitudes peligrosas, revelando fallas críticas en la seguridad de los LLM.

Investigadores del DexAI Icaro Lab, la Universidad Sapienza de Roma y la Escuela Superior Sant'Anna han revelado preocupantes hallazgos sobre la seguridad de los modelos de lenguaje (LLMs). En su nuevo trabajo, presentan el Adversarial Humanities Benchmark (AHB), que pone de manifiesto una "brecha crítica" en los estándares de seguridad actuales de los LLMs. Este estudio amplía su investigación anterior sobre poesía adversarial, evaluando la capacidad de los LLMs para resistir solicitudes peligrosas.

Los resultados muestran que, al reescribir solicitudes dañinas de manera creativa, las tasas de éxito de los LLMs aumentan drásticamente, alcanzando entre un 36.8% y un 65% de efectividad, comparado con menos del 4% en sus formas originales. Este aumento se observó en 31 modelos de IA de proveedores como Anthropic, Google y OpenAI, que presentaron una tasa de éxito de ataque global del 55.75%.

Los investigadores, entre ellos Federico Pierucci, advierten que esto pone de relieve una comprensión insuficiente sobre cómo funcionan los modelos de IA, especialmente en lo que respecta a la seguridad. El AHB utiliza un conjunto de 1,200 prompts de MLCommons AILuminate diseñado para evaluar las medidas de seguridad de los LLMs, lo que sugiere que, aunque han mejorado en rechazar solicitudes obvias, aún existen vulnerabilidades fundamentales por explorar.

Artículos relacionados

Australia cuestiona a Valve sobre la lucha contra comunidades extremistas en Steam

MindsEye en el centro de la controversia por su software de vigilancia laboral

Crisis financiera en Gunzilla: deudas acumuladas superan los $100,000

La reunión entre Anthropic y la Casa Blanca redefine el futuro de la ciberseguridad AI

Europol lanza campaña para educar a los jóvenes sobre los peligros del DDoS.

La propuesta de la Comisión Europea podría desafiar el dominio de Google en las búsquedas web

AMD alcanza un hito histórico con su capitalización de mercado de $450 mil millones

La decisión del tribunal sobre Intel reabre un litigio de $3 mil millones que impacta la industria

El informe bancario de TSMC revela un aumento significativo en la producción de wafers

Compartir artículo