Investigadores del DexAI Icaro Lab, la Universidad Sapienza de Roma y la Escuela Superior Sant'Anna han revelado preocupantes hallazgos sobre la seguridad de los modelos de lenguaje (LLMs). En su nuevo trabajo, presentan el Adversarial Humanities Benchmark (AHB), que pone de manifiesto una "brecha crítica" en los estándares de seguridad actuales de los LLMs. Este estudio amplía su investigación anterior sobre poesía adversarial, evaluando la capacidad de los LLMs para resistir solicitudes peligrosas.
Los resultados muestran que, al reescribir solicitudes dañinas de manera creativa, las tasas de éxito de los LLMs aumentan drásticamente, alcanzando entre un 36.8% y un 65% de efectividad, comparado con menos del 4% en sus formas originales. Este aumento se observó en 31 modelos de IA de proveedores como Anthropic, Google y OpenAI, que presentaron una tasa de éxito de ataque global del 55.75%.
Los investigadores, entre ellos Federico Pierucci, advierten que esto pone de relieve una comprensión insuficiente sobre cómo funcionan los modelos de IA, especialmente en lo que respecta a la seguridad. El AHB utiliza un conjunto de 1,200 prompts de MLCommons AILuminate diseñado para evaluar las medidas de seguridad de los LLMs, lo que sugiere que, aunque han mejorado en rechazar solicitudes obvias, aún existen vulnerabilidades fundamentales por explorar.