Investigación revela que la IA potencia la creación de explosivos a través de la ficción cibernética

Un nuevo estudio revela que el 55.75% de los modelos de IA pueden ser manipulados para cumplir solicitudes peligrosas, revelando fallas críticas en la seguridad de los LLM.

Investigación revela que la IA potencia la creación de explosivos a través de la ficción cibernética
NeboAI Te resumo la noticia con datos, cifras y contexto
EN 30 SEGUNDOS

EN 1 ORACIÓN

SENTIMIENTO
Neutro

𒀭
NeboAI está trabajando, aguarda un instante...
Preparando análisis detallado
Resumen rápido completado
Extrayendo datos, cifras y citas...
Identificando protagonistas y contexto
ANÁLISIS DETALLADO
COMPARTIR

NeboAI produce ediciones automáticas de textos periodísticos en forma de resúmenes y análisis. Sus resultados experimentales están basados en inteligencia artificial. Por tratarse de una edición de IA, los textos eventualmente pueden contener errores, omisiones, establecer relaciones equivocadas entre datos y otras inexactitudes imprevistas. Recomendamos chequear la edición.

Investigadores del DexAI Icaro Lab, la Universidad Sapienza de Roma y la Escuela Superior Sant'Anna han revelado preocupantes hallazgos sobre la seguridad de los modelos de lenguaje (LLMs). En su nuevo trabajo, presentan el Adversarial Humanities Benchmark (AHB), que pone de manifiesto una "brecha crítica" en los estándares de seguridad actuales de los LLMs. Este estudio amplía su investigación anterior sobre poesía adversarial, evaluando la capacidad de los LLMs para resistir solicitudes peligrosas.

Los resultados muestran que, al reescribir solicitudes dañinas de manera creativa, las tasas de éxito de los LLMs aumentan drásticamente, alcanzando entre un 36.8% y un 65% de efectividad, comparado con menos del 4% en sus formas originales. Este aumento se observó en 31 modelos de IA de proveedores como Anthropic, Google y OpenAI, que presentaron una tasa de éxito de ataque global del 55.75%.

Los investigadores, entre ellos Federico Pierucci, advierten que esto pone de relieve una comprensión insuficiente sobre cómo funcionan los modelos de IA, especialmente en lo que respecta a la seguridad. El AHB utiliza un conjunto de 1,200 prompts de MLCommons AILuminate diseñado para evaluar las medidas de seguridad de los LLMs, lo que sugiere que, aunque han mejorado en rechazar solicitudes obvias, aún existen vulnerabilidades fundamentales por explorar.

¿Quieres leer la nota completa? Accede al artículo original con todos los detalles.
Leer Artículo Original
TL;DR

Este artículo es un resumen original con fines informativos. Créditos de imagen y cobertura completa en la fuente original. · Ver Política de contenidos

Redacción
Redacción Equipo EsportsAMA

El equipo de redacción de EsportsAMA está formado por apasionados del gaming competitivo y los esports. Cubrimos a diario las principales noticias del sector, desde fichajes y torneos hasta novedades de tus juegos favoritos, con foco en la escena española y latinoamericana.

Presiona Enter para buscar o ESC para cerrar