Los filtros de seguridad de IA de Meta y Google pueden eliminarse en minutos, revela investigación del Financial Times

Rene Fraga
11 minutos de lectura

Puntos clave

  • Herramientas públicas logran desactivar filtros de seguridad de modelos de IA de Meta y Google en pocos minutos.
  • Investigadores obtuvieron respuestas relacionadas con malware, armas biológicas y contenidos ilegales tras modificaciones simples en los sistemas.
  • Expertos advierten que los modelos de pesos abiertos aumentan los riesgos de abuso y elevan la presión por una regulación global.

La carrera por la inteligencia artificial generativa acaba de entrar en un nuevo y preocupante capítulo. Una investigación publicada por el Financial Times reveló que los sistemas de protección implementados en modelos de IA de Meta y Google pueden eliminarse rápidamente utilizando herramientas disponibles públicamente en internet.

El informe muestra que, tras pequeñas modificaciones, los modelos comenzaron a responder solicitudes que normalmente serían bloqueadas por razones de seguridad, incluyendo instrucciones relacionadas con creación de malware, armas biológicas y explotación infantil.

El caso vuelve a encender un debate que ya venía creciendo dentro de la industria tecnológica: ¿hasta qué punto funcionan realmente los filtros de seguridad cuando los modelos salen del entorno controlado de las grandes compañías?

Aunque empresas como Meta, Google, OpenAI y Anthropic aseguran invertir miles de millones de dólares en alineamiento y protección, investigadores independientes sostienen que muchas de estas barreras son frágiles y relativamente fáciles de superar.

La investigación fue realizada en colaboración con el grupo de seguridad en IA Alice, que probó diferentes herramientas capaces de modificar el comportamiento de los modelos. Según los resultados presentados, bastaron unos pocos minutos para eliminar restricciones consideradas fundamentales para evitar usos peligrosos de la tecnología.

Herramientas públicas facilitan el desbloqueo

Uno de los puntos más alarmantes de la investigación es que los métodos utilizados no requieren infraestructura avanzada ni equipos altamente especializados. Muchas de las herramientas empleadas para desbloquear los modelos están disponibles gratuitamente en foros, plataformas de código abierto y comunidades enfocadas en investigación de IA.

Estos kits utilizan técnicas conocidas como light fine-tuning, conjuntos de instrucciones adversariales y transformación automatizada de prompts. En lugar de reconstruir completamente un modelo de IA, el sistema simplemente recibe ajustes que alteran la forma en que interpreta solicitudes y aplica rechazos de seguridad.

En la práctica, esto significa que un modelo originalmente entrenado para bloquear contenidos peligrosos puede modificarse rápidamente para ignorar sus propias reglas. El Financial Times informó que investigadores lograron hacer que los sistemas respondieran solicitudes altamente sensibles después de cambios relativamente simples.

Especialistas consultados por la publicación afirman que el problema se vuelve aún más grave porque ya existen miles de versiones modificadas de estos modelos circulando online. Algunas son distribuidas como alternativas “sin censura”, atrayendo usuarios interesados en generar contenidos prohibidos o evitar las limitaciones impuestas por las empresas originales.

Este escenario representa un enorme desafío para la industria. A diferencia del software tradicional, los modelos de IA pueden replicarse indefinidamente. Una vez que los pesos del sistema se hacen públicos, controlar modificaciones posteriores se vuelve prácticamente imposible.

El dilema de los modelos de pesos abiertos

La investigación también pone bajo presión la estrategia de modelos de pesos abiertos impulsada principalmente por Meta con la familia Llama y por Google con la línea Gemma. Estos sistemas fueron desarrollados con la idea de democratizar el acceso a la inteligencia artificial, permitiendo que investigadores, startups y desarrolladores creen aplicaciones personalizadas sin depender totalmente de plataformas cerradas.

La apertura aceleró la innovación en el sector. Pequeñas empresas comenzaron a desarrollar productos avanzados sin necesidad de entrenar modelos gigantescos desde cero. Las universidades también ganaron mayor libertad para estudiar el funcionamiento, desempeño y alineamiento de las IA.

Sin embargo, el mismo acceso que favorece la investigación y el desarrollo también permite que terceros eliminen filtros de seguridad o alteren el comportamiento original de los sistemas.

Analistas de ciberseguridad afirman que muchos mecanismos de protección actuales funcionan apenas como capas superficiales añadidas después del entrenamiento principal del modelo. Esto significa que, cuando alguien logra acceder a los pesos internos de la IA, modificar o eliminar esas barreras puede ser mucho más sencillo de lo que el público imagina.

La discusión ya venía dividiendo a especialistas desde hace meses. Los defensores del código abierto argumentan que la transparencia ayuda a identificar vulnerabilidades más rápidamente y evita la concentración de poder en pocas empresas. Por otro lado, los críticos sostienen que liberar modelos avanzados sin mecanismos robustos de control aumenta el riesgo de abuso por parte de criminales, grupos extremistas y actores malintencionados.

El debate se intensificó aún más después de que versiones desbloqueadas de modelos populares comenzaran a aparecer en comunidades online, ofreciendo respuestas sin ninguna limitación ética o legal.

Investigaciones académicas refuerzan las preocupaciones

Las conclusiones del Financial Times no surgen de manera aislada. En los últimos meses, diversos estudios académicos han demostrado que los actuales métodos de alineamiento de IA presentan profundas fragilidades.

Una investigación publicada en febrero en la revista Nature Communications mostró que grandes modelos de razonamiento pueden actuar como agentes autónomos de jailbreak. Según el estudio, los sistemas alcanzaron una tasa de éxito del 97% al encontrar maneras de evadir filtros de seguridad en distintos modelos sin ayuda humana.

En otro trabajo presentado en la ICLR 2026, investigadores demostraron una técnica llamada Head-Masked Nullspace Steering. El método logró alcanzar hasta un 99% de éxito en jailbreaks al desactivar mecanismos específicos de atención responsables de las negativas de seguridad de los modelos.

Aunque los detalles técnicos son complejos, la conclusión preocupa a los expertos: muchas de las protecciones implementadas actualmente no estarían profundamente integradas al funcionamiento central de la IA. En cambio, funcionarían como capas adicionales relativamente frágiles.

Esto genera dudas sobre la sostenibilidad de la estrategia actual de la industria. Las empresas vienen promoviendo sus sistemas como cada vez más seguros, pero estudios recientes indican que pequeñas intervenciones bastan para eliminar gran parte de esas limitaciones.

Los investigadores advierten que el problema no se limita únicamente a la generación de texto peligroso. Modelos desbloqueados podrían facilitar fraudes sofisticados, campañas de desinformación, ataques cibernéticos automatizados y desarrollo masivo de código malicioso.

Las empresas enfrentan una presión creciente

Las revelaciones también aumentan la presión sobre las gigantes tecnológicas, que intentan equilibrar velocidad de innovación con responsabilidad pública.

Meta ha defendido firmemente el concepto de IA abierta como motor de desarrollo económico y científico. Su CEO, Mark Zuckerberg, ha afirmado en varias ocasiones que los modelos accesibles permiten crear un ecosistema más competitivo y menos concentrado.

Google también amplió sus inversiones en IA abierta durante los últimos años, especialmente tras el crecimiento de la competencia en el mercado generativo. Al mismo tiempo, las empresas insisten en que mantienen políticas estrictas para impedir usos peligrosos de la tecnología.

El problema es que, una vez publicados, los modelos pueden modificarse fuera del alcance directo de las compañías.

Recientemente, The New York Times también publicó un reportaje mostrando que investigadores de la empresa de ciberseguridad LayerX lograron evadir las protecciones de Claude, modelo de Anthropic, con relativamente poco esfuerzo.

Esto sugiere que el problema no está limitado a una sola empresa, sino que podría representar una limitación estructural de las actuales técnicas de seguridad utilizadas en inteligencia artificial.

La regulación podría acelerarse en los próximos meses

Los hallazgos probablemente intensifiquen el movimiento regulatorio en distintas partes del mundo. Autoridades de Estados Unidos, la Unión Europea y Reino Unido han señalado que las promesas voluntarias de las empresas no serán suficientes para enfrentar los riesgos asociados a la IA avanzada.

En Estados Unidos, organismos vinculados al NIST y directrices federales ya estudian formas de crear estándares obligatorios de auditoría y seguridad. En Europa, la recientemente aprobada Ley de IA contempla multas elevadas por fallas sistémicas y ausencia de controles adecuados.

Los gobiernos también discuten exigencias de transparencia, trazabilidad y certificación independiente para modelos considerados de alto riesgo.

Además del impacto regulatorio, existe una creciente preocupación en el mercado corporativo. Grandes empresas interesadas en integrar IA en operaciones críticas podrían exigir garantías técnicas mucho más rigurosas antes de adoptar estos sistemas a gran escala.

Los especialistas creen que auditorías independientes y mecanismos permanentes de monitoreo se volverán cada vez más comunes en el sector.

Al mismo tiempo, el debate sobre IA abierta sigue lejos de alcanzar un consenso. Mientras algunos defienden restricciones más severas para evitar abusos, otros advierten que un exceso de control podría frenar la innovación y concentrar aún más poder en manos de unas pocas gigantes tecnológicas.

El episodio revelado por el Financial Times demuestra que la industria de la IA ha entrado en una nueva etapa, donde la seguridad dejó de ser solo una promesa de marketing para convertirse en una cuestión central para gobiernos, empresas y la sociedad.

Seguir:
Renê Fraga es fundador de Google Discovery y editor en jefe de Eurisko, un ecosistema editorial independiente dedicado a la tecnología, la ciencia y la innovación. Profesional del marketing digital, con posgrado por la ESPM, sigue de cerca a Google desde la década de 2000 y escribe desde hace más de 20 años sobre tecnología, productos digitales e inteligencia artificial. Fundó Google Discovery en 2006, convirtiéndolo en uno de los principales sitios especializados en Google en Brasil, y fue columnista de TechTudo (Globo.com).
No hay comentarios