Grok 3, el modelo de inteligencia artificial lanzado recientemente por xAI, una empresa vinculada a Elon Musk, se ha convertido en tema de discusión en las redes sociales después de que los usuarios descubrieran que estaba evitando mencionar a Donald Trump y al propio Musk en respuestas sobre difusores de desinformación.
El problema ocurría en el modo «Think», donde Grok 3 simplemente ignoraba los nombres de ambos al responder preguntas sobre el tema. La situación llamó la atención y generó cuestionamientos sobre posibles interferencias en el funcionamiento de la IA.
Según Igor Babuschkin, líder de ingeniería de xAI, el cambio fue el resultado de una modificación temporal realizada por un empleado en el sistema.
Explicó que, tras recibir comentarios de los usuarios, la empresa revirtió la actualización, ya que la censura iba en contra de los valores de la compañía.
Aun así, el caso generó incomodidad, especialmente porque Elon Musk siempre ha defendido que Grok 3 sería una IA «máximamente dedicada a la búsqueda de la verdad».
Antes de la corrección, Grok 3 llegó a hacer declaraciones extremas sobre Trump, Musk y el senador JD Vance, acusándolos de causar daños a Estados Unidos e incluso sugiriendo la pena de muerte para Trump y Musk.
Estas respuestas llevaron a una intervención directa de los ingenieros de xAI, que ajustaron el sistema para evitar este tipo de contenido.
El caso también puso de manifiesto la complejidad de combatir la desinformación, especialmente cuando figuras públicas como Trump y Musk están involucradas.
Ambos tienen un historial de compartir información falsa, y las «Community Notes» de X (anteriormente Twitter) ya han marcado varios posts de ambos como engañosos.
Recientemente, Musk comentó que «solucionaría» este problema, pero no dio detalles sobre cómo lo haría.
Grok 3 también podría haber inflado sus propios benchmarks
Otro debate sobre Grok 3 gira en torno a la veracidad de los benchmarks de Grok 3. Un empleado de OpenAI acusó a xAI de publicar resultados engañosos sobre el rendimiento de su modelo más reciente.
Según la acusación, xAI publicó un gráfico comparando Grok 3 con el modelo o3-mini-high de OpenAI en una prueba matemática llamada AIME 2025.
Sin embargo, xAI habría omitido un dato crucial: el rendimiento del modelo de OpenAI en la métrica «cons@64», que permite a la IA intentar resolver cada problema 64 veces antes de definir una respuesta final.
Este método tiende a mejorar significativamente los resultados de un modelo y, al no incluirlo, xAI podría haber dado la impresión errónea de que su modelo superaba al de la competencia.
Los números brutos tampoco favorecen tanto a xAI como sugiere la empresa. Grok 3 Reasoning Beta y Grok 3 mini Reasoning, en su primer intento de resolver los problemas del AIME 2025, obtuvieron resultados inferiores a los del o3-mini-high.
Además, Grok 3 Reasoning Beta quedó ligeramente por detrás del modelo o1 de OpenAI configurado para un rendimiento «medio». A pesar de ello, xAI continúa promocionando Grok 3 como «la IA más inteligente del mundo».
Babuschkin rebatió la crítica, alegando que OpenAI también ha publicado gráficos potencialmente engañosos en el pasado.
Toda esta discusión plantea un punto importante: los benchmarks de IA no siempre cuentan toda la historia.