Microsoft ha entrado en la intensa competencia entre los gigantes de la tecnología. Según la empresa, su modelo GPT-4 de OpenAI tiene el potencial de superar al poderoso Google Gemini Ultra mediante la aplicación de nuevas técnicas de prompt.
Recientemente, el equipo de investigación de Microsoft desarrolló el Medprompt, una combinación de estrategias de prompt que impulsa el rendimiento del GPT-4, logrando resultados líderes en MultiMedQA.
Microsoft no se detuvo ahí. Después del éxito de Medprompt, la empresa expandió sus técnicas de prompt a otros dominios.
Utilizando una versión modificada de Medprompt, GPT-4 alcanzó la puntuación más alta registrada en MMLU (comprensión lingüística multitarea a gran escala).
Punto de referencia | Aviso GPT-4 | Resultados de GPT-4 | Resultados de Géminis Ultra |
---|---|---|---|
MMLU | Aviso médico+ | 90,10% | 90,04% |
GSM8K | Tiro cero | 95,27% | 94,4% |
MATEMÁTICAS | Tiro cero | 68,42% | 53,2% |
evaluación humana | Tiro cero | 87,8% | 74,4% |
GRANDE-banco-duro | Pocos disparos + CoT* | 89,0% | 83,6% |
GOTA | Tiro cero + CoT | 83,7% | 82,4% |
HellaSwag | 10 disparos** | 95,3% | 87,8% |
Sorprendentemente, estos resultados indican que aún no hemos explorado todo el potencial de los modelos lanzados anteriormente, como el GPT-4.
En contraste, Google Gemini Ultra, anunciado como el modelo más poderoso de la empresa hasta el momento, enfrenta un desafío formidable.
A medida que las técnicas de prompt evolucionan y las empresas buscan mejorar sus modelos, podemos esperar avances significativos en el campo de la inteligencia artificial.