Anthropic ha lanzado la última versión de su modelo de lenguaje (LLM), llamado Claude 2, para pruebas beta.
El modelo actualizado, diseñado para la creación de código, análisis de texto y redacción de composiciones, está disponible de forma gratuita para usuarios en Estados Unidos y Reino Unido.
Las mejoras en Claude 2 se basan en la retroalimentación de los usuarios e incluyen habilidades conversacionales mejoradas, explicaciones más claras, mejor memoria y menos resultados perjudiciales.
El modelo presenta habilidades destacadas en codificación, matemáticas y razonamiento, como se evidencia en su desempeño en la sección de opción múltiple del examen de Bar (76,5%) y en los exámenes GRE de lectura y escritura (por encima del percentil 90).
Claude 2 también admite entradas y salidas más largas, lo que permite analizar documentos extensos y generar composiciones más extensas.
Las habilidades de codificación de Claude 2 han mejorado significativamente, con un aumento en su puntuación en la prueba de programación Python Codex HumanEval del 56% al 71,2%.
Su competencia en problemas de matemáticas escolares, evaluada con GSM8k, ha aumentado del 85,2% al 88% (como dato relevante, OpenAI recientemente lanzó Code Interpreter Beta para todos los usuarios de ChatGPT Plus).
El modelo también es dos veces más efectivo al proporcionar respuestas inofensivas en comparación con la versión anterior, Claude 1.3.
Sin embargo, a pesar de su capacidad para procesar tareas complejas, Anthropic advierte contra el uso de Claude 2 como referencia factual o en situaciones que involucren la salud física o mental.