Google ha presentado un nuevo proyecto que combina modelos de lenguaje avanzados con tecnologías existentes de la empresa, creando las bases de la IA generativa llamadas «Personaje Parlante».
Esta herramienta permite a los desarrolladores crear avatares 3D personalizados que interactúan con los usuarios a través de conversaciones verbales o texto.
Los usuarios pueden ajustar la personalidad, la historia y la base de conocimientos del avatar, lo que permite crear un experto especializado con una perspectiva única sobre cualquier tema.
El proyecto utiliza el servicio de reconocimiento de voz de Google para convertir las entradas de voz en texto, que se envían a la API Preserve and Learn More (PaLM) para generar respuestas, y la tecnología de síntesis de voz para crear una voz que suena como la de un ser humano.
Para una experiencia visual interactiva, Google ha desarrollado un avatar 3D «hablante» que se anima en función del patrón y la entonación de la voz generada.
Utilizando el framework MediaPipe, se utilizó un modelo de aprendizaje automático para generar expresiones faciales y movimientos de los labios que se sincronizan con el patrón de voz, ofreciendo una interacción más natural y envolvente.
Las posibilidades de aplicación de esta tecnología son diversas en diferentes sectores, como en juegos, educación y comercio.
Por ejemplo, en juegos, los personajes generados por IA podrían enriquecer los universos de los juegos, ofreciendo experiencias más inmersivas a través de conversaciones en lenguaje natural sobre el mundo del juego, su historia y sus personajes.
En educación, los personajes virtuales podrían representar diferentes materias que los estudiantes deben estudiar, o ser personajes con diferentes niveles de dificultad en un escenario interactivo de preguntas y respuestas.
En el comercio, el Personaje Parlante se podría utilizar para dar vida a marcas y tiendas, o para brindar soporte a los comerciantes en un mercado de comercio electrónico, mejorando así la experiencia del usuario.