El cambio de paradigma en las métricas de precisión: la importancia de cuidar el contexto

Los grandes modelos de lenguaje (LLM) son sistemas avanzados de Inteligencia Artificial que aprovechan cantidades masivas de información y algoritmos sofisticados para comprender, interpretar y generar lenguaje humano.

Los LLM han surgido como una fuerza dominante en el campo del procesamiento natural del lenguaje, mejorando en gran medida el rendimiento de numerosas tareas que se llevaban a cabo en este campo haciendo uso de modelos más clásicos.

El surgimiento de los LLM ha llevado a un cambio de paradigma en las métricas de precisión de esta tipología de modelos de Inteligencia Artificial. Aunque algunas métricas se han mantenido consistentes (Perplexity, Bleu, Rouge, F1 Score, …), la aparición de modelos LLM basados en aprendizaje profundo ha provocado principalmente modificaciones en el énfasis y aplicación de las mismas, especialmente en contextos de generación de texto más avanzados y complejos.

Esto ha conducido a los investigadores a optar en la mayoría de los casos por métricas más autoexplicativas (como la completitud de la respuesta, la coherencia sintáctica, la adecuación al rol requerido y, por supuesto, el feedback humano positivo respecto a la información generada), frente a la falta de transparencia y el vago entendimiento que desprendían las métricas más tradicionales.

Y es que, a igual objetivo, la misma respuesta proporcionada por uno de estos modelos puede ser evaluada de manera bien distinta por dos consumidores diferentes de la información, añadiendo cierto matiz de subjetividad a la tarea de evaluar la precisión de estos modelos. Este cambio de paradigma ha originado una mayor comprensión de la importancia de cuidar el contexto en la generación de contenido original, obligando a los desarrolladores a actuar de manera escrupulosa sobre el tratamiento y preprocesado de la información previa al consumo por estos modelos, y desencadenando en las organizaciones una cultura de cambio en torno al cuidado de las estrategias de almacenamiento y destilado de toda su información estructurada y no estructurada.

Iniciativas como el correcto metadatado de la información técnica y de negocio, la elección de una adecuada estrategia de “chunking” (troceo de contenido) en función del objetivo deseado, o la anexión de estrategias más clásicas de gobierno del dato a toda la fase de tratamiento e ingesta de estos modelos se convierten ahora en iniciativas cross que las organizaciones se plantean abordar de manera imperativa, antes incluso de embarcarse en el reto de diseñar un marco de desarrollo global de IA Generativa dentro de la organización.

Si en la última década el dato ya venía convirtiéndose en uno de los activos más valiosos de la compañía, ahora entendemos que la correcta adecuación del mismo para el consumo de estos modelos LLM marca una diferencia sustancial en la capacidad que tienen estos modelos de generar una respuesta más o menos precisa. Esto evidencia aún más, si cabe, la necesidad de incorporar políticas efectivas que faciliten convertir estos datos en la gasolina adecuada para el consumo de estos modelos, estableciendo un equilibrio entre el libre consumo de dicha información y las rigurosas políticas regulatorias en materia de ética y privacidad que comienzan a aparecer y, sin lugar a dudas, seguirán evolucionando con el objetivo de disponibilizar esta tecnología revolucionaria reduciendo al máximo los riesgos de su consumo.

Un artículo de Alberto Fernández Calvo (Responsable IA LABS)