La revolución de los LLMS. ¿Cómo hemos llegado hasta aquí?

Durante los últimos meses se ha vivido una revolución más que evidente en el ámbito del procesamiento del lenguaje natural. Con asombro hemos visto cómo parece que una máquina es capaz de hablar con nosotros como si fuera un humano, logrando superar con creces el test de Turing.

Allá por los años 50, Turing se hacía la famosa pregunta: “¿Puede una máquina hacerse pasar por un ser humano?” La realidad es que hoy en día, casi uno podría plantearse que podemos distinguir a las personas de las máquinas porque ¡¡cometemos más errores e imprecisiones al comunicarnos!!

Desde la explosión de la inteligencia artificial en la década pasada, los investigadores y profesionales pusieron el foco en el procesamiento del lenguaje natural por su ingente cantidad de aplicaciones, máxime con la irrupción de las redes sociales y la cantidad de contenido que se genera, ya no cada hora, sino cada instante. Es por ello que surgieron desde el principio técnicas de detección de spam o análisis de sentimiento, clasificadores y algoritmos de extracción de temáticas para poder clasificar contenidos, etc.

Inicialmente, se plantearon enfoques muy similares a los de cualquier algoritmo de machine learning: creación de un tablón analítico donde, con algún procedimiento más o menos ingenioso, los textos se convertían en valores numéricos y se entrenaban algoritmos como regresiones logísticas, naive Bayes, etc. Sin embargo, todos estos procedimientos tenían una limitación importante muy difícil de atajar: al hablar no es importante solo la palabra y su significado, sino capturar el contexto, las interrelaciones entre las palabras.

Con la irrupción del deep learning empezaron a ponerse los primeros ladrillos del edificio que tenemos hoy. Las redes recurrentes con arquitecturas LSTM parecían solucionarlo parcialmente gracias a que conseguían asociar conceptos que no estuvieran muy alejados en el espacio en las frases.

En 2017 se publica el artículo “Attention is all you need”, que es la base de la revolución actual. Si bien inicialmente se plantea como un apoyo a las redes tradicionales LSTM, rápidamente se ve que directamente las hace innecesarias, logrando por fin el tan ansiado objetivo de ser capaz de captar contextos. Surgen así los transformers, arquitecturas con encoders-decoders que permiten generar textos y con ello, la Inteligencia Artificial generativa.

Con estas arquitecturas se entrenan modelos de billones, trillones de parámetros que son capaces de analizar textos, extraer resúmenes, proporcionar respuestas e incluso interpretar información en tablas. Las aplicaciones empresariales son innumerables. Estamos ante una revolución del tratamiento documental con lo que ello significa.

Esta revolución tiene dos vertientes: no solo afecta directamente a las aplicaciones del lenguaje natural o sus posibles finalidades, sino también al modo en que los técnicos vamos a ejecutar proyectos. Antes se necesitaban históricos, algoritmos limitados al contexto en el que aprendían. Ahora se dispone de algoritmos generalistas que ya no necesitan un entrenamiento, sino más bien orientación hacia el problema de negocio concreto a resolver. Palabras como “prompting”, “fine tuning”, “few shots” se incorporan a la práctica del lenguaje natural.

Gracias a estos nuevos modelos LLMS o “Large Language Models”, podemos crear tanto nuevas aplicaciones como evoluciones de las existentes en el tratamiento documental:

Comparativas de documentos: Contraste de contratos entre un modelo estándar para detección de cláusulas, contraste de sentencias contra jurisprudencia…
Análisis de documentos: para responder preguntas concretas, por ejemplo, documentación oficial, BOES, Boletines autonómicos…
Consulta de normativa, tanto interna para procedimientos como externa…
Apoyo en CAUS, service points…

Con todas estas aplicaciones y esta mejora exponencial en el lenguaje natural, estamos viviendo una auténtica explosión de los asistentes virtuales enriquecidos con LLMS para apoyo y consulta en documentación, tanto para consumo interno a nivel de compañías y empresas. La capacidad no solo de análisis, sino de interacción con seres humanos por la generación de texto los hace ideales para este tipo de tareas.

Todavía queda camino por andar, pues al igual que las personas, estos modelos también cometen imprecisiones, las llamadas alucinaciones, y es por ello que todavía las empresas se toman cierta cautela antes de ponerlos como su propia imagen frente a sus clientes. Pero es algo que, antes o después, está llamado a suceder.

Un artículo de Santiago Moreno Gabaldón (Responsable de Procesamiento
de Lenguaje Natural (PLN))