Hacia un concepto expandido de IA conversacional

Las interfaces conversacionales existen desde hace décadas: ahora recordamos con nostalgia a ELIZA, considerado el primer chatbot y desarrollado en el año 1996.

Las interfaces conversacionales existen desde hace décadas: ahora recordamos con nostalgia a ELIZA, considerado el primer chatbot y desarrollado en el año 1996. Sin embargo, lejos de aquellos primeros pasos, con el avance de los últimos años en el campo de la Inteligencia Artificial y el procesamiento del lenguaje natural (NLP, en inglés) estos sistemas de diálogo han ido convirtiéndose en herramientas verdaderamente útiles. El último gran impulso ha llegado de la mano de los grandes modelos de lenguaje (más conocidos por la sigla en inglés LLM) y la inteligencia artificial generativa.

Cuando se desarrolló ELIZA, su creador, Weizenbaum, señaló (y resolvió para ELIZA)
varios problemas técnicos fundamentales a los que las interfaces conversacionales
han continuado enfrentándose hasta hoy: la identificación de palabras clave, el descubrimiento de un contexto mínimo, la elección de transformaciones apropiadas, la generación de respuestas adecuadas o la capacidad de reaccionar frente a la ausencia de palabras léxicas con contenido semántico relevante.

Con la llegada de la IA generativa y los LLM, los problemas que señalaba Weizenbaum han sido solventados, no ya para un caso muy concreto con un sistema exclusivo de reglas, sino para los ansiados contextos generalistas en que un asistente virtual puede hablar con coherencia sobre prácticamente cualquier ámbito de conocimiento. Podríamos decir que uno de los retos a los que nos enfrentamos en la actualidad es, precisamente, que no hable sobre cualquier ámbito de conocimiento. Es decir, limitar y especializar esos ámbitos y evitar las alucinaciones (el contenido en el que la información no es verídica a pesar de parecerlo).

Durante estos años hemos contado (y seguimos contando) con dos componentes principales para construir y potenciar el conocimiento de los asistentes virtuales: el modelo de NLU (Natural Language Understanding) y el diálogo o lógica de la conversación. La adecuada elección del caso de uso y un buen diseño y construcción de los posibles flujos de conversación y del modelo de lenguaje han asegurado hasta el momento gran parte del éxito de estas interfaces.

La aparición en el sector de los LLM y la IA generativa está suponiendo para este tipo de sistemas un inmenso campo de nuevas posibilidades. Ahora, además de contar con las herramientas que ya teníamos, contamos con la potencia de estas tecnologías para comprender las necesidades de nuestros usuarios y clientes en lenguaje natural y generar para ellos el contenido adecuado. Para ofrecer el mejor resultado y solventar las posibles alucinaciones, estamos empleando técnicas de generación mejorada por recuperación (RAG) combinadas con unos elevados estándares de calidad del dato y otros recursos de NLP como el reconocimiento de entidades (NER).

Esto nos permite obtener unas interfaces de conversación donde las funcionalidades informativas (por ejemplo, un asistente de pregunta-respuesta sobre una base documental) han alcanzado niveles de éxito impensables hace tan solo un año y medio y donde podemos reservar las capacidades del entrenamiento de modelos de lenguaje específicos (NLU) para funcionalidades transaccionales o que requieren una alta precisión en el entendimiento. De esta forma obtenemos tres tipos de interfaces distintas adaptadas a cada caso y necesidad:

Interfaces conversacionales generativas: son interfaces que están construidas exclusivamente con IA generativa. Son las más adecuadas en casos de uso informativos y en aquellos en los que se debe atender una pregunta abierta de alta complejidad (por ejemplo, un caso de triaje de llamadas en call center), teniendo siempre en cuenta la necesidad de poseer o generar las fuentes de información adecuadas.

Interfaces conversacionales tradicionales: se trata de interfaces que entrañan el entrenamiento de un modelo de NLU tradicional y el manejo de la conversación mediante flujos de diálogo. Son idóneas para casos de uso que impliquen funcionalidades transaccionales (por ejemplo, la reserva de cita o el pago de un producto) o que requieran el entendimiento de unas categorías específicas y acotadas.

Interfaces conversacionales híbridas: permiten aprovechar lo mejor de ambas Inteligencias Artificiales a nivel conversacional. Por un lado, hacen posible incorporar las virtudes de la Inteligencia Generativa a los sistemas de IA conversacional tradicionales, garantizando así el mantenimiento y evolución de los asistentes virtuales que ya están en el mercado con resultado exitoso. Por otro lado, permiten crear un sistema híbrido donde, en función de las necesidades de la conversación, podemos utilizar una inteligencia u otra para guiar mejor al usuario. Por ejemplo, se puede contar con una interfaz de conversación que combine funcionalidades transaccionales con funcionalidades informativas, eligiendo unas u otras en función del punto de la conversación en que se encuentre el usuario.

Además de las aplicaciones directas, la IA Generativa tiene un gran papel que jugar en otros puntos de la construcción de las interfaces conversacionales como la paráfrasis de los mensajes que escriben nuestros usuarios, técnica que permite mejorar el procesamiento del lenguaje en ciertos contextos complejos, así como la automatización de gran parte del análisis de conversaciones para facilitar la analítica, el mantenimiento y evolución de estos sistemas.

Las posibilidades actuales de la IA conversacional están muy lejos del chatbot que se limita a responder unas pocas FAQ que tantas veces hemos visto, y por supuesto de aquellos que solo cuentan con unos cuantos botones. Responder gran cantidad de dudas complejas automáticamente, crear contenido en distintos formatos (texto, imágenes, vídeo), llevar a cabo acciones y transacciones, procesar contenido (para obtener resúmenes, datos concretos, analizar sentimiento, etc.), o hacer consultas sobre una abrumadora cantidad de documentación son tan solo algunas de las opciones que los asistentes virtuales son capaces de ofrecer en la actualidad.

Autores: María López Santiago (Responsable de Interfaces Conversacionales en Minsait) y Alicia Díaz Sánchez (Experta en Interfaces Conversacionales en Minsait).