ADADA

ADADA - Jeux de données adaptatifs pour l’amélioration indéfinie raisonnement des modèles de langue

Coordinateur : Damien Sileo Inria CRIStAL

Équipe : Magnet du Groupe Thématique : DatInG.

Dates : 2024 - 2028

Résumé :

Les grands modèles de langage (LLM) ont redéfini le domaine du traitement du langage naturel, mais leurs capacités en matière de raisonnement complexe restent limitées. Pour résoudre les problèmes de raisonnement implicite qui surviennent dans des situations quotidiennes, comme l’interprétation de règles dans des textes, l’analyse de spécification techniques ou la détection de contradiction, les LLM doivent aller au-delà d ela simple maîtrise linguistique et gagner en capacité logique, et de résolution de problèmes en plusieurs étapes.

Le projet Adada propose un cadre nouveau pour distiller les techniques modernes de raisonnement symbolique dans les LLM grâce à des jeux de données synthétiques évolutifs. En générant des tâches annotées automatiquement (MAT) adaptées à des applications spécifiques, Adada vise à améliorer continuellement les LLM pour des cas d’utilisation nécessitant un raisonnement poussé, tels que la compréhension de la documentation technique, le raisonnement de sens commun et l’analyse juridique.

Adada développera une plateforme modulaire et évolutive pour la génération de problèmes guidée par la syntaxe et la pertinence. Cette plateforme intégrera diverses MAT, notamment des logiques non classiques, l’induction, la planification et la satisfaction de contraintes, en représentant chaque tâche avec une grammaire formelle, un solveur et une verbalisation en langage naturel. Une méthodologie itérative générera des jeux de données mettant en évidence les limites des capacités de raisonnement des LLM, en privilégiant des problèmes concis, diversifiés et stimulants.

Le projet étudiera le transfert d’apprentissage entre les MAT et les tâches annotées par l’humain (HAT), offrant ainsi un éclairage sur les relations entre les différents formalismes de raisonnement et leur impact sur la compréhension du langage naturel. Adada évaluera les LLM résultants sur un ensemble de HAT préexistantes nécessitant un raisonnement poussé, couvrant des domaines tels que le raisonnement juridique, les questions-réponses médicales et la détection des contradictions.

Abstract :

Large language models (LLMs) have achieved remarkable success in various natural language processing tasks, but their ability to perform complex reasoning often falls short. To tackle implicit reasoning problems that arise in everyday scenarios, from interpreting rules in texts to evaluating products against specifications, LLMs need to go beyond linguistic fluency and acquire logical precision and multi-step problem-solving skills.

The Adada project proposes a novel framework to distill modern symbolic reasoning into LLMs through evolutive synthetic datasets. By generating machine-annotated tasks (MATs) tailored to specific downstream applications, Adada aims to continuously enhance LLMs for reasoning-intensive use cases such as technical documentation understanding, commonsense reasoning and legal analysis.

Adada will develop a scalabe, modular framework for syntax-guided and value-guided problem generation. The framework will integrate diverse MATs, including non-classical logics, induction, planning, and constraint satisfaction, by representing each task with a formal grammar, a solver, and a verbalization into natural language. An adversarial methodology will iteratively generate datasets exposing limitations in the LLMs’ reasoning abilities, promoting concise, diverse, and challenging problems.

The project will investigate transfer learning between MATs and human-annotated tasks (HATs), providing insights into the relationships between different reasoning formalisms and their impact on natural language understanding. Adada will evaluate the enhanced LLMs on a suite of reasoning-intensive HATs spanning legal reasoning, medical question answering, and contradiction detection.