Il est évident en 2024 que les grands modèles de langage (LLMs: Large Language Models) ont révolutionné et démocratisé le domaine de l’intelligence artificielle (IA). Ils dépassent nettement les systèmes précédents par leurs performances, leur polyvalence et leur simplicité d’utilisation. Ils sont capables de proposer des fonctionnalités telles que la génération de texte (résumé, traduction, code informatique), l’extraction d’informations depuis des contenus hétérogènes, l’analyse d’images, la résolution de problèmes relativement complexes. Leurs capacités reposent sur des architectures neuronales de très grande taille de type Transformer associées à des corpus massifs d’entraînement. Les LLMs sont actuellement le sujet principal de l’IA et de nouvelles offres technologiques sont apparues se livrant une très forte compétition pour proposer le meilleur modèle: GPT-4 d’OpenAI, Llama3 de Meta, Claude d’Anthropic, Gemini de Google, etc.

Il est cependant légitime de se poser quelques questions à propos de cette apparente domination technologique des LLMs. Sont-ils des outils réellement intelligents ou plus simplement des calculateurs puissants basés sur des corrélations statistiques ? Remplaceront-ils toutes les autres techniques d’IA ou leur succès masque-t-il des limitations et donc la nécessité d’alternatives ou de compléments ? Cet article tente de vous proposer une étude critique des LLMs: leurs forces, leurs faiblesses, les possibles alternatives et les prochaines évolutions.

La révolution LLM

Les LLMs sont basés sur l’architecture Transformer introduite en 2017 qui a marqué une réelle rupture dans le traitement du langage naturel (NLP). Contrairement aux modèles précédents (RNN, LSTM), les Transformers exploitent des mécanismes d’attention, permettant de contextualiser chaque mot dans une phrase, quelle que soit sa position.

Depuis, les itérations successives, comme BERT en 2018, GPT-3 en 2020 et GPT-4 en 2023, ont multiplié les capacités. Ces modèles, dotés de milliards de paramètres, sont entraînés sur des corpus massifs, couvrant une diversité impressionnante de sujets et de domaines.

Un LLM est capable de comprendre et générer du texte dans plusieurs langues, peut résoudre des problèmes mathématiques complexes, analyser des données ou même expliquer des concepts scientifiques en détail. En conséquence les LLMs proposent une adaptabilité à une large gamme de tâches répondant à autant de cas d’usages : l’extraction et la synthèse d’information pour l’assistance à l’utilisation de techniques ou machines, la génération et la rédaction dans différentes langues de contenus sous la forme souhaitées (article éditorial, exposé scolaire, comparatif…), la génération automatique de code dans n’importe quel langage de programmation etc.

Les modèles multimodaux, par exemple Gemini de Google, combinent plusieurs types de données : texte, image et audio. Un LLM multimodal peut interpréter une image, expliquer son contenu, puis répondre à des questions s’y rapportant. Il permet des applications innovantes dans la médecine (analyse d’imageries médicales), la création artistique (description automatisée de tableaux) ou la reconnaissance de produits en e-commerce.

L’utilisation d’un LLM est très accessible car il suffit de décrire sa demande dans un prompt en y joignant les documents associés (image, etc.). Il n’y a pas besoin de connaissances avancées en IA ou en data science comme c’était le cas pour les approches précédentes: entraîner un modèle de Machine Learning, créer des règles de décision, etc.

La mise à disposition de ces LLMs se fait soit par une interface homme-machine simple (OpenAI), soit par API et est payante ou open-source selon l’éditeur et son modèle commercial. Pour le fournisseur de service les LLMs exigent des infrastructures de stockage et de traitement très conséquentes et donc à priori onéreuses.

Concernant leurs performances, il est clair que les LLMs dépassent nettement les précédentes technologies lorsqu’on les compare à travers des évaluations standardisées telles que :

SuperGLUE (General Language Understanding Evaluation): évaluation de la compréhension générale du langage
Multi-Task Language Understanding (MMLU): tâches multiples de compréhension du langage
HumanEval: tâches de code et de programmation

Il apparaît même que pour certaines tâches, un LLM peut s’approcher ou même dépasser l’intelligence humaine. Il a ainsi été démontré que des LLMs peuvent obtenir de très bons résultats à différents tests scolaires de niveau universitaire (examens américains tel que SAT, examen pour le barreau d’avocat, des examens de médecine etc.).

Limites des LLMs et alternatives

Malgré leurs capacités impressionnantes, il nous semble important de rappeler que les LLMs souffrent de limitations importantes, qui peuvent restreindre leur utilisation dans certains contextes.

Véracité et complétude des informations

Les LLMs hallucinent fréquemment, cela signifie qu’ils génèrent des réponses fausses ou inventées. Par exemple, un LLM pourrait affirmer avec assurance qu’une personnalité célèbre a reçu un prix qu’elle n’a jamais remporté, simplement parce que cette idée est statistiquement plausible selon sa connaissance (basée sur le corpus d’entraînement).

Alternatives technologiques qui n’hallucinent pas :

Modèles sémantiques : un graphe de connaissance structure les données en les liant à des sources fiables, garantissant la vérification factuelle
Systèmes à base de règles : dans des domaines à cadre strict (finance, droit), ces systèmes offrent des garanties de précision grâce à des règles explicites

Manque de cohérence et explicabilité

Les LLMs sont sensibles au contexte. Par exemple, changer un nom ou mot dans une question peut provoquer une réponse différente voire incohérente. De plus, leur fonctionnement reste une boîte noire pour l’utilisateur : il vous est difficile d’expliquer pourquoi le modèle a produit cette réponse ou une autre. Enfin, à cause de la nature statistique de la réponse, poser plusieurs fois la même question génère des réponses à chaque fois différentes dans la forme et le fond !

Alternatives qui sont explicables et offrant une pertinence fiable :

Encoders spécialisés (BERT, RoBERTa) : ces modèles offrent des résultats plus stables et traçables
Systèmes symboliques : exploiter des logiques formelles permet de produire des raisonnements explicables et compréhensibles

Limites du raisonnement et “non-intelligence”

Rassurons-nous, contrairement à leur appellation, les LLMs ne possèdent pas d’intelligence au sens humain du terme. Ils ne font que manipuler des corrélations statistiques, sans compréhension réelle. Par exemple, un modèle pourrait échouer à résoudre un problème mathématique basique s’il n’a pas déjà vu de solution similaire durant son entraînement.

Exemple: Si on demande à un LLM de résoudre une équation complexe après avoir remplacé les variables par des noms aléatoires, il est probable qu’il se trompe en générant une solution basée sur des hypothèses fausses.

Compléments pour une efficacité accrue :

Systèmes symboliques : ces systèmes, combinés aux LLMs, peuvent offrir une capacité de raisonnement logique plus robuste
Modèles hybrides : en intégrant des bases de données explicites et des moteurs de raisonnement

Biais et problèmes éthiques

Les données d’entraînement des LLMs contiennent souvent des biais, pouvant alors amplifier les stéréotypes dans leurs réponses. Par exemple, un modèle peut associer certains métiers à un genre particulier ou donner des réponses inappropriées dans des contextes sensibles (genre, ethnie, religion etc.). Ajoutons que les corpus d’entraînement sont parfois constitués sans l’assentiment de leurs auteurs ce qui ramène à des questions sur le respect du droit d’auteur, mais aussi l’interprétation des propos et leur contextualisation lors de la rédaction. En outre, l’utilisation de LLMs par API en cloud pose un problème de confidentialité des données personnelles qui seraient fournies au modèle : Dans certains cas, ces données peuvent être utilisées pour l’amélioration du modèle ou de futures versions du modèle.

Pire, les phénomènes d’hallucination dans les réponses peuvent apparaître comme des risques de propagation de fausses nouvelles (fake news, infox). Malgré les nombreux garde-fous lors de l’entraînement, il y a toujours un risque de générer une réponse inappropriée et/ou dangereuse si l’utilisateur final n’est pas suffisamment vigilant.

Propositions pour réduire ces risques :

Modèles entraînés sur des corpus spécifiques : limiter l’entraînement à des données sélectionnées permet de réduire les biais
Ontologies éthiques : imposer des contraintes explicites dans les réponses, basées sur des règles préétablies

Coûts élevés et performance énergétique

Le coût d’entraînement et d’utilisation des LLMs est colossal. L’entraînement de GPT-4, par exemple, a nécessité un investissement de 80 millions de dollars. L’infrastructure est poussée à ses limites avec des calculateurs dédiés (GPUs IA à grande mémoire et grande capacité de traitement) très énergivores. Une simple requête peut consommer jusqu’à mille fois plus d’énergie qu’une requête de moteur de recherche. Le temps d’exécution d’une requête est aussi nettement plus élevé que pour les technologies précédentes.

Alternatives :

Modèles plus légers : DistilBERT et TinyBERT offrent des performances similaires pour des tâches spécifiques avec une empreinte énergétique réduite
Approches traditionnelles : des algorithmes simples sont parfois suffisants pour des tâches comme la recherche de mots-clés

Complémentarité et futur des LLMs

Les LLMs représentent une avancée spectaculaire dans l’IA, mais leur pérennité repose très certainement sur leur capacité à se compléter avec d’autres approches. Plutôt que de dominer seules, ces technologies devraient contribuer à créer un écosystème d’intelligences artificielles spécialisées. Par exemple :

Approches alternatives: considérer les approches alternatives (ex: entraînement de modèles transformer encoder) aux LLMs lorsqu’elles sont plus efficientes
Retrieval-Augmented Generation (RAG): chercher des documents dans une base de connaissances pour asseoir la qualité de la réponse du LLM
Graphes de connaissances + LLMs : assurer la véracité des informations générées par les LLMs en s’appuyant sur des données structurées
Systèmes symboliques + apprentissage automatique : utiliser des règles logiques pour augmenter la fiabilité et l’explicabilité des modèles

Les LLMs évoluent en permanence pour surmonter certaines de leurs limites. Voici quelques axes de recherche actuels :

Amélioration des performances: en augmentant la taille du modèle ou du corpus, en affinant l’architecture interne ou les techniques d’entraînement
Modèles plus petits: moins chers et utilisables localement
Modèles experts: spécialistes d’un domaine ou d’une tâche particulière (biologie, mathématiques,..)
Fusion avec des systèmes explicatifs : intégrer des modules de raisonnement logique et des algorithmes symboliques
Mémoire dynamique et contextuelle : permettre aux modèles de s’adapter en temps réel aux contextes évolutifs
Vers l’intelligence artificielle générale (AGI) : les tentatives actuelles visent à unifier plusieurs modalités et types de tâches dans une seule entité intelligente

L’approche Fluree

Chez Fluree nous proposons une plate-forme complète de gestion de terminologies sémantiques / graphe de connaissance (ITM, FlureeDB) et d’extraction d’information structurée et non-structurée (Sense, CAM). La force de notre solution réside dans la complémentarité des outils d’IA que nous mettons en œuvre. Nos solutions combinent différentes approches pour optimiser la qualité, le coût,et l’explicabilité des traitements en s’adaptant aux besoins spécifiques de nos clients. Il est possible d’intégrer au sein du même processus des étapes de détection à base de règles, des modèles ML linguistiques ou entrainés pour la classification et l’extraction d’information, des LLMs et des référentiels sémantiques et des graphes de connaissances.