Vous avez dit LLM ?
- Michel Louis
- 7 avr.
- 6 min de lecture

Introduction
Les modèles linguistiques de grande taille dits LLM (Large Language Models) sont indispensables à l’ensemble des intelligences artificielles génératrices que nous connaissons actuellement.
Cet article explore l'historique, les principes fondamentaux et les applications des LLM, leur évolution probable aussi.
Les débuts de l'intelligence artificielle
Les premiers travaux sur les IA remontent aux années 1950, lorsque des chercheurs comme Alan Turing ont commencé à explorer l’éventualité de machines capables de penser, preuve de concept.
Mais les premiers modèles étaient rudimentaires, basés sur des règles simples de traitement du langage qui ne pouvaient convenir qu’à des usages limités, très simples eux aussi, en rapport avec la faible puissance de calcul disponible à cette époque.
L'ère des réseaux neuronaux
L'arrivée des réseaux neuronaux artificiels dans les années 1980 a marqué un tournant décisif, mais le matériel ne suivait pas encore, ce qui excluait de récolter et d’utiliser les immenses quantités de données nécessaires à l’apprentissage.
Il fallut attendre l’avènement des réseaux neuronaux profonds (deep learning) dans les années 2010 pour que les LLM commencent à émerger en tant que tels, et ce d’autant que s’annonçait l’ère du Big Data, celle des gigantesques bases de données et des logiciels permettant de les exploiter…
La révolution des LLM
En 2019, OpenAI a lancé GPT-2, un modèle linguistique basé sur un réseau de neurones profond et basé sur un LLM déjà conséquent, mais passé presque inaperçu à l’époque où l’épidémie de COVID 19 s’apprêtait à figer le monde.
GPT-2 démontra pourtant une capacité remarquable à générer du texte cohérent et pertinent, et ce en quelques secondes.
L'année suivante, GPT-3 a repoussé les limites avec 175 milliards d’occurrences, permettant des applications variées allant de la rédaction automatique à la traduction avec une précision et une rapidité sans équivalents.
Et leur architecture ?
Les LLM reposent sur des architectures complexes de réseaux neuronaux profonds, organisés par couches de neurones artificiels interconnectés, un peu comme un cerveau humain.
Chaque couche traite les données d'une manière spécifique, permettant au modèle de comprendre et de générer du texte en se basant sur une approche statistique large, à condition que la quantité de données analysée soit suffisante.
Entraînement
Comme nous l’avons abordé précédemment, l'entraînement des LLM nécessite des quantités massives de données textuelles selon l’adage de « plus, c’est mieux » !
Les modèles sont alimentés par des corpus très diversifiés, allant de la littérature aux articles de presse, en passant par les conversations en ligne ; en résumé, tout ce qui se trouve sur internet est susceptible d’être mis à contribution pour cette tâche, d’où la nécessité d’un matériel de stockage pléthorique.
Ensuite, grâce à des techniques d'apprentissage supervisé et non supervisé, les LLM peuvent apprendre les nuances du langage humain, parfois très finement, et les reproduire ensuite au bon moment.
Génération de texte (et de conversations !)
Les LLM sont aussi capables de générer du texte de manière autonome en se basant sur les règles et les structures apprises pendant l'entraînement.
Cette capacité est particulièrement utile pour des tâches telles que la rédaction d'articles, de dépêches, la création de contenu et bien plus encore, puisque même la chanson ou la poésie peuvent être abordées, sans oublier le code informatique !
Toutefois, comme elles reposent sur des bases statistiques, ces capacités sont assez répétitives, avec le risque de souvent tomber dans les mêmes formules, certes exactes, mais redondantes, ou « lourdes à la lecture », car les modèles de langage en sont encore à leurs débuts, un peu comme un enfant qui apprend…
Traduction linguistique
La traduction automatique est une autre application phare des LLM.
Des modèles comme GPT-3 peuvent traduire des textes entre différentes langues avec une précision étonnante, avec très peu de fautes, facilitant ainsi la communication internationale.
De plus, ces traductions, rappelons-le de bonne qualité, sont obtenues en quelques secondes, bien plus rapidement qu’un traducteur humain, aussi doué soit-il…
Pourtant, si les tâches de traduction basiques peuvent d’ores et déjà être assurées par une IA dotée de LLM, les interprètes, notamment, à l’œuvre dans les conférences internationales et les rencontres diplomatiques ne sont pas prêts d’être remplacés…
En effet, si traduire est une chose, « sentir » quels mots il faut utiliser dans un contexte précis, pour, par exemple, ne pas froisser un chef d’État, reste encore l’apanage des humains !
Assistants virtuels
Les assistants virtuels, tels que Siri, Alexa et Google Assistant, utilisent des LLM pour comprendre les requêtes des utilisateurs et fournir des réponses appropriées. Cela améliore l'expérience utilisateur et rend les interactions avec les machines plus naturelles, mais toujours pas exemptes d'erreur quand l'IA ne comprend pas correctement le sens de la requête.
Même les constructeurs automobiles commencent à intégrer ces assistants, avec une première mondiale pour la firme française DS, qui vient de proposer une version embarquée de Chat GPT sur son logiciel maison IRIS.
Analyse de sentiments
Les LLM sont également utilisés pour analyser les sentiments exprimés dans les textes, mais aussi dans les intonations vocales.
Cette capacité est particulièrement utile pour les entreprises qui souhaitent comprendre les opinions et les émotions de leurs clients, notamment dans le cas du service et du support.
D’autres secteurs, comme la médecine, notamment psychologique, sont aussi très intéressés par ce type de capacités.
Perspectives
Techniquement, et malgré leurs capacités impressionnantes, les LLM présentent encore des inconvénients, pour ne pas dire de franches lacunes.
Leur entraînement nécessite des ressources informatiques considérables, et leur fonctionnement peut être coûteux.
De plus, ils peuvent générer des résultats incohérents ou biaisés si les données d'entraînement ne sont pas représentatives. Et même là, des phénomènes dits « hallucinatoires » sont présents, sans qu’il soit possible de comprendre comment le logiciel en est arrivé à des réponses aussi éloignées de la réalité.
Et comme toujours en IA, l’éthique.
En effet, les modèles peuvent aussi être utilisés pour créer de fausses informations ou manipuler l'opinion publique, et ce potentiellement d’une façon très subtile, par exemple en mélangeant le vrai avec le faux, voire en orientant le contenu du corpus pour fausser les réponses dans un sens donné.
Il est donc essentiel de développer des approches pour garantir une utilisation responsable de ces technologies, sans oublier la question de la propriété des données utilisées pour l’apprentissage.
Sur ce dernier sujet, soyons clairs : la plupart des LLM sont soupçonnés de s’affranchir gaillardement des droits d’auteurs, au moins pour leur phase d’apprentissage initiale, quand ils ne se copient tout simplement pas entre eux….
Et le futur ?
Le futur des LLM promet des avancées encore plus spectaculaires, car la technologique n’en est qu’à ses débuts !
Des modèles plus grands et plus performants sont en développement, ouvrant la voie à des applications innovantes, comme donner une interface vocale cohérente aux robots, qui pourront enfin mener de « vraies conversations » à l’image d’un chat GPT, que l’on ne présente plus.
Les recherches continuent également pour améliorer la compréhension contextuelle et réduire les biais et les incohérences, véritables plaies des I.A.
Conclusion
Les modèles linguistiques de grande taille ont révolutionné le domaine de l'intelligence artificielle et ont ouvert des perspectives fascinantes pour la communication homme-machine.
Leur capacité à comprendre et à générer du texte (et des chiffres) offre des opportunités vastes pour de nombreux secteurs, en particulier ceux de la rédaction, de la création de contenu et du journalisme...
À termes, l'ensemble des secteurs technologiques seront touchés, car qui génère du texte, peut aussi générer de la parole, ce qui ouvre la voie à la domotique, à l'enseignement, à l'accueil au sens général du terme...
Mais…
Il demeure crucial de se rappeler que ces modèles, pour performants et exhaustifs qu’ils soient, sont avant tout des modèles statistiques éduqués (très !) et qu’à ce titre, ils sont incapables de faire preuve de la sensibilité et de la compréhension contextuelle requise dans certains domaines.
Ainsi, ils pourraient mettre au chômage les traducteurs de masse, mais pas encore ceux qui viennent ensuite, ceux qui adaptent, qui vérifient si, dans une langue donnée, une traduction littérale est justifiée ou non, par ne citer que cet exemple.
De la même façon, un rédacteur pourra s’appuyer sur ces nouvelles IA génératrices basées sur de larges LLM pour gagner du temps, enrichir ses sources, mais le brouillon généré devra être revu, partiellement réécris pour le style, pour la musicalité du texte, mais aussi pour la direction souhaitée, l’opinion défendue, car un texte n’est pas qu’une succession d’informations mise en forme, loin de là…




Commentaires