Définition
Version réduite d'un grand modèle de langage (LLM), le petit modèle de langage (SLM) repose sur des connaissances plus spécialisées et offre aux équipes une personnalisation plus rapide ainsi qu'une efficacité d'exécution accrue.
Contrairement aux LLM qui présentent des connaissances générales, les SLM sont entraînés pour développer des connaissances spécifiques à un domaine. Plus petits, les SLM mobilisent moins de ressources de calcul pour leur entraînement et leur déploiement, ce qui réduit les coûts de l'infrastructure et accélère le réglage fin. De plus, leur légèreté les rend particulièrement adaptés aux appareils d'edge computing et aux applications mobiles.
Petits et grands modèles de langage
Les SLM et les LLM sont deux types de systèmes d'intelligence artificielle (IA) entraînés dans le but d'interpréter le langage humain, notamment les langages de programmation. Leurs principales différences sont généralement liées à la taille des ensembles de données et aux processus d'entraînement utilisés, ainsi qu'au coût et aux bénéfices associés à la mise en œuvre des divers cas d'utilisation.
Comme leur nom l'indique, les LLM et SLM sont entraînés à partir d'ensembles de données de langage, ce qui les distingue des modèles entraînés à l'aide d'images tels que DALL·E ou de vidéos comme Sora. Ces données peuvent être issues de contenus textuels de sites web, de code de développement, d'e-mails ou encore de manuels d'utilisation.
L'une des principales applications des SLM et des LLM est l'IA générative, qui vise à générer des contenus non prédéfinis pour répondre à des requêtes multiples et imprévisibles. Les LLM doivent notamment leur popularité au modèle de fondation GPT-4 et à ChatGPT, un dialogueur (ou chatbot) entraîné à partir d'immenses ensembles de données et à l'aide de milliards de paramètres afin de répondre à une multitude de questions posées par des humains. Ces modèles s'utilisent pour d'autres applications non génératives, comme l'IA prédictive.
Différents ensembles de données d'entraînement
Le champ d'application de GPT-4/ChatGPT illustre bien l'une des principales différences entre les LLM et les SLM : les ensembles de données d'entraînement.
Les LLM visent souvent à imiter les facultés intellectuelles humaines de manière générale, et sont donc entraînés à partir d'une multitude d'ensembles de données très vastes. Dans le cas de GPT-4/ChatGPT, l'entraînement se base sur la totalité des données publiées sur Internet jusqu'à une date donnée. Si c'est en interprétant et en répondant à de multiples requêtes du grand public qu'il a acquis sa notoriété, ChatGPT a également attiré l'attention avec ce que l'on appelle communément des « hallucinations ». Ces réponses incorrectes s'expliquent par un manque de réglage fin et d'entraînement dans un domaine précis pour répondre avec exactitude aux requêtes propres à un secteur ou à une niche.
Les SLM sont quant à eux entraînés avec de plus petits ensembles de données adaptés à des domaines spécifiques. Par exemple, un prestataire de soins de santé peut utiliser un dialogueur alimenté par un SLM et entraîné à partir d'ensembles de données médicales pour intégrer des connaissances spécifiques d'un domaine dans la requête que formule un utilisateur inexpérimenté sur sa santé, en vue de préciser la question et de fournir une réponse de meilleure qualité. Dans cette situation, il n'est pas nécessaire d'entraîner le dialogueur avec toutes les données publiées sur Internet (articles de blog, romans de fiction, poèmes, etc.), car elles ne sont pas pertinentes pour ce cas d'utilisation.
En bref, les SLM sont généralement très performants dans des domaines spécifiques, et à l'inverse des LLM, leurs capacités sont inférieures lorsque les requêtes demandent des connaissances générales et une compréhension globale du contexte.
Ressources Red Hat
Différentes ressources
Qu'il s'agisse d'un LLM ou d'un SLM, l'entraînement d'un modèle pour un cas d'utilisation métier est un processus qui nécessite de nombreuses ressources. Ce sont cependant les LLM qui en demandent le plus. Dans le cas de GPT-4, il a fallu utiliser 25 000 GPU NVIDIA A100 simultanément pendant 90 à 100 jours. Gardons à l'esprit toutefois que ce modèle est actuellement le plus grand des LLM. D'autres LLM, comme les modèles Granite, n'ont pas eu besoin d'autant de ressources. L'entraînement d'un SLM mobilise une quantité non négligeable de ressources de calcul, mais à une échelle bien inférieure de celle des LLM.
Ressources mobilisées pour l'entraînement et l'inférence
Il convient également de différencier l'entraînement et l'inférence des modèles. Comme expliqué ci-dessus, l'entraînement est la première étape de développement d'un modèle d'IA. L'inférence correspond au processus qu'un modèle d'IA déjà entraîné suit pour formuler des prédictions à partir de nouvelles données. Par exemple, lorsqu'un utilisateur pose une question à ChatGPT, le modèle génère une prédiction et c'est ce que l'on appelle l'inférence.
Certains modèles préentraînés, comme ceux de la famille Granite, peuvent faire des inférences en mobilisant les ressources d'une seule station de travail hautes performances (par exemple, un seul GPU2 V100 de 32 Go), bien qu'ils soient nombreux à avoir besoin de plusieurs unités de traitement parallèle pour générer des données. En outre, plus le nombre d'utilisateurs qui accèdent au LLM simultanément est élevé, plus le processus d'inférence est ralenti. De leur côté, les SLM sont généralement conçus de sorte que les inférences nécessitent simplement les ressources d'un smartphone ou d'un autre type d'appareil mobile.
Avantages des SLM
Aucun modèle n'est intrinsèquement meilleur que les autres. Tout dépend des objectifs, des ressources et des compétences de l'entreprise, ainsi que de son calendrier et d'autres facteurs. Il est également essentiel de décider si le cas d'utilisation requiert d'entraîner un modèle vierge ou de simplement procéder au réglage fin d'un modèle préentraîné. Voici quelques points à prendre en compte pour choisir entre un LLM et un SLM :
Coût
La plupart du temps, les LLM nécessitent bien plus de ressources pour l'entraînement, le réglage fin et les inférences. L'entraînement reste cependant un processus peu fréquent. Les ressources de calcul sont seulement nécessaires pendant ce processus, qui n'est pas une tâche régulière et continue. En revanche, l'exécution des inférences implique un coût continu, qui peut augmenter parallèlement à la hausse du nombre d'utilisateurs du modèle. Dans la plupart des cas, des ressources de cloud computing à grande échelle ou des investissements importants sur site seront nécessaires, voire les deux.
L'utilisation des SLM est souvent envisagée pour des cas d'utilisation à faible latence, comme l'edge computing, parce que ces modèles peuvent généralement s'exécuter avec les ressources disponibles sur un appareil mobile, sans avoir besoin d'une connexion stable et performante à d'importantes ressources.
Expertise
De nombreux LLM préentraînés, comme Granite, Llama et GPT-4, suivent une approche de type « prêt à l'emploi » pour simplifier l'adoption de l'IA. Les entreprises qui souhaitent commencer par faire quelques tests avec cette technologie doivent les privilégier, car aucune intervention de data scientists n'est nécessaire pour leur conception ou leur entraînement. De leur côté, les SLM nécessitent des compétences spécialisées, à la fois en science des données et dans le secteur d'activité en question, pour effectuer un réglage fin à l'aide d'ensembles de données spécifiques.
Sécurité
L'un des risques associés aux LLM est l'exposition de données sensibles au travers des interfaces de programmation d'application (API). Le réglage fin d'un LLM à l'aide des données d'une entreprise doit se faire dans le respect de la conformité et des politiques applicables. En matière de fuite de données, les SLM présentent un moindre risque, car ils offrent un meilleur niveau de contrôle.
Limites du SLM
Parce qu'elles intègrent de plus en plus les SLM à leurs workflows, les entreprises doivent s'assurer de connaître les limites associées à ce type de modèle.
Biais
Les SLM sont entraînés à l'aide d'ensembles de données plus restreints, ils sont donc moins touchés par les biais que les LLM, même s'il est impossible de les éliminer complètement des modèles d'IA. En effet, l'entraînement des données de modèles de toutes tailles induit un risque de biais : certains groupes ou certaines idées peuvent être sous-représentés ou mal représentés, et des erreurs factuelles peuvent même survenir. Les modèles de langage peuvent également reproduire des biais en fonction des dialectes, de la zone géographique et de la grammaire utilisée.
Les équipes doivent donc porter une attention particulière à la qualité des données d'entraînement afin de limiter la présence de biais dans les résultats.
Champ de connaissances restreint
Les SLM se basent sur un plus petit pool d'informations pour générer des réponses. Ils sont de ce fait très efficaces pour effectuer des tâches spécifiques, mais beaucoup moins adaptés lorsqu'il s'agit de tâches qui nécessitent de vastes connaissances générales.
Dès lors, les équipes peuvent envisager de créer une collection de SLM spécifiques afin de l'utiliser en parallèle à un ou plusieurs LLM. Cette solution est particulièrement intéressante lorsque les équipes sont en mesure d'associer des modèles à leurs applications existantes, car elles bénéficient ainsi d'un workflow interconnecté constitué d'une multitude de modèles de langage fonctionnant conjointement.
Cas d'utilisation des SLM
Parce qu'ils sont adaptables, les SLM sont intéressants pour de nombreux cas d'utilisation.
Dialogueurs
Les entreprises peuvent utiliser un SLM pour entraîner un dialogueur à partir de contenus spécialisés. Si nous prenons l'exemple d'un service clientèle, le dialogueur peut être entraîné sur la base de connaissances propre à une entreprise de manière à répondre à des questions et à guider les utilisateurs vers les informations pertinentes.
IA agentique
Lorsqu'ils sont intégrés à un workflow d'IA agentique, les SLM peuvent effectuer des tâches à la place d'un utilisateur.
IA générative
Les SLM peuvent exécuter des tâches telles que la génération de texte, la traduction d'un texte existant et la synthèse de contenus écrits.
Nos solutions
Notre gamme de produits Red Hat AI fournit des capacités d'IA prédictive et générative, et facilite la mise en œuvre du MLOps pour créer des solutions d'IA fiables et flexibles à grande échelle dans les environnements de cloud hybride. Nos solutions accélèrent l'adoption de l'IA, éliminent les difficultés liées à la distribution de solutions d'IA et offrent la possibilité de développer et déployer des applications dans l'environnement où les données sont stockées.
En association avec notre infrastructure de cloud hybride ouvert, cette gamme de produits offre aux entreprises une plateforme unique pour créer des solutions d'IA sur mesure, gérer le cycle de vie des modèles et des applications, s'adapter aux exigences d'accélération matérielle, ainsi que déployer, exécuter et exploiter des charges de travail essentielles.
Apprentissage automatique et intelligence artificielle pour les débutants
InstructLab est une solution communautaire pour l'entraînement des LLM, qui facilite la prise en main des modèles d'IA et d'apprentissage automatique (AA). Elle permet aux utilisateurs de faire des tests et de contribuer directement et gratuitement au développement d'un modèle d'IA.
Accès simplifié aux modèles de la famille Granite d'IBM
Pour aller plus loin, les utilisateurs peuvent passer à la plateforme de modèles de fondation Red Hat® Enterprise Linux® AI, qui permet de développer, de tester et d'exécuter des LLM de la famille Granite pour les applications d'entreprise. Granite est une famille de modèles d'IA sous licence Open Source, entièrement pris en charge et indemnisés par Red Hat. Parce qu'ils sont Open Source, ils encouragent l'innovation dans le domaine de l'IA générative dans un cadre de confiance et de sécurité.
Mise à l'échelle pour les entreprises
Red Hat® OpenShift® AI est une plateforme capable de prendre en charge les modèles à grande échelle dans des environnements de cloud hybride. Cette plateforme facilite l'entraînement, l'ajustement des instructions, le réglage fin et la distribution de modèles d'IA qui reposent sur les données de l'entreprise et sont adaptés à son cas d'utilisation.
En association, ces produits forment une solution unifiée qui favorise la collaboration entre les équipes de science des données et de développement, avec à la clé des modèles qui passent plus rapidement de la phase de test à la production.
Écosystème de partenaires
Les solutions intégrées de nos partenaires ouvrent la voie à un écosystème en plein essor d'outils d'IA fiables et compatibles avec les plateformes Open Source.
Le blog officiel de Red Hat
Découvrez les dernières informations concernant notre écosystème de clients, partenaires et communautés.