Was sind Small Language Models (SLMs)?
Ein Small Language Model (SLM) ist eine kleinere Version eines Large Language Models (LLM), das über mehr Fachwissen verfügt, schneller angepasst und effizienter ausgeführt werden kann.
SLMs besitzen durch ihr Training domainspezifisches Wissen, während LLMs über ein breites Allgemeinwissen verfügen. Aufgrund ihrer geringeren Größe benötigen SLMs weniger Rechenressourcen für Training und Deployment, so lassen sich Infrastrukturkosten senken und Fine Tuning beschleunigen. Die Kompaktheit von SLMs macht sie ideal für Edge-Geräte und mobile Anwendungen.
SLMs im Vergleich zu LLMs
SLMs und LLMs sind beides KI-Systeme, die darauf trainiert werden, menschliche Sprache, einschließlich Programmiersprachen, zu interpretieren. LLMs und SLMs unterscheiden sich in der Regel in der Größe der Datensätze, mit denen sie trainiert werden, in den verschiedenen Prozessen, die zum Training mit diesen Datensätzen verwendet werden, und in den Kosten bzw. dem Nutzen für den Einstieg in verschiedene Use Cases.
Wie ihre Namen schon andeuten, werden sowohl LLMs als auch SLMs auf Datensätzen trainiert, die aus Sprache bestehen, was sie von Modellen unterscheidet, die auf Bildern (wie etwa DALL E) oder Videos (wie Sora) trainiert werden. Zu den sprachbasierten Datensätzen gehören beispielsweise Texte auf Webseiten, Entwicklungscode, E-Mails und Anleitungen.
Eine der bekanntesten Anwendungen von SLMs und LLMs ist die generative KI (gen KI), die ohne Skript Inhalte als Antworten auf viele verschiedene, unvorhersehbare Anfragen generieren kann. Insbesondere LLMs sind in der breiten Öffentlichkeit dank des Basismodells GPT-4 und ChatGPT bekannt geworden, einem dialogorientierten Chatbot, der mithilfe von riesigen Datensätzen und Billionen von Parametern trainiert wurde, um auf eine Vielzahl menschlicher Anfragen zu reagieren. Obwohl gen KI beliebt ist, gibt es auch nicht-generative Anwendungen von LLMs und SLMs, wie beispielsweise prädiktive KI.
LLMs und SLMs werden in der Regel auf unterschiedlichen Datensätzen trainiert.
Der Umfang von GPT-4/ChatGPT ist ein hervorragendes Beispiel dafür, dass es einen allgemeinen Unterschied zwischen LLMs und SLMs gibt: die Datensätze, auf denen sie trainiert werden.
LLMs sind normalerweise darauf ausgelegt, menschliche Intelligenz auf umfassender Ebene nachzuahmen, und werden daher mit einer Vielzahl großer Datensätze trainiert. Im Fall von GPT-4/ChatGPT umfasst dies das gesamte öffentliche Internet (!) bis zu einem bestimmten Datum. Genau deshalb hat ChatGPT einen schlechten Ruf erlangt, weil es eine so große Bandbreite von Anfragen von Durchschnittsnutzenden interpretiert und beantwortet. Das ist jedoch auch der Grund, warum es manchmal wegen potenziell falscher Antworten, die umgangssprachlich als „Halluzinationen“ bezeichnet werden, Aufmerksamkeit erregt hat: es fehlt das Fine Tuning und domainspezifische Training, um auf branchen- oder nischenspezifische Anfragen präzise zu antworten.
SLMs hingegen werden in der Regel anhand kleinerer Datensätze trainiert, die auf bestimmte Branchenbereiche (also Fachgebiete) zugeschnitten sind. Beispielsweise könnte ein Gesundheitsdienstleister einen SLM-gestützten Chatbot verwenden, der auf medizinischen Datensätzen trainiert wurde. Dieser könnte domainspezifisches Wissen in die nicht fachkundigen Anfragen der einzelnen Nutzenden bezüglich ihrer Gesundheit einfließen lassen und so die Qualität der Frage und Antwort verbessern. In einem solchen Fall muss der SLM-gestützte Chatbot nicht anhand des gesamten Internets trainiert werden – also anhand sämtlicher Blog-Beiträge, fiktionaler Romane oder Gedichte, die jemals geschrieben wurden, da dies für den Use Case im Gesundheitswesen irrelevant ist.
Zusammengefasst zeichnen sich SLMs in der Regel durch besondere Fachgebiete aus, haben aber im Vergleich zu LLMs Schwierigkeiten in Bezug auf Allgemeinwissen und das Verständnis von Zusammenhängen.
Red Hat Ressourcen
LLMs und SLMs benötigen unterschiedliche Ressourcen
Das Training eines Modells für einen geschäftlichen Use Case, ob LLM oder SLM, ist ein ressourcenintensiver Prozess. Das Training von LLMs ist jedoch besonders ressourcenintensiv. Bei GPT-4 liefen insgesamt 25.000 NVIDIA A100-GPUs gleichzeitig und kontinuierlich für 90–100 Tage. Auch hier ist GPT-4 eines der umfangreichsten Modelle im LLM-Spektrum. Andere LLMs wie Granite erforderten nicht so viele Ressourcen. Für das Training eines SLM sind zwar immer noch erhebliche Rechenressourcen erforderlich, aber weit weniger als für ein LLM.
Ressourcenbedarf für Training im Vergleich zu Inferenz
Wichtig ist auch der Unterschied zwischen Modelltraining und Modellinferenz. Wie bereits erwähnt, ist das Training der erste Schritt bei der Entwicklung eines KI-Modells. Inferenz ist der Prozess, den ein trainiertes KI-Modell durchläuft, um Vorhersagen zu neuen Daten zu treffen. Wenn beispielsweise ChatGPT eine Frage gestellt wird, veranlasst dies ChatGPT, eine Vorhersage zu liefern. Dieser Prozess der Erzeugung einer Vorhersage ist eine Inferenz.
Einige vortrainierte LLMs, wie die Granite-Modellfamilie, können mit den Ressourcen einer einzigen Hochleistungs-Workstation Inferenzen erstellen (Granite-Modelle sind beispielsweise auf einer V100-32GB GPU2 einsetzbar), obwohl viele mehrere parallele Recheneinheiten zur Datengenerierung benötigen. Je höher die Anzahl der gleichzeitig auf ein LLM zugreifenden Nutzenden ist, desto langsamer arbeitet das Modell bei den Inferenzen. SLMs hingegen sind in der Regel so konzipiert, dass sie mit den Ressourcen eines Smartphones oder eines anderen mobilen Geräts Inferenzen generieren können.
Vorteile von SLMs
Auf die Frage „Welches Modell ist besser?“ gibt es keine Antwort. Dies hängt vielmehr von den Plänen, Ressourcen, Kenntnissen, Terminen und anderen Faktoren Ihres Unternehmens ab. Wichtig ist auch die Entscheidung, ob Ihr Use Case das Training eines Modells von Grund auf oder das Fine Tuning eines bereits trainierten Modells erfordert. Allgemeine Überlegungen hinsichtlich LLMs und SLMs umfassen:
Kosten
Im Allgemeinen benötigen LLMs viel mehr Ressourcen für Training, Fine Tuning und Inferenzen. Wichtig ist, dass das Training eine weniger häufige Investition darstellt. Rechenressourcen werden nur für die Dauer des Trainings eines Modells benötigt, das nicht kontinuierlich, sondern nur zeitweise erfolgt. Allerdings sind Inferenzen mit laufenden Kosten verbunden, die mit zunehmender Nutzung des Modells durch immer mehr Nutzende steigen können. In den meisten Fällen erfordert dies Cloud Computing-Ressourcen in großem Umfang, eine erhebliche Investition in lokale Ressourcen oder beides.
SLMs werden häufig für Use Cases mit niedriger Latenz, wie Edge Computing, evaluiert. Das liegt daran, dass sie oft nur mit den auf einem einzigen mobilen Gerät verfügbaren Ressourcen ausgeführt werden können und keine ständige, leistungsstarke Verbindung zu umfangreicheren Ressourcen benötigen.
Fachwissen
Viele gängige vortrainierte LLMs wie Granite, Llama und GPT-4 bieten eine „Plug-and-Play“-Option für den Einstieg in die KI. Für Unternehmen, die mit KI experimentieren möchten, sind diese oft empfehlenswert, da sie nicht von Grund auf entwickelt und trainiert werden müssen. SLMs hingegen erfordern in der Regel spezielles datenwissenschaftliches Fachwissen und Branchenkenntnisse für ein genaues Fine Tuning mit Nischendatensätzen.
Sicherheit
Ein potenzielles Risiko der LLMs ist die Offenlegung sensibler Daten über APIs (Application Programming Interfaces). Insbesondere das Fine Tuning eines LLM für die Daten Ihres Unternehmens erfordert eine sorgfältige Beachtung der Compliance und der Unternehmensrichtlinien. Das Risiko von Datenpannen kann bei SLMs geringer sein, da sie ein höheres Maß an Kontrolle bieten.
Einschränkungen von SLMs
Bei der Integration von SLMs in die Workflows von Unternehmen ist es wichtig, die damit verbundenen Einschränkungen zu kennen.
Verzerrung
Mit den auf kleineren Datensätzen trainierten SLMs lassen sich die unweigerlich auftretenden Verzerrungen im Vergleich zu LLMs leichter abschwächen. Wie bei Sprachmodellen von beliebiger Größe können jedoch auch bei Trainingsdaten Verzerrungen auftreten, wie eine Unterrepräsentation oder Falschdarstellung bestimmter Gruppen und Ideen oder sachliche Ungenauigkeiten. Sprachmodelle können auch sprachliche Verzerrungen aufgrund von Dialekten, geografischer Lage und Grammatik aufweisen.
Die Teams sollten besonders auf die Qualität der Trainingsdaten achten, um verzerrte Ergebnisse zu vermeiden.
Eng gefasster Wissensbereich
SLMs verfügen über einen kleineren Datenbestand, auf den sie bei der Erstellung von Antworten zurückgreifen können. Das macht sie hervorragend geeignet für spezifische Aufgaben, aber weniger für Fälle, die ein breites Spektrum an Allgemeinwissen erfordern.
Teams könnten die Erstellung einer Sammlung spezieller SLMs zur Verwendung neben einem LLM (oder mehreren LLMs) in Betracht ziehen. Diese Lösung ist besonders interessant, wenn Teams Modelle mit bestehenden Anwendungen verbinden können und so einen vernetzten Workflow mit mehreren Sprachmodellen schaffen, die im Tandem arbeiten.
Use Cases für SLM
Durch ihre Anpassungsfähigkeit eignen sich SLMs für eine Vielzahl von Use Cases.
Chatbots
Verwenden Sie ein SLM, um einen Chatbot mit speziellen Materialien zu trainieren. So könnte ein Chatbot für den Kundenservice mit unternehmensspezifischem Wissen geschult werden, damit er Fragen beantworten und Nutzende zu entsprechenden Informationen weiterleiten kann.
Agentische KI
Integrieren Sie SLMs in einen agentischen KI -Workflow, damit sie Aufgaben für Nutzende erledigen können.
Generative KI
SLMs können Aufgaben wie das Erstellen neuer Texte, das Übersetzen vorhandener Texte und das Zusammenfassen von Texten ausführen.
Wie kann Red Hat Sie unterstützen?
Red Hat AI bietet generative und prädiktive KI-Funktionen sowie MLOps-Support für den Aufbau flexibler, vertrauenswürdiger KI-Lösungen in großem Umfang in Hybrid Cloud-Umgebungen. Es trägt dazu bei, die Einführung von KI zu beschleunigen, die Komplexität der Bereitstellung von KI-Lösungen zu abstrahieren und sorgt für Flexibilität bei Entwicklung und Deployment, unabhängig davon, wo sich Ihre Daten befinden.
In Kombination mit der Open Hybrid Cloud-Infrastruktur von Red Hat können Unternehmen mit Red Hat AI individuelle KI-Lösungen für ihr Unternehmen entwickeln, Modell- und Anwendungs-Lifecycles verwalten, sich an Anforderungen für die Hardwarebeschleunigung anpassen und kritische Workloads auf einer einzigen Plattform bereitstellen, ausführen und nebeneinander betreiben.
Machine Learning und KI für Einsteigende
Möchten Sie ML- und KI-Modelle erforschen, können Sie InstructLab testen, eine communitybasierte Lösung für das Trainieren von LLMs. Dort können Sie kostenlos experimentieren und direkt zur Entwicklung Ihres KI-Modells beitragen.
Einfacher Zugriff auf die Modelle der Granite-Familie von IBM
Sobald Sie für den nächsten Schritt bereit sind, erhalten Sie mit Red Hat® Enterprise Linux® AI eine Plattform für Basismodelle, mit der Sie LLMs der Granite-Familie für Unternehmensanwendungen entwickeln, testen und ausführen können. Granite ist eine Familie von KI-Modellen mit Open Source-Lizenz, die von Red Hat vollständig unterstützt und schadlos gehalten werden. Der Open Source-Ansatz fördert Innovationen im Bereich der generativen KI und sorgt gleichzeitig für Vertrauen und Sicherheit.
Skalieren für Unternehmen
Red Hat® OpenShift® AI ist eine Plattform, die Ihre Modelle in Hybrid Cloud-Umgebungen in großem Umfang unterstützen kann. Sie können KI-Modelle für Ihren speziellen Use Case und mit Ihren eigenen Daten trainieren, mit Prompts versehen, feinabstimmen und bereitstellen.
Gemeinsam bieten diese Produkte eine einheitliche Lösung, mit der Data Scientists und Entwicklungsteams zusammenarbeiten und Modelle schneller vom Experiment zur Produktion bringen können.
Mit Partnern wachsen
Darüber hinaus bieten die Partnerintegrationen von Red Hat Zugang zu einem wachsenden Ökosystem zuverlässiger KI-Tools, die für die Zusammenarbeit mit Open Source-Plattformen entwickelt wurden.
Der offizielle Red Hat Blog
Lernen Sie mehr über unser Ökosystem von Kunden, Partnern und Communities und erfahren Sie das Neueste zu Themen wie Automatisierung, Hybrid Cloud, KI und mehr.