Sicherheit und Schutz von KI-Systemen

13. Juni 2024Huzaifa Sidhpurwala4 Minuten (Lesedauer)

Es gibt kaum ein modernes Computersystem, das nicht durch künstliche Intelligenz (KI) verbessert wurde. Wenn Sie beispielsweise ein Foto mit Ihrer Smartphone-Kamera aufnehmen, werden im Durchschnitt mehr als 20 Deep Learning-Modelle (DL) aktiviert, die von der Objekterkennung bis zur Oberflächenwahrnehmung reichen und alle gemeinsam arbeiten, damit Sie das perfekte Bild aufnehmen können!

Geschäftsprozesse, Produktivitätsanwendungen und Benutzererlebnisse können durch den Einsatz von KI verbessert werden. Und nur wenige andere Technologien haben sich mit derselben Größe, Geschwindigkeit oder Reichweite entwickelt. Wie jede andere Technologie birgt auch KI ihre eigenen Risiken, die in diesem Fall Sicherheit und möglicherweise sogar gesetzliche Verpflichtungen umfassen. In diesem Artikel gehen wir kurz auf einige dieser Sicherheitsbedenken ein, insbesondere auf diejenigen im Zusammenhang mit generativer KI (gen AI), und zeigen, wie wir sicherere und zuverlässigere KI-Systeme entwickeln können.

Unterschied zwischen Sicherheit und Schutz

Wie alle Computersysteme (Hardware oder Software) können KI-Systeme für schändliche Zwecke wie Jailbreaking, Prompt Injection, Adversarial Training und andere Zwecke verwendet werden. KI-Systeme bringen jedoch ein neues Paradigma in die Branche – das Konzept der Sicherheit der Ausgabedaten. Dies hat hauptsächlich die folgenden Gründe:

KI-Ausgaben werden häufig basierend auf vorherigem Training des Modells generiert, und die Qualität der Ausgabe hängt von der Qualität der beim Training verwendeten Daten ab. Bekannte Modelle verwenden gerne so viele Daten wie verfügbar sind, was oft an der Anzahl der Tokens gemessen wird, die zum Trainieren des Modells verwendet werden. Die Theorie besagt, dass das Training des Modells umso effektiver ist, je mehr Token verwendet werden.
Die Ergebnisse des Modells können für geschäftliche, benutzerbezogene und technische Entscheidungen genutzt werden. Dies birgt möglicherweise finanzielle Verluste und kann potenzielle Sicherheits- und rechtliche Auswirkungen haben. Es gibt beispielsweise keinen Mangel an unsicherem Code im Internet, sodass jedes darauf trainierte Modell das Risiko eingeht, dadurch unsicheren Code zu generieren. Wenn der generierte Code direkt in einem Softwareprojekt verwendet wird, könnte er zu einer völlig neuen Art von Angriff auf die Lieferkette werden.

Obwohl einige Aspekte der KI-Sicherheit und des KI-Schutzes miteinander verknüpft sind, werden sie in den meisten Sicherheits-Frameworks in der Regel separat behandelt. Sicherheitsstandards für Computer sind für die meisten Unternehmen ein relativ neues Paradigma, und wir versuchen immer noch, uns damit vertraut zu machen.

Sicherheitsaspekte bei der Verwendung von KI-Modellen

Kurz gesagt, gen KI-Modelle funktionieren, indem sie das nächste Wort in einem Satz vorhersagen. Obwohl diese Modelle mittlerweile viel fortschrittlicher sind, basieren sie im Wesentlichen immer noch auf diesem Prinzip. Somit gibt es beim Thema KI-Sicherheit einige interessante Aspekte zu beachten.

Garbage In, Garbage Out

Garbage In, Garbage Out ist ein sehr grundlegendes Prinzip des Computings, das auch auf KI-Modelle angewendet werden kann, aber auf eine etwas andere Art und Weise. Ein gen KI-Modell „lernt“ in seiner Trainingsphase aus einem bestimmten Datensatz. Diese Trainingsphase besteht üblicherweise aus zwei Teilen. Der erste Teil ist die Trainingsphase, in der ein großer Datenkorpus verwendet wird, der oft aus dem Internet abgerufen wird. Der zweite Teil ist die Phase der Feinabstimmung (Fine Tuning), in der für den Zweck des Modells spezifische Daten verwendet werden, um das Modell für eine gezieltere Aufgabe oder eine Reihe von Aufgaben zu verbessern. Einige Modelle durchlaufen je nach Architektur und Zweck des Modells mehr als zwei Phasen.

Erwartungsgemäß kann es zu ungewollten und nachteiligen Ergebnissen kommen, wenn Sie Ihr Modell mit Daten trainieren, die in großem Umfang aus dem Internet abgerufen werden – ohne Filterung nach sensiblen, unsicheren und anstößigen Inhalten.

Halluzinationen von Modellen

Ich vergleiche KI-Modelle oft mit kleinen Kindern. Wenn Kinder die Antwort auf eine Frage nicht kennen, erfinden sie oft eine völlig falsche, aber überzeugende Geschichte. Modelle ähneln sich in vielerlei Hinsicht, aber das Ergebnis kann gefährlicher oder schädlicher sein, insbesondere wenn Modelle Antworten generieren, die finanzielle, soziale oder sicherheitsrelevante Auswirkungen haben können.

Sicherheitstests und Benchmarking

Obwohl die KI-Branche noch am Anfang steht, gibt es bereits einige Vorschläge für Benchmarking-Standards, die unserer Meinung nach interessant sind und die Aufmerksamkeit wert sind:

Die Arbeitsgruppe MLCommons AI Sicherheit hat den Proof of Concept (POC) für die MLCommons AI Sicherheit v0.5 Benchmark veröffentlicht. Der POC konzentriert sich auf die Messung der Sicherheit von großen Sprachmodellen (Large Language Models, LLMs), indem die Reaktionen der Modelle auf Eingabeaufforderungen in mehreren Gefahrenkategorien bewertet werden.
Das dem US-Handelsministerium unterstellte National Institute of Standards and Technology (NIST) hat ein Artificial Intelligence Risk Management Framework (AI RMF 1.0) veröffentlicht. In AI RMF geht es darum, Risiken zu quantifizieren und zu erkennen sowie ihre Veränderungen, Auswirkungen und ihr Management zu verstehen.
Trusty AI ist ein Open Source-Projekt, das von Red Hat ins Leben gerufen wurde, um Probleme im Zusammenhang mit KI-Verzerrungen zu mindern.

KI-Leitplanken entwickeln

Leitplanken-Anwendungen und -Modelle verwenden verschiedene Methoden, um sicherzustellen, dass die Ausgabe eines Modells den festgelegten Sicherheitsanforderungen entspricht. Verschiedene Open Source-Tools und -Projekte können beim Aufbau dieser KI-Leitplanken helfen. Allerdings sind KI-Leitplanken nur ein weiteres Teil der Software und bringen ihre eigenen Risiken und Einschränkungen mit sich. Es liegt in der Verantwortung der Modellentwickler, Mechanismen zur Messung und zur Bewertung der Schädlichkeit ihrer Modelle einzurichten, bevor sie in die Produktion gehen.

Warum Open Source einen Unterschied macht

Während die Branche immer noch diskutiert, was ein Open Source-Modell für KI ausmacht und wie dieses Modell aussehen sollte, sind IBM und Red Hat führend und implementieren offene Standards und offene Daten für die von uns gelieferten KI-Modelle. Dazu gehören:

Die Granite-Modelle von IBM, die mit Red Hat Enterprise Linux (RHEL) AI ausgeliefert werden, sind mit offenen Daten vortrainiert. Dies bedeutet, dass die Datenquellen veröffentlicht und zur Überprüfung verfügbar sind. Außerdem werden für die Trainingsdaten verschiedene Datenbereinigungstechniken eingesetzt, um potenziell sensible, unsichere und anstößige Inhalte herauszufiltern, bevor sie dem Modell hinzugefügt werden.
Das Red Hat Projekt InstructLab trägt zur Vereinfachung der Feinabstimmungsphase (Fine Tuning) beim Modelltraining bei. Dies hilft unter anderem dabei, potenzielle Sicherheits- und Ethikprobleme mit der Ausgabe des Modells zu reduzieren. Eine beträchtliche Menge an neueren Forschungsergebnissen unterstützt diese Theorie. Weitere Informationen finden Sie in diesem Artikel im Google Blog: Protecting users with differently private synthetische training data

Red Hat ist außerdem Gründungsmitglied der AI Alliance. Dies ist ein kollaboratives Netzwerk aus Unternehmen, Startups, Universitäten, Forschungseinrichtungen, Regierungsorganisationen und gemeinnützigen Organisationen, die in Sachen KI-Technologie, -Anwendungen und -Governance führend sind. Im Rahmen dieser Partnerschaft arbeiten wir an der Schaffung einer wirklich offenen, sicheren KI-Umgebung – nicht nur für unsere Kunden, sondern für die Open Source Community insgesamt.

Zusammenfassung

Künstliche Intelligenz befindet sich noch in der Anfangsphase ihrer Entwicklung. Wir sollten uns daher jetzt Gedanken über ihre Sicherheit und ihren Schutz machen, anstatt später zu versuchen, sie hinzuzufügen. Red Hat ist davon überzeugt, dass dies ein Bereich der KI-Entwicklung ist, in dem Open Source und offene Systeme einen entscheidenden Unterschied bewirken können.

Erfahren Sie mehr über RHEL AI

Über den Autor

Huzaifa Sidhpurwala

Senior Principal Product Security Engineer - AI security, safety and trustworthiness

Huzaifa Sidhpurwala is a Senior Principal Product Security Engineer - AI security, safety and trustworthiness, working for Red Hat Product Security Team.

Read full bio