Was ist Adversarial Machine Learning?

Geschrieben von Coursera Staff • Aktualisiert am

Adversarial machine learning konzentriert sich auf die Anfälligkeit der Manipulation eines maschinellen Lernmodells durch irreführende Eingaben. Erfahren Sie, was adversarial machine learning ist und warum es so wichtig ist.

[Hauptbild] Entwickler besprechen ein Projekt zum kontroversen maschinellen Lernen in einer Arbeitsumgebung, umgeben von Bildschirmen voller Code, während einer dem anderen das Projekt erklärt.

Read in English (Auf Englisch lessen)

Adversarial Machine Learning ist eine Technik, mit der Fachleute Angriffe auf Modelle des maschinellen Lernens (ML) untersuchen können, um Schwachstellen zu erkennen und eine Verteidigung gegen bösartige Angriffe aufzubauen. Angriffe durch Hacker zielen darauf ab, Modelle des maschinellen Lernens zu manipulieren, indem sie betrügerische Eingaben machen. Diese betrügerischen Eingaben führen dazu, dass ein maschinelles Lernmodell nicht mehr richtig funktioniert und möglicherweise Daten preisgibt oder die Funktion des maschinellen Lernens stört.

Trotz des Namens handelt es sich bei adversarial machine learning um eine Beschreibung von Methoden, die zur Bewertung von Schwachstellen in maschinellen Lernmodellen verwendet werden können—es handelt sich nicht um eine Art von maschinellem Lernen. Der britische Software-Ingenieur John Graham-Cumming führte das Konzept 2004 ein, als er feststellte, dass Spammer maschinelle Lernanwendungen manipulieren konnten, um Spam-E-Mail-Filter zu umgehen.

Angreifer zielen aus vielen Gründen und mit vielen Methoden auf maschinelle Lernmodelle ab, um sie zu manipulieren. Die Folgen der Manipulation von KI- oder maschinellen Lernsystemen reichen von falschen Ergebnissen generativer KI-Anwendungen bis zu Datenverletzungen.

Da KI ein heißes Thema in der Geschäftswelt ist, mit steigender Popularität und zunehmender Aufmerksamkeit, da die Technologie immer mehr Möglichkeiten zur Automatisierung von Aufgaben bietet, ist das Verständnis ihrer Schwachstellen entscheidend für den Schutz dieser Organisationen vor Cyberangriffen. Das Statistische Bundesamt berichtete im November 2024, dass 20 Prozent der Unternehmen KI-Technologien nutzen, was einem Anstieg von 8 Prozent im Vergleich zum Vorjahr entspricht [1].

Der zunehmende Einsatz von KI in der Wirtschaft und insbesondere in Sektoren, die mit Information und Informationssicherheit zu tun haben, unterstreicht die Bedeutung des Schutzes vor angreifenden Angriffen.

Wie funktioniert das Adversarial Machine Learning?

Modelle des maschinellen Lernens trainieren sich selbst, um programmierte Aktionen auszuführen, indem sie große Datenmengen verarbeiten. Sie ordnen Datenpunkte in Kategorien ein und legen Aktionen fest, die auf dem basieren, was das Modell aufgrund seiner Ausbildung verstehen kann.

Adversarial machine learning bezieht sich auf die Unterbrechung dieses Arbeitsablaufs durch die Einführung eines Inputs, der das Modell zu einer Fehlfunktion verleiten soll. Dies kann auch nützlich sein, um herauszufinden, wie man durch die Manipulation von Daten die gewünschten Ergebnisse erzielen kann.

Ein Beispiel, das die potenzielle Gefahr des adversarial machine learnings verdeutlicht, ist die Manipulation autonomer Fahrzeuge. Selbstfahrende Fahrzeuge verwenden Modelle des maschinellen Lernens, um Straßenschilder zu interpretieren. Geringfügige Änderungen an diesen Schildern, wie z. B. das Anbringen eines Aufklebers auf einem Vorfahrtsschild oder eine geringfügige Änderung des Schildes, die sich auf die Klassifizierung auswirkt, kann zu einer Fehlfunktion des maschinellen Lernmodells führen. Das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS) untersucht in seinem Whitepaper Maschinelles Lernen 'on the edge' die Herausforderungen und Risiken von maschinellen Lernsystemen in autonomen Fahrzeugen, einschließlich der Anfälligkeit gegenüber manipulativen Angriffen [2].

Arten des gegnerischen maschinellen Lernens

Angreifer verwenden im Wesentliche zwei Taktiken, um maschinelle Lernmodelle zu manipulieren: Black-Box- und White-Box-Angriffe. Bei einem White-Box-Angriff hat der Manipulator Zugriff auf den Code des Modells und kann dessen innere Abläufe kontrollieren. Bei einem Blackbox-Angriff hingegen kennt der Angreifer nur die Ausgaben des ML-Modells. Ein Angreifer kann ein maschinelles Lernmodell auch ohne Zugriff auf den Code des Modells manipulieren.

Angriffe auf maschinelles Lernen haben in der Regel dasselbe übergeordnete Ziel, verwenden aber unterschiedliche Taktiken, um es zu erreichen. Diese Angriffe lassen sich in der Regel in eine von drei Kategorien einordnen.

1. Vergiftungsangriff

Bei einem Vergiftungsangriff „vergiftet” der Angreifer das maschinelle Lernmodell, sodass es nicht mehr richtig funktioniert, und verunreinigt die Daten, um eine Schwachstelle zu provozieren. Die Spam-E-Mail-Filter von Google sind ein Beispiel für Datenvergiftung. Angreifer haben wiederholt versucht, den Google-Filter auszutricksen, indem sie große Mengen von E-Mails als nicht als Spam eingestuft haben.

2. Umgehungsangriff

Umgehungsangriffe finden auf trainierte ML-Modelle statt. Der Angreifer verändert eine Eingabe geringfügig, um die Art und Weise zu manipulieren, wie das maschinelle Lernmodell sie klassifiziert. Ein Beispiel hierfür wäre das Anbringen eines Aufklebers auf einem Stoppschild, um das maschinelle Lernmodell eines selbstfahrenden Autos dazu zu bringen, es für ein Vorfahrtsschild zu halten.

Umgehungsangriffe zielen oft darauf ab, Spam- oder Malware-Filter zu umgehen, wobei die Angreifer Sprache verwenden oder Software oder E-Mails auf irreführende Weise kennzeichnen. Die Angreifer verwenden Versuch-und-Irrtum-Taktiken, um Einblicke in die Funktionsweise eines maschinellen Lernmodells zu erhalten. So kann ein Angreifer etwa eine große Anzahl von E-Mails mit unterschiedlichen Formulierungen versenden und beobachten, welche davon einen Spam-Filter passieren.

3. Extraktionsangriff

Bei einem Extraktionsangriff manipuliert ein Angreifer ein maschinelles Lernmodell, um eine Kopie des Modells zu erstellen oder Daten aus dem Modell zu stehlen. Wie Umgehungsangriffe stützen sich Extraktionsangriffe oft auf Schlussfolgerungen, die der Angreifer über die vom Modell erzeugten Ergebnisse ziehen kann.

Wozu wird adversarial machine learning in der Praxis eingesetzt?

Angriffe auf das maschinelle Lernen untergraben die Wirksamkeit von Modellen des maschinellen Lernens. Durch Manipulationen wird Schaden angerichtet, das Vertrauen in die Anwendung des Modells untergraben oder Sicherheitsmaßnahmen wie Filter für schädliche Inhalte umgangen.

Was ist ein negatives Beispiel?

Ein schädliches Beispiel ist ein Begriff, der sich auf die Eingabe bezieht, die in ein Modell für maschinelles Lernen eingespeist wird, um es zu einer Fehlfunktion zu manipulieren. Diese Eingaben mögen einem Menschen harmlos erscheinen, aber sie zielen auf die Fähigkeit des maschinellen Lernens ab, die Eingabe richtig zu klassifizieren.

So werden beispielsweise Sicherheitskameras manchmal von maschinellen Lernmodellen gesteuert. Wenn ein Angreifer bemerkt, dass das Sicherheitssystem eines Standorts die Tatsache berücksichtigt, dass eine Wartungsperson das Gebäude jede Nacht zu einer bestimmten Zeit betritt, kann das maschinelle Lernmodell jede Aktion zu dieser Zeit zulassen, ohne einen Sicherheitsalarm auszulösen. Ein Angreifer, der dies bemerkt, könnte das maschinelle Lernmodell möglicherweise so manipulieren, dass es eine Bedrohung übersieht, wenn das Modell jedem erlaubt, das Gebäude zu dieser Zeit ohne Sicherheitsalarm zu betreten.

Wie können Unternehmen das schädliche maschinelle Lernen bekämpfen?

Unternehmen haben mehrere Möglichkeiten, sich gegen schädliches maschinelles Lernen zu wehren, und es wird für sie immer wichtiger, Strategien für diesen Zweck zu entwickeln. Angriffe durch maschinelles Lernen sind nach wie vor gefährlich und können immer mehr Schaden anrichten, je mehr Unternehmen sich auf KI-Anwendungen verlassen. In Deutschland hat das Bundesamt für Sicherheit in der Informationstechnik (BSI) die Auswirkungen von KI auf die Cyber-Bedrohungslandschaft untersucht. Die Studie zeigt, dass KI sowohl von Angreifern als auch von Verteidigern genutzt wird, was die Komplexität der Bedrohungen erhöht [3].

Viele Unternehmen, darunter Microsoft und Google, stellen ihren Code zum Teil als Open Source zur Verfügung, um die Cybersicherheit zu verbessern, insbesondere in einem sich schnell entwickelnden Umfeld wie der künstlichen Intelligenz. Man könnte meinen, dass quelloffener Code zu mehr Manipulationen führen würde, da er für eine große Anzahl von Personen zugänglich ist. Open-Source-Code ermöglicht es jedoch auch Experten auf der ganzen Welt, ihr Wissen in Cybersicherheitsmaßnahmen einfließen zu lassen. Da Programmierungsexperten, Forscher und Spitzenfachleute Zugriff auf den Code haben, können Unternehmen Schwachstellen leicht erkennen und beheben.

Wie können Unternehmen gegnerische Angriffe abwehren?

Bestehende Methoden zur Abwehr von Angriffen durch maschinelles Lernen stehen vor einem noch ungelösten Problem. Die Verteidigung gegen vorweggenommene oder erkannte Angriffe ist nicht anpassungsfähig. Um maschinelle Lernmodelle vor Schwachstellen zu schützen, müssen sie regelmäßig gewartet werden.

Programmierer passen maschinelle Lernmodelle an, um sich an Bedrohungen anzupassen und sich vor gegnerischen Angriffen zu schützen, indem sie zwei Haupttechniken anwenden:

Adversariales training

Adversarial Training ist ein Protokoll, bei dem Menschen dem Modell schädliche Beispiele – oder korrupte Eingaben, die maschinelle Lernmodelle zu Fehlfunktionen veranlassen – zuführen. Das Modell stuft diese bekannten bösartigen Eingaben dann als bedrohlich ein. Genauso wie das maschinelle Lernmodell lernt, Daten als Teil seines normalen Prozesses zu klassifizieren, trainiert das Modell auch, Störungen abzuwehren. Diese Methode erfordert einen kontinuierlichen Wartungsaufwand und eine ständige Überwachung, da sich die Versuche, das maschinelle Lernmodell zu manipulieren, selbst weiterentwickeln.

Defensive destillation

Die defensive Destillation ist eine äußerst anpassungsfähige Methode zum Trainieren von Modellen des maschinellen Lernens, um gegnerische Angriffe zu verhindern. Ein „Lehrernetzwerk” trainiert mit einem Datensatz. Ein anderes Netzwerk, das „lernende Netzwerk”, verwendet die Klassenwahrscheinlichkeiten des Lehrernetzwerks – die Wahrscheinlichkeit, mit der das Modell Eingaben klassifiziert—als weiche Ziele für sein eigenes Training. Da das Lernnetzwerk mit differenzierteren Informationen arbeitet, ist es in der Lage, Informationen auf einer tieferen Ebene zu klassifizieren. 

Verwandte Begriffe

  • Malware

  • Firewall

  • Netzwerkadministrator

  • Cybersecurity-Karrieren

  • Betriebssystem

Erste Schritte mit Coursera

 

Angriffe durch Angreifer können Modelle des adversarial machine learning manipulieren und dazu führen, dass sie nicht richtig funktionieren oder ungenaue Ergebnisse liefern. Unternehmen können sich gegen solche Angriffe schützen, indem sie Techniken wie „Adversarial Training“ und „Defensive Distillation“ einsetzen.

Mit dem Kurs Build Decision Trees, SVMs, Artificial Neural Networks von CertNexus, der auf Coursera angeboten wird, können Sie tiefer in die Konzepte des maschinellen Lernens eintauchen und sich mit den Schlüsselkonzepten vertraut machen, die Sie kennen sollten, wenn Sie mit künstlicher Intelligenz arbeiten. Sie werden in der Lage sein, verschiedene Komponenten von neuronalen Netzen zu trainieren und zu bewerten und die Leistung von KI-Anwendungen für Aufgaben wie Sprachverarbeitung zu optimieren.

Artikelquellen

1

Statistisches Bundesamt. „20 % der Unternehmen nutzen KI-Technologien, https://www.destatis.de/DE/Presse/Pressemitteilungen/2024/11/PD24_444_52911.html?utm_source=chatgpt.com.” Abgerufen am 6 December 2024.

Weiterlesen

Aktualisiert am
Geschrieben von:

Redaktion

Das Redaktionsteam von Coursera besteht aus äußerst erfahrenen professionellen Redakteuren, Autoren ...

Diese Inhalte dienen nur zu Informationszwecken. Den Lernenden wird empfohlen, eingehender zu recherchieren, ob Kurse und andere angestrebte Qualifikationen wirklich ihren persönlichen, beruflichen und finanziellen Vorstellungen entsprechen.