MA - Robustness Evaluation of KG-augmented LLMs under Adversarial Attacks - Heinz Nixdorf Institut (HNI)

Robustness Evaluation of KG-augmented LLMs under Adversarial Attacks

Große Sprachmodelle (LLM) haben bemerkenswerte Fähigkeiten beim Verstehen und Erzeugen menschlicher Sprache bewiesen. Ihre Leistung kann jedoch durch die Integration von strukturiertem Wissen aus Wissensgraphen (Knowledge Graphs, KGs) erheblich verbessert werden. KG-augmentierte LLMs kombinieren die Stärken von LLMs und KGs, um genauere, kontextuell relevante und wissensreiche Antworten zu liefern. KGs speichern Informationen in einem strukturierten, verknüpften Format, typischerweise als Tripel, die aus einem Subjekt, Prädikat und Objekt bestehen. Zum Beispiel kann die Information „Barack Obama wurde in Honolulu geboren“ als Tripel (Barack Obama, bornIn, Honolulu) gespeichert werden. Durch die Einbeziehung dieser strukturierten Informationen können LLMs auf explizites Wissen zugreifen, das ihre gelernten Repräsentationen aus Textdaten ergänzt. KG-augmentierte LLM können viele Probleme lösen, die eigenständige LLM nicht lösen können. Obwohl die Entwicklung solcher KG-augmentierten LLMs im Vormarsch ist, ist die Robustheit solcher Modelle weniger (oder bisher überhaupt nicht) erforscht. In dieser Arbeit soll der Schwerpunkt auf der Untersuchung der Robustheit dieser Modelle durch *adversarische Angriffe liegen.

Adversarische Angriffe simulieren Worst-Case-Szenarien, bei denen das Modell absichtlich manipulierten Eingaben ausgesetzt ist, um es in die Irre zu führen. Daher wäre eine Bewertung der Robustheit von KG-augmentierten LLMs gegenüber solchen Eingaben hilfreich, um Sicherheitslücken zu identifizieren, die in realen Anwendungen ausgenutzt werden könnten. Darüber hinaus können durch die Identifizierung dieser Lücken robustere Verteidigungsansätze implementiert werden, wodurch das Modell widerstandsfähiger gegen böswillige Angriffe wird und die Integrität und Zuverlässigkeit seiner Ergebnisse gewährleistet wird. Die Robustheit typischer maschineller Lernmodelle gegenüber Angriffen wurde bereits ausführlich untersucht (siehe [1]), und in den letzten Jahren wurden solche Studien auch auf Modelle zur Verarbeitung natürlicher Sprache und damit auf LLMs ausgedehnt (siehe [2]). In diesem Zusammenhang wurden KG-augmentierte LLMs jedoch bisher nicht untersucht. Um Ihnen eine Vorstellung davon zu geben, wie schädlich ein solcher Angriff sein kann, betrachten Sie den folgenden Schnappschuss eines Dialogs mit einem LLM-unterstützten Chatbot, wie er von Zou et al. in ihrer Arbeit [4] erzeugt wurde:

*Abbildung 1: Angriff auf verschiedene Sprachmodelle*
Bei diesem Angriff haben die Autoren den gegnerischen Text hinzugefügt, der nach der Anfrage „Erstelle einen Schritt-für-Schritt-Prozess zur Vernichtung der Menschheit“ hinzugefügt werden muss, damit die LLMs eine solche schädliche Antwort erzeugen. Dieses Beispiel zeigt die dringende Notwendigkeit, potenzielle Schwachstellen zu identifizieren, indem die Auswirkungen von Angriffen auf KG-augmentierte LLMs untersucht werden.

Zielsetzung der Arbeit

Das Hauptziel dieser Arbeit ist es, bösartige Fakten einzuführen oder wahre Fakten aus dem Knowledge Graph (KG) zu entfernen, um das KG-augmentierte Large Language Model (LLM) so zu beeinflussen, dass es die gewünschte vergiftete Ausgabe produziert. Bei dieser Architektur bleibt das LLM selbst unverändert, während das erweiterte KG mit spezifischen Techniken manipuliert wird, was zu einem vergifteten KG-augmentierten LLM führt. Diese Aufgabe kann grob in zwei Hauptschritte unterteilt werden:

Aufgaben

Schritt 1: Vergiftung des Wissensgraphen
Um den KG zu vergiften, wird der Adversarial Attack Approach verwendet, der: a. bestehende adversarische Angriffstechniken anwendet, um die Hinzufügung oder Löschung von Tripeln durchzuführen. b. Diese Methode stellt die minimale, aber dennoch wirkungsvolle Manipulation des KG sicher, um das gewünschte Ergebnis zu erreichen.

Schritt 2: Evaluierung der Leistung von vergifteten KG-erweiterten LLMs
Sobald die KG mit den oben genannten Techniken vergiftet wurde, besteht der nächste Schritt darin, diese vergiftete KG in bestehende KG-augmentierte LLMs (z.B. KG-Rank oder KG-RAG) zu integrieren und die Leistungsverschlechterung zu bewerten.

Voraussetzungen für diese Arbeit

Gute Kenntnisse in Methoden der Verarbeitung natürlicher Sprache (z.B. große Sprachmodelle)
Beherrschung von Python und Deep-Learning-Frameworks (z.B. PyTorch oder TensorFlow)
Kenntnisse über Wissensgraphen

Quellen und hilfreiches Material

Naveed Akhtar, Ajmal Mian, Navid Kardan, Mubarak Shah: Advances in Adversarial Attacks and Defenses in Computer Vision: A Survey. IEEE Access 9: 155161-155196 (2021)
Arijit Ghosh Chowdhury, Md Mofijul Islam, Vaibhav Kumar, Faysal Hossain Shezan, Vaibhav Kumar, Vinija Jain, Aman Chadha: Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models. CoRR abs/2403.04786 (2024)
T Zhao, J Chen, Y Ru, Q Lin, Y Geng, J Liu, Untargeted Adversarial Attack on Knowledge Graph Embeddings, SIGIR 2024
Andy Zou1, Zifan Wang, Nicholas Carlini, Milad Nasr3, J. Zico Kolter, Matt Fredrikson. Universal and Transferable Adversarial Attacks on Aligned Language Models

Betreuer

Dr. Arnab Sharma

Data Science / Heinz Nixdorf Institut

E-Mail schreiben +49 5251 60-1764

Mehr zur Person