Zielsetzung der Arbeit
Das Hauptziel dieser Arbeit ist es, bösartige Fakten einzuführen oder wahre Fakten aus dem Knowledge Graph (KG) zu entfernen, um das KG-augmentierte Large Language Model (LLM) so zu beeinflussen, dass es die gewünschte vergiftete Ausgabe produziert. Bei dieser Architektur bleibt das LLM selbst unverändert, während das erweiterte KG mit spezifischen Techniken manipuliert wird, was zu einem vergifteten KG-augmentierten LLM führt. Diese Aufgabe kann grob in zwei Hauptschritte unterteilt werden:
Aufgaben
Schritt 1: Vergiftung des Wissensgraphen
Um den KG zu vergiften, wird der Adversarial Attack Approach verwendet, der: a. bestehende adversarische Angriffstechniken anwendet, um die Hinzufügung oder Löschung von Tripeln durchzuführen. b. Diese Methode stellt die minimale, aber dennoch wirkungsvolle Manipulation des KG sicher, um das gewünschte Ergebnis zu erreichen.
Schritt 2: Evaluierung der Leistung von vergifteten KG-erweiterten LLMs
Sobald die KG mit den oben genannten Techniken vergiftet wurde, besteht der nächste Schritt darin, diese vergiftete KG in bestehende KG-augmentierte LLMs (z.B. KG-Rank oder KG-RAG) zu integrieren und die Leistungsverschlechterung zu bewerten.
Voraussetzungen für diese Arbeit
- Gute Kenntnisse in Methoden der Verarbeitung natürlicher Sprache (z.B. große Sprachmodelle)
- Beherrschung von Python und Deep-Learning-Frameworks (z.B. PyTorch oder TensorFlow)
- Kenntnisse über Wissensgraphen
Quellen und hilfreiches Material
- Naveed Akhtar, Ajmal Mian, Navid Kardan, Mubarak Shah: Advances in Adversarial Attacks and Defenses in Computer Vision: A Survey. IEEE Access 9: 155161-155196 (2021)
- Arijit Ghosh Chowdhury, Md Mofijul Islam, Vaibhav Kumar, Faysal Hossain Shezan, Vaibhav Kumar, Vinija Jain, Aman Chadha: Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models. CoRR abs/2403.04786 (2024)
- T Zhao, J Chen, Y Ru, Q Lin, Y Geng, J Liu, Untargeted Adversarial Attack on Knowledge Graph Embeddings, SIGIR 2024
- Andy Zou1, Zifan Wang, Nicholas Carlini, Milad Nasr3, J. Zico Kolter, Matt Fredrikson. Universal and Transferable Adversarial Attacks on Aligned Language Models