
Sign up to save your podcasts
Or


Heute packen wir ein heiß diskutiertes Thema an: Poisoning Attacks (Datenvergiftung) auf große Sprachmodelle (LLMs).Bisher schien es fast unmöglich, riesige Modelle wie GPT-4 oder LLaMA anzugreifen. Neuere Experimente zeigen jedoch, dass nicht der Prozentsatz der manipulierten Daten entscheidend ist, sondern die absolute Zahl.
Schon etwa 250 manipulierte Dokumente könnten ausreichen, um ein Modell zu kompromittieren, unabhängig von seiner Größe oder der Menge der sauberen Trainingsdaten.
Wir diskutieren das beunruhigende Missbrauchspotenzial. Angreifer könnten über Webarchive schädliche Befehle (wie den Linux-Befehl „RM- RF“, alles löschen) in Trainingsdaten einschleusen. Kritisch wird es, wenn diese manipulierten LLMs später Zugriff auf echte Systeme erhalten.
By KI-GildeHeute packen wir ein heiß diskutiertes Thema an: Poisoning Attacks (Datenvergiftung) auf große Sprachmodelle (LLMs).Bisher schien es fast unmöglich, riesige Modelle wie GPT-4 oder LLaMA anzugreifen. Neuere Experimente zeigen jedoch, dass nicht der Prozentsatz der manipulierten Daten entscheidend ist, sondern die absolute Zahl.
Schon etwa 250 manipulierte Dokumente könnten ausreichen, um ein Modell zu kompromittieren, unabhängig von seiner Größe oder der Menge der sauberen Trainingsdaten.
Wir diskutieren das beunruhigende Missbrauchspotenzial. Angreifer könnten über Webarchive schädliche Befehle (wie den Linux-Befehl „RM- RF“, alles löschen) in Trainingsdaten einschleusen. Kritisch wird es, wenn diese manipulierten LLMs später Zugriff auf echte Systeme erhalten.