Benchmark: 60 Modelle auf Anfälligkeit für russische Propaganda getestet

Im Detail

Testumfang: 60 Modelle, 75 Fragen, drei Sprachen, 14 Narrativen; Bewertungsskala 1–5 (1 = Wiederholung russischer Talking‑Points)
Evaluationsmodell: kalibriertes Claude Opus 4.5; Validierung durch Propastop‑Experten
Top‑Platzierungen: Anthropic‑Claude‑Modelle; gefolgt von Nvidias Nemotron 3 und Alibabas Qwen 3.6 Plus
Mistral‑Modelle (inkl. Medium 3.5) landen im unteren Drittel; Studie misst Modelle ohne externen Webzugriff

Warum es zählt

Für Firmen, die KI‑Modelle in öffentlichen oder sicherheitsrelevanten Kontexten nutzen, zeigt die Studie Unterschiede in Robustheit gegen Desinformation—Modellauswahl beeinflusst Reputation und Compliance‑Risiken.

Für dich Achte bei der Modellauswahl auf externe Evaluierungen zur Desinformationsresistenz; erwäge Tests mit deinen eigenen Domänen‑Prompts, wenn du KI in Kommunikations‑ oder Monitoring‑Aufgaben einsetzt.

Quellen

The Decoder

Zusammenfassungen werden automatisch erstellt und verlinken auf die Originalquelle.