Im Detail
- Testumfang: 60 Modelle, 75 Fragen, drei Sprachen, 14 Narrativen; Bewertungsskala 1–5 (1 = Wiederholung russischer Talking‑Points)
- Evaluationsmodell: kalibriertes Claude Opus 4.5; Validierung durch Propastop‑Experten
- Top‑Platzierungen: Anthropic‑Claude‑Modelle; gefolgt von Nvidias Nemotron 3 und Alibabas Qwen 3.6 Plus
- Mistral‑Modelle (inkl. Medium 3.5) landen im unteren Drittel; Studie misst Modelle ohne externen Webzugriff
Warum es zählt
Für Firmen, die KI‑Modelle in öffentlichen oder sicherheitsrelevanten Kontexten nutzen, zeigt die Studie Unterschiede in Robustheit gegen Desinformation—Modellauswahl beeinflusst Reputation und Compliance‑Risiken.
Für dich Achte bei der Modellauswahl auf externe Evaluierungen zur Desinformationsresistenz; erwäge Tests mit deinen eigenen Domänen‑Prompts, wenn du KI in Kommunikations‑ oder Monitoring‑Aufgaben einsetzt.