Im Detail
- iLLaDA wurde auf 12 Billionen Tokens vortrainiert (gegenüber 2,3 Billionen beim Vorgänger LLaDA) und erreicht 63,9 Punkte im Durchschnitt – knapp über Qwen2.5 7B mit 63,3 Punkten.
- Diffusionsmodelle verfeinern maskierte Token parallel über mehrere Durchläufe, statt sequenziell Wort für Wort zu generieren; jede Position kann gleichzeitig auf alle anderen zugreifen.
- Google DeepMind veröffentlichte parallel DiffusionGemma, das etwa viermal schneller generiert, aber bei Benchmarks wie MMLU schlechter abschneidet – für Low-Latency-Fälle optimiert, nicht für Qualität.
Warum es zählt
Diffusionsmodelle könnten eine echte Alternative zu autoregressiven Architekturen darstellen, wenn sie von Grund auf trainiert werden. Für deutsche Unternehmen relevant, die zwischen Geschwindigkeit und Qualität abwägen müssen.
Für dich Beobachte, ob Diffusionsmodelle in deinen Use-Cases (z. B. Echtzeit-Anwendungen) praktische Vorteile bringen – sie könnten Latenz senken, ohne dabei auf Qualität zu verzichten.