Mistral AI hat mit Leanstral 1.5 ein kostenloses Open-Source-Modell unter Apache-2.0-Lizenz veröffentlicht, das spezialisiert auf formale Verifikation in der Programmiersprache Lean 4 arbeitet. Das Besondere: Das Modell beherrscht nicht nur mathematische Beweise, sondern findet auch echte Bugs in produktivem Code – ein konkreter Durchbruch bei der KI-gestützten Softwareverifikation.
Kurz & knapp
- Leanstral 1.5 erreicht auf dem miniF2F-Benchmark für formale Mathematik 100 Prozent und löst 587 von 672 Aufgaben im anspruchsvollen PutnamBench
- Bei der Überprüfung von 57 Open-Source-Repositories fand das Modell fünf bisher unbekannte Fehler, darunter einen Overflow-Bug in der Rust-Bibliothek varinteger
- Das Modell ist kostenlos über Hugging Face und eine kostenlose API verfügbar
- Training mit Mid-Training, überwachtem Feintuning und Reinforcement Learning
Mathematik auf Olympiade-Niveau
Die Benchmark-Ergebnisse zeigen, wie weit das Modell reicht: Auf miniF2F, das Aufgaben von Schulniveau bis zu Olympiade-Aufgaben umfasst, erreicht Leanstral 1.5 eine perfekte Quote von 100 Prozent. Im PutnamBench – einem Benchmark mit 672 Aufgaben aus dem renommierten Putnam-Mathematikwettbewerb – löst es immerhin 587 Probleme. Bei den anspruchsvolleren Algebra-Benchmarks FATE-H und FATE-X, die Aufgaben auf Master- und Doktorandenniveau in Bereichen wie Gruppentheorie und Ringtheorie prüfen, erzielt das Modell 87 beziehungsweise 34 Prozent.
| Benchmark | Aufgaben | Leanstral 1.5 | Besonderheit |
|---|---|---|---|
| miniF2F | variabel | 100 % | Schulniveau bis Olympiade |
| PutnamBench | 672 | 587 gelöst | Renommierter Mathematikwettbewerb |
| FATE-H | Master-Niveau | 87 % | Gruppentheorie, Ringtheorie |
| FATE-X | Doktoranden-Niveau | 34 % | Höchste Schwierigkeit |
Von Mathe zu echten Bugs
Was das Modell besonders macht: Obwohl es hauptsächlich auf mathematische Verifikation trainiert wurde, zeigt es laut Mistral starke Fähigkeiten in der praktischen Code-Verifikation. Das ist nicht nur Theorie – beim Scan von 57 Open-Source-Repositories fand Leanstral 1.5 fünf bisher unbekannte Fehler. Darunter war ein Overflow-Bug in der Rust-Bibliothek varinteger, also ein echtes Sicherheitsrisiko, das in produktivem Code lauerte.
Das bedeutet: Das Modell kann nicht nur mathematische Beweise formal überprüfen, sondern auch reale Softwareprojekte auf Fehler scannen – und findet dabei Dinge, die bisherige Methoden übersehen haben.
Training mit drei Techniken
Die Leistung basiert auf einem kombinierten Trainingsansatz: Mid-Training, überwachtes Feintuning und Reinforcement Learning wurden zusammen eingesetzt, um das Modell sowohl auf mathematische Präzision als auch auf praktische Code-Analyse zu optimieren.
Was das für deutsche Unternehmen bedeutet
Für deutsche Softwareentwickler und Sicherheitsverantwortliche könnte Leanstral 1.5 interessant werden, wenn es um Code-Review und Fehlersuche geht. Ein kostenloses, open-source Modell, das echte Bugs findet, könnte Teil einer lokalen KI-Infrastruktur werden – ohne Abhängigkeit von externen APIs. Allerdings bleibt offen, wie zuverlässig das Modell bei größeren, komplexeren Codebases ist und wie es sich in deutschen Compliance-Szenarien bewährt. Die Veröffentlichung zeigt aber: Formale Verifikation mit KI ist kein Zukunftstraum mehr, sondern praktisch einsetzbar.
Quellen
Redaktionell verantwortet von Ideal Syka. Quellen und Arbeitsweise: Redaktion & Methode. Hinweise und Korrekturen: ai@i6eal.de.




