NewsOpen-Source-KIFormale VerifikationCode-Sicherheit

Mistral veröffentlicht Leanstral 1.5: Open-Source-Modell findet echte Bugs im Code

Das neue Modell von Mistral AI löst komplexe mathematische Beweise und entdeckt dabei auch Sicherheitslücken in echtem Code. Bei einem Scan von 57 Open-Source-Projekten fand es bereits fünf unbekannte Fehler.

587 von 672 Aufgaben im Putnam-Benchmark gelöst; 5 echte Bugs in 57 Repositories gefunden

Mistral veröffentlicht Leanstral 1.5: Open-Source-Modell findet echte Bugs im Code

Mistral AI hat mit Leanstral 1.5 ein kostenloses Open-Source-Modell unter Apache-2.0-Lizenz veröffentlicht, das spezialisiert auf formale Verifikation in der Programmiersprache Lean 4 arbeitet. Das Besondere: Das Modell beherrscht nicht nur mathematische Beweise, sondern findet auch echte Bugs in produktivem Code – ein konkreter Durchbruch bei der KI-gestützten Softwareverifikation.

Kurz & knapp

  • Leanstral 1.5 erreicht auf dem miniF2F-Benchmark für formale Mathematik 100 Prozent und löst 587 von 672 Aufgaben im anspruchsvollen PutnamBench
  • Bei der Überprüfung von 57 Open-Source-Repositories fand das Modell fünf bisher unbekannte Fehler, darunter einen Overflow-Bug in der Rust-Bibliothek varinteger
  • Das Modell ist kostenlos über Hugging Face und eine kostenlose API verfügbar
  • Training mit Mid-Training, überwachtem Feintuning und Reinforcement Learning

Mathematik auf Olympiade-Niveau

Die Benchmark-Ergebnisse zeigen, wie weit das Modell reicht: Auf miniF2F, das Aufgaben von Schulniveau bis zu Olympiade-Aufgaben umfasst, erreicht Leanstral 1.5 eine perfekte Quote von 100 Prozent. Im PutnamBench – einem Benchmark mit 672 Aufgaben aus dem renommierten Putnam-Mathematikwettbewerb – löst es immerhin 587 Probleme. Bei den anspruchsvolleren Algebra-Benchmarks FATE-H und FATE-X, die Aufgaben auf Master- und Doktorandenniveau in Bereichen wie Gruppentheorie und Ringtheorie prüfen, erzielt das Modell 87 beziehungsweise 34 Prozent.

Benchmark Aufgaben Leanstral 1.5 Besonderheit
miniF2F variabel 100 % Schulniveau bis Olympiade
PutnamBench 672 587 gelöst Renommierter Mathematikwettbewerb
FATE-H Master-Niveau 87 % Gruppentheorie, Ringtheorie
FATE-X Doktoranden-Niveau 34 % Höchste Schwierigkeit

Von Mathe zu echten Bugs

Was das Modell besonders macht: Obwohl es hauptsächlich auf mathematische Verifikation trainiert wurde, zeigt es laut Mistral starke Fähigkeiten in der praktischen Code-Verifikation. Das ist nicht nur Theorie – beim Scan von 57 Open-Source-Repositories fand Leanstral 1.5 fünf bisher unbekannte Fehler. Darunter war ein Overflow-Bug in der Rust-Bibliothek varinteger, also ein echtes Sicherheitsrisiko, das in produktivem Code lauerte.

Das bedeutet: Das Modell kann nicht nur mathematische Beweise formal überprüfen, sondern auch reale Softwareprojekte auf Fehler scannen – und findet dabei Dinge, die bisherige Methoden übersehen haben.

Training mit drei Techniken

Die Leistung basiert auf einem kombinierten Trainingsansatz: Mid-Training, überwachtes Feintuning und Reinforcement Learning wurden zusammen eingesetzt, um das Modell sowohl auf mathematische Präzision als auch auf praktische Code-Analyse zu optimieren.

Was das für deutsche Unternehmen bedeutet

Für deutsche Softwareentwickler und Sicherheitsverantwortliche könnte Leanstral 1.5 interessant werden, wenn es um Code-Review und Fehlersuche geht. Ein kostenloses, open-source Modell, das echte Bugs findet, könnte Teil einer lokalen KI-Infrastruktur werden – ohne Abhängigkeit von externen APIs. Allerdings bleibt offen, wie zuverlässig das Modell bei größeren, komplexeren Codebases ist und wie es sich in deutschen Compliance-Szenarien bewährt. Die Veröffentlichung zeigt aber: Formale Verifikation mit KI ist kein Zukunftstraum mehr, sondern praktisch einsetzbar.

Quellen

Redaktionell verantwortet von Ideal Syka. Quellen und Arbeitsweise: Redaktion & Methode. Hinweise und Korrekturen: ai@i6eal.de.

Teilen
← Alle Beiträge

Alle Analysen basieren auf eigenen Messungen von i6eal oder auf klar gekennzeichneten Quellen. Zahlen sind Momentaufnahmen und können sich ändern; Korrekturen weisen wir transparent aus.