ModelleDatenForschung

MolmoMotion: Sprachgesteuerte 3D‑Bewegungsprognosen und großer Datensatz für Roboter & Video

AllenAI/Hugging Face veröffentlichen MolmoMotion, ein Modell, das aus einem Bild, markierten 3D‑Punkten und einer Textanweisung die künftige 3D‑Trajektorie von Objekten vorhersagt, plus den Datensatz MolmoMotion‑1M und PointMotionBench.

Im Detail

  • Modellname: MolmoMotion; Eingabe: RGB‑Frame, 3D‑Querypunkte, Aktionsbeschreibung; Ausgabe: zukünftige 3D‑Punkttrajektorien
  • MolmoMotion‑1M: Sammlung mit 1,16 Mio. Videos mit 3D‑Punkttrajektorien und Aktionsbeschreibungen
  • PointMotionBench: menschvalidiertes Benchmark mit 2.7k Clips zur Messung objektzentrierter 3D‑Bewegungsprognose
  • Code, Modellgewichte, Daten und Tech‑Report sind öffentlich verfügbar (Links: Hugging Face, GitHub, Projektseite)

Warum es zählt

Für Anwendungen wie Robotikplanung oder steuerbare Videoerzeugung sind zuverlässige Vorhersagen künftiger Objektbewegungen entscheidend; ein öffentliches Modell plus großer, beschrifteter Datensatz beschleunigt Integration, Evaluation und Forschung in solchen Systemen.

Für dich Prüfe, ob dein Roboter‑ oder Visualisierungs‑Stack von trajectories‑basierten Vorhersagen profitieren kann; teste MolmoMotion mit eigenen Szenen und evaluiere Planungs- oder Simulationsverbesserungen mithilfe des veröffentlichten Benchmarks.

← Alle News

Zusammenfassungen werden automatisch erstellt und verlinken auf die Originalquelle.