MolmoMotion: Sprachgesteuerte 3D‑Bewegungsprognosen und großer Datensatz für Roboter & Video

Im Detail

Modellname: MolmoMotion; Eingabe: RGB‑Frame, 3D‑Querypunkte, Aktionsbeschreibung; Ausgabe: zukünftige 3D‑Punkttrajektorien
MolmoMotion‑1M: Sammlung mit 1,16 Mio. Videos mit 3D‑Punkttrajektorien und Aktionsbeschreibungen
PointMotionBench: menschvalidiertes Benchmark mit 2.7k Clips zur Messung objektzentrierter 3D‑Bewegungsprognose
Code, Modellgewichte, Daten und Tech‑Report sind öffentlich verfügbar (Links: Hugging Face, GitHub, Projektseite)

Warum es zählt

Für Anwendungen wie Robotikplanung oder steuerbare Videoerzeugung sind zuverlässige Vorhersagen künftiger Objektbewegungen entscheidend; ein öffentliches Modell plus großer, beschrifteter Datensatz beschleunigt Integration, Evaluation und Forschung in solchen Systemen.

Für dich Prüfe, ob dein Roboter‑ oder Visualisierungs‑Stack von trajectories‑basierten Vorhersagen profitieren kann; teste MolmoMotion mit eigenen Szenen und evaluiere Planungs- oder Simulationsverbesserungen mithilfe des veröffentlichten Benchmarks.

Quellen

Hugging Face

Zusammenfassungen werden automatisch erstellt und verlinken auf die Originalquelle.