Im Detail
- Der Befehl `hf jobs run` nutzt das offizielle vllm/vllm-openai-Image und exponiert Port 8000 über einen öffentlichen Proxy.
- Endpunkte sind standardmäßig gated (erfordern HF-Token mit Lesezugriff), nicht öffentlich zugänglich.
- Ideal für schnelle Tests, Evaluierungen und Batch-Generierung; für produktive Workloads empfiehlt HF die Inference Endpoints.
Warum es zählt
Für deutsche SMEs, die schnell mit LLMs experimentieren wollen, senkt dies die Einstiegshürde erheblich – keine Kubernetes-Kenntnisse oder Infrastruktur-Setup nötig.
Für dich Teste diese Option, wenn du regelmäßig verschiedene Modelle evaluierst oder Prototypen schnell hochfahren musst – die Pay-per-Second-Abrechnung ist günstiger als ständig laufende Instanzen.