AI agents match or beat doctors in simulated emergency cases (Nature studies)

In detail

German system MIRA (TUD Dresden, Heidelberg University, others) achieved correct diagnoses in 88.9% across 8 disease categories on 500+ MIMIC‑IV emergency cases.
Head‑to‑head on 311 cases: MIRA 87.8% vs. four experienced specialists 78.1%; residents/specialist mix 71.1%.
MIRA runs as an autonomous agent inside a sealed virtual EHR, selects from >85,000 options across 11 tools (labs, microbiology, imaging, treatment plans, admissions).
Google's AMIE produced more accurate treatment and testing plans; both agents use base models that are already outdated.

Why it matters

Shows agentic, domain‑specific AI can deliver clinically relevant decisions in controlled settings — important for healthcare providers, vendors and regulators — but results are retrospective/simulated and depend on base models that evolve quickly.

For you Assess agentic AI through controlled pilots (triage, decision support) with strict monitoring and liability review before operational use.

Sources

The Decoder