trm_structured_reasoning

Modality: modality_arm · full deep dive — every ranked model, test result, and artifact.

Models

Benchmark Results

Media Artifacts

Resolutions

Ranked Models

Ranked by confidence-adjusted score (single/zero-sample, non-curated scores floored; curated empirical scores trusted as-is).

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-opus-4-7	anthropic	0.920	0.920	curated
2	gemini-2.5-pro	google	0.880	0.880	curated
3	gpt-4o	openai	0.850	0.850	curated
4	deepseek-v3	deepseek	0.820	0.820	curated

No benchmark outputs recorded for this niche yet.