code_refactor

Modality: llm_chat · full deep dive — every ranked model, test result, and artifact.

Models

Benchmark Results

Media Artifacts

Resolutions

Ranked Models

Ranked by confidence-adjusted score (single/zero-sample, non-curated scores floored; curated empirical scores trusted as-is).

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	anthropic	0.920	0.920	curated
2	claude-opus-4-6	anthropic	0.840	0.840	curated
3	deepseek-reasoner	deepseek	0.700	0.700	curated
4	gpt-5.5::think=fast	codex	0.525	0.963	n=6
5	gpt-5.5::think=deep	codex	0.525	0.963	n=6
6	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
7	gpt-5.4::think=fast	codex	0.334	0.612	n=6
8	gpt-5.4::think=deep	codex	0.334	0.612	n=6
9	codex-auto-review	codex	0.286	0.525	n=6
10	gpt-5.3-codex-spark::think=fast	codex	0.286	0.525	n=6
11	gpt-5.4	codex	0.000	0.000	n=50
12	gpt-5.5	codex	0.000	0.000	n=50
13	gpt-5.3-codex-spark	codex	0.000	0.000	n=50

No benchmark outputs recorded for this niche yet.