general

Modality: llm_chat · full deep dive — every ranked model, test result, and artifact.

Models

Benchmark Results

Media Artifacts

Resolutions

Ranked Models

Ranked by confidence-adjusted score (single/zero-sample, non-curated scores floored; curated empirical scores trusted as-is).

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
2	deepseek-chat	deepseek	0.706	1.000	n=12
3	gpt-4o	openai	0.695	0.698	n=1063
4	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
5	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
6	gpt-5.5::think=deep	codex	0.525	0.963	n=6
7	gpt-5.5::think=fast	codex	0.525	0.963	n=6
8	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
9	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6
10	gemini-2.5-pro	google_gemini	0.444	1.000	n=4
11	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
12	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
13	claude-opus-4-8::think=deep	claude_code	0.382	0.700	n=6
14	gpt-5.4::think=fast	codex	0.334	0.612	n=6
15	gpt-5.4::think=deep	codex	0.334	0.612	n=6
16	codex-auto-review	codex	0.286	0.525	n=6
17	gpt-5.3-codex-spark::think=fast	codex	0.286	0.525	n=6
18	claude-haiku-4-5-20251001	anthropic	0.212	0.424	n=5
19	gpt-5.4	codex	0.150	1.000	provisional (n≤1)
20	gpt-5.5	codex	0.150	1.000	provisional (n≤1)
21	claude-sonnet-4-5-20250929	claude_code	0.126	0.842	provisional (n≤1)
22	gemini-3.1-pro	gemini	0.120	0.800	provisional (n≤1)
23	claude-opus-4-1-20250805	claude_code	0.111	0.743	provisional (n≤1)
24	claude-opus-4-6	claude_code	0.107	0.715	provisional (n≤1)
25	claude-opus-4-20250514	claude_code	0.099	0.659	provisional (n≤1)
26	claude-opus-4-5-20251101	claude_code	0.097	0.650	provisional (n≤1)
27	claude-sonnet-4-20250514	claude_code	0.096	0.643	provisional (n≤1)
28	claude-opus-4-8	claude_code	0.071	0.472	provisional (n≤1)
29	gemini-2.5-flash	google_gemini	0.059	0.133	n=4
30	gpt-5.3-codex-spark	codex	0.043	0.286	provisional (n≤1)
31	claude-sonnet-4-6	claude_code	0.035	0.233	provisional (n≤1)
32	claude-opus-4-7	claude_code	0.022	0.148	provisional (n≤1)
33	claude-haiku-4-5-20251001	claude_code	0.000	0.000	n=50

Test Results

No benchmark outputs recorded for this niche yet.