summarization

Modality: llm_chat · full deep dive — every ranked model, test result, and artifact.

Models

Benchmark Results

Media Artifacts

Resolutions

Ranked Models

Ranked by confidence-adjusted score (single/zero-sample, non-curated scores floored; curated empirical scores trusted as-is).

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-4o	openai	0.995	1.000	n=977
2	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
3	claude-sonnet-4-5-20250929	claude_code	0.707	0.778	n=50
4	claude-sonnet-4-20250514	claude_code	0.618	0.680	n=50
5	deepseek-chat	deepseek	0.556	0.556	n=17551
6	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
7	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
8	gpt-5.5::think=fast	codex	0.525	0.963	n=6
9	gpt-5.5::think=deep	codex	0.525	0.963	n=6
10	claude-haiku-4-5-20251001	anthropic	0.426	0.426	n=13591
11	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
12	gpt-5.4::think=fast	codex	0.334	0.612	n=6
13	gpt-5.4::think=deep	codex	0.334	0.612	n=6
14	gpt-5.3-codex-spark::think=fast	codex	0.286	0.525	n=6
15	claude-sonnet-4-6	claude_code	0.179	0.196	n=50
16	gemini-3.1-pro	gemini	0.120	0.800	provisional (n≤1)
17	antigravity:gemini-2.5-pro	antigravity	0.117	0.780	provisional (n≤1)
18	antigravity:gemini-2.5-flash	antigravity	0.105	0.700	provisional (n≤1)
19	antigravity:gemini-2.0-flash-thinking	antigravity	0.105	0.700	provisional (n≤1)
20	gemini-2.5-flash	google_gemini	0.063	0.063	n=8321
21	gemini-2.5-pro	google_gemini	0.017	0.017	n=8006
22	claude-haiku-4-5-20251001	claude_code	0.000	0.000	n=50
23	gpt-5.4	codex	0.000	0.000	n=50
24	gpt-5.5	codex	0.000	0.000	n=50
25	gpt-5.3-codex-spark	codex	0.000	0.000	n=50
26	copilot:gpt-4o	github_copilot	0.000	0.000	provisional (n≤1)
27	copilot:gpt-4o-mini	github_copilot	0.000	0.000	provisional (n≤1)
28	copilot:claude-3.5-sonnet	github_copilot	0.000	0.000	provisional (n≤1)
29	copilot:claude-3.7-sonnet	github_copilot	0.000	0.000	provisional (n≤1)
30	copilot:gemini-1.5-pro	github_copilot	0.000	0.000	provisional (n≤1)
31	copilot:gemini-2.0-flash	github_copilot	0.000	0.000	provisional (n≤1)
32	copilot:o1	github_copilot	0.000	0.000	provisional (n≤1)
33	copilot:o3-mini	github_copilot	0.000	0.000	provisional (n≤1)

Test Results

No benchmark outputs recorded for this niche yet.