TAAS Niche Catalog

Every capability niche TAAS routes and scores — text, code, image, video, audio, music, embedding, and vision — models deduplicated and ranked by confidence-adjusted score, each linking to a full deep dive.

Snapshot 2026-07-12 05:04 UTC · auto-refreshed · single/zero-sample non-curated scores are floored; curated empirical scores trusted.

104

Niches

546

Model-Niche Scores

Modalities

1653

Benchmark Results

Text / Chat / Code (LLM) · 66 niches

(unnamed)51 models · top: openai:gpt-5 () 0.000 prov. n≤1

#	Model	Provider	Evidence
1	openai:gpt-5		prov. n≤1
2	gpt-4	openai	prov. n≤1
3	gpt-4-turbo	openai	curated
4	claude-3-5-sonnet		prov. n≤1
5	claude-3-opus		prov. n≤1
6	claude-3.5-sonnet		prov. n≤1
7	claude-sonnet-4-6	anthropic	prov. n≤1
8	anthropic:claude-opus-4		prov. n≤1
9	gpt-4o	openai	prov. n≤1
10	candidate_openai_large		prov. n≤1
11	claude-3-5-haiku		prov. n≤1
12	gpt-4o-mini	openai	prov. n≤1

… and 39 more models

Full deep dive — all 51 models, every test result & artifact →

a11y_task_planning3 models · top: claude-opus-4-8 (anthropic) 0.000 prov. n≤1

#	Model	Provider	Evidence
1	claude-opus-4-8	anthropic	prov. n≤1
2	claude-sonnet-4-6	anthropic	prov. n≤1
3	claude-haiku-4-5-20251001	anthropic	prov. n≤1

Full deep dive — all 3 models, every test result & artifact →

analysis47 models · top: claude-sonnet-4-6 (claude_desktop) 0.773 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
2	deepseek-chat	deepseek	0.642	0.998	n=9
3	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
4	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
5	gpt-5.5::think=fast	codex	0.525	0.963	n=6
6	gpt-5.5::think=deep	codex	0.525	0.963	n=6
7	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
8	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6
9	gpt-4o	openai	0.456	0.456	curated
10	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
11	claude-opus-4-8::think=deep	claude_code	0.382	0.700	n=6
12	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6

… and 35 more models

Full deep dive — all 47 models, every test result & artifact →

arsenal_layer_render4 models · top: claude-opus-4-8 (anthropic) 0.000 prov. n≤1

#	Model	Provider	Evidence
1	claude-opus-4-8	anthropic	prov. n≤1
2	claude-sonnet-4-6	anthropic	prov. n≤1
3	claude-haiku-4-5-20251001	anthropic	prov. n≤1
4	gpt-4o	openai	prov. n≤1

Full deep dive — all 4 models, every test result & artifact →

bug_fix48 models · top: claude-sonnet-4-6 (anthropic) 0.920 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	anthropic	0.920	0.920	curated
2	claude-opus-4-6	anthropic	0.840	0.840	curated
3	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
4	deepseek-reasoner	deepseek	0.700	0.700	curated
5	gpt-5.5::think=deep	codex	0.525	0.963	n=6
6	gpt-5.5::think=fast	codex	0.525	0.963	n=6
7	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
8	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
9	claude-opus-4-8::think=deep	claude_code	0.382	0.700	n=6
10	codex-auto-review	codex	0.286	0.525	n=6
11	gpt-5.3-codex-spark::think=fast	codex	0.286	0.525	n=6
12	gpt-4o	openai	0.150	0.150	curated

… and 36 more models

Full deep dive — all 48 models, every test result & artifact →

cannabis_grow_assessment4 models · top: claude-opus-4-8 (anthropic) 0.138 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-opus-4-8	anthropic	0.138	0.920	prov. n≤1
2	claude-sonnet-4-6	anthropic	0.132	0.880	prov. n≤1
3	gpt-4o	openai	0.126	0.840	prov. n≤1
4	gemini-2.5-flash	google_gemini	0.120	0.800	prov. n≤1

Full deep dive — all 4 models, every test result & artifact →

chat49 models · top: deepseek-chat (deepseek) 0.994 n=819

#	Model	Provider	Adj. Score	Raw	Evidence
1	deepseek-chat	deepseek	0.994	1.000	n=819
2	gpt-4o-mini	openai	0.987	0.992	n=1068
3	claude-sonnet-4-5-20250929	anthropic	0.875	1.000	n=35
4	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
5	claude-sonnet-4-6	anthropic	0.722	1.000	n=13
6	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
7	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
8	gpt-5.5::think=deep	codex	0.525	0.963	n=6
9	gpt-5.5::think=fast	codex	0.525	0.963	n=6
10	claude-haiku-4-5-20251001	anthropic	0.500	0.550	n=50
11	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
12	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6

… and 37 more models

Full deep dive — all 49 models, every test result & artifact →

chat_fast34 models · top: deepseek-chat (deepseek) 1.000 n=46286

#	Model	Provider	Adj. Score	Raw	Evidence
1	deepseek-chat	deepseek	1.000	1.000	n=46286
2	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
3	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
4	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
5	gpt-5.5::think=deep	codex	0.525	0.963	n=6
6	gpt-5.5::think=fast	codex	0.525	0.963	n=6
7	claude-haiku-4-5-20251001	anthropic	0.500	0.550	n=50
8	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
9	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6
10	gpt-4o	openai	0.456	0.456	curated
11	gemini-2.5-flash	google_gemini	0.455	0.500	n=50
12	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6

… and 22 more models

Full deep dive — all 34 models, every test result & artifact →

chat_heavy29 models · top: claude-sonnet-4-6 (claude_desktop) 0.773 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
2	claude-opus-4-6	anthropic	0.722	1.000	n=13
3	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
4	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
5	gpt-5.5::think=deep	codex	0.525	0.963	n=6
6	gpt-5.5::think=fast	codex	0.525	0.963	n=6
7	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
8	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6
9	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
10	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
11	claude-opus-4-8::think=deep	claude_code	0.382	0.700	n=6
12	gpt-5.4::think=fast	codex	0.334	0.612	n=6

… and 17 more models

Full deep dive — all 29 models, every test result & artifact →

classification2 models · top: deepseek-chat (deepseek) 0.976 n=205

#	Model	Provider	Adj. Score	Raw	Evidence
1	deepseek-chat	deepseek	0.976	1.000	n=205
2			0.000	0.000	prov. n≤1

Full deep dive — all 2 models, every test result & artifact →

code_conventions8 models · top: claude-sonnet-4-6 (anthropic) 0.920 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	anthropic	0.920	0.920	curated
2	claude-opus-4-6	anthropic	0.840	0.840	curated
3	deepseek-reasoner	deepseek	0.700	0.700	curated
4	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
5	codex-auto-review	codex	0.286	0.525	n=6
6	gpt-5.3-codex-spark::think=fast	codex	0.286	0.525	n=6
7	gpt-5.4-mini	codex	0.000	0.000	n=50
8	gpt-5.3-codex-spark	codex	0.000	0.000	n=50

Full deep dive — all 8 models, every test result & artifact →

code_generation69 models · top: gemini-2.5-flash (google_gemini) 7.055 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	gemini-2.5-flash	google_gemini	7.055	7.055	curated
2	gemini-2.5-pro	google_gemini	7.055	7.055	curated
3	deepseek-reasoner	deepseek	6.889	6.889	curated
4	claude-haiku-4-5-20251001	anthropic	4.243	4.243	curated
5	claude-opus-4-6	anthropic	4.243	4.243	curated
6	claude-sonnet-4-6	anthropic	4.243	4.243	curated
7	claude-opus-4-7	anthropic	4.243	4.243	curated
8	gpt-4o-mini	openai	4.235	4.235	curated
9	gpt-4o	openai	4.235	4.235	curated
10	gpt-4.1-mini	openai	4.235	4.235	curated
11	gpt-4.1	openai	4.235	4.235	curated
12	sonar-pro	perplexity	3.359	3.359	curated

… and 57 more models

Full deep dive — all 69 models, every test result & artifact →

code_refactor13 models · top: claude-sonnet-4-6 (anthropic) 0.920 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	anthropic	0.920	0.920	curated
2	claude-opus-4-6	anthropic	0.840	0.840	curated
3	deepseek-reasoner	deepseek	0.700	0.700	curated
4	gpt-5.5::think=fast	codex	0.525	0.963	n=6
5	gpt-5.5::think=deep	codex	0.525	0.963	n=6
6	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
7	gpt-5.4::think=fast	codex	0.334	0.612	n=6
8	gpt-5.4::think=deep	codex	0.334	0.612	n=6
9	codex-auto-review	codex	0.286	0.525	n=6
10	gpt-5.3-codex-spark::think=fast	codex	0.286	0.525	n=6
11	gpt-5.4	codex	0.000	0.000	n=50
12	gpt-5.5	codex	0.000	0.000	n=50

… and 1 more models

Full deep dive — all 13 models, every test result & artifact →

coding62 models · top: deepseek-chat (deepseek) 0.996 n=12836

#	Model	Provider	Adj. Score	Raw	Evidence
1	deepseek-chat	deepseek	0.996	0.997	n=12836
2	claude-sonnet-4-6	anthropic	0.920	0.920	curated
3	claude-opus-4-6	anthropic	0.840	0.840	curated
4	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
5	deepseek-ai/DeepSeek-R1	together	0.753	0.753	curated
6	command-r-08-2024	cohere	0.753	0.753	curated
7	Qwen/Qwen2.5-7B-Instruct-Turbo	together	0.753	0.753	curated
8	deepseek-ai/DeepSeek-V3.1	together	0.753	0.753	curated
9	claude-haiku-4-5-20251001	anthropic	0.734	0.734	n=16760
10	deepseek-reasoner	deepseek	0.700	0.700	curated
11	magistral-small-latest	mistral	0.583	0.583	curated
12	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6

… and 50 more models

Full deep dive — all 62 models, every test result & artifact →

community_intel_classification6 models · top: claude-sonnet-4-6 (claude_desktop) 0.240 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.240	1.600	prov. n≤1
2	claude-haiku-4-5-20251001	claude_desktop	0.225	1.500	prov. n≤1
3	claude-haiku-4-5-20251001	claude_code	0.150	1.000	prov. n≤1
4	gpt-4o	openai	0.075	0.500	prov. n≤1
5	claude-haiku-4-5-20251001	anthropic	0.045	0.300	prov. n≤1
6	gemini-2.5-flash	google_gemini	0.007	0.050	prov. n≤1

Full deep dive — all 6 models, every test result & artifact →

community_intel_classification_batch5 models · top: deepseek-chat (deepseek) 0.210 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	deepseek-chat	deepseek	0.210	1.400	prov. n≤1
2	gemini-2.5-flash	google_gemini	0.195	1.300	prov. n≤1
3	claude-haiku-4-5-20251001	anthropic	0.150	1.000	prov. n≤1
4	gpt-4o-mini	openai	0.120	0.800	prov. n≤1
5	claude-haiku-4-5-20251001	claude_desktop	0.105	0.700	prov. n≤1

Full deep dive — all 5 models, every test result & artifact →

content_authoring20 models · top: gpt-4o (openai) 0.995 n=977

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-4o	openai	0.995	1.000	n=977
2	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
3	deepseek-chat	deepseek	0.556	0.556	n=17551
4	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
5	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
6	gpt-5.5::think=fast	codex	0.525	0.963	n=6
7	gpt-5.5::think=deep	codex	0.525	0.963	n=6
8	claude-haiku-4-5-20251001	anthropic	0.426	0.426	n=13591
9	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
10	gpt-5.4::think=fast	codex	0.334	0.612	n=6
11	gpt-5.4::think=deep	codex	0.334	0.612	n=6
12	gpt-5.3-codex-spark::think=fast	codex	0.286	0.525	n=6

… and 8 more models

Full deep dive — all 20 models, every test result & artifact →

content_generation53 models · top: claude-haiku-4-5-20251001 (anthropic) 0.840 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-haiku-4-5-20251001	anthropic	0.840	0.840	curated
2	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
3	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
4	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
5	gpt-5.5::think=fast	codex	0.525	0.963	n=6
6	gpt-5.5::think=deep	codex	0.525	0.963	n=6
7	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
8	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
9	claude-opus-4-8::think=deep	claude_code	0.382	0.700	n=6
10	gpt-5.4::think=fast	codex	0.334	0.612	n=6
11	gpt-5.4::think=deep	codex	0.334	0.612	n=6
12	gpt-5.3-codex-spark::think=fast	codex	0.286	0.525	n=6

… and 41 more models

Full deep dive — all 53 models, every test result & artifact →

creative_writing19 models · top: claude-sonnet-4-6 (claude_desktop) 0.773 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
2	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
3	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
4	claude-sonnet-4-5-20250929	anthropic	0.530	0.530	curated
5	gpt-5.5::think=fast	codex	0.525	0.963	n=6
6	gpt-5.5::think=deep	codex	0.525	0.963	n=6
7	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
8	gpt-5.4::think=fast	codex	0.334	0.612	n=6
9	gpt-5.4::think=deep	codex	0.334	0.612	n=6
10	gpt-5.3-codex-spark::think=fast	codex	0.286	0.525	n=6
11	gemini-3.1-pro	gemini	0.120	0.800	prov. n≤1
12	gemini-2.5-flash	google_gemini	0.044	0.116	n=3

… and 7 more models

Full deep dive — all 19 models, every test result & artifact →

data_normalization1 models · top: claude-haiku-4-5-20251001 (anthropic) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-haiku-4-5-20251001	anthropic	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

decision_tradeoff3 models · top: claude-haiku-4-5-20251001 (anthropic) 0.135 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-haiku-4-5-20251001	anthropic	0.135	0.900	prov. n≤1
2	deepseek-chat	deepseek	0.135	0.900	prov. n≤1
3	gemini-2.5-flash	google_gemini	0.135	0.900	prov. n≤1

Full deep dive — all 3 models, every test result & artifact →

dedup_test_niche_17804616164 models · top: claude-opus-4-8 (anthropic) 0.000 prov. n≤1

#	Model	Provider	Evidence
1	claude-opus-4-8	anthropic	prov. n≤1
2	claude-sonnet-4-6	anthropic	prov. n≤1
3	claude-haiku-4-5-20251001	anthropic	prov. n≤1
4	_routing_meta		prov. n≤1

Full deep dive — all 4 models, every test result & artifact →

default32 models · top: gpt-4o (openai) 0.995 n=977

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-4o	openai	0.995	1.000	n=977
2	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
3	deepseek-chat	deepseek	0.556	0.556	n=17551
4	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
5	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
6	gpt-5.5::think=deep	codex	0.525	0.963	n=6
7	gpt-5.5::think=fast	codex	0.525	0.963	n=6
8	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
9	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6
10	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
11	claude-haiku-4-5-20251001	anthropic	0.426	0.426	n=13591
12	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6

… and 20 more models

Full deep dive — all 32 models, every test result & artifact →

document_editing16 models · top: claude-sonnet-4-6 (claude_desktop) 0.773 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
2	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
3	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
4	gpt-5.5::think=fast	codex	0.525	0.963	n=6
5	gpt-5.5::think=deep	codex	0.525	0.963	n=6
6	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
7	gpt-5.4::think=fast	codex	0.334	0.612	n=6
8	gpt-5.4::think=deep	codex	0.334	0.612	n=6
9	gpt-5.3-codex-spark::think=fast	codex	0.286	0.525	n=6
10	gemini-3.1-pro	gemini	0.120	0.800	prov. n≤1
11	claude-sonnet-4-6	claude_code	0.000	0.000	n=50
12	claude-sonnet-4-5-20250929	claude_code	0.000	0.000	n=50

… and 4 more models

Full deep dive — all 16 models, every test result & artifact →

extraction32 models · top: claude-haiku-4-5-20251001 (anthropic) 0.961 n=763

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-haiku-4-5-20251001	anthropic	0.961	0.967	n=763
2	gemini-2.5-flash	google_gemini	0.827	1.000	n=24
3	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
4	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
5	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
6	gpt-4o-mini	openai	0.531	0.973	n=6
7	gpt-5.5::think=deep	codex	0.525	0.963	n=6
8	gpt-5.5::think=fast	codex	0.525	0.963	n=6
9	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
10	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6
11	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
12	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6

… and 20 more models

Full deep dive — all 32 models, every test result & artifact →

feature_request11 models · top: gpt-4o (openai) 0.995 n=977

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-4o	openai	0.995	1.000	n=977
2	deepseek-chat	deepseek	0.556	0.556	n=17551
3	gpt-5.5::think=fast	codex	0.525	0.963	n=6
4	gpt-5.5::think=deep	codex	0.525	0.963	n=6
5	claude-haiku-4-5-20251001	anthropic	0.426	0.426	n=13591
6	gpt-5.4::think=fast	codex	0.334	0.612	n=6
7	gpt-5.4::think=deep	codex	0.334	0.612	n=6
8	codex-auto-review	codex	0.286	0.525	n=6
9	gemini-2.5-flash	google_gemini	0.063	0.063	n=8321
10	gpt-5.4	codex	0.000	0.000	n=50
11	gpt-5.5	codex	0.000	0.000	n=50

Full deep dive — all 11 models, every test result & artifact →

gaming31 models · top: gpt-4o (openai) 0.995 n=977

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-4o	openai	0.995	1.000	n=977
2	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
3	deepseek-chat	deepseek	0.556	0.556	n=17551
4	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
5	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
6	gpt-5.5::think=deep	codex	0.525	0.963	n=6
7	gpt-5.5::think=fast	codex	0.525	0.963	n=6
8	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
9	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6
10	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
11	claude-haiku-4-5-20251001	anthropic	0.426	0.426	n=13591
12	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6

… and 19 more models

Full deep dive — all 31 models, every test result & artifact →

general33 models · top: claude-sonnet-4-6 (claude_desktop) 0.773 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
2	deepseek-chat	deepseek	0.706	1.000	n=12
3	gpt-4o	openai	0.695	0.698	n=1063
4	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
5	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
6	gpt-5.5::think=deep	codex	0.525	0.963	n=6
7	gpt-5.5::think=fast	codex	0.525	0.963	n=6
8	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
9	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6
10	gemini-2.5-pro	google_gemini	0.444	1.000	n=4
11	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
12	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6

… and 21 more models

Full deep dive — all 33 models, every test result & artifact →

governance_promotion3 models · top: claude-haiku-4-5-20251001 (anthropic) 0.135 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-haiku-4-5-20251001	anthropic	0.135	0.900	prov. n≤1
2	deepseek-chat	deepseek	0.135	0.900	prov. n≤1
3	gemini-2.5-flash	google_gemini	0.135	0.900	prov. n≤1

Full deep dive — all 3 models, every test result & artifact →

greeter_concierge5 models · top: claude-sonnet-4-6 (claude_desktop) 0.773 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
2	claude-haiku-4-5-20251001	claude_code	0.150	1.000	prov. n≤1
3	gpt-4o	openai	0.069	0.460	prov. n≤1
4	claude-haiku-4-5-20251001	anthropic	0.035	0.230	prov. n≤1
5	gemini-2.5-flash	google_gemini	0.002	0.010	prov. n≤1

Full deep dive — all 5 models, every test result & artifact →

instruction_following40 models · top: claude-sonnet-4-6 (claude_desktop) 0.773 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
2	gpt-5.5::think=deep	codex	0.525	0.963	n=6
3	gpt-5.5::think=fast	codex	0.525	0.963	n=6
4	gpt-4o-mini	openai	0.183	0.183	curated
5	gpt-5.5	codex	0.150	1.000	prov. n≤1
6	grok-3	xai	0.120	0.800	prov. n≤1
7	meta-llama/Llama-3.3-70B-Instruct-Turbo	together	0.120	0.800	prov. n≤1
8	Qwen/Qwen2.5-7B-Instruct-Turbo	together	0.120	0.800	prov. n≤1
9	claude-sonnet-4-5-20250929	claude_code	0.117	0.778	prov. n≤1
10	claude-sonnet-4-20250514	claude_code	0.107	0.714	prov. n≤1
11	claude-haiku-4-5-20251001	anthropic	0.106	0.106	curated
12	claude-opus-4-1-20250805	claude_code	0.103	0.690	prov. n≤1

… and 28 more models

Full deep dive — all 40 models, every test result & artifact →

integration11 models · top: gpt-4o (openai) 0.995 n=977

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-4o	openai	0.995	1.000	n=977
2	deepseek-chat	deepseek	0.556	0.556	n=17551
3	gpt-5.5::think=fast	codex	0.525	0.963	n=6
4	gpt-5.5::think=deep	codex	0.525	0.963	n=6
5	claude-haiku-4-5-20251001	anthropic	0.426	0.426	n=13591
6	gpt-5.4::think=fast	codex	0.334	0.612	n=6
7	gpt-5.4::think=deep	codex	0.334	0.612	n=6
8	codex-auto-review	codex	0.286	0.525	n=6
9	gemini-2.5-flash	google_gemini	0.063	0.063	n=8321
10	gpt-5.4	codex	0.000	0.000	n=50
11	gpt-5.5	codex	0.000	0.000	n=50

Full deep dive — all 11 models, every test result & artifact →

knowledge_corpus_extraction3 models · top: claude-haiku-4-5-20251001 (anthropic) 0.135 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-haiku-4-5-20251001	anthropic	0.135	0.900	prov. n≤1
2	deepseek-chat	deepseek	0.135	0.900	prov. n≤1
3	gemini-2.5-flash	google_gemini	0.135	0.900	prov. n≤1

Full deep dive — all 3 models, every test result & artifact →

legal_classify1 models · top: gpt-4o-mini (openai) 0.925 n=62

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-4o-mini	openai	0.925	1.000	n=62

Full deep dive — all 1 models, every test result & artifact →

long_form_content27 models · top: claude-sonnet-4-6 (claude_desktop) 0.773 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
2	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
3	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
4	gpt-5.5::think=fast	codex	0.525	0.963	n=6
5	gpt-5.5::think=deep	codex	0.525	0.963	n=6
6	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
7	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6
8	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
9	claude-opus-4-8::think=deep	claude_code	0.382	0.700	n=6
10	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
11	gpt-5.4::think=fast	codex	0.334	0.612	n=6
12	gpt-5.4::think=deep	codex	0.334	0.612	n=6

… and 15 more models

Full deep dive — all 27 models, every test result & artifact →

media_claim_verification7 models · top: gpt-5.4-mini (codex) 0.909 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-5.4-mini	codex	0.909	1.000	n=50
2	gpt-5.5	codex	0.827	0.910	n=50
3	gpt-5.5::think=deep	codex	0.525	0.963	n=6
4	gpt-5.5::think=fast	codex	0.525	0.963	n=6
5	gemini-2.5-flash	google_gemini	0.455	0.500	n=50
6	claude-haiku-4-5-20251001	anthropic	0.455	0.500	n=50
7	claude-haiku-4-5-20251001	claude_code	0.273	0.300	n=50

Full deep dive — all 7 models, every test result & artifact →

media_relevance_multilingual7 models · top: gpt-5.4-mini (codex) 0.909 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-5.4-mini	codex	0.909	1.000	n=50
2	gpt-5.5::think=deep	codex	0.525	0.963	n=6
3	gpt-5.5::think=fast	codex	0.525	0.963	n=6
4	gemini-2.5-flash	google_gemini	0.455	0.500	n=50
5	claude-haiku-4-5-20251001	anthropic	0.455	0.500	n=50
6	claude-haiku-4-5-20251001	claude_code	0.273	0.300	n=50
7	gpt-5.5	codex	0.150	1.000	prov. n≤1

Full deep dive — all 7 models, every test result & artifact →

media_source_credibility7 models · top: gpt-5.4-mini (codex) 0.909 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-5.4-mini	codex	0.909	1.000	n=50
2	gpt-5.5::think=deep	codex	0.525	0.963	n=6
3	gpt-5.5::think=fast	codex	0.525	0.963	n=6
4	gemini-2.5-flash	google_gemini	0.455	0.500	n=50
5	claude-haiku-4-5-20251001	anthropic	0.455	0.500	n=50
6	claude-haiku-4-5-20251001	claude_code	0.273	0.300	n=50
7	gpt-5.5	codex	0.150	1.000	prov. n≤1

Full deep dive — all 7 models, every test result & artifact →

ml_model_derived_task_type4 models · top: gpt-4o (openai) 0.995 n=977

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-4o	openai	0.995	1.000	n=977
2	deepseek-chat	deepseek	0.556	0.556	n=17551
3	claude-haiku-4-5-20251001	anthropic	0.426	0.426	n=13591
4	gemini-2.5-flash	google_gemini	0.063	0.063	n=8321

Full deep dive — all 4 models, every test result & artifact →

naturalness29 models · top: claude-sonnet-4-6 (claude_desktop) 0.773 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
2	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
3	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
4	gpt-5.5::think=deep	codex	0.525	0.963	n=6
5	gpt-5.5::think=fast	codex	0.525	0.963	n=6
6	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
7	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6
8	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
9	claude-haiku-4-5-20251001	anthropic	0.426	0.426	n=13591
10	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
11	claude-opus-4-8::think=deep	claude_code	0.382	0.700	n=6
12	gpt-5.4::think=fast	codex	0.334	0.612	n=6

… and 17 more models

Full deep dive — all 29 models, every test result & artifact →

outreach_draft1 models · top: gpt-4o-mini (openai) 0.988 n=422

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-4o-mini	openai	0.988	1.000	n=422

Full deep dive — all 1 models, every test result & artifact →

page_classify_short4 models · top: claude-sonnet-4-6 (anthropic) 0.998 n=2892

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	anthropic	0.998	1.000	n=2892
2	claude-haiku-4-5-20251001	anthropic	0.123	0.820	prov. n≤1
3	gpt-4o-mini	openai	0.111	0.740	prov. n≤1
4	gemini-2.5-flash	google_gemini	0.105	0.700	prov. n≤1

Full deep dive — all 4 models, every test result & artifact →

plant_description4 models · top: claude-opus-4-8 (anthropic) 0.138 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-opus-4-8	anthropic	0.138	0.920	prov. n≤1
2	claude-sonnet-4-6	anthropic	0.132	0.880	prov. n≤1
3	gpt-4o	openai	0.126	0.840	prov. n≤1
4	gemini-2.5-flash	google_gemini	0.120	0.800	prov. n≤1

Full deep dive — all 4 models, every test result & artifact →

plant_health_assessment4 models · top: claude-opus-4-8 (anthropic) 0.138 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-opus-4-8	anthropic	0.138	0.920	prov. n≤1
2	claude-sonnet-4-6	anthropic	0.132	0.880	prov. n≤1
3	gpt-4o	openai	0.126	0.840	prov. n≤1
4	gemini-2.5-flash	google_gemini	0.120	0.800	prov. n≤1

Full deep dive — all 4 models, every test result & artifact →

plant_identification4 models · top: claude-opus-4-8 (anthropic) 0.138 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-opus-4-8	anthropic	0.138	0.920	prov. n≤1
2	claude-sonnet-4-6	anthropic	0.132	0.880	prov. n≤1
3	gpt-4o	openai	0.126	0.840	prov. n≤1
4	gemini-2.5-flash	google_gemini	0.120	0.800	prov. n≤1

Full deep dive — all 4 models, every test result & artifact →

pr_vetting3 models · top: claude-opus-4-8 (anthropic) 0.000 prov. n≤1

#	Model	Provider	Evidence
1	claude-opus-4-8	anthropic	prov. n≤1
2	claude-sonnet-4-6	anthropic	prov. n≤1
3	claude-haiku-4-5		prov. n≤1

Full deep dive — all 3 models, every test result & artifact →

proposal_claim_verification7 models · top: gpt-5.5::think=deep (codex) 0.525 n=6

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-5.5::think=deep	codex	0.525	0.963	n=6
2	gpt-5.5::think=fast	codex	0.525	0.963	n=6
3	claude-haiku-4-5-20251001	anthropic	0.500	0.550	n=50
4	gemini-2.5-flash	google_gemini	0.455	0.500	n=50
5	gpt-5.4-mini	codex	0.000	0.000	n=50
6	claude-haiku-4-5-20251001	claude_code	0.000	0.000	n=50
7	gpt-5.5	codex	0.000	0.000	n=50

Full deep dive — all 7 models, every test result & artifact →

python_code_generation50 models · top: claude-sonnet-4-6 (claude_desktop) 0.773 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
2	gpt-5.5::think=fast	codex	0.525	0.963	n=6
3	gpt-5.5::think=deep	codex	0.525	0.963	n=6
4	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
5	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
6	claude-opus-4-8::think=deep	claude_code	0.382	0.700	n=6
7	deepseek-reasoner	deepseek	0.356	0.800	n=4
8	grok-3-mini	xai	0.356	0.800	n=4
9	claude-opus-4-6	anthropic	0.356	0.800	n=4
10	grok-4.20-multi-agent-0309	xai	0.356	0.800	n=4
11	gemini-2.5-pro	google_gemini	0.346	0.778	n=4
12	gemini-2.5-flash	google_gemini	0.338	0.760	n=4

… and 38 more models

Full deep dive — all 50 models, every test result & artifact →

realtime3 models · top: gemini-2.5-flash (google_gemini) 0.909 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	gemini-2.5-flash	google_gemini	0.909	1.000	n=50
2	claude-haiku-4-5-20251001	anthropic	0.773	0.850	n=50
3	gpt-5.4-mini	codex	0.000	0.000	n=50

Full deep dive — all 3 models, every test result & artifact →

reasoning58 models · top: claude-sonnet-4-5-20250929 (anthropic) 0.773 n=17

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-5-20250929	anthropic	0.773	1.000	n=17
2	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
3	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
4	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
5	gpt-5.5::think=fast	codex	0.525	0.963	n=6
6	gpt-5.5::think=deep	codex	0.525	0.963	n=6
7	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
8	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6
9	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
10	claude-sonnet-4-6	anthropic	0.391	0.879	n=4
11	claude-opus-4-8::think=deep	claude_code	0.382	0.700	n=6
12	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6

… and 46 more models

Full deep dive — all 58 models, every test result & artifact →

requirement_conflict3 models · top: claude-haiku-4-5-20251001 (anthropic) 0.135 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-haiku-4-5-20251001	anthropic	0.135	0.900	prov. n≤1
2	deepseek-chat	deepseek	0.135	0.900	prov. n≤1
3	gemini-2.5-flash	google_gemini	0.135	0.900	prov. n≤1

Full deep dive — all 3 models, every test result & artifact →

requirement_tradeoff3 models · top: claude-haiku-4-5-20251001 (anthropic) 0.135 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-haiku-4-5-20251001	anthropic	0.135	0.900	prov. n≤1
2	deepseek-chat	deepseek	0.135	0.900	prov. n≤1
3	gemini-2.5-flash	google_gemini	0.135	0.900	prov. n≤1

Full deep dive — all 3 models, every test result & artifact →

requirement_transition4 models · top: claude-haiku-4-5-20251001 (anthropic) 0.135 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-haiku-4-5-20251001	anthropic	0.135	0.900	prov. n≤1
2	deepseek-chat	deepseek	0.135	0.900	prov. n≤1
3	gemini-2.5-flash	google_gemini	0.135	0.900	prov. n≤1
4			0.000	0.000	prov. n≤1

Full deep dive — all 4 models, every test result & artifact →

research30 models · top: gpt-4o (openai) 0.875 n=35

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-4o	openai	0.875	1.000	n=35
2	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
3	deepseek-chat	deepseek	0.556	0.556	n=17551
4	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
5	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
6	gpt-5.5::think=fast	codex	0.525	0.963	n=6
7	gpt-5.5::think=deep	codex	0.525	0.963	n=6
8	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
9	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6
10	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
11	claude-haiku-4-5-20251001	anthropic	0.426	0.426	n=13591
12	claude-opus-4-8::think=deep	claude_code	0.382	0.700	n=6

… and 18 more models

Full deep dive — all 30 models, every test result & artifact →

research_with_citations40 models · top: claude-sonnet-4-6 (claude_desktop) 0.773 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
2	gpt-5.5::think=deep	codex	0.525	0.963	n=6
3	gpt-5.5::think=fast	codex	0.525	0.963	n=6
4	deepseek-reasoner	deepseek	0.217	0.760	n=2
5	command-r-08-2024	cohere	0.217	0.760	n=2
6	sonar	perplexity	0.204	0.715	n=2
7	sonar-pro	perplexity	0.200	0.700	n=2
8	gpt-4o-mini	openai	0.200	0.700	n=2
9	grok-3-mini	xai	0.196	0.685	n=2
10	claude-opus-4-6	anthropic	0.187	0.655	n=2
11	meta-llama/Llama-3.3-70B-Instruct-Turbo	together	0.187	0.655	n=2
12	Qwen/Qwen2.5-7B-Instruct-Turbo	together	0.182	0.636	n=2

… and 28 more models

Full deep dive — all 40 models, every test result & artifact →

smart_contract_finding_triage2 models · top: deepseek-chat (deepseek) 0.720 n=20

#	Model	Provider	Adj. Score	Raw	Evidence
1	deepseek-chat	deepseek	0.720	0.900	n=20
2	gpt-4o-mini	openai	0.720	0.900	n=20

Full deep dive — all 2 models, every test result & artifact →

social_post_drafting150 models · top: claude-sonnet-4-6 (claude_desktop) 0.773 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
2	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
3	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
4	gpt-5.5::think=deep	codex	0.525	0.963	n=6
5	gpt-5.5::think=fast	codex	0.525	0.963	n=6
6	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
7	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6
8	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
9	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
10	claude-opus-4-8::think=deep	claude_code	0.382	0.700	n=6
11	gpt-5.4::think=fast	codex	0.334	0.612	n=6
12	gpt-5.4::think=deep	codex	0.334	0.612	n=6

… and 138 more models

Full deep dive — all 150 models, every test result & artifact →

species_identification4 models · top: claude-opus-4-8 (anthropic) 0.138 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-opus-4-8	anthropic	0.138	0.920	prov. n≤1
2	claude-sonnet-4-6	anthropic	0.132	0.880	prov. n≤1
3	gpt-4o	openai	0.126	0.840	prov. n≤1
4	gemini-2.5-flash	google_gemini	0.120	0.800	prov. n≤1

Full deep dive — all 4 models, every test result & artifact →

summarization33 models · top: gpt-4o (openai) 0.995 n=977

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-4o	openai	0.995	1.000	n=977
2	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
3	claude-sonnet-4-5-20250929	claude_code	0.707	0.778	n=50
4	claude-sonnet-4-20250514	claude_code	0.618	0.680	n=50
5	deepseek-chat	deepseek	0.556	0.556	n=17551
6	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
7	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
8	gpt-5.5::think=fast	codex	0.525	0.963	n=6
9	gpt-5.5::think=deep	codex	0.525	0.963	n=6
10	claude-haiku-4-5-20251001	anthropic	0.426	0.426	n=13591
11	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
12	gpt-5.4::think=fast	codex	0.334	0.612	n=6

… and 21 more models

Full deep dive — all 33 models, every test result & artifact →

task_decomposition43 models · top: claude-sonnet-4-6 (claude_desktop) 0.773 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
2	gpt-5.5::think=deep	codex	0.525	0.963	n=6
3	gpt-5.5::think=fast	codex	0.525	0.963	n=6
4	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
5	claude-opus-4-8::think=deep	claude_code	0.382	0.700	n=6
6	gemini-2.5-flash	google_gemini	0.245	0.856	n=2
7	claude-haiku-4-5-20251001	anthropic	0.230	0.805	n=2
8	gemini-2.5-pro	google_gemini	0.223	0.779	n=2
9	grok-3-mini	xai	0.214	0.750	n=2
10	grok-4.20-multi-agent-0309	xai	0.214	0.750	n=2
11	command-r-08-2024	cohere	0.211	0.740	n=2
12	claude-opus-4-6	anthropic	0.211	0.740	n=2

… and 31 more models

Full deep dive — all 43 models, every test result & artifact →

translation33 models · top: gpt-4o (openai) 0.995 n=977

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-4o	openai	0.995	1.000	n=977
2	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
3	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
4	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
5	gpt-5.5::think=deep	codex	0.525	0.963	n=6
6	gpt-5.5::think=fast	codex	0.525	0.963	n=6
7	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
8	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6
9	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
10	claude-haiku-4-5-20251001	anthropic	0.426	0.426	n=13591
11	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
12	claude-opus-4-8::think=deep	claude_code	0.382	0.700	n=6

… and 21 more models

Full deep dive — all 33 models, every test result & artifact →

unknown4 models · top: gpt-4o (openai) 0.995 n=977

#	Model	Provider	Adj. Score	Raw	Evidence
1	gpt-4o	openai	0.995	1.000	n=977
2	deepseek-chat	deepseek	0.556	0.556	n=17551
3	claude-haiku-4-5-20251001	anthropic	0.426	0.426	n=13591
4	gemini-2.5-flash	google_gemini	0.063	0.063	n=8321

Full deep dive — all 4 models, every test result & artifact →

user_engagement29 models · top: claude-sonnet-4-6 (claude_desktop) 0.773 n=50

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	claude_desktop	0.773	0.850	n=50
2	claude-sonnet-4-6::think=fast	claude_code	0.545	1.000	n=6
3	claude-sonnet-4-6::think=deep	claude_code	0.545	1.000	n=6
4	gpt-5.5::think=deep	codex	0.525	0.963	n=6
5	gpt-5.5::think=fast	codex	0.525	0.963	n=6
6	claude-opus-4-7::think=fast	claude_code	0.477	0.875	n=6
7	claude-opus-4-7::think=deep	claude_code	0.477	0.875	n=6
8	claude-opus-4-8::think=fast	claude_code	0.430	0.788	n=6
9	claude-haiku-4-5-20251001	anthropic	0.426	0.426	n=13591
10	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
11	claude-opus-4-8::think=deep	claude_code	0.382	0.700	n=6
12	gpt-5.4::think=fast	codex	0.334	0.612	n=6

… and 17 more models

Full deep dive — all 29 models, every test result & artifact →

vision_classify6 models · top: claude-sonnet-4-6 (anthropic) 0.120 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	anthropic	0.120	0.800	prov. n≤1
2	claude-haiku-4-5-20251001	anthropic	0.117	0.780	prov. n≤1
3	gpt-4o	openai	0.112	0.750	prov. n≤1
4	gemini-2.5-pro	google_gemini	0.108	0.720	prov. n≤1
5	gpt-4o-mini	openai	0.105	0.700	prov. n≤1
6	gemini-2.5-flash	google_gemini	0.102	0.680	prov. n≤1

Full deep dive — all 6 models, every test result & artifact →

vision_strict3 models · top: claude-sonnet-4-6 (anthropic) 0.135 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	anthropic	0.135	0.900	prov. n≤1
2	gpt-4o	openai	0.124	0.830	prov. n≤1
3	gemini-2.5-pro	google_gemini	0.117	0.780	prov. n≤1

Full deep dive — all 3 models, every test result & artifact →

vision_uat7 models · top: claude-sonnet-4-6 (anthropic) 0.128 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	anthropic	0.128	0.850	prov. n≤1
2	gpt-4o	openai	0.120	0.800	prov. n≤1
3	gemini-2.5-pro	google_gemini	0.112	0.750	prov. n≤1
4	claude-haiku-4-5-20251001	anthropic	0.098	0.650	prov. n≤1
5	gemini-2.5-flash	google_gemini	0.090	0.600	prov. n≤1
6	gpt-4o-mini	openai	0.083	0.550	prov. n≤1
7	grok-4.20-multi-agent-0309	xai	0.083	0.550	prov. n≤1

Full deep dive — all 7 models, every test result & artifact →

Image & Video Generation · 20 niches

avatar_video_generation9 models · top: heygen/prompt-video (heygen) 0.064 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	heygen/prompt-video	heygen	0.064	0.429	prov. n≤1
2	tavus/avatar-video	tavus	0.064	0.429	prov. n≤1
3	internal/geo-story-avatar	internal	0.064	0.429	prov. n≤1
4	internal/avatar-dispatcher	internal	0.064	0.429	prov. n≤1
5	heygen/avatar-video	heygen	0.064	0.429	prov. n≤1
6	d-id/avatar-video	d-id	0.064	0.429	prov. n≤1
7	synthesia/avatar-video	synthesia	0.000	0.000	prov. n≤1
8	hedra/avatar-video	hedra	0.000	0.000	prov. n≤1
9	elevenlabs/video-generation	elevenlabs	0.000	0.000	prov. n≤1

Full deep dive — all 9 models, every test result & artifact →

avatar_voice_discovery2 models · top: heygen/avatar-library (heygen) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	heygen/avatar-library	heygen	0.150	1.000	prov. n≤1
2	tavus/avatar-video	tavus	0.150	1.000	prov. n≤1

Full deep dive — all 2 models, every test result & artifact →

image_background_removal1 models · top: stability/stable-image-remove-bg (stability) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	stability/stable-image-remove-bg	stability	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

image_brand_marketing1 models · top: stability/stable-image-sd3-large (stability) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	stability/stable-image-sd3-large	stability	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

image_diagram_technical1 models · top: stability/stable-image-sd3-large (stability) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	stability/stable-image-sd3-large	stability	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

image_generation1 models · top: stability/stable-image-sd3-large (stability) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	stability/stable-image-sd3-large	stability	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

image_illustration1 models · top: stability/stable-image-sd3-large (stability) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	stability/stable-image-sd3-large	stability	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

image_inpaint1 models · top: stability/stable-image-inpaint (stability) 0.064 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	stability/stable-image-inpaint	stability	0.064	0.429	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

image_landscape1 models · top: stability/stable-image-sd3-large (stability) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	stability/stable-image-sd3-large	stability	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

image_outpaint1 models · top: stability/stable-image-outpaint (stability) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	stability/stable-image-outpaint	stability	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

image_photorealistic1 models · top: stability/stable-image-sd3-large (stability) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	stability/stable-image-sd3-large	stability	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

image_portrait1 models · top: stability/stable-image-sd3-large (stability) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	stability/stable-image-sd3-large	stability	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

image_product_render1 models · top: stability/stable-image-sd3-large (stability) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	stability/stable-image-sd3-large	stability	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

image_text_in_image1 models · top: stability/stable-image-sd3-large (stability) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	stability/stable-image-sd3-large	stability	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

image_upscale1 models · top: stability/stable-image-upscale-creative (stability) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	stability/stable-image-upscale-creative	stability	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

model_3d_generation1 models · top: stability/stable-fast-3d (stability) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	stability/stable-fast-3d	stability	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

music_generation_instrumental1 models · top: stability/stable-audio-2-tta (stability) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	stability/stable-audio-2-tta	stability	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

stt_transcription1 models · top: openai/whisper-1 (openai) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	openai/whisper-1	openai	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

tts_synthesis1 models · top: elevenlabs/tts-turbo-v2_5 (elevenlabs) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	elevenlabs/tts-turbo-v2_5	elevenlabs	0.150	1.000	prov. n≤1

Full deep dive — all 1 models, every test result & artifact →

video_generation15 models · top: fal-ai/kling-v3-text-to-video (fal) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	fal-ai/kling-v3-text-to-video	fal	0.150	1.000	prov. n≤1
2	runway/gen4.5	runway	0.150	1.000	prov. n≤1
3	fal-ai/veo3-fast-text-to-video	fal	0.064	0.429	prov. n≤1
4	fal-ai/hailuo-02-text-to-video	fal	0.064	0.429	prov. n≤1
5	runway/gen-3-alpha-turbo	runway	0.064	0.429	prov. n≤1
6	stability/stable-video-diffusion	stability	0.064	0.429	prov. n≤1
7	fal-ai/kling-video/v2.5-turbo/pro/text-to-video	fal	0.000	0.000	prov. n≤1
8	internal/cesium-cartography	internal	0.000	0.000	prov. n≤1
9	synthesia/avatar-video	synthesia	0.000	0.000	prov. n≤1
10	d-id/avatar-video	d-id	0.000	0.000	prov. n≤1
11	hedra/avatar-video	hedra	0.000	0.000	prov. n≤1
12	elevenlabs/video-generation	elevenlabs	0.000	0.000	prov. n≤1

… and 3 more models

Full deep dive — all 15 models, every test result & artifact →

Audio / Embedding / Multimodal · 10 niches

classification5 models · top: claude-haiku-4-5 (anthropic) 0.850 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-haiku-4-5	anthropic	0.850	0.850	curated
2	gemini-2.5-flash	google	0.820	0.820	curated
3	gpt-4o-mini	openai	0.800	0.800	curated
4	deberta-v3-large	huggingface	0.750	0.750	curated
5	distilbert-multilingual	huggingface	0.700	0.700	curated

Full deep dive — all 5 models, every test result & artifact →

embedding5 models · top: openai-text-embedding-3-large (openai) 0.920 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	openai-text-embedding-3-large	openai	0.920	0.920	curated
2	voyage-large-2	voyage	0.900	0.900	curated
3	openai-text-embedding-3-small	openai	0.850	0.850	curated
4	jina-embeddings-v3	jina	0.850	0.850	curated
5	bge-m3	huggingface	0.800	0.800	curated

Full deep dive — all 5 models, every test result & artifact →

image_background_removal2 models · top: birefnet-v2 (fal) 0.900 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	birefnet-v2	fal	0.900	0.900	curated
2	fal-imageutils-rembg	fal	0.850	0.850	curated

Full deep dive — all 2 models, every test result & artifact →

image_generation6 models · top: dall-e-3 (openai) 0.850 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	dall-e-3	openai	0.850	0.850	curated
2	flux-pro	fal	0.850	0.850	curated
3	flux-schnell	fal	0.800	0.800	curated
4	ideogram-v2	replicate	0.800	0.800	curated
5	stable-diffusion-3	fal	0.750	0.750	curated
6	sdxl	fal	0.700	0.700	curated

Full deep dive — all 6 models, every test result & artifact →

image_illustration1 models · top: fal-ai/recraft-v3 (fal) 0.911 n=118

#	Model	Provider	Adj. Score	Raw	Evidence
1	fal-ai/recraft-v3	fal	0.911	0.950	n=118

Full deep dive — all 1 models, every test result & artifact →

ocr3 models · top: claude-vision (anthropic) 0.900 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-vision	anthropic	0.900	0.900	curated
2	openai-vision	openai	0.880	0.880	curated
3	fal-paddleocr	fal	0.750	0.750	curated

Full deep dive — all 3 models, every test result & artifact →

stt_transcription4 models · top: whisper-large-v3 (openai) 0.900 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	whisper-large-v3	openai	0.900	0.900	curated
2	deepgram-nova-2	deepgram	0.850	0.850	curated
3	fal-whisper-large-v3	fal	0.850	0.850	curated
4	groq-whisper-large-v3	groq	0.850	0.850	curated

Full deep dive — all 4 models, every test result & artifact →

trm_structured_reasoning4 models · top: claude-opus-4-7 (anthropic) 0.920 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-opus-4-7	anthropic	0.920	0.920	curated
2	gemini-2.5-pro	google	0.880	0.880	curated
3	gpt-4o	openai	0.850	0.850	curated
4	deepseek-v3	deepseek	0.820	0.820	curated

Full deep dive — all 4 models, every test result & artifact →

tts_synthesis4 models · top: eleven_multilingual_v2 (elevenlabs) 0.950 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	eleven_multilingual_v2	elevenlabs	0.950	0.950	curated
2	tts-1-hd	openai	0.850	0.850	curated
3	fal-fish-speech	fal	0.750	0.750	curated
4	google-cloud-tts	google	0.700	0.700	curated

Full deep dive — all 4 models, every test result & artifact →

video_generation5 models · top: runway-gen3 (runway) 0.850 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	runway-gen3	runway	0.850	0.850	curated
2	veo-2	fal	0.850	0.850	curated
3	kling-v1	fal	0.800	0.800	curated
4	pika-v2	pika	0.750	0.750	curated
5	ltx-video	fal	0.650	0.650	curated

Full deep dive — all 5 models, every test result & artifact →

Music Generation · 2 niches

music_generation_instrumental5 models · top: suno-v5.5 (suno) 0.700 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	suno-v5.5	suno	0.700	0.700	curated
2	fal-stable-audio	fal	0.650	0.650	curated
3	fal-musicgen-large	fal	0.600	0.600	curated
4	replicate-musicgen-melody	replicate	0.550	0.550	curated
5	replicate-riffusion	replicate	0.450	0.450	curated

Full deep dive — all 5 models, every test result & artifact →

music_generation_vocal3 models · top: suno-v5.5 (suno) 0.950 curated

#	Model	Provider	Adj. Score	Raw	Evidence
1	suno-v5.5	suno	0.950	0.950	curated
2	udio-v1	udio	0.400	0.400	curated
3	musicgen-vocal	fal	0.300	0.300	curated

Full deep dive — all 3 models, every test result & artifact →

Vision Understanding · 6 niches

vision_chart_reading12 models · top: openai/gpt-4o-mini (openai) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	openai/gpt-4o-mini	openai	0.150	1.000	prov. n≤1
2	openai/gpt-4o	openai	0.150	1.000	prov. n≤1
3	openai/gpt-4.1	openai	0.150	1.000	prov. n≤1
4	openai/gpt-5.1	openai	0.150	1.000	prov. n≤1
5	openai/gpt-5-nano	openai	0.150	1.000	prov. n≤1
6	google/gemini-2.5-flash	google_gemini	0.150	1.000	prov. n≤1
7	xai/grok-4	xai	0.150	1.000	prov. n≤1
8	anthropic/claude-haiku-4-5-20251001	anthropic	0.000	0.000	prov. n≤1
9	anthropic/claude-sonnet-4-6	anthropic	0.000	0.000	prov. n≤1
10	anthropic/claude-opus-4-7	anthropic	0.000	0.000	prov. n≤1
11	google/gemini-2.5-pro	google_gemini	0.000	0.000	prov. n≤1
12	anthropic/claude-haiku-4-5	anthropic	0.000	0.000	prov. n≤1

Full deep dive — all 12 models, every test result & artifact →

vision_document_understanding12 models · top: openai/gpt-4o-mini (openai) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	openai/gpt-4o-mini	openai	0.150	1.000	prov. n≤1
2	openai/gpt-4o	openai	0.150	1.000	prov. n≤1
3	google/gemini-2.5-flash	google_gemini	0.150	1.000	prov. n≤1
4	xai/grok-4	xai	0.150	1.000	prov. n≤1
5	anthropic/claude-haiku-4-5-20251001	anthropic	0.000	0.000	prov. n≤1
6	anthropic/claude-sonnet-4-6	anthropic	0.000	0.000	prov. n≤1
7	anthropic/claude-opus-4-7	anthropic	0.000	0.000	prov. n≤1
8	openai/gpt-4.1	openai	0.000	0.000	prov. n≤1
9	openai/gpt-5.1	openai	0.000	0.000	prov. n≤1
10	openai/gpt-5-nano	openai	0.000	0.000	prov. n≤1
11	google/gemini-2.5-pro	google_gemini	0.000	0.000	prov. n≤1
12	anthropic/claude-haiku-4-5	anthropic	0.000	0.000	prov. n≤1

Full deep dive — all 12 models, every test result & artifact →

vision_general_caption12 models · top: openai/gpt-4o-mini (openai) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	openai/gpt-4o-mini	openai	0.150	1.000	prov. n≤1
2	openai/gpt-4o	openai	0.150	1.000	prov. n≤1
3	openai/gpt-4.1	openai	0.150	1.000	prov. n≤1
4	openai/gpt-5.1	openai	0.150	1.000	prov. n≤1
5	openai/gpt-5-nano	openai	0.150	1.000	prov. n≤1
6	google/gemini-2.5-flash	google_gemini	0.075	0.500	prov. n≤1
7	xai/grok-4	xai	0.075	0.500	prov. n≤1
8	anthropic/claude-haiku-4-5-20251001	anthropic	0.000	0.000	prov. n≤1
9	anthropic/claude-sonnet-4-6	anthropic	0.000	0.000	prov. n≤1
10	anthropic/claude-opus-4-7	anthropic	0.000	0.000	prov. n≤1
11	google/gemini-2.5-pro	google_gemini	0.000	0.000	prov. n≤1
12	anthropic/claude-haiku-4-5	anthropic	0.000	0.000	prov. n≤1

Full deep dive — all 12 models, every test result & artifact →

vision_object_count12 models · top: anthropic/claude-haiku-4-5-20251001 (anthropic) 0.000 prov. n≤1

#	Model	Provider	Evidence
1	anthropic/claude-haiku-4-5-20251001	anthropic	prov. n≤1
2	anthropic/claude-sonnet-4-6	anthropic	prov. n≤1
3	anthropic/claude-opus-4-7	anthropic	prov. n≤1
4	openai/gpt-4o-mini	openai	prov. n≤1
5	openai/gpt-4o	openai	prov. n≤1
6	openai/gpt-4.1	openai	prov. n≤1
7	openai/gpt-5.1	openai	prov. n≤1
8	openai/gpt-5-nano	openai	prov. n≤1
9	google/gemini-2.5-flash	google_gemini	prov. n≤1
10	google/gemini-2.5-pro	google_gemini	prov. n≤1
11	xai/grok-4	xai	prov. n≤1
12	anthropic/claude-haiku-4-5	anthropic	prov. n≤1

Full deep dive — all 12 models, every test result & artifact →

vision_ocr12 models · top: openai/gpt-4o-mini (openai) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	openai/gpt-4o-mini	openai	0.150	1.000	prov. n≤1
2	openai/gpt-4.1	openai	0.150	1.000	prov. n≤1
3	openai/gpt-5.1	openai	0.150	1.000	prov. n≤1
4	xai/grok-4	xai	0.150	1.000	prov. n≤1
5	google/gemini-2.5-flash	google_gemini	0.075	0.500	prov. n≤1
6	anthropic/claude-haiku-4-5-20251001	anthropic	0.000	0.000	prov. n≤1
7	anthropic/claude-sonnet-4-6	anthropic	0.000	0.000	prov. n≤1
8	anthropic/claude-opus-4-7	anthropic	0.000	0.000	prov. n≤1
9	openai/gpt-4o	openai	0.000	0.000	prov. n≤1
10	openai/gpt-5-nano	openai	0.000	0.000	prov. n≤1
11	google/gemini-2.5-pro	google_gemini	0.000	0.000	prov. n≤1
12	anthropic/claude-haiku-4-5	anthropic	0.000	0.000	prov. n≤1

Full deep dive — all 12 models, every test result & artifact →

vision_spatial_reasoning12 models · top: openai/gpt-4.1 (openai) 0.150 prov. n≤1

#	Model	Provider	Adj. Score	Raw	Evidence
1	openai/gpt-4.1	openai	0.150	1.000	prov. n≤1
2	openai/gpt-5.1	openai	0.150	1.000	prov. n≤1
3	openai/gpt-4o-mini	openai	0.075	0.500	prov. n≤1
4	openai/gpt-4o	openai	0.075	0.500	prov. n≤1
5	google/gemini-2.5-flash	google_gemini	0.075	0.500	prov. n≤1
6	xai/grok-4	xai	0.075	0.500	prov. n≤1
7	anthropic/claude-haiku-4-5-20251001	anthropic	0.000	0.000	prov. n≤1
8	anthropic/claude-sonnet-4-6	anthropic	0.000	0.000	prov. n≤1
9	anthropic/claude-opus-4-7	anthropic	0.000	0.000	prov. n≤1
10	openai/gpt-5-nano	openai	0.000	0.000	prov. n≤1
11	google/gemini-2.5-pro	google_gemini	0.000	0.000	prov. n≤1
12	anthropic/claude-haiku-4-5	anthropic	0.000	0.000	prov. n≤1

Full deep dive — all 12 models, every test result & artifact →

How routing works

Unknown or newly-phrased niches resolve to the nearest scored niche (semantic + lexical), or are flagged genuinely new and queued for benchmarking. See Routing & Audit.