vision_classify

Modality: llm_chat · full deep dive — every ranked model, test result, and artifact.

Models

Benchmark Results

Media Artifacts

Resolutions

Ranked Models

Ranked by confidence-adjusted score (single/zero-sample, non-curated scores floored; curated empirical scores trusted as-is).

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	anthropic	0.120	0.800	provisional (n≤1)
2	claude-haiku-4-5-20251001	anthropic	0.117	0.780	provisional (n≤1)
3	gpt-4o	openai	0.112	0.750	provisional (n≤1)
4	gemini-2.5-pro	google_gemini	0.108	0.720	provisional (n≤1)
5	gpt-4o-mini	openai	0.105	0.700	provisional (n≤1)
6	gemini-2.5-flash	google_gemini	0.102	0.680	provisional (n≤1)

No benchmark outputs recorded for this niche yet.