code_conventions

Modality: llm_chat · full deep dive — every ranked model, test result, and artifact.

Models

Benchmark Results

Media Artifacts

Resolutions

Ranked Models

Ranked by confidence-adjusted score (single/zero-sample, non-curated scores floored; curated empirical scores trusted as-is).

#	Model	Provider	Adj. Score	Raw	Evidence
1	claude-sonnet-4-6	anthropic	0.920	0.920	curated
2	claude-opus-4-6	anthropic	0.840	0.840	curated
3	deepseek-reasoner	deepseek	0.700	0.700	curated
4	gpt-5.3-codex-spark::think=deep	codex	0.382	0.700	n=6
5	codex-auto-review	codex	0.286	0.525	n=6
6	gpt-5.3-codex-spark::think=fast	codex	0.286	0.525	n=6
7	gpt-5.4-mini	codex	0.000	0.000	n=50
8	gpt-5.3-codex-spark	codex	0.000	0.000	n=50

No benchmark outputs recorded for this niche yet.

Requests semantically routed into this niche.

Requested	Method	Confidence	When
`code`	semantic	0.605	2026-06-29 22:31
`code_cleanup`	semantic	0.623	2026-05-20 17:27
`code_refactor`	semantic	0.576	2026-05-20 17:27
`code_refactor`	semantic	0.576	2026-05-20 17:26
`code_refactor`	semantic	0.576	2026-05-20 17:26
`code_cleanup`	lexical	0.775	2026-05-20 17:23
`code_writing`	lexical	0.775	2026-05-20 17:23
`code_refactor`	lexical	0.775	2026-05-20 17:23