RANKINGS

LLM Leaderboard rankings. Compare large language models by IFEval, BBH, MATH, GPQA, MuSR, and MMLU-Pro benchmark scores.

Showing 1–20 of 4,675

#	Model
1	kimi-k2.5/kimi-k2.5	77.3%	—	87.6%	—	—	—	—
2	kimi-k2.6/kimi-k2.6	74.7%	—	90.5%	—	—	—	—
3	kimi-k2-thinking-0905/kimi-k2-thinking-0905	73.4%	—	84.5%	—	—	—	—
4	qwen3.5-122b-a10b/qwen3.5-122b-a10b	72.3%	—	86.6%	—	—	—	—
5	qwen3.5-27b/qwen3.5-27b	71.4%	—	85.5%	—	—	—	—
6	qwen3.5-35b-a3b/qwen3.5-35b-a3b	70.3%	—	84.2%	—	—	—	—
7	qwen3.5-397b-a17b/qwen3.5-397b-a17b	70.2%	—	88.4%	—	—	—	—
8	glm-4.7/glm-4.7	70.0%	—	85.7%	—	—	—	—
9	deepseek-v3.2/deepseek-v3.2	68.2%	—	82.4%	—	—	—	—
10	longcat-flash-thinking-2601/longcat-flash-thinking-2601	66.4%	—	80.5%	—	—	—	—
11	mimo-v2-flash/mimo-v2-flash	66.3%	—	83.7%	—	—	—	—
12	deepseek-reasoner/deepseek-reasoner	65.0%	—	82.4%	—	—	—	—
13	minimax-m2.1/minimax-m2.1	62.6%	—	81.0%	—	—	—	—
14	glm-4.6/glm-4.6	61.0%	—	81.0%	—	—	—	—
15	deepseek-v3.2-exp/deepseek-v3.2-exp	59.4%	—	79.9%	—	—	—	—
16	glm-4.7-flash/glm-4.7-flash	56.6%	—	75.2%	—	—	—	—
17	minimax-m2/minimax-m2	56.4%	—	78.0%	—	—	—	—
18	sarvam-105b/sarvam-105b	56.2%	—	78.7%	—	—	—	—
19	nemotron-3-super-120b-a12b/nemotron-3-super-120b-a12b	56.1%	—	82.7%	—	—	—	—
20	MaziyarPanahi/calme-3.2-instruct-78bQwen2ForCausalLM · bfloat16	52.1%	62.6%	20.4%	80.6%	40.3%	70.0%	38.5%

…