AI Tier List
Classic tier list format. Your hardware vs every model.
Detecting...
Scanning hardware...
FitMyLLM | 8GB VRAM | 272 GB/s • fitmyllm.com/tier
S
LFM2.5-1.2B-Thinking1.2B
0.7GB9%•122K ctx•~181 t/s
DeepSeek Coder 1.3B1.3B
1.2GB15%•16K ctx•~167 t/s
GPT-2 XL 1.5B1.5B
1.3GB16%•1K ctx•~145 t/s
TinyLlama-1.1B1.1B
1.1GB14%•2K ctx•~198 t/s
TinyLlama 1.1B1.1B
1.1GB14%•2K ctx•~198 t/s
Llama-3.2-1B1.2B
1.2GB15%•4K ctx•~181 t/s
OPT 1.3B1.3B
1.2GB15%•2K ctx•~167 t/s
Phi-1 1.3B1.3B
1.2GB15%•2K ctx•~167 t/s
Phi-1.5 1.3B1.3B
1.2GB15%•2K ctx•~167 t/s
Qwen2.5-Coder-1.5B1.5B
1.3GB17%•32K ctx•~145 t/s
Qwen2 Math 1.5B1.5B
1.3GB17%•4K ctx•~145 t/s
Qwen 2.5 1.5B1.5B
1.3GB17%•32K ctx•~145 t/s
Qwen3 1.7B1.7B
1.4GB17%•32K ctx•~128 t/s
SmolLM2 1.7B1.71B
1.4GB18%•8K ctx•~127 t/s
stablelm-2-1_6b1.6B
1.4GB17%•4K ctx•~136 t/s
Yi Coder 1.5B1.5B
1.3GB17%•125K ctx•~145 t/s
Moondream2 1.9B1.9B
1.4GB17%•2K ctx•~115 t/s
Gemma 1 2B2B
1.6GB20%•8K ctx•~109 t/s
Granite 3.0 2B2B
1.6GB20%•128K ctx•~109 t/s
Granite 3.1 2B2B
1.6GB20%•128K ctx•~109 t/s
Qwen 1.5 1.8B1.8B
1.5GB19%•32K ctx•~121 t/s
Qwen2-VL 2B2.21B
1.7GB21%•32K ctx•~98 t/s
CodeGemma 2B2.51B
1.9GB23%•8K ctx•~87 t/s
Qwen3.5-2B2.3B
1.8GB22%•256K ctx•~95 t/s
Dolly v2 3B2.8B
2.0GB25%•2K ctx•~78 t/s
Gemma 2 2B2.61B
1.9GB24%•8K ctx•~83 t/s
OPT 2.7B2.7B
2.0GB24%•2K ctx•~81 t/s
Phi-2 2.7B2.7B
2.0GB25%•2K ctx•~81 t/s
StableLM Zephyr 3B2.79B
2.0GB25%•4K ctx•~78 t/s
Zephyr 3B2.79B
2.0GB25%•4K ctx•~78 t/s
Falcon3-3B3.1B
2.2GB27%•32K ctx•~70 t/s
Ministral 3B3B
2.1GB27%•128K ctx•~73 t/s
Qwen 2.5 3B3.1B
2.2GB28%•32K ctx•~70 t/s
StarCoder2 3B3B
2.2GB27%•16K ctx•~73 t/s
SmolLM3 3B3B
2.2GB27%•125K ctx•~73 t/s
Nemotron 3 Nano 4B3.97B
2.2GB28%•256K ctx•~55 t/s
Llama-3.2-3B3.2B
2.3GB29%•4K ctx•~68 t/s
phi-3-mini-4k 3.8B3.8B
2.6GB33%•4K ctx•~57 t/s
Phi-4-mini 3.8B3.8B
2.6GB33%•125K ctx•~57 t/s
Phi-3.5 Mini 3.8B3.82B
2.6GB32%•128K ctx•~57 t/s
Qwen2.5-VL-3B3.8B
2.6GB33%•125K ctx•~57 t/s
Gemma 3 4B4.3B
2.9GB36%•128K ctx•~51 t/s
Qwen 1.5 4B4B
2.7GB34%•32K ctx•~54 t/s
Qwen3 4B4B
2.7GB34%•32K ctx•~54 t/s
TranslateGemma 4B4B
2.9GB36%•128K ctx•~54 t/s
MedGemma 1.5 4B4B
2.9GB36%•128K ctx•~54 t/s
B
Yi 6B6B
3.9GB48%•4K ctx•~36 t/s
Yi-1.5 6B6.06B
3.9GB49%•4K ctx•~36 t/s
Yi-6B6.1B
3.9GB49%•4K ctx•~36 t/s
Gemma 3n E2B6B
3.9GB48%•32K ctx•~36 t/s
DeepSeek Coder 6.7B6.7B
4.3GB53%•16K ctx•~32 t/s
CodeLlama-7b6.7B
4.3GB53%•4K ctx•~32 t/s
OPT 6.7B6.7B
4.3GB53%•2K ctx•~32 t/s
Dolly v2 7B6.9B
4.4GB55%•2K ctx•~32 t/s
Alpaca 7B7B
4.4GB55%•2K ctx•~31 t/s
BLOOMZ 7B7.1B
4.5GB56%•2K ctx•~31 t/s
Command-R7B7B
4.4GB55%•128K ctx•~31 t/s
Gemma 1 7B7B
4.4GB55%•8K ctx•~31 t/s
Llama 2 7B7B
4.4GB55%•4K ctx•~31 t/s
CodeLlama 7B7B
4.4GB55%•16K ctx•~31 t/s
Vicuna 7B7B
4.4GB55%•4K ctx•~31 t/s
LLaMA 1 7B7B
4.4GB55%•2K ctx•~31 t/s
MPT-7B7B
4.4GB55%•64K ctx•~31 t/s
OpenChat 3.5 7B7B
4.4GB55%•8K ctx•~31 t/s
Orca 2 7B7B
4.4GB55%•4K ctx•~31 t/s
Neural Chat 7B7B
4.4GB55%•8K ctx•~31 t/s
Nous Hermes 2 7B7B
4.4GB55%•8K ctx•~31 t/s
WizardLM 2 7B7B
4.4GB55%•32K ctx•~31 t/s
InternLM 2 7B7B
4.4GB55%•32K ctx•~31 t/s
Qwen 1.5 7B7B
4.4GB55%•32K ctx•~31 t/s
Qwen2 Math 7B7B
4.4GB55%•4K ctx•~31 t/s
StarCoder2 7B7B
4.4GB55%•16K ctx•~31 t/s
WizardLM 7B7B
4.4GB55%•2K ctx•~31 t/s
MiMo 7B7B
4.4GB55%•32K ctx•~31 t/s
OLMo 3 7B7B
4.4GB55%•32K ctx•~31 t/s
Granite 4.0 Tiny7B
4.4GB55%•125K ctx•~31 t/s
Janus-Pro 7B7.3B
4.6GB57%•4K ctx•~30 t/s
falcon-7b7.2B
4.5GB57%•4K ctx•~30 t/s
LLaVA-1.6 Mistral 7B7.2B
4.5GB57%•8K ctx•~30 t/s
Mistral-7B7.2B
4.5GB57%•32K ctx•~30 t/s
MathStral 7B7.25B
4.6GB57%•32K ctx•~30 t/s
Mistral 7B v0.17.25B
4.6GB57%•32K ctx•~30 t/s
OpenHermes 2.5 7B7.25B
4.6GB57%•32K ctx•~30 t/s
starcoder2-7b7.2B
4.5GB57%•16K ctx•~30 t/s
zephyr-7b-beta7.2B
4.5GB57%•32K ctx•~30 t/s
LLaVA-1.6 Mistral 7B7B
5.1GB63%•4K ctx•~31 t/s
BakLLaVA 7B7B
5.0GB62%•4K ctx•~31 t/s
DeepSeek R1 Distill Qwen 7B7.6B
4.8GB60%•128K ctx•~29 t/s
Falcon3-7B7.5B
4.7GB59%•32K ctx•~29 t/s
Qwen2.5-7B7.6B
4.8GB60%•32K ctx•~29 t/s
Qwen2.5-Coder-7B7.6B
4.8GB60%•32K ctx•~29 t/s
DeepSeek-R1-Distill-Qwen-7B7.6B
4.8GB60%•128K ctx•~29 t/s
Qwen 2.5 7B7.6B
4.8GB60%•128K ctx•~29 t/s
Qwen 2.5 Coder 7B7.6B
4.8GB60%•128K ctx•~29 t/s
InternLM2.5 7B7.74B
4.8GB61%•1024K ctx•~28 t/s
Aya Expanse 8B8B
5.0GB62%•128K ctx•~27 t/s
DeepSeek R1 Distill Llama 8B8B
5.0GB62%•128K ctx•~27 t/s
Llama-3.1-8B8B
5.0GB62%•128K ctx•~27 t/s
Dolphin Llama 3 8B8B
5.0GB62%•8K ctx•~27 t/s
Llama 3 8B8B
5.0GB62%•8K ctx•~27 t/s
Ministral-8B8B
5.0GB62%•32K ctx•~27 t/s
Ministral 8B8B
5.0GB62%•128K ctx•~27 t/s
Granite 8B8B
5.0GB62%•8K ctx•~27 t/s
Gemma 3n E4B8B
5.0GB62%•32K ctx•~27 t/s
Nemotron-H 8B8B
5.0GB62%•125K ctx•~27 t/s
Granite 3.0 8B8.17B
5.1GB64%•128K ctx•~27 t/s
Granite 3.1 8B8.17B
5.1GB64%•128K ctx•~27 t/s
Qwen3 8B8.2B
5.1GB64%•32K ctx•~27 t/s
Qwen2-VL 7B8.29B
5.2GB64%•32K ctx•~26 t/s
Qwen2.5-VL-7B8.3B
5.2GB64%•125K ctx•~26 t/s
MiniCPM-V 2.6 8B8B
5.5GB68%•8K ctx•~27 t/s
C
CodeGemma 7B8.54B
5.3GB66%•8K ctx•~25 t/s
InternVL2 8B8B
5.7GB71%•8K ctx•~27 t/s
Yi 1.5 9B9B
5.6GB69%•4K ctx•~24 t/s
Yi Coder 9B9B
5.6GB69%•125K ctx•~24 t/s
Yi-1.5 9B9B
5.6GB69%•4K ctx•~24 t/s
Qwen 3.5 9B9B
5.6GB69%•256K ctx•~24 t/s
gemma-2-9b9.2B
5.7GB71%•4K ctx•~24 t/s
glm-4-9b9.4B
5.8GB72%•128K ctx•~23 t/s
Qwen3.5-9B9.7B
5.9GB74%•256K ctx•~22 t/s
Falcon3-10B10.3B
6.3GB79%•32K ctx•~21 t/s
Llama-3.2-11B-Vision10.7B
6.5GB81%•128K ctx•~20 t/s
SOLAR 10.7B10.7B
6.5GB81%•4K ctx•~20 t/s
Falcon2 11B11B
6.7GB83%•8K ctx•~20 t/s
D
Dolly v2 12B12B
7.2GB90%•2K ctx•~18 t/s
gemma-3-12b12B
7.2GB90%•128K ctx•~18 t/s
StableLM 2 12B12B
7.2GB90%•4K ctx•~18 t/s
Gemma 3 12B12.2B
7.4GB92%•128K ctx•~18 t/s
Mistral-Nemo 12.2B12.2B
7.4GB92%•128K ctx•~18 t/s
Llama-3.2-11B-Vision-Instruct11B
7.8GB98%•128K ctx•~20 t/s
TranslateGemma 12B12B
7.4GB92%•128K ctx•~18 t/s
Pixtral 12B12B
8.0GB100%•128K ctx•~18 t/s
CodeLlama-13b13B
7.8GB98%•4K ctx•~17 t/s
Llama 2 13B13B
7.8GB98%•4K ctx•~17 t/s
CodeLlama 13B13B
7.8GB98%•16K ctx•~17 t/s
Vicuna 13B13B
7.8GB98%•4K ctx•~17 t/s
LLaMA 1 13B13B
7.8GB98%•2K ctx•~17 t/s
OPT 13B13B
7.8GB98%•2K ctx•~17 t/s
Orca 2 13B13B
7.8GB98%•4K ctx•~17 t/s
WizardLM 13B13B
7.8GB98%•4K ctx•~17 t/s
Phi-3-medium-14b14B
8.4GB105%•4K ctx•~16 t/s
phi-4 14B14B
8.4GB105%•16K ctx•~16 t/s
Phi-4-reasoning 14B14B
8.4GB105%•32K ctx•~16 t/s
Phi-4-multimodal 14B14B
8.4GB105%•128K ctx•~16 t/s
Qwen 1.5 14B14B
8.4GB105%•32K ctx•~16 t/s
Ministral 3 14B14B
8.4GB105%•256K ctx•~16 t/s
DeepSeek R1 Distill Qwen 14B14.8B
8.8GB110%•128K ctx•~15 t/s
DeepCoder 14B14.8B
8.8GB110%•128K ctx•~15 t/s
Qwen2.5-Coder-14B14.8B
8.8GB110%•32K ctx•~15 t/s
Qwen2.5-14B14.8B
8.8GB110%•128K ctx•~15 t/s
Qwen3 14B14.8B
8.8GB110%•32K ctx•~15 t/s
StarCoder2 15B15B
8.9GB112%•16K ctx•~15 t/s
LLaVA-1.6 Vicuna 13B13B
8.7GB109%•4K ctx•~17 t/s
DeepSeek-VL2 Small 16B15.7B
9.6GB120%•4K ctx•~14 t/s
DeepSeek V2 Lite 16B16B
9.5GB119%•31K ctx•~14 t/s
StarCoder 15B15.5B
9.5GB119%•8K ctx•~14 t/s
InternLM2 20B19.8B
11.9GB149%•32K ctx•~11 t/s
InternLM2.5 20B19.8B
11.9GB149%•1024K ctx•~11 t/s
Codestral 22B22.2B
13.3GB166%•32K ctx•~10 t/s
Devstral Small 22B22.2B
13.3GB166%•128K ctx•~10 t/s
Mistral Small 22B22.2B
13.3GB166%•32K ctx•~10 t/s
SOLAR-Pro 22B22.1B
13.2GB165%•4K ctx•~10 t/s
Mistral-Small-24B24B
14.0GB175%•32K ctx•~9 t/s
Mistral-Small-3.1-24B24B
14.0GB175%•128K ctx•~9 t/s
gemma-2-27b27.2B
15.8GB197%•4K ctx•~8 t/s
Q4_K_M quantizationS Runs greatA Runs wellB DecentC Tight fitD Barely runsF Too heavy
create your own at fitmyllm.com/tier • Based on Q4_K_M quantization. Your actual results may vary.