[r/LocalLLaMA]score: 0.18

Dense Model Shoot-Off: Gemma 4 31B vs Qwen3.6/5 27B... Result is Slower is Faster.

May 5, 2026

Dense Model Shoot-Off: Gemma 4 31B vs Qwen3.5/3.6 27B... Result is Slower is Faster. Kaitchup's benchmark pits google/gemma-4-31B-it against Qwen3.5-27B and Qwen3.6-27B across 12 tasks including AIME25, HumanEval near-perfect 1.0, and MATH500 at 0.97. Qwen models show benchmark-optimized scores, but Gemma 4 31B demonstrates superior token efficiency, meaning fewer tokens per completed task despite slower raw inference speed. Practitioners running agentic or long-context workloads should prioritize Gemma 4 31B now, with FlashAttention and MTP optimizations still incoming.

resources

SOURCE

https://open.substack.com/pub/kaitchup/p/qwen36-27b-vs-qwen35-27b-vs-gemma?r=5hbmbz&utm_campaign=post-expanded-share&utm_medium=post%20viewer

← back to feed