實測 Gemma 4:地端模型部署的踩坑紀錄
Gemma 4 是 Google 2026 年的最新多模態開源模型,特點是混合專家架構(MoE)讓 26B 參數版本只需 18GB VRAM。
而把剛出爐的 Gemma 4 (gemma4:26b)硬塞進單張 24G VRAM 比想像中困難了不少XD,實測的過程撞到了一堆完全不同的 VRAM OOM錯誤,記錄一下這篇血淚踩坑史整理了在量化、快取與 Tokenizer 上遇到的衝突,或是一些Olla
jh5-pulse.hashnode.dev8 min read