Tagged "moe-models"

JetBrains Releases Mellum2: A 12B MoE Model for Fast, Specialized Tasks 2 June 2026
Dynamic Expert Cache in llama.cpp Achieves 27% Faster Inference on Large MoE Models 15 April 2026
Homelab Consolidation: Replacing 3 Models with Single 122B MoE Model on AMD Ryzen AI MAX+ 27 March 2026
Liquid AI's LFM2-24B Achieves 50 Tokens/Second in Web Browser via WebGPU 26 March 2026
New Open-Weight Models Released: GigaChat-3.1-Ultra and Lightning Variants 25 March 2026
Comprehensive MoE Backend Benchmarks for Qwen3.5-397B: Real Numbers vs Hype 12 March 2026
Krasis Hybrid MoE Runtime Achieves 3,324 tok/s Prefill on Single RTX 5080 28 February 2026