Őszinte, részletes technikai cikkek a DocAI fejlesztéséből: LLM inference tuning, GPU optimalizáció, dokumentumfeldolgozó pipeline-ok, vállalati MI architektúra. Negatív eredmények és tanulságok is. Hetente új poszt.
Kétnapos vLLM + Triton MoE tuning maraton a DGX Sparkon, Qwen3.5-35B-A3B-FP8 modellel. A végén a production config 5-7%-kal rosszabb lett. Mit tanultam a pure-kernel vs serving benchmark különbségéről — és hat konkrét tanulság, amit átvehetsz.
A következő cikk már készül. Ha nem akarsz lemaradni, iratkozz fel a kapcsolati űrlapon keresztül, vagy nézz vissza jövő héten.