Engineering blog

Mélyfúrások a gépházból

Őszinte, részletes technikai cikkek a DocAI fejlesztéséből: LLM inference tuning, GPU optimalizáció, dokumentumfeldolgozó pipeline-ok, vállalati MI architektúra. Negatív eredmények és tanulságok is. Hetente új poszt.

Esettanulmány · · ~6 perc

„Új munkatárs, aki nem kér enni” — A Gree Magyarország DocAI története

Hogyan lett több napos jóváhagyási folyamatból napon belüli ügymenet a szarvasi székhelyű Gree Magyarországnál? Napi 30–70 irat, négy közhiteles forrás automatikus partnerellenőrzése, 1+ óra napi megtakarítás csak az utaláson, 3–4 hónapos megtérülés — első ügyfelünk őszinte tapasztalataival.

Engineering · · ~16 perc

Gemma4-et néztem, MTP-t találtam

Gemma4 candidate eval a DocAI magyar számla KIE corpuson: F1 0.890 vs Qwen3.6 1.000, single-stream decode 30-80%-kal lassabb. De a sebesség-mérés mellékterméke felfedte, hogy az MTP acceptance rate JSON-KIE workloadon 99% — az előző cikk 72.5%-os globális száma ezt teljesen elrejtette. A DocAI workload az MTP architekturális best case-e.

Engineering · · ~18 perc

122B-os modell egy DGX Sparkon: élesben mérve

Qwen3.5-122B-A10B NVFP4 single Sparkon, vLLM 0.19.2-vel, MTP-vel: 30 tok/s JSON-KIE 100% MTP acceptance-szel, 64 tok/s aggregate 4 párhuzamos felhasználón — és a stress test, ahol a Spark megtörik a 100K-s párhuzamos kontextusoknál. Production-relevant memory budget, prefix caching és a végén egy őszinte konklúzió: érdemes-e DocAI-be tenni.

Engineering · · ~15 perc

A Qwen3.6 ott hozott, ahol nem kellett volna

Qwen3.6-35B-A3B-FP8 + MTP (multi-token prediction) benchmark DGX Sparkon, GB10 chipen. A vanilla modell ugyanolyan gyors mint a 3.5, de a 16-concurrent stress teszten az MTP +24% throughput-ot és −56% TTFT-t adott — pont ott, ahol a spec decoding elméletileg negatív kellett volna legyen. A unified memory architektúra és a spec decoding váratlan szimbiózisa.

Engineering · · ~12 perc

Két nap, hat óra Triton tuning, egy GB10, és egy nagy semmi

Kétnapos vLLM + Triton MoE tuning maraton a DGX Sparkon, Qwen3.5-35B-A3B-FP8 modellel. A végén a production config 5-7%-kal rosszabb lett. Mit tanultam a pure-kernel vs serving benchmark különbségéről — és hat konkrét tanulság, amit átvehetsz.

Hamarosan

Heti rendszerességgel új posztok érkeznek

A következő cikk már készül. Ha nem akarsz lemaradni, iratkozz fel a kapcsolati űrlapon keresztül, vagy nézz vissza jövő héten.