DocAI – Intelligens Dokumentumfeldolgozás és Keresés

Pipeline

A feldolgozás 8 szakasza

Minden dokumentum egy többlépcsős, AI-vezérelt folyamaton halad végig — a biztonságos belépéstől a releváns találatok visszaadásáig.

Jogosultságkezelés és szűrés

🔐

Biztonsági szűrés és hozzáférés-kezelés biztosítása a keresési és ügynöki funkciók számára. A Passport rendszer JSON-alapú jogosultságkezelést valósít meg.

Bemenet Keresési kifejezés + Passport JSON

→

Kimenet Szűrt dokumentum ID lista

Passport JSON Search microservice tenant, orga, user id doc type id, directory

Alap dokumentumfeldolgozás

📝

Karakterfelismerés és kereshető szövegréteg létrehozása a pontos illeszkedéshez. Az OCR technológia fizikai és digitális dokumentumokat egyaránt kezel.

Bemenet Fizikai vagy digitális dokumentum

→

Kimenet Szövegréteg (Full text)

OCR Dokit (alaprendszer) Pontos szöveges illeszkedés

Szöveg normalizálás

📋

Szétszórt szövegek struktúrába rendezése, zajszavak és redundáns karakterek eltávolítása. Markdown generálás és zajszűrés biztosítja a tiszta, strukturált szöveget.

Bemenet OCR-ezett szöveg

→

Kimenet Normalizált Markdown dokumentum

Markdown generálás Zajszűrés Pipeline szerviz

Irattípus felismerés

🧠

Automatikus irattípus meghatározás a megfelelő adatkinyerési sablonhoz. A gépi tanulási modell 6144 dimenziós vektoros ujjlenyomatot használ a pontos kategorizáláshoz.

Bemenet 6144 dimenziós vektor (ujjlenyomat)

→

Kimenet Dokumentum típus (pl. számla)

Machine Learning Snapshot ujjlenyomat ML szerviz Küszöb: 0,9 – 0,95

Strukturált adatkinyerés

⚡

Kulcsadatok — például adószám, végösszeg, nevek — kinyerése különböző szinteken. Regex, Named Entity Recognition és LLM együttes alkalmazásával.

Bemenet Normalizált Markdown szöveg

→

Kimenet Key-Value párok (strukturált mezők)

Regex NER LLM Extraction Pipeline geolokáció, org, személy

Rugalmas (Elasztikus) keresés

🔍

Laza hasonlóságok és karakterelírások kezelése a keresési folyamat során. Az Elasticsearch / OpenSearch motor biztosítja a rugalmas szöveges keresést.

Bemenet Normalizált szöveg

→

Kimenet Indexelt dokumentumok

Elasticsearch OpenSearch OpenSearch Hasonlósági keresés

Szemantikus keresés

💡

Értelem és kontextus alapú keresés, szinonimák és jelentéstartalom kezelése. A vektorizálás és a nagy nyelvi modell (LLM) biztosítja a mélyebb szövegértést.

Bemenet Feldarabolt dokumentum részek

→

Kimenet Vektoros reprezentáció

Vektorizálás LLM Qdrant Kontextus figyelés

Hibrid keresés (RAG előkészítés)

🎯

A két keresési mód találatainak egyesítése és a legrelevánsabb eredmények visszaadása. A rendszer a Top 30 találatból kiválasztja a 10 legpontosabbat.

Bemenet Elasztikus és szemantikus találatok

→

Kimenet Top 10 rangsorolt találat

Eredmény-összerendezés Search microservice (Spark) Top 30 → Top 10

Technológiák

A platform mögött álló technológiák

Korszerű AI és keresési megoldások integrált alkalmazása — a karakter-felismeréstől a vektoros szemantikus keresésig.

📝

OCR

Optikai karakterfelismerés fizikai és digitális dokumentumokhoz

📋

Markdown

Strukturált szöveg generálás zajszűréssel és normalizálással

🧠

Machine Learning

6144 dimenziós vektoros irattípus-felismeréshez

⚙️

Regex & NER

Mintaillesztés és Named Entity Recognition adatkinyeréshez

🤖

LLM

Nagy nyelvi modellek kontextus-alapú szövegértelmezéshez

🔍

Elasticsearch

Rugalmas szöveges keresés elírás-tűréssel és hasonlósággal

💎

Qdrant

Vektor adatbázis szemantikus kereséshez és kontextus-figyeléshez

🔐

Passport

JSON-alapú jogosultságkezelés tenant- és szervezeti szinten

⚡

Spark

Nagy teljesítményű eredmény-összerendezés hibrid kereséshez

🎯

RAG Pipeline

Retrieval-Augmented Generation a legpontosabb válaszokért

Intelligens
Dokumentumfeldolgozás
és Keresés

A dokumentumfeldolgozás teljes életciklusa