A projekt célja
A FreeSoft Rt., amelynek Contentum nevű tartalomkezelési alkalmazáscsomagja piacvezető a közigazgatási irat- és dokumentumkezelési területen, jelentős erőfeszítéseket tesz, hogy termékeinek és szolgáltatásainak színvonalát K+F projektek eredményeként megvalósítható lehetőségekkel bővítse.
A törekvés jegyében pályázott és nyert a cég a GVOP 3.3.3. program keretében 45 %-os mértékű támogatást a speciális, karakterhibákat toleráló, teljes szövegű kereső eljárások, valamint a dokumentumok szöveges tartalmából a dokumentumot (iratot) jellemző, osztályozó metaadatokat automatikusan kivonatoló megoldás kialakítására. A projekt 2006. június 1-el kezdődött és a tervek szerint 2007. október 5.-éig tart.
A közvetlen célokon túlra tekintve a projekt végső soron a FreeSoft Nyrt. CONTENTUM rendszere versenyképességének fokozását szolgálja, mert mind a hibatűrő keresés, mind a metaadat-kivonatolás a CONTENTUM csomag eRecord és eDocument moduljaiban lesz hasznosítva.
A projekt jelentős kutatási tevékenységet feltételez, amellyel a FreeSoft az MTA SZTAKI Elosztott Rendszerek Osztályát bízta meg.
Hibatűrő, teljes szövegű keresés
Az elektronikus iratkezelő illetve dokumentumkezelő rendszerek használatánál még sokáig alapkövetelmény lesz az elektronikus és a papíralapú dokumentumok kezelésének egyidejű támogatása. Ilyen körülmények között a papírmentes iroda minél teljesebb mértékű megközelítése a papíralapú dokumentumok utólagos digitalizálásával (szkennelés + OCR) érhető el. Mindenütt, ahol nagy mennyiségű nyomtatott dokumentumot kell digitalizálni, különös érdeklődésre tartanak számot a digitalizálás költségeit csökkentő megoldások.
A hibatűrő, teljes szövegű kereső megoldás kialakítását megcélzó kutatás-fejlesztést a következő meggondolások motiválták: A hagyományos szövegdokumentumok digitalizálásának legköltségesebb mozzanat az OCR-rel kapott szövegek emberi közreműködéssel való utólagos javítgatása. Olyan esetekben, amikor a magas költséggel nyerhető pontos szöveget elsődlegesen a teljes szövegű keresés elvárt minősége teszi szükségessé, kézenfekvő költségcsökkentő alternatíva olyan hibatűrő kereső motor alkalmazása, amellyel az OCR-ezett szövegek "kézi" javítását kiiktatva sem romlik a kereső szolgáltatás minősége.
A SZTAKI teamje által tervezett kutatás egy hibrid megközelítést kíván alkalmazni, mely vegyíti a magyar nyelv szavai és szabályai alapján működő kidolgozandó fuzzy algoritmusokat a hibákkal terhelt dokumentumok elemzése során tanuló algoritmusok által generált heurisztikákkal. A projekt részét képezi az elemzés és tesztelés tárgyát képező, különböző osztályú hibákkal terhelt szövegállomány és a tesztkörnyezet felállítása. A heurisztikák és a teljes szövegű keresési algoritmusok egyesítésével kialakítandó hibrid keresési algoritmus előállítása céljából a kutatók definiálják a hibatávolság fogalmát, és erre alapozva értékelik a lehetséges algoritmus kombinációkat, végül kiválasztják az optimális elegyet. Az így kialakított hibatűrő kereső algoritmus lesz implementálva és integrálva a CONTENTUM-ba.
Automatikus metaadat-kivonatolás
A vállalatoknál és a kormányzatban keletkező nagy tömegű, digitálisan tárolt, jól strukturált szöveges információk illetve dokumentumok visszakereshetőségének és osztályozásának alapját a dokumentumokhoz társított metaadatok, metaadat-rekordok teremtik meg. Az egyik legelterjedtebb szabvány, melyet digitális gyűjtemények előszeretettel alkalmaznak az a Dublin Core Metadata Initiative által létrehozott, jelenleg 1.1-es verziószámú Dublin Core Metadata Element Set (ISO 15836-2003, 2003 Február; NISO Z39.85-2001, 2001 szeptember). Ez egy olyan séma, elemkészlet, amely tartalmazza azon elemeket, melyekre egy digitális archívumi környezetben minimálisan szükség lehet. A különféle kormányzati szerveknél illetve vállalatoknál számos más metaadatelemre is szükség van és általában Dublin Core alapú; de attól eltérő bővített metaadatsémát alkalmaznak.
A gazdasági szférán kívül napjainkban már az állam- és közigazgatásban is a költségmegtakarítás szempontú működtetés igényli a dokumentum- és ügykezelést támogató hatékony informatikai megoldásokat. Az állam- és közigazgatási szektorban a szolgáltatói szerep növekedése és a költség hatékony működés közvetlen ösztönző erőként hat a meglévő erőforrás felhasználások optimalizálásra. A népességhez viszonyított kormányzati apparátus mérete jelenleg a nemzetközi összehasonlítások alapján is az átlagosnál nagyobb. Az ügyfelek részére az elektronikus ügyintézés csatornák megnyitása az állam- és közigazgatási eljárások térbeli és időkorlát nélküli indíthatóságát biztosítja. Így a prognosztizálhatóan növekvő ügyszám és a költségvetés feltételezhető szűkítése a meglévő, vagy a csökkenő létszám ésszerű felhasználását igényli egyidejűleg azzal az elvárással, hogy az ügyintézés magasabb színvonalon és csökkenő átfutási idővel történjen.
A projekt olyan költségcsökkentő megoldás, az automatikus metaadat-kivonatolást végrehajtó szoftver kifejlesztését célozta meg, amely nagy tömegű digitális szöveg-dokumentumból emberi beavatkozás nélkül hozza létre a dokumentumokhoz társított nyers metaadat-rekordokat. A kutatók a projekt során feltérképezik az elérhető, metaadat-kivonatolásra alkalmas technológiákat és ezeket adaptálják az alkalmazási környezetre jellemző dokumentumhalmazokra. A kutatás elsődlegesen a kivonatolás algoritmusára és a kivonatoló rendszer arhitektúrájára irányul.
.

