Učite sa SKVO - BlogOye

Učite sa SKVO

13/4/2006

Uradi sam



Ovaj i još puno korisnih tekstova možete pronaći na linku


 Pretvaranje podataka sa papira u elektronski oblik

 

Velik je broj različitih knjižnih evidencija, zapisa, dokumenata i sl. koji se još uvek vode u analognom obliku. Obzirom na sve prisutnijuu informatizaciju i uvođenje računara u gotovo sve sfere ljudske delatnosti, postalo je aktuelno i potrebno prevesti takve evidencije iz analognog u digitalni oblik.

 

Najstariji i najjednostavniji način prevođenja analognih tekstualnih dokumenata u digitalni zapis je direktni unos teksta kucanjem na tastaturi i pohranjivanje u odgovarajuću tekstualnu datoteku. Ovakav način digitalizacije može se ubrzati izgradnjom uređaja i metoda za automatski unos podataka s dokumenata, poznatijih kao uređaji za optičko prepoznavanje znakova (engl. Optical Character Recognition - OCR). Razvoj takvih uređaja i metoda započeo je još 70-ih i 80-ih godina prošlog veka iz složenog i opširnog područja prepoznavanja uzoraka (engl. Pattern Recognition) (Gyergyek i dr. 1988).


Princip rada


Mada postoje brojni OCR programi, na ovim prostorima najčešće se susreću Recognita i FineReader. Neki od njih su obično sastavni deo softverskog paketa koji dolazi uz skenere. Princip rada ovih programa izuzetno je jednostavan. Skener pretvara pisani dokument u sliku čije delove softver prepoznaje kao slova i prebacuje u Word ili Excel datoteku. Pokrenete OCR program koji ste instalirali i, u slučaju FineReadera, dočeka vas čarobnjak (engl. Wizard), tj. vodič koji vas korak po korak vodi kroz postupak. Logično, prvi korak je skeniranje papira sa tekstom, tabelama ili sličnim sadržajem. Vaš posao se sastoji u urednom ubacivanju papira u skener (ukoliko dokument ima više stranica). Drugi korak je označavanje „blokova” teksta, što OCR obavlja samostalno. Zatim dolazi „čitanje”, kada računar prepoznaje znakove na skenu i pretvara ih u slova, gde vi takođe nemate učešća. Na vama je samo da proverite „prekucani” tekst, jer ni računar nije savršen, pa često pogrešno prepozna deo teksta. Zavisno od kvaliteta papirnog predloška, vrste papira, veličine fonta, kvaliteta štampe i sl., procenat pogrešno prepoznatih slova varira, recimo, od 5 do 30 odsto. Najčešća greška je, na primer, da kombinaciju slova rn, kao u reči stvarno, računar pročita kao stvamo. Tamo gde računar nije siguran da je ispravno pročitao deo teksta, nudi mogućnost ispravke. Nekada se desi da je i pogrešno „pročitana” reč za njega sasvim u redu, što znači da tekst treba obavezno pregledati na kraju da bi se ispravile takve greške. Poslednji korak je pretvaranje teksta u elektronski dokument - Word dokument (.doc), .rtf, .txt ili Excel radnu tabelu (.xls), po vlastitom izboru. I to je to.

Učešće „ljudskog faktora” svodi se uglavnom na ubacivanje papira u skener i proveru na kraju, a ovakvo „prekucavanje” jedne stranice formata A-4 obično traje tri do četiri minuta.

FineReader

 

Abbyy FineReader je jedan od najboljih na tržištu, a mi smo probali verziju 7.0 Professional. Postoji i verzija Corporate koje dodaje podršku za skeniranje preko mreže. Verzija 7 donosi više novosti u radu i  mogućnostima u odnosu na verziju 6.0. Većina tih stvari je preuzeta iz prethodne verzije Corporate i u Professional donosi još impresivniji skup alata.

Kao prvo, navodi se povećana tačnost prepoznavanja. Na testnim primerima dobili smo impresivnu tačnost, stoga preporučujemo i vama da sami obavite testiranje na svojim uzorcima. Tačnost je svuda veća od 99 posto, a na nekim materijalima dostiže i 100 posto. S druge strane, ako uzmete u obzir da na stranici časopisa imate više od 4000 znakova koje program treba da prepozna, ovakva tačnost znači da ćete morati da ispravite dvadesetak znakova. To je još uvek, ponavljamo, impresivno. Nekad ste u OCR programima morali ispravljati i po pola stranice.

 

Druga bitna novotarija bi trebala biti povećana tačnost analize forme dokumenta (engl. Layout) i bolje zadržavanje formatiranja. No, to nije uvek slučaj. Kod malo složenijih oblika dokumenata Abbyy FineReader nema baš preveliki uspeh. Na primer, kod jednog dokumenta tipa „kataloga” nikakva količina igranja s postavkama nije uspela da da originalni oblik dokumenta.

 


Tu je i integracija sa Wordom. Kad skenirate i „pročitate” materijal, možete ga otvoriti u Wordu (Send to -> Microsoft Word) i tamo obaviti proveru pravopisa (engl. spell checking) i sve ostalo što nameravate s dokumentom da uradite. Naravno, proveru pravopisa možete da uraditei i u samom FineReaderu, a njegov se spelling checker praktično ne razlikuje od onog u Wordu. Radi na isti način, što znači da možete u njega i da dodajete nove reči. Treba spomenuti da FineReader ima ugrađeni spelling checker za 34 jezika, a da prepoznaje, kako kažu, 177 jezika. Naravno, prilikom provere našeg teksta najproblematičnija su imena, ali to je za očekivati i oko toga se ne treba uopšte uzbuđivati.
Samo još da spomenemo da su od novína tu još prepoznavanje bar-koda, image splitting alat, podrška za hyperthreading procesorsku tehnologiju, izvoženje u PowerPoint i izvoženje u Word XML.

 

 

Pripremio Dragan Marković



21:12 , 13/4/2006 Poslao u razno 3 komentara Link


O meni

Pošto sam totalna neznalica krenula sam da učim sve i svašta ,a pošto je sve to rasuto po netu odlučila sam da to spakujem ovde na blog...pa polako.

Sadržaj bloga

Linkovi


Home
Moj profil
Arhiva
Prijatelji
Pošalji mi e-mail

Prijatelji