PDA

View Full Version : Упутство за скенирање и обраду текста


Расен777
22-04-08, 15:26
УПУТСТВО
ЗА СКЕНИРАЊЕ И ОБРАДУ ТЕКСТА
У ПРОГРАМИМА FINE READER PRO 6.0
И MICROSOFT WORD XP



I - ИНСТАЛАЦИЈА ПРОГРАМА

Да бисте могли да скенирате и обрађујете текст, потребна су вам најмање два програма: Fine Reader Pro (http://www.abbyy.com) (Можете потражити (http://www.mininova.org/search/?search=Fine+Reader+Pro) и крековану верзију, пошто програм није баш приступачан. Наравно, уколико вам то није испод части. - прим. Расен777), тзв. OCR пакет (Optical Character Recognition - програм за оптичко препознавање словних ознака) и Microsoft Word (текстуални процесор). Када инсталирате Fine Reader Pro, обавезно проверите да ли сте инсталирали пакет језика који има назив OtherLangs.exe, будући да се у њему налази српски језик (ћирилична верзија). Проверите да ли сте инсталирали и OtherLangsNOCyrillic.exe јер је у њему, условно речено, латинична верзија која обухвата слова (č, ć, Å¡, đ, ž). Поред уобичајене инсталације Microsoft Office пакета, потребан вам је и Spelling checker - програмчић (речник) за проверу исправности откуцаних речи у тексту. Он ради у оквиру Microsoft Word-a и умногоме олакшава обраду текста.


II - ОСНОВНА ПОДЕШАВАЊА ПРЕ СКЕНИРАЊА

Када отворите програм Fine Reader Pro 6.0, појавиће се прозор који изгледа овако:

http://svetosavlje.org/pomoc/bmp/sken01.gif

Потребно је да подесите програм и прилагодите га тексту који обрађујете. Да бисте то урадили потребно је да притиснете левим тастером миша (леви клик) на Tools, онда на Options (у наставку: Tools > Options),

http://svetosavlje.org/pomoc/bmp/sken02.gif

и отвориће вам се нови прозор на коме треба да изаберете "картицу" Scan/Open Image, како бисте изабрали одговарајући скенер. Притисните левим тастером миша Select Source и једноставно одаберите инсталирани скенер. Ево како то изгледа:

http://svetosavlje.org/pomoc/bmp/sken03.gif

Очигледно је да је скенер у овом упутству Hewlett-Packard ScanJet 2100C. Следеће што треба да урадите је да изаберете језик којим је писан текст који обрађујете. Не напуштајући прозор у коме сте бирали скенер, одаберите картицу Recognition и отвориће вам се прозор који изгледа овако:

http://svetosavlje.org/pomoc/bmp/sken04.gif

Уколико желите да промените језик (овде је већ изабран српски), притисните Edit Languages и отвориће се следећи прозор:

http://svetosavlje.org/pomoc/bmp/sken05.gif

Притисните на крстић испред Additional Languages како бисте изабрали одговарајући језик. За српски то изгледа овако:

http://svetosavlje.org/pomoc/bmp/sken06.gif

Уколико је текст сложен и, поред српског, постоји текст на енглеском, јелинском, латинском и другим језицима, треба да изаберете више језика, како би сав текст био препознат и обрађен са што мање грешака. Да бисте то постигли, притисните на падајућу листу поред тренутно изабраног језика и притисните Select Multiple Languages.

http://svetosavlje.org/pomoc/bmp/sken07.gif

Отвориће се следећи прозор:

http://svetosavlje.org/pomoc/bmp/sken08.gif

Одаберите све потребне језике.

Сада сте завршили са основним подешавањима. Коначно можете да почнете са скенирањем.


III - СКЕНИРАЊЕ

Пре него што било шта скенирате, потрудите се да текст поставите што равније на скенер. Ако је текст на папиру одштампан накриво, поставите га тако да су слова, тј. редови у водоравном положају, јер ће на тај начин препознавање текста да буде много прецизније. Притисните на стрелицу поред иконице Scan, затим на Scan Multiple Images (ако имате више страна за обраду).

http://svetosavlje.org/pomoc/bmp/sken09.gif

Отвориће се "дијалог" са скенером, где треба да одаберете сиву слику као производ скенирања (Grayscale Picture). Никако немојте да изаберете црно-белу слику, јер је ту најјачи контраст, и сви преливи, и све што помаже у препознавању текста, се не виде. Резолуција која је довољна за успешан рад је 150 dpi, али ако имате бољи скенер слободно можете да користите и јачу резолуцију. Имајте на уму да 300 dpi знатно успорава рад скенера. Уколико желите да подесите резолуцију, кликните на Adjust the quality of the scanned picture и изаберите вишу резолуцију (на пример, 300 dpi).

http://svetosavlje.org/pomoc/bmp/sken10.gif

Када коначно притиснете Scan, отвориће се следећи прозор:

http://svetosavlje.org/pomoc/bmp/sken11.gif

Када скенер одради свој део посла, појавиће се упозорење да је слаба резолуција и да то може да утиче на квалитет препознавања. То упозорење изгледа овако.

http://svetosavlje.org/pomoc/bmp/sken12.gif

Ако немате проблема на резолуцији 150, онда кликните ОК. Ако вам је лош резултат препознавања, користите јачу резолуцију (300+). Ово зависи од квалитета скенера, и много чега другог. Наравно, мораћете да испробате како вам све функционише и знаћете шта је најбоље у конкретном случају.

Уколико сте успешно скенирали две странице једне књиге, ево како то изгледа.

http://svetosavlje.org/pomoc/bmp/sken13.gif

"Дијалог" са скенером морате да "водите" пре скенирања сваке странице. На већем прозору се види она страница коју сте са леве стране изабрали.

Следеће што треба да се уради је бирање зоне за препознавање. Притисните левим тастером миша иконицу која у себи има ознаку "Т". Затим, не пуштајући леви тастер миша, уоквирите део текста који желите да програм препозна. То изгледа овако.

http://svetosavlje.org/pomoc/bmp/sken14.gif

Када пустите леви тастер миша, остаће зелено уоквирен текст као на следећој слици:

http://svetosavlje.org/pomoc/bmp/sken15.gif

Притисните и другу (и све преостале странице редом) и поновите ово уоквиравање (будите прецизни). Друга страница изгледала би овако:

http://svetosavlje.org/pomoc/bmp/sken16.gif

Ако у тексту постоје заглавља, избегавајте их, тј. немојте да их обухватате препознавањем. Спремни сте за следећу фазу - препознавање.


IV - ПРЕПОЗНАВАЊЕ

У зависности од тога колико страница обрађујете, разликоваће се и потребно време за препознавање. Притисните на стрелицу поред иконице Read (All) и притисните Read All Pages. То изгледа овако.

http://svetosavlje.org/pomoc/bmp/sken17.gif

Рачунар ће да одради посао, а за то време показиваће прозорчић који изгледа овако:

http://svetosavlje.org/pomoc/bmp/sken18.gif

Када рачунар заврши овај део посла (то зна и да потраје), преостало је да пошаљемо текст у текстуални процесор (Word). Слика говори више од речи...

http://svetosavlje.org/pomoc/bmp/sken19.gif

Уколико програм за обраду текста није био раније активан, отвориће се аутоматски.

Пре него што потпуно пређемо на обраду текста треба да очистимо Fine Reader Pro и да га угасимо. Треба да одаберемо све странице које бришемо. То радимо тако што притискамо левим тастером миша скениране слике са леве стране, истовремено држећи дугме Ctrl на тастатури. Ако је листа врло дуга, можемо да притиснемо само на прву слику (да поплави), и да се онда скролером (траком за померање) спустимо на дно листе и држећи заједно тастере Ctrl и Shift притиснемо последњу слику. Eво како то изгледа.

http://svetosavlje.org/pomoc/bmp/sken20.gif

Тако бисмо одабрали све скениране слике и последње што треба да урадимо је да кликнемо дугме Delete на тастатури.

http://svetosavlje.org/pomoc/bmp/sken21.gif

Рачунар нас пита да ли стварно хоћемо да их обришемо. Одговорићемо "ОК".

Затворите прозор, тј. угасите програм Fine Reader Pro и пређите на Word.


V - ОБРАДА ТЕКСТА

Коначно смо у Word-у. То изгледа овако.

http://svetosavlje.org/pomoc/bmp/sken22.gif

Прво сачувајте фајл који сте добили. Тек сада има да се ради. Овако препознат текст је одличног квалитета, тј. нема много грешака. Међутим, то зависи од квалитета штампе, скенера, како смо поставили текст на скенер итд.

Пре било какве обраде, ископирајте фајл који хоћете да обрађујете на другу локацију на свом рачунару. Никада немојте да обрађујете једини оригинални фајл који сте направили. Шта ако направите грешку и сав дотадашњи посао вам пропадне? Шта ако вам се закочи рачунар па ни чекић не помаже? Овај савет озбиљно схватите, јер се аутор текста учио на грешкама.

Потребно је очистити текст од сувишних форматирања. Прво што ћемо да урадимо је да сада Word-у "кажемо" да смо му убацили текст на српском језику. То је крајње једноставно. Потребно је да "селектујемо", тј. одаберемо сав текст. То се ради тако што држећи тастер (дугме) на тастатури Ctrl истовремено притиснемо слово А. Текст треба да "поцрни". Притиснемо левим тастером миша на Tools, па Language, онда Set Language. Ево како то изгледа.

http://svetosavlje.org/pomoc/bmp/sken23.gif

Отвориће се мали прозор у коме треба да изаберемо српски, јер је у овом тексту преовлађујући језик.

http://svetosavlje.org/pomoc/bmp/sken24.gif

Затим треба да уједначимо величину слова. Држећи тастер Ctrl, истовремено притиснемо слово D. Отвориће се следећи прозор:

http://svetosavlje.org/pomoc/bmp/sken25.gif

Одаберите картицу Font (као на слици) и бирајте фонт (тип слова) Times New Roman и САМО!!!! величину 12. Никако не дирајте средњи део где се бира да ли су слова обична, масна, курзив или њихова комбинација. Ако то будете подесили рецимо на Regular, остаће сав текст без курзива и без масних слова, а то сигурно нећете да урадите, ако већ таква слова постоје у изворном тексту. Кликните ОК.

Остало је да се још уједначе размаци између редова. Ако сте притиснули левим тастером миша негде поред текста, па вам текст није више "црн", поново га одаберите (Ctrl + A), па притисните (Ctrl + D) и одаберите картицу Character Spacing. То, укратко, треба да изгледа овако:

http://svetosavlje.org/pomoc/bmp/sken26.gif

Кликните ОК.

Некада се дешава да програм приликом препознавања текста на крају сваког реда прави тзв. прелом реда (Line Break). То се, иначе на тастатури постиже истовременим притискањем дугмића Shift и Enter. Понекад то може да искомпликује обраду, али и за то постоји лек. Прво, како знамо да постоји прелом реда? Треба да покренемо Show/Hide функцију тј. Покажи/Сакриј. Она изгледа као слово "пи" (¶) и налази се у горњем десном углу Word-овог прозора. Када се она покрене, екран је пун тачкица и квачица које показују прецизно шта смо где откуцали. Прелом реда изгледа као овај знак: . Ако га има на крају сваког реда, значи да морамо да их поскидамо. Обичан прелом стране, тј. Page Break (Ctrl + Enter) изгледа овако - ¶.

Притисните Ctrl + H (држећи Ctrl притиснете H). Отвориће се овакав прозор:

http://svetosavlje.org/pomoc/bmp/sken27.gif

Наредите му да нађе ^l (што је ознака за прелом реда) и захтевајте да све преломе реда промени у обичан размак (на слици се види само курсор). Кликните на Replace All. Ово је већ прилично ризично, јер може доста тога да упропасти. Дакле, увек чувајте копију оригинала, чак и када мислите да сте већ вешти.

Ако вам у току обраде текста није активиран Spelling Chеcker, тј. програм за проверу правописа и тачности откуцаног текста, то можете лако да превазиђете ако притиснете тастер F7. Све речи које се НЕ налазе у речнику, а таквих је доста, биће подвучене црвеном бојом. Ово не значи да ће и многе друге, које немају никаквог смисла у конкретној реченици, бити увек подвучене. Ако је написано: "Човек стоји па ливади", очигледно је да речца "па" нема смисла у овој реченици, али није нетачна, тј. постоји у српском језику. Зато треба пажљиво да се чита.

Можемо и у току обраде текста да убацимо неке речи у речник и сачувамо их. Реч за коју смо стварно сигурни да је добро откуцана, а програм је није препознавао (била је подвучена црвено), најлакше можемо да унесемо у речник ако је одаберемо (зацрнимо), притиснемо десним тастером миша на њу и притиснемо Add to Dictionary. На слици то изгледа овако:

http://svetosavlje.org/pomoc/bmp/sken28.gif

Фајл, тј. речник, у коме је реч сачувана зове се Custom.dic и налази се на следећем месту:

У Windows XP-у:
C:\Documents and Settings\Ime racunara\Application Data\Microsoft\Proof\Custom.dic.

У Windows 98SE:
C:\Windows\Application Data\Microsoft\Proof\CUSTOM.DIC.

Овај фајл чувајте ако инсталирате све на рачунару из почетка.

Срећан рад!
________________
Аутор: Ташић Иван
Преузето са сајта: Светосавље.орг (http://svetosavlje.org/index.php)

Расен777
22-04-08, 15:30
Ja imam i mogu da postavim zasebno knjigu Jevdjovića, i imam neke knjige Relje Novakovića, mada ne i elektronske verzije.
Imam i Olgu,ali to je mnogo obiman posao da postavim ..Ako neko zna, da pomogne, mogu da skeniram cele strane, to mi je brže, a taj "neko" da pravi dalje varijantu za čitanje.
Većina njih govori o putu arijevaca, od Himalaja prema zapadu i severu, ali ja lično, jer mi je logičnije , viÅ¡e cenim "podunavsku teoriju" , zbog Lepenskog Vira i Vinče.Погледај новоотворену тему Упутство за скенирање и обраду текста (http://www.gorandavidovic.com/forum/showthread.php?p=3551#post3551), ако некако могу помоћи - ту сам.

Живана
22-04-08, 15:58
Погледај новоотворену тему Упутство за скенирање и обраду текста (http://www.gorandavidovic.com/forum/showthread.php?p=3551#post3551), ако некако могу помоћи - ту сам.
Ime ti se pozlatilo :seeya:
Pogledala temu...Imam ubačen program uredno..Abbey.. i radim.. jedino nisam isprobavala Multiple llanguages jer baÅ¡ Olgina knjiga(oko 800 strana) i jeste teÅ¡ka zbog toga..citat na llatinskom ,pa na grčkom ,oa pnda nemački i tako redom.. pa ćirilični komentar..sve na istoj strani..
Videću za vikend kad sam slobodnija, ali ako umeÅ¡ da od skenirane cele strane napraviÅ¡ pdf ili pronađeÅ¡ program da od pdf verzije prebaci u Word, to bi bilo idealno..da ostvarimo saradnju ..iako ja jedva , nekih dana, imam vremena i za spavanje..
:)

Расен777
22-04-08, 16:18
Ime ti se pozlatilo :seeya:
Pogledala temu...Imam ubačen program uredno..Abbey.. i radim.. jedino nisam isprobavala Multiple llanguages jer baÅ¡ Olgina knjiga(oko 800 strana) i jeste teÅ¡ka zbog toga..citat na llatinskom ,pa na grčkom ,oa pnda nemački i tako redom.. pa ćirilični komentar..sve na istoj strani..
Videću za vikend kad sam slobodnija, ali ako umeÅ¡ da od skenirane cele strane napraviÅ¡ pdf ili pronađeÅ¡ program da od pdf verzije prebaci u Word, to bi bilo idealno..da ostvarimo saradnju ..iako ja jedva , nekih dana, imam vremena i za spavanje..
:)Види 'вако, ти из тог програма извозиш у Ворд, на пример, и тамо се то дорађује. Ти мени можеш послати сиров материјал, па да га ја сређујем, ако будем знао, пошто се много писама користи. Ваљда ће нешто из тога издобрити док имамо воље.

Што се тиче пдф формата, ја користим слободни софтвер, ОпенОфис (http://www.mtid.sr.gov.yu/code/navigate.php?Id=519) ворд процесор, где имам опцију да извезем у пдф. Што се тиче враћања у Ворд, ту може да послужи овај (http://www.chief-win.com/) програм, чија трајл верзија ради без ограничења тридесет дана. Види па јави приватном поруком.
Поздрав.