Skaneerige ja teisendage pildid tekstiks OCR-i abil, optilise märgituvastusega

2016-09-02 11:42:19
Põhiline·Tarkvara·Skaneerige ja teisendage pildid tekstiks OCR-i abil, optilise märgituvastusega

Pole kuulmatu, et võite saada dokumendi e-posti teel, mis on teile saadetud pildi kujul või võib-olla PDF-failina ja peate saama teksti redigeerida või lasta seda redigeerida. Mõnikord peate võib-olla mõnda dokumenti skänneri kaudu skannima ja peate saama neid redigeerida tekstitöötlusprogrammist.

Kujutise redigeerimine või otse faili skannimine pole iseenesest võimalik ja kui teil pole aega varuks, ei taha te kõike ise kirjutada. Vaja on mõnda aega juba optilist märgituvastust (OCR), mis tõlgib piltide teksti muudetavaks tekstiks. Mõned parimatest OCR-tarkvarapakettidest on Omnipage ja FineReader, kuid need maksavad palju raha. Siin on valik enamasti tasuta viise, kuidas oma tekst redigeeritavaks vormiks teisendada. 1. FreeOCR

FreeOCR on OCR-programm, mis põhineb avatud lähtekoodiga mootoril Tesseract ja mida haldab Google ning mida peetakse väga täpseks. See võtab vastu sisestuse otse skannerist, PDF-failist ja mitut tüüpi pildivormingutest, sealhulgas mitmeleheküljelised TIFF-failid, toetades samal ajal teisendust 11 erinevas keeles. Samuti saate teisendada sisenddokumendi konkreetseid osi, mis on kasulik mitme tekstiploki või veeru jaoks ja väljundi saab eksportida otse Wordi või rikasteksti vormingus.

Pöörake installimise ajal tähelepanu, kuna programm kasutab installihaldurit, et pakkuda teile paar bitti reklaamvara. FreeOCR töötab opsüsteemides Windows XP kuni Windows 8, XP kasutajatele on vaja installida .NET Framework v2. FreeOCR-i on lubatud kasutada ka nii ärilisel kui ka isiklikul otstarbel.

Laadige alla FreeOCR


2. SimpleOCR

Tarkvara SimpleOCR on isiklikuks, hariduslikuks ja äriliseks kasutamiseks tasuta ning see võtab vastu skanneri, JPG, BMP ja mitmelehelisi TIFF-vormingus pilte. Saadud teksti saab salvestada tavalise tekstifailina või Wordi dokumendina. Pärast installimist, kui käivitate SimpleOCR-i esimest korda, veenduge, et valiksite ülemise suvandi “Masintrükk”, mis on tasuta, alumine variant on täpsema tarkvara 14-päevane demo. Seejärel valige oma profiili hulgast 4 keelest üks ja klõpsake nuppu Vali.

Mitu lehte saab lisada, klõpsates nuppu Lisa leht ja teisendades funktsiooni Teisenda tekstiks. Kui märkide tuvastamine on lõpule jõudnud, kuvatakse tulemuseks olev tekst alumises aknas värviliste sõnadega, et teavitada teid potentsiaalsetest õigekirjaprobleemidest. Sinine on kahtlased sõnad, punane on sõnad, mida ei leita programmi sõnaraamatust jne. Neid sõnu saab kontrollida pakutavate alternatiivide ripploendiga.

Laadige alla SimpleOCR


3. i2OCR

i2OCR on tasuta ja piiramatu kasutamisega veebisaidi Sciweavers.org OCR-teisendusteenus, mis aktsepteerib TIF-, JPG-, PNG-, BMP-, GIF-, PBM-, PGM- ja PPM-vormingus piltide sisendit. Toetatakse tohutut 33 keelt ja kuigi faili maksimaalne suurus on piiratud 10 MB, peaks see piisama kõige üldisemaks kasutamiseks.

Kasutamine on üsna lihtne, valige lihtsalt arvutis oleva faili sirvimiseks nupp. URL-i valiku abil saate faili haarata otse veebipõhisest asukohast, näiteks Dropboxist jne. Valige rippmenüüst oma keel ja klõpsake teisendamiseks suurt nuppu faili, teisendamise aeg oli testimisel vaid sekundite küsimus. Konverteerimise täpsus näib olevat suurepärane, kuigi see on ainult lihttekst ja see kuvatakse akna alumises osas alumise pildi kõrval, millele klõpsates saate seejärel esile tõsta ja dokumendi kopeerida või otse Wordi .DOC-failina salvestada. . Sciweaversil on ka mitmeid muid kasulikke vormingu teisendamise tööriistu, sealhulgas failide teisendamine PDF-ideks.

Külastage i2OCR-i


4. Veebipõhine OCR

Tasuta veebis on OCR-is tasuta ja tasuline teenus, mis võimaldab teil teisendada kuni 15 lehekülge tunnis. See hõlmab JPG-, BMP-, TIF-, PNG-, PCX-, GIF- ja mitmeleheküljeliste PDF-dokumentide üleslaadimist, et töödelda ühte 32-st tunnustatud keelest suurusega kuni 4 MB. Väljund võib olla kas Wordi dokument (DOC), Exceli arvutustabel (XLS) või lihttekstifail (TXT).

Valige üleslaadimiseks kohalik fail, klõpsake nuppu Laadi üles, sisestage nummerdatud captcha ja määrake vajalik keel ja väljundvorming. Seejärel klõpsake nuppu Tuvasta ja oodake mõni sekund, kuni see konverteerub. Saadud tekst kuvatakse selle all koos nupuga, et see valitud failivormingus alla laadida.

Külastage veebis OCR-i


5. Tasuta veebis OCR

Sellel veebiteenusel on tugi JPG, GIF, BMP, PNG, TIFF kõige populaarsemate pildivormingute üleslaadimiseks ja ka PDF-dokumentide OCR-vormingus teisendamise toetamine. Pärast teisendamist saab selle tulemuseks oleva teksti välja anda ka mõnes erinevas vormingus Word DOC, Richtext RTF, tavaline TXT ja ka kihiline PDF-dokument. Samuti annab programm endast parima, et teksti paigutus ja vorming säilitataks originaalile võimalikult lähedal.

Teenuse kasutamiseks valige lihtsalt üleslaadimiseks fail ja valige, millises vormingus soovite selle salvestada, seejärel klõpsake nuppu. Saate teisendamise ajal vaadata kena edusammude mõõturit ja kui see on valmis, ilmub allalaadimisnupp. Tundus, et tasuta online-tekstituvastus töötab üsna hästi ning hoiab enamikul juhtudel kirjasuurusi ja vormingut. Teenust saab tasuta kasutada, kuid faili suurust ega kasutuspiiranguid pole mainitud, mis on pisut segane, kuna me ei tea, kas see on tõesti piiramatu või pole nad lihtsalt maininud, millised piirangud on ...

Külastage tasuta online-tekstituvastust


6. NewOCR

Sellel tasuta veebis OCR-teenusel on kindlasti palju sisendvormingu tuge. Seal on 9 ühist pildivormingut, tugi piltide jaoks Zip arhiivides, mitmeleheküljelised dokumendid, näiteks PDF, TIFF ja DjVu, ning ka DOCX ja ODT failid. Väljundite loend on väiksem, kuid siiski kasulik TXT-, DOC- ja PDF-failide salvestamisega. Tuvastust haldavad mootorid Tesseract ja Cuneiform ning need suudavad ära tunda kokku 58 keelt, mitme veeru teksti ja ka madalama kvaliteediga pilte.

NewOCRi kasutamiseks valige lihtsalt kohalik fail või URL otse URL-ist, valige äratundmiskeel ja vajutage nuppu Eelvaade. See laadib eelvaate lehe ja selle all kuvatakse OCR-i teisendatud tekst. Kui te ei näe teksti, vajutage sinist nuppu OCR. Teksti saab eksportida mitmel viisil, kaasa arvatud tavapärane allalaadimine ühte kolmest failivormingust, kopeerimine lõikelauale, selle paigutamine Google'i või Bingi tõlkijate kaudu, kleepimine veebis Pastebini või Pastie'i ja isegi otse Google Docsisse. NewOCR-il on piiramatu üleslaadimine ja see ei vaja registreerimist.

Külastage NewOCRi


7. Microsoft Office'i dokumendikujutis

Nagu me teame, pole Microsoft Office tasuta toode, kuid tõenäoliselt on suurele hulgale kasutajatele installitud selle versioon. Office'i dokumendikujunduse tööriist suudab dokumendi tekstituvastuse teha ja tulemused on väga head, kuid kahjuks pole see kõigis Office'i versioonides saadaval. Office 2003 peaks selle vaikimisi teie installimisse kaasama, Office 2007 kasutajad peavad selle käsitsi komponentide lisamise suvandisse lisama ja vaikimisi pole seda isegi Office 2010-s. Juhised MODI lisamiseks Office 2010-le leiate aadressilt Microsoft.com.

Suvandi Microsoft Office Document Imaging leiate menüüst Start -> Programmid -> Microsoft Office -> Microsoft Office Tools. See tuvastab ainult TIFF-pildid sisendallikana, nii et peate tõenäoliselt oma dokumendid eelnevalt teisendama. Avage fail ja klõpsake tööriistaribal silmade ikooni “Tuvasta tekst tekstituvastuse abil”. Seejärel klõpsake teksti otse Wordi saatmiseks paremal asuvat nuppu.

Toimetaja märkus: OCROnline oli veel üks testitud tasuta teenus, kuid teil on nädalas ainult 5 tasuta 1 lehe konversiooni, mis on natuke liiga piirav, ja peate ka looma konto. Konversioonikvaliteet on väga hea, aga kui vajate ikka ja jälle veider lehte.

Google Docsil on ka võimalus teisendada PDF-failid ja pildid dokumentideks OCR-i abil. Minge oma Google Drive'i ja klõpsake suvandit Valikud -> Üleslaadimisseaded -> Teisenda üleslaaditud PDF- ja pildifailide tekst ning valige ka kinnituse suvand. Seejärel küsitakse teilt, kas soovite faili Google Drive'i üles laadides pildi või PDF-faili tekstituvastuse muuta.

Toimetaja Valik