Nie je vždy možné extrahovať text zo súboru PDF pomocou bežného kopírovania. Často sú stránky takýchto dokumentov naskenované obsahy ich papierových verzií. Ak chcete takéto súbory premeniť na plne upraviteľné textové údaje, použijú sa špeciálne programy s funkciou optického rozpoznávania znakov (OCR).
Takéto riešenia sú veľmi ťažké implementovať, a preto stojí veľa peňazí. Ak potrebujete pravidelne rozpoznávať text s PDF, odporúča sa zakúpiť príslušný program. V zriedkavých prípadoch by bolo logickejšie použiť jednu z dostupných online služieb s podobnými funkciami.
obsah
Súbor funkcií OCR online služieb je samozrejme obmedzenejší v porovnaní s úplnými riešeniami pre stolné počítače. Ale môžete s týmito prostriedkami pracovať buď zadarmo, alebo za nominálny poplatok. Hlavná vec je, že zodpovedajúce webové aplikácie zvládnu svoju hlavnú úlohu, a to rozpoznávanie textu.
Spoločnosť vývoja služieb je jedným z lídrov v oblasti optického rozpoznávania dokumentov. ABBYY FineReader pre Windows a Mac je výkonné riešenie pre konverziu PDF do textu a ďalšie práce s ním.
Webový protějšek programu je samozrejme v jeho funkčnosti nižší. Služba však dokáže rozpoznať text zo skenov a fotografií vo viac ako 190 jazykoch. Podporuje konverziu súborov PDF do dokumentov slovo , vynikať atď.
Online služba ABBYY FineReader Online
Služba sa pravdepodobne vyznačuje najpresnejšími algoritmami rozpoznávania textu na obrázkoch a súboroch PDF. Nanešťastie jeho bezplatné využitie je obmedzené na päť strán spracovaných za mesiac. Ak chcete pracovať s viacerými objemnými dokumentmi, musíte si zakúpiť predplatné na jeden rok.
Ak je však funkcia OCR veľmi zriedka potrebná, ABBYY FineReader Online je skvelá voľba pre extrahovanie textu z malých súborov PDF.
Jednoduchá a pohodlná služba pre digitalizáciu textu. Bez potreby registrácie vám zdroj umožňuje rozpoznať 15 plných stránok PDF za hodinu. Free OCR plne pracuje s dokumentmi v 46 jazykoch a bez autorizácie podporuje tri formáty exportu textu - DOCX, XLSX a TXT.
Pri registrácii je používateľ schopný spracovať viacstranové dokumenty, ale bezplatný počet týchto stránok je obmedzený na 50 jednotiek.
Online služba Bezplatné online OCR
Pre autorizovaných používateľov je sled akcií trochu odlišný.
Ak potrebujete získať text z malého dokumentu PDF, môžete bez problémov použiť nástroj opísaný vyššie. Ak chcete pracovať s veľkými súbormi, budete musieť kúpiť ďalšie symboly vo Free OCR alebo použiť iné riešenie.
Úplne bezplatná služba OCR, ktorá umožňuje extrahovať text z prakticky všetkých grafických a elektronických dokumentov, ako sú napríklad DjVu a PDF. Prostriedok nekladie obmedzenia na veľkosť a počet rozpoznateľných súborov, nevyžaduje registráciu a ponúka širokú škálu súvisiacich funkcií.
NewOCR podporuje 106 jazykov a dokáže správne pracovať aj s nízkou kvalitou dokumentov. Je možné manuálne vybrať oblasť na rozpoznávanie textu na stránke súboru.
Nástroj je vhodný a rozpoznáva všetky znaky v dostatočne vysokej kvalite. Spracovanie každej stránky importovaného dokumentu PDF však musí byť spúšťané nezávisle a zobrazené v samostatnom súbore. Môžete samozrejme okamžite skopírovať výsledky rozpoznávania do schránky a zlúčiť ich s ostatnými.
Napriek tomu, vzhľadom na vyššie uvedené nuance, veľké množstvo textu pomocou NewOCR je veľmi ťažké extrahovať. Služba sa s malými súbormi vyrovná "s treskou."
Jednoduchý a zrozumiteľný prostriedok na digitalizáciu textu vám umožňuje rozpoznať dokumenty vo formáte PDF a vygenerovať výsledok do súboru TXT. Počet stránok nie je obmedzený. Jediným obmedzením je, že veľkosť vstupného dokumentu by nemala presiahnuť 5 megabajtov.
Ak stačí vyňať text z PDF a konečné formátovanie nie je vôbec dôležité, OCR.Space je dobrá voľba. Jediný dokument musí byť "jednojazyčný", pretože nie je poskytnuté uznanie dvoch alebo viacerých jazykov súčasne v službe.
Pozri tiež: Bezplatné analógové súbory FineReader
Pri hodnotení online nástrojov uvedených v článku je potrebné poznamenať, že program ABBYY FineReader Online spracováva funkciu OCR najpresnejšie a najpresnejšie. Ak je pre vás dôležitá maximálna presnosť rozpoznávania textu, najlepšie je zvážiť túto konkrétnu možnosť. Ale platiť za to, s najväčšou pravdepodobnosťou, musí tiež.
Ak potrebujete digitalizovať malé dokumenty a ste pripravený na opravu chýb v službe sami, odporúča sa použiť NewOCR, OCR.Space alebo Free OCR.