Nie je vždy možné extrahovať text zo súboru PDF pomocou bežného kopírovania. Často sú stránky takýchto dokumentov naskenované obsahy ich papierových verzií. Ak chcete takéto súbory premeniť na plne upraviteľné textové údaje, použijú sa špeciálne programy s funkciou optického rozpoznávania znakov (OCR).

Takéto riešenia sú veľmi ťažké implementovať, a preto stojí veľa peňazí. Ak potrebujete pravidelne rozpoznávať text s PDF, odporúča sa zakúpiť príslušný program. V zriedkavých prípadoch by bolo logickejšie použiť jednu z dostupných online služieb s podobnými funkciami.

Ako rozpoznať text z PDF online

Súbor funkcií OCR online služieb je samozrejme obmedzenejší v porovnaní s úplnými riešeniami pre stolné počítače. Ale môžete s týmito prostriedkami pracovať buď zadarmo, alebo za nominálny poplatok. Hlavná vec je, že zodpovedajúce webové aplikácie zvládnu svoju hlavnú úlohu, a to rozpoznávanie textu.

Metóda 1: ABBYY FineReader Online

Spoločnosť vývoja služieb je jedným z lídrov v oblasti optického rozpoznávania dokumentov. ABBYY FineReader pre Windows a Mac je výkonné riešenie pre konverziu PDF do textu a ďalšie práce s ním.

Webový protějšek programu je samozrejme v jeho funkčnosti nižší. Služba však dokáže rozpoznať text zo skenov a fotografií vo viac ako 190 jazykoch. Podporuje konverziu súborov PDF do dokumentov slovo , vynikať atď.

Online služba ABBYY FineReader Online

  1. Skôr než začnete pracovať s nástrojom, vytvorte si účet na webe alebo sa prihláste pomocou svojho účtu Facebook, Google alebo Microsoft.
    Zaregistrujte sa v programe ABBYY FineReader Online
    Ak chcete prejsť do prihlasovacieho okna, kliknite na tlačidlo "Prihlásenie" v hornom paneli ponuky.
  2. Po prihlásení importujte požadovaný dokument PDF do programu FineReader pomocou tlačidla "Nahrať súbory" .
    Rozpoznávanie textu z dokumentu PDF v službe online ABBYY FineReader Online
    Potom kliknite na "Vybrať čísla stránok" a zadajte požadovaný interval pre rozpoznávanie textu.
  3. Ďalej vyberte jazyky, ktoré sú v dokumente, formát výsledného súboru a kliknite na tlačidlo "Rozpoznať" .
    Spustite rozpoznávanie textu z dokumentu PDF v programe ABBYY FineReader Online
  4. Po spracovaní, ktorého trvanie závisí výlučne od veľkosti dokumentu, môžete prevziať hotový súbor s textovými údajmi jednoduchým kliknutím na jeho meno.
    Stiahnutie hotového dokumentu z online služby ABBYY FineReader Online
    Alebo ju exportujte do jednej z dostupných cloudových služieb.

Služba sa pravdepodobne vyznačuje najpresnejšími algoritmami rozpoznávania textu na obrázkoch a súboroch PDF. Nanešťastie jeho bezplatné využitie je obmedzené na päť strán spracovaných za mesiac. Ak chcete pracovať s viacerými objemnými dokumentmi, musíte si zakúpiť predplatné na jeden rok.

Ak je však funkcia OCR veľmi zriedka potrebná, ABBYY FineReader Online je skvelá voľba pre extrahovanie textu z malých súborov PDF.

Metóda 2: OCR zadarmo

Jednoduchá a pohodlná služba pre digitalizáciu textu. Bez potreby registrácie vám zdroj umožňuje rozpoznať 15 plných stránok PDF za hodinu. Free OCR plne pracuje s dokumentmi v 46 jazykoch a bez autorizácie podporuje tri formáty exportu textu - DOCX, XLSX a TXT.

Pri registrácii je používateľ schopný spracovať viacstranové dokumenty, ale bezplatný počet týchto stránok je obmedzený na 50 jednotiek.

Online služba Bezplatné online OCR

  1. Ak chcete rozpoznať text z PDF ako "hosťa" bez povolenia na zdroj, použite príslušný formulár na hlavnej stránke webu.
    Rozpoznávanie PDF v online OCR službe Free Online
    Vyberte požadovaný dokument pomocou tlačidla "Súbor" , vyberte hlavný textový jazyk, výstupný formát, počkajte na stiahnutie súboru a kliknite na tlačidlo "Konvertovať" .
  2. Na konci procesu digitalizácie kliknite na "Stiahnuť výstupný súbor", aby ste uložili hotový dokument s textom na vašom počítači.
    Sťahovanie výsledkov rozpoznávania textu z PDF z online bezplatnej online služby OCR

Pre autorizovaných používateľov je sled akcií trochu odlišný.

  1. Pomocou tlačidla "Registrovať sa" alebo "Prihlásiť sa" v hornom paneli ponuky vytvorte alebo získate prístup k svojmu bezplatnému účtu OCR.
    Vytvorenie účtu v on-line službe Free Online OCR
  2. Po autorizácii v paneli rozpoznávania podržte stlačené tlačidlo "CTRL" a z príslušného zoznamu zvoľte až dva jazyky zdrojového dokumentu.
    Určenie jazykov zdrojového dokumentu na rozpoznávanie textu vo formáte Free Online OCR
  3. Zadajte ďalšie parametre pre extrakciu textu z PDF a kliknite na tlačidlo "Vybrať súbor" na odovzdanie dokumentu do služby.
    Začnite rozpoznávať dokument PDF vo online službe OCR zadarmo
    Ak chcete začať rozpoznávať, kliknite na položku "Previesť" .
  4. Po spracovaní dokumentu kliknite na odkaz s názvom výstupného súboru v príslušnom stĺpci.
    Sťahovanie hotového súboru DOCX z online služby OCR zadarmo
    Výsledok rozpoznávania sa ihneď uloží do pamäte počítača.

Ak potrebujete získať text z malého dokumentu PDF, môžete bez problémov použiť nástroj opísaný vyššie. Ak chcete pracovať s veľkými súbormi, budete musieť kúpiť ďalšie symboly vo Free OCR alebo použiť iné riešenie.

Metóda 3: NewOCR

Úplne bezplatná služba OCR, ktorá umožňuje extrahovať text z prakticky všetkých grafických a elektronických dokumentov, ako sú napríklad DjVu a PDF. Prostriedok nekladie obmedzenia na veľkosť a počet rozpoznateľných súborov, nevyžaduje registráciu a ponúka širokú škálu súvisiacich funkcií.

NewOCR podporuje 106 jazykov a dokáže správne pracovať aj s nízkou kvalitou dokumentov. Je možné manuálne vybrať oblasť na rozpoznávanie textu na stránke súboru.

Online služba NewOCR

  1. Takže môžete okamžite začať pracovať s prostriedkom bez toho, aby ste museli vykonávať zbytočné akcie.
    Sťahovanie súboru PDF s uznaním do online služby NewOCR
    Priamo na hlavnej stránke sa nachádza formulár na import dokumentu na stránku. Ak chcete nahrať súbor do programu NewOCR, použite tlačidlo "Vybrať súbor" v sekcii Vybrať súbor . Potom v poli "Jazyky rozpoznávania" vyberte jeden alebo viac jazykov pôvodného dokumentu a kliknite na tlačidlo "Nahrať + OCR" .
  2. Nastavte preferované nastavenia rozpoznávania, vyberte požadovanú stránku, čím získate text a kliknite na tlačidlo "OCR" .
    Nastavenie a spustenie rozpoznávania textu z PDF v online službe NewOCR
  3. Postupujte nižšie a nájdite tlačidlo "Prevziať" .
    Stiahnite text extrahovaný do programu NewOCR do počítača
    Kliknite na ňu a v rozbaľovacom zozname vyberte požadovaný formát dokumentu na stiahnutie. Potom sa konečný súbor s extrahovaným textom prevezme do vášho počítača.

Nástroj je vhodný a rozpoznáva všetky znaky v dostatočne vysokej kvalite. Spracovanie každej stránky importovaného dokumentu PDF však musí byť spúšťané nezávisle a zobrazené v samostatnom súbore. Môžete samozrejme okamžite skopírovať výsledky rozpoznávania do schránky a zlúčiť ich s ostatnými.

Napriek tomu, vzhľadom na vyššie uvedené nuance, veľké množstvo textu pomocou NewOCR je veľmi ťažké extrahovať. Služba sa s malými súbormi vyrovná "s treskou."

Metóda 4: OCR.Space

Jednoduchý a zrozumiteľný prostriedok na digitalizáciu textu vám umožňuje rozpoznať dokumenty vo formáte PDF a vygenerovať výsledok do súboru TXT. Počet stránok nie je obmedzený. Jediným obmedzením je, že veľkosť vstupného dokumentu by nemala presiahnuť 5 megabajtov.

Služba OCR.Space online

  1. Registrácia na prácu s nástrojom nie je potrebná.
    Importovať súbor PDF do služby OCR.Space online
    Jednoducho kliknite na vyššie uvedený odkaz a odovzdajte dokument PDF na webové stránky z počítača pomocou tlačidla Vybrať súbor alebo zo siete kliknutím na odkaz.
  2. V rozbaľovacom zozname Vybrať jazyk OCR vyberte jazyk importovaného dokumentu.
    Spustenie procesu rozpoznávania dokumentu PDF v službe OCR.Space online
    Potom spustite proces rozpoznávania textu kliknutím na tlačidlo "Spustiť OCR!" .
  3. Na konci spracovania súborov skontrolujte výsledok v poli "OCR'ed Result" a kliknutím na "Download" stiahnite hotový dokument TXT.
    Sťahovanie výsledku rozpoznávania súboru PDF z online služby OCR.Space

Ak stačí vyňať text z PDF a konečné formátovanie nie je vôbec dôležité, OCR.Space je dobrá voľba. Jediný dokument musí byť "jednojazyčný", pretože nie je poskytnuté uznanie dvoch alebo viacerých jazykov súčasne v službe.

Pozri tiež: Bezplatné analógové súbory FineReader

Pri hodnotení online nástrojov uvedených v článku je potrebné poznamenať, že program ABBYY FineReader Online spracováva funkciu OCR najpresnejšie a najpresnejšie. Ak je pre vás dôležitá maximálna presnosť rozpoznávania textu, najlepšie je zvážiť túto konkrétnu možnosť. Ale platiť za to, s najväčšou pravdepodobnosťou, musí tiež.

Ak potrebujete digitalizovať malé dokumenty a ste pripravený na opravu chýb v službe sami, odporúča sa použiť NewOCR, OCR.Space alebo Free OCR.