Iz običajne kopije ni mogoče izpisati besedila iz datoteke PDF. Pogosto so strani takšnih dokumentov skenirana vsebina njihovih različic papirja. Za pretvorbo takih datotek v popolnoma urejanje besedilnih podatkov se uporabljajo posebni programi z funkcijo prepoznavanja optičnih znakov (OCR).

Take rešitve je zelo težko izvajati in zato stanejo veliko denarja. Če morate redno prepoznavati besedilo s PDF-jem, je priporočljivo kupiti ustrezen program. Za redke primere bi bilo bolj logično uporabljati eno od razpoložljivih spletnih storitev s podobnimi funkcijami.

Kako prepoznati besedilo iz spletnega mesta PDF

Seveda je nabor funkcij spletnih storitev OCR bolj omejen v primerjavi s polnimi namiznimi rešitvami. Vendar lahko s takšnimi sredstvi delate brezplačno ali za nominalno pristojbino. Glavna stvar je, da se ustrezne spletne aplikacije spopadajo z njihovo glavno nalogo, in sicer prepoznavanjem besedila.

1. način: ABBYY FineReader Online

Podjetje za razvoj storitev je eno od vodilnih na področju optičnega prepoznavanja dokumentov. ABBYY FineReader za Windows in Mac je močna rešitev za pretvorbo PDF v besedilo in nadaljnje delo z njim.

Spletna stran programa je seveda manj funkcionalna. Kljub temu lahko storitev prepozna besedilo iz skeniranja in fotografij v več kot 190 jezikih. Podpira pretvorbo datotek PDF v dokumente Beseda , Excel itd.

ABBYY FineReader Online spletna storitev

  1. Preden začnete delati z orodjem, ustvarite račun na spletnem mestu ali se prijavite s svojim Facebookom, Googlom ali Microsoftovim računom.
    Prijavite se z ABBYY FineReader Online
    Za vstop v okno za prijavo kliknite gumb »Prijava« na vrhu menija.
  2. Ko se prijavite, uvozite želeni dokument PDF v FineReader z gumbom »Naloži datoteke« .
    Pripoznavanje besedila iz dokumenta PDF v spletni storitvi ABBYY FineReader Online
    Nato kliknite »Izberi številke strani« in določite želeni interval za prepoznavanje besedila.
  3. Nato izberite jezike, ki so v dokumentu, format nastale datoteke in kliknite gumb »Prepoznaj« .
    Zaženite prepoznavanje besedila iz dokumenta PDF v programu ABBYY FineReader Online
  4. Po obdelavi, katere trajanje je v celoti odvisno od velikosti dokumenta, lahko preneseno datoteko s tekočimi podatki preprosto prenesete s klikom na njegovo ime.
    Prenos končnega dokumenta s spletne storitve ABBYY FineReader Online
    Ali jo izvozite v eno od razpoložljivih storitev v oblaku.

Storitev se razlikuje, verjetno z najbolj natančnimi algoritmi za prepoznavanje besedila na slikah in datotekah PDF. Ampak, na žalost je njegova prosta uporaba omejena na pet strani, ki se obdelujejo na mesec. Če želite delati z več obsežnimi dokumenti, morate kupiti enoletno naročnino.

Če pa je OCR funkcija zelo redko potrebna, je ABBYY FineReader Online odlična možnost za pridobivanje besedila iz majhnih datotek PDF.

2. način: brezplačen OCR za splet

Enostavna in priročna storitev za digitalizacijo besedila. Brez potrebe po registraciji vam vir omogoča prepoznavanje 15 celotnih PDF strani na uro. Brezplačni OCR v spletu deluje v celoti z dokumenti v 46 jezikih in brez dovoljenja podpira tri oblike izvoza besedila - DOCX, XLSX in TXT.

Pri registraciji lahko uporabnik obdeluje večstranske dokumente, vendar je brezplačno število teh strani omejeno na 50 enot.

Online storitve Brezplačni OCR OCR

  1. Če želite besedilo prepoznati iz PDF-ja kot »gost« brez dovoljenja za vir, uporabite ustrezen obrazec na glavni strani spletnega mesta.
    Prepoznavanje PDF v spletni storitvi OCR Brezplačna spletna storitev
    Izberite želeni dokument z gumbom »Datoteka« , izberite glavni tekstovni jezik, izhodni format, počakajte, da se datoteka prenese in kliknete »Pretvori« .
  2. Na koncu postopka digitalizacije kliknite »Prenos izhodne datoteke«, da končen dokument shranite z besedilom na vašem računalniku.
    Prenos dokumenta za prepoznavanje besedila iz PDF-ja iz spletne storitve za brezplačne spletne OCR

Za pooblaščene uporabnike je zaporedje akcij nekoliko drugačno.

  1. Uporabite gumb »Registriraj« ali »Prijava« v zgornji vrstici menija, da ustvarite ali dostopite do svojega računa za brezplačne spletne OCR.
    Ustvarjanje računa v spletni storitvi Free Online OCR
  2. Po odobritvi na plošči za prepoznavanje držite tipko »CTRL« in na seznamu, ki je na voljo, izberite do dva jezika izvornega dokumenta.
    Določanje izvornih jezikov dokumentov za prepoznavanje besedila v Free OCR OCR
  3. Določite dodatne parametre za pridobivanje besedila iz datoteke PDF in kliknite gumb »Izberi datoteko«, da naložite dokument v storitev.
    Začetek prepoznavanja dokumenta PDF v spletni storitvi za brezplačne spletne OCR
    Nato za začetek prepoznavanja kliknite »Pretvori« .
  4. Po obdelavi dokumenta kliknite povezavo z imenom izhodne datoteke v ustreznem stolpcu.
    Prenos dokončane DOCX datoteke s spletno storitev Free Online OCR
    Rezultat prepoznavanja bo takoj shranjen v pomnilnik vašega računalnika.

Če želite izvleči besedilo iz majhnega dokumenta PDF, lahko varno uporabite orodje, opisano zgoraj. Če želite delati z velikimi datotekami, boste morali kupiti dodatne simbole v Free OCR OCR ali uporabiti drugo rešitev.

Metoda 3: NewOCR

Popolnoma brezplačno OCR-storitev, ki vam omogoča, da izvlečete besedilo iz skoraj vseh grafičnih in elektronskih dokumentov, kot so DjVu in PDF. Vir ne omejuje velikosti in števila prepoznavnih datotek, ne zahteva registracije in ponuja širok spekter povezanih funkcij.

NewOCR podpira 106 jezikov in je sposoben pravilno obdelovati celo slabe kakovosti dokumentov. Ročno je mogoče izbrati območje za prepoznavanje besedila na strani datoteke.

Spletna storitev NewOCR

  1. Torej lahko takoj začnete delati z virom brez potrebe po izvajanju nepotrebnih dejanj.
    Prenos datoteke prepoznavanja PDF v spletno storitev NewOCR
    Neposredno na glavni strani je obrazec za uvoz dokumenta na spletno stran. Če želite naložiti datoteko v NewOCR, uporabite gumb »Izberi datoteko« v razdelku »Izberi svojo datoteko« . Nato v polju "Jezik prepoznavanja" izberite enega ali več jezikov izvirnega dokumenta, nato kliknite "Naloži + OCR" .
  2. Nastavite želene nastavitve prepoznavanja, izberite želeno stran, da izvlečete besedilo in kliknete gumb "OCR" .
    Nastavitev in prikazovanje besedila v PDF-ju v spletni storitvi NewOCR
  3. Pomaknite se malo navzdol in poiščite gumb »Prenos« .
    Prenesite besedilo, izpisano v NewOCR, v računalnik
    Kliknite na njo in izberite želeno obliko dokumenta za prenos na spustnem seznamu. Po tem bo končana datoteka z izpisanim besedilom prenesena v računalnik.

Orodje je priročno in prepozna vse znake v dovolj visoki kakovosti. Vendar pa je treba obdelavo vsake strani uvoženega dokumenta PDF zagnati neodvisno in prikazati v ločeni datoteki. Seveda lahko takoj kopirate rezultate prepoznavanja v odložišče in jih združite z drugimi.

Kljub temu je glede na zgornji odtenek zelo težko izpisati velike količine besedila z uporabo NewOCR. Storitev se spoprijema z majhnimi datotekami "s puščico."

Metoda 4: OCR.Space

Preprost in razumljiv vir za digitalizacijo besedila vam omogoča, da prepoznate dokumente PDF in rezultate pošljete v datoteko TXT. Število strani ni omejeno. Edina omejitev je, da velikost vhodnega dokumenta ne sme presegati 5 megabajtov.

Spletna storitev OCR.Space

  1. Prijavite se za delo z orodjem ni potreben.
    Uvozite datoteko PDF v spletno storitev OCR.Space
    Preprosto kliknite zgornjo povezavo in prenesite dokument PDF na spletno mesto iz računalnika z gumbom »Izberi datoteko« ali iz omrežja, tako da kliknete povezavo.
  2. V spustnem seznamu »Izberite OCR jezik« izberite jezik uvoženega dokumenta.
    Zagon postopka prepoznavanja dokumenta PDF v spletni storitvi OCR.Space
    Nato začnite proces prepoznavanja besed s klikom na gumb "Start OCR!" .
  3. Ob koncu obdelave datoteke pregledajte rezultat v polju »OCR'ed Result« in kliknite »Prenos«, da prenesete dokončan TXT dokument.
    Prenos rezultatov prepoznavanja datoteke PDF iz spletne storitve OCR.Space

Če boste morali izpisati besedilo iz datoteke PDF in končno oblikovanje sploh ni pomembno, je OCR.Space dobra izbira. Edini dokument mora biti "enojezičen", ker priznanje dveh ali več jezikov istočasno v službi ni zagotovljeno.

Glej tudi: Brezplačni analogi FineReader

Ocenitev spletnih orodij, predstavljenih v članku, je treba opozoriti, da ABBYY FineReader Online najbolj natančno in natančno obravnava funkcijo OCR. Če je največja natančnost prepoznavanja besedila pomembna za vas, je najbolje upoštevati to posebno možnost. Toda za plačilo za to, najverjetneje, tudi morali.

Če morate digitalizirati majhne dokumente in ste sami pripravljeni popraviti napake pri storitvi, je priporočljivo uporabiti NewOCR, OCR.Space ali OCR brezplačnega spletnega mesta.