Kako prepoznati datoteko PDF na spletu

Iz običajne kopije ni mogoče izpisati besedila iz datoteke PDF. Pogosto so strani takšnih dokumentov skenirana vsebina njihovih različic papirja. Za pretvorbo takih datotek v popolnoma urejanje besedilnih podatkov se uporabljajo posebni programi z funkcijo prepoznavanja optičnih znakov (OCR).

Take rešitve je zelo težko izvajati in zato stanejo veliko denarja. Če morate redno prepoznavati besedilo s PDF-jem, je priporočljivo kupiti ustrezen program. Za redke primere bi bilo bolj logično uporabljati eno od razpoložljivih spletnih storitev s podobnimi funkcijami.

Vsebina

Kako prepoznati besedilo iz spletnega mesta PDF
Vprašanja in odgovori

Kako prepoznati besedilo iz spletnega mesta PDF

Seveda je nabor funkcij spletnih storitev OCR bolj omejen v primerjavi s polnimi namiznimi rešitvami. Vendar lahko s takšnimi sredstvi delate brezplačno ali za nominalno pristojbino. Glavna stvar je, da se ustrezne spletne aplikacije spopadajo z njihovo glavno nalogo, in sicer prepoznavanjem besedila.

1. način: ABBYY FineReader Online

Podjetje za razvoj storitev je eno od vodilnih na področju optičnega prepoznavanja dokumentov. ABBYY FineReader za Windows in Mac je močna rešitev za pretvorbo PDF v besedilo in nadaljnje delo z njim.

Spletna stran programa je seveda manj funkcionalna. Kljub temu lahko storitev prepozna besedilo iz skeniranja in fotografij v več kot 190 jezikih. Podpira pretvorbo datotek PDF v dokumente Beseda , Excel itd.

ABBYY FineReader Online spletna storitev

Preden začnete delati z orodjem, ustvarite račun na spletnem mestu ali se prijavite s svojim Facebookom, Googlom ali Microsoftovim računom.

Za vstop v okno za prijavo kliknite gumb »Prijava« na vrhu menija.
Ko se prijavite, uvozite želeni dokument PDF v FineReader z gumbom »Naloži datoteke« .

Nato kliknite »Izberi številke strani« in določite želeni interval za prepoznavanje besedila.
Nato izberite jezike, ki so v dokumentu, format nastale datoteke in kliknite gumb »Prepoznaj« .
Po obdelavi, katere trajanje je v celoti odvisno od velikosti dokumenta, lahko preneseno datoteko s tekočimi podatki preprosto prenesete s klikom na njegovo ime.

Ali jo izvozite v eno od razpoložljivih storitev v oblaku.

Storitev se razlikuje, verjetno z najbolj natančnimi algoritmi za prepoznavanje besedila na slikah in datotekah PDF. Ampak, na žalost je njegova prosta uporaba omejena na pet strani, ki se obdelujejo na mesec. Če želite delati z več obsežnimi dokumenti, morate kupiti enoletno naročnino.

Če pa je OCR funkcija zelo redko potrebna, je ABBYY FineReader Online odlična možnost za pridobivanje besedila iz majhnih datotek PDF.

2. način: brezplačen OCR za splet

Enostavna in priročna storitev za digitalizacijo besedila. Brez potrebe po registraciji vam vir omogoča prepoznavanje 15 celotnih PDF strani na uro. Brezplačni OCR v spletu deluje v celoti z dokumenti v 46 jezikih in brez dovoljenja podpira tri oblike izvoza besedila - DOCX, XLSX in TXT.

Pri registraciji lahko uporabnik obdeluje večstranske dokumente, vendar je brezplačno število teh strani omejeno na 50 enot.

Online storitve Brezplačni OCR OCR

Če želite besedilo prepoznati iz PDF-ja kot »gost« brez dovoljenja za vir, uporabite ustrezen obrazec na glavni strani spletnega mesta.

Izberite želeni dokument z gumbom »Datoteka« , izberite glavni tekstovni jezik, izhodni format, počakajte, da se datoteka prenese in kliknete »Pretvori« .
Na koncu postopka digitalizacije kliknite »Prenos izhodne datoteke«, da končen dokument shranite z besedilom na vašem računalniku.

Za pooblaščene uporabnike je zaporedje akcij nekoliko drugačno.

Uporabite gumb »Registriraj« ali »Prijava« v zgornji vrstici menija, da ustvarite ali dostopite do svojega računa za brezplačne spletne OCR.
Po odobritvi na plošči za prepoznavanje držite tipko »CTRL« in na seznamu, ki je na voljo, izberite do dva jezika izvornega dokumenta.
Določite dodatne parametre za pridobivanje besedila iz datoteke PDF in kliknite gumb »Izberi datoteko«, da naložite dokument v storitev.

Nato za začetek prepoznavanja kliknite »Pretvori« .
Po obdelavi dokumenta kliknite povezavo z imenom izhodne datoteke v ustreznem stolpcu.

Rezultat prepoznavanja bo takoj shranjen v pomnilnik vašega računalnika.

Če želite izvleči besedilo iz majhnega dokumenta PDF, lahko varno uporabite orodje, opisano zgoraj. Če želite delati z velikimi datotekami, boste morali kupiti dodatne simbole v Free OCR OCR ali uporabiti drugo rešitev.

Metoda 3: NewOCR

Popolnoma brezplačno OCR-storitev, ki vam omogoča, da izvlečete besedilo iz skoraj vseh grafičnih in elektronskih dokumentov, kot so DjVu in PDF. Vir ne omejuje velikosti in števila prepoznavnih datotek, ne zahteva registracije in ponuja širok spekter povezanih funkcij.

NewOCR podpira 106 jezikov in je sposoben pravilno obdelovati celo slabe kakovosti dokumentov. Ročno je mogoče izbrati območje za prepoznavanje besedila na strani datoteke.

Spletna storitev NewOCR

Torej lahko takoj začnete delati z virom brez potrebe po izvajanju nepotrebnih dejanj.

Neposredno na glavni strani je obrazec za uvoz dokumenta na spletno stran. Če želite naložiti datoteko v NewOCR, uporabite gumb »Izberi datoteko« v razdelku »Izberi svojo datoteko« . Nato v polju "Jezik prepoznavanja" izberite enega ali več jezikov izvirnega dokumenta, nato kliknite "Naloži + OCR" .
Nastavite želene nastavitve prepoznavanja, izberite želeno stran, da izvlečete besedilo in kliknete gumb "OCR" .
Pomaknite se malo navzdol in poiščite gumb »Prenos« .

Kliknite na njo in izberite želeno obliko dokumenta za prenos na spustnem seznamu. Po tem bo končana datoteka z izpisanim besedilom prenesena v računalnik.

Orodje je priročno in prepozna vse znake v dovolj visoki kakovosti. Vendar pa je treba obdelavo vsake strani uvoženega dokumenta PDF zagnati neodvisno in prikazati v ločeni datoteki. Seveda lahko takoj kopirate rezultate prepoznavanja v odložišče in jih združite z drugimi.

Kljub temu je glede na zgornji odtenek zelo težko izpisati velike količine besedila z uporabo NewOCR. Storitev se spoprijema z majhnimi datotekami "s puščico."

Metoda 4: OCR.Space

Preprost in razumljiv vir za digitalizacijo besedila vam omogoča, da prepoznate dokumente PDF in rezultate pošljete v datoteko TXT. Število strani ni omejeno. Edina omejitev je, da velikost vhodnega dokumenta ne sme presegati 5 megabajtov.

Spletna storitev OCR.Space

Prijavite se za delo z orodjem ni potreben.

Preprosto kliknite zgornjo povezavo in prenesite dokument PDF na spletno mesto iz računalnika z gumbom »Izberi datoteko« ali iz omrežja, tako da kliknete povezavo.
V spustnem seznamu »Izberite OCR jezik« izberite jezik uvoženega dokumenta.

Nato začnite proces prepoznavanja besed s klikom na gumb "Start OCR!" .
Ob koncu obdelave datoteke pregledajte rezultat v polju »OCR'ed Result« in kliknite »Prenos«, da prenesete dokončan TXT dokument.

Če boste morali izpisati besedilo iz datoteke PDF in končno oblikovanje sploh ni pomembno, je OCR.Space dobra izbira. Edini dokument mora biti "enojezičen", ker priznanje dveh ali več jezikov istočasno v službi ni zagotovljeno.

Glej tudi: Brezplačni analogi FineReader

Ocenitev spletnih orodij, predstavljenih v članku, je treba opozoriti, da ABBYY FineReader Online najbolj natančno in natančno obravnava funkcijo OCR. Če je največja natančnost prepoznavanja besedila pomembna za vas, je najbolje upoštevati to posebno možnost. Toda za plačilo za to, najverjetneje, tudi morali.

Če morate digitalizirati majhne dokumente in ste sami pripravljeni popraviti napake pri storitvi, je priporočljivo uporabiti NewOCR, OCR.Space ali OCR brezplačnega spletnega mesta.

Prepoznajte besedilo v datoteki PDF na spletu.

Kako prepoznati besedilo iz spletnega mesta PDF

1. način: ABBYY FineReader Online

2. način: brezplačen OCR za splet

Metoda 3: NewOCR

Metoda 4: OCR.Space