Nemozem zmenit PDF na TXT

Kecajte o čom chcete...

Moderátori: mirosne, Moderátori

Používateľov profilový obrázok
zen
Stály člen
Stály člen
Príspevky: 483
Dátum registrácie: 22 Nov 2013, 14:33
Bydlisko: Cadca

Nemozem zmenit PDF na TXT

Príspevok od používateľa zen » 23 Mar 2018, 16:23

Mam tu taky sprosty PDF v ktorom mi nefunguje Search, nenajde mi ani co mam na riadku priamo pred ocima. Nie, nie je to scan. Podla filesize je to text. Zvetsil som to: je to text.
Image1.png
Foxit moze PDF zobrazit ako text, overil som na inych PDF (nie je to moc pekne, ale poradil by som si s tim). No, zde katastrofa:
Image2.png
Zkusil som prekopirovat do notepad, katastrofa.
Zkusil som Sumatra. Katastrofa.
Zkusil som Calibre. Katastrofa.
Zkusil som PDFTOTXT. Katastrofa.
Zkusil som natisknut cez CutePDF. Vysledok je 10x vetsi, v Foxit zobrazeny takisto (len ako text biela stranka).

Pozrel som sa, ako vyzera. Zacina PDF-1.4, to sa mi paci, ale to je asi vsetko, co viem o PDF. Dale vidim, ze je tam spousta

Kód: Vybrať všetko

/Filter/FlateDecode/Length 194
endstream
/Filter/FlateDecode/Length 681
endstream
/Filter/FlateDecode/Length 211
endstream
/Filter/FlateDecode/Length 346
endstream
Celkom by ma neprekvapilo, ze tam su paragrafy s 194, 681, 211, 346 characters. Isolovat by to nebolo tazke, ale decompress asi nebude legrace.

Potom som si spomenul, ze fonts casto robi problemy. Je ich tam par:

Kód: Vybrať všetko

/Font 221 0 R
/Font 435 0 R
/Font 635 0 R
/Font 835 0 R
/Font 1038 0 R
/Font 1236 0 R
/Font 1451 0 R
/Font 1649 0 R
/Font 1849 0 R
/Font 2056 0 R
<</Type/Font
>>/FontMatrix[1 0 0 1 0 0]/FontBBox[0 0 1000 1000]/FirstChar 0/LastChar 198/Widths[
<</Type/Font
>>/FontMatrix[1 0 0 1 0 0]/FontBBox[0 0 1000 1000]/FirstChar 0/LastChar 191/Widths[
<</Type/Font
Vymazat? Zmenit?

Nechce sa mi studovat PDF format, asi by som to mal rychleji prepisane. Zkusenejsi, poradte.

(Subor zial nemozem prilozit a z toho dovodu take nechcem pouzit online convertory.)
0
Samozřejmě, že dědeček nemá kapesní hodinky poháněné elektřinou. Takový nesmysl si může vymyslit jen Saturnin. (Zdenek Jirotka, 1942)

Používateľov profilový obrázok
rudko
Power user
Power user
Príspevky: 2339
Dátum registrácie: 28 Dec 2012, 08:33
Vek: 37

Re: Nemozem zmenit PDF na TXT

Príspevok od používateľa rudko » 23 Mar 2018, 16:29

je to vektorove pdf. preto ti to nejde. musis najst konvertor ktory si s tym poradi. alebo pouzi nejake ocr na to
0
Drink coffee. Do stupid things faster with more energy...

Používateľov profilový obrázok
Radus
Zaslúžilý člen
Zaslúžilý člen
Príspevky: 1497
Dátum registrácie: 27 Okt 2009, 00:00
Bydlisko: Prešov
Vek: 42

Re: Nemozem zmenit PDF na TXT

Príspevok od používateľa Radus » 23 Mar 2018, 16:32

... a keby si to nechal prebehnúť napríklad cez Abby a nanovo rozpoznať text?
0

Používateľov profilový obrázok
zen
Stály člen
Stály člen
Príspevky: 483
Dátum registrácie: 22 Nov 2013, 14:33
Bydlisko: Cadca

Re: Nemozem zmenit PDF na TXT

Príspevok od používateľa zen » 23 Mar 2018, 17:50

rudko napísal:je to vektorove pdf. preto ti to nejde. musis najst konvertor ktory si s tym poradi. alebo pouzi nejake ocr na to
Rudko, nepopletol si to? OCR je treba na raster. Vidis ten prvy printscreen?
Radus napísal:... a keby si to natiskol a nechal prebehnúť napríklad cez Abby a nanovo rozpoznať text?
Take moznost. No, dufam najst cosi jednoduchsie.
0
Samozřejmě, že dědeček nemá kapesní hodinky poháněné elektřinou. Takový nesmysl si může vymyslit jen Saturnin. (Zdenek Jirotka, 1942)

Používateľov profilový obrázok
rudko
Power user
Power user
Príspevky: 2339
Dátum registrácie: 28 Dec 2012, 08:33
Vek: 37

Re: Nemozem zmenit PDF na TXT

Príspevok od používateľa rudko » 23 Mar 2018, 18:08

ocr-ku je v konecnom dosledku jedno ci je to raster alebo vektror
0
Drink coffee. Do stupid things faster with more energy...

Používateľov profilový obrázok
Andrej152
Zaslúžilý člen
Zaslúžilý člen
Príspevky: 1022
Dátum registrácie: 29 Júl 2013, 12:49
Bydlisko: prešov
Vek: 22

Re: Nemozem zmenit PDF na TXT

Príspevok od používateľa Andrej152 » 23 Mar 2018, 20:40

len tak mi napadlo
sfotit to mobilom napr. do google prekladaca ? ten dokaze rozoznat text a vysledok si skopirujes do txt ?
0

Používateľov profilový obrázok
Radus
Zaslúžilý člen
Zaslúžilý člen
Príspevky: 1497
Dátum registrácie: 27 Okt 2009, 00:00
Bydlisko: Prešov
Vek: 42

Re: Nemozem zmenit PDF na TXT

Príspevok od používateľa Radus » 23 Mar 2018, 22:35

Nevravím aby si niečo tlačil, do ABBY vieš vložiť rovno PDFko a vypľuvne ti to text. V takejto kvalite to budeš mať rozpoznané bezostraty...myslím. Pošli mi to, ja ti to vytiahnem. Minutka...
0

her
Okoloidúci
Okoloidúci
Príspevky: 12
Dátum registrácie: 24 Mar 2018, 08:31

Re: Nemozem zmenit PDF na TXT

Príspevok od používateľa her » 24 Mar 2018, 08:34

Zkuste https://www.onlineocr.net/ - do asi 15 stránek zadarmo a podporují i češtinu
0

Používateľov profilový obrázok
zen
Stály člen
Stály člen
Príspevky: 483
Dátum registrácie: 22 Nov 2013, 14:33
Bydlisko: Cadca

Re: Nemozem zmenit PDF na TXT

Príspevok od používateľa zen » 24 Mar 2018, 16:43

rudko napísal:ocr-ku je v konecnom dosledku jedno ci je to raster alebo vektror
Take ma napadlo, ako sa s tim vysporiada ABBYY.
Radus napísal:do ABBY vieš vložiť rovno PDFko a vypľuvne ti to text. V takejto kvalite to budeš mať rozpoznané bezostraty...myslím.
V to som dufal. Lenze... ABBYY na text kasle, stranku si zobrazi ako image a prejde to OCR. Ze obcas prida space by mi ani tak nevadilo, to vyfiltrujem. No, ze nahodne prida alebo ubere CR je uplna katastrofa.

V povodnom PDF aj v Foxit aj v Sumatra sa mi podarilo copy/paste text do notepad. (Nechcel som robit s celym PDF, natiskol som cez CutePDF stranky, ktore potrebujem - uz dlho som s PDF nerobil, dufal som, ze vyberem vsetko s Ctrl A. Tento novy PDF ma odpovidajucu velikost, Foxit a Sumatra ho zobrazuji presne ako ten povodny, len vyber textu nefunguje. Pre ABBYY celkom nie je rozdiel.)

Zde som mal CR naviac, ale to az taky problem nebol, horsie, ked chybaju.
0
Samozřejmě, že dědeček nemá kapesní hodinky poháněné elektřinou. Takový nesmysl si může vymyslit jen Saturnin. (Zdenek Jirotka, 1942)

Napísať odpoveď