12k Aufrufe
Gefragt in Textverarbeitung von
hallo

habe probleme mit einer pdf-datei:
www.reference-global.com/doi/pdf/10.1515/9783110177701.toc

die pdf-datei lässt sich nicht wie üblich über die suchfunktion des adobe reader durchsuchen.
wenn man einen text nach word etc. kopiert sieht man nur merkwürdige zeichen. zb. wird aus dem wort "Inhalt" nur "h.(!,4"

kann mir da jemand helfen? habe schon versucht mit einem pdf- und einem ps-drucker ein neues dokument zu erstellen, der Fehler blieb aber.
hab auch irgendwo gelesen, dass damit zu tun hat, dass die verwendete schrift nicht auf meinem pc installiert ist. wie kann ich denn die verwendete schrift installieren?

hoffe, es kennt jemand eine lösung. es geht mir übrigens haubsächlich darum das e-book durchsuchen zu können. das kopieren ist nicht so wichtig.

mfg, amy

7 Antworten

0 Punkte
Beantwortet von saarbauer Profi (15.6k Punkte)
Hallo,

um eine durchsuchbare PDF zu haben, muss diese mindestens als PDF 1.4 abgespeichert werden, alle darunter sind nicht durchsuchbar. Darüber kann man auch als nicht durchsuchbare abspeichern.

Gruß

Helmut
0 Punkte
Beantwortet von
die pdf ist grundsätzlich schon durchsuchbar. die wörter werden nur nicht gefunden. das hängt wohl mit dem buchstabensalat, der auch beim kopieren entsteht zusammen.
sucht man z.b. den buchstaben "d" so wird immer das "b" gefunden.
0 Punkte
Beantwortet von son_quatsch Experte (5.3k Punkte)
Kann das Problem bestätigen und habe auch einen Grund gefunden (www.acrobatusers.com/forums/aucbb/viewtopic.php?id=21228). Kurz zusammengefasst:

sowohl der Generierer (also einer oder alle Prozesse, die am Erstellen des PDFs beteiligt waren) als auch die verwendete Schriftart können Ursache sein. Es ist nicht wirklich ein Fehler der Anzeigesoftware (Adobe Acrobat Viewer). Technisch gesprochen: es wurden nicht mit GhostScript kompatible Schriften benutzt.

Für dich heißt das: Pech. Das Programm ist gar nicht in der Lage, dir Buchstaben zu geben - es kann sie nur malen. Damit kannst du das PDF problemlos drucken, aber nie Text draus kopieren.


Eine gewagter Workaround: mach Screenshots und lass sie von einer OCR-Software wieder in Text umwandeln. Doch hier dürfte der Aufwand beträchtlich sein und das Ergebnis vielleicht nicht sehr schön.
0 Punkte
Beantwortet von
das hatte ich schon fast befürchtet.

hab auch schon versucht es mit ghostscript ins tiff-format umzuwandeln (geht schneller als einzellne screenshots) allerdings finde ich keine freie ocr-software, die mit deutschem text klar kommen.

es müsste da aber auch eine andere möglichkeit geben den text "wiederherzustellen". ich stell mir das so vor:
ich erstelle zb. eine txt-datei in die alles reinkoppiert wird. dort erscheint dann erstmal ein kauderwelsch, wie das hier:
g,1/(,781*
dann bräuchte ich irgendein script, dass automatisch die entsprechenden buchstaben ersetzt. dem muss ich die natürlich erstmal vorgeben, z.b:
g=E
,=i
1=n
/=l
(=e
,=i
7=t
8=u
1=n
*=g
und herrauskommen müsste dann in dem fall hier das wort "Einleitung"

weiß jemand wie ich zu soeinem script komme?
0 Punkte
Beantwortet von kjg17 Profi (34.4k Punkte)
Hallo,

das kann man mal mit einzelnen Zeichen machen, aber nicht mit einem ganzen Zeichensatz. Allein bei diesem einen Wort mit nur 8 verschiedenen Zeichen könnte statt "Einleitung" "EinleitunE" herauskommen, wenn * vor g abgearbeitet wird. Und wenn der Ersetzenvorgang je Zeichen immer auf das ganze Dokument angewendet wird, würden dadurch auch bereits korret dargestellte Wörter wieder entstellt. Das Durcheinander wäre lediglich anders.

Dazu müssten die einzelnen Wörter unter Zuhilfenahme deiner Ersetzen-Liste analysiert und die möglichen Varianten mit einem Wörterbuch abgeglichen werden. Wie T9 von deinem Handy, aber auf einem wesentlich höherem und komplexerem Niveau.

Gruß
Kalle
0 Punkte
Beantwortet von
es müsste einfach nur der text von vorne bis hinten durchgearbeitet werden. dann würde sowas nicht passieren.

es gibt doch die möglich keit texte zu kodieren. mit dem Schlüssel lassen sie sich dann wieder decodieren. das hier ist doch auch nichts anderes, oder?

mfg, amy
0 Punkte
Beantwortet von son_quatsch Experte (5.3k Punkte)
Im Prinzip ja. Eine Software dafür ist auch relativ einfach und schnell geschrieben: in ihr definiert man als Anwender einfach Substitutionen und hat daneben gleich eine Vorschau, wie das ganze hinterher aussehen würde. Eine Software wohlgemerkt - kein Skript!

Trotzdem bleibt viel Arbeit drumherum: einzig die ersetzten Buchstaben wären eventuell richtig. Alle Formatierungszeichen drumherum (und das sind pro Buchstabe mehrere) wären noch da, die man auch mit irgendeiner Regel wegrationalisieren müsste. Plus: am Ende hättest du nur die einzelnen Wörter - sämtliche Formatierungen (und das sind schon Zeilenumbrüche oder Anstriche) wären verloren. Das seh ich nicht wirklich als große Hilfe.

Adobe selbst kennt dieses Problem und hat dafür keine Lösung parat - genauso sämtliche anderen PDF-Anzeiger. Es ist und bleibt ein nicht ignorierfähiger Fehler im Dokument.
...