Nicht-durchsuchbare PDF-Dateien in DEVONthink finden

Wer seit mehreren Jahren PDFs ablegt, stößt immer wieder auf alte Dateien, die keinen Text-Layer haben. Wenn du DEVONthink benutzt, gibt es einen einfachen Weg diese nicht-durchsuchbaren PDFs anzuzeigen.

Als ich vor etwa fünf Jahren angefangen habe DEVONthink* zu verwenden, hatte ich zahlreiche PDFs von gescannten Dokumenten, die nicht durchsuchbar waren. Ich hatte sie vorher zum großen Teil in Evernote, wo das nicht weiter aufgefallen war, da Evernote die Daten aufbereitet. Mit dem Wechsel zu DEVONthink fiel das immer mehr auf. Ich stieß regelmäßig auf PDFs, die ich vorher in Evernote über die Volltextsuche gut finden konnte, nun aber in DEVONthink mühselig mit der Hand in der Verzeichnisstruktur suchen musste.

Als ich das Upgrade auf DEVONthink Office Pro gemacht habe, wollte ich diese PDFs nun alle mit OCR durchsuchbar machen. Ich hatte aber keine Idee, wie ich die über meine Datenbank verstreuten Dateien finden sollte. Im Hauptfenster von DEVONthink erscheint bei der Detailansicht eines PDFs als Art “PDF+Text”. Danach kann man aber nicht suchen. Wenn man nämlich eine intelligente Gruppe anlegt, bekommt man unter “Art” nur “PDF/PS” als möglichen Dateityp für PDFs angezeigt.

Irgendwann bin ich mit der Hand alle PDFs durchgegangen und habe sie einzeln geprüft. Das hätte ich viel einfacher haben können. Und zwar so einfach, dass ich immer noch über mich den Kopf schüttele, dass ich nicht früher darauf gekommen bin.

Beim Stöbern im Forum von DEVONtechnologies bin ich über einen Beitrag des Foren-Mitglieds “lutz_” gestolpert, der dort eine intelligente Suche beschrieben hat, die nämlich genau das tut: PDFs ohne Text-Layer anzeigen. Der Trick ist: Suche nach Typ “PDF/PS” UND nach Wortzahl “0”.

Intelligente Gruppe "PDF nicht durchsuchbar" in DEVONthink

So einfach ist das, denn natürlich hat ein nicht-durchsuchbares PDF keine Worte und kann auf diese Weise identifiziert werden.

Ich habe mir so eine intelligente Gruppe gleich für meine Datenbank insgesamt und zusätzlich jeweils auf den Eingang der Datenbank und den globalen Eingang beschränkt angelegt. So habe ich gleich im Blick, wenn PDFs ohne Text reinkommen. Bei mir sind das zB Dokumente, die ich für mein papierloses Büro mit dem iPhone scanne.

Schreibe einen Kommentar