Nicht-durchsuchbare PDF-Dateien in DEVONthink finden

Wer seit mehreren Jahren PDFs ablegt, stößt immer wieder auf alte Dateien, die keinen Text-Layer haben. Wenn du DEVONt­hink benutzt, gibt es einen einfa­chen Weg diese nicht-durch­such­baren PDFs anzu­zeigen.

Als ich vor etwa fünf Jahren ange­fangen habe DEVONt­hink* zu verwenden, hatte ich zahl­reiche PDFs von gescannten Doku­menten, die nicht durch­suchbar waren. Ich hatte sie vorher zum großen Teil in Ever­note, wo das nicht weiter aufge­fallen war, da Ever­note die Daten aufbe­reitet. Mit dem Wechsel zu DEVONt­hink fiel das immer mehr auf. Ich stieß regel­mäßig auf PDFs, die ich vorher in Ever­note über die Voll­text­suche gut finden konnte, nun aber in DEVONt­hink mühselig mit der Hand in der Verzeich­nis­struktur suchen musste.

Als ich das Upgrade auf DEVONt­hink Office Pro gemacht habe, wollte ich diese PDFs nun alle mit OCR durch­suchbar machen. Ich hatte aber keine Idee, wie ich die über meine Daten­bank verstreuten Dateien finden sollte. Im Haupt­fen­ster von DEVONt­hink erscheint bei der Detail­an­sicht eines PDFs als Art “PDF+Text”. Danach kann man aber nicht suchen. Wenn man nämlich eine intel­li­gente Gruppe anlegt, bekommt man unter “Art” nur “PDF/PS” als mögli­chen Dateityp für PDFs ange­zeigt.

Irgend­wann bin ich mit der Hand alle PDFs durch­ge­gangen und habe sie einzeln geprüft. Das hätte ich viel einfa­cher haben können. Und zwar so einfach, dass ich immer noch über mich den Kopf schüt­tele, dass ich nicht früher darauf gekommen bin.

Beim Stöbern im Forum von DEVON­tech­no­lo­gies bin ich über einen Beitrag des Foren-Mitglieds “lutz_” gestol­pert, der dort eine intel­li­gente Suche beschrieben hat, die nämlich genau das tut: PDFs ohne Text-Layer anzeigen. Der Trick ist: Suche nach Typ “PDF/PSUND nach Wort­zahl “0”.

Intelligente Gruppe "PDF nicht durchsuchbar" in DEVONthink

So einfach ist das, denn natür­lich hat ein nicht-durch­such­bares PDF keine Worte und kann auf diese Weise iden­ti­fi­ziert werden.

Ich habe mir so eine intel­li­gente Gruppe gleich für meine Daten­bank insge­samt und zusätz­lich jeweils auf den Eingang der Daten­bank und den globalen Eingang beschränkt ange­legt. So habe ich gleich im Blick, wenn PDFs ohne Text rein­kommen. Bei mir sind das zB Doku­mente, die ich für mein papier­loses Büro mit dem iPhone scanne.

Du bist noch kein DEVONt­hink Nutzer? Dann schau’ doch mal bei DEVON­tech­no­lo­gies vorbei und infor­miere dich.*

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.