Nicht-durchsuchbare PDF-Dateien in DEVONthink finden

Wer seit meh­re­ren Jah­ren PDFs ablegt, stößt immer wie­der auf alte Datei­en, die kei­nen Text-Lay­er haben. Wenn du DEVONthink benutzt, gibt es einen ein­fa­chen Weg die­se nicht-durch­such­ba­ren PDFs anzu­zei­gen.

Als ich vor etwa fünf Jah­ren ange­fan­gen habe DEVONthink* zu ver­wen­den, hat­te ich zahl­rei­che PDFs von gescann­ten Doku­men­ten, die nicht durch­such­bar waren. Ich hat­te sie vor­her zum gro­ßen Teil in Ever­no­te, wo das nicht wei­ter auf­ge­fal­len war, da Ever­no­te die Daten auf­be­rei­tet. Mit dem Wech­sel zu DEVONthink fiel das immer mehr auf. Ich stieß regel­mä­ßig auf PDFs, die ich vor­her in Ever­no­te über die Voll­text­su­che gut fin­den konn­te, nun aber in DEVONthink müh­se­lig mit der Hand in der Ver­zeich­nis­struk­tur suchen muss­te.

Als ich das Upgrade auf DEVONthink Office Pro gemacht habe, woll­te ich die­se PDFs nun alle mit OCR durch­such­bar machen. Ich hat­te aber kei­ne Idee, wie ich die über mei­ne Daten­bank ver­streu­ten Datei­en fin­den soll­te. Im Haupt­fens­ter von DEVONthink erscheint bei der Detail­an­sicht eines PDFs als Art “PDF+Text”. Danach kann man aber nicht suchen. Wenn man näm­lich eine intel­li­gen­te Grup­pe anlegt, bekommt man unter “Art” nur “PDF/PS” als mög­li­chen Datei­typ für PDFs ange­zeigt.

Irgend­wann bin ich mit der Hand alle PDFs durch­ge­gan­gen und habe sie ein­zeln geprüft. Das hät­te ich viel ein­fa­cher haben kön­nen. Und zwar so ein­fach, dass ich immer noch über mich den Kopf schüt­te­le, dass ich nicht frü­her dar­auf gekom­men bin.

Beim Stö­bern im Forum von DEVON­tech­no­lo­gies bin ich über einen Bei­trag des Foren-Mit­glieds “lutz_” gestol­pert, der dort eine intel­li­gen­te Suche beschrie­ben hat, die näm­lich genau das tut: PDFs ohne Text-Lay­er anzei­gen. Der Trick ist: Suche nach Typ “PDF/PS” UND nach Wort­zahl “0”.

So ein­fach ist das, denn natür­lich hat ein nicht-durch­such­ba­res PDF kei­ne Wor­te und kann auf die­se Wei­se iden­ti­fi­ziert wer­den.

Ich habe mir so eine intel­li­gen­te Grup­pe gleich für mei­ne Daten­bank ins­ge­samt und zusätz­lich jeweils auf den Ein­gang der Daten­bank und den glo­ba­len Ein­gang beschränkt ange­legt. So habe ich gleich im Blick, wenn PDFs ohne Text rein­kom­men. Bei mir sind das zB Doku­men­te, die ich für mein papier­lo­ses Büro mit dem iPho­ne scan­ne.

Du bist noch kein DEVONthink Nut­zer? Dann schau’ doch mal bei DEVON­tech­no­lo­gies vor­bei und infor­mie­re dich.*

Schreibe einen Kommentar