3 Replies Latest reply: Mar 1, 2014 8:35 AM by basbebe RSS

    Acrobat: gescannte Documente nach OCR als PDF/A-2b speichern

    basbebe

      Hallo!

       

      Ich nutze OSX 10.8.3 und Acrobat Professional XI (11.0.2).

       

      Ich versuche folgenden Ablauf zu realisieren:

       

      Objekte werden in OSX gescannt und in einem bestimmten Ordner abgelegt.

      Dann werden in einer Acrobat Aktion die scane "optimiert", also komprimiert und Text per OCR erkannt.

      Diese sobearbeiteten Dateien sollen in der gleichen Aktion als PDF/A-2b gespeichert werden.

       

      Hier mein Problem:

      Jedes mal wenn ich ein gescanntes und optimiertes Dokument (in dem also per OCR Text hinterlegt ist) in ein PDF/A-2 umwandeln möchte geht dabei der hinterlegt, durchsuchbare Text verloren!

      Ich habe schon mehrere Varianten mit verschiedenen Einstellungen ausprobiert ("speicerhn al", Preflight,...), alle führen jedoch zu dem gleichen Ergebnis: Ich erhalte deutlich größere Dateien die aber keinen durchsuchbaren Text enthalten.

       

      Die Umwandlung in PDF/A-1b war erfolgreicht. Ich möchte aber gerne - vor allem wegen der Nutzung von JPG2000 in PDF/A-2b oder PDF/A-2u konvertieren. Beides sollte meiner Meinung nach problemlos möglich sein und eigentlich den OCR-Text erhalten.

       

      Wo ist hier das Problem?

      Ist das ein Fehler im Acrobat?

      Mache ich etwas falsche, übersehe ich etwas?

       

      Vielen Dank!

        • 1. Re: Acrobat: gescannte Documente nach OCR als PDF/A-2b speichern
          basbebe Community Member

          Hallo!

           

          Das Problem besteht nach 9 Monaten unter 10.9.2 mit Acrobat Pro 11.0.06 immer noch!

           

          Das Hauptproblem scheinen von Acrobats OCR erzeugte .notdef-Glyphen zu sein.

          Die können von Preflight nicht ersetzt werden, daher wirde jede Seite via PostScript rekonvertiert und der unsichtbare OCR-Text verworfen.

           

          Da PDF/A-2 und PDF/A-3 keine .notdef-Glyphen mehr erlauben ist dies natürlich ein großes Problem und hätte schon lange behoben werden müssen!

           

          Im Preflight-Preset für die PDF/A-2 Konvertierung existiert eine Korrektur die alle .notdef-Glyphen ersetzen soll. Diese Korrektur hat jedoch (auch wenn man ein Benutzerdefiniertes Profil mit dieser Korrektur erstellt) keinerlei Auswirkung auf das Dokument und die Glyphen!

           

          Eigentlich sollte OCR vermutlich überhaupt keine .notdef-Glyphen verwenden. Und dann sollte natürlich die Preflight-Funktion funktionieren!

          • 2. Re: Acrobat: gescannte Documente nach OCR als PDF/A-2b speichern
            Willi Adelberger Community Member

            Wahrscheinlic eignet sich der Inhalt nicht für ein A-PDF, in vielen Fällen muss sogar der Inhalt gerastert werden, damit ein A-PDF gespeichert werden kann. Das Problem ist, dass Du etwas von A erwartest, was es nicht liefern kann. Wozu brauchst Du das PDF/A, tut's ein anderes nicht auch? Es gibt m. E. nach, nur wenige Fälle, wo wirklich der A-Standard benötigt wird.

            • 3. Re: Acrobat: gescannte Documente nach OCR als PDF/A-2b speichern
              basbebe Community Member

              Hallo Willi,

               

              Ja, ich möchte gerne ein PDF/A-2 konformes Dokument.

              Der Inhalt eignet sich per Definition für PDF/A – es ist ja quasi genau das wofür PDF/A gedacht ist.

              Wie gesagt: Die Konvertierung von SW-Dokumenten in PDF/A-1b funktioniert, nur die Konvertierung in PDF/A-2b funktioniert nicht weil .notdef-Glyphen nicht ersetzt werden (bzw. Acrobat's OCR die überhaupt erst einfügt).

              Der Inhalt ist gerastert – es handelt sich ja um einen Scan. Die dahinter liegende Schrift ist das Problem welches eigentlich auch keines sein sollte:

              http://www.pdfa.org/2011/09/pdfa-–-ein-blick-auf-die-technische-seite/?lang=de

              Ich verlange nichts von PDF/A, das es nicht liefern kann.