3 返信 最新の回答 日時: Sep 23, 2015 10:26 PM ユーザー:ryusei kouki

    テキスト変換すると文字化けするPDF

    chihiro620

      現在、テキスト変換すると文字化けしてしまうPDFをOCR処理して正しくテキストコピーできるPDFに変換したいと考えています

       

      手元の大量のPDFは、reader ではきちんと表示されますが、テキスト保存すると文字化けします。

      また、テキストコピーしようとするとエラーになります。

      文字列の選択はできますが、文字列の検索はできません。

      プロパティ→フォントをみると、

      ・実際のフォント、実際のフォントの種類

      ・埋め込みサブセット、エンコーディング:カスタム

      などとあります。

       

      テキストが文字化けせずに正しくコピーアンドペーストできるようなPDFに変換したいのですが、

      acrobat pro DCのOCR処理でできますでしょうか?

      またどのように操作すればよいか教えていただけますでしょうか?

       

      なおおよそ4000ファイルのPDFを処理したいと考えています。

        • 1. Re: テキスト変換すると文字化けするPDF
          ryusei kouki Level 3

          OCR処理ということで、手順としては、

          Acrobat | スキャナ取込みの際に文字をテキストとして認識させる方法 (Acrobat XI/DC)

          となります。

           

          確認なのですが、お手元の約4000ファイルのPDFはご自身で作成されたPDFでしょうか?

          PDF変換時の設定で、「アウトライン送信」を指定している場合、エンコード:カスタム

          となっていますと、見た目だけを維持する(テキスト検索は出来ない)PDFになる場合もあります。

          オリジナルデータが無く、現状のPDFからのテキスト検索可能PDFを作成する場合、

          OCRという選択になるのかと思いますが、誤変換された場合などの対応も必要かと思われます。

          • 2. Re: テキスト変換すると文字化けするPDF
            chihiro620 Level 1

            ありがとうございます。

             

            現在手元にあるファイルは、販売されている企業データのPDFで、自分で作成したものではありません。

             

            リ ンク先の手順B-2を行ってみましたところ、

            テキスト認識の設定で出力を「検索可能な画像」に設定すると、「このページにはレンダリング可能なテキストが含まれています」というエラーに なり、出力を「編集可能なテキストと画像」にすると、「このページにはテキストが含まれており、完全な画像ではありません」のエラーになります。

            • 3. Re: テキスト変換すると文字化けするPDF
              ryusei kouki Level 3

              販売されているPDFの加工ということですね。

              ライセンスはクリアされているものとして、お返事いたします。

               

              まず、AcrobatのOCR機能についてですが、スキャンした画像で出来ているPDFを対象にした機能かと思われます。

              お試しいただいたように、テキストとして認識できている※場合には、ご記入いただいたようなアラートが表示されます。

              ※テキストとしてコピーしてエディタ等にペーストすると中黒(・)のようになる状態の文字化けを意味しています。

               

              このような場合、PDFを画像に変換し、画像から再度PDFに変換したPDFを作ることで、OCR機能を利用することが可能なのではないかと思います。

               

               

              画像への書き出し方法のリンクです。画像の形式は、PDFの内容やファイルサイズ等を考慮して選定してください。

              Acrobat | PDF を他のファイル形式で書き出す方法 (Acrobat DC)

               

              作成した画像からPDF作成の方法についてのリンクです。

              Acrobat ヘルプ | Acrobat DC での PDF の作成

              「ドラッグ&ドロップで PDF を作成」の項目へリンクを貼りました。

              出来あがったPDFについてOCRを実行し、透明テキスト埋め込みが可能になるかと思われます。

              また、検索機能も可能になるとは思いますが、OCR処理における誤変換についての対応は、知識不足によりアドバイスできませんので、ご承知おきください。