0 返信 最新の回答 日時: Jun 1, 2016 4:04 AM ユーザー:yasuharuo83802467

    PDFファイルから日本語文字列を抽出する方法

    yasuharuo83802467

      PDFファイルから文字列を抽出するプログラムを書こうとしています。

      ファイルからオブジェクトを読み取り、文字列を抽出しようとしていますが、

      下記のような、文字のエンコードができないケースが発生します。

       

      赤字部分のような現象、太字部分のような疑問点、について何かご存知の方がいらっしゃましたら、

      御教示頂けますと大変助かります。

       

      現象1. ()で囲まれたリテラル部分に、バイナリのようなコードが入っているPDFファイルがある

       →()内にバイナリの値やCIDのような値が入っており、エンコードできずに化けた文字列として抽出してしまう

       →()内に、ASCII ないしエスケープ文字以外が入っていることを検知できるような、タグのようなものがあるのでしょうか?

       

      現象2. CMapが不完全と思われるPDFファイルがある

       →<>で囲まれた文字コードを、PDFファイル内で格納されているCMap から検索しても、 ヒットしない

       →かつ、PDFファイル内で /encoding で指定される設定が、

         http://wwwimages.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf

         Table 118 – Predefined CJK CMap names

        のJapanese のものとして定義されているもの 以外の文字列の場合があり、

        適切なコード抽出ができない。

       →どこかに、上記定義外の一般的なCMapのようなものが存在するのでしょうか?

       

       

      以上、宜しくお願い致します。