3 返信 最新の回答 日時: Feb 20, 2009 2:41 PM ユーザー:(radeon)

    空白の検索

      PDFファイル内の文字列の検索で、全角スペースと、半角スペースを区別して検索できるのでしょうか?
      完全一致検索では全角スペースを含むものも検索できそうな記載がされているのですが、私を含め何人かで別々のマシンで検索してみましたが全角スペースを含んだ検索はヒットしません。
        • 1. Re: 空白の検索
          Level 1
          操作環境は明確にお願いします。

          > 全角スペースと、半角スペースを区別して検索できるのでしょうか?
          逆に質問ですが、スペース(空白)を検索する必要は何なのでしょう?

          > 完全一致検索では全角スペースを含むものも検索できそうな記載がされているのですが
          どこにそういう記述があるのでしょうか? 具体的に明示してもらえませんか?
          「できそうな」と「できる」では全く意味が違います。
          「完全一致検索」という用語がAdobe Reader上のどこかのUI、あるいはヘルプにありますか?

          > 全角スペースを含んだ検索はヒットしません。
          検索対象が「全角スペースを含んだ」ものであることをどのように確認しているのでしょう?
          • 2. Re: 空白の検索
            Level 1
            > 全角スペースと、半角スペースを区別して検索できるのでしょうか?

            当方の環境(Acrobat Reader 5.0.5)ではできていません。
            検索ダイアログに「全角と半角を区別しない」というオプションがありますが、指定してもしなくても区別されません。
            いわゆる半角カナと全角カナでは、このオプションが有効に働きます。

            余談ですが、検索文字列の前後の空白は、全角でも半角でもトリミングされるようです。
            例えば" あ "で検索しても空白は無視され、"あ"がヒットします。
            "あ い"のように、中間にある空白はちゃんとヒット対象になります。ただ、やはり全角と半角は区別されません。

            これ以上のことは、もう少し具体的な情報がないと答えられないでしょうね。

            > スペース(空白)を検索する必要は何なのでしょう?

            んなコトどうでもエエよーな気がします。
            #相変わらずだなぁ…
            • 3. Re: 空白の検索
              Level 1
              Word2003で全角スペースと半角スペース入りの文章を作成し、PDFMakerや[Adobe PDF]プリンタへ印刷することでPDF化しました。
              出来上がったPDF文書で全文選択してから秀丸(テキストエディタ)に貼り付けると、全角スペースが半角スペースになっています。
              ナビゲーションウィンドウのコンテンツで該当テキストをみると、やはり半角スペースです。
              テキストとして保存あるいはWordとして保存しても全角スペースは無くなり、代わりに半角スペースになっています。

              PDF上は見た目は全角スペースのように見えますが、中身は半角スペースということのようです。レイアウトであたかも全角スペースがあるかのようにみせかけているということでしょうか。

              ところが、秀丸から全角スペース入り文書を[Adobe PDF]プリンタへ印刷してみたら、今度は全角スペースが全角スペースとしてPDF化されました。
              PDF文書で全文選択してから秀丸(テキストエディタ)に貼り付けると、全角スペースのままなのです。テキストとして保存しても全角スペース入りです。
              アプリケーションによって全角スペースの扱いが違うのでしょうか?

              TouchUpテキストツールで新規テキストを作成し、そこに全角スペースを入れることは可能でしたから、全角スペースがPDF上にあるのはイレギュラーではないようです。

              しかし全角スペース入りPDF文書はどうやっても全角スペースが検索対象になりません。

              「全角と半角のかなを区別しない」チェックボックスはAcrobat5.0あたりにあるようで、Adobe Reader 9では環境設定で「全角と半角を区別しない」となっています。微妙に表現は異なりますが。
              ここに「スペース(空白)」は考慮されていないのでしょう。欧米人にとってスペースは1種類しかなく、それは単語の区切りでしかないので、対象ですらない。

              PDFではレイアウトを保つためか、オリジナルには無い改行とかが挿入される場合があるようです。そういった場合にも検索のヒット率を高めるには空白や改行は無視するのがいいと考えているよう に思えます。
              検索のやり方次第では、本文とヘッダ・フッタ部分が連続した語句としてヒットする場合も見られます。

              もしPDF文書に全角スペースがあるのが確実であるなら、テキストファイルとかWordに変換して検索するという手もあるでしょう。

              一方、Adobe Readerではありませんが、Acrobat Pro(Extended)の墨消し機能にはパターン検索を用いることが可能です。

              下記サポート情報は、英語圏以外でこの機能が不十分だったのを改善したというもので、SearchRedactPatterns.xmlというXML文書を所定の場所にストアします。

              [234385]テキストパターンによる検索と墨消し(Acrobat 9 Pro Extended/Pro)
              http://support.adobe.co.jp/faq/faq/qadoc.sv?234385+002

              そのXML文書をみると正規表現を用いたものがずらりとあり、これを応用すれば全角空白の検索は可能になるかもしれません。
              正規表現で全角半角の空白を検索する手法はあちこちで紹介されているようです。

              Acrobat 9 Pro * 単語の検索と墨消し
              http://help.adobe.com/ja_JP/Acrobat/9.0/Professional/WS866F7022-9062-4d81-8BD4-1248493988C 1.w.html