11 返信 最新の回答 日時: Feb 9, 2016 9:06 PM ユーザー:Maria FRECOS

    OCRが画像の中の文字をまったく認識しません

    Maria FRECOS

      文章と画像が混在するパワーポイントファイルをPDFにしましたが、貼ってある画像の中のテキストをまったく読み込んでくれません。

      自動で読み取ってくれるものと思っていたのですが・・・・ 言語は日本語と英語の混在です。

      よろしくお願いいたします。

        • 1. Re: OCRが画像の中の文字をまったく認識しません
          Maria FRECOS Level 1

          補足です。パワーポイントからPDFにするとテキスト読み込みができるPDFになると思ったがならない、それならそれをWORDに変換してみたら? というのもやってみましたがもともとの文章がテキストになっただけで画像は画像のままはりつけられたWORDでした。

           

          仕方なく、結局画像の文字を目視でタイピングしています・・・・

          • 2. Re: OCRが画像の中の文字をまったく認識しません
            Subi Omu Most Valuable Participant

            Acrobatは「テキスト認識」という機能でPDF化した画像からテキストを読み取ることができます。

            ですが、この機能はWordやPowerpointで作成したPDFには適用できません。「画像にテキストデータが含まれているため認識できません」というダイアログが出るだけです。

            Powerpointを別名保存でjpgなどの画像ファイルに保存して、Acrobatで開けばテキスト変換ができます。

             

            https://helpx.adobe.com/jp/acrobat/kb/649.html

            こちらの「B-2. 取り込んだ後にOCRを適用 」を参照してください。

             

            ただ、変換精度は正直あまり高くないです。

            • 3. Re: OCRが画像の中の文字をまったく認識しません
              assause Most Valuable Participant

              利用されているバージョンが不明ですが、下記のようなメッセージが出ませんでしょうか。

              「次の理由により、このページのテキスト認識を実行できませんでした。

              このページにはレンダリング可能なテキストが含まれています。」

              (Acrobat DCの例)

               

              AcrobatのOCR機能については、テキスト情報が含まれている場合には機能せず、

              上記のようなメッセージが表示されるだけです。

              OCRを使う場合は原則としてスキャンしたビットマップ画像に対してだけになります。

              • 4. Re: OCRが画像の中の文字をまったく認識しません
                Maria FRECOS Level 1

                どうもありがとうございます。メッセージは一切でません。普通にPDFからWORDができますが、画像はそのまま画像のままです。Acrobat DCではなくXI使用です。

                ビットマップ画像に対してだけ、ということなのですが、パワーポイントのグループ化したものを画像としてコピーしたものが貼り付けてあるだけで、単独の画像ファイルはありません。

                • 5. Re: OCRが画像の中の文字をまったく認識しません
                  Maria FRECOS Level 1

                  どうもありがとうございます。

                  Adobe はReader XIで Cloud でPDFからWORDなどに変換しています。

                  なので、いただいたURLに

                  次のいずれかの操作を行います。

                  • すぐにスキャナーで読み込む場合
                    ファイル/作成/スキャナーから PDF/カスタムスキャン を選択します。
                  • プリセット設定を作成し、後からスキャナーで読み込む場合
                    ファイル/作成/スキャナーから PDF/プリセットを設定 を選択します。

                  という説明がありましたが、そもそもファイルの下の「作成」というのがないのです。


                  ですので、

                  >取り込んだ後にOCRを適用


                  をチェックしようにも出てきません・・・・

                  • 6. Re: OCRが画像の中の文字をまったく認識しません
                    Subi Omu Most Valuable Participant

                    ReaderにOCR機能はありませんので、画像をOCR認識できほかのソフトを使うしかないですね。

                    Just PDFやいきなりPDFが有名ですが、探せばフリーソフトがあるかもしれません。

                    ただフリーのものですと精度は有料ソフトより落ちると思ったほうがいいのでは。

                    • 7. Re: OCRが画像の中の文字をまったく認識しません
                      Maria FRECOS Level 1

                      どうもありがとうございます。いきなりPDFを使っていてパワポ→PDFにしてもOCRに読み込めなくて、さらにPDFからWORDにする必要がいずれにせよあったのでReaderで開いたP DFをWORDに変換しようと思ったらCloud登録が必要、とあり、その先の説明を読んだら、OCRで読み込んでテキスト化したWORDが作れます的な内容があったので継続利用契約を申し込 んだのです・・・・

                       

                      使えないなら申し込んだ意味がないですね・・・・

                      画像ファイルではなく、パワポ上で「画像としてコピペ」したものの文字を読み込む方法ってないのでしょうか・・・・

                      コピペ前の元データがあればいいのですが、ないのです。

                      • 8. Re: OCRが画像の中の文字をまったく認識しません
                        Subi Omu Most Valuable Participant

                        整理させてください。

                        Creative Cloudに登録しないで無料のAdobe Reader XIを使っていて、OCRテキスト化のためにCreative Cloudに有料登録したということですか?

                         

                        そういうことでしたら、Creative Cloudで「Acrobat DC」が使えますのでそちらでテキスト認識が使えます。

                        Adobe Reader XIはそのまま使い続けられますよ。ただし、「Adobe Acrobat Reader DC」をインストールすると上書きされて消えてしまうので注意してください。

                        • 9. Re: OCRが画像の中の文字をまったく認識しません
                          Maria FRECOS Level 1

                          ご回答どうもありがとうございます。

                          有料登録したのは Creative Cloud ではなくAdobe Export PDFです。

                          (「PDFをWORDに変換する」をクリックしたときに、「登録してください」、と出たのでそのまま有料登録しました。月額200円のです。)

                           

                          Acrobat DCは過去にいったんダウンロードしたのですが、そこから「その他の形式で保存」を選んでテキストファイルにすると、XIまではそのまま保存できたのに、なぜかスペースが全部なくなってしま う(単語と単語の間のスペースが全部なくなってしまう)ので、アンインストールしてXIに戻して使っています。

                           

                          これまではテキストファイルに保存した内容をもう一度空のWORDに貼り付けて文字数を数えていたので、PDFから直接WORDに変換できるのはありがたいのですが、画像化された部分が読み込 まれないと、目視で全部タイピングすることになるので・・・・

                          (PDFからWORDにするのは単に文字数を数えるためです。文字数数えるためだけに全部タイピングするのがどうも・・・・・そのためにわざわざCreative Cloud に登録するのもコスパ悪すぎます。)

                           

                          文字数を数えるだけなので何か良い方法があると良いのですが。

                          • 10. Re: OCRが画像の中の文字をまったく認識しません
                            Subi Omu Most Valuable Participant

                            なるほど…翻訳のお仕事でしょうか。

                             

                            Adobe Export PDFはOCR機能がありますね。

                            https://helpx.adobe.com/jp/document-cloud/help/using-ocr-exportpdf.html

                            こちらは文字データを一切含まない、画像から作成したPDFから文字を抽出する機能ですので、PowerPointやWordから作成したPDFには使えません。いきなりPDFでOCR機能が 使えなかったのも同じ理由だと思います。

                             

                            面倒ですがPDFをいったん1ページずつ画像化すればAdobe Export PDFでもいきなりPDFでもテキスト認識できます。

                            PowerPointからテキスト認識したいページを画像で書き出し→いきなりPDFでPDFにまとめて「囲んで読取」機能で必要なところだけOCR、が一番簡単そうですね。

                            • 11. Re: OCRが画像の中の文字をまったく認識しません
                              Maria FRECOS Level 1

                              どうもありがとうございます!はい、そうです。文字数数えて、翻訳のお見積もりを出すためだけにタイピングしないといけないというのが分量が多い場合、あまりにも効率が悪いので・・・・

                              PDFを画像化して読み込みですね。やってみます!