EPS図中の翻訳漏れを見つける手段と簡体字の問題点

レポート · Dec 19, 2016

日本語から簡体字への翻訳時に、EPS図中の訳漏れチェックを以下の流れで行おうとしました。

(1) 納品されたEPS図(複数)を含むフォルダを右クリックし、[ファイルをAcrobatで結合]を選択

(2) 「ファイルを結合」ダイアログ内の[ファイルを結合]をクリック

(3) Acrobatのメニュー[ファイル]-[その他の形式で保存]-[その他のオプション]-[テキスト(プレーン)]を選択し、ファイル名を「訳漏れチェック.txt」にして保存

(4) 検索ツールを使用し、「訳漏れチェック.txt」にひらがな/カタカナが含まれていないかを検索

元々、欧州言語で同様のチェックを実施していました。

欧州言語の場合、ひらがな/カタカナの代わりに英単語を検索します。

欧州言語では特に問題は発生していません。

ところが、簡体字の場合は(3)で保存した「訳漏れチェック.txt」に簡体字のテキストが書き込まれません。

代わりに「.」になります。

(「....../ ..... C.....」のように簡体字の部分が「.」になります。)

テキストエディタ上での見栄えか確認しましたが、「.」はASCIIコードの「2E」でした。

原因や対策をご存じの方がおられましたらご教示いただけると助かります。

[使用アプリケーション]

・Acrobat XI Pro

・Illustrator CS3

・テキストエディタ：EmEditor

・検索ツール：HNXgrep

よろしくお願いします。

レポート · Dec 19, 2016

Acrobatから書き出されたテキストのエンコーディングが気になるところです。

デフォルトのままだと、Shift_JISになる可能性があり、そうなるとCJI統合漢字のすべては情報としては残らず、

所謂文字化けになる可能性があるためです。

もし設定を変更していない場合、UTF-8またはUTF-16にしてから書き出しなおしてはどうでしょうか。

レポート · Dec 19, 2016

早速の返信をありがとうございます。

エンコーディングは全く気にしておらずデフォルトのまま運用していました。

結論としてはまだ解決しておりませんが、以下の状況です。

[デフォルトの場合 (「.」に化ける)]

EmEditorで確認したところ、エンコーディングは日本語シフトJISでした。

[UTF-8およびUTF-16の場合]

EmEditorで確認したところ、エンコーディングは指定したとおりUTF-8およびUTF-16になりました。

デフォルトのように簡体字部分が「.」になることはありませんが、UTF-8/UTF-16のいずれもASCIIコード以外は文字化けしています。

参考になるかわかりませんが、UTF-8のテキストファイル上で文字コード値を確認してみました。

例「Z相」 ... 「相」の文字コードはU+76F8

UTF-8のテキストファイルで文字コードは「U+005A」+「U+2D2E」でした。

元データ(EPS)を開き、「Z相」をコピー&ペーストで新規テキスト書類へ貼り付けた場合は「U+005A」+「U+76F8」でした。

また、PDF上で同じテキストをコピー&ペーストした場合は「U+005A」+「U+2D2E」でした。

EPS→PDFへの変換で文字コードが変更されているような印象を受けました。

レポート · Dec 19, 2016

完全に同じ環境ではないので参考までにですが、下記環境・状態で試してみました。

Windows 10環境+Illustrator CS3+Acrobat DC Continious 2015.020.20042（CS3は動作保証外環境）
「Adobe Song Std L」と「Adobe Kaiti Std L」で「有后，今年没有一点两个星期。」を入力（2ファイル分）
（ここで該当するのは「两」のみ）
EPSとして保存し、エクスプローラーで2ファイルを選択、右クリック→ファイルをAcrobatで結合を選択
Acrobatのダイアログで結合処理を指定
表示されたPDFをコピーペーストでエディタ（UTF-8で準備）に貼り付け①
ファイルメニューより書き出し形式→テキスト（プレーン）で、マッピングテーブルのデフォルト②とUTF8-8③で保存
それぞれをエディタ（フリーのMery Build 2.4.6.5927）でコードポイントを確認

この時、①③は「两」が表示されてu+4e24として示され、②は「.」で表示されてu+002eになりました。

また、EPSからコピー＆ペーストでエディタに貼りつけた場合も結果は①③と同様でした。

となると、Illustrator時点の使用フォントや状態などが気になるところです。

あわせて字形パネルで見たときのコードポイントもチェックが必要かもしれません。

レポート · Jan 06, 2017

返信が遅くなり、申し訳ありません。

同様にテストし、結果が同じになることを確認しました。

また、元々のフォント(黒体)ではいずれの場合も文字化けしました。

フォントについては特に決めておらず、中国の外注にお任せした結果「黒体」が使われていました。

PDF、印刷ともに現状のフォントで問題がないため、特に気にしていませんでした。

訳漏れチェックのためだけにフォントを変更することはできませんが、一般的に簡体字のマニュアルで使われているフォントが何かを確認してみます。

そのフォントで訳漏れチェックができるかどうかは別問題ですね。

ありがとうございました。

レポート · Jan 06, 2017

正解マークを頂いておりますが、フォント情報を貰ったのでこちらでも簡単ですが再確認しました。

今回の環境はWindows 7+Illustrator CS3+Acrobat 9.5.5で、OS標準の「黒体」（SimHei）を使いました。

すると下記の件が判明しました。

ダイレクトにPDFを出力した場合のフォント情報は「SimHei」で、TrueType(CID)として認識
そのPDFではテキストの抽出は可能
EPSにし（フォントは埋め込み）、DistillerでPDFにした場合のフォント情報は「SimHei-GBK-EUC-H」でType1(CID)として認識
この場合、PDFから直接コピー＆ペーストした時点で結果が異なる
EPS内のフォント情報を見ると、その時点で「SimHei-GBK-EUC-H」となっている
フォントを埋め込まずにPDF化した場合はフォント自体が置き換わるかPSエラーが発生（フォント情報は上と同じ）

PSやEPSにした時点でオリジナルのフォント情報やエンコーディングが変わることからの影響のようです。

また中国語のTrueTypeでCID情報を持たないことも影響の範囲になりそうです。

（PSの時点でどこまで中国語を考慮して処理するか、という点も含まれそうです）

この場合、使用フォントを見直すか、テキスト抽出を踏まえたデータ生成方法を考慮するかのいずれかで考えなければいけないかもしれません。

レポート · Jan 09, 2017

引き続きありがとうございます。

複数のファイルのチェックをするため、エクスプローラ上で複数ファイルを選択して結合したPDFを生成しておりましたが、以下の流れを試してみました。

(1) 対象のepsを1ファイルずつIllustrator CS3で開き、メニュー[ファイル]-[別名で保存]よりpdfで保存

　　(PDFプリセットは「[Illustrator初期設定]」)

(2) (1)で保存した複数のpdfをエクスプローラ上で右クリックし、[ファイルをAcrobatで結合]でpdfを生成

(3) 結合したpdfからプレーンテキストを出力

これだと(3)のテキストは化けませんでした。

エクスプローラ上でpdfを生成する際のPDF設定に左右されているような印象を受けました。

なお、[コントロールパネル]-[デバイスとプリンター]-[Adobe PDF]の印刷設定でPDF設定は「高品質印刷」です。

フォントはすべて埋め込む設定になっており、「フォントの一覧」に「SimHei」は入っています。

現状のフォントでも上記の手順であれば想定したチェックができるようで、希望の光が見えてきた感じです。

レポート · Jan 09, 2017

こちらの表現が良くなかったので恐縮ですが、

「別名で保存」でPDFを作成したことによって、フォント情報がEPS時点と変わっているためです。

（当方が先に記載した「ダイレクトにPDFを出力」と同じです）

フォント情報が変われば、その後のPDF結合でも影響はありませんから、

結果として意図するテキスト抽出ができているのだと思います。

できればPDFのプロパティで、EPSから作成した場合とPDFとして直接別名保存した場合の

フォント情報を比べてみていただくのがよさそうです。

レポート · Jan 09, 2017

ありがとうございます。

pdfの文書のプロパティよりフォント情報を確認してみました。

[EPSから作成したpdf]

・ArialMT (埋め込みサブセット)

　種類：TrueType

　エンコーディング：Ansi

・Century (埋め込みサブセット)

　種類：TrueType

　エンコーディング：Ansi

・SimHei (埋め込みサブセット)

　種類：TrueType (CID)

　エンコーディング：Identity-H

[エクスプローラ上で結合したpdf]

・ArialMT (埋め込みサブセット)

　種類：Type 1

　エンコーディング：Ansi

・Century (埋め込みサブセット)

　種類：Type 1

　エンコーディング：Ansi

・SimHei-GBK-EUC-H (埋め込みサブセット)

　種類：Type 1 (CID)

　エンコーディング：Identity-H

今回作成したpdfは3つのepsファイルを結合したものですが、以下の違いがありました。

[EPSから作成したpdf]

・すべてA4サイズ

・ファイルサイズが679KB

[エクスプローラ上で結合したpdf]

・図ごとに大きさが異なる (余白を含まない)

・ファイルサイズが84KB

レポート · Jan 10, 2017

フォントプロパティのご提示ありがとうございます。

やはり、別名保存PDFは「SimHei/TrueType(CID）」で、Distiller変換PDFが「SimHei-GBK-EUC-H/Type1(CID)」なので、

こちらの確認と同じ状態ですので、PDF生成方法の違いによるフォント情報の差異が影響していそうです。

なお、PDFのページサイズが異なるのも、生成方法の違いといえます。

Illustratorでの別名保存での場合は、Illustratorで設定した用紙サイズで保存されます。

一方、EPSをDistillerで変換した場合、バウンディングボックス（配置されたオブジェクトのサイズ）として

変換されるので、結果としてEPSごとにページサイズが変わる状態になります。

これは、EPSがレイアウトに配置するためのパーツのひとつとしての扱うことを基準にしたデータの持ち方で

あることが影響していると考えるのが良いと思います。

Adobe Community

EPS図中の翻訳漏れを見つける手段と簡体字の問題点

1 件の正解