リンクをクリップボードにコピー
コピー完了
日本語から簡体字への翻訳時に、EPS図中の訳漏れチェックを以下の流れで行おうとしました。
(1) 納品されたEPS図(複数)を含むフォルダを右クリックし、[ファイルをAcrobatで結合]を選択
(2) 「ファイルを結合」ダイアログ内の[ファイルを結合]をクリック
(3) Acrobatのメニュー[ファイル]-[その他の形式で保存]-[その他のオプション]-[テキスト(プレーン)]を選択し、ファイル名を「訳漏れチェック.txt」にして保存
(4) 検索ツールを使用し、「訳漏れチェック.txt」にひらがな/カタカナが含まれていないかを検索
元々、欧州言語で同様のチェックを実施していました。
欧州言語の場合、ひらがな/カタカナの代わりに英単語を検索します。
欧州言語では特に問題は発生していません。
ところが、簡体字の場合は(3)で保存した「訳漏れチェック.txt」に簡体字のテキストが書き込まれません。
代わりに「.」になります。
(「....../ ..... C.....」のように簡体字の部分が「.」になります。)
テキストエディタ上での見栄えか確認しましたが、「.」はASCIIコードの「2E」でした。
原因や対策をご存じの方がおられましたらご教示いただけると助かります。
[使用アプリケーション]
・Acrobat XI Pro
・Illustrator CS3
・テキストエディタ:EmEditor
・検索ツール:HNXgrep
よろしくお願いします。
完全に同じ環境ではないので参考までにですが、下記環境・状態で試してみました。
この時、①③は「两」が表示されてu+4e24として示され、②は「.」で表示されてu+002eになりました。
また、EPSからコピー&ペーストでエディタに貼りつけた場合も結果は①③と
...リンクをクリップボードにコピー
コピー完了
Acrobatから書き出されたテキストのエンコーディングが気になるところです。
デフォルトのままだと、Shift_JISになる可能性があり、そうなるとCJI統合漢字のすべては情報としては残らず、
所謂文字化けになる可能性があるためです。
もし設定を変更していない場合、UTF-8またはUTF-16にしてから書き出しなおしてはどうでしょうか。
リンクをクリップボードにコピー
コピー完了
早速の返信をありがとうございます。
エンコーディングは全く気にしておらずデフォルトのまま運用していました。
結論としてはまだ解決しておりませんが、以下の状況です。
[デフォルトの場合 (「.」に化ける)]
EmEditorで確認したところ、エンコーディングは日本語シフトJISでした。
[UTF-8およびUTF-16の場合]
EmEditorで確認したところ、エンコーディングは指定したとおりUTF-8およびUTF-16になりました。
デフォルトのように簡体字部分が「.」になることはありませんが、UTF-8/UTF-16のいずれもASCIIコード以外は文字化けしています。
参考になるかわかりませんが、UTF-8のテキストファイル上で文字コード値を確認してみました。
例 「Z相」 ... 「相」の文字コードはU+76F8
UTF-8のテキストファイルで文字コードは「U+005A」+「U+2D2E」でした。
元データ(EPS)を開き、「Z相」をコピー&ペーストで新規テキスト書類へ貼り付けた場合は「U+005A」+「U+76F8」でした。
また、PDF上で同じテキストをコピー&ペーストした場合は「U+005A」+「U+2D2E」でした。
EPS→PDFへの変換で文字コードが変更されているような印象を受けました。
リンクをクリップボードにコピー
コピー完了
完全に同じ環境ではないので参考までにですが、下記環境・状態で試してみました。
この時、①③は「两」が表示されてu+4e24として示され、②は「.」で表示されてu+002eになりました。
また、EPSからコピー&ペーストでエディタに貼りつけた場合も結果は①③と同様でした。
となると、Illustrator時点の使用フォントや状態などが気になるところです。
あわせて字形パネルで見たときのコードポイントもチェックが必要かもしれません。
リンクをクリップボードにコピー
コピー完了
返信が遅くなり、申し訳ありません。
同様にテストし、結果が同じになることを確認しました。
また、元々のフォント(黒体)ではいずれの場合も文字化けしました。
フォントについては特に決めておらず、中国の外注にお任せした結果「黒体」が使われていました。
PDF、印刷ともに現状のフォントで問題がないため、特に気にしていませんでした。
訳漏れチェックのためだけにフォントを変更することはできませんが、一般的に簡体字のマニュアルで使われているフォントが何かを確認してみます。
そのフォントで訳漏れチェックができるかどうかは別問題ですね。
ありがとうございました。
リンクをクリップボードにコピー
コピー完了
正解マークを頂いておりますが、フォント情報を貰ったのでこちらでも簡単ですが再確認しました。
今回の環境はWindows 7+Illustrator CS3+Acrobat 9.5.5で、OS標準の「黒体」(SimHei)を使いました。
すると下記の件が判明しました。
PSやEPSにした時点でオリジナルのフォント情報やエンコーディングが変わることからの影響のようです。
また中国語のTrueTypeでCID情報を持たないことも影響の範囲になりそうです。
(PSの時点でどこまで中国語を考慮して処理するか、という点も含まれそうです)
この場合、使用フォントを見直すか、テキスト抽出を踏まえたデータ生成方法を考慮するかのいずれかで考えなければいけないかもしれません。
リンクをクリップボードにコピー
コピー完了
引き続きありがとうございます。
複数のファイルのチェックをするため、エクスプローラ上で複数ファイルを選択して結合したPDFを生成しておりましたが、以下の流れを試してみました。
(1) 対象のepsを1ファイルずつIllustrator CS3で開き、メニュー[ファイル]-[別名で保存]よりpdfで保存
(PDFプリセットは「[Illustrator初期設定]」)
(2) (1)で保存した複数のpdfをエクスプローラ上で右クリックし、[ファイルをAcrobatで結合]でpdfを生成
(3) 結合したpdfからプレーンテキストを出力
これだと(3)のテキストは化けませんでした。
エクスプローラ上でpdfを生成する際のPDF設定に左右されているような印象を受けました。
なお、[コントロールパネル]-[デバイスとプリンター]-[Adobe PDF]の印刷設定でPDF設定は「高品質印刷」です。
フォントはすべて埋め込む設定になっており、「フォントの一覧」に「SimHei」は入っています。
現状のフォントでも上記の手順であれば想定したチェックができるようで、希望の光が見えてきた感じです。
リンクをクリップボードにコピー
コピー完了
こちらの表現が良くなかったので恐縮ですが、
「別名で保存」でPDFを作成したことによって、フォント情報がEPS時点と変わっているためです。
(当方が先に記載した「ダイレクトにPDFを出力」と同じです)
フォント情報が変われば、その後のPDF結合でも影響はありませんから、
結果として意図するテキスト抽出ができているのだと思います。
できればPDFのプロパティで、EPSから作成した場合とPDFとして直接別名保存した場合の
フォント情報を比べてみていただくのがよさそうです。
リンクをクリップボードにコピー
コピー完了
ありがとうございます。
pdfの文書のプロパティよりフォント情報を確認してみました。
[EPSから作成したpdf]
・ArialMT (埋め込みサブセット)
種類:TrueType
エンコーディング:Ansi
・Century (埋め込みサブセット)
種類:TrueType
エンコーディング:Ansi
・SimHei (埋め込みサブセット)
種類:TrueType (CID)
エンコーディング:Identity-H
[エクスプローラ上で結合したpdf]
・ArialMT (埋め込みサブセット)
種類:Type 1
エンコーディング:Ansi
・Century (埋め込みサブセット)
種類:Type 1
エンコーディング:Ansi
・SimHei-GBK-EUC-H (埋め込みサブセット)
種類:Type 1 (CID)
エンコーディング:Identity-H
今回作成したpdfは3つのepsファイルを結合したものですが、以下の違いがありました。
[EPSから作成したpdf]
・すべてA4サイズ
・ファイルサイズが679KB
[エクスプローラ上で結合したpdf]
・図ごとに大きさが異なる (余白を含まない)
・ファイルサイズが84KB
リンクをクリップボードにコピー
コピー完了
フォントプロパティのご提示ありがとうございます。
やはり、別名保存PDFは「SimHei/TrueType(CID)」で、Distiller変換PDFが「SimHei-GBK-EUC-H/Type1(CID)」なので、
こちらの確認と同じ状態ですので、PDF生成方法の違いによるフォント情報の差異が影響していそうです。
なお、PDFのページサイズが異なるのも、生成方法の違いといえます。
Illustratorでの別名保存での場合は、Illustratorで設定した用紙サイズで保存されます。
一方、EPSをDistillerで変換した場合、バウンディングボックス(配置されたオブジェクトのサイズ)として
変換されるので、結果としてEPSごとにページサイズが変わる状態になります。
これは、EPSがレイアウトに配置するためのパーツのひとつとしての扱うことを基準にしたデータの持ち方で
あることが影響していると考えるのが良いと思います。