EBシリーズサポート掲示板（終了：閲覧のみ可）

タイトル	： PDF内の一部文字が抽出できない
記事No	： 880
投稿日	： 2016/07/06(Wed) 18:07:25
投稿者	： shohei

xdoc2txtをいつも利用させていただいております。ありがとうございます。
PDFからテキストを抽出している中で、
以下のような現象が発生しております。PDFの作りが悪い場合は
PDFを修正したいのですが、何が悪いのか分からず、質問させてください。

１．PDF内の数値部分が抽出できない項目がある。
　PDF内に年月日や、金額など数値部分の文字列抽出ができないケースがあります。
　　例えば、2016年02月15日とPDF内に記載されている箇所をxdoc2txtで
　　文字列抽出すると、▲▲年▲▲月▲▲日（▲は半角スペース）となります。
　　また、1%と記載がある時、▲▲となってしまいます。（%も抽出できていない）

２．PDFからテキストが全く抽出できない。
　コマンドラインでxdoc2txtを使用して、文字列抽出をしようとすると、
　　inflate: incorrect header check
　　error in <ファイル名>
　とメッセージが出力され、PDFからテキストを抽出することができません。

１，２のファイルのプロパティを以下に記載いたします。
＜概要＞
　PDF変換：iTextSharp 5.4.4 2000-2013 1T3XT BVBA (AGPL-version)
　PDFのバージョン：1.4(Acrobat 5.x)

＜セキュリティ＞
　＜文書のセキュリティ＞
　　文書セキュリティ：セキュリティ方法　パスワードによるセキュリティ
　　互換性があるバージョン： Acrobat5.0およびそれ以降

　＜文書に関する制限の概要＞
　　印刷：許可
　　文書アセンブリ：許可しない
　　内容のコピー：許可
　　アクセシビリティのための内容の抽出：許可
　　ページの抽出：許可しない
　　注釈：許可しない
　　フォームフィールドの入力：許可しない
　　署名：許可しない
　　テンプレートページの作成：許可しない

他に必要な情報があればご指摘いただければ共有いたします。

よろしくお願いいたします。