[リストへもどる]
一括表示
タイトルPDF内の一部文字が抽出できない
記事No880
投稿日: 2016/07/06(Wed) 18:07:25
投稿者shohei
xdoc2txtをいつも利用させていただいております。ありがとうございます。
PDFからテキストを抽出している中で、
以下のような現象が発生しております。PDFの作りが悪い場合は
PDFを修正したいのですが、何が悪いのか分からず、質問させてください。

1.PDF内の数値部分が抽出できない項目がある。
 PDF内に年月日や、金額など数値部分の文字列抽出ができないケースがあります。
  例えば、2016年02月15日とPDF内に記載されている箇所をxdoc2txtで
  文字列抽出すると、▲▲年▲▲月▲▲日(▲は半角スペース)となります。
  また、1%と記載がある時、▲▲となってしまいます。(%も抽出できていない)


2.PDFからテキストが全く抽出できない。
 コマンドラインでxdoc2txtを使用して、文字列抽出をしようとすると、
  inflate: incorrect header check
  error in <ファイル名>
 とメッセージが出力され、PDFからテキストを抽出することができません。

1,2のファイルのプロパティを以下に記載いたします。
<概要>
 PDF変換:iTextSharp 5.4.4 2000-2013 1T3XT BVBA (AGPL-version)
 PDFのバージョン:1.4(Acrobat 5.x)

<セキュリティ>
 <文書のセキュリティ>
  文書セキュリティ:セキュリティ方法 パスワードによるセキュリティ
  互換性があるバージョン: Acrobat5.0およびそれ以降

 <文書に関する制限の概要>
  印刷:許可
  文書アセンブリ:許可しない
  内容のコピー:許可
  アクセシビリティのための内容の抽出:許可
  ページの抽出:許可しない
  注釈:許可しない
  フォームフィールドの入力:許可しない
  署名:許可しない
  テンプレートページの作成:許可しない

他に必要な情報があればご指摘いただければ共有いたします。

よろしくお願いいたします。