EBシリーズサポート掲示板(終了:閲覧のみ可)
このフォームからは投稿できません。
name
e-mail
url
subject
comment

[記事リスト] [新着記事] [ワード検索] [過去ログ] [管理用]

記事No : 874
タイトル Re: xdoc2txtにて表示上はない余計なテキストが表示される件
投稿日: 2016/05/09(Mon) 22:38:13
投稿者hishida

> 御世話になります。
>
> xdoc2txtを使っていたところ、例えばですが、
> 以下のPDFにてAcrobatの表示上は表示されないテキストが
> 表示されております。
>
> http://www2.tse.or.jp/disc/94490/140120160303427200.pdf
>
> 具体的には、
> このPDFの5枚目「第1号議案定款一部変更の件」とあるページの
> テキストでして、xdoc2txt使って見ると
> ページ末尾のテキストに目次のようなものが表示されます。
> (Acrobatで5枚目をみるとそのような文字列はありません。)
>
> KWIC等を使って検索するにも余計なテキストがヒットしてしまい、
> どうにかならないか、もしくは好奇心として何故なのか、
> ご教示頂きたく投稿させていただきました。
>
>
> 宜しく御願い申し上げます。

PDFに含まれる文字列要素を全て表示する仕様だからです。
OCRソフトが出力する透明テキストが抽出できることはxdoc2txtの大きなメリットだと思いますけどね。
余計なテキストかどうかは人間の主観なので、
テキスト抽出ソフトにとってはPDFに含まれているテキストは全て有用と考える以外に仕様の決めようはありません。
致命的な問題とは到底思えないので、対応は一切いたしません。


- 関連一覧ツリー (▼ をクリックするとツリー全体を一括表示します)