[リストへもどる]
一括表示
タイトルxdoc2txtにて表示上はない余計なテキストが表示される件
記事No870
投稿日: 2016/05/02(Mon) 01:19:24
投稿者ArtBox
御世話になります。

xdoc2txtを使っていたところ、例えばですが、
以下のPDFにてAcrobatの表示上は表示されないテキストが
表示されております。

http://www2.tse.or.jp/disc/94490/140120160303427200.pdf

具体的には、
このPDFの5枚目「第1号議案定款一部変更の件」とあるページの
テキストでして、xdoc2txt使って見ると
ページ末尾のテキストに目次のようなものが表示されます。
(Acrobatで5枚目をみるとそのような文字列はありません。)

KWIC等を使って検索するにも余計なテキストがヒットしてしまい、
どうにかならないか、もしくは好奇心として何故なのか、
ご教示頂きたく投稿させていただきました。


宜しく御願い申し上げます。

タイトルRe: xdoc2txtにて表示上はない余計なテキストが表示される件
記事No874
投稿日: 2016/05/09(Mon) 22:38:13
投稿者hishida
> 御世話になります。
>
> xdoc2txtを使っていたところ、例えばですが、
> 以下のPDFにてAcrobatの表示上は表示されないテキストが
> 表示されております。
>
> http://www2.tse.or.jp/disc/94490/140120160303427200.pdf
>
> 具体的には、
> このPDFの5枚目「第1号議案定款一部変更の件」とあるページの
> テキストでして、xdoc2txt使って見ると
> ページ末尾のテキストに目次のようなものが表示されます。
> (Acrobatで5枚目をみるとそのような文字列はありません。)
>
> KWIC等を使って検索するにも余計なテキストがヒットしてしまい、
> どうにかならないか、もしくは好奇心として何故なのか、
> ご教示頂きたく投稿させていただきました。
>
>
> 宜しく御願い申し上げます。

PDFに含まれる文字列要素を全て表示する仕様だからです。
OCRソフトが出力する透明テキストが抽出できることはxdoc2txtの大きなメリットだと思いますけどね。
余計なテキストかどうかは人間の主観なので、
テキスト抽出ソフトにとってはPDFに含まれているテキストは全て有用と考える以外に仕様の決めようはありません。
致命的な問題とは到底思えないので、対応は一切いたしません。