[リストへもどる]
一括表示
タイトルxdoc2txtのエラーについて
記事No799
投稿日: 2015/05/14(Thu) 00:12:15
投稿者ArtBox
お世話になります。
xdoc2txtを使用させて頂いております。
大変重宝しております。

少し教えて頂きたいのですが、以下のPDFを対象とすると、
Inflate: incorrect header check
Error in (ファイル名)
のエラーが出てしまします。

これは、どういった原因でtext化できないのでしょうか。
原因が予測できる方がいらっしゃいましたら御意見または対応方法を賜りたく、
宜しく御願い申し上げます。

http://www2.tse.or.jp/disc/65810/140120140602078417.pdf
http://www2.tse.or.jp/disc/18840/140120140604081331.pdf
http://www2.tse.or.jp/disc/46610/140120140602078327.pdf
http://www2.tse.or.jp/disc/67580/140120140602078182.pdf

タイトルRe: xdoc2txtのエラーについて
記事No800
投稿日: 2015/05/14(Thu) 09:53:26
投稿者hishida
> お世話になります。
> xdoc2txtを使用させて頂いております。
> 大変重宝しております。
>
> 少し教えて頂きたいのですが、以下のPDFを対象とすると、
> Inflate: incorrect header check
> Error in (ファイル名)
> のエラーが出てしまします。
>
> これは、どういった原因でtext化できないのでしょうか。
> 原因が予測できる方がいらっしゃいましたら御意見または対応方法を賜りたく、
> 宜しく御願い申し上げます。
>
> http://www2.tse.or.jp/disc/65810/140120140602078417.pdf
> http://www2.tse.or.jp/disc/18840/140120140604081331.pdf
> http://www2.tse.or.jp/disc/46610/140120140602078327.pdf
> http://www2.tse.or.jp/disc/67580/140120140602078182.pdf



拝見しましたが、4番目の
140120140602078182.pdf
が読めないようです。他の3つは、一つ一つ個別に実行すればxdoc2txt で表示可能でした。
4番目のファイルは、128bit-AESによる暗号化でテキストコピー不許可になっているのが原因のようです。
コピーできないのが正常といえば正常ですが、落ちるのはまずいですね。
課題とさせてください。

タイトルRe^2: xdoc2txtのエラーについて
記事No801
投稿日: 2015/05/14(Thu) 23:52:48
投稿者ArtBox
> > お世話になります。
> > xdoc2txtを使用させて頂いております。
> > 大変重宝しております。
> >
> > 少し教えて頂きたいのですが、以下のPDFを対象とすると、
> > Inflate: incorrect header check
> > Error in (ファイル名)
> > のエラーが出てしまします。
> >
> > これは、どういった原因でtext化できないのでしょうか。
> > 原因が予測できる方がいらっしゃいましたら御意見または対応方法を賜りたく、
> > 宜しく御願い申し上げます。
> >
> > http://www2.tse.or.jp/disc/65810/140120140602078417.pdf
> > http://www2.tse.or.jp/disc/18840/140120140604081331.pdf
> > http://www2.tse.or.jp/disc/46610/140120140602078327.pdf
> > http://www2.tse.or.jp/disc/67580/140120140602078182.pdf
>
>
>
> 拝見しましたが、4番目の
> 140120140602078182.pdf
> が読めないようです。他の3つは、一つ一つ個別に実行すればxdoc2txt で表示可能でした。
> 4番目のファイルは、128bit-AESによる暗号化でテキストコピー不許可になっているのが原因のようです。
> コピーできないのが正常といえば正常ですが、落ちるのはまずいですね。
> 課題とさせてください。


御返信、有難う御座います。
実際に試してまで頂きまして恐縮です。

1つ1つ対応する方法は試していませんでした。失礼しました。
一括して処理するにはどうしたら良いかは自分で考えてみたいと思います。

また、不躾ですが、もし可能であれば、
以下のファイルも試して頂けませんか?

少しずつ可能なPDFの範囲が分かってきたものの、
@とAができない理由とBが可能な理由が調査できませんでした。

御話できないこともあることとは思いますが、
若干でもご意見を頂ければ助かります。
宜しくお願い申し上げます。

@
http://www2.tse.or.jp/disc/53020/140120150306406513.pdf
A
http://www2.tse.or.jp/disc/62780/140120150203017877.pdf
B
http://www2.tse.or.jp/disc/97470/140120150304404197.pdf

タイトルRe^3: xdoc2txtのエラーについて
記事No826
投稿日: 2015/08/25(Tue) 12:42:47
投稿者hishida
1,2,3についてはこれ以上の調査は困難です。

4番目の
140120140602078182.pdf

128bit-AES暗号化PDFが読めない問題は、
xdoc2txt 2.13 で修正できました。

目下のところ、xdoc2txtで仕様上明らかに読めないことがわかっているのは、
PDF 1.7 Adobe Extension Level 3 以降の256bit-AES暗号化です。
こちらは資料調査中です。