EBシリーズサポート掲示板(終了:閲覧のみ可)
このフォームからは投稿できません。
name
e-mail
url
subject
comment

[記事リスト] [新着記事] [ワード検索] [過去ログ] [管理用]

記事No : 809
タイトル Re: xdoc2txtの文字化け
投稿日: 2015/06/20(Sat) 11:07:46
投稿者hishida

> お世話になります。
>
> xdoc2txtを使用させて頂いている中で、
> 以下のファイルに使用すると取り出した文字列が文字化けしました。
> 念のため御報告させて頂きます。
>
> 現状で文字化けしない方法があれば御教示頂ければ幸いです。
>
> ----------------------
> http://www2.tse.or.jp/disc/75380/140120150528494190.pdf
> http://www2.tse.or.jp/disc/77260/140120150615417747.pdf
> http://www2.tse.or.jp/disc/97350/140120150601499833.pdf
> http://www2.tse.or.jp/disc/19390/140120150605406554.pdf
> http://www2.tse.or.jp/disc/60960/140120150611414598.pdf

確認しましたが、これはオリジナルのPDFのほうの問題で文字の取得ができません。
Adobe reader でCopyしても文字化けします。
埋め込みフォントが使用されており、かつフォントと文字コードのマッピングがpdfファイルのなかに格納されていないためです。
事実上印刷専用のPDFとなっており、xdoc2txtに限らず、テキストを抽出することは無理だと思われます。


- 関連一覧ツリー (▼ をクリックするとツリー全体を一括表示します)