EBシリーズサポート掲示板(終了:閲覧のみ可)
このフォームからは投稿できません。
name
e-mail
url
subject
comment

[記事リスト] [新着記事] [ワード検索] [過去ログ] [管理用]

記事No : 792
タイトル Re: xdoc2txtのCOM.DLL版での文字化け
投稿日: 2015/04/25(Sat) 17:25:27
投稿者hishida

> お忙しいところ失礼いたします。
>
> xdoc2txtのCOM.DLL版で、
>
> Set obj = CreateObject("xd2txcom.Xdoc2txt.1")
> fileText = obj.ExtractText("sample.pdf",False)
>
> UTF-8でエンコードされたPDFファイルからテキストを抽出する際に、
> 一部文字化け(正確には一部の文字が"?"に変換されます)してしまいます。
>
> 勿論、コマンドライン版では、"-8"オプションを指定することで、正常なテキストを抽出できます。
> COM.DLL版ではそのオプションが設定できない以上、どうしようもない問題なのでしょうか?

COMから受け渡される文字列はBSTR型で、内部Unicodeのはずです。
表示段階でShiftJISへの変換が起きているのではないでしょうか。


- 関連一覧ツリー (▼ をクリックするとツリー全体を一括表示します)