EBシリーズサポート掲示板(終了:閲覧のみ可)
このフォームからは投稿できません。
name
e-mail
url
subject
comment

[記事リスト] [新着記事] [ワード検索] [過去ログ] [管理用]

記事No : 793
タイトル Re^2: xdoc2txtのCOM.DLL版での文字化け
投稿日: 2015/04/25(Sat) 20:30:18
投稿者スコミール

VBScriptで、
xdoc2txt.exeコマンドライン版でUTF-8で抽出したテキストを、
バイナリで読み込んで
ADODB.Streamを使って、変換しても同様の文字化けが起こりました。

その文字化けをする文字が、"年月日"の"日"の文字なのですが、
文字化けする箇所としない箇所があり、よく調べてみると、

文字化けする"日"の文字コードは、U+2F47、バイナリだと"e2 bd 87"(http://www.charbase.com/2f47-unicode-kangxi-radical-sun)
が使われており、
文字化けしない"日"の文字コードは、U+65E5、バイナリだと"e6 97 a5"(http://www.charbase.com/65e5-unicode-cjk-unified-ideograph)
が使われていました。

大抵は日本語のPDFは後者を使用しているようなので、文字化けしないのですが、
希に、中国語?の"日"を使っている方は文字化けしてしまっておりました。

どうもVB(Unicode)では、扱えないのか、文字化けするようです。

この場合だと、読み込み前のバイナリの段階で"e2 bd 87"→"e6 97 a5"に
置換すると直りました。

こういった対処法しかないでしょうか?


- 関連一覧ツリー (▼ をクリックするとツリー全体を一括表示します)