EBPocket / EBWin サポート掲示板(終了:閲覧のみ可)
このフォームからは投稿できません。
name
e-mail
url
subject
comment

[記事リスト] [新着記事] [ワード検索] [過去ログ] [管理用]

記事No : 2387
タイトル xdoc2txt 2.12 PDFファイルの文字化けと字間判定の不具合
投稿日: 2015/08/25(Tue) 15:29:52
投稿者jtsu

お久しぶりです。2年以上ぶりの投稿です。
xdoc2txt 2.12を利用させていただいています。

PDFの文字化けと字間判定の不具合について2点報告させてください。
確認したPDFは公安調査庁の「内外情勢の回顧と展望(平成27年版)」です。URLは以下の通り。
http://www.moj.go.jp/content/001131174.pdf
-----------------------------------------------------------------------
・0xFFFFより大きいUnicode文字(追加面)を正しく変換できない。
 具体例として、公安調査庁長官の氏名に使われている「脇」の常用外漢字(U+266B0)が、
 UTF-8だと 0xEDBAB0 に変換されてしまう。UTF-16LEだと U+DEB0 に変換されてしまう。
・字間判定に一貫性がないようにみえる。
-----------------------------------------------------------------------
以上です。